Seperti yang sudah sering disebutkan dalam artikel-artikel sebelumnya (baca:
AI dan Machine learning,
Fase naik turun Kecerdasan Buatan), saat ini
machine learning kembali menjadi idola dalam riset-riset kecerdasan buatan. Apalagi setelah diperkenalkannya
deep learning pada tahun 2006 dan diikuti dengan munculnya GPU Server pada tahun 2009. Dalam dunia akademik,
machine learning saat ini juga menjadi salah satu topik riset yang diminati baik untuk skripsi, tesis mahasiswa atau bahkan penelitian mandiri yang dilakukan dosen-dosen di bidang TI. Lalu apa yang bisa diteliti dari Machine Learning? Salah satunya adalah tentang bagaimana meningkatkan performa dari suatu metode dalam machine learning. Jasson Brownlee dalam
Machine Learning Mastery mencatat bahwa secara garis besar terdapat 4 cara untuk melakukan
improve terhadap performa
machine learning. Keempat cara tersebut adalah sebagai berikut:
- Peningkatan performa dengan Data.
- Peningkatan performa dengan Algoritma
- Peningkatan performa dengan Tuning.
- Peningkatan performa dengan Ensembles.
Selanjutnya tulisan ini akan mencoba membahas terlebih dahulu salah satu strategi peningkatan performa
machine learning dengan mengotak-atik data. Mudah-mudahan ke depan dapat diikuti dengan pembahasan mengenai peningkatan performa dengan
algoritma, tuning dan
ensembles.
Data adalah "makanan pokok" dari sebuah
machine learning. Jadi
machine learning yang canggih pun tidak berarti apa-apa tanpa adanya data. Data merupakan bahan yang digunakan untuk melakukan pembelajaran (
training) sehingga mesin dapat mengeluarkan hasil analisis yang benar tentang sesuatu. Sebagai contoh jika kita akan membuat machine learning yang mampu mengenali seekor kucing, maka untuk kebutuhan
training perlu disediakan data yang berupa ratusan, ribuan atau bahkan jutaan gambar kucing. Setelah training selesai dilakukan, maka diharapkan mesin dapat mengenali gambar kucing dalam berbagai pose dan bentuk. Lalu bagaimana melakukan strategi peningkatan performa mesin dengan mengotak-atik data? Untuk itu, cobalah berkreasi dengan data Anda. Cobalah memikirkan perpektif baru dan berbeda pada data Anda. Berikut adalah beberapa hal yang bisa dilakukan.
Cari lebih banyak data.
Hal ini penting dilakukan karena metode machine learning modern non-linear seperti deep learning membutuhkan lebih banyak data untuk meningkatkan performanya. Teknik peramalan iklim misalnya, membutuhkan data yang sangat besar bahkan sampai 30 tahun terakhir data iklim harian untuk kebutuhan training dan testing.
Menciptakan alternatif data sendiri.
Jika Anda tidak mendapatkan lebih banyak data, maka lakukan
generate data untuk menciptakan sendiri data tersebut. Salah satu caranya adalah dengan agumentasi dan permutasi data. Augmentasi merupakan teknik manipulasi data tanpa kehilangan inti atau esensi dari data tersebut. Sebagai contoh jika Anda memerlukan 1000 gambar kucing, tetapi ternyata hanya mendapatkan 700 gambar, maka Anda bisa melakukan
rotate, flip atau bahkan
crop terhadap gambar-gambar yang sudah ada sehingga kebutuhan akan 1000 gambar tersebut terpenuhi.
Pembersihan Data (Data Cleansing).
Membersihkan data dapat meningkatkan performa machine learning. Pembersihan data yang dimaksud adalah proses mendeteksi data-data yang rusak, tidak lengkap, tidak akurat atau memiliki memiliki format yang tidak sesuai. Data tersebut kemudian dapat dibersihkan dengan cara mengubah, mengoreksi atau bahkan menghapusnya jika perlu.
Resampling Data.
Resampling adalah melakukan sampling kembali terhadap data sampel yang sudah dikoleksi sebelumnya. Resampling adalah melakukan sampling terhadap data sampel yang sudah dikoleksi. Beberapa teknik yang dapat digunakan untuk resampling diantaranya adalah Bootstrap untuk mengevaluasi seberapa baik statistic dapat mengestimasi parameter. Serta Jacknife, yaitu teknik resampling yang digunakan terutama apabila terdapat nilai-nilai pencilan pada data. Pada teknik tersebut, nilai pencilan dikeluarkan satu-persatu lalu sampai akhirnya dilakukan resampling pada data yang tidak memiliki pencilan lagi.
Feature Selection.
Feature selection atau seleksi fitur adalah salah satu metode yang digunakan untuk mengurangi dimensi data, menghilangkan data yang tidak relevan, serta meningkatkan hasil akurasi. Seleksi fitur merupakan cara untuk memberikan hasil yang terbaik pada
machine learning. Pekerjaan utama seleksi fitur adalah memilih fitur yang akan digunakan dan mengkombinasikan fitur-fitur tersebut untuk menghasilkan konsep induksi yang benar atau hasil yang sesuai.
Feature Engineering.
Feature engineering atau rekayasa fitur adalah proses menggunakan domain pengetahuan dari data untuk membuat fitur sendiri sehingga algoritma pembelajaran mesin dapat bekerja. Fitur dibuat dari data mentah untuk membantu memfasilitasi proses dalam
machine learning. Dalam kalangan ahli komputasi, menyebut bahwa rekayasa fitur adalah seni. Jika rekayasa fitur dilakukan dengan benar, hal itu dapat meningkatkan kekuatan prediksi dari sebuah algoritma
machine learning.
Literatur :
- Machine Learning Mastery, jasson Brownlee
Baca juga :