Klaster R Support Group

Sumber gambar: R Programming at Coursera, coursera.org

Klaster

R adalah sebuah bahasa pemrograman open source yang berfokus pada komputasi statistika dan visualisasi data. Saat ini, banyak sekali program PhD yang menggunakan R sebagai software utama untuk analisa data. Dengan semangat saling sharing dan kolaborasi, Klaster Keilmuan Doctrine UK ‘R Support Group’ didirikan supaya masalah-masalah terkait pemrograman dan analisa data dengan R dapat dijawab dan dicarikan solusinya dengan cepat. Harapannya, akan ada juga sesi sharing rutin sesama anggota mengenai aplikasi R di bidang yang ditekuni masing-masing.

Salah satu kegiatan Klaster adalah sharing session Intro to Machine Learning with R dengan pemateri Novri Suhermi, mahasiswa doctoral bidang Applied Social Statistics di Lancaster University, pada Jumat 25 Nov 2022, 19.00-21.00 GM. Kegiatan dilaksanakan secara daring melalui kanal Zoom.
Intro to ML with R bertujuan untuk memperkenalkan secara umum apa itu Machine Learning (ML) dan belajar aplikasi pemodelan ML dengan menggunakan bahasa pemrograman R. Machine Learning dapat didefiniskan sebagai mencari pola atau ‘program’ dari data yang kita punya. Bisa dibagi kurang lebih menjadi tiga kategori: Supervised learning (ada input dan output, contohnya forecasting saham, spam filter untuk email), unsupervised learning (hanya ada input tidak ada output, contohnya segmentasi customer untuk marketing), dan reinforcement learning (algoritma belajar untuk mencapai tujuan tertentu dengan memaksimalkan fungsi ‘reward’, contohnya AlphaGO yang belajar memainkan permainan GO). Fokus dari sesi kali ini adalah untuk mengupas metode-metode yang ada di supervised learning -> ada input variable X dan output variable Y.
Sebelum masuk pemodelan, ada pengenalan workflow dalam project machine learning, dari menentukan tujuan dari pemodelan, persiapan data, pemodelan, lalu deployment model di proses produksi. Ketika workshop, banyak metode supervised learning yang diajarkan dari metode-metode regresi dan pemodelan untuk peubah Y yang continuous (regresi, decision tree, random forest, generalised additive model, support vector machine), problem klasifikasi (CART, gradient boost algorithm), dan forecasting untuk data time series (ARIMA, ARIMAX, prophet).
Untuk setiap pemodelan, diperkenalkan juga metode-metode untuk memilih model terbaik dengan membandingkan beberapa skor kebaikan model seperti RMSE dan MAPE. Diskusi berjalan menarik dengan banyak pertanyaan dari audiens terkait persiapan data dan pemilihan model.
***