Algoritma Machine Learning untuk Clustering
Analisis clustering adalah suatu teknik yang dapat digunakan untuk mengenali kelompok-kelompok yang dihasilkan dari pengelompokkan unsur yang lebih kecil berdasarkan adanya kemiripan satu sama lain.
Mengapa ini Penting?
Clustering sangat bermanfaat untuk menemukan pola pada dataset yang tidak berlabel. Bayangkan jika anda memiliki sebuah dataset yang tidak berlabel dengan jumlah yang sangat besar, namun anda belum mengetahui banyak tentang karakteristik data tersebut. Disinilah clustering sangat berperan, karena dia dapat mengelompokkan data berdasarkan kemiripan karakteristiknya.
Beberapa aplikasi clustering diantaranya adalah:
Topic modelling
Customer segmentation
Social network analysis
Dimensional reduction
Anomaly detection
Apa Saja yang akan Dipelajari?
Di materi ini, kita akan belajar mengenai intuisi dibalik algoritma clustering. Bagaimana algoritma tersebut bekerja dari menghitung kemiripan karakteristik antar data hingga membentuk kelompok-kelompok data tersebut.
Kita juga akan mencoba mempelajari penerapan algoritma clustering melalui case study seperti topic modelling, customer segmentation, dan dimensional reduction. Case study yang dibangun pada materi ini akan banyak mengacu pada case dan dataset yang ada di Kaggle dan Datacamp.
Sub Topik
Unsupervised Learning
Pada topik ini, kita akan terlebih dahulu mengenal apa itu unsupervised learning dan perbedaannya dengan supervised learning. Kita juga akan membahas lebih dalam terkait penerapan unsupervised learning dalam permasalahan sehari-hari.
Clustering
Di topik ini kita akan membahas lebih dalam mengenai salah satu cabang unsupervised learning yaitu clustering. Kita juga membahas bagaimana sebuah cluster terbentuk serta algoritma-algoritma apa saja yang dapat digunakan.
Dimensionality Reduction
Selanjutnya kita akan membahas lebih jauh salah satu penerapan clustering, yaitu dimensionality reduction. Kita akan mengenal apa itu dimensionality reduction, apa kegunaannya, serta bagaimana implementasinya pada proyek data science kita.
Case Study #1 — Basic Clustering
Di case study pertama ini, kita mulai dari kasus yang paling sederhana terlebih dahulu. Kita akan menggunakan dataset yang sudah cukup populer, yaitu iris.
Case Study #2 — Topic Modelling
Di study case kedua, kita akan menerapkan clustering pada level yang lebih tinggi yaitu NLP. Kita juga akan mengenal bagaimana ekstraksi fitur pada sebuah data teks, kemudian mengubahnya menjadi vektor / matriks untuk nantinya digunakan pada model machine learning.
Case Study #3 — Customer Segmentation
Di study case ketiga, kita akan mengenal penerapan clustering pada segmen bisnis/marketing. Disini kita akan mencoba untuk mencari tahu bagaimana segmentasi pelanggan di sebuah lini bisnis.
Sumber Materi
Buku
Blog
Last updated