Algoritma Machine Learning untuk Clustering

Analisis clustering adalah suatu teknik yang dapat digunakan untuk mengenali kelompok-kelompok yang dihasilkan dari pengelompokkan unsur yang lebih kecil berdasarkan adanya kemiripan satu sama lain.

Mengapa ini Penting?

Clustering sangat bermanfaat untuk menemukan pola pada dataset yang tidak berlabel. Bayangkan jika anda memiliki sebuah dataset yang tidak berlabel dengan jumlah yang sangat besar, namun anda belum mengetahui banyak tentang karakteristik data tersebut. Disinilah clustering sangat berperan, karena dia dapat mengelompokkan data berdasarkan kemiripan karakteristiknya.

Beberapa aplikasi clustering diantaranya adalah:

  • Topic modelling

  • Customer segmentation

  • Social network analysis

  • Dimensional reduction

  • Anomaly detection

Apa Saja yang akan Dipelajari?

Di materi ini, kita akan belajar mengenai intuisi dibalik algoritma clustering. Bagaimana algoritma tersebut bekerja dari menghitung kemiripan karakteristik antar data hingga membentuk kelompok-kelompok data tersebut.

Kita juga akan mencoba mempelajari penerapan algoritma clustering melalui case study seperti topic modelling, customer segmentation, dan dimensional reduction. Case study yang dibangun pada materi ini akan banyak mengacu pada case dan dataset yang ada di Kaggle dan Datacamp.

Sub Topik

Unsupervised Learning

Pada topik ini, kita akan terlebih dahulu mengenal apa itu unsupervised learning dan perbedaannya dengan supervised learning. Kita juga akan membahas lebih dalam terkait penerapan unsupervised learning dalam permasalahan sehari-hari.

Clustering

Di topik ini kita akan membahas lebih dalam mengenai salah satu cabang unsupervised learning yaitu clustering. Kita juga membahas bagaimana sebuah cluster terbentuk serta algoritma-algoritma apa saja yang dapat digunakan.

Dimensionality Reduction

Selanjutnya kita akan membahas lebih jauh salah satu penerapan clustering, yaitu dimensionality reduction. Kita akan mengenal apa itu dimensionality reduction, apa kegunaannya, serta bagaimana implementasinya pada proyek data science kita.

Case Study #1 — Basic Clustering

Di case study pertama ini, kita mulai dari kasus yang paling sederhana terlebih dahulu. Kita akan menggunakan dataset yang sudah cukup populer, yaitu iris.

Case Study #2 — Topic Modelling

Di study case kedua, kita akan menerapkan clustering pada level yang lebih tinggi yaitu NLP. Kita juga akan mengenal bagaimana ekstraksi fitur pada sebuah data teks, kemudian mengubahnya menjadi vektor / matriks untuk nantinya digunakan pada model machine learning.

Case Study #3 — Customer Segmentation

Di study case ketiga, kita akan mengenal penerapan clustering pada segmen bisnis/marketing. Disini kita akan mencoba untuk mencari tahu bagaimana segmentasi pelanggan di sebuah lini bisnis.

Sumber Materi

Buku

Blog

Last updated