SUPERVISE LEARNING (KLASIFIKASI)
&
30 ALGORITMA(KLASIFIKASI) YANG ADA DIDALAMNYA
Apa Itu Supervised Learning (Klasifikasi)?
Supervised Learning adalah metode dalam machine learning di mana model dilatih menggunakan data yang sudah diberi label. Data yang dilabeli ini terdiri dari fitur-fitur input dan output yang diketahui. Model belajar dari data ini untuk memprediksi output yang benar ketika diberikan data baru.
Klasifikasi adalah jenis supervised learning di mana output yang diprediksi adalah kategori atau kelas. Misalnya, klasifikasi dapat digunakan untuk mengidentifikasi apakah email adalah spam atau bukan, atau untuk mengenali digit tulisan tangan.
Algoritma Klasifikasi dalam Supervised Learning
Berikut adalah penjelasan dari 30 algoritma klasifikasi yang umum digunakan dalam supervised learning:
Logistic Regression
- Deskripsi: Algoritma ini digunakan untuk memprediksi probabilitas kejadian suatu peristiwa dengan fungsi logit. Meskipun disebut regresi, ia digunakan untuk tugas klasifikasi biner.
K-Nearest Neighbors (KNN)
- Deskripsi: Algoritma ini mengklasifikasikan data berdasarkan kategori mayoritas dari K tetangga terdekatnya dalam ruang fitur. Contohnya klasifikasi gambar wajah menjadi kategori yang berbeda.
Support Vector Machine (SVM)
- Deskripsi: Algoritma ini mencari hyperplane terbaik yang memisahkan data dari dua kelas dalam ruang fitur berdimensi tinggi.
Naive Bayes
- Deskripsi: Algoritma probabilistik ini mengasumsikan independensi antar fitur dan menghitung probabilitas berdasarkan Teorema Bayes. Contohnya klasifikasi teks, seperti analisis sentimen.
Decision Tree
- Deskripsi: Algoritma ini menggunakan struktur pohon untuk membuat keputusan berdasarkan fitur input, membagi data pada setiap simpul internal.
Random Forest
- Deskripsi: Algoritma ini menggunakan banyak pohon keputusan (decision trees) dan menggabungkan hasilnya untuk meningkatkan akurasi dan mengurangi overfitting. Contohnya klasifikasi jenis penyakit berdasarkan gejala.
Gradient Boosting Machines (GBM)
- Deskripsi: Algoritma ini membangun model prediktif secara bertahap dengan menggabungkan banyak model lemah (weak models), biasanya pohon keputusan.
XGBoost
- Deskripsi: Implementasi efisien dari algoritma gradient boosting yang dioptimalkan untuk kecepatan dan performa.
AdaBoost
- Deskripsi: Algoritma boosting yang menambahkan model lemah secara berurutan dan memberi bobot lebih pada kesalahan prediksi sebelumnya. Contohnya klasifikasi risiko kredit.
CatBoost
- Deskripsi: Algoritma gradient boosting yang dioptimalkan untuk menangani data kategori dan missing values.
LightGBM
- Deskripsi: Implementasi gradient boosting yang dirancang untuk kecepatan dan efisiensi, terutama pada dataset besar.
Linear Discriminant Analysis (LDA)
- Deskripsi: Algoritma ini mencari kombinasi linear dari fitur yang memisahkan dua atau lebih kelas. Contohnya klasifikasi gambar dalam pengenalan wajah.
Quadratic Discriminant Analysis (QDA)
- Deskripsi: Mirip dengan LDA, tetapi mengasumsikan distribusi Gaussian yang berbeda untuk setiap kelas. Contohnya klasifikasi jenis bunga dalam dataset iris.
Stochastic Gradient Descent (SGD) Classifier
- Deskripsi: Algoritma ini mengoptimalkan model menggunakan pendekatan gradient descent secara bertahap dan acak. Contohnya klasifikasi teks dalam pengolahan bahasa alami.
Perceptron
- Deskripsi: Algoritma dasar dari jaringan saraf yang digunakan untuk klasifikasi biner.
Multi-Layer Perceptron (MLP)
- Deskripsi: Jaringan saraf tiruan dengan satu atau lebih lapisan tersembunyi yang digunakan untuk klasifikasi. Contohnya pengenalan karakter tulisan tangan.
Convolutional Neural Network (CNN)
- Deskripsi: Jaringan saraf yang dioptimalkan untuk pengenalan gambar dengan menggunakan operasi konvolusi.
Recurrent Neural Network (RNN)
- Deskripsi: Jaringan saraf yang digunakan untuk data berurutan dengan mempertimbangkan konteks sebelumnya.
Long Short-Term Memory (LSTM)
- Deskripsi: Jenis RNN yang mengatasi masalah pelatihan pada urutan panjang dengan mekanisme memori khusus.
Gated Recurrent Unit (GRU)
- Deskripsi: Varian RNN yang lebih sederhana dibandingkan LSTM namun tetap efektif untuk data sekuensial.
Extreme Learning Machine (ELM)
- Deskripsi: Algoritma jaringan saraf dengan pelatihan cepat yang mengacak bobot lapisan tersembunyi. Contohnya klasifikasi data medis.
Radial Basis Function (RBF) Network
- Deskripsi: Jaringan saraf dengan fungsi aktivasi berbasis jarak yang digunakan untuk klasifikasi. Contohnya pengenalan pola dalam sinyal biologis.
Bayesian Network
- Deskripsi: Model graf probabilistik yang mewakili sekumpulan variabel acak dan ketergantungannya.
Hidden Markov Model (HMM)
- Deskripsi: Model statistik untuk data urutan yang menggambarkan sistem yang berubah-ubah dengan keadaan tersembunyi. Contohnya pengenalan ucapan.
Voting Classifier
- Deskripsi: Kombinasi dari beberapa algoritma klasifikasi yang menggabungkan prediksi mereka dengan voting mayoritas. Untuk Meningkatkan akurasi klasifikasi teks.
Bagging Classifier
- Deskripsi: Teknik ensemble yang menggabungkan hasil dari beberapa model yang dilatih dengan subset data yang berbeda. Contohnya Klasifikasi risiko finansial.
Stacking Classifier
- Deskripsi: Algoritma ensemble yang menggabungkan prediksi dari beberapa model dasar melalui model meta.
Gaussian Naive Bayes
- Deskripsi: Varian Naive Bayes yang mengasumsikan bahwa fitur mengikuti distribusi Gaussian.
Bernoulli Naive Bayes
- Deskripsi: Varian Naive Bayes yang digunakan untuk data biner.
Multinomial Naive Bayes
- Deskripsi: Varian Naive Bayes yang digunakan untuk data dengan jumlah kejadian fitur. Contohnya klasifikasi dokumen dalam analisis teks.
Masing-masing algoritma ini memiliki kelebihan dan kekurangan tersendiri serta cocok untuk berbagai jenis data dan masalah klasifikasi. Pemilihan algoritma yang tepat sangat bergantung pada karakteristik data dan tujuan analisis.
0 comments:
Posting Komentar