DATA PREPARATION 

&

DATA VISUALIZATION

Matakuliah Data Mining


1. Data Preparation

Data preparation adalah proses persiapan data sebelum data tersebut dapat digunakan untuk analisis atau pemodelan. Tujuan utama dari data preparation adalah untuk memastikan bahwa data yang digunakan dalam analisis atau pemodelan adalah data yang bersih, relevan, dan siap untuk digunakan.

Tahapan Data Preparation:

  1. Pembersihan data: Identifikasi dan penanganan nilai yang hilang, duplikat, atau tidak valid.
  2. Transformasi data: Standarisasi format data, konversi tipe data, atau pengkodean variabel kategorikal.
  3. Integrasi data: Menggabungkan data dari berbagai sumber jika diperlukan.
  4. Reduksi dimensi: Pemilihan fitur atau reduksi dimensi untuk mengurangi kompleksitas data jika diperlukan.

Fungsi Data Preparation:

  1. Memastikan kualitas data yang baik untuk analisis atau pemodelan.
  2. Mempersiapkan data agar sesuai dengan format atau struktur yang diperlukan untuk algoritma pemodelan tertentu.
  3. Mengurangi noise atau ketidakpastian dalam data.
  4. Mempermudah analisis dan pemodelan data dengan menyediakan dataset yang bersih dan terstruktur.

Contoh Implementasi Data Preparation :


1.) Pada bagian : 
print("Jumlah missing values per kolom:")
print(dataset.isnull().sum())

kita menggunakan metode .isnull() untuk mengidentifikasi nilai yang hilang dalam dataset. Kemudian, kita menggunakan .sum() untuk menghitung jumlah nilai yang hilang per kolom. Hasilnya adalah jumlah nilai yang hilang untuk setiap kolom dalam dataset.

2.) Pada bagian ini :
dataset_cleaned = dataset.dropna()

Kode ini digunakan untuk menghapus baris yang memiliki nilai yang hilang dari dataset. Fungsi .dropna() digunakan untuk menghapus baris yang memiliki nilai yang hilang. Hasilnya adalah dataset yang telah dibersihkan dari nilai yang hilang.

3.) Pada bagian ini :
print("Jumlah duplicate data:", dataset_cleaned.duplicated().sum())

Bagian ini digunakan untuk memeriksa apakah ada data duplikat dalam dataset yang telah dibersihkan. Kita menggunakan .duplicated() untuk mengidentifikasi baris yang merupakan duplikat, dan kemudian menggunakan .sum() untuk menghitung jumlah baris duplikat.

4.) Pada bagian ini :
dataset_cleaned = dataset_cleaned.drop_duplicates()

Pada bagian ini, kita menggunakan .drop_duplicates() untuk menghapus baris yang merupakan duplikat dari dataset yang telah dibersihkan sebelumnya. Hasilnya adalah dataset yang tidak memiliki data duplikat.

Output data preparation :


2. Data Visualization


Data visualization adalah proses representasi grafis dari data dan informasi untuk memudahkan pemahaman, analisis, dan komunikasi. Tujuan utama dari data visualization adalah untuk menyajikan data secara visual agar dapat diinterpretasikan dengan lebih mudah.

Tahapan Data Visualization:

  1. Memilih jenis plot atau grafik yang sesuai dengan tipe data dan tujuan visualisasi.
  2. Memilih variabel atau atribut yang akan divisualisasikan.
  3. Membuat plot atau grafik menggunakan perangkat lunak atau library visualisasi seperti matplotlib, seaborn, atau ggplot2.
  4. Menyesuaikan atribut visual seperti warna, label, atau skala jika diperlukan.
  5. Menganalisis dan menafsirkan hasil visualisasi untuk mendapatkan wawasan tentang data.

Fungsi Data Visualization:

  1. Memvisualisasikan pola, tren, atau hubungan dalam data secara intuitif.
  2. Membantu dalam eksplorasi data dan pemahaman karakteristik data.
  3. Membuat presentasi atau laporan yang efektif untuk menyampaikan informasi kepada audiens.
  4. Mendukung pengambilan keputusan dengan menyediakan wawasan yang kuat dari data.

Contoh Implementasi Data Visualization :


A.) Bar Plot (Diagram Batang):
  1. Bar plot digunakan untuk menampilkan distribusi frekuensi dari variabel kategorikal.
  2. Sumbu x menunjukkan kategori atau label dari variabel kategorikal, dalam hal ini "race/ethnicity".
  3. Sumbu y menunjukkan jumlah atau frekuensi kemunculan setiap kategori.
  4. Setiap batang merepresentasikan jumlah data dalam setiap kategori.
B.) Pie Chart (Diagram Lingkaran):
  1. Pie chart digunakan untuk menampilkan proporsi atau persentase dari setiap kategori dalam satu keseluruhan.
  2. Setiap bagian dari lingkaran mewakili persentase dari total data.
  3. Label pada pie chart menunjukkan kategori atau label dari variabel kategorikal, dalam hal ini "race/ethnicity".
C.) Seaborn Pairplot:
  1. Seaborn pairplot adalah alat visualisasi yang berguna untuk melihat distribusi dan hubungan antar variabel numerik.
  2. Setiap sel pada pairplot adalah scatter plot dari dua variabel numerik yang berbeda.
  3. Dalam kasus ini, pairplot digunakan untuk memperlihatkan hubungan antara skor matematika, skor membaca, dan skor menulis, dengan warna yang membedakan berdasarkan ras/etnis siswa.
Output :

1.) Bar Chart


2.) Pie Chart

3.)  Seaborn Pairplot