KUIS PERTEMUAN 5 DATA MINING


A.) Artikel Website PDF

link download pdf

click aku

B.) Video Pembahasan / Presentasi


C.) Artikel Website

Artikel Website didalam blogspot

Soal !

Selesaikan secara mandiri
Anda diberikan data transkrip nilai dan data lulusan dari universitas melalui API. Data transkrip nilai mencakup detail nilai yang diperoleh mahasiswa untuk mata kuliah yang diambil. Data lulusan memberikan informasi demografis dan akademik mahasiswa, termasuk tanggal masuk dan lulus, serta predikat kelulusan. (API Dokumentasi : https://documenter.getpostman.com/view/6355959/2sA35HY1XM atau dapat di lihat pada bagian FInal Project Information ).
1. Integrasi dan Pembersihan Data.

  • Cari IPS setiap semester permahasiswa. ini bisa memudahkan untuk normalisasi data
  • Gabungkan IPS permahasiswa dengan dataset yang lainya ("ms_lulusan") berdasarkan NIM.
  • Tambahkan hasil dari durasi studi masing-masing mahasiswa
  • Lakukan pembersihan data, termasuk mengidentifikasi dan mengatasi nilai yang hilang atau tidak konsisten dalam data. Hilangkan mahasiswa pindahan.
  • Standardisasi format tanggal dan jenis kelamin untuk analisis lebih lanjut.

2. Analisis

  • Cari pola atau tren yang paling mempengaruhi dengan lulusan tepat waktu atau lama masa studi, misal :
  1. Analisis apakah ada hubungan antara nilai rata-rata mata kuliah atau IPS dengan lulusan tepat waktu. 
  2. Analisis apakah ada korelasi positif antara predikat kelulusan 'Pujian' dengan lulusan tepat waktu
  3. Analisis untuk melihat apakah durasi studi lebih pendek berkorelasi dengan predikat kelulusan yang lebih baik
  4. Hitung rata-rata nilai total untuk masing-masing jenis kelamin dan bandingkan untuk melihat apakah ada perbedaan signifikan dalam prestasi akademik berdasarkan jenis kelamin
  5. atau gabungan dari beberapa variabel yang mempengaruhi lulusatepat waktu

3. Laporan dan Presentasi

  • Sajikan hasil analisis dalam bentuk laporan tertulis yang lengkap dengan grafik atau tabel yang mendukung hasil analisis.

Kriteria Penilaian

  • Kemampuan untuk melakukan integrasi dan pembersihan data
  • Keefektifan dalam menerapkan teknik analisis statistik 
  • Kemampuan analisis untuk menemukan pola dan tren yang signifikan.
  • Kedalaman analisis dan kreativitas dalam mengeksplorasi data
  • Kelengkapan dan kejelasan laporan akhir, termasuk penggunaan visualisasi data

Di buat dalam bentuk artikel website & tersedia format PDF untuk di dowload. yang dikumpulkan adalah LINK ARTIKEL DI WEBSITE.


JAWABAN !

Pendahuluan

Dalam upaya untuk meningkatkan tingkat kelulusan tepat waktu di Universitas Buana Perjuangan Karawang, Penulis melakukan analisis data terperinci untuk memahami faktor-faktor yang mempengaruhi kelulusan mahasiswa. Dengan memanfaatkan data transkrip nilai dan data lulusan melalui API universitas, Penulis menerapkan integrasi, pembersihan data, dan analisis statistik untuk mengeksplorasi pola dan tren yang signifikan.

Data diambil menggunakan API, Saya melakukan convert ke file csv supaya memudahkan running code, karena efiesiensi yang tinggi dan tidak memerlukan get data melalui API. Berikut gambar atau dokumentasi code untuk get data transkrip nilai dan ms lulusan.

Gambar 1 Get Data API dan Convert API to CSV Transkrip Nilai

Gambar 2 Get Data API dan Convert API to CSV Ms Lulusan

Berdasarkan Gambar 1 dan Gambar 2, didapat hasil bahwa data transkrip nilai berisi 256299 data, sementara ms lulusan berisi 4542 data. Data tersebut kemudian akan digunakan dalam mengisi Kuis Dibawah ini.

Pembahasan

1.   Integrasi dan Pembersihan Data.

a.   Cari IPS setiap semester permahasiswa. ini bisa memudahkan untuk normalisasi data

Gambar 3 EDA DataFrame Transkrip Nilai

Exploratory Data Analysis atau EDA yang berada di Gambar 3 menunjukan beberapa kolom. Berdasarkan soal a, kita memerlukan pemahaman terhadap DataFrame. Setelah menganalisis, Didapat hasil pada Gambar 4.

Gambar 4 Mencari IPS setiap semester permahasiswa

Gambar 4 menunjukan pengelompokkan data transkrip berdasarkan Nomor Induk Mahasiswa (NIM) dan semester. Pada code tersebut menjelaskan perhitungan rata-rata Indeks Prestasi Semester (IPS) untuk setiap mahasiswa pada setiap semester. Perhitungan dilakukan dengan mengalikan nilai grade dengan jumlah SKS untuk setiap mata kuliah, menjumlahkannya, dan kemudian membagi hasilnya dengan total SKS untuk semester tersebut, lalu  nilai IPS dibulatkan menjadi desimal.

b.  Gabungkan IPS permahasiswa dengan dataset yang lainya ("ms_lulusan") berdasarkan NIM

Gambar 5 Menggabungkan IPS permahasiswa dengan dataset ms lulusan

Gambar 5 menunjukan penggabungan IPS per mahasiswa dengan dataset ms lulusan. Penggabungan ini berdasarkan Nomor Induk Mahasiswa atau NIM. Setelah Penggabungan ini data diperoleh 36228 data yang terlihat pada Gambar 6.

Gambar 6 Total Data setelah digabungkan

c.   Tambahkan hasil dari durasi studi masing-masing mahasiswa

Gambar 7 Hasil Durasi Studi masing-masing Mahasiswa

Gambar 7 menunjukan durasi studi per mahasiswa. Dengan mengonversi tanggal masuk dan tanggal lulus menjadi tipe data date time. Lalu Ini menghitung durasi studi setiap mahasiswa dengan mengurangi tanggal masuk dari tanggal lulus, kemudian hasilnya dibagi dengan 365 untuk mengonversi hari ke tahun, dan hasilnya dibulatkan menjadi satu desimal. Jika durasi studi lebih dari 4 tahun maka kolom lulus_tepat_waktu berisi ‘tidak tepat waktu’, jika kurang maka hasilnya ‘tepat waktu’.

d.  Lakukan pembersihan data, termasuk mengidentifikasi dan mengatasi nilai yang hilang atau tidak konsisten dalam data. Hilangkan mahasiswa pindahan.

Pada soal d, terdapat 3 tahapan dalam pembersihan data. Yaitu cek missing value, data duplikat, serta menghilangkan mahasiswa pindahan. Cek missing value terdapat pada Gambar 8.

Gambar 8 Cek data Missing Value

Gambar 8 menunjukan pada setiap kolom tidak terdapat data missing value. Setelah dilakukan pengecekan data missing yang ada pada Gambar 8. Tahap selanjutnya dilakukan cek data duplikat yang terlihat pada Gambar 9

Gambar 9 Cek data Duplikat

Gambar 9 menunjukan tidak terdapat baris yang duplikat. Kemudian tahap selanjutnya adalah menghilangkan mahasiswa pindahan, dengan cara menghapus nilai status masuk yang sama dengan 1. Menghilangkan mahasiswa pindahan dapat dilihat pada Gambar 10.

Gambar 10 Menghilangkan Mahasiswa Pindahan

Pada Gambar 10 menunjukan data mahasiswa pindahan dihilangkan pada dataframe. Hasil dari menghilangkan data mahasiswa pindahan menunjukan dataframe yang sekarang berjumlah 36168 data yang terlihat pada Gambar 11.

Gambar 11 Jumlah data setelah hilangkan mhs pindahan

e.   Standardisasi format tanggal dan jenis kelamin untuk analisis lebih lanjut.

Gambar 12 Standardisasi format tanggal dan jenis kelamin

Gambar 12 menunjukan format tahun bulan tanggal serta penyesuaian jenis kelamin. Dengan mengganti kolom jenis kelamin yang memiliki value 0 menjadi perempuan dan value 1 menjadi laki-laki.

2.   Analisis

Cari pola atau tren yang paling mempengaruhi dengan lulusan tepat waktu atau lama masa studi, misal :

a.   Analisis apakah ada hubungan antara nilai rata-rata mata kuliah atau IPS dengan lulusan tepat waktu.

Gambar 13 Analisis rata-rata nilai IPS dan lulus tepat waktu

Gambar 13 menunjukan apakah ada hubungan antara nilai rata-rata mata kuliah atau IPS dengan lulus tepat waktu. Nilai IPS dihitung secara rata-rata untuk setiap kategori lulusan tepat waktu dan tidak tepat waktu. Dilakukan uji statistik untuk membandingkan rata-rata IPS antara mahasiswa menggunakan uji t(t-test) antara dua kelompok data, yaitu IPS mahasiswa yang lulus tepat waktu dan IPS mahasiswa yang lulus tidak tepat waktu. Nilai p-value dari uji berfungsi untuk melihat perbedaan rata-rata IPS antara kedua kelompok tersebut signifikan secara statistik atau tidak. Hasil ditunjukan untuk mahasiswa yang lulus tepat waktu, rata-rata IPS-nya adalah 3.585509, sementara untuk mahasiswa yang tidak lulus tepat waktu, rata-rata IPS-nya adalah 3.515049, artinya ata-rata IPS mahasiswa yang lulus tepat waktu sedikit lebih tinggi dibandingkan dengan mereka yang tidak lulus tepat waktu. Hasil p-value dari uji t menunjukan hasil 7.738838606796278e-93, berarti rata-rata IPS antara kedua kelompok tidak atau kurang mempengaruhi secara signifikan dalam lulus tepat waktu. Untuk lebih jelasnya dapat dilihat pada visualisasi yang ada pada Gambar 14 yang menggunakan box-plot yang memberikan gambaran bahwa nilai IPS tidak terlalu mempengaruhi lulus tepat waktu.

Gambar 14 Box plot Distribusi Hubungan antara IPS dan lulus tepat waktu

b.  Analisis apakah ada korelasi positif antara predikat kelulusan 'Pujian' dengan lulusan tepat waktu

Gambar 15 Analisis apakah predikat pujian berkaitan dengan lulus tepat waktu

Gambar 15 menunjukan input dan output hasil analisis perhitungan apakah ada korelasi antara predikat pujian dengan lulus tepat waktu. Melalui librarypd.crosstab()’ yang memiliki fungsi untuk membuat tabel silang antara kolom 'predikat' dan 'lulus_tepat_waktu'. Kemudian dengan menggunakan uji chi-square melalui fungsi ‘stats.chi2_contingency()’ untuk menentukan apakah ada korelasi antara predikat kelulusan dan status lulusan tepat waktu. Nilai p-value dari uji chi-square memberikan informasi tentang signifikansi statistik dari hubungan antara dua variabel tersebut. Hasil dari analisa ini didapat 8 mahasiswa yang mempunyai predikat ‘-‘ lulus tepat waktu, lalu 32 mahasiswa yang memiliki predikat ‘-‘ tidak tepat waktu lulusnya, kemudian terdapat 161 mahasiswa yang memiliki predikat ‘memuaskan’ yang lulus tepat waktu dan 473 mahasiswa yang memiliki predikat tidak tepat waktu, dan seterusnya. Dari Nilai p-value dari uji chi-square adalah 0.0, yang menunjukkan bahwa terdapat korelasi yang signifikan antara predikat kelulusan dan lulusan tepat waktu. Untuk lebih detail bisa dilihat pada Gambar 16 yang menunjukan bahwa predikat kelulusan mempengaruhi lulus tepat waktu.

Gambar 16 Visualisasi analisa predikat kelulusan terhadap lulus tepat waktu

c.   Analisis untuk melihat apakah durasi studi lebih pendek berkorelasi dengan predikat kelulusan yang lebih baik

Gambar 17 Analisa apakah durasi studi lebih pendek berkorelasi dengan predikat kelulusan

Pada Gambar 17 menunjukan hasil analisa dari apakah durasi studi berkorelasi dengan predikat kelulusan. Dengan penghitungan rata-rata durasi studi untuk setiap kategori predikat kelulusan. Data dikelompokkan berdasarkan predikat kelulusan menggunakan metode ‘groupby’, dan kemudian dihitung rata-rata durasi studi untuk setiap kelompok predikat. Hasilnya disimpan dalam variabel durasi_predikat_mean. Hasil ditunjukan pada Gambar 18 menggunakan Boxplot.

Gambar 18 Visualisasi durasi studi mempengaruhi predikat kelulusan

Pada Gambar 18 didapatkan hasil bahwa durasi studi mempengaruhi predikat kelulusan. Predikat ‘pujian’ yang memiliki rata-rata studi sekitar 4.06 tahun. Kemudian predikat 'Sangat Memuaskan', rata-rata durasi studinya adalah sekitar 4.67 tahun. Sementara predikat 'Memuaskan', rata-rata durasi studinya adalah sekitar 5.31 tahun. Yang artinya mahasiswa yang mendapatkan predikat 'Pujian' cenderung memiliki rata-rata durasi studi yang lebih pendek dibandingkan dengan mahasiswa yang mendapatkan predikat 'Memuaskan' atau 'Sangat Memuaskan'.

d.  Hitung rata-rata nilai total untuk masing-masing jenis kelamin dan bandingkan untuk melihat apakah ada perbedaan signifikan dalam prestasi akademik berdasarkan jenis kelamin

e.   atau gabungan dari beberapa variabel yang mempengaruhi lulus tepat waktu

Gambar 19 menggabungkan nilai IPS dengan nilai total semester

Nomor d dan nomor e digabung karena saling berkaitan. Pada Gambar 19 menunjukan perhitungan nilai rata-rata setiap mahasiswa. Serta penggabungan nilai IPS dengan nilai total per semester pada setiap mahasiswa ke dalam DataFrame yang sudah ada sebelumnya didalam variabel ‘merged_df’. dengan cara melakukan merge berdasarkan kolom NIM dan semester. Tujuannya untuk mendapatkan rata-rata total nilai dalam prestasi akademik setiap mahasiswa. Kemudian akan dikelompokan total nilai berdasarkan jenis kelamin yang dapat dilihat pada Gambar 20.

Gambar 20 Menghitung rata rata nilai total berdasarkan jenis kelamin

Gambar 20 menujukan rata-rata nilai total untuk berdasarkan jenis kelamin. Hasil dari Gambar 19 digunakan dalam tahap ini, yang dimana mengambil nilai dari kolom 'nilai_total' untuk setiap kelompok jenis kelamin tersebut, lalu menghitung rata-ratanya. Pada jenis kelamin laki-laki didapatkan hasil rata-rata nilai totalnya sekitar 82.27, sementara mahasiswa jenis kelamin perempuan, rata-rata nilai totalnya adalah sekitar 80.82. Jadi hasil pada Gambar 20 merupakan nilai rata-rata dari semua nilai total yang ada dalam dataset, yang telah dikelompokkan berdasarkan jenis kelamin. Untuk lebih jelasnya dapat dilihat pada visualisasi diagram batang pada Gambar 21 yang dimana didapat hasil bahwa jenis kelamin laki-laki memiliki rata-rata nilai total yang lebih besar dibandingkan dengan jenis kelamin perempuan.

Gambar 21 Visualisasi rata rata nilai berdasarkan jenis kelamin yang sudah disatukan dengan nilai total

3.   Laporan dan Presentasi

Sajikan hasil analisis dalam bentuk laporan tertulis yang lengkap dengan grafik atau tabel yang mendukung hasil analisis.


Link yt : https://youtu.be/9j9kBcuxPss

Link blog : https://ubpkarawang21-093riggerdt.blogspot.com/2024/04/kuis-5-data-mining-rigger-damaiarta.html



Kesimpulan

Melalui analisis data yang mendalam, kami dapat menyimpulkan bahwa faktor-faktor seperti predikat kelulusan, durasi studi, dan jenis kelamin memiliki pengaruh signifikan terhadap tingkat kelulusan tepat waktu di Universitas Buana Perjuangan Karawang. Dengan pemahaman yang lebih baik tentang faktor-faktor tersebut, universitas dapat mengambil langkah-langkah strategis untuk meningkatkan tingkat kelulusan tepat waktu mahasiswanya.


Kriteria Penilaian

Kemampuan untuk melakukan integrasi dan pembersihan data

Keefektifan dalam menerapkan teknik analisis statistik

Kemampuan analisis untuk menemukan pola dan tren yang signifikan.

Kedalaman analisis dan kreativitas dalam mengeksplorasi data

Kelengkapan dan kejelasan laporan akhir, termasuk penggunaan visualisasi data

 

Di buat dalam bentuk artikel website & tersedia format PDF untuk di dowload. yang dikumpulkan adalah LINK ARTIKEL DI WEBSITE.

 

DATA PREPARATION 

&

DATA VISUALIZATION

Matakuliah Data Mining


1. Data Preparation

Data preparation adalah proses persiapan data sebelum data tersebut dapat digunakan untuk analisis atau pemodelan. Tujuan utama dari data preparation adalah untuk memastikan bahwa data yang digunakan dalam analisis atau pemodelan adalah data yang bersih, relevan, dan siap untuk digunakan.

Tahapan Data Preparation:

  1. Pembersihan data: Identifikasi dan penanganan nilai yang hilang, duplikat, atau tidak valid.
  2. Transformasi data: Standarisasi format data, konversi tipe data, atau pengkodean variabel kategorikal.
  3. Integrasi data: Menggabungkan data dari berbagai sumber jika diperlukan.
  4. Reduksi dimensi: Pemilihan fitur atau reduksi dimensi untuk mengurangi kompleksitas data jika diperlukan.

Fungsi Data Preparation:

  1. Memastikan kualitas data yang baik untuk analisis atau pemodelan.
  2. Mempersiapkan data agar sesuai dengan format atau struktur yang diperlukan untuk algoritma pemodelan tertentu.
  3. Mengurangi noise atau ketidakpastian dalam data.
  4. Mempermudah analisis dan pemodelan data dengan menyediakan dataset yang bersih dan terstruktur.

Contoh Implementasi Data Preparation :


1.) Pada bagian : 
print("Jumlah missing values per kolom:")
print(dataset.isnull().sum())

kita menggunakan metode .isnull() untuk mengidentifikasi nilai yang hilang dalam dataset. Kemudian, kita menggunakan .sum() untuk menghitung jumlah nilai yang hilang per kolom. Hasilnya adalah jumlah nilai yang hilang untuk setiap kolom dalam dataset.

2.) Pada bagian ini :
dataset_cleaned = dataset.dropna()

Kode ini digunakan untuk menghapus baris yang memiliki nilai yang hilang dari dataset. Fungsi .dropna() digunakan untuk menghapus baris yang memiliki nilai yang hilang. Hasilnya adalah dataset yang telah dibersihkan dari nilai yang hilang.

3.) Pada bagian ini :
print("Jumlah duplicate data:", dataset_cleaned.duplicated().sum())

Bagian ini digunakan untuk memeriksa apakah ada data duplikat dalam dataset yang telah dibersihkan. Kita menggunakan .duplicated() untuk mengidentifikasi baris yang merupakan duplikat, dan kemudian menggunakan .sum() untuk menghitung jumlah baris duplikat.

4.) Pada bagian ini :
dataset_cleaned = dataset_cleaned.drop_duplicates()

Pada bagian ini, kita menggunakan .drop_duplicates() untuk menghapus baris yang merupakan duplikat dari dataset yang telah dibersihkan sebelumnya. Hasilnya adalah dataset yang tidak memiliki data duplikat.

Output data preparation :


2. Data Visualization


Data visualization adalah proses representasi grafis dari data dan informasi untuk memudahkan pemahaman, analisis, dan komunikasi. Tujuan utama dari data visualization adalah untuk menyajikan data secara visual agar dapat diinterpretasikan dengan lebih mudah.

Tahapan Data Visualization:

  1. Memilih jenis plot atau grafik yang sesuai dengan tipe data dan tujuan visualisasi.
  2. Memilih variabel atau atribut yang akan divisualisasikan.
  3. Membuat plot atau grafik menggunakan perangkat lunak atau library visualisasi seperti matplotlib, seaborn, atau ggplot2.
  4. Menyesuaikan atribut visual seperti warna, label, atau skala jika diperlukan.
  5. Menganalisis dan menafsirkan hasil visualisasi untuk mendapatkan wawasan tentang data.

Fungsi Data Visualization:

  1. Memvisualisasikan pola, tren, atau hubungan dalam data secara intuitif.
  2. Membantu dalam eksplorasi data dan pemahaman karakteristik data.
  3. Membuat presentasi atau laporan yang efektif untuk menyampaikan informasi kepada audiens.
  4. Mendukung pengambilan keputusan dengan menyediakan wawasan yang kuat dari data.

Contoh Implementasi Data Visualization :


A.) Bar Plot (Diagram Batang):
  1. Bar plot digunakan untuk menampilkan distribusi frekuensi dari variabel kategorikal.
  2. Sumbu x menunjukkan kategori atau label dari variabel kategorikal, dalam hal ini "race/ethnicity".
  3. Sumbu y menunjukkan jumlah atau frekuensi kemunculan setiap kategori.
  4. Setiap batang merepresentasikan jumlah data dalam setiap kategori.
B.) Pie Chart (Diagram Lingkaran):
  1. Pie chart digunakan untuk menampilkan proporsi atau persentase dari setiap kategori dalam satu keseluruhan.
  2. Setiap bagian dari lingkaran mewakili persentase dari total data.
  3. Label pada pie chart menunjukkan kategori atau label dari variabel kategorikal, dalam hal ini "race/ethnicity".
C.) Seaborn Pairplot:
  1. Seaborn pairplot adalah alat visualisasi yang berguna untuk melihat distribusi dan hubungan antar variabel numerik.
  2. Setiap sel pada pairplot adalah scatter plot dari dua variabel numerik yang berbeda.
  3. Dalam kasus ini, pairplot digunakan untuk memperlihatkan hubungan antara skor matematika, skor membaca, dan skor menulis, dengan warna yang membedakan berdasarkan ras/etnis siswa.
Output :

1.) Bar Chart


2.) Pie Chart

3.)  Seaborn Pairplot





 Matakuliah Data Mining

1. Proses Data Mining

  • Pembersihan data

    Pembersihan data artinya untuk membuang data yang tidak konsisten dan noise. Tahapan data mining yang pertama dilakukan yaitu pembersihan data, jadi pada proses pengumpulan informasi, data yang diperoleh tidak semuanya diambil namun harus dipilah terlebih dahulu. Nah pada tahapan data mining yang pertama inilah proses pemilihan berlangsung dengan membersihkan data yang bertujuan untuk membuang atau menghilangkan data yang tidak konsisten atau dianggap sebagai noise sehingga tidak dibutuhkan untuk tahapan data mining selanjutnya.
  • Integrasi data

    Integrasi data artinya penggabungan data dari beberapa sumber. Tahapan tersebut setelah beberapa data dipilih dan sudah lolos semuanya, langkah selanjutnya adalah integrasi data dengan menggabungkan beberapa data yang diperoleh dari beberapa sumber. Seperti yang diketahui sebuah data yang didapatkan tentunya tidak berasal dari satu sumber saja. Oleh karena itu di tahap kedua ini setelah sudah dipilih yang terbaik maka selanjutnya akan digabungkan.
  • Transformasi data

    Transformasi data artinya data diubah menjadi bentuk yang sesuai untuk di-mining. Setelah semua data yang didapat terkumpul dan digabungkan tadi, data kemudian diubah ke bentuk yang sesuai agar bisa dimining. Jadi setelah semua data yang dipilih dan digabungkan ternyata di tahapan data mining ketiga ini, data tersebut tidak bisa langsung digunakan namun harus diubah terlebih dahulu ke bentuk yang sesuai.
  • Aplikasinya

    Aplikasi teknik Data Mining adalah proses ekstraksi pola dari data yang ada. Pada tahapan data mining empat ini proses ekstraksi data berlangsung di mana caranya data diambil, ditarik kemudian dimanipulasi agar bisa sesuai dengan aturannya.
  •  Evaluasi

   Evaluasi pola yang ditemukan proses interprestasi pola menjadi pengetahuan yang dapat digunakan untuk mendukung pengambilan keputusan. Pada tahapan evaluasi ini pola data yang ditemukan diinterprestasi menjadi sebuah pengetahuan yang bisa digunakan untuk dalam pengambilan keputusan. Jadi pada setiap tahapan data mining diperlukan evaluasi karena ini cukup penting sekali karena kaitannya dengan penentuan keputusan apa yang akan diambil berdasarkan data yang diperoleh.
  • Presentasi pengetahuan

    Presentasi pengetahuan (dengan teknik visualisasi). Pada tahapan data mining yang terakhir ketika semua data sudah diperoleh dan dirinci dengan baik maka selanjutnya dapat dipresentasikan menggunakan teknik visualisasi agar tampilannya mudah dibaca dan dipahami.

2. CRISP-DM



    CRISP-DM merupakan singkatan dari Cross-Industry Standard Process for Data Mining. Metodologi ini memberikan pendekatan sistematis untuk mengelola proyek penambangan data dari awal hingga akhir. Terdiri dari enam langkah utama, CRISP-DM memandu para profesional data melalui proses analisis yang komprehensif.

Langkah 1: Pemahaman Bisnis

Langkah pertama dalam CRISP-DM adalah memahami tujuan bisnis yang ingin dicapai melalui analisis data. Di bagian ini, kita akan membahas bagaimana mengidentifikasi masalah bisnis, menyusun tujuan yang jelas, dan menentukan kriteria keberhasilan proyek.

Langkah 2: Pemahaman Data

Langkah kedua fokus pada memahami data yang tersedia untuk proyek. Ini termasuk mengumpulkan data, menjelajahi struktur dan kualitasnya, serta mempersiapkan data untuk analisis lebih lanjut.

Langkah 3: Persiapan Data

Persiapan data adalah langkah krusial dalam proses CRISP-DM. Di sini, kita akan membahas teknik pembersihan data, transformasi, dan integrasi yang diperlukan untuk memastikan data siap untuk proses analisis.

Langkah 4: Model Pembangunan

Langkah berikutnya adalah membangun model analisis berdasarkan data yang telah dipersiapkan. Dalam bagian ini, kita akan menjelajahi berbagai teknik pemodelan yang dapat diterapkan, seperti regresi, klasifikasi, dan klastering.

Langkah 5: Evaluasi Model

Setelah model dibangun, langkah selanjutnya adalah mengevaluasi kinerjanya. Kita akan membahas metrik evaluasi yang umum digunakan dan bagaimana menginterpretasikan hasilnya.

Langkah 6: Penyampaian Hasil

Langkah terakhir dalam CRISP-DM adalah menyampaikan hasil analisis kepada pemangku kepentingan. Di bagian ini, kita akan membahas strategi komunikasi yang efektif untuk memastikan pemahaman yang baik dan penerapan wawasan yang diperoleh.

3. SEMMA

SEMMA adalah singkatan dari Sample, Explore, Modify, Model, dan Assess, yang merupakan metodologi populer untuk data mining. Metodologi ini membantu Anda untuk menguak pola dan wawasan dari data Anda dengan cara yang terstruktur dan efisien.

Tahapan SEMMA:

1. Sample (Sampel)

Mengambil sampel data yang representatif dari dataset Anda.
Ukuran sampel tergantung pada ukuran dataset dan kompleksitas analisis.
Teknik sampling yang umum: random sampling, stratified sampling, dan cluster sampling.

2. Explore (Eksplorasi)

Mempelajari karakteristik data Anda.
Melihat distribusi data, outlier, dan missing values.
Teknik eksplorasi data: visualisasi data, statistik deskriptif, dan analisis korelasi.

3. Modify (Modifikasi)

Membersihkan data Anda dari noise dan missing values.
Transformasi data untuk meningkatkan kualitasnya.
Teknik modifikasi data: data imputation, data normalization, dan feature selection.

4. Model (Model)

Membangun model data mining yang sesuai dengan tujuan Anda.
Berbagai jenis model: klasifikasi, regresi, clustering, dan association rule mining.
Memilih model yang paling akurat dan interpretatif.

5. Assess (Penilaian)

Mengevaluasi kinerja model Anda.
Memastikan model Anda akurat, valid, dan reliable.
Teknik penilaian model: cross-validation, holdout validation, dan error metrics.


CCC (Computational, Cognitive, Communication)

CCC adalah singkatan dari Computational, Cognitive, dan Communication. Ketiga bidang ini saling terkait dan penting untuk memahami bagaimana manusia dan komputer berinteraksi.

  1. Computational mengacu pada kemampuan untuk memproses informasi. Ini termasuk kemampuan untuk menghitung, menyimpan, dan memanipulasi data. Komputer dan otak manusia keduanya memiliki kemampuan komputasi.
  2. Cognitive mengacu pada kemampuan untuk berpikir. Ini termasuk kemampuan untuk memahami, belajar, dan memecahkan masalah. Manusia dan komputer keduanya memiliki kemampuan kognitif.
  3. Communication mengacu pada kemampuan untuk bertukar informasi. Ini termasuk kemampuan untuk berbicara, mendengarkan, dan membaca. Manusia dan komputer keduanya memiliki kemampuan komunikasi.

Hubungan antara CCC:

  • Computational dan cognitive saling terkait karena otak manusia adalah sistem komputasi yang kompleks.
  • Cognitive dan communication saling terkait karena manusia menggunakan bahasa untuk berpikir dan berkomunikasi.
  • Computational dan communication saling terkait karena komputer menggunakan bahasa untuk berkomunikasi dengan manusia.

Contoh CCC:

  1. Pengenalan suara: Komputer menggunakan kemampuan komputasi untuk memproses sinyal suara, kemampuan kognitif untuk memahami suara, dan kemampuan komunikasi untuk menghasilkan teks.
  2. Penerjemahan mesin: Komputer menggunakan kemampuan komputasi untuk memproses teks, kemampuan kognitif untuk memahami makna teks, dan kemampuan komunikasi untuk menghasilkan teks dalam bahasa lain.
  3. Robotika: Robot menggunakan kemampuan komputasi untuk mengontrol gerakannya, kemampuan kognitif untuk memahami lingkungannya, dan kemampuan komunikasi untuk berinteraksi dengan manusia.

KESIMPULAN

CCC, SEMMA, dan CRISP-DM semuanya berhubungan dengan data mining. Berikut adalah penjelasannya:

1. CCC (Computational, Cognitive, Communication):
  • Computational: Kemampuan untuk memproses informasi, termasuk menghitung, menyimpan, dan memanipulasi data. Ini merupakan dasar dari data mining.
  • Cognitive: Kemampuan untuk berpikir, termasuk memahami, belajar, dan memecahkan masalah. Data mining digunakan untuk membantu manusia dalam proses kognitif ini dengan menganalisis data dan menemukan pola.
  • Communication: Kemampuan untuk bertukar informasi, termasuk berbicara, mendengarkan, dan membaca. Data mining menghasilkan informasi baru yang perlu dikomunikasikan kepada manusia.
2. SEMMA (Sample, Explore, Modify, Model, Assess):
  • Sample: Mengambil sampel data yang representatif dari dataset.
  • Explore: Mempelajari karakteristik data dan mencari pola awal.
  • Modify: Membersihkan data dan melakukan transformasi untuk meningkatkan kualitasnya.
  • Model: Membangun model data mining untuk memprediksi atau menjelaskan data.
  • Assess: Mengevaluasi kinerja model dan memastikan akurasinya.
3. CRISP-DM (Cross-Industry Standard Process for Data Mining):
  • Business Understanding: Memahami tujuan bisnis dan kebutuhan proyek data mining.
  • Data Understanding: Memahami karakteristik data dan mencari pola awal.
  • Data Preparation: Membersihkan data dan melakukan transformasi untuk meningkatkan kualitasnya.
  • Modeling: Membangun model data mining untuk memprediksi atau menjelaskan data.
  • Evaluation: Mengevaluasi kinerja model dan memastikan akurasinya.
  • Deployment: Menerapkan model data mining dalam aplikasi nyata.
  • Kesimpulan:

CCC, SEMMA, dan CRISP-DM adalah metodologi yang digunakan dalam data mining untuk membantu manusia dalam menganalisis data dan menemukan pola.

CCC menyediakan dasar teoretis untuk data mining.
SEMMA dan CRISP-DM menyediakan langkah-langkah praktis untuk melakukan data mining.


link :ubp

TERIMAKASIH
salam
Rigger Damaiarta Tejayanda- IF21A -21416255201093