Matakuliah Data Mining

1. Proses Data Mining

  • Pembersihan data

    Pembersihan data artinya untuk membuang data yang tidak konsisten dan noise. Tahapan data mining yang pertama dilakukan yaitu pembersihan data, jadi pada proses pengumpulan informasi, data yang diperoleh tidak semuanya diambil namun harus dipilah terlebih dahulu. Nah pada tahapan data mining yang pertama inilah proses pemilihan berlangsung dengan membersihkan data yang bertujuan untuk membuang atau menghilangkan data yang tidak konsisten atau dianggap sebagai noise sehingga tidak dibutuhkan untuk tahapan data mining selanjutnya.
  • Integrasi data

    Integrasi data artinya penggabungan data dari beberapa sumber. Tahapan tersebut setelah beberapa data dipilih dan sudah lolos semuanya, langkah selanjutnya adalah integrasi data dengan menggabungkan beberapa data yang diperoleh dari beberapa sumber. Seperti yang diketahui sebuah data yang didapatkan tentunya tidak berasal dari satu sumber saja. Oleh karena itu di tahap kedua ini setelah sudah dipilih yang terbaik maka selanjutnya akan digabungkan.
  • Transformasi data

    Transformasi data artinya data diubah menjadi bentuk yang sesuai untuk di-mining. Setelah semua data yang didapat terkumpul dan digabungkan tadi, data kemudian diubah ke bentuk yang sesuai agar bisa dimining. Jadi setelah semua data yang dipilih dan digabungkan ternyata di tahapan data mining ketiga ini, data tersebut tidak bisa langsung digunakan namun harus diubah terlebih dahulu ke bentuk yang sesuai.
  • Aplikasinya

    Aplikasi teknik Data Mining adalah proses ekstraksi pola dari data yang ada. Pada tahapan data mining empat ini proses ekstraksi data berlangsung di mana caranya data diambil, ditarik kemudian dimanipulasi agar bisa sesuai dengan aturannya.
  •  Evaluasi

   Evaluasi pola yang ditemukan proses interprestasi pola menjadi pengetahuan yang dapat digunakan untuk mendukung pengambilan keputusan. Pada tahapan evaluasi ini pola data yang ditemukan diinterprestasi menjadi sebuah pengetahuan yang bisa digunakan untuk dalam pengambilan keputusan. Jadi pada setiap tahapan data mining diperlukan evaluasi karena ini cukup penting sekali karena kaitannya dengan penentuan keputusan apa yang akan diambil berdasarkan data yang diperoleh.
  • Presentasi pengetahuan

    Presentasi pengetahuan (dengan teknik visualisasi). Pada tahapan data mining yang terakhir ketika semua data sudah diperoleh dan dirinci dengan baik maka selanjutnya dapat dipresentasikan menggunakan teknik visualisasi agar tampilannya mudah dibaca dan dipahami.

2. CRISP-DM



    CRISP-DM merupakan singkatan dari Cross-Industry Standard Process for Data Mining. Metodologi ini memberikan pendekatan sistematis untuk mengelola proyek penambangan data dari awal hingga akhir. Terdiri dari enam langkah utama, CRISP-DM memandu para profesional data melalui proses analisis yang komprehensif.

Langkah 1: Pemahaman Bisnis

Langkah pertama dalam CRISP-DM adalah memahami tujuan bisnis yang ingin dicapai melalui analisis data. Di bagian ini, kita akan membahas bagaimana mengidentifikasi masalah bisnis, menyusun tujuan yang jelas, dan menentukan kriteria keberhasilan proyek.

Langkah 2: Pemahaman Data

Langkah kedua fokus pada memahami data yang tersedia untuk proyek. Ini termasuk mengumpulkan data, menjelajahi struktur dan kualitasnya, serta mempersiapkan data untuk analisis lebih lanjut.

Langkah 3: Persiapan Data

Persiapan data adalah langkah krusial dalam proses CRISP-DM. Di sini, kita akan membahas teknik pembersihan data, transformasi, dan integrasi yang diperlukan untuk memastikan data siap untuk proses analisis.

Langkah 4: Model Pembangunan

Langkah berikutnya adalah membangun model analisis berdasarkan data yang telah dipersiapkan. Dalam bagian ini, kita akan menjelajahi berbagai teknik pemodelan yang dapat diterapkan, seperti regresi, klasifikasi, dan klastering.

Langkah 5: Evaluasi Model

Setelah model dibangun, langkah selanjutnya adalah mengevaluasi kinerjanya. Kita akan membahas metrik evaluasi yang umum digunakan dan bagaimana menginterpretasikan hasilnya.

Langkah 6: Penyampaian Hasil

Langkah terakhir dalam CRISP-DM adalah menyampaikan hasil analisis kepada pemangku kepentingan. Di bagian ini, kita akan membahas strategi komunikasi yang efektif untuk memastikan pemahaman yang baik dan penerapan wawasan yang diperoleh.

3. SEMMA

SEMMA adalah singkatan dari Sample, Explore, Modify, Model, dan Assess, yang merupakan metodologi populer untuk data mining. Metodologi ini membantu Anda untuk menguak pola dan wawasan dari data Anda dengan cara yang terstruktur dan efisien.

Tahapan SEMMA:

1. Sample (Sampel)

Mengambil sampel data yang representatif dari dataset Anda.
Ukuran sampel tergantung pada ukuran dataset dan kompleksitas analisis.
Teknik sampling yang umum: random sampling, stratified sampling, dan cluster sampling.

2. Explore (Eksplorasi)

Mempelajari karakteristik data Anda.
Melihat distribusi data, outlier, dan missing values.
Teknik eksplorasi data: visualisasi data, statistik deskriptif, dan analisis korelasi.

3. Modify (Modifikasi)

Membersihkan data Anda dari noise dan missing values.
Transformasi data untuk meningkatkan kualitasnya.
Teknik modifikasi data: data imputation, data normalization, dan feature selection.

4. Model (Model)

Membangun model data mining yang sesuai dengan tujuan Anda.
Berbagai jenis model: klasifikasi, regresi, clustering, dan association rule mining.
Memilih model yang paling akurat dan interpretatif.

5. Assess (Penilaian)

Mengevaluasi kinerja model Anda.
Memastikan model Anda akurat, valid, dan reliable.
Teknik penilaian model: cross-validation, holdout validation, dan error metrics.


CCC (Computational, Cognitive, Communication)

CCC adalah singkatan dari Computational, Cognitive, dan Communication. Ketiga bidang ini saling terkait dan penting untuk memahami bagaimana manusia dan komputer berinteraksi.

  1. Computational mengacu pada kemampuan untuk memproses informasi. Ini termasuk kemampuan untuk menghitung, menyimpan, dan memanipulasi data. Komputer dan otak manusia keduanya memiliki kemampuan komputasi.
  2. Cognitive mengacu pada kemampuan untuk berpikir. Ini termasuk kemampuan untuk memahami, belajar, dan memecahkan masalah. Manusia dan komputer keduanya memiliki kemampuan kognitif.
  3. Communication mengacu pada kemampuan untuk bertukar informasi. Ini termasuk kemampuan untuk berbicara, mendengarkan, dan membaca. Manusia dan komputer keduanya memiliki kemampuan komunikasi.

Hubungan antara CCC:

  • Computational dan cognitive saling terkait karena otak manusia adalah sistem komputasi yang kompleks.
  • Cognitive dan communication saling terkait karena manusia menggunakan bahasa untuk berpikir dan berkomunikasi.
  • Computational dan communication saling terkait karena komputer menggunakan bahasa untuk berkomunikasi dengan manusia.

Contoh CCC:

  1. Pengenalan suara: Komputer menggunakan kemampuan komputasi untuk memproses sinyal suara, kemampuan kognitif untuk memahami suara, dan kemampuan komunikasi untuk menghasilkan teks.
  2. Penerjemahan mesin: Komputer menggunakan kemampuan komputasi untuk memproses teks, kemampuan kognitif untuk memahami makna teks, dan kemampuan komunikasi untuk menghasilkan teks dalam bahasa lain.
  3. Robotika: Robot menggunakan kemampuan komputasi untuk mengontrol gerakannya, kemampuan kognitif untuk memahami lingkungannya, dan kemampuan komunikasi untuk berinteraksi dengan manusia.

KESIMPULAN

CCC, SEMMA, dan CRISP-DM semuanya berhubungan dengan data mining. Berikut adalah penjelasannya:

1. CCC (Computational, Cognitive, Communication):
  • Computational: Kemampuan untuk memproses informasi, termasuk menghitung, menyimpan, dan memanipulasi data. Ini merupakan dasar dari data mining.
  • Cognitive: Kemampuan untuk berpikir, termasuk memahami, belajar, dan memecahkan masalah. Data mining digunakan untuk membantu manusia dalam proses kognitif ini dengan menganalisis data dan menemukan pola.
  • Communication: Kemampuan untuk bertukar informasi, termasuk berbicara, mendengarkan, dan membaca. Data mining menghasilkan informasi baru yang perlu dikomunikasikan kepada manusia.
2. SEMMA (Sample, Explore, Modify, Model, Assess):
  • Sample: Mengambil sampel data yang representatif dari dataset.
  • Explore: Mempelajari karakteristik data dan mencari pola awal.
  • Modify: Membersihkan data dan melakukan transformasi untuk meningkatkan kualitasnya.
  • Model: Membangun model data mining untuk memprediksi atau menjelaskan data.
  • Assess: Mengevaluasi kinerja model dan memastikan akurasinya.
3. CRISP-DM (Cross-Industry Standard Process for Data Mining):
  • Business Understanding: Memahami tujuan bisnis dan kebutuhan proyek data mining.
  • Data Understanding: Memahami karakteristik data dan mencari pola awal.
  • Data Preparation: Membersihkan data dan melakukan transformasi untuk meningkatkan kualitasnya.
  • Modeling: Membangun model data mining untuk memprediksi atau menjelaskan data.
  • Evaluation: Mengevaluasi kinerja model dan memastikan akurasinya.
  • Deployment: Menerapkan model data mining dalam aplikasi nyata.
  • Kesimpulan:

CCC, SEMMA, dan CRISP-DM adalah metodologi yang digunakan dalam data mining untuk membantu manusia dalam menganalisis data dan menemukan pola.

CCC menyediakan dasar teoretis untuk data mining.
SEMMA dan CRISP-DM menyediakan langkah-langkah praktis untuk melakukan data mining.


link :ubp

TERIMAKASIH
salam
Rigger Damaiarta Tejayanda- IF21A -21416255201093