Data Mining adalah suatu proses ekstraksi atau penggalian data yang belum diketahui
sebelumnya, namun dapat dipahami dan berguna dari database yang besar serta
digunakan untuk membuat suatu keputusan bisnis yang sangat penting.
Proses Data Mining
Pada
prosesnya data mining akan mengekstrak informasi yang berharga dengan cara menganalisis
adanya pola-pola ataupun hubungan keterkaitan tertentu dari data-data yang
berukuran besar. Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti
Database System, Data Warehousing, Statistic, Machine Learning, Information
Retrieval, dan Komputasi Tingkat Tinggi. Selain itu data mining didukung oleh
ilmu lain seperti Neural Network, Pengenalan Pola, Spatial Data Analysis, Image
Database, Signal Processing.
Karakteristik
data mining sebagai berikut:
Ø
Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan
pola data tertentu yang tidak diketahui sebelumnya.
Ø
Data mining biasa menggunakan
data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil
lebih dapat dipercaya.
Ø
Data mining berguna untuk membuat keputusan kritis.
Fungsi
Data Mining
·
Concept/Class Description: Characterization and Discrimination
Data
characterization adalah ringkasan dari semua karakteristik atau fitur dari data
yang telah diperoleh dari target kelas.
·
Mining Frequent Patterns, Associations, and Correlations
Frequent Patterns
adalah pola yang sering terjadi di dalam data. Ada banyak jenis dari frequent
patterns, termasuk di dalamnya pola, sekelompok item set, sub-sequence, dan
sub-struktur. Sebuah frequent patterns biasanya mengacu pada satu set item yang
sering muncul bersama-sama dalam suatu kumpulan data transaksional, misalnya
seperti susu dan roti.
·
Classification and Prediction
Klasifikasi
adalah proses untuk menemukan model atau fungsi yang menggambarkan dan
membedakan kelas data atau konsep dengan tujuan memprediksikan kelas untuk data
yang tidak diketahui kelasnya.
·
Cluster Analysis
Cluster adalah
kumpulan objek data yang mirip satu sama lain dalam kelompok yang sama dan
berbeda dengan objek data di kelompok lain. Sedangkan, Clustering atau Analisis
Custer adalah proses pengelompokkan satu set benda-benda fisik atau abstrak
kedalam kelas objek yang sama. Tujuannya adalah untuk menghasilkan pengelompokan
objek yang mirip satu sama lain dalam kelompok-kelompok.
Tujuan
Data Mining
1.
Explanatory
Untuk
menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan truk pick-up
meningkat di Colorado.
2.
Confirmatory
Untuk
mempertegas hipotesis, seperti halnya dua kali pendapatan keluarga lebih suka
dipakai untuk membeli peralatan keluarga dibandingkan dengan satu kali
pendapatan keluarga.
3.
Exploratory
Untuk
menganalisa data yang memiliki hubungan yang baru. Misalnya, pola apa yang
cocok untuk kasus penggelapan kartu kredit.
Klasifikasi
Sistem Data Mining
Data
Mining merupakan suatu pendekatan dalam pemecahan masalah dengan menggunakan
tinjauan berbagai sudut pandang ilmu secara terpadu yaitu, database system,
statistics, machine learning, visualization, dan information system.
Karena DM adalah suatu rangkaian proses, DM dapat dibagi menjadi
beberapa tahap yang diilustrasikan pada gambar dibawah :
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
2. Integrasi data (penggabungan data dari beberapa sumber)
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
4. Aplikasi teknik DM
5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)
6. Presentasi pengetahuan (dengan teknik visualisasi)
Tahap-tahap dibawah ini, bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base.
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
2. Integrasi data (penggabungan data dari beberapa sumber)
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
4. Aplikasi teknik DM
5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)
6. Presentasi pengetahuan (dengan teknik visualisasi)
Tahap-tahap dibawah ini, bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base.
Cara kerja Data Mining
Bagaimana tepatnya data mining “menggali” hal-hal penting yang belum diketahui sebelumnya atau memprediksi apa yang akan terjadi? Teknik yang digunakan untuk melaksanakan tugas ini disebut pemodelan. Pemodelan di sini dimaksudkan sebagai kegiatan untuk membangun sebuah model pada situasi yang telah diketahui “jawabannya” dan kemudian menerapkannya pada situasi lain yang akan dicari jawabannya.
Sebagai contoh di sini diambil pencarian solusi bisnis di bidang telekomunikasi. Ada beberapa perusahaan telekomunikasi yang beroperasi di sebuah negara dan dimisalkan pihak manajemen sebuah perusahaan bermaksud untuk menjaring kustomer baru untuk jasa layanan sambungan langsung jarak jauh (SLJJ). Pihak manajemen dapat “menghubungi” calon-calon kustomer dengan memilih secara acak kemudian menawari mereka dengan diskon khusus, dengan hasil yang kemungkinan besar kurang menggembirakan, atau dengan memanfaatkan pengalaman-pengalaman bisnis yang saat ini sudah tersimpan di basis data perusahaan untuk membangun sebuah model. Perusahaan ini telah memiliki banyak informasi mengenai kustomer perusahaan tersebut: umur, jenis kelamin, sejarah penggunaan fasilitas kredit dan penggunaan SLJJ. Juga sudah diketahui informasi mengenai calon-calon kustomer: umur, jenis kelamin, sejarah penggunaan fasilitas kredit, dll. Masalahnya adalah penggunaan SLJJ untuk para calon kustomer ini belum diketahui, karena mereka saat ini menjadi kustomer dari perusahaan lain. Yang dipikirkan pihak manajemen adalah mencari calon kustomer yang akan menggunakan banyak jasa SLJJ. Usaha untuk mencari jawaban masalah ini dilakukan dengan membangun sebuah model. Tabel 1 memberikan ilustrasi mengenai pembangunan model untuk menentukan calon kustomer (prospek) di sebuah gudang data.
Bagaimana tepatnya data mining “menggali” hal-hal penting yang belum diketahui sebelumnya atau memprediksi apa yang akan terjadi? Teknik yang digunakan untuk melaksanakan tugas ini disebut pemodelan. Pemodelan di sini dimaksudkan sebagai kegiatan untuk membangun sebuah model pada situasi yang telah diketahui “jawabannya” dan kemudian menerapkannya pada situasi lain yang akan dicari jawabannya.
Sebagai contoh di sini diambil pencarian solusi bisnis di bidang telekomunikasi. Ada beberapa perusahaan telekomunikasi yang beroperasi di sebuah negara dan dimisalkan pihak manajemen sebuah perusahaan bermaksud untuk menjaring kustomer baru untuk jasa layanan sambungan langsung jarak jauh (SLJJ). Pihak manajemen dapat “menghubungi” calon-calon kustomer dengan memilih secara acak kemudian menawari mereka dengan diskon khusus, dengan hasil yang kemungkinan besar kurang menggembirakan, atau dengan memanfaatkan pengalaman-pengalaman bisnis yang saat ini sudah tersimpan di basis data perusahaan untuk membangun sebuah model. Perusahaan ini telah memiliki banyak informasi mengenai kustomer perusahaan tersebut: umur, jenis kelamin, sejarah penggunaan fasilitas kredit dan penggunaan SLJJ. Juga sudah diketahui informasi mengenai calon-calon kustomer: umur, jenis kelamin, sejarah penggunaan fasilitas kredit, dll. Masalahnya adalah penggunaan SLJJ untuk para calon kustomer ini belum diketahui, karena mereka saat ini menjadi kustomer dari perusahaan lain. Yang dipikirkan pihak manajemen adalah mencari calon kustomer yang akan menggunakan banyak jasa SLJJ. Usaha untuk mencari jawaban masalah ini dilakukan dengan membangun sebuah model. Tabel 1 memberikan ilustrasi mengenai pembangunan model untuk menentukan calon kustomer (prospek) di sebuah gudang data.
Refrensi :
Tugas Softskill :
Bp. Arbi Pramana