ADM01 - Pendahuluan Data Mining


Prasyarat Module:
Sebelum mempelajari Module ini, yakinkan sudah mempelajari dengan baik module: * None
Content:
  1. Pendahuluan Data Mining
  2. Definisi Data Mining
  3. Contoh Aplikasi Data Mining
  4. Tools Data Mining
  5. Codes Module ADM-01
  6. Referensi

Video DM-01



Full Version: Link to Youtube

Pendahuluan Data Mining

Data mining” bagi sebagian orang istilah ini sudah tidak asing, tapi bagi sebagian yang lain, istilah Statistika lebih dikenal sebagai ilmu pengolahan data. Bahkan seringnya bagi masyarakat umum kata Data Mining diasosiasikan dengan pertambangan (mining).  Pemahaman ini tidak sepenuhnya salah, karena memang Data Mining melakukan proses penambangan (mining), namun bukan mineral bumi yang di-mining, akan tetapi menambang informasi/knowledge/pengetahuan yang bermanfaat dari data.

[image source]

Data mining memiliki banyak kemiripan dengan Statistika, karena sama-sama bertujuan mengolah data untuk mendapatkan suatu kesimpulan/informasi darinya. Bahkan “akar/root” dari data mining adalah statistika (dan Machine Learning). Akan tetapi tentu saja jika sama, maka istilah baru tidak perlu diperkenalkan. Ada beberapa perbedaan mendasar antara kedua bidang ilmu ini, mari kita bahas lebih lanjut.

[1]. Sumber Data:

Di Statistika, data biasanya diambil dari populasi (sampel) lalu diolah dengan suatu metode statistika yang bersesuaian untuk kemudian mendapatkan suatu kesimpulan (hasil) dari modelnya [interpretasi/inferensi]. Tidak jarang kemudian model statistika bertujuan untuk melakukan suatu inferensi (penarikan kesimpulan) ke populasi asal. Data Mining umumnya mengolah data yang berasal dari observasi dan biasanya berukuran cukup besar. Ukuran data yang besar tersebut ‘seringnya’ menjadi kendala bagi beberapa model Statistika tradisional. Sebut saja karena masalah memori komputer akibat perhitungannya, masalah stabilitas komputasi, dan masalah konvergensi pencapaian model yang optimal. Jadi para Data Miner biasanya disuguhi data, jarang sekali di data mining dilakukan proses pengambilan data secara langsung ke populasi seperti melalui survey/kuesioner. Tentu saja ada kasus-kasus khusus (pengecualian), contohnya saja web mining dan social media analytics. Web miner biasanya secara langsung melakukan “crawl” data dari internet atau situs media sosial, untuk kemudian mengambil kesimpulan tentang pola belanja untuk kebutuhan perusahaan (advertisement/marketing), atau untuk kebutuhan strategi kampanye di bidang Politik, kependudukan, kesehatan, dan lain-lain.

[2]. Generalisasi VS Eksplorasi

Data Mining berkaitan dengan cukup banyak bidang ilmu lain: Matematika (terutama Optimasi), ilmu komputer, Kecerdasan Buatan [Machine Learning/Artificial Intelligence], Image Prosesing/computer vision, Text Mining, NLP, basis data, Information Retrieval, dll. Data Mining (terkadang sering juga di asosiasikan dengan Data Science), namun perlu dipahami dengan baik bahwa keduanya berbeda. Dalam proses Data Mining menggunakan model atau algoritma di Statistika dan Machine Learning sebagai alat/tools untuk mendapatkan informasi berharga sebanyak-banyaknya dari suatu data terstruktur tertentu. Sedangkan Data Science seringnya menangani data tidak terstruktur dan tidak jarang dituntut untuk memodifikasi model/algoritma yang ada untuk menjawab tantangan data yang baru seperti variety, velocity, dan-atau volume (hence kata "scientist" pada profesi Data Scientist). Untuk penjelasan lebih lanjut silahkan simak di lesson DSBD-01. Gambar 01 berikut mengilustrasikan cukup baik perbedaan Data Mining dan Statistika berdasarkan besar dan format datanya dapat juga diilustrasikan dengan tabel berikut [pengertian data terstruktur dan tidak terstruktur di jelaskan di lesson DSBD-01 dan DSBD-03].

Gambar 01. Perbedaan Statistika dan Data Mining (serta Big Data/Data Science). [Image Source]

Data Mining terkadang sering disebut juga sebagai KDD [Knowledge Discovery in Database] sebuah istilah yang umum digunakan di bidang kecerdasan buatan [AI-Artificial Intelligence]. Data Mining menggunakan model/algoritma yang ada di Statistika atau Machine Learning, mulai dari RegresiClustering [pengelompokan], maupun model-model klasifikasi. Akan tetapi model-model tersebut terkadang menjadi sedikit berbeda proses pemodelan dan interpretasinya mengingat domain data dan algoritma perhitungannya juga berbeda. Sebagai contoh karena data yang besar di database, maka data mining terkadang tidak perlu mengeneralisir ke populasi, cukup bekerja di basis data/datawarehouse yang ada. Silahkan baca dasar Statistika untuk mengingat kembali mengapa asumsi model di Statistika menjadi penting saat mengeneralisir ke populasi.

[3]. Hipotesis
Perbedaan lain yang belum dijelaskan antara Statistika dan Data Mining adalah hipotesis (dugaan) yang akan di teliti. Di Statistika biasanya sejak awal sudah memiliki (sebuah) hipotesis yang jelas, lalu kemudian menentukan populasi, mengambil sample, dan mengolah datanya dengan sebuah atau beberapa model Statistika untuk kemudian diambil kesimpulan. Berbeda dengan Statistika, para Data Miner ‘biasanya’ tidak disodori atau diawali dengan suatu hipotesis, tapi seonggok data yang biasanya besar (baik jumlah record/baris dan-atau kolom/variabelnya), "terkadang" tidak terstruktur (bukan tabular), noisy, dan berformat yang beragam.  Para data miner “bersama” client kemudian mempelajari/mendiskusikan “domain knowledge” data tersebut dan mencoba menyusun “beberapa” hipotesis/dugaan manfaat/informasi apa yang dapat dihasilkan dari data. Kemudian karena datanya  jarang sekali “siap saji”, sebuah proses panjang ‘pre-processing‘ data biasanya dilakukan. Mulai dari transformasi data, noise removal, feature selection, outlier removal, dimension reduction, atau proses-proses lainnya. Pre-processing data seringnya memakan waktu paling lama dari keseluruhan proses data mining. Di dalamnya termasuk merubah gambar, suara, log, xml, json, dokumen, dll ke bentuk data yang bisa digunakan oleh model statistik yang umum (tabular/tabel-tabel). Setelah data siap untuk diolah, “model-model statistika/machine learning*” digunakan untuk menguji semua hipotesis-hipotesis yang disusun sebelumnya untuk mendapatkan  sebanyak-banyaknya informasi yang berguna/bermanfaat  untuk client. Proses ini seringnya repetitive, artinya setelah mendapatkan hasil, terkadang data miner harus kembali merevisi dugaan/hipotesis awal, lalu melakukan pemodelan ulang. Proses data mining tersebut diatas biasa dikenal sebagai CRISP-DM (Cross Industry Standard Process for Data Mining). Gambar berikut merupakan salah satu ilustrasi yang paling sering digunakan untuk menjelaskan proses data mining ini. Proses ini akan dibahas lebih mendalam di Lesson selanjutnya (ADM-02).

Di data mining lazimnya hipotesis, model, & infomasi/insight >1 dan tidak di-tentukan/ketahui di awal proses analisa/mining data.

Gambar 2. Crisp Data Mining Process [image source].

[4] Kategori/klasifikasi metode:

Sebagaimana layaknya Statistika yang terbagi menjadi Statistik Deskriptif dan Inferensi, maka Data Mining juga terbagi menjadi beberapa sub task/tipe. Dalam Data Mining terdapat proses EDA [Exploratory Data Analysis], Descriptive ModellingPredictive Modelling [Regresi & Klasifikasi], Pencarian Patterns and Rules, dan Content Retrieval.

[5]. Akurasi VS Interpretability

Di sebagian besar kasus Machine Learning akurasi adalah keutamaan. Hal ini tidak berlaku di data mining. Contoh pada suatu data D kemudian disusun hipotesis (dugaan) h dari data (misal rating produk dipengaruhi warna, jenis kelamin, dan umur pelanggan). Dari data dan hipotesis ini dibuat 2 model, sebut saja M1 dan M2. Akurasi M1 = 96% namun modelnya tidak dapat diinterpretasi dan tidak ada informasi apa-apa dapat ditarik dari M1. Sedangkan M2 hanya memiliki akurasi 76% namun modelnya dapat diinterpretasi dengan baik dan menghasilkan rekomendasi-rekomendasi kebijakan yang jelas ke perusahaan. Di machine learning biasanya M1 yang akan digunakan, akan tetapi Data Miner lebih suka model M2. Model M1 cocok untuk dijadikan pengambilan keputusan automatis (e.g. analytic engine) atau di "embed" dalam suatu alat (misal pengenalan sidik jari di mobile phone). Model M2 diminati para businessman/data miner karena memberikan rekomendasi kebijakan non-trivial yang lebih jelas, misal "target marketing produk perusahaan ke remaja di perkotaan" atau "berikan promo jasa antar makanan online ke pelanggan yang memiliki karakteristik X,Y,Z".

Video berikut juga bisa menjadi sumber tambahan dalam memahami tentang apa itu data mining:

http://www.youtube.com/watch?v=R-sGvh6tI04

Jika tertarik, berikut beberapa tulisan lain yang menjelaskan lebih lanjut tentang pendahuluan Data Mining:

  1. http://en.wikipedia.org/wiki/Data_mining
  2. http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/datamining.htm
  3. http://www.theatlantic.com/technology/archive/2012/04/everything-you-wanted-to-know-about-data-mining-but-were-afraid-to-ask/255388/
  4. http://docs.oracle.com/cd/B28359_01/datamine.111/b28129/process.htm
  5. PDFwww.cs.uiuc.edu/~hanj/pdf/ency99.pdf

Definisi Data Mining

Dari penjelasan diatas, sebenarnya kita bisa mencoba untuk menyimpulkan sendiri “apa sih sebenarnya Data Mining?”. Namun para ahli sekalipun berbeda pendapat tentang definisi Data Mining, tidak/belum ada kesepakatan umum akan hal ini (tidak terlalu penting juga untuk diperdebatkan). Berikut beberapa definisi Data Mining yang ada dari beberapa sumber sebagai contoh:

  1. Data mining adalah pencarian dan teknik analisa data yang besar untuk menemukan pola dan aturan yang berarti (Berry & Linoff, 2004: 7).
  2. Data mining adalah teknik untuk menganalisa sekumpulan data yang besar guna menemukan hubungan yang tidak diduga dan berguna bagi pemilik data  (Hand, 2001: 1).
  3. Data mining adalah proses untuk menemukan pola dan hubungan dalam suatu data (Hornick, 2007: 6).
  4. Data mining adalah suatu proses otomatis atau semi otomatis untuk menemukan informasi (knowledge) baru dan berpotensi dari sekumpulan data (Tang & Jamie, 2005:2).

Dari beberapa contoh definisi diatas benang merah/silver lining-nya adalah penjelasan apa itu data mining di secation sebelumnya di module ini.

Miskonsepsi yang sering muncul tentang Data Mining

  1. Data Mining = Data Science
  2. Suatu masalah klasifikasi (prediksi) adalah Data Mining.
    No!... ini hanya bagian kecil (tidak utuh) dari data mining dan lebih tepat untuk disebut sebagai Machine Learning. Tidak ada proses "mining" didalamnya (crisp/semma/ccc) dan hipotesis ditentukan sejak awal. Miskonsepsi ini sering kita temukan di berbagai lomba analisa data di beberapa tempat.
  3. Informasi yang dihasilkan dari data mining/statistika adalah satu-satunya penentu keputusan policy/decision (penjelasan lebih detail di video).
  4. Databasenya harus besar (tidak harus, namun lazimnya berukuran relatif besar).

Aplikasi Data Mining

Video berikut menjelaskan dengan baik (dan menghibur) aplikasi Data Mining di industri (dunia nyata). Videonya juga menceritakan tentang privacy issues terkait tentang penerapan data mining di dunia nyata.

Data Mining terlahir lewat Statistika yang mendapatkan tantangan untuk memecahkan permasalahan terkini yang lebih kompleks dan besar. Selain itu, di data mining juga ada tantangan untuk dapat menggunakan teknologi-teknologi yang terbaru (NoSQL, HPC, dll) secara tepat guna. Data Mining memegang peranan penting dalam berbagai aspek dalam kehidupan di masyarakat saat ini. Berikut beberapa contoh kecil aplikasi data mining di berbagai bidang:


Referensi

  1. Data Mining: Concepts and Techniques by J Han, M Kamber & J Pei, 2012, 3rd edition, Morgan Kaufmann.
  2. Aggarwal, C. C. (2015). Data mining: the textbook. Springer.
  3. P.Cabena, P. Hadjinian, R. Stadler, J. Verhees, and A. Zanasi. Discovering Data Mining: From Concept to Implementation. IBM, 1997
  4. U. Fayyad, G. Piatetsky-Shapiro, and P. Smith. From data mining to knowledge discovery. AI Magzine,Volume 17,  pages 37-54, 1996.
  5. Barry, A. J. Michael & Linoff, S. Gordon. 2004. Data Mining Techniques. Wiley Publishing, Inc. Indianapolis : xxiii + 615 hlm.
  6. Malik, U., Goldwasser, M., & Johnston, B. (2019). SQL for Data Analytics: Perform fast and efficient data analysis with the power of SQL. Packt Publishing Ltd.
  7. Vanderplas, J. T. (2016). Python data science handbook: tools and techniques for developers. O’Reilly.
  8. Bishop, C. M. (2006). Pattern recognition and machine learning. springer.
  9. Simovici, D. (2018). Mathematical Analysis for Machine Learning and Data Mining. World Scientific Publishing Co., Inc.
  10. Zheng, A. (2015). Evaluating machine learning models: a beginner’s guide to key concepts and pitfalls.
  11. Mitchell, T. M. (1997). Machine learning. 1997. Burr Ridge, IL: McGraw Hill45(37), 870-877.

Karena tulisan ini sudah terlalu panjang kita lanjutkan ke Lesson berikutnya ya.

Tidak ada komentar:

Posting Komentar

Relevant & Respectful Comments Only.