ADM-02: Proses Data Mining


The goal is to turn data into information, and information into insight. ~ Carly Fiorina

Video ADM-02

Pendahuluan Proses Data Mining

"Proses data mining" adalah sebuah standar atau framework bagaimana suatu rangakaian kegiatan perubahan data menjadi informasi dilakukan. Biasanya proses ini dimulai dari business understanding/domain knowledge/prior knowledge yaitu pengetahuan tentang bidang dari data yang akan diolah, lalu kelak diakhiri dengan "kumpulan" informasi berharga yang biasanya tersembunyi/latent/hidden di data. Informasi ini terkadang disebut posterior knowledge (orang Bayesian tidak suka istilah ini dipakai disini :) ). Melalui proses data mining pengolahan data menjadi sistematis (bandingkan dengan Statistika, Machine Learning, dan Data Science), sehingga industri menjadi lebih mudah dalam menerapkan data mining di Institusinya. Tanpa guideline proses tertentu, maka mendapatkan informasi dari database yang besar dan kompleks akan terlalu sulit dilakukan. Ada beberapa hal yang perlu diingat:

  • Sebagaimana metode kuantitatif lain, tidak semua pattern/informasi dari data actionable dan valid ("spurious irrelevant patterns"). Praktisi DM/business experts harus memvalidasi informasi yang muncul dari data.
  • Evaluasi akan informasi sebaiknya dilakukan. Ukur seberapa besar "impact" dari informasi tersebut. Biasanya lewat suatu aplikasi tertentu dalam bisnis di perusahaan tersebut.
  • Seringnya proses data mining menemukan pertanyaan (hipotesis) yang tepat terlebih dahulu. Baru kemudian setelah menemukan ini, kemudian informasi yang berharga dapat ditemukan (prosesnya iteratif).

Ada beberapa acuan dalam melakukan proses data mining, namun perlu diingat beberapa framework ini hanyalah acuan dasar. Ketika diaplikasikan di dunia nyata (industri) maka standar-standar ini perlu untuk disesuaikan dengan kebutuhan dan sarana-prasarana yang ada di perusahaan. Mari kita bahas beberapa standar yang paling populer:

Knowledge Discovery in Databases (KDD)

KDD sebenarnya bukan salah satu framework untuk proses data mining, tapi lebih ke sinonim (nama lain) dari data mining [2]. Namun demikian ketika istilah ini pertama kali diperkenalkan semakin jelas bagaimana proses data mining dilakukan. Kalau dilihat di Gambar 1, menariknya AAAI kemudian menekankan proses mining terjadi setelah transformasi data dan sebelum pattern ditemukan. Namun demikian perlu diperhatikan bahwa pemodelan tidak bisa dilakukan sebelum data "dibersihkan" melalui preprocessing terlebih dahulu. Hal ini bisa dianalogikan bagaikan membersihkan/memisahkan tanah dengan mineral berharga seperti emas/perak. Kalau dilihat gambar 1 ini dengan (misal Crisp-DM di gambar 2 nanti) maka KDD ini tidak menekankan business understanding di awal, tapi implisit di proses data mining dan interpretasinya. Namun proses iteratif nampak jelas dari panah ke belakang yang bisa menuju ke langkah sebelumnya, atau bahkan ke langkah awal [referensi ada di gambar].

Gambar 1. Knowledge Discovery in Databases Proses dari aaai.

Cross-Industry Standard Process for Data Mining (CRISP-DM)

Standar proses Data Mining yang paling populer adalah CRISP-DM [1]. CRISP DM dibagi menjadi 6 bagian utama (Gambar 2):

  1. Business Understanding
  2. Data Understanding
  3. Data Preparation
  4. Modeling
  5. Evaluation
  6. Deployment
Gambar 2. CRISP-DM [image Source]

Serupa dengan penjelasan KDD, CRISP DM menekankan bahwa proses Data Mining adalah proses iteratif (panah yang kembali ke proses sebelumnya). Namun di CRISP DM ada penekanan "Business dan Data Understanding" di awal. Menariknya Kemudian CRISP-DM di akhiri dengan Deployment dan bukan Informasi seperti KDD. Detail dari setiap langkah di CRISP-DM dapat lebih mudah dimengerti lewat Gambar 3 berikut:

Gambar 3. Penjelasan lebih detail tentang CRISP-DM [image source from jsndesign]

Gambar 3 menjelaskan dengan baik berbagai detailed process yang dilakukan pada setiap tahap di CRISP-DM. Namun saya perlu tekankan sekali lagi bahwa semua tahapan dan komponen ini hanyalah panduan dan bukan "hitam/putih" bagaimana DM atau CRISP-DM dilakukan. Modifikasi dilakukan menyesuaikan budaya (culture) dan kebutuhan masing-masing industri. Dua tahap pertama sebaiknya di bimbing oleh mereka yang sudah berpengalaman di perusahaan. Seseorang yang mengerti seluk-beluk business process, product, dan customer. Untuk melancarkan proses pada tahap ini, sebaiknya business experts di dampingi oleh Database Administrator (DBA)/Data Engineer. Di tahap akhir Deployment bukanlah deployment seperti project di Machine Learning, namun lebih ke penerapan insight/information yang didapatkan dari proses Data Mining ke dunia nyata. Sedangkan tahapan antara awal dan akhir adalah tahapan yang biasanya di detailkan di buku-buku (literature) data mining. Yaitu penggunaan statistika dan machine learning untuk menyiapkan data (preprocessing), eksplorasi awal data, pemodelan, dan kemudian evaluasi.

Tahapan Data Preparation biasanya dijelaskan dengan detail di Topik "Exploratory Data Analysis" (EDA). Begitu pentingnya tahapan ini tau-data Indonesia memiliki satu module khusus untuk membahas EDA ini. Sebagian besar pekerjaan Data Analyst menggunakan EDA, data scientist, statistician, dan AI engineer juga tidak akan menghasilkan output yang berarti tanpa proses EDA yang baik. Apa saja yang menjadi cakupan EDA? Silahkan baca lebih lanjut di Link berikut. Namun EDA biasanya juga menggunakan berbagai teknik clustering (pengelompokkan data), detail tentang hal ini dapat dibaca di Link ini. tau-data memisahkan clustering dari EDA, karena clustering terlalu comprehensive cakupannya dan sangat luas aplikasinya.

Perlu dipahami dengan baik (terutama oleh para leads/managers) bahwa proses Data Preparation ini biasanya memakan waktu paling lama di keseluruhan proses data mining. Sebaiknya para pimpinan tidak mendesak data analyst/scientistnya untuk tergesa-gesa mendapatkan hasil dengan memperpendek tahap Data Preparation ini. Resiko besar dari melakukan Data Preparation yang tidak baik adalah insight/informasi yang salah dan gagalnya keseluruhan proses data mining. Istilah yang sangat populer tentang hal ini adalah: Garbage-In-Garbage-out. Data preprocessing/preparation ini biasanya memakan waktu 50-60% dari keseluruhan proses data mining. Menurut perusahaan SAS rata-rata proporsi effort dapat dilihat di Gambar 4.

Gambar 4. Presentase effort di tahapan Data Mining menurut SAS.

"Modelling"/pemodelan dan "Evaluation" biasanya dilakukan menggunakan model prediksi (regresi/klasifikasi) atau forecasting (time series). Ada berbagai model dan algoritma yang dapat digunakan silahkan baca pelajari overviewnya di DSBD-04. Di banyak penerapan data mining di Industri model-model Statistika dan Machine Learning ini hanya di pakai/gunakan saja. Statistika dan Machine Learning bagaikan tools bagi data mining. Berbeda dengan Data Science, terkadang modifikasi algoritma atau model dilakukan untuk menyesuaikan tantangan data akibat variety, velocity, atau volume. Khusus untuk tantangan Volume, di Data mining biasanya di tangani cukup dengan metode sampling. Hal ini akan lebih jelas ketika kita membahas framework proses data mining yang lain, yaitu SEMMA.

Sample, Explore, Modify, Model, and Assess (SEMMA)

CRISP-DM bukanlah satu-satunya framework proses Data Mining, SAS enterprise memiliki standar proses data mining sendiri yang disebut sebagai SEMMA: Sample, Explore, Modify, Model, dan Assess. Proses SEMMA ini cukup unik dengan adanya "Sampling", sebuah good practice bagi data miner. Data scientist/analyst pemula sering melupakan hal ini karena terbuai oleh performa cloud perusahaan dan melupakan bahwa ada cost yang tidak sedikit dibalik penggunaan cloud tersebut. Di banyak implementasi sebenarnya cukup banyak data dari database cukup homogen, sehingga sampling sederhana cukup untuk mendapatkan data yang representative terhadap keseluruhan data di database. Proses selanjutnya dari SEMMA kurang lebih sama dengan CRISP-DM (dapat dilihat pada Gambar 5).

Gambar 5. Konsep proses Data Mining oleh SAS Enterprise - SEMMA [image source]

SEMMA oleh SAS sebenarnya integrated dalam software data mining yang mereka tawarkan sebagai solusi enterprise untuk data mining (Gambar 6). Karena bias ini proses SEMMA mendapat kritik oleh beberapa akademisi karena menjadi out-of-context ketika tidak menggunakan solusi dari SAS ini. SEMMA juga tidak secara eksplisit menekankan tentang business understanding dan hanya fokus pada pengolahan data. Pada jamannya, solusi SAS ini sempat menjadi primadona oleh para akademisi dan professional. Terutama karena kemudahan yang ditawarkan oleh softwarenya dan tampilan serta sistematika proses yang jelas. Namun akhir-akhir ini solusi open source mulai lebih digemari oleh akademisi dan praktisi.

Gambar 6. SEMMA integrated dengan software SAS Enterprise Miner.

Computing Community Consortium (CCC)

Standar proses data mining sebenarnya bukan hal yang baru. CRISP-DM diperkenalkan tahun 1996 dan SAS SEMMA yang diperkenalkan sebelum big data menjadi populer. Computing Community Consortium (CCC) memperkenalkan suatu proses mining data yang dipengaruhi oleh munculnya popularitas Big Data systems. Rangkaian proses ini biasa disebut sebagai "pipeline", sebuah istilah rangkaian proses pengolahan data yang biasa dipakai oleh machine learning practitioner. Beberapa isu yang spesifik terhadap big data secara eksplisit dimasukkan dalam komponen proses DM oleh CCC, seperti data gathering/acquisition, privacy dan maslaah lain yang terkait big data: Heterogenity (variety), Timeliness (velocity), dan Scale (volume).

Gambar 7. Proses (Big) Data Mining CCC.

Penutup

Ketika di module awal data mining ini atau saat saya menjelaskan DSBD-01 mungkin sebagian orang ada yang tidak setuju bagaimana saya memisahkan antara data mining dan data science. Namun setelah penjabaran detail proses data mining di lesson ini semoga semakin jelas apa sebenarnya data mining dan abagaimana ia diterapkan di industri. Di Lessons elanjutnya kita akan membahas lebih mendetail tentang dasar-dasar EDA sebagai tahapan yang sangat penting di proses Data Mining. Sebelum itu yakinkan anda memiliki dasar bahasa pemrograman Python yang baik, silahkan simak lesson ADSP-01 dan ADSP-02 jika ingin memahami dasar-dasar Python untuk data mining dan data science.

Referensi

  1. Shearer C., The CRISP-DM model: the new blueprint for data mining, J Data Warehousing (2000); 5:13—22.
  2. Piateski, G., & Frawley, W. (1991). Knowledge discovery in databases. MIT press.

Karena tulisan ini sudah terlalu panjang kita lanjutkan ke Lesson berikutnya ya. 

Tidak ada komentar:

Posting Komentar

Relevant & Respectful Comments Only.