DSBD-03: Variety - Tipe dan Format Data di (Big) Data Science


"If something exists, it exists in some amount. If it exists in some amount, then it is capable of being measured." Rene Descartes

Pertanyaan penting yang sering muncul dalam sebuah penelitian (baik di dunia akademik maupun industri) adalah “data apa yang harus saya ambil dan model statistika/data science apa yang sesuai?” Artikel ini akan berusaha menjawab bagian pertama pertanyaan ini. Bagian kedua dari pertanyaan tersebut dibahas di lesson berikutnya (DSBD-04).

Biarkan data yang berbicara“. Tentu saja sebagai seorang akademisi (pekerja profesional),  keputusan atau kesimpulan haruslah diambil berdasarkan alasan logis dan-atau fakta yang ada (i.e. data). Ketika dihadapkan dengan sebuah masalah, maka kebanyakan dari kita ingin merubah data menjadi informasi, lalu menjadi pengetahuan atau kebijakan, dan kemudian mengambil suatu manfaat (baru) darinya (Gambar 1).


Gambar 1. Data, Knowledge, Information & Wisdom (DIKW) Pyramid [Source]

“Masalah” biasanya diformulasikan dalam sebuah (atau beberapa) hipotesis(dugaan), yang kemudian dibuat sebuah perencanaan untuk pengambilan data, analisa data, dan terakhir penarikan kesimpulan. Untuk mendapatkan kesimpulan yang kuat dan tepat, proses inipun terkadang dilakukan berulang-ulang bahkan di setiap sub langkahnya (gambar 2) .

Gambar 2. Siklus data analysis. [image source]

Teknik analisa data yang akan dilakukan untuk mencari informasi yang relevan terhadap dugaan (hipotesis) seringnya bergantung pada jenis/tipe data yang kita miliki. Oleh karena itu sebelum membahas tentang model-model data science, mari kita awali dulu dengan pembahasan mengenai jenis/tipe data.  Jenis data sendiri dapat dibedakan menurut sumber, tipe, struktur, atau fitur/sifat lain dari data tersebut (Gambar 3).

Tipe data
Gambar 3. Asal, Jenis, dan Tipe Data.

Tipe data berdasarkan:

1. Sumber Data

Data dapat bersumber dari sang peneliti langsung lewat eksperimen, sensor, observasi langsung, atau survey. Sumber data seperti ini disebut sumber data primer. Data juga dapat berasal repository data (database/data warehouse)  atau data dari penelitian sebelumnya, data yang tidak diambil langsung oleh penelitinya ini disebut sebagai data sekunder.
Kelebihan data primer (primary data): Interpretasi data (model) biasanya lebih baik & kuat karena pengambilan data secara spesifik dilakukan untuk menjawab suatu hipotesis tertentu. Kualitas dan kontrol terhadap data juga cenderung lebih baik, dan jarang sekali terjadi masalah proprietary (kepemilikan data).
Kekurangan data primer: Mahal, butuh waktu lebih lama, lebih sulit untuk mengumpulkannya.
Kelebihan data sekunder (secondary sata): Murah, cepat, dan mudah untuk melakukan benchmark (perbandingan).
Kekurangan data sekunder: Terkadang tidak sesuai dengan kebutuhan, kualitas data lebih rendah (garbage in-out), tidak selalu tersedia.

Gambar 4. Data Primer dan Sekunder [image Source]

2. Waktu (time series/runtun waktu)

Beberapa data tertentu bergantung terhadap waktu, sebut saja pergerakan nilai mata uang (kurs)/harga saham, suhu/temperature udara di suatu daerah tertentu, atau data logs suatu website. Saat nilai data di masa depan lebih banyak (dominan) hanya dipengaruhi dari nilai-nilainya di masa lalu, maka model-model runtun waktu univariate(satu peubah/variabel) seperti ARIMA (Autoregressive Integrated Moving Average) dapat digunakan. Namun bila satu atau beberapa peubah yang bergantung waktu dipengaruhi juga oleh variable lain selain nilai-nilainya di masa lalu, maka model runtun waktu peubah ganda (multivariate) seperti VaR (Vector autoRegression) dapat digunakan. Pembaca yang tertarik ingin mempelajari tentang peramalan (forecasting) pada model runtun waktu lebih lanjut dapat mengacu pada referensi ini ==> Forecasting: principles and practice – Rob J Hyndman & George Athana­sopou­los.

Gambar 4. Contoh Time Series Data pergerakan harga saham [image source]

3. (Geo)Spatial Data

Ada kalanya penelitian yang dilakukan bergantung pada lokasi/tempat, sebut saja penelitian yang berkenaan dengan kadar mineral/gas di suatu daerah tertentu, penelitian tentang penyebaran suatu penyakit menular tertentu (misal: flu burung dan HIV/AIDS), gempa bumi, atau penelitan tentang dukungan politik di suatu daerah tertentu. Saat datanya bergantung pada lokasi (GeoSpatial) maka model-model statistik Spatial Data Analysis seperti spatial autocorrelation, spatial interpolation, spatial regression, spatial interaction, dan multiple-point geostatistics dapat digunakan. Terkait dengan data Spatial dan data mining (machine learning) akhir-akhir ini terdapat topik baru yang cukup menarik: “Geospatial Intelligence”. Bagi yang tertarik mempelajarinya, kuliah online gratis GeoIntelligence dapat diikuti di link berikut.

Gambar 5. Contoh data spatial Gempa Bumi [image source].

4. Struktur Data

Data yang biasanya kita ketahui berbentuk tabular (tabel/kolom-baris/matriks/array/larik), data seperti ini disebut data terstruktur (structured data). Data terstruktur dapat disimpan dengan baik di spreadsheet (misal: Excel) atau basis data (database) relasional dan secara umum dapat digunakan langsung oleh berbagai model/tools statistik/data mining konvensional.

Gambar 6. Perbedaan data terstruktur dan tidak terstruktur.

Sebagian data yang lain memiliki “tags” yang menjelaskan elemen semantik yang berbeda di dalamnya dan cenderung tidak memiliki skema (struktur) yang statis. Data seperti ini disebut data semi-structured, contohnya data dalam bentuk JSonatau XML. Apa bedanya? Apa maksudnya tidak memiliki skema yang statis? Penjelasan mudahnya bayangkan sebuah data terstruktur (tabular), namun dalam setiap baris (record/instance)-nya tidak memiliki jumlah variabel (peubah) yang sama. Tentu saja data seperti ini tidak sesuai jika disimpan dan diolah dengan tools/software yang mengasumsikan struktur yang statis pada setiap barisnya (misal: Excel dan SPSS).

Big Data Akhir-akhir ini sedang ramai istilah Big Data. Yess… Big Data adalah sebuah istilah (term) dan bukan semata-mata translasi/terjemahan dari “data besar” dalam bahasa Indonesia. Data yang besar jika diterjemahkan secara formal dalam bahasa Inggris adalah “Large Data” dan bukannya Big DataBig Data adalah sebuah istilah dimana data dalam jumlah (volume) besar, semakin membesar secara cepat (velocity), dan biasanya memiliki format yang beragam (variety). Dalam beberapa literatur kemudian ditambahkan dengan beberapa sifat lainnya yaitu veracity (akurasi) dan value (nilai).  Walau tidak ada batasan/ambang/threshold seberapa besar data disebut sebagai “Big Data”, namun saat ini di industri, Big Data biasanya berukuran minimal Petabyte. Tentu saja definisi ini tidak eksak, beberapa tahun lagi data berukuran Petabyte mungkin tidak terlalu besar (relatif terhadap kemampuan komputer). Jika dikaitkan dengan analisa data, beberapa literatur lain mengatakan suatu data sudah dapat dikatakan sebagai “Big Data” jika komputer (machine/PC) “biasa” sudah tidak mampu lagi untuk mengolahnya dalam suatu jangka waktu tertentu, karena keterbatasan komputasi, memori, atau storage. Lalu apa kaitannya Big Data dan struktur data yang sedang kita bicarakan?  Format data di Big Data ‘biasanya’ semi-structured (teks/Json/XML/logs) atau tidak terstruktur (unstructured) (misal: dokumen, video, gambar dan suara). Data (multi)media ini tidak dapat secara langsung dianalisa dengan model statistik/data mining. Sebuah proses awal (pre-process) harus dilakukan terlebih dahulu untuk merubah data-data tidak (semi) terstruktur tersebut menjadi bentuk yang dapat digunakan oleh model statistik/data mining konvensional. Terdapat berbagai macam cara mengubah data-data tidak terstruktur tersebut ke dalam bentuk yang lebih sederhana, dan ini adalah suatu bidang ilmu tersendiri yang cukup dalam. Sebagai contoh saja sebuah teks biasanya dirubah dalam bentuk vektor/topics terlebih dahulu sebelum diolah.

Gambar 7. Perkembangan Data Berdasarkan Data Tidak Terstruktur.

Vektor data teks sendiri bermacam-macam jenisnya: ada yang berdasarkan eksistensi (binary), frekuensi dokumen (tf), frekuensi dan invers jumlah dokumennya dalam corpus (tf-idf), tensor, dan sebagainya. Contoh lain, data video atau gambar sebelum diolah dapat direpresentasikan sebagai pixel (BOVW), super pixel (SIFT/SLIC), atau representasi lainnya. Data tidak terstruktur dapat dinyatakan dalam berbagai cara ketika dirubah menjadi representasi lain yang lebih sederhana/umum. Proses perubahan ini sendiri biasanya tidak lossless, artinya terdapat cukup banyak informasi yang hilang. Maksudnya bagaimana? Sebagai contoh ketika teks direpresentasikan dalam vektor tf-idf maka informasi urutan antar kata menghilang. Pembahasan lebih lanjut tentang ini akan dijelaskan pada artikel yang lain.

Gambar 8. Tiga tipe Struktur Data [Image Source]

5. Graph Data

Jenis maupun bentuk data semakin beragam. Akhir-akhir ini data dalam bentuk graph(Gambar 9) mendapat perhatian cukup besar, terutama terkait dengan semakin jamaknya penggunaan sosial media dan semakin besar dan luasnya industri yang terpengaruh akannya. Bahkan terdapat database NoSQL tersendiri yang secara spesifik menangani  jenis data ini (Neo4j). Walau pada keadaan tertentu graph dapat juga direpresentasikan dalam sebuah matrix/array/tabel lewat matriks keterhubungan (adjacency matrix) atau incidence matrix, namun sebuah graph data biasanya memuat informasi yang lebih kompleks. Diantaranya ada atau tidaknya arah (undirected/directed graph) di setiap busur (edge)-nya, adanya weight (bobot) di node (vertex) dan edge-nya, ada atau tidak adanya loop, label,  dan sebagainya.

Gambar 9. Graph Representation.

Terdapat sub-bidang ilmu yang cukup baru di data mining, dikenal dengan “episodes mining”,  menggunakan tipe data graph. Pada episodes mining, data graph yang urut waktu digunakan untuk menentukan pola (pattern) dari suatu objek tertentu. Salah satu aplikasinya adalah alat penentu automatis yang akan mendeteksi apakah seorang manula yang tinggal sendiri di rumahnya membutuhkan bantuan medis atau tidak (Link). Beberapa operasi/tasks pada data graph diantaranya adalah pencarian rute terpendek, spanning tree, graph labelling, network centrality, community, contagion, dan opinion formation. Kursus gratis di Coursera berikut sangat cocok untuk mereka yang tertarik untuk mempelajari lebih lanjut tentang hal ini (Link).

Gambar 10. Contoh data graph social media [Image Source]

6. Tipe Data (Kategorik atau Numerik)

Tipe data yang paling umum digunakan dan diketahui oleh banyak orang adalah klasifikasi data yang dipelopori oleh Stevens (1946, 1951). Menariknya ternyata terdapat beberapa kritik terhadap klasifikasi data ini (Link). Terlepas dari kritik tersebut, klasifikasi tipe data ini termasuk yang paling mudah untuk dijelaskan dan dipahami baik definisi, maupun kaitannya dengan pemilihan model.  Artikel ini akan membahas secara lebih mendalam tentang klasifikasi data ini dan kemudian pada bagian kedua tulisan ini  akan dibahas model-model statistika maupun data mining (data science) terkait dengan tipe datanya. Klasifikasi tipe data menurut Steven lebih mudah dijelaskan melalui Tabel berikut:

Tabel 1. Klasifikasi Tipe Data menurut Stevens [1946, 1951].

Seperti yang nampak pada Tabel 1, variabel nominal memiliki lebih sedikit pilihan perhitungan dan visualisasi. Semakin tinggi tingkatan tipenya (nominal ==> ratio) maka semakin banyak pilihan operasi dan visualisasi yang dapat dilakukan. Secara umum tipe variable yang ‘lebih tinggi’ , yaitu interval dan ratio memiliki informasi yang lebih detail. Sebaliknya tipe variabel seperti nominal, sebenarnya hanyalah pemetaan atau penamaan semata. Yang dimaksud dengan “nol mutlak” pada Tabel 1 adalah makna “0” yang sesungguhnya. Sebagai contoh suhu ruangan dengan ukuran Celcius dan Fahrenheit tidak memiliki nol mutlak, karena ketika suhu suatu ruangan 0oC atau 0oF tidak berarti di ruangan tersebut sama sekali tidak ada panas (lain halnya jika suhunya 0oK ). Variabel interval seperti skor IQ juga tidak memiliki sifat perbandingan. Sebagai contoh mereka yang IQ-nya 160 bukan berarti 2x lebih pintar dari mereka yang IQ-nya 80. Keterbatasan perhitungan atau operasi pada variabel-variabel ini menimbulkan batasan-batasan tertentu.  Sebagai contoh, tentu saja kurang logis jika kita menghitung rata-rata pada data nominal dan ordinal, atau menghitung modus (data yang paling banyak muncul) pada data interval dan rasio. 


Batasan ini juga berlaku pada visualisasi data, jika data ratio atau interval disajikan dalam pie chart tentu saja tidak akan banyak bermakna. Keterbatasan operasi perhitungan yang bisa dilakukan pada tipe-tipe data ini kemudian akan mengakibatkan batasan pemakaian model statistika. Atau dengan kata lain untuk tipe data tertentu, model statistika yang dapat digunakan juga tertentu pula. Hal ini akan dibahas lebih jauh di bagian kedua dari artikel ini. Masih banyak tipe lain dari data yang tidak dibahas di artikel ini. Sebut saja ketika melakukan Market Basket Analysis (Association Rule), data yang digunakan bentuknya unik, yaitu record belanja setiap konsumen. Walau datanya dapat disimpan dalam bentuk tabular, namun dalam pengolahannya bentuknya menjadi  lebih mirip ke semi-structured karena harus menghitung support dan confidence setiap kombinasi barang (item) (Gambar 11-atas). Contoh lainnya adalah data microarray/gene expression, yang berisi urutan-urutan gen protein (Gambar 11-bawah). Selain itu masih banyak contoh bentuk ataupun tipe data lainnya yang belum disebutkan di artikel ini.

Gambar 11. Associative rule analysis (market basket analysis) dan micro array gene expression data.

Gambar 12. Data Representation on Text Analysis - VSM Transpose [image source].
Gambar 13. Image Representation.

Penutup dan tipe data di masa depan

  • Pilih tipe data yang mana? Tentu saja hal ini bergantung dari beberapa hal, seperti tujuan penelitian, domain penelitian (misal: graph untuk social media research),  atau misal kemudahan dalam menganalisa. Survey atau kuesioner dengan pertanyaan terbuka (essay) akan lebih sulit untuk dianalisa lebih lanjut ketimbang pilihan terbatas. Pada kasus lain di suatu survey, responden akan sungkan menuliskan pendapatannya secara eksak (ratio) namun biasanya tidak terlalu masalah jika disajikan dalam pilihan suatu selang interval tertentu (ordinal). Hal ini mempengaruhi pemilihan tipe variabel.
  • Visualisasi data juga menjadi topik menarik akhir-akhir ini di bidang analisa data. Berbagai tools dan cara penyajian data semakin terus berkembang. Tipe data tentu saja juga menjadi salah satu penentu bentuk visualisasi yang dapat disajikan. Semakin kompleks bentuk/tipe datanya, biasanya semakin beragam inovasi yang dapat dilakukan dalam mem-visualisasikannya.
  • Jenis/tipe data akan terus berkembang seiring dengan perkembangan ilmu & teknologi. Sebagai contoh dengan diperkenalkannya unit penyimpanan data Qubit di quantum computing tentu saja kelak akan memperkaya bagaimana data dapat direpresentasikan. Kemajuan teknologi seperti Vitual Reality, Augmented Reality, atau gabungan keduanya (misal: HoloLens) juga memungkinkan data disimpan dalam bentuk yang lebih revolusioner. Perkembangan teknologi & metode di Big Data juga masih sangat awam. Format file terkompressi dan ter-index yang dapat digunakan secara portable oleh berbagai tools dan model statistika tentu juga termasuk perkembangan yang kita nanti-nantikan.


Link ke Video di Youtube

Karena tulisan ini sudah terlalu panjang kita lanjutkan ke Lesson berikutnya ya. 

Tidak ada komentar:

Posting Komentar

Relevant & Respectful Comments Only.