22/04/2022

DSBD-06: (Big) Data Science: Peluang, Tantangan, & Trend

“Opportunities are usually disguised as hard work, so most people don’t recognize them.” - Ann Landers

Outline

  1. Peluang di Era Data
  2. Tantangan Sosial
  3. Tantangan Teknis: Metode, Teknologi, & Data
  4. Future Trend
  5. Video
  6. Latihan Soal.

Lesson ini memiliki 2 jenis video: versi pendek untuk pemula (misal mahasiswa semester awal) dan video versi panjang untuk mereka yang memiliki dasar data science yang cukup*. Pembahasan di module ini hanyalah penjabaran sederhana dari video versi pendek untuk pemula. Mahasiswa semester awal (saat ini) tidak/belum dianjurkan untuk membaca berbagai tautan artikel ke jurnal yang diberikan di artikel ini. Para pembaca yang lebih advance dipersilahkan untuk mengakses video versi panjang untuk mendapatkan diskusi yang lebih lengkap. Last but not least, sebagaimana dengan module-module tau-data yang lain, Informasi di module ini dan konten di video saling melengkapi. Oleh karena itu untuk mendapatkan informasi yang utuh, silahkan untuk mengakses keduanya. Tautan ke latihan soal dan forum diskusi diberikan di akhir artikel.

Peluang di Era Data

Indonesia memiliki bonus demografi, pengguna internet yang berlimpah, serta pengguna media sosial yang sangat tinggi. Ke-3 hal ini berpotensi untuk digunakan sebagai salah satu fondasi dasar suksesnya sebuah bisnis digital berbasis data science atau AI (Gambar1. Sumber data Hootsuite Indonesia 2020). Pengguna mobile phone di Indonesia hingga bulan januari 2020 berjumlah sekitar 338 juta, jumlah ini melebihi jumlah penduduk Indonesia di sekitar 272 juta orang. Sekitar 160 juta penduduk Indonesia aktif menggunakan internet, bahkan sebagiannya (sekitar 66%) merupakan usia produktif (16-64 tahun) dan telah menggunakan berbagai piranti digital modern. Peluang lain yang nampak dari data HootSuite ini adalah besarnya dana yang beredar di bisnis online yang totalnya melebihi $33 milyar. Berbagai statistik ini memberikan gambaran jelas betapa besarnya peluang digital di Indonesia. Tentu saja hal tersebut terkait langsung dengan berbagai metode dan teknologi di big data dan data science sebagai mesin penggerak sektor ini.

Gambar 1. Rangkuman statistik potensi digital di Indonesia. Image Source: https://datareportal.com/reports/digital-2020-indonesia

Data Google Trends selama 5 tahun menunjukkan popularitas narasi "Big Data" dan "IoT" yang senantiasa meningkat (Gambar 2). Menariknya jika menilik asal lokasi pencarian narasi ini, ternyata banyak berasal dari daerah dimana para pemuda-pemudi Indonesia terkonsentrasi: Sebagian Sumatera, pulau Jawa, dan sebagian di propinsi-propinsi sekitar Bali dan Nusa Tenggara (Cross Reference dengan data Susenas BPS). Data ini mengerucutkan pemikiran bahwa peluang suksesnya aplikasi dan pengembangan data science dan big data di Indonesia akan banyak dipengaruhi oleh peran para pemuda-pemudi di Indonesia.

Gambar2. Bonus demografi di Indonesia, pemuda sebagai kunci sukses pengembangan solusi data di Indonesia.

Peluang besar ini sebenarnya bersambut gayung tidak hanya dengan banyaknya pengguna (user) serta ketersediaan data sebagai bahan baku bagi industri digital di Indonesia, namun juga karena berbagai program pemerintah dan institusi pendidikan yang terus mendorong pemuda-pemudi Indonesia untuk sukses berwirausaha di bidang data/digital (technopreuner). Sebut saja program "1000 Startup Digital Pemerintah", berbagai keringanan yang diberikan pemerintah untuk UMKM, bahkan dukungan pemodalan dan bimbingan penuh oleh universitas (contohnya program UI Incubate) (Gambar 3). Dengan terbukanya peluang yang begitu luas dan dorongan berbagai program pemerintah+universitas, maka sesungguhnya peluang untuk Indonesia bisa berjaya melalui usaha di bidang digital terbuka lebar.

Gambar3. Berbagai program baik dari pemerintah dan institusi pendidikan untuk melahirkan enterpreuner muda.

Tantangan Sosial

Penggunaan berbagai teknologi terkait data (terutama big data) melahirkan berbagai kehawatiran di masyarakat. Sebagai contoh pada Gambar 4 diilustrasikan bagaimana privacy menjadi salah satu faktor penting ketika pengawasan diperketat untuk tujuan keamanan. Walaupun hampir dipastikan masyarakat akan setuju akan meningkatnya keamanan, namun hak untuk mendapatkan privacy menjadi pembatasnya. Contoh lain adalah kehawatiran bagaimana algoritma yang dihasilkan oleh sistem big data/machine learning kemudian berpotensi untuk me-marginalisasi suatu golongan masyarakat tertentu. Algoritma machine learning juga dapat mengakibatkan polarisasi di masyarakat [baca papernya disini]. Isu tentang kepemilikan data juga terjadi ketika algoritma di big data men-generate (menghasilkan) data baru dari data yang dimiliki masyarakat [baca contoh papernya disini]. Sebagai contoh sederhana, algoritma machine learning dapat memprediksi jenis kelamin seseorang lewat nama, bahasa yang digunakan pada status media sosial, dan-atau foto yang digunakan sebagai avatar/profile picture. Lalu yang menjadi pertanyaan adalah variabel (data) jenis kelamin ini kemudian apakah milik user atau pengguna sistem big data? Data yang diproduksi lewat mesin (komputer) semakin hari semakin jamak di Industri dan membutuhkan kejelasan hukum.

Gambar 4. Beberapa social concerns terkait Big Data.

Permasalahan hukum terkait data merupakan salah satu tantangan terbesar terkait big data/data science di bidang sosial. Sudah cukup banyak literature (paper) membahas tentang hal ini (beberapa diantaranya diberikan di Gambar 5). Dalam konteks ke-Indonesiaan hal ini tidak berbeda, apalagi ditambah dengan permasalahan produktivitas legislatif Indonesia yang selama ini dinilai masih sangat rendah (baca disini). Pada dasarnya isu utama terkait data dan hukum adalah laju perkembangan teknologi dan metode di data science atau big data yang jauh lebih cepat ketimbang produk hukumnya.

Gambar 5. Tantangan hukum terkait data.

Beberapa produk hukum terkait data dan informasi di Indonesia dapat dilihat di Gambar 6, namun karena perkembangan teknologi dan metode data science begitu cepat dan aplikasi/solusi terkait data juga semakin beragam dan kompleks, sehingga pembaharuan dan-atau penambahan aturan sudah seyogyanya untuk selalu dilakukan secara kontinu.

Gambar 6. Beberapa hukum terkait data & informasi di Indonesia.

Di proses hulu dari big data dan data science adalah pengumpulan data (data gathering), pada titik ini berbagai masalah sosial juga sebenarnya sudah mulai muncul. Sebagai contoh pengambilan data dari media sosial atau website sebenarnya memiliki aturan yang cukup ketat. Namun demikian seringnya literasi digital terkait hal ini terutama kompetensi terkait legal dan ethics tentang data tidak menyertai kompetensi practical skills seorang data scientist. Sebagai contoh seorang (maha)siswa atau bahkan akademisi secara umum bisa saja melakukan pelanggaran hukum jika data diambil tidak sesuai dengan aturan yang telah ditetapkan pemilik website atau perusahaan penyelenggara suatu media sosial. Contoh sederhananya pengambilan data Facebook (atau Instagram) jika dilakukan tanpa izin resmi merupakan tindakan yang melanggar aturan (terms of service) facebook (baca lebih lanjut disini).

Ada beberapa hal yang bisa dilakukan untuk meyakinkan pengambilan data digital menjadi "ethical" (baik untuk keperluan pengajaran/penelitian, maupun keperluan bisnis):

  1. Meminta izin secara langsung (paling aman).
  2. Membaca dengan baik dokumen "ToS": Terms of Service website/media sosial.
    - Misal: https://web.facebook.com/terms.php
  3. Menaati aturan web administrator lewat berkas "robots.txt".
    - Misal: https://web.facebook.com/robots.txt
  4. Memahami batasan penggunaan hak cipta "Fair Usage"/"Kepentingan yang wajar"
    - Silahkan baca disini untuk kasus Indonesia atau link ini untuk aturan Fair Usage US/internasional.

Tantangan Teknis

Persepsi tatangan teknis terkait big data cukup dinamis, namun kesiapan akan "skill set" menjadi main concern yang cukup konstan (Gambar 7) bahkan hingga tahun 2020 ini. Sebenarnya kehawatiran ini terlahir dari terlambatnya berbagai institusi formal dalam melakukan adaptasi terhadap perkembangan kebutuhan industri akan pengolahan data yang besar dan juga data tidak terstruktur ketika berbagai solusi big data telah terlahir di masyarakat. Akibatnya akhir-akhir ini berbagai lembaga pendidikan non-formal justru menawarkan lebih banyak (dan komprehensif) pembahasan terkait ilmu pengetahuan seputar big data dan data science ketimbang lembaga pendidikan formal. Sebut saja beberapa diantaranya seperti coursera, Udemy, atau edX. Sehingga sebenarnya tantangan teknis pertama terkait data science sebenarnya adalah (sistem) pendidikan formal. Serupa dengan tantangan hukum, kurikulum di pendidikan formal juga sulit untuk mengikuti cepatnya perkembangan teknologi dan metode di big data atau data science. Belum lagi sarana-prasarana (fasilitas) untuk mempelajari berbagai ilmu di data science atau big data juga membutuhkan biaya yang tidak sedikit (misal GPU server, HPC, infrastruktur hadoop/spark, dsb).

Gambar 7. Dinamika persepsi tantangan data menurut AtScale.

Tantangan teknis berikutnya adalah Visualisasi. Pada kasus data terstruktur dengan jumlah variabel (dimensi) yang masih berjumlah relatif sedikit maka baik statistik sederhana (deskriptif), visualisasi data, maupun interpretasi dari model-model statistikmachine learning dapat menghasilkan informasi/insight yang dibutuhkan dari data. Namun demikian ketika datanya besar atau berupa data tidak terstruktur maka tantangan akan besarnya komputasi yang dibutukan untuk mengenerate visualisasi meningkat dengan tajam. Model-model yang dihasilkan dari data tidak terstruktur (misal data teks) yang biasanya melibatkan representasi data berdimensi tinggi (jumlah variabel yang sangat banyak) sehingga visualisasi sederhana yang terbatas di (biasanya) hanya 3 dimensi tidak dapat digunakan. Namun demikian berbagai visualisasi yang efisien secara komputasi saat ini dikembangkan untuk meng-ekstraksi insight atau informasi dari berbagai model dari analisa data tidak terstruktur (Gambar 8).

Gambar 8. Tantangan visualisasi di Big Data dan data tidak terstruktur.

Tantangan berikutnya dalam data science dan-atau big data adalah perubahan paradigma "Statistical/Mathematical thinking". Selama puluhan tahun (bahkan mungkin lebih) pemodelan statistika/matematika (bahkan sains secara umum seperti fisika/kimia) biasanya dilandasi oleh beberapa asumsi dasar dan faktor yang mempengaruhi fenomena yang sedang diteliti/analisa. Salah satu diantara asumsi yang universal terkait pengolahan data adalah komputasi dan data berada di satu tempat. Asumsi ini begitu "trivial" sehingga tidak pernah (minimal sangat jarang) untuk dinyatakan secara eksplisit. Namun demikian di jaman Big Data, asumsi ini tidak lagi selalu dipenuhi, bahkan seringnya tidak terpenuhi. Sebagaimana yang telah dibahas pada module sebelumnya arsitektur yang disarankan untuk mengangani data yang besar justru sebuah arsitektur sistem dimana data dan komputasi terdistribusi (decentralized) [baca papernya disini]. Pada ekosistem ini berbagai teori dasar dan pemodelan yang telah dibangun puluhan bahkan mungkin ratusan tahun perlu untuk diperbaharui. Gambar 9 adalah beberapa contoh model (beserta referensi terkaitnya) yang menunjukkan bahwa paradigma dalam penyelesaian masalah data pada arsitektur komputer DDDC (Distributed Data-Distributed Computing) merubah bagaimana pemodelan statistika/matematika dilakukan.

Gambar 9. Beberapa contoh model yang di kembangkan di arsitektur DDDC.

Menariknya kemudian, walaupun faktor arsitektur teknologi/infrastruktur komputasi terdistribusi dikesampingkan, ternyata pada pengolahan data yang besar berbagai teori di Statistika juga tetap perlu mengalami penyesuaian. Gambar 10 menunjukkan salah satu contoh yang paling dasar (sederhana) dimana perhitungan "p-value" di statistika harus mengalami perubahan ketika datanya besar. Para ahli statistika ketika dahulu kala mengemukakan formula perhitungan signifikansi p-value ini sama sekali tidak menduga bahwa ukuran data akan menjadi sangat besar sekali. Sehingga jika formulasi yang sama diterapkan pada data yang besar, maka formulanya tidak akan bekerja secara efektif sebagaimana ketika datanya relatif kecil. Ada beberapa literature kemudian mengajukan berbagai cara alternatif dalam mengatasi hal ini (misal ada di link ini). Sebenarnya masih banyak lagi tantangan teknis di data science dan big data, namun kita cukupkan sampai disini dan mari kita beralih ke proyeksi trend data science dan big data di masa depan.

Gambar 10. Salah satu contoh terkenal bagaimana teori statistika di big data berbeda [Link].

Future Trend

Pembahasan berbagai tantangan data diatas sepertinya menyeramkan (semoga tidak). Namun demikian sebenarnya masih pada taraf yang wajar. Hal ini dikarenakan teknologi big data dan ilmu data science memang relatif masih baru (dibandingkan bidang ilmu lain). Sebagaimana perkembangan ilmu dan teknologi yang lainnya, maka salah satu trend yang biasanya muncul adalah semakin mudah dan jamaknya (ubiquitos) berbagai piranti terkait pengolahan data di masa depan. Salah satunya adalah trend berbagai teknologi portable yang ramah lingkungan dan cost-efficient. Gambar 11 adalah contoh dua buah teknologi yang cukup baru yang diajukan IBM dan NVIDIA terkait hal ini. Tentu saja masih banyak contoh teknologi lain yang juga berusaha untuk menyelesaikan masalah yang sama.

Gambar 11. Contoh trend teknologi ramah lingkungan IBM True North dan contoh small portable AI device Nvidia JetSon Nano.

Berbagai trend lain yang tidak lama lagi kemungkinan akan muncul adalah penggunaan komunikasi cepat 5G. Dengan adanya komunikasi cepat seperti 5G berbagai piranti yang terkait pengolahan data seperti mobil tanpa sopir (driverless car) dapat dibuat lebih efisien dengan mengirimkan komputasi di server pusat (cloud) ketimbang di dalam kendaraan itu sendiri. Tidak hanya itu banyak aplikasi lain seperti face detection dan berbagai aplikasi militer dan alat-alat kesehatan modern juga akan banyak mengalami perubahan.

Hal lain yang akan menjadi trend dimasa depan dan kemungkinan besar akan menjadi penanda berakhirnya era industri 4.0 adalah ketika Quantum komputer telah jamak digunakan dimasyarakat umum. Mengingat cara kerjanya yang sangat unik begitu banyak metode, teknologi, dan aplikasi baru akan bermunculan mengikuti lahirnya quantum komputer ini. Perubahan yang terjadi akan jauh lebih dahsyat dari "hebohnya" kelahiran industri 4.0. Mengapa? karena berbagai aplikasi seperti keamanan komputer contohnya akan dipaksa untuk berubah. Karena jika tidak maka keamanannya akan compromized very easily by quantum computing. Tidak hanya itu berbagai teknik optimasi di Matematika, Fisika, atau Ekonomi juga akan mengalami perubahan yang sangat signifikan. Paradigma programming-pun berubah total. Saat ini sulit menerka kapan hal ini akan terjadi, namun melihat jarak dari industri 3.0 dan 4.0 yang memendek dari peralihan di tahap-tahap sebelumnya, maka bisa jadi revolusi industri akan terjadi sekitar 15-20 tahun lagi.

Video DSBD-06



Video versi penuh untuk mereka yang telah memiliki dasar Data Science
[Link ke Utube]

Tidak ada komentar:

Posting Komentar

Relevant & Respectful Comments Only.