PSD-01: Prelude - Pendahuluan Sains Data dan Big Data ~ taudata Academy

Seberapa sering kita mendengar istilah-istilah Big Data, Data Science, Industri 4.0, machine learning, dan AI? Walau sepertinya merupakan istilah yang sederhana, namun sayangnya istilah-istilah ini sering kurang dipahami dengan baik.

I.1. Era Data: Industri 4.0

Kita mulai dari pembahasan tentang Era Data/Industri 4.0. Konon kabarnya gambar bisa bercerita ribuan kata, jadi kita coba mulai bahas lewat gambar.

**Gambar 1**. Revolusi Industri 01 (1784) hingga 04 (2015).

Seperti yang nampak di Gambar 1, Revolusi Industri (RI)1.0 dimulai di sekitar akhir abad ke 18 dan ditandai dengan ditemukannya mesin uap serta mesin tenun mekanis. Setelah sekitar 100 tahun baru kemudian muncul versi 2, eh salah maksudnya RI tahap 2. Begitu juga revolusi industri tahap ke-3 yang muncul kurang lebih setelah seratus tahun di sekitar tahun 1969 ketika robot, elektronik, dan ICT memulai era-nya. Menariknya RI 4.0 muncul lebih cepat dari tahapan RI sebelumnya (kurang dari setengah abad sejak revolusi industri tahap ke-3 dimulai). Benang merah RI 4.0 adalah Data. Berbagai metode, aplikasi, dan teknologi seputar data ditemukan dan semakin melekat di kehidupan masyarakat. Detail lebih lanjut tentang revolusi industri ini dapat ditemukan di beberapa referensi berikut [1,2,3].

Sebelum kita bahas era data (industri 4.0) lebih lanjut, mari kita membahas sedikit bagaimana interval antara tahapan RI nampak seperti semakin pendek. Apakah industri 5.0 akan terjadi lebih cepat (mungkin 30 tahun setelah industri 4.0?). Prediksi ini juga banyak diutarakan oleh para ahli dan cendikia, salah satunya Henrik Von Scheel [Link] salah satu tokoh terkemuka dari Jerman dibalik lahirnya/maraknya istilah industri 4.0 di berbagai media. Kemungkinan revolusi industri yang berkembang lebih cepat memang cukup besar, terutama karena pengaruh munculnya komputer quantum. Gambar 2 melukiskan dengan apik fenomena ini. Bagi dunia industri/usaha dan pemerintah exponential rate ini sangat penting untuk disimak lebih jauh terutama untuk menyusun strategi optimal tahapan pembangunan atau investasi.

**Gambar 2.** Image Source: http://von-scheel.com/industry40/

Sebelumnya sempat disinggung bahwa Industri 4.0 sebenarnya berputar sekitar data. Apa iya? Lalu apa fenomena yang bisa kita amati? Apakah data se-berharga itu saat ini?

Coba perhatikan contoh-contoh perusahaan yang ada di Gambar 3. Apa saja persamaan dari contoh perusahaan-perusahaan di gambar tersebut? Jika dahulu tahun 90-an saat seseorang menyebut kata "perusahaan", maka yang ada di bayangan kita kemungkinan besar adalah pabrik/manufacturing. Namun perusahaan di era industri 4.0 banyak yang sebenarnya hanya mengumpulkan data lewat aplikasi/web kemudian mengirimkan data tersebut melalui internet ke server perusahaan untuk diolah menjadi informasi berharga dan dikirimkan kembali ke pengguna. Perusahaan transportasi online menerima data tentang permintaan kebutuhan alat transportasi dari pengguna. Data tersebut dirubah menjadi informasi ke pengemudi Ojek Online (ojol) di sekitar pengguna, lalu dijadikan solusi dengan menghubungkan si Ojol dengan pengguna.

Traveloka tidak memiliki hotel sendiri, Tokopedia tidak memiliki toko sendiri, Gojek/Grab tidak memiliki armada sendiri, dan seterusnya. Perusahaan di era industri 4.0 utamanya mengubah data menjadi informasi/insight/solusi bagi pengguna. Lalu seberapa penting proses pengolahan data menjadi informasi ini?

Data sangat berharga bagaikan minyak bumi di era industri 4.0. Seperti minyak bumi yang perlu diolah terlebih dahulu (misal menjadi bensin/solar) sebelum dapat digunakan, begitu juga data yang perlu diolah terlebih dahulu (menjadi insight/solusi) sebelum dapat digunakan. Namun demikian, minyak bumi adalah sumber daya tidak terbarukan yang dapat habis (serta cenderung merusak lingkungan), sementara data tidak pernah habis dan terus bertambah (serta berpotensi untuk mengatasi masalah lingkungan).

Catatan penting: Untuk para pemuda/i ... era industri 4.0 adalah kesempatan yang baik untuk kalian menjadi pengusaha (enterpreuner/technopreuner). Karena saat ini membuat sebuah perusahaan yang sukses relatif lebih mudah dan murah. Itulah mengapa beberapa tahun kebelakang ini banyak perusahaan rintisan (startup) bermunculan. Ayo berwirausaha!.... :)

Contoh beberapa perusahaan yang maju dengan cukup pesat di era Industri 4.0 di berbagai bidang.

Catatan Tambahan: Jepang (MenRisTek-nya) memperkenalkan konsep “Society 5.0" tahun 2016 sebagai: “a technology-based and human-centered society”. Intinya mengalihkan industry-centered ke society (human) centered. Namun demikian Society 5.0 tidak memiliki novelty (kebaruan) dan signifikansi yang jelas di dunia akademis (teori) maupun di industri (aplikasi). Sepertinya hal inilah yang menyebabkan "gaung" society 5.0 tidak sepopuler sebagaimana "industri 4.0". Silahkan simak video berikut jika tertarik untuk mengetahui lebih lanjut tentang Society 5.0. https://www.youtube.com/watch?v=SYrv6kOsU1o

I.2. Big Data & Industri 4.0

Bayangkan berapa banyak data per-menit transaksi yang ada di Traveloka, Gojek/Grab, atau Tokopedia? Bagaimana menyimpannya? Seberapa besar data terkumpul perhari? Bagaimana mengolahnya? inilah cikal bakal lahirnya "Big Data".

Perhatikan Gambar 5, sebelum jaman Big Data kebanyakan data berbentuk tabel (Data Terstruktur) data transaksi, administrasi, atau personel ini biasanya di-input oleh petugas administrasi. Bisa dibayangkan bagaimana data bertambah dengan relatif lambat (karena di input manual). Bandingkan dengan data yang di-hasilkan oleh pengemudi Ojol atau penggunanya yang jumlahnya jutaan (user generated content)... atau bayangkan data yang di-generate para pengguna media sosial. Tidak hanya sekarang yang menginput data jumlahnya jutaan, data yang disimpan-pun tidak lagi hanya berbentuk tabel, tapi juga data berbentuk teks, gambar, dan video (Data Tidak Terstruktur). Sehingga data yang terkumpul berjumlah besar (Volume), beragam bentuk/format (Variety), dan terus bertambah dengan cepat secara real-time (Velocity). Ketiga V inilah yang kemudian menjadi karakteristik utama Big Data.

**Gambar 5.** Pertumbuhan data terstruktur VS tidak terstruktur yang melahirkan Big Data.

Sampai sini kita harus kembali ke referensi yang baik. Big data didefinisikan secara berbeda-beda di kalangan akademisi (not written in stone). Wikipedia mencantumkan beberapa definisi, Forbes memuat setidaknya 12 definisi yang berbeda dari beberapa sumber. Kalau dari segi ukuran data, awalnya data berukuran Terrabyte sudah dianggap besar, namun sekarang Petabyte juga sepertinya sudah biasa di kalangan perusahaan besar. Namun demikian banyak yang keberatan jika masalah big data harus di batasi dengan menggunakan ukuran data.

Sejarah

Seperti yang dikutip dari artikel Forbes di atas, istilah “Big Data” pertama kali muncul pada sebuah publikasi ilmiah resmi tahun 1997 di sebuah paper ilmiah NASA. Pada tahun 2001 Doug Laney kemudian memperkenalkan tiga sifat big data yang sangat terkenal dan digunakan oleh banyak ahli (konsensus) sebagai komponen utama yang harus muncul pada pembahasan big data, yaitu 3 tantangan manajemen data besar – 3V: Volume, Variety, and Velocity seperti yang telah kita diskusikan sebelumnya. Tidak lama kemudian terdapat dua “V” tambahan (optional), yaitu Veracity (uncertainty) dan Value. Veracity adalah penekanan terhadap kualitas data dan Value terkait nilai yang bisa didapat dari big data; mengingat infrastruktur, maintenance, dan operasional big data tidaklah murah. Saya sangat setuju dengan "Bapak Big Data" (Doug Laney) ketika membahas sifat Big Data batasi saja dengan 3V awal. Mengapa? Karena 3V awal ini memiliki konsekuensi evolusi metode dan teknologi yang jelas di dunia akademis dan industri, sedangkan begitu banyak V lain hanya gimmick atau cenderung trivial (lupakan saja V yang lain).

V yang lain di Big Data selain 3V awal hanya "latah"/gimmick bahasa. Image source [Link].

Istilah big data mulai populer sejak tahun 2008 oleh beberapa peneliti ilmu komputer Amerika yang memprediksi dalam paper mereka bahwa komputasi big data akan membawa dampak besar di berbagai bidang (walau di paper tersebut mereka tidak mendefinisikan istilah big data computing). Setelah itu, ratusan (kalau tidak ribuan atau bahkan lebih) artikel ilmiah maupun media masa sahut-menyahut mempopulerkan istilah big data. Hingga akhirnya semenjak sekitar tahun 2013 hingga saat ini aplikasi big data sudah cukup banyak ditemukan di dunia akademis, industri, dan pemerintahan.

Properties of (Sifat) Big Data

Istilah dan ukuran big data memang belum (tidak) memiliki konsensus, namun ada kesepakatan bersama mengenai big data yang bisa digunakan sebagai koridor yang benar agar kita dapat menggunakan istilah big data dengan tepat atau tidak berlebihan dalam menggunakan istilah ini:

The 3V: Volume, Variety, and Velocity adalah ‘constraint’ /batasan pertama yang membedakan apa itu big data sesungguhnya. Menggunakan konsep 3V ini, perbedaan Big data dan Large data semakin jelas. “Large Data” hanyalah satu aspek dari Big Data, yaitu Volume atau ukuran data. Kalau hanya “sekedar” large data, maka teknologi NoSQL tidak akan berkembang dengan pesat seperti sekarang ini. Database relasional atau datawarehouse sebenarnya sanggup untuk menyimpan data yang besar (Notes: Facebook menggunakan MySQL walau mereka juga sepertinya sekarang menyesal/bermasalah akan hal itu).

[Ingat Big Data bukan (sekedar) Data yang Besar. Sumber gambar [Link1, Link 2]]

Database (datawarehouse) konvensional mengalami berbagai permasalahan ketika harus berhadapan dengan 2V yang lainnya, yaitu Variety & Velocity. Dalam sebuah sistem big data, data terus bertambah secara cepat [velocity] (misal data media sosial atau data SMS sebuah perusahaan telekomunikasi). Selain itu data juga biasanya berbentuk semi-terstruktur atau bahkan tidak terstruktur seperti JSON atau dokumen, bahkan file media (baca lebih lanjut disini). Database relasional memiliki schema/struktur yang tetap/fixed, sedangkan NoSQL biasanya schemaless sehingga lebih cocok untuk data yang beragam, dinamis, dan tidak terstruktur. Belum lagi solusi NoSQL biasanya cenderung lebih cost-friendly ketimbang solusi database relasional biasa.
Karena 3V, maka data biasanya terdistribusi. Ini adalah sifat big data berikutnya. Memiliki sebuah database besar yang terpusat sudah mulai ditinggalkan. Biaya yang dibutuhkan untuk pusat data seperti itu terlalu besar dan tidak scalable. Tidak scalable dalam penjelasan sederhana artinya, performa sistem kelak akan semakin menurun dan sulit untuk dicari solusinya (selain membuat sistem baru).
Karena data terdistribusi maka baik pemrograman dan model statistik yang digunakan juga terdistribusi. Karena sangat penting mari kita bahas satu persatu.

Pemrograman terdistribusi: Pernah dengar Map Reduce? Map reduce adalah salah satu model pemrograman (parallel dan terdistribusi) untuk data yang juga terdistribusi. Itulah mengapa Map Reduce sering dikaitkan dengan pembahasan big data. Namun Map Reduce bukan satu-satunya solusi (tidak harus Map Reduce), sebenarnya sembarang pemrograman HPC yang menggunakan proses dan data terdistribusi dapat digunakan di big data. Namun dengan syarat tertentu (baca disini).

Statistik di Big Data: Satu asumsi dasar semua model statistik/data mining/machine learning/data science konvensional adalah datanya centralized (terpusat). Centralized data tidak lagi dipandang sebagai solusi efisien ketika datanya besar (baca disini). Pemodelan statistik untuk data yang terdistribusi berbeda dengan ketika datanya berada di satu tempat. Jika statistik konvensional hanya fokus pada optimal parameter untuk generalisasi ke populasi yang terbaik. Pada sistem dengan data terdistribusi, statistiknya juga dioptimalkan untuk komunikasi antar node yang minimal dan upaya untuk mencapai optimal global dari berbagai solusi parameter optimal local di node-node yang ada. Saya akan menjelaskan lebih detail di artikel yang lain. Namun paper berikut bisa dijadikan salah satu bacaan sebelum saya menulis artikel tersebut. Teorema Hace (Gambar 5) menjelaskan dengan baik tentang karakter Big Data dimana data dan komputasi terdistribusi. Xindong et al (2014) juga menjelaskan mengapa pendekatan tersebut yang dipilih untuk menaklukan Big Data.

Perlu diingat (terutama bagi perusahaan dan pemerintahan sebelum berinvestasi di Big Data) bahwa pemilihan teknologi Big Data tertentu hanya optimal untuk model/algoritma sains data/machine learning tertentu juga. Misal hadoop tidak dapat digunakan untuk real-time analytics dan tidak cocok untuk algoritma machine learning yang iteratif seperti pengelompokkan k-Means. Kita akan bahas lebih detail tentang hal ini di module berikutnya.

**Gambar 5.** Teorema Hace tentang Big Data.

Pengecualian (Exceptions)

Di dunia ini hampir segala sesuatu ada pengecualiannya, termasuk terkait big data. Mengapa pengecualian ini (harus/sebaiknya) muncul? Biasanya karena alasan pendidikan atau penelitian/riset. Big data di dunia industri memiliki harga mati, namun di dunia pendidikan ia masih bisa ditawar-tawar. Mengapa? Industri atau pemerintahan yang menerapkan big data wajib menyelesaikan masalah dengan data yang sangat besar dan bertambah besar dengan cepat. Karena biaya investasi yang besar, Return of Investment (RoI) yang baik dari sistem ini merupakan sebuah taruhan besar yang tidak bisa dianggap remeh. Namun di dunia pendidikan hal tersebut tidak berlaku. Dunia pendidikan biasanya memiliki 3 keterbatasan besar yang hampir selalu muncul: Waktu, Dana, & Data. Hanya sedikit institusi pendidikan yang memiliki infrastruktur big data dan data yang mumpuni. Tidak banyak juga institusi pendidikan yang memiliki data yang besar “dengan” hak penggunaan (ethics) yang benar terhadap penggunaan data tersebut. Tapi di sisi lain industri dan pemerintahan membutuhkan para ahli big data yang diantaranya terlahir dari dunia pendidikan formal. Lalu apa yang bisa dilakukan?

Data “sekedar” ratusan megabyte bisa digunakan untuk penelitian big data. Sebuah paper ilmiah/penelitian bisa dimaklumi melakukan penelitian terkait big data jika fokusnya ke model paralel dan terdistribusi atau paling tidak fokus pada scalability atau efisiensi, namun TIDAK hanya fokus pada akurasi/generalisasi seperti yang biasanya di lakukan di statistika tradisional.
Meneliti secara teori suatu sifat Matematis/Statistik yang berbeda ketika datanya besar. Atau meneliti bagaimana memperbaiki performa (kecepatan/efisiensi komputasi/algoritma) suatu perhitungan, pemodelan, atau advance analysis tertentu (termasuk visualisasi).
Penilaian performa waktu sebenarnya bisa tidak terlalu strict. Apa maksudnya? hasil penelitian yang disajikan dengan ukuran waktu (detik, menit, jam, atau hari) tidak harus menunjukkan hasil yang fantastis. Mengapa? karena eksperimennya akan bergantung pada hardware dan software (tools/bahasa pemrograman) yang digunakan. Minimal terdapat 2 hal penting yang harus diperhatikan: Benchmark dan Speedup.

Benchmark artinya jika dibandingkan dengan model/algoritma lain (usahakan current state-of-the-art) maka model yang diajukan oleh sang peneliti lebih baik. Speedup artinya ketika resources yang digunakan lebih banyak (e.g. jumlah prosesor/computer nodes) maka pengurangan waktu/peningkatan efisiensi semakin baik (diusahakan semakin mendekati linear speedups).

I.3. Data Science dan Big Data

Istilah “Data Science” (Sains Data) diperkenalkan pertama kali oleh William S. Cleveland^[1] (2001), dimana ia menuliskan "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics". Cleveland sudah menyampaikan bahwa Data Science sebenarnya adalah perluasan dari ilmu Statistika ke arah teknis (Jika dikaitkan dengan Big Data berarti ke data tidak terstruktur dan realtime data analysis). Beliau juga ingin mengingatkan sejak dini agar para civitas akademika di bidang ilmu Statistika untuk berbenah (memperbaiki kurikulum) sejak 2001. Hal ini sangat logis jika kita hubungkan bagaimana data tidak terstruktur tumbuh dan berkembang pesat di dunia nyata dan menanti untuk dianalisa/dimanfaatkan. Perlu dipahami bahwa pengolahan data tidak terstruktur muncul di kurikulum Statistika konvensional bisa dibilang sangat terlambat. Itulah mengapa akhirnya Data Science lebih populer di Ilmu Komputer ketimbang di Ilmu (jurusan) Statistika. Padahal urusan menganalisa data seharusnya lebih erat kaitannya dengan Statistika ketimbang ilmu komputer.

Banyak yang menerangkan Data Science (Sains Data) sebagai gabungan dari beberapa bidang ilmu seperti pada Gambar 6. Walau tidak sepenuhnya salah, namun demikian penjelasan dengan diagram Venn ini sudah menjadi lelucon dikalangan praktisi dan akademisi [link1, link2]. Lagipula penjelasan dengan diagram-diagram Venn tersebut kurang tepat karena tidak menjadi distingsi ilmu Data Science yang baik. Masih banyak bidang ilmu lain yang juga merupakan gabungan dari beberapa bidang ilmu seperti diagram Venn di Gambar 6.

**Gambar 6.** Beberapa contoh penjelasan apa itu Data Science dengan diagram Venn yang kurang tepat.

Lalu apakah definisi Data Science? ... Ada beberapa definisi di literatur yang dapat digunakan. Namun salah satu definisi paper dari ACM berikut cukup baik untuk dijadikan acuan (paraphrased):

Data science adalah sebuah bidang ilmu yang menggunakan metode dan proses-proses ilmiah, algoritma, dan sistem untuk mendapatkan pengetahuan dan wawasan (insight) terdalam dari suatu data terstruktur (tabular) dan tidak terstruktur [4].

Perhatikan bagaimana definisi diatas mirip dengan definisi statistika secara umum namun dengan penambahan/penekanan pada data tidak terstruktur dan tujuannya untuk mencari informasi/insight. Mudahnya bagi jurusan ilmu statistika yang mau memperbaharui kurikulumnya berarti perlu penambahan pengolahan data tidak terstruktur. Data tidak terstruktur ini banyak ditemukan diberbagai sistem/aplikasi Big Data sebagaimana telah kita bahas sebelumnya. Namun yang perlu ditekankan adalah Data Science tidak harus selalu menangani Big Data.

Secara umum esensi Data Science adalah:

Menghasilkan insights (pemahaman mendalam), bukan sekedar informasi.
Mampu mengolah data dengan berbagai formats (text, image, video, graphs, etc).
Mampu meningkatkan kemampuan Analisa ke data dengan ukuran atau kompleksitas yang lebih besar (scalability).
Mampu memberikan hasil analisa secara real-time.
Kreatif & Inovatif dalam merubah data menjadi nilai (values/Solution).

Lalu apakah perbedaan Data Science dengan bidang ilmu lain? Sebenarnya jika kita menggunakan definisi Data Science diatas perbedaannya cukup jelas. Silahkan bandingkan dengan definisi beberapa bidang ilmu terkait berikut ini (tugas membaca mandiri):

Statistika [11, 12] - Suatu cabang ilmu yang menangani tentang pengumpulan, organisasi, analisis, interpretasi, dan presentasi dari data.
Data Mining [5, 6] - Suatu proses iteratif untuk mendapatkan informasi/insight dari data (biasanya pada data terstruktur dan menggunakan basic models).
Artificial Intelligence (AI) [9, 10] - Suatu system yang berusaha meniru kecerdasan manusia.
Machine Learning [7, 8] - Subset dari AI yang fokus hanya pada satu task/permasalahan.
Deep Learning [15, 16] - Subset dari ML, terutama difokuskan pada data tidak terstruktur karena memuat mekanisme automatic data representation.
Business Intelligence (BI) [13] - Penggunaan aggregat dan trends (statistika dasar) sebagai penunjang bisnis. Seringnya berbentuk dashboard.
Business Analytics (BA) [14] - Mirip dengan BI, namun menggunakan model yang lebih advance.

Walau sudah dibahas bahwa Data Science pada dasarnya adalah perluasan/extension dari Statistika, namun tentu saja keduanya berbeda. Bagi mereka yang ingin memahami bagaimana Statistika tidak sama dengan Data Science silahkan membaca referensi berikut:

**Gambar 7.** Deep Learning adalah bagian dari Machine Learning,
dan Machine Learning adalah bagian dari AI.

I.4. Aplikasi Sains Data dan Big Data

Aplikasi data science dan big data sudah cukup jamak bagi kebanyakan masyarakat. Sebut saja berbagai aplikasi yang ada di mobile phone, misal ketika masyarakat menggunakan aplikasi transportasi online, marketplace, analisa data dari sistem smart city, media sosial, dsb. Secara umum spectrum Big Data meliputi banyak aspek, tidak hanya tentang teknologi saja, tapi juga metode, aplikasi, hingga aspek sosialnya (Gambar 8).

Beberapa contoh aplikasi Data Science dan-atau big data dapat dilihat di Gambar 9 atau pada list berikut (beserta referensinya):

Finance (keuangan) : [17, 18]
Security (keamanan): [19, 20]
Education (pendidikan): [21, 22]
Health (kesehatan): [23, 24]
Government (pemerintah): [25, 26]

**Gambar 9.** Aplikasi big data - data science.

Referensi:

[1]. Schwab, K. (2017). The fourth industrial revolution. Currency.
[2]. Ashton, T. S. (1997). The industrial revolution 1760-1830. OUP Catalogue.
[3]. Hudson, P. (2014). The industrial revolution. Bloomsbury Publishing.
[4]. Dhar, V.: Data science and prediction. Commun. ACM. (2013). https://doi.org/10.1145/2500499.
[5]. "Data Mining Curriculum". ACM SIGKDD. 2006-04-30. Retrieved 2014-01-27.
[6]. Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF). Retrieved 17 December 2008.
[7]. "Machine Learning textbook". www.cs.cmu.edu. Retrieved 2020-05-28.
[8]. Mitchell, T. M. (1997). Machine learning. 1997. Burr Ridge, IL: McGraw Hill, 45(37), 870-877.
[9]. Poole, Mackworth & Goebel 1998, p. 1, which provides the version that is used in this article. Note that they use the term "computational intelligence" as a synonym for artificial intelligence.
[10]. Russell & Norvig (2003) (who prefer the term "rational agent") and write "The whole-agent view is now widely accepted in the field" (Russell & Norvig 2003, p. 55).
[11]. Romijn, Jan-Willem (2014). "Philosophy of statistics". Stanford Encyclopedia of Philosophy.
[12]. Dodge, Y. (2006) The Oxford Dictionary of Statistical Terms, Oxford University Press. ISBN 0-19-920613-9
[13]. Dedic N. & Stanier C. (2016). "Measuring the Success of Changes to Existing Business Intelligence Solutions to Improve Business Intelligence Reporting" (PDF). Measuring the Success of Changes to Existing Business Intelligence Solutions to Improve Business Intelligence Reporting. Lecture Notes in Business Information Processing. Lecture Notes in Business Information Processing. 268. Springer International Publishing. pp. 225–236. doi:10.1007/978-3-319-49944-4_17. ISBN 978-3-319-49943-7.
[14]. Beller, Michael J.; Alan Barnett (2009-06-18). "Next Generation Business Analytics". Lightship Partners LLC. Retrieved 2009-06-20.
[15]. Bengio, Y.; Courville, A.; Vincent, P. (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338.
[16]. Schmidhuber, J. (2015). "Deep Learning in Neural Networks: An Overview". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
[17]. HUTTUNEN, J., JAUHIAINEN, J., LEHTI, L., NYLUND, A., MARTIKAINEN, M., & MLehner, O. T. H. M. A. R. (2019). Big Data, Cloud Computing and Data Science Applications in Finance and Accounting. JOURNAL OF FINANCE & RISK PERSPECTIVES ISSN 2305-7394, 16.
[18]. Hussain, K., & Prieto, E. (2016). Big data in the finance and insurance sectors. In New Horizons for a Data-Driven Economy (pp. 209-223). Springer, Cham.
[19]. Strang, K. D., & Sun, Z. (2017). Analyzing relationships in terrorism big data using Hadoop and statistics. Journal of Computer Information Systems, 57(1), 67-75.
[20]. Akhgar, B., Saathoff, G. B., Arabnia, H. R., Hill, R., Staniforth, A., & Bayerl, P. S. (2015). Application of big data for national security: a practitioner’s guide to emerging technologies. Butterworth-Heinemann.
[21]. Daniel, B. K. (2019). Big Data and data science: A critical review of issues for educational research. British Journal of Educational Technology, 50(1), 101-113.
[22]. Klašnja-Milicevic, A., Ivanovic, M., & Budimac, Z. (2017). Data science in education: Big data and learning analytics. Computer Applications in Engineering Education, 25(6), 1066-1078.
[23]. Murdoch, T. B., & Detsky, A. S. (2013). The inevitable application of big data to health care. Jama, 309(13), 1351-1352.
[24]. Luo, J., Wu, M., Gopukumar, D., & Zhao, Y. (2016). Big data application in biomedical research and health care: a literature review. Biomedical informatics insights, 8, BII-S31559.
[25]. Kim, G. H., Trimi, S., & Chung, J. H. (2014). Big-data applications in the government sector. Communications of the ACM, 57(3), 78-85.
[26]. Bertot, J. C., & Choi, H. (2013, June). Big data and e-government: issues, policies, and recommendations. In Proceedings of the 14th annual international conference on digital government research (pp. 1-10).

PSD-01: Prelude - Pendahuluan Sains Data dan Big Data

I.1. Era Data: Industri 4.0

I.2. Big Data & Industri 4.0

Sejarah

Properties of (Sifat) Big Data

Pengecualian (Exceptions)

I.3. Data Science dan Big Data

I.4. Aplikasi Sains Data dan Big Data

Referensi:

No comments:

Post a Comment

SEARCH

LATEST

FOLLOW ME

Visitors

Translate~Terjemahkan

Pages

Follow Us

Popular

Archive

Postingan Populer

Latest courses

Comments

About

Top Links Menu

PSD-01: Prelude - Pendahuluan Sains Data dan Big Data

I.1. Era Data: Industri 4.0

I.2. Big Data & Industri 4.0

Sejarah

Properties of (Sifat) Big Data

Pengecualian (Exceptions)

I.3. Data Science dan Big Data

I.4. Aplikasi Sains Data dan Big Data

Referensi:

No comments:

Post a Comment

SEARCH

LATEST

FOLLOW ME

Visitors

Translate~Terjemahkan

Pages

Follow Us

Popular

Archive

Postingan Populer

Latest courses

Comments

About