- bahwa tidaklah mudah mendapatkan data yang siap olah.
- bahwa kesalahan input data tidak bisa dianggap sepele.
- bahwa data cleaning juga sama pentingnya dan terkadang memakan waktu yang tidak lebih sedikit daripada proses analisa data itu sendiri.
Sekilas pandang perkuliahan statistika di Australia
By
tauData
Nyebelin…Ga enak… Banyak rumus… Bingung… Alergi…
Adalah beberapa komentar singkat namun menohok yang kerap saya dengar dari kalangan awam maupun mahasiswa mengenai statistika. Hancur hatiku… Betapa tidak? Saya berkecimpung di dunia statistika, mencintai statistika, dan ingin orang – orang lain pun mencintainya. Namun apa daya, gambaran ketidaknyamanan akan subjek yang satu ini sudah demikian lekat pada kebanyakan orang. Kalau sudah begitu, saya hanya bisa tersenyum simpul, mencoba berempati terhadap ‘kealergian’ terhadap stats, untuk kemudian hanya diam. Sedihnya… #lebay deh
Akan tetapi, kesan berbeda saya dapatkan di Australia. Beberapa kali menjadi fasilitator untuk mata kuliah statistika, mahasiswanya baik – baik saja. Mereka semangat dan antusias mengikuti semua materi yang ada. Padahal itu bukan majornya mereka loh. Karena kelas yang saya ampu adalah kelas layanan untuk mahasiswa dari fakultas kesehatan, dari beberapa program studi semisal farmasi, physical lab, dan optometri. Dengan silabus yang sangat padat, plus tambahan materi kalkulus dan sedikit metode numerik, yang biasanya 1 semester tidak cukup dari pengalamn saya mengajar di Indonesia, di sini bisa diselesaikan hanya dalam 11 minggu. Yup, cukup 11 minggu. Dengan skema 1 jam tatap muka dengan dosen, 2 jam praktek, dengan laporan sebagai output dari setiap praktek.
Bagaimana caranya?
Mahasiswa adalah actor utama dalam perkuliahan. Hal ini tidak hanya membangkitkan antusiasme mereka, namun juga membantu fasilitator. Bayangkan bagaimana sulitnya mendapatkan data untuk menjelaskan berbagai metode yang akan diajarkan. Yang pada akhirnya kembali pada data stereotype: berat badan, tinggi badan, IQ, dan semacamnya.
Hal berbeda dilakukan di sini. Pada pertemuan pertama, mahasiswa diminta untuk mengisi data mereka, misal di google docs. Sejumlah item pertanyaan disiapkan (seperti ini). Mereka diwanti – wanti untuk mengisi dengan disiplin, demi kemudahan mereka sendiri dalam pengolahan data kelak. Misal, jika diminta menuliskan Female atau Male untuk jenis kelamin, tuliskan persis seperti yang diminta, huruf besar atau kecilnya diperhatikan. Hal ini karena perangkat lunak yang akan digunakan sensitive terhadap cara penulisan. Namun, bukan mahasiswa namanya kalau mereka akan mengikuti begitu saja. Sehingga response yang beragam pun diperoleh: m, M, f, F, male, Male, Female, female, kadang MALE. Untuk pertanyaan berapa lama tidur dalam sehari (dalam jam)? Ada yang iseng menjawab 25, dan seterusnya. (Contoh data yang diperoleh seperti ini). Tapi biarkan. Kelak mereka akan tahu akibatnya.
Untuk setiap topik, mereka kemudian dipersilahkan memilih sendiri variable apa yang akan diolah. Tentu dengan memperhatikan tipe variable dan kesesuaiannya dengan topik yang ada. Nah, di sini mulai seru. Panggilan dari berbagai pelosok kelas bermunculan, dengan muka – muka panic.
“Sarini, could you help me please? Why the numerical summary option for this variable is not active?”
Atau,
“Why I have so many groups for gender?”
Atau,
“Why there are so many categories for eye colour? And, the frequency is so ugly, one group is so large, one group has only 1 case. I just want to have 3 categories for the ANOVA.”
Dan seterusnya.
Saya biasanya pasang senyum teramat manis sebelum menjawab pertanyaan mereka.
“It must be because there is something wrong with your data. I’m sure the variable contains not only numbers as we expected, but some other things, may be like the + sign, or string in it. Check it again.”
Dan benarlah, misal untuk pertanyaan berapa cangkir kopi rata – rata yang diminum dalam seminggu, ada yang menjawab 10+, ada yang menjawab five, dan seterusnya.
“See? That’s why I told you all in the beginning to discipline when entering your data. Now, unfortunately, you have to clean your data before proceeding to the test and analysis. And starting from next week, we don’t have extra time for data cleaning in class, so just choose and prepare your variables beforehand!”
Untuk yang gender, jelas, setiap penulisan yang berbeda akan dijadikan kelompok yang berbeda oleh computer. Untuk eye colour, jelas karena ada yang menulis Brown, light Brown, brown, dan berbagai versi lainnya, padahal untuk 1 versi warna mata.
Akhirnya, mau tak mau, mereka harus membersihkan dulu datanya. Dari sini, akhirnya mereka menyadari
https://taudata.blogspot.com/p/about.html
No comments:
Post a Comment
Relevant & Respectful Comments Only.