“Visualizing information can give us a very quick solution to problems. We can get clarity or the answer to a simple problem very quickly.” David McCandless. |
- Video: https://youtu.be/2ebmTcPEAlc
- Code (Google Colab): https://colab.research.google.com/github/taudataid/eLearning/blob/master/EDA-02C-Text%20Visualization.ipynb
taudata Analytics
Exploratory Data Analysis-02-C: Visualisasi Data Teks
https://taudataid.github.io/eda-02C-TA/
Running the code locally, please make sure all the python module versions agree with colab environment and all data/assets downloaded
Out[14]:
'Done'
Out[3]:
'Done'
Local data not available, importing data directly from twitter ... Welcome "Taufik Sutanto" you are now connected to twitter server Crawling keyword "singapura somad OR singapura uas"
5000it [00:57, 86.30it/s]
Collected 5000 tweets
Preprocessing text Menggunakan fungsi dari taudata¶
100%|██████████████████████████████████████████████████████████████████████████████| 5000/5000 [02:21<00:00, 35.35it/s]
Out[7]:
['king vaduka catet singkron tidak nyata singapore', 'cnnindonesia majelis ulama indonesia deportasi uas singapura sangat ganggu umat islam indonesia', 'lucknuut video alsan spore terbit ntl uas tulis ferrykoto somad', 'sam ardi alas tolak singapura uas', 'detikcom singapura tolak ustaz abdul somad uas masuk kah negara bijak not to land tolak uas nilai tidak', 'rizmaya deportasi somad kenal sebar ajar ekstremis segregasi tidak terima masyarakat multi-ras', 'fadlizon uas warga negara indonesia hormat ulama intelektual jadi hina sangat tidak si']
Text Analytics
- Tidak seperti data terstruktur, data tidak terstruktur seperti teks termasuk salah satu data yang cukup sulit untuk divisualisasikan.
- Namun terdapat Tools seperti Voyant yang dapat membantu dalam visualisasi sekaligus analisis.
Voyant dapat digunakan dalam 2 cara:
-
Online: https://voyant-tools.org/
Kelebihan: Sederhana & portable, tanpa harus install di komputer kita.
Kekurangan: butuh koneksi internet, tidak cocok untuk data teks yang besar, privacy. -
Offline di komputer kita [Java Based]
[2]. Jalankan Voyant secara offline atau online di URL https://voyant-tools.org/
[3]. Upload file yang baru saja kita simpan.
Penggunaan Voyant 1: WordClouds
- Upload teks yang akan di analisa: hasil cluster/ suatu kategori/ topics / raw text.
- slider terms: mengkontrol banyaknya terms yang disertakan.
- Summary (statistics)
- Documents ==> add more
- Phrases (n-grams like)
- Export Visualisasi (kanan atas - pertama)
- Options (kanan atas ke-3): Font, size, stopwords, whitelist
- "?" ==> More Help
Penggunaan Voyant 2: Word Links
- Upload teks yang akan di analisa: hasil cluster/ suatu kategori/ topics / raw text.
Atau file yang sudah terupload sebelumnya - Visualization Tools ==> Links
- Klik sembarang terms untuk expand
Best practice dan catatan mengenai Visualisasi Wordclouds (WC):¶
- Gunakan Kata Benda saja (misal pada kasus Topic Modelling).
- Atau Gunakan hanya Kata Sifat (pada kasus Sentiment Analysis).
- WC dapat digunakan untuk memeriksa apakah preprocessing data teks kita sudah cukup baik.
- Python juga memiliki module "WordClouds" yang dapat membuat WC yang lebih variatif.
Penggunaan Voyant 3: Word Tree
- Upload teks yang akan di analisa: hasil cluster/ suatu kategori/ topics / raw text.
Atau file yang sudah terupload sebelumnya - Klik branch untuk expand
Penggunaan Voyant 4: Trends
- Upload teks yang akan di analisa: hasil cluster/ suatu kategori/ topics / raw text.
Atau file yang sudah terupload sebelumnya - Document Tools ==> Trends
- .. Butuh preprocessing ...
- Data harus terurut waktu
- Berikut contohnya
Latihan :
- Crawl twitter dengan salah satu topik yang sedang trending saat ini di Indonesia.
- Lakukan Preprocessing data
- Visualisasikan
- Diskusikan insight/informasi yang didapat
Tidak ada komentar:
Posting Komentar
Relevant & Respectful Comments Only.