Ketika menggunakan Module, Library, atau Package sesekali kita sebaiknya "melirik" source code-nya atau minimal baca dokumentasinya dengan seksama.
Sebagai contoh Model Decision Tree (DT) secara teori umumnya dapat menangani data numerik & kategorik sekaligus. Namun demikian implementasi algoritma suatu Module bisa jadi terbatas (tidak seperti teorinya). Sebagai contoh DT di Scikit-Learn versi 1.20 (terkini per Des 2022) kalau dilihat source code-nya (Gambar) & juga dokumentasinya (kalau bacanya jeli) maka hanya menerima input numerik.
- https://scikit-learn.org/stable/modules/tree.html
- https://github.com/scikit-learn/scikit-learn/issues/5442
Menariknya, kalau menggunakan one-hot Encoding di semua data kategorik di data lalu menggunakan implementasi ini (sklearn), maka datanya menjadi Sparse dan bisa mengakibatkan berkurangnya performa model (termasuk juga kemungkinan masalah CoD - Curse of Dimensionality).
Belajar Data Science memang tidak bisa instan ... 🙂
Tidak ada komentar:
Posting Komentar
Relevant & Respectful Comments Only.