Teori VS Module/Library/Package


 Ketika menggunakan Module, Library, atau Package sesekali kita sebaiknya "melirik" source code-nya atau minimal baca dokumentasinya dengan seksama.

Sebagai contoh Model Decision Tree (DT) secara teori umumnya dapat menangani data numerik & kategorik sekaligus. Namun demikian implementasi algoritma suatu Module bisa jadi terbatas (tidak seperti teorinya). Sebagai contoh DT di Scikit-Learn versi 1.20 (terkini per Des 2022) kalau dilihat source code-nya (Gambar) & juga dokumentasinya (kalau bacanya jeli) maka hanya menerima input numerik.

- https://scikit-learn.org/stable/modules/tree.html

- https://github.com/scikit-learn/scikit-learn/issues/5442

Menariknya, kalau menggunakan one-hot Encoding di semua data kategorik di data lalu menggunakan implementasi ini (sklearn), maka datanya menjadi Sparse dan bisa mengakibatkan berkurangnya performa model  (termasuk juga kemungkinan masalah CoD - Curse of Dimensionality).

Belajar Data Science memang tidak bisa instan ... 🙂



Tidak ada komentar:

Posting Komentar

Relevant & Respectful Comments Only.