Legalitas Web Scraping



1. Undang-Undang Penipuan dan Penyalahgunaan Komputer (CFAA)

Seperti yang Anda lihat di masalah Craiglist, ini bukan tentang data itu sendiri. Tapi ini lebih tentang akses kasar dan penggunaan data.


Di sinilah (CfAA) masuk. Craiglist berada di atas angin karena tindakan ini. Di bawah undang-undang ini, penggunaan data yang tidak sah dari halaman web dapat dikenakan tindakan hukum.


Jadi saat mengorek web, Anda harus memastikan bahwa Anda tidak melanggar tindakan ini. Pengikisan web akan ilegal jika melanggar CFAA.


Tip #1 “Jangan melanggar norma yang ditetapkan di CFAA. Hindari penyalahgunaan akses dan penggunaan data untuk keuntungan bisnis dan finansial.”


2. Pelanggaran Hak Cipta

Hak cipta adalah konsep yang dikenal luas.


Namun, Anda mungkin bertanya-tanya apa hubungannya dengan web scraping.


Nah, saat Anda mengorek data web, Anda sedang mengakses data yang mungkin dilindungi oleh hak cipta.


Sehingga jika Anda mengoreknya dan menggunakannya untuk kepentingan komersial, bisa mengundang masalah hukum.


Anda mungkin berpikir bahwa Anda mengorek data publik dan tidak ada yang salah dengan itu. Anda benar sejauh Anda mengikisnya. Namun, penggunaan data ini secara komersial tidak diperbolehkan berdasarkan undang-undang hak cipta. Oleh karena itu, jika pengikisan web Anda mengarah pada pelanggaran hak cipta, itu akan disebut ilegal.


Kiat #2 “Hormati hak cipta dan jangan mengorek serta menggunakan data yang dilindungi oleh hak cipta.”


3. Masuk tanpa izin ke Chattel

Yang ini kedengarannya tidak seseram CFAA dan Pelanggaran Hak Cipta. Namun, itu juga masalah hukum yang sama seriusnya.


Pada dasarnya Anda tahu bagaimana pelanggaran diperlakukan secara hukum. Anda tidak diizinkan untuk masuk tanpa izin ke properti seseorang.


Begitu pula memasuki ruang terlarang dan berperilaku tidak bertanggung jawab di platform digital juga tidak dihargai.


Dalam hal pengikisan web, menyinggung jika Anda secara langsung merusak situs web dan fungsinya dengan cara apa pun. Saat menggores data web, banyak orang gagal melihat bagaimana pengikisan web mereka berdampak buruk pada situs web dan server.


Untuk mempercepat pemrosesan pengikisan data, pengikis Anda mungkin membuat permintaan terlalu sering dan memperlambat atau menurunkan server. Ini dapat memenuhi syarat sebagai masalah di bawah pelanggaran ke chattel dengan cara apa pun, pengikisan web Anda tidak boleh memengaruhi situs web dan server. Jika ya, Anda membuat diri Anda terkena masalah hukum.


Tip #3 “Jangan memasuki ruang terlarang dan jangan melanggar ruang dan data pemilik.”


4. Robot.txt

Nah, ada yang namanya Robots.txt yang harus Anda perhatikan sejak awal. Sederhananya, itu adalah dokumen yang berisi semua aturan tentang bagaimana bot harus berinteraksi dengan situs web.


Beberapa situs web sepenuhnya melarang bot. Jika Anda cukup berhati-hati, Anda akan mendapat pesan untuk menjauh dari situs semacam itu.


Ini juga mengklarifikasi apa yang dianggap situs web sebagai "perilaku baik" dalam hal akses, halaman web yang dibatasi, dan frekuensi perayapan.


Jadi jika Anda ingin memainkannya dengan aman secara legal, Anda harus mematuhi norma yang ditetapkan di Robots.txt. Ini adalah indikasi yang jelas tentang apa yang harus dan tidak boleh Anda lakukan. Selama Anda mengikuti norma-norma yang terkandung di dalamnya, Anda akan aman, secara hukum!


Kiat #4 “Ikuti norma Robots.txt dan hormati persyaratan yang dijelaskan di dalamnya saat mengorek data web.”


5. Tingkat Perayapan

Kekuatan pengikisan web juga merupakan kelemahannya. Alasan mengapa pengikisan web lebih disukai adalah karena kecepatan pengambilan data yang Anda inginkan.


Namun, inilah halangannya. Situs web tidak menyukai perayapan dan pengikisan data yang begitu agresif dengan klip yang begitu cepat.


Inilah sebabnya mengapa banyak situs web menentukan pengaturan crawl-delay untuk memperlambat Anda. Namun, banyak orang yang mengorek data secara agresif mengabaikan kecepatan perayapan ini dan akhirnya mengorek dengan cara yang merugikan atau mengganggu pemilik situs. Hal ini, pada gilirannya, dapat membuat Anda terkena masalah hukum yang signifikan.


Tip #5 “Jangan merangkak dengan agresif. Ikuti tingkat perayapan yang wajar yaitu 1 permintaan per 10-15 detik. Selama Anda mengikuti tingkat perayapan yang wajar, Anda akan aman.”


6. API vs. menggores data

Menggores data tanpa mempertimbangkan legalitasnya secara agresif dapat membuat Anda mendapat masalah.


Sebagai gantinya, Anda dapat memilih jalur yang lebih aman seperti menggunakan API. Sebagian besar situs web yang Anda temui sudah memiliki API untuk penggunanya.


Tidak disarankan untuk mengikis data dengan cara yang agresif saat API tersedia. Alasannya adalah menggunakan API menempatkan Anda pada posisi yang jauh lebih baik.


Selama Anda menggunakan API dan tidak melakukan upaya putus asa untuk mengorek data yang melanggar norma, Anda akan aman secara hukum.


Tip #6 “Sebagian besar situs web memiliki API. Gunakan api alih-alih menggores di mana pun disediakan.


7. Melanggar Ketentuan Layanan (ToS)

Dalam hal mengikis, orang cenderung sering melewati batas. Salah satu garis yang dilewati orang adalah (ToS).


Situs web membuat dan menyimpan data dengan cara yang terlindung dari pengikis predator. Ketentuan Layanan akan menyatakan dengan sangat jelas bahwa ada data di situs ini yang tidak boleh dikorek oleh siapa pun.

 * Quoted from https://qr.ae/pGzlFF 


Anda mungkin berpikir bahwa Anda mengorek data publik tetapi jika

Tidak ada komentar:

Posting Komentar

Relevant & Respectful Comments Only.