Crawling Facebook ~ taudata Academy

Di artikel sebelumnya saya membahasa cara crawling data twitter, baik melalui API maupun melalui page scrapping. Kali ini giliran Facebook ^_^

Preliminaries:

Niat yang tulus dan ikhlas … :v … xi xi xi … Maaf Gan … kata Pak Ustad semua harus di dahului dengan niat yang baik … ^_^
Install Git,… yess trust me on this … just do it … :D … : https://git-scm.com/downloads kidding, … alasannya karena kita ingin sdk Facebook terkini :)
Install Facebook-sdk modul. Kalau sebelumnya sudah pernah install modul “facebook” atau “facebook-sdk” lama, sebaiknya di uninstall dulu: “pip uninstall facebook” atau “pip uninstall facebook-sdk”. Untuk install facebook-sdk terkini dari command prompt/Linux terminal (Mac users podo karo linux keto’e):

1

pip install -e git+https://github.com/mobolic/facebook-sdk.git#egg<span class="o">=</span>facebook-sdk
Login ke facebook, lalu like page tau-data.id … :v …. Segera klik like dan aamiin kalau mau dapet pahala … :v #bercandaGan #JanganDiBataYa … :D … login aja juga cukup kok … walau kalau klik like sebenarnya bisa nyenengin orang …. #ehm #kodeKeras … :D
Buka Facebook Graph API explorer : https://developers.facebook.com/tools/explorer/
Klik Get Token dan pilih akses yang diinginkan (untuk akses yang non public, Lihat Gambar).
Kalau facebook minta ijin akses data, klik yess … Kalau Agan ndak setuju dan klik No, maka silahkan tutup artikel ini … lupakan saja niat crawling facebook … Niat Agan ternyata belum cukup kuat … :D
Catat “Access Token” yang di generate. Kita akan membutuhkannya di Code Python-nya nanti.

Facebook API_Explorer

Catatan The Code:

Baca komen di script baik-baik … besok ujian keluar!!!
While loop atau while true di code adalah mekanisme paging, sama seperti fungsi “scan” di NoSQL seperti ElasticSearch. Intinya request data terus sampai tidak ada lagi data yang bisa di request.
Parameter “connection_name” adalah Graph “Edges” yang domainnya (nilainya) tergantung reference yang digunakan (misal: ‘me’,’page’,’groups’, dll) …. Silahkan baca lebih lanjut di Docs Facebook API-nya [link ada dibawah].
Hasil codes saya simpan di file teks dalam format Json. Bisa juga di simpan langsung ke NoSQL/Database atau format file teks lainnya (CSV, TSV, XML, dll).
Silahkan pelajari semua “keys” di dictionary “posts”. Misal print(posts.keys()) atau print(posts[‘data’].keys()) untuk mendapatkan/menyimpan informasi lain seperti komentar, jumlah like komentar, dsb sesuai dengan kebutuhan.

The Code

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59

# -*- coding: utf-8 -*-
"""
Created on Sat Jul 30 03:26:04 2016
Facebook Crawler
License to @author: Taufik Sutanto
https://tau-data.id
"""
import facebook, sys, requests
access_token = 'Copas yang dari FAB API Explorer tadi Gan ke sini' # https://developers.facebook.com/tools/explorer/
pages = ['me', 'sutanto.org','ElasticSearch.Indonesia','Kirana.Edukasi.Indonesia'] #  Tambahkan Pages lain sebanyak hasrat Agan .. :)
filename = 'Facebook_Posts.txt' # Ini nama file untuk menyimpan Posts-nya
Post_Limit = 100 # limit banyaknya post tiap page, kalau mau unlimited ganti dengan float('Inf')
def getLikes(pos):
    """ Warning, Fungsi ini sangat lambat utk posts yang likesnya banyak,         
        Fungsi ini sekedar menjelaskan bagaimana paging di sub keys request result
    """
    N = 0
    while True:
        try:
            pos = requests.get(pos['paging']['next']).json()
            N+=len(pos['data'])
        except:
            break
    return N
if __name__ == "__main__":
    graph = facebook.GraphAPI(access_token)
    file = open(filename,'w')
    for page in pages:
        print('\nAccessing Page: %s' %page, flush=True)
        posts = graph.get_connections(id=page, connection_name='feed') #posts
        count=0; loop=True
        while loop:
            try:
                for results in posts['data']:
                    sys.stdout.write("\r");sys.stdout.write("%d posts" %(count+1));sys.stdout.flush()
                    dTxt='{username:"'+results['from']['name']+'", '
                    dTxt+='date:'+results['created_time']+', '
                    try:
                        Nlikes = len(results['likes']['data'])
                        if Nlikes>=25:
                            Nlikes += getLikes(results['likes'])
                        dTxt+='likes:'+str(Nlikes)+', '
                    except:
                        dTxt+='likes:0, '
                    try:
                        dTxt+='message:"'+results['message']+'"}'
                    except:
                        dTxt+='message:"-"}'
                    file.write(str(dTxt.encode('utf8', errors='ignore'))[2:]+'\n')
                    count+=1
                    if count>=Post_Limit:
                        loop=False; break
                posts = requests.get(posts['paging']['next']).json()
            except:
                break
    file.close()

Catatan:

Access Token dari Facebook API_Explorer time based (sementara). Kalau mau AT yang lebih lama sebenarnya bisa, cuma lebih riweuh (coba google deh :p ) …. kalau AT-nya expired generate lagi saja dengan cara yang sama seperti diatas.
Script diatas hanya untuk crawl Facebook Pages (dan profile kita sendiri). Untuk Crawl Forum dan profile user lain agak tricky … pembahasannya cukup advance … lain waktu atau saat kopi darat aja deh.
Untuk mempelajari Graph API selengkapnya silahkan baca disini: https://developers.facebook.com/docs/graph-api/reference
Fungsi getLikes sangat tidak efisien karena untuk sekedar menghitung likes menggunakan paging. kalau mau cepat pakai FQL (Sayangnya FQL mau di remove oleh Facebook: https://developers.facebook.com/docs/reference/fql) Cara cepat lain menggunakan “likes” “summary” di URL request (lain kesempatan).
Walau dari script di atas seharusnya sudah cukup jelas, tapi kalau mau belajar lebih detail tentang Facebook Paging disini: https://developers.facebook.com/docs/graph-api/using-graph-api/#paging

Good Luck, Please let me know lewat komen di bawah kalau ada errors atau pertanyaan. Tapi kalau nanya jangan susah-susah ya … lagi pusing nih … :D

Cheers,

< / TES >^® ~ BNE 30/07/2016,04:14:09

Crawling Facebook

Preliminaries:

Catatan The Code:

The Code

Catatan:

No comments:

Post a Comment

SEARCH

LATEST

FOLLOW ME

Visitors

Translate~Terjemahkan

Pages

Follow Us

Popular

Archive

Postingan Populer

Latest courses

Comments

About

Top Links Menu

Crawling Facebook

Preliminaries:

Catatan The Code:

The Code

Catatan:

No comments:

Post a Comment

SEARCH

LATEST

FOLLOW ME

Visitors

Translate~Terjemahkan

Pages

Follow Us

Popular

Archive

Postingan Populer

Latest courses

Comments

About