Misal peubah acak berdistribusi Poisson

. Fungsi densitasnya diberikan oleh

untuk

dengan
mean
![E[Y|\theta]=\theta](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_vB9nesEMjnF97lGoDgxS3HyWCk8SYJ50M90sNtrmbUkX1k8sJCcSbzhtd110k9qITt2MZ-y_gLDtnxIRILy6rbOW4IVLYGqabdANXkbV1-WVvkUivK3RaUCpqq3U9yN5FH48U=s0-d)
dan variansi
![Var [Y|\theta]}=\theta](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_uiFQxQNk0NWIqTK7GQJFUuVW-GNmZAY9QSKf85igTVRiCrGW-sVZRAe6nmmpQ3fwYvr79lACPreOwf52JcIjIs0b4VKtsFtiZqY1J1g7Sj_NrxhYPiv-oJjdVqSHE4_6LAAclF6F-3U7GABBXWg5s=s0-d)
.
Sehingga pada data yang berdistribusi Poisson, keragaman data akan membesar seiring dengan kenaikan mean data.
Bagaimana melakukan inferensi secara Bayesian menggunakan model Poisson?
Prinsip dasar metode Bayesian secara umum adalah:

Sehingga, untuk melakukan inferensi, diperlukan asumsi awal (prior) dan tambahan informasi dari data (likelihood) untuk kemudian menghasilkan informasi terbaharukan (update).
Maka, selanjutnya kita bahas dahulu komponen – komponen tersebut.
Likelihood:
Untuk sampel berukuran

, jika

, maka fungsi
likelihoodnya adalah:

(1)
Prior
Salah satu kelas prior yang memudahkan dalam penghitungan posterior adalah prior conjugate , karena posterior maupun prior berasal dari kelas distribusi yang sama. Untuk pembahasan kali ini akan digunakan conjugate prior.
Bagaimana menentukan prior conjugate ?
Posterior dari

dengan prior

adalah:

Dari bentuk di atas, karena distribusi prior conjugate berasal dari kelas yang sama dengan distribusi posterior, maka bentuk distribusi prior haruslah memuat komponen

untuk suatu konstanta

dan

.
Salah satu kelas distribusi yang memenuhi bentuk tersebut adalah distribusi Gamma.
Sehingga, pilih distribusi prior untuk

:
,
dengan fungsi densitas
(2)
Mean dan variansi dari distribusi Gamma diberikan oleh
![E[\theta]=\frac{a}{b}](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_tXcDzkpHkCtHgZRI1VmqyvzqbXec4w5Y4OAJ2MWtf1Y49nSANI6SnI6txL5euwTUsMxMAGJM2n8SOr340xfHVaanzGHH7l-Wq1LNvbWnGQuIgVCkXAtz4oCLjST7eiUmFNAVHEcVZ1gBl6m8w=s0-d)
dan
![Var[\theta]=\frac{a}{b^2}](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_u-AomoW2rslxo3Rb8y8031UuITlHylhPEThSeuNEeepzYLJWs-Omk2ZVVctcZBlTgqTW9nfhd7h_LrhWWDX-_9bkVD7LPwaQVsQe4T2NZyGLQz29ObdAUeFMV8iBD20kyWceXmwtNzUgOa-HKvzfZLQ7A=s0-d)
.
Beberapa bentuk densitas distribusi Gamma ditampilkan berikut:
Posterior
Dari pembahasan sebelumnya, dengan
Data:

, i.i.d, dengan likelihood seperti
(1), dan
Prior untuk

:

dengan densitas seperti pada
(2), maka
Posterior untuk

:
![p(\theta|y_1, ..., y_n)= p(\theta)\times \frac{p(y_1, ..., y_n|\theta)}{p(y_1, ..., y_n )} \\ =\theta^{a-1} e^{-b\theta}\times\theta^{\sum{y_i}} e^(-n\theta)\times k(y_1, ...,y_n,a,b)\\ =[\theta^{{\color{Red} a+\sum{y_i}}-1} e^{{\color{Red} -(b+n)}\theta)} ]\times [k(y_1, ..., y_n,a,b)]=dgamma({a+\sum_{i=1}^n {Y_i}}, b+n)](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_vurY_u0zD44pnGRMydhfuDQIayfG20LQp58-DqHd-dtKmtt05LtsjgGd7LOKjJsN3aqMbdtGWDjRR_89OJDmCbD0jPOSyyICN6y6Rwe-Kg6NNyrdstmEPbdFgOjrvxOWXXy_TK0sB_bafZV2MH4egaMMcoKMlr5hHasWiXSlluICIa0ntF3TepkCRAzJCxEZ0DN4bHA8u7H0zxOWj-zI73UQ-jQr8-JcaS7c2xLih20-ZNMIW0vsqxZnjRTzuMisLus9eJMlGHovbbRtbIFRZx9H_OmXhe6-eX7qxybko3g92CvA5hRW38h3swgPnc_x693uHaB-VcFc4QxAemk7FFkX26kFt-ehb9Zu-0ihYT1HLOHl-xf_eUwdd-xZHCFnubbgra2-xPOZKMxcPWMVd6r-sgWauDcONEQ02BNpZ6hc37JNH2-wL-qpSCgkPNuO8i02Npi3U6i9czYgGcwUHbj6fM6M1AQ8jmXL4A2PdTgiVkrcd4p_hCJ3wXHs0gSzdPpXiAWlf6QSXU8mUSTfnLMZEPGguWxtSJ8978d-m7Q_gJqY0xXmYhnw2VdycsMzTXWG-Grqm62J924nat9flo065KAyoj-9Q0PZBd79uIcH6qR7TlGunM4zlTz_Q78R-CuTW7XP4gXYSzh5EYCz3D6RCFHdPLVoqNhEDWhjE8p7nH4vj3QkWtA1rw0lLBaPQVTQFtAGtvde6-Yo1xeSguXMBt72EpJ_i_dyYqvg6RnZLEWycVBzXdjp0o88z6zG9lc6f54-sRiwhYbw_yUFRBfq0dR9aR9bH5aNqspCh_hRJzlchIsecLxJyFzIXky368kzkxYdI762QtBaLdubVnhXHHKQPFGLu8crvULvTTjIypsK-kd4d1hOGAQMlBjYztUzFDkCojLmO4=s0-d)
Sehingga, untuk model Poisson dengan:
Prior:

,
Likelihood data:

,
maka
Posterior:

Mean posterior dari

adalah:
![E[\theta|y_1, ..., y_n ]=\frac{a+\sum{y_i}}{b+n}=\frac{b}{b+n}\times\frac{a}{b}+\frac{n}{b+n}\frac{\sum{y_i}}{n}](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_s35wPEyDOZ2uooYsY2po1UevXQXPVDzAcZx4oCt094bYe2onR8WaK9KmsJSLPYj0v5XzVwtsGqU-PfFhoPGOv1j4IhTxazA3ZqvYJViuGH5uaI2UvxabOPm1knyD7WsYX99cMUgFxWZK_EIPkFw5XfODuOSduCIGA7tq_MeyXUQg2TKAmpDvNbFuoB6fojbQHHzzwDWBFqs9AHiJ9yiCSXTALEnu-N0W5gPhzFjia9EKIhOfyeZBF6A5cd6xa0WLCnIV2Gvjn8Ze0yqp9Hy3PeL-Pm7m1vhyVN_gZPWbfvTnVcqAgs3DVT-NVf5lXnJcr-EX190kJXv6g_Tun9Y2T11zOjXMB1pPxOxvrRdSA3aTstjg=s0-d)
merupakan jumlah terboboti antara mean prior

dan mean sampel

.
Analogi dengan ukuran sampel

dan jumlah nilai data

, maka
dapat diinterpretasikan sebagai banyaknya pengamatan prior, dan
sebagai penjumlahan nilai dari pengamatan prior tersebut.
Jika ukuran sampel

, maka
![Var[\theta|y_1, ..., y_n]\approx \frac{\bar{y}}{n}](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_uFW2eajxI4jPcxUAFzcJw--ley7xawizLawiqKtEPAhu7QLbJiJxX5s2MeUPAJKg3ULUy2PV4kGxpvxrf-H76fWAjc5uojTgzLkTIRDixnyVnH-m-bHi80j9Od-L8Rdn5N4mB1tOR-GoOb9fXZaWS2glMtpBQwtvgZQrXhKW3sJX8oA7hJs_q-1XczGt4dCwnjOGpVS6_gDlC7y2ZZyI-0dgMJceX3=s0-d)
yang berarti informasi posterior akan didominasi oleh infomasi dari data sampel.
Bagaimana melakukan prediksi untuk data baru?
Gunakan distribusi
posterior predictive.
Secara matematis, distribusi
posterior predictive dinyatakan oleh

dengan

adalah data baru.
Distribusi
posterior predictive untuk model di atas adalah:

Dengan menggunakan

untuk

Maka:

untuk

.
Contoh
Data mengenai banyaknya kasus korupsi di dua institusi pemerintah, sebut lembaga A dan lembaga B. Lembaga A menerapkan prinsip
e-budgeting, sementara lembaga B tidak. Dari 40 divisi pada lembaga A ditemukan 36 kasus korupsi, sedangkan dari 25 divisi pada lembaga B, ditemukan 37 kasus serupa. Ringkasan data pada grafik berikut.

Misal akan dibandingkan kedua kementrian tersebut berdasarkan jumlah kasus korupsi yang berhasil diungkap.
Maka, modelnya adalah:
, untuk lembaga A
, untuk lembaga B.
Ringkasan numerik untuk kedua data tersebut:

Jika parameter

, maka distribusi posterior dari kedua parameter tersebut adalah:

Taksiran posterior untuk mean, modus, dan interval kepercayaan 95% untuk dan dapat diperoleh dari distribusi Gamma posterior.

Grafik distribusi prior (sama untuk A dan B) dan posterior dapat diperoleh sebagai berikut:

Dan diperoleh hasil
[caption id="attachment_2742" align="aligncenter" width="401"]

Distribusi dari parameter theta (hitam = prior, merah dan biru = posterior untuk A dan B)[/caption]
Intepretasi:
Terlihat bahwa likelihood cukup berperan meng-update informasi dari prior, sebagaimana ditunjukkan oleh distribusi posterior (A = merah, B = biru) yang berbeda dengan distribusi prior (hitam). Grafik tersebut juga mengindikasikan bahwa jumlah kasus korupsi secara rata – rata ( di lembaga A relative lebih sedikit daripada di lembaga B (grafik merah di sebelah kiri grafik biru ().
Tapi itu kan secara rata – rata, gambaran umum. Bagaimana untuk prediksi, kasus per kasus? Apakah lembaga A , dengan kebijakan e-budgeting, memang memiliki kasus korupsi yang lebih sedikit dibanding lembaga B?
Untuk menjawab hal ini, kita dapat menghitung peluang terjadinya hal tersebut menggunakan
posterior predictive distribution. Sebagaimana telah ditunjukkan di atas, distribusi binomial negative merupakan posterior predictive distribution dari

dan

.
Misalkan akan dilihat berapa peluang terjadi

kasus korupsi, untuk

.

pA adalah peluang terjadinya kasus korupsi di lembaga A, dan pB untuk hal yang sama di lembaga B. Penyajian grafis di bawah ini:
[caption id="attachment_2744" align="aligncenter" width="381"]

Posterior predictive probabilitas untuk ditemukannya kasus korupsi pada lembaga A (hitam) dan lembaga B (merah).[/caption]
Intepretasi:
Dari plot di atas terlihat bahwaprobabilitas untuk tidak ditemukannya kasus korupsi di lembaga A jauh lebih tinggi daripada lembaga B, hampir sama untuk 1 kasus korupsi, dan untuk lebih dari 1 kasus lebih berpeluang untuk terjadi di lembaga B.
Data untuk contoh dapat diunduh di sini (
data-korupsi).
Syntax R dapat diunduh di sini (
model-poisson_syntax).
No comments:
Post a Comment
Relevant & Respectful Comments Only.