Inferensi Bayesian menggunakan Model Poisson


Misal peubah acak  berdistribusi Poisson . Fungsi densitasnya diberikan oleh  untuk  dengan mean    dan variansi . Sehingga pada data yang berdistribusi Poisson, keragaman data akan membesar seiring dengan kenaikan mean data. Bagaimana melakukan inferensi secara Bayesian menggunakan model Poisson? Prinsip dasar metode Bayesian secara umum adalah:   picPois Sehingga, untuk melakukan inferensi, diperlukan asumsi awal (prior) dan tambahan informasi dari data (likelihood) untuk kemudian menghasilkan informasi terbaharukan (update).   Maka, selanjutnya kita bahas dahulu komponen – komponen tersebut. Likelihood: Untuk sampel berukuran  , jika   , maka fungsi likelihoodnya adalah: (1) Prior Salah satu kelas prior yang  memudahkan dalam penghitungan posterior adalah prior conjugate ,  karena posterior maupun prior berasal dari kelas distribusi yang sama. Untuk pembahasan kali ini akan digunakan conjugate prior. Bagaimana menentukan prior conjugate ? Posterior dari   dengan prior  adalah:   Dari bentuk di atas, karena distribusi prior conjugate berasal dari kelas yang sama dengan distribusi posterior, maka bentuk distribusi prior haruslah memuat komponen   untuk suatu konstanta  dan . Salah satu kelas distribusi yang memenuhi bentuk tersebut adalah distribusi Gamma. Sehingga, pilih distribusi prior untuk :

,

dengan fungsi densitas

                              (2)

Mean dan variansi dari distribusi Gamma diberikan oleh  dan .   Beberapa bentuk densitas distribusi Gamma ditampilkan berikut:     picPois2 Posterior Dari pembahasan sebelumnya, dengan Data,  i.i.d,  dengan likelihood seperti  (1), dan Prior untuk :    dengan densitas seperti pada (2), maka Posterior untuk : Sehingga, untuk model Poisson dengan: Prior:  , Likelihood data: , maka Posterior: Mean posterior dari  adalah: merupakan jumlah terboboti antara mean prior  dan mean sampel . Analogi dengan ukuran sampel  dan jumlah nilai data  , maka
  •  dapat diinterpretasikan sebagai banyaknya pengamatan prior, dan
  • sebagai penjumlahan nilai dari  pengamatan prior tersebut.
Jika ukuran sampel  , maka yang berarti informasi posterior akan didominasi oleh infomasi dari data sampel.   Bagaimana melakukan prediksi untuk data baru? Gunakan distribusi posterior predictive. Secara matematis, distribusi posterior predictive dinyatakan oleh  dengan  adalah data baru. Distribusi posterior predictive untuk model di atas  adalah:     Dengan menggunakan   untuk   Maka:    untuk  .   Contoh Data mengenai banyaknya kasus korupsi di dua institusi pemerintah, sebut lembaga A dan lembaga B. Lembaga A menerapkan prinsip e-budgeting, sementara lembaga B tidak. Dari 40 divisi pada lembaga A  ditemukan 36 kasus korupsi, sedangkan dari 25 divisi pada lembaga B, ditemukan 37 kasus serupa. Ringkasan data pada grafik berikut.   picPois4 Misal akan dibandingkan kedua kementrian tersebut berdasarkan jumlah kasus korupsi yang berhasil diungkap. Maka, modelnya adalah:

, untuk lembaga A

, untuk lembaga B.

  Ringkasan numerik untuk kedua data tersebut:   picPois5 Jika parameter , maka distribusi posterior dari kedua parameter tersebut adalah:   Taksiran posterior untuk mean, modus, dan interval kepercayaan 95% untuk dan  dapat diperoleh dari distribusi Gamma posterior.   picPois6 Grafik distribusi prior (sama untuk A dan B) dan posterior  dapat diperoleh sebagai berikut:   picPois7 Dan diperoleh hasil [caption id="attachment_2742" align="aligncenter" width="401"] Distribusi dari parameter theta (hitam = prior, merah dan biru = posterior untuk A dan B)[/caption] Intepretasi: Terlihat bahwa likelihood cukup berperan meng-update informasi dari prior, sebagaimana ditunjukkan oleh distribusi posterior (A = merah, B = biru) yang berbeda dengan distribusi prior (hitam).  Grafik tersebut juga mengindikasikan bahwa jumlah kasus korupsi secara rata – rata ( di lembaga A relative lebih sedikit daripada di lembaga B (grafik merah di sebelah kiri grafik biru (). Tapi itu kan secara rata – rata, gambaran umum. Bagaimana untuk prediksi, kasus per kasus? Apakah lembaga A , dengan kebijakan e-budgeting, memang memiliki kasus korupsi yang lebih sedikit dibanding lembaga B? Untuk menjawab hal ini, kita dapat menghitung peluang terjadinya hal tersebut menggunakan posterior predictive distribution.  Sebagaimana telah ditunjukkan di atas, distribusi binomial negative merupakan posterior predictive distribution dari   dan . Misalkan akan dilihat berapa peluang terjadi   kasus korupsi, untuk .   picPois9 pA adalah peluang terjadinya kasus korupsi di lembaga A, dan pB untuk hal yang sama di lembaga B. Penyajian grafis di bawah ini: [caption id="attachment_2744" align="aligncenter" width="381"]picPois10 Posterior predictive probabilitas untuk ditemukannya kasus korupsi pada lembaga A (hitam) dan lembaga B (merah).[/caption]   Intepretasi: Dari plot di atas terlihat bahwaprobabilitas untuk tidak ditemukannya kasus korupsi di lembaga A jauh lebih tinggi daripada lembaga B, hampir sama untuk 1 kasus korupsi, dan untuk lebih dari 1 kasus lebih berpeluang untuk terjadi di lembaga B.   Data untuk contoh dapat diunduh di sini  (data-korupsi). Syntax R dapat diunduh di sini (model-poisson_syntax).

Tidak ada komentar:

Posting Komentar

Relevant & Respectful Comments Only.