Principal component Analysis menggunakan R: contoh kasus penentuan CPI


Misal kita gunakan scenario berikut: Akan dinilai apakah perekonomian suatu wilayah cukup baik, diukur dari daya beli masyarakat, dalam hal ini lebih khususnya adalah dalam bentuk indeks harga konsumen. Definisi indeks harga konsumen (Consumer Price Index, CPI) menurut Investopedia.com: “A measure that examines the weighted average of prices of a basket of consumer goods and services, such as transportation, food and medical care. The CPI is calculated by taking price changes for each item in the predetermined basket of goods and averaging them; the goods are weighted according to their importance. Changes in CPI are used to assess price changes associated with the cost of living.” Sebagai ilustrasi, akan digunakan data dari Subhash, S (1996). Filenya dapat dilihat di sini (Data cpi subhash sharma p71), dan untuk pengolahan data menggunakan perangkat lunak R, syntax-nya dapat dilihat di sini (R command_pca). Jika belum mempunyai program R, tidak usah khawatir. Karena ini adalah program open source, anda dapat mengunduhnya, gratis, di sini: https://cran.r-project.org/ . Pada contoh ini, variable yang digunakan adalah harga-harga:
  1. Bread
  2. Burger
  3. Milk
  4. Oranges
  5. Tomatoes
di 24 kota di Amerika Serikat. Karena ada 5 variabel yang digunakan, maka maksimum akan terbentuk 5 principal component, PC1 hingga PC5 seperti pada hasil di bawah. Namun, jika kita ingin mereduksi jumlah komponen, supaya lebih ringkas, maka jika hanya menggunakan 1 komponen, yaitu PC1, maka hanya mampu menjelaskan 48.45% variabilitas data yang sesungguhnya. Tentunya masih tidak mencukupi, bukan? Jika 2 komponen pertama yang digunakan, yaitu PC1 dan PC2, maka variabilitas data yang bisa dijelaskan adalah 70.54%, sementara jika ingin tingkat penjelasan di atas 80%, maka dengan menggunakan 3 komponen pertama, PC1 – PC3 sudah memenuhi hingga 85.31 %. Katakanlah kita cukup puas dengan tingkat keterwakilan sebesar 70.54%. Informasi yang ‘hilang’ sebesar 29.46% adalah konsekuensi dari penyederhanaan data, dari semula 5 variabel, dikombinasikan menjadi hanya 2 komponen. Informasi apa yang bisa didapat dari kedua komponen tersebut? Dari output di atas, secara matematis, dapat dituliskan: Tidak perlu terlalu pusing dengan persamaan di atas. Yang perlu dilihat adalah trend dari angka – angka, biasa disebut koefisien, atau loading, dari setiap komponen. Pada PC2, Bread, Burger, dan Milk bertanda negative, koefisien untuk Orange relative sangat jauh lebih besar dibandingkan dengan 4 item makanan yang lain. Sehingga, dapat disimpulkan bahwa PC2 sebenarnya mewakili Oranges, sementara PC1 mewakili 4 item makanan lain. Jika ingin diberi nama, maka dari kedua komponen tersebut dapat digunkaan untuk menghitung indeks harga konsumen untuk komponen, misal: PC1: indeks harga makanan kategori non-buah PC2: indeks harga makanan kategori buah. Visualisasinya dapat dilihat seperti gambar berikut. Terlihat bahwa 4 item makanan (selain Oranges) berdekatan posisisnya, dan Oranges agak terpisah sendiri. Dari gambar juga kita bisa mengetahui, misal:
  • harga buah di kota Milwaukee lebih mahal dibandingkan kota – kota lain
  • Harga bahan pangan non-buah cukup mahal di Honolulu dan New York
  • Kota dengan biaya hidup relative murah (diukur dari harga bahan pangan) adalah Los Angeles, Washington DC, Baltimore, dan Atlanta.
Bagaimana menghitung indeks harga itu sendiri? Gunakan persamaan – persamaan di atas. Jika diketahui data – data mengenai harga kelima item bahan pangan tersebut, maka untuk indeks harga bahan pangan non-buah dihitung menggunakan persamaan pertama (PC1), dan PC2 untuk indeks harga bahan pangan kategori buah. Referensi
  1. http://www.investopedia.com/terms/c/consumerpriceindex.asp, 07 August 2015
  2. Subhash, S. (1996). Applied multivariate techniques.John Wily & Sons Inc., Canada.

Tidak ada komentar:

Posting Komentar

Relevant & Respectful Comments Only.