Beberapa hal yang akan dibahas:
- Apakah model regresi linier itu?
- Data seperti apa yang dapat digunakan pada regresi linier?
- Contoh-contoh regresi linier?
Y=ß0+ß1X1+...+ßpXp+?
Atau,
yi=ß0+ß1x1i+...+ßpxpi+?i;i=1,...,n
dengan n adalah ukuran sampel.
Apa arti dari notasi - notasi di atas?
Perhatikan data berikut.
n<-1000 a<-20 b<-3 x<-runif(n,0,60) epsilon<-rnorm(n,0,1) y<-a+(b+epsilon)*x+epsilon mydata<-data.frame(x,y) plot(x,y)Sekarang, jika diambil sampel berukuran n1<n dari data di atas.
n1<-0.1*n sampel1<-mydata[sample(nrow(mydata), n1), ] summary(sampel1)
## x y ## Min. : 0.2173 Min. : 18.50 ## 1st Qu.:11.4127 1st Qu.: 43.93 ## Median :25.3857 Median : 89.38 ## Mean :26.4384 Mean : 98.51 ## 3rd Qu.:44.4121 3rd Qu.:139.98 ## Max. :59.3712 Max. :282.73
plot(sampel1$x,sampel1$y)Korelasi dan taksiran persamaan regresi untuk sampel tersebut adalah:
rho1<-cor(sampel1$x,sampel1$y) reg1<-lm(y~x, data=sampel1) rho1
## [1] 0.83016
summary(reg1)
## ## Call: ## lm(formula = y ~ x, data = sampel1) ## ## Residuals: ## Min 1Q Median 3Q Max ## -124.065 -16.960 -1.267 12.135 105.106 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 22.2308 6.2952 3.531 0.000632 *** ## x 2.8853 0.1957 14.740 < 2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 35.84 on 98 degrees of freedom ## Multiple R-squared: 0.6892, Adjusted R-squared: 0.686 ## F-statistic: 217.3 on 1 and 98 DF, p-value: < 2.2e-16Atau dapat dituliskan:
y^=21.9370+2.853x
Bagaimana jika dilakukan pengambilan sampel kembali? Sebut sampel 2.
## x y ## Min. : 0.7834 Min. : 21.87 ## 1st Qu.:17.7492 1st Qu.: 58.44 ## Median :33.8266 Median :113.35 ## Mean :31.7527 Mean :114.57 ## 3rd Qu.:45.5236 3rd Qu.:161.06 ## Max. :57.8049 Max. :290.47
plot(sampel2$x,sampel2$y)Untuk memudahkan membandingkan, akan diplot kedua sampel tersebut berdampingan.
par(mfrow=c(1,2)) plot(sampel1$x,sampel1$y, main="DATA 1") plot(sampel2$x,sampel2$y, main="DATA 2")Korelasi dan taksiran persamaan regresi untuk sampel tersebut adalah:
rho2<-cor(sampel2$x,sampel2$y) reg2<-lm(y~x, data=sampel2) rho2
## [1] 0.7900625
summary(reg2)
## ## Call: ## lm(formula = y ~ x, data = sampel2) ## ## Residuals: ## Min 1Q Median 3Q Max ## -102.806 -20.598 -1.646 20.571 130.678 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 22.0246 8.1866 2.69 0.00839 ** ## x 2.9144 0.2284 12.76 < 2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 37.96 on 98 degrees of freedom ## Multiple R-squared: 0.6242, Adjusted R-squared: 0.6204 ## F-statistic: 162.8 on 1 and 98 DF, p-value: < 2.2e-16Atau dapat dituliskan:
y^=23.0294+2.9619x
Ingat bahwa taksiran regresi untuk data sampel 1 adalah:
y^=21.9370+2.853x
Bagaimana jika dilakukan pengambilan sampel sekali lagi?
sampel3<-mydata[901:1000, ] summary(sampel3)
## x y ## Min. : 1.269 Min. : 24.76 ## 1st Qu.:13.746 1st Qu.: 59.94 ## Median :27.494 Median : 95.18 ## Mean :28.894 Mean :104.96 ## 3rd Qu.:42.698 3rd Qu.:144.09 ## Max. :59.990 Max. :239.07Ketiga sampel akan diplot bersamaan sebagai berikut:
reg3<-lm(y~x, data=sampel3) summary(reg3)
## ## Call: ## lm(formula = y ~ x, data = sampel3) ## ## Residuals: ## Min 1Q Median 3Q Max ## -92.185 -12.933 -1.277 17.862 96.431 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 25.9815 6.3849 4.069 9.55e-05 *** ## x 2.7332 0.1923 14.213 < 2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 31.45 on 98 degrees of freedom ## Multiple R-squared: 0.6733, Adjusted R-squared: 0.67 ## F-statistic: 202 on 1 and 98 DF, p-value: < 2.2e-16
Dengan taksiran persamaan regresi adalah:
Untuk sampel 1:
y^=21.9370+2.853x
Untuk sampel 2:
y^=23.0294+2.9619x
Untuk sampel 3:
y^=17.4196+3.1816x
Sementara, jika dilakukan regresi pada data populasi, akan diperoleh hasil sebagai berikut:
reg<-lm(y~x, data=mydata) summary(reg)
## ## Call: ## lm(formula = y ~ x, data = mydata) ## ## Residuals: ## Min 1Q Median 3Q Max ## -134.789 -14.613 -0.187 15.414 132.527 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 20.05261 2.10638 9.52 <2e-16 *** ## x 3.04068 0.06241 48.73 <2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 33.93 on 998 degrees of freedom ## Multiple R-squared: 0.704, Adjusted R-squared: 0.7037 ## F-statistic: 2374 on 1 and 998 DF, p-value: < 2.2e-16
plot(x,y) abline(reg=lm(y~x), col="red", lwd=2)
Atau, dituliskan ulang sebagai berikut:
Populasi:
y=21.98193+2.897773x
Sample 1:
y^=21.9370+2.853x
Sampel 2:
y^=23.0294+2.9619x
Sampel 3:
y^=17.4196+3.1816x
Jadi, apa yang dapat disimpulkan dari pembahasan di atas?
Bandingkan keempat plot tersebut:
par(mfrow=c(2,2)) plot(x,y, main="POPULASI") abline(reg=lm(y~x), col="red", lwd=2) plot(sampel1$x,sampel1$y, main="SAMPLE 1") abline(reg=lm(sampel1$y~sampel1$x), col="blue", lwd=2) plot(sampel2$x,sampel2$y, main="SAMPLE 2") abline(reg=lm(sampel2$y~sampel2$x), col="blue", lwd=2) plot(sampel3$x,sampel3$y, main="SAMPLE 3") abline(reg=lm(sampel3$y~sampel3$x), col="blue", lwd=2)
Jadi, apa bedanya antara model regresi:
Y=ß0+ß1X+?
dengan taksiran persamaan regresi untuk sampel:
Y^=ß0^+ß1^X?
Tidak ada komentar:
Posting Komentar
Relevant & Respectful Comments Only.