Pendahuluan Analisis Regresi


Beberapa hal yang akan dibahas:
  • Apakah model regresi linier itu?
  • Data seperti apa yang dapat digunakan pada regresi linier?
  • Contoh-contoh regresi linier?
Perhatikan model berikut:
Y=ß0+ß1X1+...+ßpXp+?
Atau,
yi=ß0+ß1x1i+...+ßpxpi+?i;i=1,...,n
dengan n adalah ukuran sampel.
Apa arti dari notasi - notasi di atas?
Perhatikan data berikut.
n<-1000
a<-20
b<-3
x<-runif(n,0,60)
epsilon<-rnorm(n,0,1)
y<-a+(b+epsilon)*x+epsilon
mydata<-data.frame(x,y)
plot(x,y)
plot6 Sekarang, jika diambil sampel berukuran n1<n dari data di atas.
n1<-0.1*n
sampel1<-mydata[sample(nrow(mydata), n1), ]
summary(sampel1)
##        x                 y         
##  Min.   : 0.2173   Min.   : 18.50  
##  1st Qu.:11.4127   1st Qu.: 43.93  
##  Median :25.3857   Median : 89.38  
##  Mean   :26.4384   Mean   : 98.51  
##  3rd Qu.:44.4121   3rd Qu.:139.98  
##  Max.   :59.3712   Max.   :282.73
plot(sampel1$x,sampel1$y)
plot7 Korelasi dan taksiran persamaan regresi untuk sampel tersebut adalah:
rho1<-cor(sampel1$x,sampel1$y)
reg1<-lm(y~x, data=sampel1)
rho1
## [1] 0.83016
summary(reg1)
## 
## Call:
## lm(formula = y ~ x, data = sampel1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -124.065  -16.960   -1.267   12.135  105.106 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  22.2308     6.2952   3.531 0.000632 ***
## x             2.8853     0.1957  14.740  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 35.84 on 98 degrees of freedom
## Multiple R-squared:  0.6892, Adjusted R-squared:  0.686 
## F-statistic: 217.3 on 1 and 98 DF,  p-value: < 2.2e-16
Atau dapat dituliskan:
y^=21.9370+2.853x
Bagaimana jika dilakukan pengambilan sampel kembali? Sebut sampel 2.
##        x                 y         
##  Min.   : 0.7834   Min.   : 21.87  
##  1st Qu.:17.7492   1st Qu.: 58.44  
##  Median :33.8266   Median :113.35  
##  Mean   :31.7527   Mean   :114.57  
##  3rd Qu.:45.5236   3rd Qu.:161.06  
##  Max.   :57.8049   Max.   :290.47
plot(sampel2$x,sampel2$y)
plot8 Untuk memudahkan membandingkan, akan diplot kedua sampel tersebut berdampingan.
par(mfrow=c(1,2))
plot(sampel1$x,sampel1$y, main="DATA 1")
plot(sampel2$x,sampel2$y, main="DATA 2")
plot9 Korelasi dan taksiran persamaan regresi untuk sampel tersebut adalah:
rho2<-cor(sampel2$x,sampel2$y)
reg2<-lm(y~x, data=sampel2)
rho2
## [1] 0.7900625
summary(reg2)
## 
## Call:
## lm(formula = y ~ x, data = sampel2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -102.806  -20.598   -1.646   20.571  130.678 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  22.0246     8.1866    2.69  0.00839 ** 
## x             2.9144     0.2284   12.76  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 37.96 on 98 degrees of freedom
## Multiple R-squared:  0.6242, Adjusted R-squared:  0.6204 
## F-statistic: 162.8 on 1 and 98 DF,  p-value: < 2.2e-16
Atau dapat dituliskan:
y^=23.0294+2.9619x
Ingat bahwa taksiran regresi untuk data sampel 1 adalah:
y^=21.9370+2.853x
Bagaimana jika dilakukan pengambilan sampel sekali lagi?
sampel3<-mydata[901:1000, ]
summary(sampel3)
##        x                y         
##  Min.   : 1.269   Min.   : 24.76  
##  1st Qu.:13.746   1st Qu.: 59.94  
##  Median :27.494   Median : 95.18  
##  Mean   :28.894   Mean   :104.96  
##  3rd Qu.:42.698   3rd Qu.:144.09  
##  Max.   :59.990   Max.   :239.07
Ketiga sampel akan diplot bersamaan sebagai berikut: plot10
reg3<-lm(y~x, data=sampel3)
summary(reg3)
## 
## Call:
## lm(formula = y ~ x, data = sampel3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -92.185 -12.933  -1.277  17.862  96.431 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  25.9815     6.3849   4.069 9.55e-05 ***
## x             2.7332     0.1923  14.213  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 31.45 on 98 degrees of freedom
## Multiple R-squared:  0.6733, Adjusted R-squared:   0.67 
## F-statistic:   202 on 1 and 98 DF,  p-value: < 2.2e-16
Dengan taksiran persamaan regresi adalah:
Untuk sampel 1:
y^=21.9370+2.853x
Untuk sampel 2:
y^=23.0294+2.9619x
Untuk sampel 3:
y^=17.4196+3.1816x
Sementara, jika dilakukan regresi pada data populasi, akan diperoleh hasil sebagai berikut:
reg<-lm(y~x, data=mydata)
summary(reg)
## 
## Call:
## lm(formula = y ~ x, data = mydata)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -134.789  -14.613   -0.187   15.414  132.527 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 20.05261    2.10638    9.52   <2e-16 ***
## x            3.04068    0.06241   48.73   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.93 on 998 degrees of freedom
## Multiple R-squared:  0.704,  Adjusted R-squared:  0.7037 
## F-statistic:  2374 on 1 and 998 DF,  p-value: < 2.2e-16
plot(x,y)
abline(reg=lm(y~x), col="red", lwd=2)
plot11
Atau, dituliskan ulang sebagai berikut:
Populasi:
y=21.98193+2.897773x
Sample 1:
y^=21.9370+2.853x
Sampel 2:
y^=23.0294+2.9619x
Sampel 3:
y^=17.4196+3.1816x
Jadi, apa yang dapat disimpulkan dari pembahasan di atas?
Bandingkan keempat plot tersebut:
par(mfrow=c(2,2))
plot(x,y, main="POPULASI")
abline(reg=lm(y~x), col="red", lwd=2)

plot(sampel1$x,sampel1$y, main="SAMPLE 1")
abline(reg=lm(sampel1$y~sampel1$x), col="blue", lwd=2)

plot(sampel2$x,sampel2$y, main="SAMPLE 2")
abline(reg=lm(sampel2$y~sampel2$x), col="blue", lwd=2)

plot(sampel3$x,sampel3$y, main="SAMPLE 3")
abline(reg=lm(sampel3$y~sampel3$x), col="blue", lwd=2)
plot12
Jadi, apa bedanya antara model regresi:
Y=ß0+ß1X+?
dengan taksiran persamaan regresi untuk sampel:
Y^=ß0^+ß1^X?

Tidak ada komentar:

Posting Komentar

Relevant & Respectful Comments Only.