Sunteți pe pagina 1din 35

Regresia liniar i Corelaia

Obiective

Calcularea i interpretarea corelaiei simple dintre dou variabile Testarea coeficientului de corelaie Elaborarea i interpretarea modelului de regresie liniar unifactorial pentru un set de date Testarea ipotezelor modelului de regresie liniar Testarea validitii modelului de regresie

Obiective
(continuare)

Testarea parametrilor modelului, calcularea i interpretarea intervalelor de ncredere pentru parametrii modelului Elaborarea de prognoze pe baza modelului

Diagrama Scatter (Scatter Plot) i Corelaia


Diagrama norului de puncte este utilizat pentru a descrie existena,forma i direcia relaiei dintre dou variabile Corelatia este utilizat pentru a msura intensitatea legturii liniare dintre dou variabile

Exemple de Scatter Plot


Legturi liniare y y Legturi neliniare

x y y

Exemple de Scatter Plot


(continuare)
Legturi puternice y y Legturi slabe

x y y

Exemple de Scatter Plot


(continuare)
Nu exist legturi y

x y

Coeficientul de corelaie
Coeficientul de corelaie la nivelul populaiei (rho) msoar intensitatea legturii liniare dintre dou variabile Coeficientul de corelaie la nivelul eantionului r este un estimator al lui i este utilizat pentru msurarea intensitii legturii liniare dintre dou variabile pe baza datelor din eantion

Aprecieri referitoare la i r
Nu au unitate de msur Valori ntre -1 i 1 Apropierea de -1, implic o legtur invers i puternic ntre cele dou variabile Apropierea de 1, implic o legtur direct i puternic ntre cele dou variabile Apropierea de 0, implic o legtur liniar foarte slab

Exemple pentru aproximarea valorilor lui r


y y y

r = -1
y

r = -0.6
y

r=0

r = +0.3

r = +1

Calculul Coeficientului de corelaie


Coeficientul de corelaie la nivelul eantionului:

( x x )( y y ) [ ( x x ) ][ ( y y ) ]
2 2

sau o form algebric echivalent:

r
unde:

[n( x 2 ) ( x )2 ][n( y 2 ) ( y )2 ]

n xy x y

r = coeficientul de corelaie la nivelul eantionului n = volumul eantionului x = valoarea variabilei independente (cauz) y = valoarea variabilei dependente (efect)

Exemplu de calcul
nlimea Diametrul copacului trunchiului y 35 49 27 33 60 21 45 51 =321 x 8 9 7 6 13 7 11 12 =73 xy 280 441 189 198 780 147 495 612 y2 1225 2401 729 1089 3600 441 2025 2601 x2 64 81 49 36 169 49 121 144

=3142 =14111 =713

Exemplu de calcul
nlimea copacului,

(continuare

y 70
60

[n( x 2 ) ( x) 2 ][n( y 2 ) ( y)2 ] 8(3142) (73)(321) [8(713) (73)2 ][8(14111) (321)2 ]

n xy x y

50

40

30

0.886
r = 0.886 legtur direct, puternic ntre x i y

20

10

0 0 2 4 6 8 10 12 14

Diametrul trunchiului, x

Excel Output
Excel Correlation Output Tools / data analysis / correlation
Inaltimea Inaltimea Diametrul 1 0.886231 Diametrul 1

Corelaia ntre nlimea copacului i diametrul trunchiului

Testarea semnificaiei coeficientului de corelaie


Ipoteze: H0: = 0 (nu exist corelaie) HA: 0 (exist corelaie)

Testul statistic:

r 1 r n2
2
(cu n 2 grade de libertate)

Exemplu
Exist o legtur semnificativ ntre nlimea copacilor i diamterul trunchiurilor pentru un prag de semnificaie de 0.05?

H0: = 0 H1: 0

(Nu exist corelaie) (exist corelaie )

=0.05 , df = 8 - 2 = 6

r 0.886 t 4.68 2 2 1 r 1 0.886 n2 82

Exemplu: Interpretarea valorii testului


t r 1 r 2 n2 .886 1 .8862 82 4.68
Decizia: Respingem H0 Concluzia: Exist o legtur semnificativ pentru =5%

d.f. = 8-2 = 6
/2=.025 /2=.025

Resping H0

-t/2 -2.4469

Nu resping H0

t/2 H0 2.4469

Resping

4.68

Regresia unifactorial
Regresia este utilizat pentru: Prognozarea valorii variabilei dependente pe baza a cel puin unei valori a variabilei independente Explicitarea impactului modificrii variabilei independente asupra variabilei dependente Variabila dependent: variabila care se dorete a fi analizat Variabila independent:Variabila utilizat pentru explicitarea variabilei dependente

Regresia liniar unifactorial (Regresia liniar simpl)


Exist o singur independent (cauz), x variabil

Relaia dintre x i y este descris printr- o legtur liniar Modificrile lui y se presupune c sunt determinate doar de modificrile lui x

Tipuri de modele de regresie


Legtur liniar direct Legtur neliniar

Legtur liniar invers

Nu exist legtur

Modelul de regresie la nivelul populaiei


Modelul de regresie pentru populaie:
Variabila dependent Interceia ptr populaie y Coeficientul de regresie ptr populaie Variabila independent
Eroarea, valoarea rezidual

y 0 1x
Componenta liniar Componenta rezidual

Ipotezele modelului de regresie liniar referitoare la erori


Erorile () sunt independente adica nu sunt autocorelate
Erorile sunt normal distribuite

Homoscedasticitate:variaia erorilor et (i implicit a variabilei dependente yt) este constant pentru toate observaiile (= egala mprtiere a erorilor):

Regresia liniar la nivelul populaiei (continuare


y
Valoarea observat a lui y pentru xi

y 0 1x
i
Eroarea

Panta = 1

Valoarea estimat a lui y pentru xi


Interceptia = 0

xi

Estimarea modelului de regresie


Dreapta de regresie obinut pe baza datelor din eantion furnizeaz o estimaie a dreptei de regresie ptr populaie
Valorea estimat a lui y Valoarea estimat a intercepiei Valoarea estimat a pantei Variabila independent

i b0 b1x y
Erorile au media egal cu zero

Metoda celor mai mici ptrate


b0 i b1 sunt obinute pe baza principului c suma ptratelor erorilor este minim
2 e (y y) 2

(y (b

b1x))

Metoda celor mai mici ptrate


Formulele pentru b1 i b0 sunt:
b1 ( x x )( y y ) (x x)
2

b1

x y xy n 2 ( x ) 2 x n

b0 y b1 x

Interpretarea pantei dreptei (slope) i a intercepiei


b0 este valoarea estimat a lui y cnd x este zero b1 ne arat cu cte uniti de msur se modific y la modificarea cu o unitate de msur a lui x

Metoda celor mai mici ptrate


Coeficienii b0 i b1 pot fi obinui cu ajutorul unui software statistic, ca Excel sau Minitab
Alte informaii referitoare la regresie pot fi obinute cu ajutorul opiunii: Regression analysis

Exemplu de regresie liniar unifactorial


Un agent imobiliar dorete s analizeze relaia dintre preul de vnzare al unei case i suprafaa acesteia(msurat n metri ptrai)

Un eantion de 10 case au fost selectate Variabila dependent(y) = preul casei n mii dolari Variabila independent(x) = suprafaa

Datele pentru eantion


Preul casei (mii dolari) (y) 245 312 279 308 199 219 405 Suprafaa (x) 1400 1600 1700 1875 1100 1550 2350

324
319 255

2450
1425 1700

Regression Using Excel


Tools / Data Analysis / Regression

Excel Output
Regression Statistics Multiple R 0.76211

R Square
Adjusted R Square Standard Error Observations

0.58082
0.52842 41.33032 10

Ecuaia de regresie:
house price 98.24833 0.10977(squarefeet)

ANOVA df Regression Residual Total 1 8 9 SS 18934.9348 13665.5652 32600.5000 MS 18934.9348 1708.1957 F 11.0848 Significance F 0.01039

Coefficients Intercept Square Feet 98.24833 0.10977

Standard Error 58.03348 0.03297

t Stat 1.69296 3.32938

P-value 0.12892 0.01039

Lower 95% -35.57720 0.03374

Upper 95% 232.07386 0.18580

Reprezentarea grafic
Scatter plot i dreapta de regresie
450

House Price ($1000s)

400 350 300 250 200 150 100 50 0 0 500 1000 1500 2000 2500 3000 Square Feet

Panta = 0.10977

Interceptia = 98.248

house price 98.24833 0.10977(squarefeet)

Interpretarea Interceptiei, b0
house price 98.24833 0.10977(squarefeet)

b0 este valoarea estimat a lui Y cnd x este egal cu 0


n acest caz nu exist case care au suprafaa egal cu 0, aa c bb = 98.24833 98.24833 arat doar 0 0= c , pentru casele din transa de marime sub observatie, $98,248.33 este partea din pretul casei care nu poate fi explicata de suprafata

Interpretarea coeficientului de regresie (pantei, slope)b1


house price 98.24833 0.10977(squarefeet)

b1 arat cu cte uniti de msur se modific Y la modificarea cu o unitate de msur a lui X


Aici, b1 = 0.10977 arat c preul mediu de vnzare al unei case crete cu 0.10977(mii $) = 109.77$, n medie, la creterea suprafeei cu un metru ptrat