Sunteți pe pagina 1din 36

Regresia liniară şi Corelaţia

Obiective
• Calcularea şi interpretarea corelaţiei simple
dintre două variabile
• Elaborarea şi interpretarea modelului de
regresie liniară unifactorială pentru un set de
date
• Elaborarea de prognoze pe baza modelului
Diagrama Scatter (Scatter Plot)
şi Corelaţia
• Diagrama norului de puncte este utilizată pentru a descrie
existenţa,forma şi direcţia relaţiei dintre două variabile
• Corelatia este utilizată pentru a măsura intensitatea
legăturii liniare dintre două variabile numerice, nu şi
cauzalitatea.

Există o legătură inversă între numărul de măgari şi de


academicieni într-o ţară, dar, amintiţi-vă: corelaţia nu
înseamnă cauzalitate.
Exemple de Scatter Plot
Legături liniare Legături neliniare

y y

x x

y y

x x
Exemple de Scatter Plot
(continuare)
Legături puternice Legături slabe

y y

x x

y y

x x
Exemple de Scatter Plot
(continuare)
Nu există legături

x
Coeficientul de corelaţie
• Coeficientul de corelaţie la nivelul
eşantionului r este utilizat pentru măsurarea
intensităţii legăturii liniare dintre două
variabile numerice pe baza datelor din
eşantion, nu şi cauzalitatea.
Aprecieri referitoare la r
• Nu are unitate de măsură
• Valori între -1 şi 1
• Apropierea de -1, implică o legătură inversă
şi puternică între cele două variabile
• Apropierea de 1, implică o legătură directă şi
puternică între cele două variabile
• Apropierea de 0, implică o legătură liniară
foarte slabă
Exemple pentru aproximarea
valorilor lui r
y y y

x x x
r = -1 r = -0.6 r=0
y y

x x
r = +0.3 r = +1
Calculul
Coeficientului de corelaţie
Coeficientul de corelaţie la nivelul eşantionului:

r
 ( x  x)( y  y)
[ ( x  x ) ][  ( y  y ) ]
2 2

sau o formă algebrică echivalentă:


n xy   x  y
r
[n(  x 2 )  (  x )2 ][n(  y 2 )  (  y )2 ]
unde:
r = coeficientul de corelaţie la nivelul eşantionului
n = volumul eşantionului
x = valoarea variabilei independente
y = valoarea variabilei dependente
Exemplu de calcul
Înălţimea Diametrul
copacului trunchiu-
lui
y x xy y2 x2
35 8 280 1225 64
49 9 441 2401 81
27 7 189 729 49
33 6 198 1089 36
60 13 780 3600 169
21 7 147 441 49
45 11 495 2025 121
51 12 612 2601 144
=321 =73 =3142 =1411 =713
1
Exemplu de calcul (continuare

Înălţimea n xy   x  y
copacului, r
y 70 [n(  x 2 )  (  x)2 ][n(  y 2 )  (  y)2 ]
60

8(3142)  (73)(321)
50 
40
[8(713)  (73)2 ][8(14111)  (321) 2 ]
30

 0.886
20

10

0
r = 0.886 → legătură directă,
0 2 4 6 8 10 12 14
puternică între x şi y
Diametrul trunchiului,
x
Excel Output
Excel Correlation Output
Tools / data analysis / correlation…

Inaltimea Diametrul
Inaltimea 1
Diametrul 0.886231 1

Corelaţia între înălţimea copacului


şi diametrul trunchiului
Coeficientul de corelaţie al
rangurilor Spearman (rs)
Este o metodă neparametrică de măsurare a
corelaţiei.
Această metodă presupune acordarea de
ranguri valorilor celor două variabile x şi y
Coeficientul de corelaţie al rangurilor Spearman
poate fi calculat în următoarele cazuri:
Ambele variabile sunt numerice.
Ambele variabile sunt calitative de tip ordinal.
O variabilă este numerică şi cealaltă este calitativă de
tip ordinal.
Procedura de calcul a
coeficientului Spearman
1. Se acordă ranguri valorilor lui x şi y. Celei
mai mari valori i se acordă rangul 1.
2. Se calculează pentru fiecare pereche de
valori (xi,yi), diferenţa dintre rangurile
acordate (di)
3. Se calculează suma pătratelor acestor
ranguri.
Procedura de calcul a
coeficientului Spearman
• Se calculează coeficientul cu formula:

6 (di) 2
rs  1 
n(n 2  1)

• Ne arată directia si intensitatea legăturii


dintre cele două variabile.
Exemplu de calcul a
coeficientului Spearman
Într-un studiu privind relaţia dintre nivelul de educaţie şi
venit s-au obţinut următoarele rezultate. Apreciaţi relaţia
care există între cele două variabile.
Unităţi Nivelul educaţiei Venitul
A Gimnazial 25
B Primar 10
C Universitar 8
D Liceal 10
E Liceal 15
F Fără studii 50
G Universitar 60
Exemplu de calcul a
coeficientului Spearman
X Y Rang X Rang Y di di2

A Gimnazial 25 5 3 2 4
B Primar 10 6 5,5 0,5 0,25
C Universitar 8 1,5 7 -5,5 30,25
D Liceal 10 3,5 5,5 -2 4
E Liceal 15 3,5 4 -0,5 0,25
F Fără studii 50 7 2 5 25
G Universitar 60 1,5 1 0,5 0,25
Exemplu de calcul a
coeficientului Spearman

6  64
rs  1   0.1
7(48)

Există o legătură inversă, foarte slabă


între nivelul de educaţie şi venit.
Exerciţii
Regresia unifactorială
• Regresia este utilizată pentru:
– Prognozarea valorii variabilei dependente pe
baza a cel puţin unei valori a variabilei
independente
– Explicitarea impactului modificării variabilei
independente asupra variabilei dependente
Variabila dependentă: variabila care se doreşte a fi
analizată (variabila efect)
Variabila independentă:Variabila utilizată pentru
explicitarea variabilei dependente (variabila cauza)
Regresia liniară unifactorială
(Regresia liniară simplă)
• Există o singură variabilă
independentă (cauză), x
• Relaţia dintre x şi y este descrisă
printr- o legătură liniară
• Modificările lui y se presupune că
sunt determinate doar de modificările
lui x
Tipuri de modele de regresie
Legătură liniară directă Legătură neliniară

Legătură liniară inversă Nu există legătură


Modelul de regresie la nivelul
eşantionului
Intercepţia Coeficientul Variabila
de regresie Eroarea,
independentă valoarea

y  b 0  b1x  ε
reziduală
Variabila
dependentă

Componenta liniară Componenta reziduală


Regresia liniară la nivelul
eşantionului
y  b 0  b1x  ε
y
Valoarea
observată a lui y
pentru xi
εi Panta = b1
Valoarea
Eroarea
estimată a lui y
pentru xi

Interceptia =
b0
xi x
Metoda celor mai mici pătrate

• b0 şi b1 sunt obţinute pe baza


principiului că suma pătratelor erorilor
este minimă

e 2
  (y ŷ) 2

  (y  (b 0  b1x))
2
Metoda celor mai mici pătrate
• Formulele pentru b1 şi b0 sunt:

b1 
 ( x  x )( y  y )
 (x  x) 2

şi
 xy   x y
b1  n b0  y  b1 x
 x 2

(  x ) 2

n
Interpretarea pantei dreptei
(slope) şi a intercepţiei
• b0 este valoarea estimată a lui y când
x este zero

• b1 ne arată cu câte unităţi de măsură


se modifică y la modificarea cu o
unitate de măsură a lui x
Metoda celor mai mici pătrate

• Coeficienţii b0 şi b1 pot fi obţinuţi cu


ajutorul unui software statistic, ca
Excel sau Minitab

• Alte informaţii referitoare la regresie


pot fi obţinute cu ajutorul opţiunii:
Regression analysis
Exemplu de regresie liniară
unifactorială
• Un agent imobiliar doreşte să analizeze relaţia
dintre preţul de vânzare al unei case şi
suprafaţa acesteia(măsurată în metri pătraţi)

• Un eşantion de 10 case au fost selectate


– Variabila dependentă(y) = preţul casei
în mii dolari
– Variabila independentă(x) = suprafaţa
Datele pentru eşantion
Preţul casei (mii dolari) Suprafaţa
(y) (x)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Regression Using Excel
• Tools / Data Analysis / Regression
Excel Output
Regression Statistics
Multiple R 0.76211
R Square 0.58082
Ecuaţia de regresie:
Adjusted R Square 0.52842
Standard Error 41.33032 house price  98.24833  0.10977 (square feet)
Observations 10

ANOVA
  df SS MS F Significance F

Regression 1 18934.9348 18934.9348 11.0848 0.01039


Residual 8 13665.5652 1708.1957
Total 9 32600.5000      

  Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386

Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580


Reprezentarea grafică
• Scatter plot şi dreapta de regresie
450
400
House Price ($1000s)

350
Panta
300
250
= 0.10977
200
150
100
50
Interceptia 0
= 98.248 0 500 1000 1500 2000 2500 3000
Square Feet

house price  98.24833  0.10977 (square feet)


Interpretarea
Interceptiei, b0
house price  98.24833  0.10977 (square feet)

• b0 este valoarea estimată a lui Y când x


este egal cu 0
– În acest caz nu există case care au
b0 aşa
suprafaţa egală cu 0, = 98.24833
că b0 = 98.24833
arată doar că , pentru casele din transa de
marime sub observatie, $98,248.33 este
partea din pretul casei care nu poate fi
explicata de suprafata
Interpretarea coeficientului de
regresie (pantei, slope)b1
house price  98.24833  0.10977 (square feet)

• b1 arată cu câte unităţi de măsură se


modifică Y la modificarea cu o
unitate de măsură a lui X
– Aici, b1 = 0.10977 arată că preţul mediu de vânzare
al unei case creşte cu 0.10977(mii $) = 109.77$, în
medie, la creşterea suprafeţei cu un metru pătrat

S-ar putea să vă placă și