Sunteți pe pagina 1din 10

Regresie si corelatie

Context
z Statistica dispune de o seam de metode de
studiere a dependenelor dintre dou sau mai multe
variabile. Printre acestea sunt i cele cuprinse n
"analiza de regresie i corelaie". n cadrul
acesteia se studiaz dependena dintre o variabil
(caracteristic) rezultativ (y) i una sau mai multe
variabile (caracteristici) independente (x).
z
Caracteristica rezultativ se mai numete
caracteristica dependent, endogen sau efect, iar
caracteristica independent se mai numete
caracteristica factorial, exogen sau cauz.
z
Regresia ne arat cum (ca form analitic) o
variabil este dependent de alt variabil (sau de
alte variabile), iar corelaia ne arat gradul n care o
variabil este dependent de o alt variabil (sau
alte variabile).

Clasificri
a) dup numrul caracteristicilor independente luate
n studiu:
- legturi simple
- legturi multiple
b) dup direcia legturilor, acestea pot fi:
- legturi directe
- legturi inverse
c) dup expresia analitic a legturilor, acestea pot
fi:
- legturi liniare
- legturi neliniare (curbilinii)
d) metode de abordare
- metode simple (elementare)
- metode analitice

METODE ELEMENTARE DE CARACTERIZARE A


LEGTURILOR DINTRE VARIABILE

z
z
z
z

metoda seriilor paralele independente;


metoda gruprilor;
metoda tabelului de corelaie;
metoda grafic.

Clasificri
a) dup numrul caracteristicilor independente luate
n studiu:
- legturi simple
- legturi multiple
b) dup direcia legturilor, acestea pot fi:
- legturi directe
- legturi inverse
c) dup expresia analitic a legturilor, acestea pot
fi:
- legturi liniare
- legturi neliniare (curbilinii)
d) metode de abordare
- metode simple (elementare)
- metode analitice

Metoda seriilor paralele interdependente


Se ordoneaz observaiile n funcie de caracteristica
independent x (cresctor sau descresctor) i se
urmeaz modul n care se aranjeaz valorile lui y.

Concluzii:
- caracteristica y se ordoneaz aproximativ cresctor rezult c putem aprecia c ntre cele dou variabile
exist o legtur direct;
- caracteristica y se ordoneaz aproximativ descresctor
rezult c putem aprecia c ntre cele dou variabile
exist o legtur invers;
- caracteristica y nu nregistreaz o tendin de ordonare
(cresctor sau descresctor) - rezult c putem aprecia
c ntre cele dou variabile nu exist legtur.

Metoda gruprilor
z Se repartizeaz unitilor n grupe omogene n
funcie de o caracteristic independent.
z Pentru fiecare grup astfel constituit se
centralizeaz datele numerice referitoare la
caracteristica rezultativ i se calculeaz medii
pe fiecare grup i mrimi relative.
z Prin comparaia variaiei caracteristicii
independente cu indicatorii calculai pentru
caracteristica rezultat se poate aprecia
existena i forma legturilor dintre cele dou
variabile.

Metoda tabelului de contingen


Tabelul de contingen este un tabel cu
dubl intrare i prezint o grupare a
unitilor unei colectivitii n funcie de
dou caracteristici: una dependent i alta
independent.
Se folosete n special n cadrul unui numr
mare de observaii.
Dac
considerm
dou
variabile
naionalitate i religie, atunci tabelul poate fi
de forma:

Exemplu - Tabel de contingen


Maghiar

General

Slovaci

Altele

Ortodox
Romanocatolic
.
.
.
General
.
.
.
Musulman
Altele
Total

Total
Romn

Religia/
Naionalitatea

n11
n21

n12
n22

.
.

.
.

n1j
n2j

.
.

.
.

n1p-1
n2p-1

n1p
n2p

.
.
.

.
.
.

.
.
.
.
.
.
.
.

.
.
.

nip-1
.
.
.
nr-1p-1

nip
.
.
.
nr-1p

ni.

nr-1j

.
.
.
.
.
.
.
.

.
.
.

ni2
.
.
.
nr-12

.
.
.
.
.
.
.
.

.
.
.

ni1
.
.
.
nr-11

.
.
.
.
.
.
.
.

nr1
n.1

nr2
n.2

.
.

.
.

nrj
n.j

.
.

.
.

nrp-1
n.p-1

nrp
n.p

nr.
n

nij
.
.
.

n1.
n2.
.
.
.
.
.
.
nr-1.

Metoda grafic
Graficul se construiete pornind de le perechile de valori
observate (x, y) care se reprezint n sistemul de axe
rectangulare. Pe axa OX se reprezint variabila
independent x, iar pe axa OY variabila dependent y.
x

x
x

y
x

x
x

x
x

Fig. 8.4.

x
x

x
x

xx
x

x
x
x

x
0

Fig. 8.5. Leg` tur` direct`

0
Fig. 8.6. Leg` tur` invers`

Regresia liniar (1)


Asumptii ale regresie liniare:
A1. Toate variabilele independente sunt cantitative sau
dihotomice. Variabilele sunt masurate fara eroare.
A2. Toate variabilele independente au varianta nenula.
A3. Nu are loc multicoliniaritate.
A4. Valoarea medie a variabilei (eroare) este zero pentru
orice multime de valori ale variabilelor independente.
A5. Fiecare variabila independenta este necorelata cu
variabila .
A6. Varianta lui este constanta-- homoscedasticity.
A7. Pentru oricare doua observatii, erorile sunt necorelate.
A8. Pentru orice valori ale variabilelor independente, este
distribuita normal.
A1 - A7. : asumptiile Gauss-Markov

Regresia liniar (2)


S presupunem, c un
cercettor, n cutarea
partenerei ideale, i-a
propus s studieze
cstoriile reuite, n
special n privina vrstei
mirelui i a miresei la
cstorie. Statistica a 15
csnicii considerate
reuite, dup vrsta la
cununie, este prezentat
n tabelul urmtor

Numr curent

Mireasa (A)

Mirele (B)

vrsta (n ani mplinii) la cununie


1.

17

18

2.

22

25

3.

28

36

4.

19

21

5.

20

22

6.

19

19

7.

23

24

8.

27

32

9.

32

38

10.

25

26

11.

20

22

12.

22

25

13.

20

23

14.

22

15.

21

23

Media

22,466666667

25,266666667

Abaterea standard

3,862066229

5,579326921

Dispersia

14,915555556

31,128888889

25

Reprezentarea grafic

Vrsta mirelui

40
35
30
25
20
15
15

20

25

30

35

Vrsta m iresei

y i

Punerea problemei
Fie f:R->R o
funcie liniar,
avnd forma
analitic:
f(x)=a+bx, xR.
Pentru diferitele
valori ale lui a i
b funcia va lua
valori diferite.
Dou cazuri
concrete i unul
general este
redat n tabelul
urmtor.

Nr.
crt.

Vrsta
mirelui

Vrsta
miresei

f(x)=
15+2x

f(x)=9+x/2

xi

yi

zi

wi

f(x)=a+bx

1.

18

17

21

18

2.

25

22

35

21,5

a+25b

3.

36

28

57

27

a+36b

a+18b

4.

21

19

27

19,5

a+21b

5.

22

20

29

20

6.

19

19

23

18,5

a+19b

7.

24

23

33

21

a+24b

a+22b

8.

32

27

49

25

a+32b

9.

38

32

61

28

a+38b

10.

26

25

37

22

a+26b

11.

22

20

29

20

a+22b

12.

25

22

35

21,5

a+25b

13.

23

20

31

20,5

a+23b

14.

25

22

35

21,5

a+25b

15.

23

21

31

20,5

a+23b

Concepte

Chiar i printr-o inspectare sumar a tabelului putem afirma c valorile w sunt mai bune dect
cele din coloana lui z. Dar trebuie s alegem cea mai bun pereche de alori a i b. n continuarea
studiului trebuie s introducem o noiune foarte important.
Definiie:
Fie (xi,yi), i=1..m un set de date, f:RR o funcie.
Variabila e definit prin ei = yi f(xi) = y i y i , i=1..m, se numete variabil rezidual, iar
valorile acestei variabile se numesc valori reziduale.
Este clar c n rezolvarea problemei conteaz valoarea absolut a valorilor reziduale, dar
pentru a lucra cu expresii lum ptratele acestora. Expresia cea mai des utilizat este suma
ptratelor valorilor reziduale, care sum vom numi pe scurt suma ptratic rezidual.

Estimarea parametrilor (1)


nlocuind pe Y" cu valoarea sa, relaia devine:

(y i a bx i )2

= minim.

Derivnd n raport cu a" i b", anulnd derivatele pariale, se obine


sistemul de ecuaii normale:

na + b x i = y i

a x i + b x i = x i y i
unde n reprezint numrul unitilor observate, adic numrul perechilor (x,y).
Rezult c y = a + bx sau a = y - bx, ceea ce nseamn c dreapta de
regresie trece prin punctul mediu (x, y).
Rezolvnd sistemul de ecuaii normale, se obin parametrii a" i b".

Estimarea parametrilor (2)


i

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

xi2
324
625
1296
441
484
361
576
1024
1444
676
484
625
529
625
529
10043

xi

xi y i

yi

18
25
36
21
22
19
24
32
38
26
22
25
23
25
23
379

306
550
1008
399
440
361
552
864
1216
650
440
550
460
550
483
8829

17
22
28
19
20
19
23
27
32
25
20
22
20
22
21
337

y = 0.672758423 x + 5.468303843

Interpretri

Coeficientul a", care poate lua att valori pozitive ct i


negative, reprezint ordonata la origine, respectiv
este valoarea lui y" cnd x este egal cu zero.
Coeficientul b" - denumit coeficient de regresie - arat
msura n care variaz caracteristica dependent n
cazul n care caracteristica independent se modific
cu o unitate.
n funcie de semnul coeficientului de regresie, putem
aprecia tipul de legtur: n cazul corelaiei directe,
coeficientul are o valoare pozitiv; n cazul corelaiei
inverse, valoarea lui este negativ; n cazul n care b
= 0, se apreciaz c variabilele (y i x) sunt
independente.
n graficul de corelaie coeficientul b" indic panta liniei
drepte.

Modele neliniare de regresie (1)


Modelul exponenial transformat al ecuaiei exponeniale are la baz
ecuaia:
y = a bx

care se estimeaz folosind modelul:

Y = a bx +
Prin logaritmare, modelul se poate transforma ntr-un model liniar de
forma:
lg Y = lg a + x lg b
Fcnd urmtoarele nlocuiri:
Y = lg Y ;

a' = lg a ;

b' = lg b, rezult ecuaia unei drepte,

respectiv:
y' = a' + b' x

Modele neliniare de regresie (2)


Modelul hiperbolei
Legturile dintre fenomenele economice pot fi i de forma unei hiperbole.
n acest caz, dependena invers dintre cele dou variabile (x scade, y crete sau
x crete, y scade) se poate exprima prin ecuaia:

y=+

sau

y=

+
x

Funcia de estimaie este:

Y = a+

1
b+
xi

iar cei doi parametri rezult din rezolvarea sistemului de ecuaii normale:

na + b x = y i

1
1
1
+ b
= yi
a
xi
xi
x i2

Modele neliniare de regresie (3)


Modelul logaritmic este dat de expresia:
y = a + b lg x, care se estimeaz prin modelul:
Y = a + b lg xi + ,
Cnd a > 0 i b > 0 curba este cresctoare, iar cnd a > 0 i b < 0 curba
este descresctoare.
Folosind metoda celor mai mici ptrate se ajunge la urmtorul sistem de
ecuaii normale:

na + b lg x i = y i

2
a lg x i + b (lg x i ) =

y i lg x i

MODELE DE REGRESIE MULTIFACTORIAL

Y
(X11,X21,Y1)
3,5

(X12,X22,Y2)

3,0
2,5

(X13,X23,Y3)

Y 2,0

(X14,X24,Y4)
Y5

1,5

(X15,X25,Y5)
X15

1,0

X25

X1

4 3
2 1
0 -1
X1 -2 -3

X2

Y' = a + b1*X1 + b2*X2.

-1 0
-3 -2
X2

Y = (10 - X12 - X22)1/2

Metoda corelaiei

z Corelaia parametric (variabile msurate


pe scala de raport)
z Corelaia neparametric (variabile
msurate pe scala nominal, ordinal sau
de interval)

Corelaia parametric
Metoda corelaiei prezint avantajul c ofer o msur sintetic a
legturilor dintre variabilele statistice. Indicatorii care msoar
intensitatea legturii sunt: covariana, coeficientul de corelaie i
raportul de corelaie.
COVARIANA
Covariana se calculeaz sub forma mediei aritmetice simple a produselor
abaterilor celor dou variabile corelate, x i y, de la mediile lor aritmetice x i y ,
conform relaiei:

cov(x, y ) =

1 n
xi x yi y
n i =1

Covariana (2)
Covariaia este nul dac variabilele sunt independente (lipsa legturii de
corelaie).
Valoarea sa absolut cov (x,y) nu are limit superioar. Pe msur ce
intensitatea corelaiei crete i covariaia crete.
Indicatorul reprezint avantajul c se calculeaz destul de uor. n acelai
timp, prezint i dezavantajul c depinde de unitile n care se msoar
variabilele aleatoare.
Deci nu este comparabil de la o variabil la alta.
Indicatorul ia valori pozitive dac legtura dintre variabile este direct i
valori negative n coz contrar. Valori apropiate de zero semnific lipsa
oricrei legturi ntre x i y; valori ridicate ale indicatorului arat o legtur
puternic.

COEFICIENTUL DE CORELAIE LINIAR SIMPL (1)


Este un indicator care msoar numai intensitatea legturii de tip liniar
dintre dou variabile x i y. Se calculeaz ca o medie aritmetic a produsului
abaterilor normale normate ale celor dou variabile.
Notnd abaterile normale normate ale variabilelor x i y:

x x
zx = i
x

yi y
y

zy =

rezult urmtoarea relaie de calcul:

(x i x )(y i y ) =

x xy =

n x y

(x i x )(y i y )

(x i x )

(y i y )2

n care n " este numrul observaiilor-perechi.


Fa de covarian rezult c relaia:

cov (x , y )
=
xy

rxy =

(x i x )(y i y )
n x y

sau, altfel spus, covariaia abaterilor normate zx, zy se transform n coeficientul


de corelaie liniar simpl.

COEFICIENTUL DE CORELAIE LINIAR SIMPL (2)


n practic se utilizeaz relaia:

r=

[n x

n x i y i x i y i
2
i

][

( x i )2 n y i2 ( y i )2

Coeficientul de corelaie simpl se mai poate calcula i cu relaia:

r =b x ,
y
n care:
b - este coeficientul de regresie simpl;
x - abaterea medie ptratic a caracteristicii factoriale;
y - abaterea medie ptratic a caracteristicii rezultative.

COEFICIENTUL DE CORELAIE LINIAR SIMPL (3)


Coeficientul de corelaie poate lua valori cuprinse ntre -1 i
+1, adic satisface inegalitile: - 1 ryx 1, iar semnul
su, ca i cel al coeficientului de regresie, semnific tipul
de legtur: semnul minus indic legtura invers,
semnul plus indic legtura direct.
Cu ct coeficientul de corelaie are valori mai apropiate de
1 sau 1, cu att corelaia rectilinie dintre variabilele x i
y este mai puternic. Pe msur ce coeficientul de
corelaie se apropie de zero, scade i intensitatea
legturii dintre cele dou variabile. n cazul n care ryx =
0, variabilele sunt independente ori necorelate liniar, iar
pentru egal cu unitatea, rezult dependena funcional
ntre cele dou variabile.

10

S-ar putea să vă placă și