Sunteți pe pagina 1din 30

Regresie si corelatie

Suport de curs
Stud. Management economic
28 martie 2009

Bibliografie

+ Orice manual/ tratat recomandat la seciunea Bibliografie de pe


site

Context
Statistica

dispune de o seam de metode de studiere a


dependenelor dintre dou sau mai multe variabile.
Printre acestea sunt i cele cuprinse n "analiza de
regresie i corelaie". n cadrul acesteia se studiaz
dependena dintre o variabil (caracteristic) rezultativ
(y) i una sau mai multe variabile (caracteristici)
independente (x).

Caracteristica rezultativ se mai numete


caracteristica dependent, endogen sau efect, iar
caracteristica independent se mai numete
caracteristica factorial, exogen sau cauz.

Regresia ne arat cum (ca form analitic) o


variabil este dependent de alt variabil (sau de alte
variabile), iar corelaia ne arat gradul n care o
variabil este dependent de o alt variabil (sau alte
variabile).

Clasificri
a) dup numrul caracteristicilor independente luate n
studiu:
- legturi simple
- legturi multiple
b) dup direcia legturilor, acestea pot fi:
- legturi directe
- legturi inverse
c) dup expresia analitic a legturilor, acestea pot fi:
- legturi liniare
- legturi neliniare (curbilinii)
d) metode de abordare
- metode simple (elementare)
- metode analitice

METODE ELEMENTARE DE CARACTERIZARE A


LEGTURILOR DINTRE VARIABILE

metoda seriilor paralele independente;


metoda gruprilor;
metoda tabelului de corelaie;
metoda grafic.

Clasificri
a) dup numrul caracteristicilor independente luate n
studiu:
- legturi simple
- legturi multiple
b) dup direcia legturilor, acestea pot fi:
- legturi directe
- legturi inverse
c) dup expresia analitic a legturilor, acestea pot fi:
- legturi liniare
- legturi neliniare (curbilinii)
d) metode de abordare
- metode simple (elementare)
- metode analitice

Metoda seriilor paralele interdependente


Se ordoneaz observaiile n funcie de caracteristica
independent x (cresctor sau descresctor) i se
urmeaz modul n care se aranjeaz valorile lui y.

Concluzii:
- caracteristica y se ordoneaz aproximativ cresctor rezult c putem aprecia c ntre cele dou variabile
exist o legtur direct;
- caracteristica y se ordoneaz aproximativ descresctor
rezult c putem aprecia c ntre cele dou variabile
exist o legtur invers;
- caracteristica y nu nregistreaz o tendin de ordonare
(cresctor sau descresctor) - rezult c putem aprecia
c ntre cele dou variabile nu exist legtur.

Metoda gruprilor
Se

repartizeaz unitilor n grupe omogene n


funcie de o caracteristic independent.
Pentru fiecare grup astfel constituit se
centralizeaz datele numerice referitoare la
caracteristica rezultativ i se calculeaz medii
pe fiecare grup i mrimi relative.
Prin comparaia variaiei caracteristicii
independente cu indicatorii calculai pentru
caracteristica rezultat se poate aprecia
existena i forma legturilor dintre cele dou
variabile.

Metoda tabelului de contingen


Tabelul de contingen este un tabel cu
dubl intrare i prezint o grupare a
unitilor unei colectivitii n funcie de
dou caracteristici: una dependent i alta
independent.
Se folosete n special n cadrul unui numr
mare de observaii.
Dac considerm dou variabile
naionalitate i religie, atunci tabelul poate
fi de forma:

Exemplu - Tabel de contingen

Metoda grafic
Graficul se construiete pornind de le perechile de valori
observate (x, y) care se reprezint n sistemul de axe
rectangulare. Pe axa OX se reprezint variabila
independent x, iar pe axa OY variabila dependent y.
x

x
x

x
x

Fig. 8.4.

xx
x

x
x

Fig. 8.5. Leg`tur` direct`

x
x
x

x
0

x
x
x

0
Fig. 8.6. Leg`tur` invers`

Regresia liniar (1)


Asumptii ale regresie liniare:
A1. Toate variabilele independente sunt cantitative sau
dihotomice. Variabilele sunt masurate fara eroare.
A2. Toate variabilele independente au varianta nenula.
A3. Nu are loc multicoliniaritate.
A4. Valoarea medie a variabilei (eroare) este zero pentru
orice multime de valori ale variabilelor independente.
A5. Fiecare variabila independenta este necorelata cu
variabila .
A6. Varianta lui este constanta-- homoscedasticity.
A7. Pentru oricare doua observatii, erorile sunt necorelate.
A8. Pentru orice valori ale variabilelor independente, este
distribuita normal.
A1 - A7. : asumptiile Gauss-Markov

Regresia liniar (2)


S presupunem, c un
cercettor, n cutarea
partenerei ideale, i-a
propus s studieze
cstoriile reuite, n
special n privina vrstei
mirelui i a miresei la
cstorie. Statistica a 15
csnicii considerate
reuite, dup vrsta la
cununie, este prezentat
n tabelul urmtor

Reprezentarea grafic
Vrsta m irelui

40
35
30
25
20
15
15

20

25

30

Vrsta m iresei

35

y i

Punerea problemei
Fie f:R->R o
funcie liniar,
avnd forma
analitic:
f(x)=a+bx, xR.
Pentru diferitele
valori ale lui a i
b funcia va lua
valori diferite.
Dou cazuri
concrete i unul
general este
redat n tabelul
urmtor.

Nr.
crt.

Vrsta
mirelui

Vrsta
miresei

f(x)=
15+2x

f(x)=9+x/2

xi

yi

zi

wi

1.

18

17

21

18

a+18b

2.

25

22

35

21,5

a+25b

3.

36

28

57

27

a+36b

4.

21

19

27

19,5

a+21b

5.

22

20

29

20

a+22b

6.

19

19

23

18,5

a+19b

7.

24

23

33

21

a+24b

8.

32

27

49

25

a+32b

9.

38

32

61

28

a+38b

10.

26

25

37

22

a+26b

11.

22

20

29

20

a+22b

12.

25

22

35

21,5

a+25b

13.

23

20

31

20,5

a+23b

14.

25

22

35

21,5

a+25b

15.

23

21

31

20,5

a+23b

f(x)=a+bx

Concepte

Estimarea parametrilor (1)

Estimarea parametrilor (2)

y 0.672758423 x 5.468303843

Interpretri
Coeficientul a", care poate lua att valori pozitive ct i
negative, reprezint ordonata la origine, respectiv
este valoarea lui y" cnd x este egal cu zero.
Coeficientul b" - denumit coeficient de regresie - arat
msura n care variaz caracteristica dependent n
cazul n care caracteristica independent se modific
cu o unitate.
n funcie de semnul coeficientului de regresie, putem
aprecia tipul de legtur: n cazul corelaiei directe,
coeficientul are o valoare pozitiv; n cazul corelaiei
inverse, valoarea lui este negativ; n cazul n care b
= 0, se apreciaz c variabilele (y i x) sunt
independente.
n graficul de corelaie coeficientul b" indic panta liniei
drepte.

Modele neliniare de regresie (1)

Modele neliniare de regresie (2)

Modele neliniare de regresie (3)

MODELE DE REGRESIE MULTIFACTORIAL

Y
(X11,X21,Y1)
3,5

(X12,X22,Y2)

3,0
2,5

(X13,X23,Y3)

Y 2,0

(X14,X24,Y4)
Y5

1,5

(X15,X25,Y5)
X15

X1

1,0

X25

X2

Y' = a + b1*X1 + b2*X2.

4 3
2 1
0 -1
-2 -3
X1

-1 0
-3 -2
X2

Y = (10 - X12 - X22)1/2

Metoda corelaiei

Corelaia

parametric (variabile msurate


pe scala de raport)
Corelaia neparametric (variabile
msurate pe scala nominal, ordinal sau
de interval)

Corelaia parametric
Metoda corelaiei prezint avantajul c ofer o msur sintetic a
legturilor dintre variabilele statistice. Indicatorii care msoar
intensitatea legturii sunt: covariana, coeficientul de corelaie i
raportul de corelaie.

Covariana (2)

COEFICIENTUL DE CORELAIE LINIAR SIMPL (1)

COEFICIENTUL DE CORELAIE LINIAR SIMPL (2)

COEFICIENTUL DE CORELAIE LINIAR SIMPL (3)


Coeficientul de corelaie poate lua valori cuprinse ntre -1 i
+1, adic satisface inegalitile: - 1 ryx 1, iar semnul
su, ca i cel al coeficientului de regresie, semnific tipul
de legtur: semnul minus indic legtura invers,
semnul plus indic legtura direct.
Cu ct coeficientul de corelaie are valori mai apropiate de
1 sau 1, cu att corelaia rectilinie dintre variabilele x i
y este mai puternic. Pe msur ce coeficientul de
corelaie se apropie de zero, scade i intensitatea
legturii dintre cele dou variabile. n cazul n care ryx =
0, variabilele sunt independente ori necorelate liniar, iar
pentru egal cu unitatea, rezult dependena funcional
ntre cele dou variabile.