Documente Academic
Documente Profesional
Documente Cultură
Regresie Si Corelatie PDF
Regresie Si Corelatie PDF
Context
z Statistica dispune de o seam de metode de
studiere a dependenelor dintre dou sau mai multe
variabile. Printre acestea sunt i cele cuprinse n
"analiza de regresie i corelaie". n cadrul
acesteia se studiaz dependena dintre o variabil
(caracteristic) rezultativ (y) i una sau mai multe
variabile (caracteristici) independente (x).
z Caracteristica rezultativ se mai numete
caracteristica dependent, endogen sau efect, iar
caracteristica independent se mai numete
caracteristica factorial, exogen sau cauz.
z Regresia ne arat cum (ca form analitic) o
variabil este dependent de alt variabil (sau de
alte variabile), iar corelaia ne arat gradul n care o
variabil este dependent de o alt variabil (sau
alte variabile).
Clasificri
a) dup numrul caracteristicilor independente luate
n studiu:
- legturi simple
- legturi multiple
b) dup direcia legturilor, acestea pot fi:
- legturi directe
- legturi inverse
c) dup expresia analitic a legturilor, acestea pot
fi:
- legturi liniare
- legturi neliniare (curbilinii)
d) metode de abordare
- metode simple (elementare)
- metode analitice
1
METODE ELEMENTARE DE CARACTERIZARE A
LEGTURILOR DINTRE VARIABILE
Clasificri
a) dup numrul caracteristicilor independente luate
n studiu:
- legturi simple
- legturi multiple
b) dup direcia legturilor, acestea pot fi:
- legturi directe
- legturi inverse
c) dup expresia analitic a legturilor, acestea pot
fi:
- legturi liniare
- legturi neliniare (curbilinii)
d) metode de abordare
- metode simple (elementare)
- metode analitice
2
Metoda gruprilor
z Se repartizeaz unitilor n grupe omogene n
funcie de o caracteristic independent.
z Pentru fiecare grup astfel constituit se
centralizeaz datele numerice referitoare la
caracteristica rezultativ i se calculeaz medii
pe fiecare grup i mrimi relative.
z Prin comparaia variaiei caracteristicii
independente cu indicatorii calculai pentru
caracteristica rezultat se poate aprecia
existena i forma legturilor dintre cele dou
variabile.
General
Slovaci
litatea
Altele
.
3
Metoda grafic
Graficul se construiete pornind de le perechile de valori
observate (x, y) care se reprezint n sistemul de axe
rectangulare. Pe axa OX se reprezint variabila
independent x, iar pe axa OY variabila dependent y.
x x
x x x y x y
x
x
x x x x x x
x
x x x x
x x
x x
Fig. 8.4. xx x
x
x x
x x x
x x
0 x 0 x
Fig. 8.5. Leg` tur` direct` Fig. 8.6. Leg` tur` invers`
propus s studieze 4.
5.
19
20
21
22
cstoriile reuite, n 6. 19 19
7. 23 24
special n privina vrstei 8. 27 32
4
Reprezentarea grafic
40
Vrsta mirelui
35
30
25
20
15
15 20 25 30 35
Vrsta m iresei
y i
Punerea problemei
Nr. Vrsta Vrsta f(x)=
f(x)=9+x/2 f(x)=a+bx
Fie f:R->R o crt. mirelui miresei 15+2x
funcie liniar, i xi yi zi wi
avnd forma 1. 18 17 21 18 a+18b
analitic: 2. 25 22 35 21,5 a+25b
f(x)=a+bx, xR. 3. 36 28 57 27 a+36b
Pentru diferitele 4. 21 19 27 19,5 a+21b
Dou cazuri 8.
9.
32
38
27
32
49
61
25
28
a+32b
a+38b
concrete i unul 10. 26 25 37 22 a+26b
general este 11. 22 20 29 20 a+22b
redat n tabelul 12. 25 22 35 21,5 a+25b
Concepte
Chiar i printr-o inspectare sumar a tabelului putem afirma c valorile w sunt mai bune dect
cele din coloana lui z. Dar trebuie s alegem cea mai bun pereche de alori a i b. n continuarea
studiului trebuie s introducem o noiune foarte important.
Definiie:
Fie (xi,yi), i=1..m un set de date, f:RR o funcie.
Variabila e definit prin ei = yi f(xi) = y i y i , i=1..m, se numete variabil rezidual, iar
valorile acestei variabile se numesc valori reziduale.
Este clar c n rezolvarea problemei conteaz valoarea absolut a valorilor reziduale, dar
pentru a lucra cu expresii lum ptratele acestora. Expresia cea mai des utilizat este suma
ptratelor valorilor reziduale, care sum vom numi pe scurt suma ptratic rezidual.
5
Estimarea parametrilor (1)
nlocuind pe Y" cu valoarea sa, relaia devine:
(y i a bx i )2 = minim.
y = 0.672758423 x + 5.468303843
Interpretri
Coeficientul a", care poate lua att valori pozitive ct i
negative, reprezint ordonata la origine, respectiv
este valoarea lui y" cnd x este egal cu zero.
Coeficientul b" - denumit coeficient de regresie - arat
msura n care variaz caracteristica dependent n
cazul n care caracteristica independent se modific
cu o unitate.
n funcie de semnul coeficientului de regresie, putem
aprecia tipul de legtur: n cazul corelaiei directe,
coeficientul are o valoare pozitiv; n cazul corelaiei
inverse, valoarea lui este negativ; n cazul n care b
= 0, se apreciaz c variabilele (y i x) sunt
independente.
n graficul de corelaie coeficientul b" indic panta liniei
drepte.
6
Modele neliniare de regresie (1)
Modelul exponenial transformat al ecuaiei exponeniale are la baz
ecuaia:
y = a bx care se estimeaz folosind modelul:
Y = a bx +
Prin logaritmare, modelul se poate transforma ntr-un model liniar de
forma:
lg Y = lg a + x lg b
Fcnd urmtoarele nlocuiri:
Y = lg Y ; a' = lg a ; b' = lg b, rezult ecuaia unei drepte,
respectiv:
y' = a' + b' x
iar cei doi parametri rezult din rezolvarea sistemului de ecuaii normale:
1
na + b x = y i
i
1 1 1
a + b = yi
xi x i2 xi
7
MODELE DE REGRESIE MULTIFACTORIAL
(X11,X21,Y1)
3,5
(X12,X22,Y2) 3,0
2,5
(X13,X23,Y3)
(X14,X24,Y4) Y 2,0
Y5 1,5
(X15,X25,Y5)
1,0
X15 X25
4 3 3
X1 2 1 1 2
X2 0 -1 -1 0
X1 -2 -3 -3 -2 X2
Metoda corelaiei
Corelaia parametric
Metoda corelaiei prezint avantajul c ofer o msur sintetic a
legturilor dintre variabilele statistice. Indicatorii care msoar
intensitatea legturii sunt: covariana, coeficientul de corelaie i
raportul de corelaie.
COVARIANA
Covariana se calculeaz sub forma mediei aritmetice simple a produselor
abaterilor celor dou variabile corelate, x i y, de la mediile lor aritmetice x i y ,
conform relaiei:
1 n
xi x yi y
cov(x, y ) =
n i =1
8
Covariana (2)
Covariaia este nul dac variabilele sunt independente (lipsa legturii de
corelaie).
Valoarea sa absolut cov (x,y) nu are limit superioar. Pe msur ce
intensitatea corelaiei crete i covariaia crete.
Indicatorul reprezint avantajul c se calculeaz destul de uor. n acelai
timp, prezint i dezavantajul c depinde de unitile n care se msoar
variabilele aleatoare.
Deci nu este comparabil de la o variabil la alta.
Indicatorul ia valori pozitive dac legtura dintre variabile este direct i
valori negative n coz contrar. Valori apropiate de zero semnific lipsa
oricrei legturi ntre x i y; valori ridicate ale indicatorului arat o legtur
puternic.
x xy =
(x i x )(y i y ) = (x i x )(y i y )
(x i x ) (y i y )2
n x y 2
rxy =
cov (x , y )
=
(x i x )(y i y )
xy n x y
n care:
b - este coeficientul de regresie simpl;
x - abaterea medie ptratic a caracteristicii factoriale;
y - abaterea medie ptratic a caracteristicii rezultative.
9
COEFICIENTUL DE CORELAIE LINIAR SIMPL (3)
10