Documente Academic
Documente Profesional
Documente Cultură
Context
z Statistica dispune de o seamă de metode de
studiere a dependenţelor dintre două sau mai multe
variabile. Printre acestea sunt şi cele cuprinse în
"analiza de regresie şi corelaţie". În cadrul
acesteia se studiază dependenţa dintre o variabilă
(caracteristică) rezultativă (y) şi una sau mai multe
variabile (caracteristici) independente (x).
z Caracteristica rezultativă se mai numeşte
caracteristica dependentă, endogenă sau efect, iar
caracteristica independentă se mai numeşte
caracteristica factorială, exogenă sau cauză.
z Regresia ne arată cum (ca formă analitică) o
variabilă este dependentă de altă variabilă (sau de
alte variabile), iar corelaţia ne arată gradul în care o
variabilă este dependentă de o altă variabilă (sau
alte variabile).
Clasificări
a) după numărul caracteristicilor independente luate
în studiu:
- legături simple
- legături multiple
b) după direcţia legăturilor, acestea pot fi:
- legături directe
- legături inverse
c) după expresia analitică a legăturilor, acestea pot
fi:
- legături liniare
- legături neliniare (curbilinii)
d) metode de abordare
- metode simple (elementare)
- metode analitice
1
METODE ELEMENTARE DE CARACTERIZARE A
LEGĂTURILOR DINTRE VARIABILE
Clasificări
a) după numărul caracteristicilor independente luate
în studiu:
- legături simple
- legături multiple
b) după direcţia legăturilor, acestea pot fi:
- legături directe
- legături inverse
c) după expresia analitică a legăturilor, acestea pot
fi:
- legături liniare
- legături neliniare (curbilinii)
d) metode de abordare
- metode simple (elementare)
- metode analitice
2
Metoda grupărilor
z Se repartizează unităţilor în grupe omogene în
funcţie de o caracteristică independentă.
z Pentru fiecare grupă astfel constituită se
centralizează datele numerice referitoare la
caracteristica rezultativă şi se calculează medii
pe fiecare grupă şi mărimi relative.
z Prin comparaţia variaţiei caracteristicii
independente cu indicatorii calculaţi pentru
caracteristica rezultată se poate aprecia
existenţa şi forma legăturilor dintre cele două
variabile.
General
Slovaci
litatea
Altele
.
3
Metoda grafică
Graficul se construieşte pornind de le perechile de valori
observate (x, y) care se reprezintă în sistemul de axe
rectangulare. Pe axa OX se reprezintă variabila
independentă x, iar pe axa OY variabila dependentă y.
x x
x x x y x y
x
x
x x x x x x
x
x x x x
x x
x x
Fig. 8.4. xx x
x
x x
x x x
x x
0 x 0 x
Fig. 8.5. Leg` tur` direct` Fig. 8.6. Leg` tur` invers`
propus să studieze 4.
5.
19
20
21
22
căsătoriile reuşite, în 6. 19 19
7. 23 24
special în privinţa vârstei 8. 27 32
4
Reprezentarea grafică
40
Vârsta mirelui
35
30
25
20
15
15 20 25 30 35
Vârsta m iresei
ŷ i
Punerea problemei
Nr. Vârsta Vârsta f(x)=–
f(x)=9+x/2 f(x)=a+bx
Fie f:R->R o crt. mirelui miresei 15+2x
funcţie liniară, i xi yi zi wi
având forma 1. 18 17 21 18 a+18b
analitică: 2. 25 22 35 21,5 a+25b
f(x)=a+bx, xÎR. 3. 36 28 57 27 a+36b
Pentru diferitele 4. 21 19 27 19,5 a+21b
Două cazuri 8.
9.
32
38
27
32
49
61
25
28
a+32b
a+38b
concrete şi unul 10. 26 25 37 22 a+26b
general este 11. 22 20 29 20 a+22b
redat în tabelul 12. 25 22 35 21,5 a+25b
Concepte
Chiar şi printr-o inspectare sumară a tabelului putem afirma că valorile w sunt mai bune decât
cele din coloana lui z. Dar trebuie să alegem cea mai bună pereche de alori a şi b. În continuarea
studiului trebuie să introducem o noţiune foarte importantă.
Definiţie:
Fie (xi,yi), i=1..m un set de date, f:R→R o funcţie.
Variabila e definită prin ei = yi – f(xi) = y i − yˆ i , i=1..m, se numeşte variabilă reziduală, iar
valorile acestei variabile se numesc valori reziduale.
Este clar că în rezolvarea problemei contează valoarea absolută a valorilor reziduale, dar
pentru a lucra cu expresii luăm pătratele acestora. Expresia cea mai des utilizată este suma
pătratelor valorilor reziduale, care sumă vom numi pe scurt suma pătratică reziduală.
5
Estimarea parametrilor (1)
Înlocuind pe „Y" cu valoarea sa, relaţia devine:
∑ (y i − a − bx i )2 = minim.
yˆ = 0.672758423⋅ x + 5.468303843
Interpretări
Coeficientul „a", care poate lua atât valori pozitive cât şi
negative, reprezintă ordonata la origine, respectiv
este valoarea lui „y" când “x” este egal cu zero.
Coeficientul „b" - denumit coeficient de regresie - arată
măsura în care variază caracteristica dependentă în
cazul în care caracteristica independentă se modifică
cu o unitate.
În funcţie de semnul coeficientului de regresie, putem
aprecia tipul de legătură: în cazul corelaţiei directe,
coeficientul are o valoare pozitivă; în cazul corelaţiei
inverse, valoarea lui este negativă; în cazul în care b
= 0, se apreciază că variabilele (y şi x) sunt
independente.
În graficul de corelaţie coeficientul „b" indică panta liniei
drepte.
6
Modele neliniare de regresie (1)
Modelul exponenţial transformat al ecuaţiei exponenţiale are la bază
ecuaţia:
y = a bx care se estimează folosind modelul:
Y = a bx + ε
Prin logaritmare, modelul se poate transforma într-un model liniar de
forma:
lg Y = lg a + x lg b
Făcând următoarele înlocuiri:
Y’ = lg Y ; a' = lg a ; b' = lg b, rezultă ecuaţia unei drepte,
respectiv:
y' = a' + b' x
iar cei doi parametri rezultă din rezolvarea sistemului de ecuaţii normale:
⎧ 1
⎪na + b∑ x = ∑ y i
⎪ i
⎨ 1 1 1
⎪a∑ + b∑ = ∑ yi
⎪⎩ xi x i2 xi
7
MODELE DE REGRESIE MULTIFACTORIALĂ
(X11,X21,Y1)
3,5
(X12,X22,Y2) 3,0
2,5
(X13,X23,Y3)
(X14,X24,Y4) Y 2,0
Y5 1,5
(X15,X25,Y5)
1,0
X15 X25
4 3 3
X1 2 1 1 2
X2 0 -1 -1 0
X1 -2 -3 -3 -2 X2
Metoda corelaţiei
Corelaţia parametrică
Metoda corelaţiei prezintă avantajul că oferă o măsură sintetică a
legăturilor dintre variabilele statistice. Indicatorii care măsoară
intensitatea legăturii sunt: covarianţa, coeficientul de corelaţie şi
raportul de corelaţie.
COVARIANŢA
Covarianţa se calculează sub forma mediei aritmetice simple a produselor
abaterilor celor două variabile corelate, x şi y, de la mediile lor aritmetice x şi y ,
conform relaţiei:
1 n ⎛
∑ ⎜ xi − x ⎞⎟⎠ ⋅ ⎛⎜⎝ yi − y ⎞⎟⎠
− −
cov(x, y ) =
n i =1 ⎝
8
Covarianţa (2)
Covariaţia este nulă dacă variabilele sunt independente (lipsa legăturii de
corelaţie).
Valoarea sa absolută cov (x,y) nu are limită superioară. Pe măsură ce
intensitatea corelaţiei creşte şi covariaţia creşte.
Indicatorul reprezintă avantajul că se calculează destul de uşor. În acelaşi
timp, prezintă şi dezavantajul că depinde de unităţile în care se măsoară
variabilele aleatoare.
Deci nu este comparabil de la o variabilă la alta.
Indicatorul ia valori pozitive dacă legătura dintre variabile este directă şi
valori negative în coz contrar. Valori apropiate de zero semnifică lipsa
oricărei legături între x şi y; valori ridicate ale indicatorului arată o legătură
puternică.
x xy =
∑ (x i − x )(y i − y ) = ∑ (x i − x )(y i − y )
∑ (x i − x ) (y i − y )2
nσ x σ y 2
rxy =
cov (x , y )
=
∑ (x i − x )(y i − y )
σxσy nσ x σ y
în care:
b - este coeficientul de regresie simplă;
σx - abaterea medie pătratică a caracteristicii factoriale;
σy - abaterea medie pătratică a caracteristicii rezultative.
9
COEFICIENTUL DE CORELAŢIE LINIARĂ SIMPLĂ (3)
10