Sunteți pe pagina 1din 7

1

Regresie si corelatie
/SERII INTERDEPENDENTE-II
Note de curs
Disciplina : STATISTICA
Modele neliniare de regresie (1)
Modelul exponenial transformat al ecuaiei exponeniale are la baz
ecuaia:
y = a b
x
care se estimeaz folosind modelul:
Y = a b
x
+c
Prin logaritmare, modelul se poate transforma ntr-un model liniar de
forma:
lg Y = lg a + x lg b
cnd urmtoarele nlocuiri:
Y = lg Y ; a' = lg a ; b' = lg b, rezult ecuaia unei drepte,
respectiv:
y' = a' + b' x
Modele neliniare de regresie (2)
Modelul hiperbolei
Legturile dintre fenomenele economice pot fi i de forma unei hiperbole.
n acest caz, dependena invers dintre cele dou variabile (x scade, y crete sau
x crete, y scade) se poate exprima prin ecuaia:
x
y sau
x
1
y
| + o
= | + o =
Funcia de estimaie este:
c + + = b
x
1
a Y
i
iar cei doi parametri rezult din rezolvarea sistemului de ecuaii normale:

= +
= +


i
i
2
i
i
i
i
y
x
1
x
1
b
x
1
a
y
x
1
b na
C
lic
k
h
e
r
e
t
o
b
u
y
A
B
B
Y
Y
P
D
F
Transfo
r
m
e
r
2
.
0
w
w
w
. A
BBYY
.c
o
m
C
lic
k
h
e
r
e
t
o
b
u
y
A
B
B
Y
Y
P
D
F
Transfo
r
m
e
r
2
.
0
w
w
w
. A
BBYY
.c
o
m
2
Modele neliniare de regresie (3)
Modelul logaritmic este dat de expresia:
y = a + b lg x, care se estimeaz prin modelul:
Y = a + b lg xi + c,
Cnd a > 0 i b > 0 curba este cresctoare, iar cnd a > 0 i b < 0 curba
este descresctoare.
Folosind metoda celor mai mici ptrate se ajunge la urmtorul sistem de
ecuaii normale:
, ,

= +
= +


i i
2
i i
i i
x lg y x lg b x lg a
y x lg b na
MODELE DE REGRESIE MULTIFACTORIAL
(X11,X21,Y1)
(X13,X23,Y3)
Y
(X14,X24,Y4)
X1
(X15,X25,Y5)
(X12,X22,Y2)
X2
X15 X25
Y5
Y
3 4
1,0
1,5
3 2
2,0
2,5
2 1
3,0
3,5
1 0
X2 X1
0 -1 -1 -2 -2 -3 -3
Y = (10 - X1
2
- X2
2
)
1/2
Y' = a + b1*X1 + b2*X2.
Metoda corelaiei
Corelaia parametric (variabile msurate
pe scala de raport)
Corelaia neparametric (variabile
surate pe scala nominal, ordinal sau
de interval)
C
lic
k
h
e
r
e
t
o
b
u
y
A
B
B
Y
Y
P
D
F
Transfo
r
m
e
r
2
.
0
w
w
w
. A
BBYY
.c
o
m
C
lic
k
h
e
r
e
t
o
b
u
y
A
B
B
Y
Y
P
D
F
Transfo
r
m
e
r
2
.
0
w
w
w
. A
BBYY
.c
o
m
3
Corel aia parametric
Metoda corelaiei prezint avantajul c ofer o msur sintetic a
legturilor dintre variabilele statistice. Indicatorii care msoar
intensitatea legturii sunt: covariana, coeficientul de corelaie i
raportul de corelaie.
COVARIANA
Covariana se calculeaz sub forma mediei aritmetice simple a produselor
abaterilor celor dou variabile corelate, x i y, de la mediile lor aritmetice x i
y, conformrelaiei:
, ,

=

|
.
|

\
|

|
.
|

\
|
=
n
i
i i
y y x x
n
y x
1
1
, cov
Covari ana (2)
Covariaia este nul dac variabilele sunt independente (lipsa legturii de
corelaie).
Valoarea sa absolut cov (x,y) nu are limit superioar. Pe msur ce
intensitatea corelaiei crete i covariaia crete.
I ndicatorul reprezint avantaj ul c se calculeaz destul de uor. n acelai
timp, prezint i dezavantaj ul c depinde de unitile n care se msoar
variabilele aleatoare.
Deci nu este comparabil de la o variabil la alta.
I ndicatorul ia valori pozitive dac legtura dintre variabile este direct i
valori negative n coz contrar. Valori apropiate de zero semnific lipsa
oricrei legturi ntre x i y; valori ridicate ale indicatorului arat o legtur
puternic.
COEFICIENTUL DE CORELAIE LINIAR SIMPL (1)
Este un indicator care msoar numai intensitatea legturii de tip liniar
dintre dou variabile x i y. Se calculeaz ca o medie aritmetic a produsului
abaterilor normale normate ale celor dou variabile.
Notnd abaterile normale normate ale variabilelor x i y:
y
i
y
x
i
x
y y
z ;
x x
z
o

=
o

=
rezult urmtoarea relaie de calcul:
, ,, , , , , ,
, , , ,




=

=
2 2
y y x x
y y x x
n
y y x x
x
i i
i i
y x
i i
xy
o o
n care n "este numrul observaiilor-perechi.
Fa de covarian rezult c relaia:
, , , , , ,
y x
i i
y x
xy
n
y y x x y , x cov
r
o o

=
o o
=

sau, altfel spus, covariaia abaterilor normate zx, zy se transform n coeficientul
de corelaie liniar simpl.
C
lic
k
h
e
r
e
t
o
b
u
y
A
B
B
Y
Y
P
D
F
Transfo
r
m
e
r
2
.
0
w
w
w
. A
BBYY
.c
o
m
C
lic
k
h
e
r
e
t
o
b
u
y
A
B
B
Y
Y
P
D
F
Transfo
r
m
e
r
2
.
0
w
w
w
. A
BBYY
.c
o
m
4
COEFICIENTUL DE CORELAIE LINIAR SIMPL (2)
n practic se utilizeaz relaia:
, , , ,
2
2
2
2




=
i i i i
i i i i
y y n x x n
y x y x n
r
Coeficientul de corelaie simpl se mai poate calcula i cu relaia:
y
x
b r
o
o
=
,
n care:
b - este coeficientul de regresie simpl;
ox - abaterea medie ptratic a caracteristicii factoriale;
oy - abaterea medie ptratic a caracteristicii rezultative.
COEFICIENTUL DE CORELAIE LINIAR SIMPL (3)
Coeficientul de corelaie poate lua valori cuprinse ntre -1 i
+1, adic satisface inegalitile: - 1 s ryxs 1, iar semnul
u, ca i cel al coeficientului de regresie, semnific tipul
de legtur: semnul minus indic legtura invers,
semnul plus indic legtura direct.
Cu ct coeficientul de corelaie are valori mai apropiate de
1 sau 1, cu att corelaia rectilinie dintre variabilele x i
y este mai puternic. Pe msur ce coeficientul de
corelaie se apropie de zero, scade i intensitatea
legturii dintre cele dou variabile. n cazul n care ryx=
0, variabilele sunt independente ori necorelate liniar, iar
pentru egal cu unitatea, rezult dependena funcional
ntre cele dou variabile.
Raportul de corelaie (1)
Denumit i coeficientul de corelaie Pearson, acest indicator
soar att intensitatea legturilor liniare, ct i curbilinii. Se
definete cu relaia:
, ,
, ,

= q
2
i
2
i
y y
y y
1
sau cu relaia:
, ,
, ,

= q
2
i
2
i
y y
y y
C
lic
k
h
e
r
e
t
o
b
u
y
A
B
B
Y
Y
P
D
F
Transfo
r
m
e
r
2
.
0
w
w
w
. A
BBYY
.c
o
m
C
lic
k
h
e
r
e
t
o
b
u
y
A
B
B
Y
Y
P
D
F
Transfo
r
m
e
r
2
.
0
w
w
w
. A
BBYY
.c
o
m
5
Raportul de corelaie (2)
Calculul raportului de corelaie se bazeaz pe descompunerea dispersiei
totale a variabilei dependente
2
y
s n dispersia valorilor empirice fa de valorile
teoretice
2
Y / y
s i dispersia valorilor teoretice fa de medie
2
y / Y
s .
2
y / Y
2
Y / y
2
y
s s s + =
sau ntr-o form explicit:
, , , ,
n
y Y
n
y y
2 2

=

Aceasta ne permite s scriem:


2
y
2
Y / y
2
y
2
y / Y
1 ssau 1
o
o
= q
o
o
= q
Raportul de corelaie (3)
Dispersiile au urmtoarele semnificaii:
- msoar aciunea tuturor factorilor care au influenat asupra
variabilei rezultative:
- msoar variaia valorilor y sub influena tuturor celorlali factori
necuprini n model, a cror aciune e considerat constant;
este denumit i dispersia rezidual;
- msoar numai influena variabilei independente sau factoriale x
asupra variabilei y. Cu ct ponderea acestei dispersii n cadrul
dispersiei generale va fi mai mare, cu att legtura dintre cele
dou variabile va fi mai puternic.
Interpretare
Raportul de corelaie poate lua valori ntre 0 i 1. Cu ct valoarea
raportului este mai apropiat de 1 cu att legtura de corelaie
este mai puternic i invers.
n cazul corelaiei liniare, raportul de corelaie este egal cu
coeficientul de corelaie luat n valoare absolut i aceast relaie
poate fi considerat ca un test de verificare a liniaritii legturii .
Validarea modelului de regresie (1)
Pentru verificarea ipotezei c parametrul a al ecuaiei de regresie liniar
simpl difer semnificativ de zero, se utilizeaz criteriul (testul):
n
s
a
t = ,
n care:
, ,
2 n
Y y
s
2

=

este abaterea medie ptratic a valorilor nregistrate ale caracteristicii y fa de
linia de regresie Y, iar n este numrul perechilor de valori (x,y).
Valoarea lui t calculat cu relaia de mai sus se compar cu valoarea
tabelar tq;f, corespunztoare nivelului de semnificaie q i numrului gradelor de
libertate f = n - 2.
C
lic
k
h
e
r
e
t
o
b
u
y
A
B
B
Y
Y
P
D
F
Transfo
r
m
e
r
2
.
0
w
w
w
. A
BBYY
.c
o
m
C
lic
k
h
e
r
e
t
o
b
u
y
A
B
B
Y
Y
P
D
F
Transfo
r
m
e
r
2
.
0
w
w
w
. A
BBYY
.c
o
m
6
Validarea modelului de regresie (2)
Verificarea semnifi cai ei coefici enil or de regresi e se poate face cu ajutorul
analizei dispersionale, adic (y - Y)2, se descompune n sumele de ptrate
de abateri: (Y - y)2 i (y - Y)2. Cu ajutorul acestor sume de ptrate se
calculeaz dispersiile corectate:
cu n - 1 grade de libertate;
cu f grade de libertate;
cu n f 1 grade de libertate,
unde:
n - este numrul valorilor observate ale caracteristicii y;
f numrul coeficienilor ecuaiei de regresie liniar.
Se calculeaz raportul dintre i , adic se obine valoarea calculat F care se
compar cu cea tabelar n funcie de nivelul de semnificaie q i de
numerele gradelor de libertate f i n f - 1.
Interpretarea se face astfel :
dac Fcalc. <Ftabelar se accept ipoteza nul;
dac Fcalc. >Ftabelar se respinge ipoteza nul, respectiv se apreciaz c
valorile x (sau variabilele xi) influeneaz semnificativ variabila y.
Testarea coeficientului de corelaie liniar r
Folosim testul t:
2 n
r 1
r
t
2

= ,
unde:
n - reprezint volumul eantionului;
Valoarea calculat se compar cu valoarea tabelar tq;n-2, corespunztoare
nivelului de semnificaie q i numrului gradelor de libertate n 2.
Dac:
t > tq;n-2 coeficienii de corelaie sunt semnificativi;
t < tq;n-2 coeficienii de corelaie nu sunt semnificativi, legtura
dintre caracteristicile studiate fiind ntmpltoare.
Corel aia neparametri c
Modaliti deabordarestatistic avariabilelor calitative
Variabile/
Scala de
surare
Nominal Ordinal
Dihotomice Coeficienii , Q, Y, J i d
2
Indiceledecoinciden
Coeficientul decorelaierd
Testul
2
_
Regresiecategorial detipLogit i Probit
Polihotomice
(categoriale)
Coeficienii , C, V, T,

*
,t
*
Testul
2
_
Coeficientul de incertitudine
U
*
Regresielogistic
multinomial
Regresie utiliznd variabile
nform stratificat
Coeficientul Spearman
Coeficienii lui Kendall (t )
Coeficienii d,
Regresie ordinal de tip Logit i
Probit
Regresie utiliznd variabile n
form stratificat
C
lic
k
h
e
r
e
t
o
b
u
y
A
B
B
Y
Y
P
D
F
Transfo
r
m
e
r
2
.
0
w
w
w
. A
BBYY
.c
o
m
C
lic
k
h
e
r
e
t
o
b
u
y
A
B
B
Y
Y
P
D
F
Transfo
r
m
e
r
2
.
0
w
w
w
. A
BBYY
.c
o
m
7
Coefici entul de asociere Q
Distribuia persoanelor n funcie de naionalitate i religie
Religia/ Naionalitatea Romn Non-romn Total
Ortodox n11 n12 n1.
Non-ortodox n21 n22 n2.
Total n. 1 n.2 n
Coeficientul Q
A fost introdus de statisticianul englez Yule. Formula sa de
calcul este:
21 12 22 11
21 12 22 11
* *
* *
n n n n
n n n n
Q
+

=
Acesta ia valori tot ntre1 i 1. Dac n cazul coeficientului
la apariia unei valori nulemarimea calculat nu atingevalorilemaxime,
n cazul coeficientului Q apariia unei valori nule duce la atingerea
valorii maxime pozitive sau negative. n cazul unor variabile
independente, ca i la valoarea coeficientului Q estenul.
Coefi cienii de corelaie ai rangurilor (1)
Pe baza datelor din anuarul statistic al Romniei pentru anul 1999 s-au
nregistrat dateleurmtoarepentru 10judete.
Nr. Jud. Supraf.
(km2)
Nr.
Comunelor
1 AB 6242 66
2 AG 6826 93
3 AR 7754 67
4 BC 6621 79
5 BH 7544 86
6 BN 5355 53
7 BR 4766 39
8 BT 4986 68
9 BV 5363 43
10 BZ 6103 81
se stabileasc dac exist o legtur ntre suprafaa total i numrul
comunelor, utiliznd coeficienii decorelaiearangurilor alui Spearman i Kendall. S
seinterpretezerezultatele.
Coefi cienii de corelaie ai rangurilor (2)
Nr. J ud. (X)
Supraf.
(km2)
(Y)
Nr.
Comunelor
Rx Ry di di2 P Q S
1 AR 7754 67 1 6 -5 25 4 5 -1
2 BH 7544 86 2 2 0 0 7 1 6
3 AG 6826 93 3 1 2 4 7 0 7
4 BC 6621 79 4 4 0 0 5 1 4
5 AB 6242 66 5 7 -2 4 3 2 1
6 BZ 6103 81 6 3 3 9 4 0 4
7 BV 5363 43 7 9 -2 4 1 2 -1
8 BN 5355 53 8 8 0 0 1 1 0
9 BT 4986 68 9 5 4 16 1 0 1
10 BR 4766 39 10 10 0 0 0 0 0
Tot. 62 33 12 21
624 . 0
990
372
1
99 * 10
62 * 6
1
) 1 (
6
1
2
2
= = =

=

n n
d
C
i
S
467 . 0
9 * 10
21 * 2
) 1 (
2
= =

=

n n
S
C
K unde S=P-Q
Legturaestedirect i deintensitatemedie.
C
lic
k
h
e
r
e
t
o
b
u
y
A
B
B
Y
Y
P
D
F
Transfo
r
m
e
r
2
.
0
w
w
w
. A
BBYY
.c
o
m
C
lic
k
h
e
r
e
t
o
b
u
y
A
B
B
Y
Y
P
D
F
Transfo
r
m
e
r
2
.
0
w
w
w
. A
BBYY
.c
o
m

S-ar putea să vă placă și