Sunteți pe pagina 1din 17

Curs 3.

Corelatie si regresie
Definitie
Corelatia reprezinta legatura care exista intre o caracteristica
dependenta si una sau mai multe caracteristici independente, iar
regresia este metoda prin care se stabileste aceasta legatura.
Sa consideram caracteristicile cantitative X si Y relative la
colectivitatea C . Datele primare sunt (xk0 , yk0 ), k = 1, N, care dupa
grupare sunt prezentate in Tabelul 1, unde fij reprezinta frecventa
absoluta a clasei (xi , yj ).
Tabel 1. Tabel de corelatie
X \ Y y1 y2 · · · ym
x1 f11 f12 . . . f1m f1·
x2 f21 f22 . . . f2m f2·
.. .. .. .. .. ..
. . . . . .
xn fn1 fn2 ... fnm fn·
f·1 f·2 ... f·m N
Avem
m
X n
X
fi,j = fi· , fi,j = f·j
j=1 i=1
n
X m
X
fi· = f·j = N.
i=1 j=1
Corelatia sau covarianta variabilelor X si Y :
n m
1 XX
Co(X , Y ) = (yj − Y )(xi − X )fij .
N
i=1 j=1
Corelatia sau covarianta variabilelor X si Y :
n m
1 XX
Co(X , Y ) = (yj − Y )(xi − X )fij .
N
i=1 j=1

Coeficientul de corelatie:
Co(X , Y )
r (X , Y ) = ,
σ(X )σ(Y )
p
unde σ(X ) reprezinta abaterea standard (σ(X ) = σ 2 (X )).
Interpretari:
daca r (X , Y ) = 0 ⇒ X , Y sunt necorelate;
Interpretari:
daca r (X , Y ) = 0 ⇒ X , Y sunt necorelate;
daca |r (X , Y )| ∈ (0; 0.3) ⇒ X , Y sunt slab corelate;
Interpretari:
daca r (X , Y ) = 0 ⇒ X , Y sunt necorelate;
daca |r (X , Y )| ∈ (0; 0.3) ⇒ X , Y sunt slab corelate;
daca |r (X , Y )| ∈ (0.3; 0.7) ⇒ X , Y sunt mediu corelate;
Interpretari:
daca r (X , Y ) = 0 ⇒ X , Y sunt necorelate;
daca |r (X , Y )| ∈ (0; 0.3) ⇒ X , Y sunt slab corelate;
daca |r (X , Y )| ∈ (0.3; 0.7) ⇒ X , Y sunt mediu corelate;
daca |r (X , Y )| ∈ (0.7; 0.99) ⇒ X , Y sunt puternic corelate;
Interpretari:
daca r (X , Y ) = 0 ⇒ X , Y sunt necorelate;
daca |r (X , Y )| ∈ (0; 0.3) ⇒ X , Y sunt slab corelate;
daca |r (X , Y )| ∈ (0.3; 0.7) ⇒ X , Y sunt mediu corelate;
daca |r (X , Y )| ∈ (0.7; 0.99) ⇒ X , Y sunt puternic corelate;
daca |r (X , Y )| = 1 ⇒ X , Y sunt total corelate;
Clasificare regresii:
regresia simpla Y = f (X );
X = caracteristica independenta;
Y =caracteristica dependenta;
Clasificare regresii:
regresia simpla Y = f (X );
X = caracteristica independenta;
Y =caracteristica dependenta;
regresia multipla Y = f (X1 , X2 , . . . , Xn ),
unde X1 , X2 , . . . , Xn sunt cauzele care-l implica pe Y .
Clasificare regresii:
regresia simpla Y = f (X );
X = caracteristica independenta;
Y =caracteristica dependenta;
regresia multipla Y = f (X1 , X2 , . . . , Xn ),
unde X1 , X2 , . . . , Xn sunt cauzele care-l implica pe Y .
!!! Problema gasirii unei regresii se pune doar pentru pentru
caracteristici numerice:
serii numerice paralele (la care nu avem frecventa);
serii numerice in tablou de corelatie;
Ne dam seama ca intre doua caracteristici statistice exista o
legatura de tip regresie daca:
a) la serii paralele reprezentam grafic perechile (xi , yi ) intr-un
sistem cartezian XOY si urmarim daca norul de puncte se
grupeaza aproximativ de-a lungul unei fasii.
b) la serii date cu tablou de corelatie, coeficientul de corelatie
este mare.
Tipuri de regresii:
liniara y = ax + b;
parabolica y = ax 2 + bx + c;
b
hiperbolica y = a + ;
x
exponentiala y = b · ax , a, b > 0, a 6= 1.
Determinarea coeficientilor
Cel mai des se foloseste metoda celor mai mici patrate a lui Gauss.
Sa presupunem ca regresia este o functie de forma
Y = f (X , a1 , a2 , . . . , ap ) unde ai sunt parametrii.
In cazul seriilor paralele (nu avem frecvente) se minimizeaza
functia
N
X
S(a1 , a2 , . . . , ap ) = [yi − f (xi , a1 , a2 , . . . , ap )]2 .
i=1

In cazul seriei bidimensionale data sub forma unui tablou de


corelatie, se minimizeaza functia
m X
X n
S(a1 , a2 , . . . , ap ) = [yi − f (xj , a1 , a2 , . . . , ap )]2 fij .
i=1 j=1

S-ar putea să vă placă și