Sunteți pe pagina 1din 4

CORELAŢII ŞI REGRESII

Noţiuni introductive
În studiile statistice se folosesc mai multe serii statistice ce conţin observaţii pentru
două sau mai multe variabile. Unul din obiectivele studiilor statistice constă în punerea în
evidenţă a relaţiilor ce există între seriile statistice.
Dacă pentru un eşantion de n indivizi s-au măsurat două caracteristici obţinîndu-se
două serii de date statistice (variabile): X (x1, x2, ..., xn) şi Y (y1, y2, ..., yn) atunci stabilirea
unei relaţii între cele două serii are ca puncte de pornire:
1. Stabilirea existenţei unei legături între cele două variabile şi a modalităţilor de măsurare a
intensităţii acestei legături.
Exemple de variabile între care există legături:
- vârsta şi tensiunea arterială;
- colesterolul şi tensiunea arterială;
- vârsta şi masa corporală.
Legătura între două variabile se stabileşte semantic, intensitatea legăturii se măsoară
cu ajutorul unor indici de corelaţie.
2. Stabilirea existenţei unei dependenţe între cele două variabile, în acest caz una din variabile
este variabila independentă, cealaltă variabilă este dependentă de prima.
Exemplu de variabile între care există legături de dependenţă:
- greutatea corporală (independentă) şi cantitatea de substanţă activă a unui medicament
(dependentă).
Determinarea tipului de legătură de dependenţă presupune găsirea unei funcţii între
cele două variabile numită funcţie de regresie Y=f(X). Cea mai des utilizată funcţie este cea
liniară: f(X)=aX+b.
Diagrame de dispersie
Diagrama de dispersie pentru seriile de date a două variabile X (x1, x2, ..., xn) şi Y (y1,
y2, ..., yn) se obţine prin reprezentarea grafică într-un sistem de axe de coordonate a punctelor
(xi, yi) pentru i=1, 2 ... n.
Modul de plasare al punctelor (xi, yi) conduce către stabilirea unei relaţii între cele
două variabile. În acest sens, diagrama de dispersie se împarte în patru cadrane prin trasarea
de drepte perpendiculare pe axele de coordonate în punctul ( X, Y ) . Numerotarea cadranelor
se face în sensul invers acelor de ceas.

În funcţie de modul de plasare al majorităţii punctelor (xi, yi) (norul de puncte) în cele
patru cadrane putem avea două situaţii:
1. Majoritatea punctelor sunt plasate în cadranele I şi III sau II şi IV caz în care putem spune
că între cele două variabile există relaţie liniară.
2. Majoritatea punctelor sunt plasate relativ uniform în cele patru cadrane caz în care între
cele două variabile nu există o relaţie liniară.

Indici de corelaţie
Principalii indici de corelaţie ce strabilesc intensitatea legăturii între două variabile
sunt: suma produselor ecart, covarianţa, coeficientul de corelaţie, coeficientul de determinare.
A. Suma produselor ecart (SPE)
Dacă punctul histogramei (xi,yi) se află în cadranele I sau III atunci produsul ecart
( xi − X ) ⋅ ( y i − Y ) este pozitiv, dacă punctul se află în cadranele II sau IV atunci produsul este
negativ.
O măsură a intensităţii legăturii între variabilele X şi Y este suma produselor ecart:
n
SPE( X, Y ) = ∑ ( x i − X ) ⋅ ( y i − Y ) .
i =1
Cu cât SPE este mai mare în valoare absolută cu atât mulţimea punctele (xi, yi)
respectă o formă crescătoare (SPE>0) respectiv descrescătoare (SPE<0).
Dezavantajele sumei produselor ecart sunt:
- depinde de numărul de puncte;
- depinde de unităţile de măsură ale variabilelor.
B. Covarianţa (COV)
Un indice independent de numărul de puncte este covarianţa ce se exprimă prin
1 n
formula: COV( X, Y ) = ∑ ( x i − X ) ⋅ ( y i − Y ) .
n i =1
C. Coeficientul de corelaţie
Un indice independent atât de numărul de puncte cât şi de unităţile de măsură a
variabilelor este coeficientul de corelaţie sau coeficientul lui Bravais-Pearson ce se exprimă
COV( X, Y )
prin formula: R ( X, Y ) = , unde ASX, ASY sunt abaterile standard ale seriilor X
AS X ⋅ AS Y
respectiv Y.
Proprietăţile coeficientului de corelaţie sunt:
- cu cât tinde în valoare absolută către 1 cu atât intensitatea relaţiei liniare între cele două
variabile este mai mare;
- cu cât tinde în valoare absolută către 0 cu atât dispersia punctelor este mai mare deci
intensitatea relaţiei liniare între X şi Y este mică;
- dacă C>0 atunci în relaţia dintre X şi Y pentru o creştere a lui X determină o creştere a lui Y
(relaţie pozitivă);
- dacă C<0 atunci în relaţia dintre X şi Y pentru o creştere a lui X determină o descreştere a
lui Y (relaţie negativă);
- coeficienţii de corelaţie nu trebuie să fie interpretaţi fără examinarea diagramei de dispersie
pentru a se elimina situaţiile în care apar distribuţii sistematice ceea ce presupune existenţa
unei relaţii neliniare între X şi Y;
- există situaţii în care variaţia unei variabile este cauza variaţie celei de a doua variabile
(relaţie cauză-efect), în astfel de situaţii trebuie verificat dacă nu există o a treia variabilă de
care primele două sunt dependente.
Concluzii coeficient de corelaţie:
- are valori în intervalul [-1,1];
- dacă este 1 atunci punctele diagramei de dispersie sunt situate pe o dreaptă de pantă
crescătoare;
- dacă este -1 atunci punctele diagramei de sunt situate sunt situate pe o dreaptă de pantă
descrescătoare;
- dacă aparţine intervalului (0,1) norul de puncte (majoritatea punctelor) poate fi ajustat la o
dreaptă de pantă crescătoare (pozitivă);
- dacă aparţine intervalului (-1,0) norul de puncte poate fi ajustat la o dreaptă de pantă
descrescătoare (negativă);
D. Coeficientul de determinare
Coeficientul de determinare reprezintă partea din variaţia totală a lui Y explicată prin
relaţia liniară între X şi Y, se exprimă în procente prin formula: CD(X,Y)=C(X,Y)2.
Regresie
A. Dreapta de regresie Y(X)
Dreapta de regresie a variabilei Y în funcţie de variabila X este definită de ecuaţia:
Y=aX+b.
Coeficienţii a şi b sunt calculaţi astfel încât suma pătratelor abaterilor de la dreapta de
n
regresie să fie minimă min ∑ (ax i + b − y i )2 .
a ,b
i =1

COV( X, Y )
Coeficientul a se determină cu formula: a = .
AS X
Coeficientul b este ordonata la origine şi se determină cu formula: b = Y − a ⋅ X .
B. Dreapta de regresie X(Y)
Dreapta de regresie a variabilei X în funcţie de variabila Y este definită de ecuaţia:
X=cY+d.
Coeficienţii c şi d sunt calculaţi astfel încât suma pătratelor abaterilor de la dreapta de
n
regresie să fie minimă min ∑ (cy i + d − x i )2 .
c ,d
i =1
Coeficientul c este coeficientul unghiular sau panta al dreptei de regresie şi se
COV( X, Y )
determină cu formula: c = .
AS Y
Coeficientul d se determină cu formula: d = X − c ⋅ Y .
C. Dreapta celor mai mici dreptunghiuri
Dreapta de regresie a celor mai mici dreptunghiuri a variabilei Y în funcţie de
variabila X este definită de ecuaţia: Y=aX+b.
n
Coeficienţii a şi b se determină astfel încât suma ∑ (xi − x′i ) ⋅ (y i − y′i ) să fie minimă,
i =1

yi − a
unde y′i = b + fx i ; x′i = ; i = 1..n .
f
AS y
Coeficientul a se determină cu formula: a = sign(SPE ) ⋅ .
AS x
Coeficientul b se determină cu formula: b = Y − a ⋅ X .
D. Variaţia reziduală
Variaţia reziduală asociată dreptei de regresie este media aritmetică a pătratelor
abaterilor punctelor diagramei de dispersie de la dreapta de regresie, adică arată măsura
dispersiei norului de puncte faţă de dreapta de regresie.
1 n
Se calculează cu formula: S 2R = ∑ ( y i − y′i )2 , unde y′i = ax i + b .
n i =1
Concluzii regresie:
1. Atunci când coeficientul de regresie este mare în valoare absolută norul de puncte ale
diagramei de dispersie poate fi înlocuit cu o dreaptă de regresie, ceea ce va permite
exprimarea unei variabile în funcţie de cealaltă variabilă.
2. Se pot determina trei drepte de regresie:
- Y(X) dacă se ţine cont de abaterea pe ordonată;
- X(Y) dacă se ţine cont de abaterea pe abscisă;
- dreapta celor mai mici dreptunghiuri dacă se ţine cont de abaterile pe abscisă şi ordonată.
3. Cele trei drepte de regresie nu coincid, dreapta celor mai mici dreptunghiuri este cuprinsă
în unghiul ascuţit al celorlalte două.
4. Dacă valoare absolută a coeficientului de corelaţie este 1 atunci cele trei drepte coincid.
5. Dacă coeficientul de corelaţie este 0 atunci Y(X) este paralelă cu axa absciselor, X(Y) este
paralelă cu axa ordonatelor.
6. Analistul alege care din cele trei drepte este cea mai potrivită pentru tipul de relaţie dintre
cele două variabile.

S-ar putea să vă placă și