Sunteți pe pagina 1din 15

ANALIZA BIVARIATĂ A DATELOR.

CORELAŢIE ŞI REGRESIE

CURS 10
1. CORELAŢIA STATISTICĂ
- Studiul variaţiei a 2 mărimi cantitative într-o populaţie
statistică

MATEMATIC
• Noţiunea de FUNCŢIE: y = f(x)
• Cunoaşterea unei valori permite
calcularea cu exactitate a celeilalte.

STATISTIC
• Noţiunea de CORELAŢIE
STATISTICĂ
• CORELAŢIA LINIARĂ: una dintre
mărimi variază proporţional cu
cealaltă.
DIAGRAMA DE DISPERSIE
Se consideră un sistem de axe rectangulare Ox şi Oy, pe care se
vor reprezenta valorile celor două mărimi: x şi y. Fiecare individ
este reprezentat printr-o pereche (x, y). Ansamblul populaţiei
studiate va fi reprezentat printr-un NOR DE PUNCTE care va
constitui DISPERSIA POPULAŢIEI STUDIATE.

3
y
2
(x,y)

0
DIAGRAMA DE
1 2 3 4 5 6 7 DISPERSIE
x
4.5
4
3.5
3 Corelaţie
y
2.5 pozitivă (directă)
2
1.5
1
0.5
0
0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2
x

3.5 Corelaţie
3 negativă (inversă)
2.5

2 6
y
1.5 5

1
4
0.5
y 3
0
0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2
x

Corelaţie 0
zero 1 2 3
x
4 5 6 7
NOŢIUNEA DE COVARIANŢĂ
Fie o sub-populaţie a unei populaţii date:
- mediile x y
- abaterile de la medie xx y y
INTERPRETAREA CORELAŢIEI :
( x  x)  ( y  y )  0
Corelaţie pozitivă
între x şi y   ( x  x)( y  y)  0
( x  x)  ( y  y )  0
Corelaţie negativă
între x şi y   (x  x)  ( y  y)  0

Nu există corelaţie   ( x  x)( y  y)  0

P
 ( x  x)( y  y )
NOŢIUNEA DE COVARIANŢĂ: N
II. REGRESIA LINIARĂ
- Metodă de estimare a relaţiei numerice dintre 2 variabile.

GALTON (1886)
PROBLEMĂ: Cât de bine poate fi folosită o variabilă
pentru a o predicţiona pe cealaltă?

Se figurează norul de puncte în sistemul de coordonate xOy, şi


se grupează valorile celor 2 parametri x şi y în clase (se decupează
norul de puncte în benzi verticale / orizontale).
Se notează toate valorile lui y care corespund valorilor lui x din
aceeaşi clasă, şi se calculează valorile medii pentru acest y; unind
punctele corespunzătoare: LINIA DE ESTIMARE / REGRESIE A LUI Y
ÎN X.

Analog: LINIA DE ESTIMARE / REGRESIE A LUI X ÎN Y.


0.7
Linia de regresie a lui y în x
0.6

0.5

0.4
y
0.3 y xi

0.2

0.1
xi
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
x

0.9
Linia de regresie a lui x în y 0.8
0.7
Liniile de regresie dau imaginea 0.6

variaţiilor mediilor unei mărimi în funcţie 0.5


yj
y 0.4
de alta. Ele permit ca, plecând de la o 0.3
variabilă de control / explicativă 0.2
(variabilă independentă), să obţinem 0.1
x yj
informaţii despre altă variabilă, controlată 0
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
/ explicată (variabilă dependentă). x
DREAPTA DE REGRESIE
În cazul în care legea variaţiilor mediilor este o lege
liniară, (o mărime variază proporţional cu cealaltă), linia de
regresie se transformă într-o dreaptă - dă cea mai bună
estimare a unei variabile funcţie de alta.

ECUAŢIA DREPTEI DE REGRESIE


A LUI Y ÎN X:
 ( x  x)( y  y )
y  y  a x ( x  x) unde a x 
 ( x  x) 2

ECUAŢIA DREPTEI DE REGRESIE


A LUI X ÎN Y:

x  x  a y  ( y  y ) unde a y 
 ( y  y)( x  x)
 ( y  y) 2
ax : coeficientul liniar de regresie al lui y în x - măsoară panta
dreptei D pe orizontala Ox.
ay : coeficientul liniar de regresie al lui x în y, care măsoară
panta dreptei D pe verticala Oy.
Legătura între ax, ay şi
covarianţa P:
 ( x  x)( y  y)
 ( x  x)( y  y)  N 
P
 ( x  x) 2
 ( x  x ) 2
 x2
N
P P
 ax  2 , a y  2
x y
DREAPTA DE REGRESIE
ŞI CORELAŢIA LINIARĂ
y y’
D

Dx
Dy

y M x’

x x

Unei valori date x îi corespunde o valoare şi numai


una y şi invers (relaţie funcţională); cele două drepte
CORELAŢIE de regresie Dx şi Dy se suprapun într-o unică linie -
PERFECTĂ exprimă relaţia directă de proporţionalitate între
variaţiile celor două mărimi .
DREAPTA DE REGRESIE
ŞI CORELAŢIA LINIARĂ
y y’
D
Dx

Dy

y M x’

x x

Valoarea medie a lui y este independentă de valoarea


lui x; dreapta Dy de regresie a lui y în x este paralelă
cu axa Ox. Analog, valoarea medie a lui x este
CORELAŢIE independentă de valorile lui y - dreapta Dx de regresie
ZERO a lui x în funcţie de y va fi paralelă cu axa Oy; cele
două drepte Dx şi Dy sunt perpendiculare.
DREAPTA DE REGRESIE
ŞI CORELAŢIA LINIARĂ
y y’
D
Dx

Dy

y M x’

x x

Există două drepte de regresie Dx şi Dy care


formează între ele un unghi < 900; convergenţa /
divergenţa acestor două drepte dă un aspect vizual
CORELAŢIE gradului de legătură între cele două variabile –
NENULĂ legătura este cu atât mai strânsă cu cât cele două
drepte sunt mai apropiate.
2
COEFICIENTUL DE CORELAŢIE LINIARĂ: r  ax  a y

P P P
r 2  ax  ay  r 2    r 
 x2  y2  x  y

r
P

 ( x  x)( y  y)
 x  y N  x  y STUDIUL NATURII
y x CORELAŢIEI :
 ax  r  , ay  r 
x y
NU EXISTĂ ax  a y  0  r  0
CORELAŢIE

EXISTĂ
CORELAŢIE a x  a y  1  r 2  r  1
PERFECTĂ
•r = + 1 : corelaţie perfectă pozitivă;
•r =  1 : corelaţie perfectă negativă.
Parametrul r - evaluarea cantitativă a corelaţiei:
y y’ y y’
D
D

y M x’ y M x’

x x x x

• r = + 1 : Corelaţie perfectă • r =  1 : Corelaţie perfectă


pozitivă. negativă.
Vă mulţumesc pentru
prezenţa la acest curs, şi vă
urez SUCCES LA
EXAMEN!

S-ar putea să vă placă și