Sunteți pe pagina 1din 32

CORELAII SI REGRESII

LEGTURA NTRE MAI MULTE


VARIABILE

Tipuri de relaii
dou

sau mai multe variabile cantitative


dou variabile de ordine
dou variabile calitative
o variabil cantitativ cu o variabil
calitativ

Variabile cantitative
Varsta X: X1, X2,..., Xn
TAS Y: Y1, Y2,..., Yn.

1. S se stabileasc dac exist o legtur ntre


variabilele X i Y (cantitative continue) i s se
determine o modalitate de a msura intensitatea acestei
legturi.
Coeficientul de corelaie

2. S se stabileasc dac Y depinde de X i dac da n ce


form se realizeaz aceast dependen.
Funcia de regresie
3

Statistici descriptive in dou dimensiuni.


Diagrama de dispersie

Statistici descriptive in dou dimensiuni.


Diagrama de dispersie

*
*

*
*

*
*

*
*

*
*

*
*

*
*

* *

*
X
5

Statistici descriptive in dou dimensiuni.


Diagrama de dispersie

II

I
*
*

*
*

*
*

*
*

*
*

*
*

*
*

* *

III

IV
X
6

Statistici descriptive in dou dimensiuni.


Diagrama de dispersie

II
*

*
*
*

*
*

*
*

* *
*

*
*

III

* *
IV

X
7

Statistici descriptive in dou dimensiuni.


Diagrama de dispersie

II

*
*

*
*

*
*

*
*

* *

*
*

III

*
*

IV
X
8

Indici de corelaie.
Suma produselor ecart

Descrierea "intensitatii" relaiei dintre variabilele X


i Y:
(Xi,Yi) -n cadranele I sau III: ( X i X )(Yi Y ) 0
(Xi,Yi) -n cadranele II sau IV: ( X i X )(Yi Y ) 0
n

SPE ( X i X )(Yi Y )
i 1

SPE va fi cu att mai mare n valoare


absolut cu ct norul de puncte este
mai apropiat de o alur general
cresctoare (SPE > 0 ) sau
descresctoare (SPE < 0).
Dezavantaje: depinde de numrul de
puncte din seria statistic i de
unitile de msur ale variabilelor
9

Indici de corelaie.
Covariana

1 n
COV ( X , Y ) ( X i X )(Yi Y )
n i 1
Avantaje: mrime independent fa de volumul seriei
statistice.

10

Indici de corelaie.
Coeficientul de corelaie
Pentru a obine un indicator independent i de unitile de msur
ale celor dou variabile se utilizeaz coeficientul de corelaie sau
coeficientul Bravais-Pearson:

COV ( X , Y )
r
Sx Sy
SX i SY reprezint abaterile standard pentru seriile X i respectiv Y:
n

s2

2
(
X

X
)
i
i 1

n
11

r [-1, 1]
msoar intensitatea relaiei dintre variabilele X i Y
Dac r=1 punctele sunt situate pe o dreapt de
pant pozitiv (cresctoare).
Dac 0 < r < 1, norul de puncte poate fi nlocuit
(ajustat) printr-o dreapt de pant pozitiv .
Dispersia punctelor n jurul dreptei de regresie va fi
cu att mai mare cu ct r se apropie de 0 i cu
att mai mic cu ct r se apropie de 1.
Dac -1 < r < 0 atunci norul de puncte poate fi
aproximat cu o dreapt de pant negativ.
Dispersia punctelor fa de dreapt va fi cu att
mai mic cu ct r este mai apropiat de -1.
Dac r=-1 atunci toate punctele sunt situate pe o
dreapt de pant negativ.

12

35

60

60

30

50

50

40

40

30

30

20

20

25
20
15
10

r=0

r=1

10

10
0

0
0

60

60

50

50

40

40

30

30

20

20

r>0

10

r=-1

r<0

10
0

0
0

6
13

Semnificaia coeficientului de corelaie


Pearson poate fi evaluat dac valoarea
observat a aprut datorit ntmplrii
(dac este semnificativ diferit de zero).
Valorile critice ale lui r pot fi regsite n
anexe pentru n-2 grade de libertate n
cazul aplicrii testului unilateral sau
bilateral.
Interpretarea este c datele experimentale
nu ne permit enunarea existenei unei
relaii ntre variabilele luate n calcul

14

Coeficintul de corelaie -interpretare

Valoarea r

p > 0,05

p < 0,05

in (-0.25 ; 0,25)

corelaie slab sau


nul

corelaie slab sau


nul

in [0.25 ; 0.50) sau


in (-0.50 ; -0,25]

Nu are semnificatie
statistica

Grad de asociere
acceptabil

in [0.50 ; 0.75) sau


in (-0.75 ; -0,50]

Nu are semnificatie
statistica

O corelaie moderat
spre bun

>0.75 sau < -0,75

Nu are semnificatie
statistica

O foarte bun asociere


sau corelaie

>1 sau <-1

Eroare

Eroare
15

Atentie:
Variabilele corelate trebuie sa fie cantitative
Intre variabilele pentru care se calculeaza
corelatia trebuie sa existe o relatie de
cauzalitate

16

Coeficientul de corelaie-interpretare
Alura norului de puncte

r >0
O cretere a lui X determin o cretere a lui Y

(direct proporionale).

r<0
O cretere a lui X determin o diminuare a

lui Y (invers proporionale)

17

Indici de corelaie.
Coeficientul de determinare

d = r2

Reprezint partea din variaia total a lui Y explicat prin relaia


liniar existent ntre X i Y.

Cazuri particulare:

d=1: Dac toate punctele se afl pe o dreapt care nu e

paralel cu axa OX, orice variaie a lui Y este exprimat


prin relaia liniar.
d=0:
X i Y sunt independente, adic ntre cele dou
variabile nu exist o relaie liniar
Dac d este exprimat n procente: reprezint procentul n
care variaia lui Y este dat prin relaia liniar ntre cele dou
variabile.

18

Dou variabile ordinale


(sau o variabil ordinal i una cantitativ)
Coeficientul de corelaie al lui Spearman
Se procedeaza astfel:
i.
Se inlocuieste seria bivariata (x1,,xn;y1,,yn) cu seria
rangurilor (Rx1,Rxn;Ry1,,Ryn), valorilor xi si yi dupa
ordonarea lor in ordine crescatoare (pentru valorile
egale se ia media aritmetica a rangurilor).
ii.

Pentru determinarea coeficientului rs al lui Spearman se


calculeaza coeficientul de corelatie (Pearson) pentru
seria rangurilor.

19

Coeficientul de corelaie al lui Spearman

Coeficientul rs se mai poate calcula:


n

rs 1

6 d i

i 1

n(n 1)

, d i Rxi Ryi

20

Semnificaia coeficientului de corelaie


Spearman poate fi evaluat dac
valoarea observat a aprut datorit
ntmplrii (dac este semnificativ diferit
de zero).
Valorile critice ale lui r pot fi regsite n
anexe pentru n grade de libertate n cazul
aplicrii testului unilateral sau bilateral.
Pentru a fi semnificative, rs dect valorile
critice din tabel

21

Coeficientul de contingen al lui Ciuprov


Descrie gradul de asociere intre doua variabile calitative
avand p respectiv q valori observate pe un esantion de
dimensiune N (tablou de contingenta pxq, cu
oij=frecvente observate, tij frecvente teoretice):

T
N ( p 1)(q 1)

2
p
q
(oij tij )
2

tij
i 1 j 1
2

, unde

22

Drepte de regresie pentru variabile


cantitative continue

Dreapta de regresie Y(X):


y=a+bx

Dreapta de regresie X(Y):


x = c +dy

Dreapta de regresie a celor mai mici dreptunghiuri


y=e+fx.

23

Statistici descriptive in dou dimensiuni.


Drepte de regresie

Dreapta de regresie Y(X)


n

min
a, bR

2
(
a

bX

Y
)

i
i
i 1

Valorile lui a i b pentru care este atins minimul


sumei sunt date prin formulele:
b

COV( X, Y)
.
SX

a Y b X
24

Drepte de regresie

Dreapta de regresie X(Y)


n

min (c d Yi X i ) 2
c , d R

i 1

COV( X, Y)
SY

c Y d X
25

Drepte de regresie
Dreapta celor mai mici dreptunghiuri
y=e+fx.
Notnd cu

Yi e
Yi e f X i , X i
f , i=1,2,,n,
^

se determin e i f astfel nct suma:


n

i 1

( Xi Xi )( Yi Yi )

s fie minim (dup e i f n R).


Valorile lui e i f pentru care minimul este atins sunt urmtoarele:

SY
f sign (SPE )
SX

, e Yf X
.

26

Utilizarea funciilor de regresie


Extrapolare i interpolare
Cnd se determin valoarea funciei (adic a lui Y),

pentru un X cuprins intervalul [Xmin, Xmax], atunci se


efectueaz o operaie de interpolare, iar cnd X se afl
n afara intervalului se spune c este vorba de o
extrapolare.
Prezicerea lui Y pentru un X dat
Simulari

27

Funcia de regresie.
Schimbri de variabile

In unele cazuri se constat c relaia liniar


pare a nu fi adecvat pentru descrierea
dependenei dintre variabilele X i Y, sau c
scalele utilizate nu sunt cele mai potrivite.

28

**

* *
* *
*
* *
*
*
*

**

*
* *

*
*
*

29

Liniarizarea datelor
Din forma diagramei de dispersie s-ar putea deduce c o lege exponenial
ar fi mai potrivit pentru descrierea dependenei funcionale, adic o
relaie de forma:
Y = a ebX.
Aceasta, dup o logaritmare a ambilor membri, devine:
ln Y = ln a + b X
care justific schimbarea de variabil Y' = ln Y pentru liniarizarea
relaiei dintre cele dou variabile:
Y'=a'+ b'X
unde a'=ln a i b'=b.
30

Regresii multidimensionale
Fiind date variabilele:
Xi: Xi1,...,Xin , i=1,2,...,m
Y: Y1,..., Yn
se caut o relaie de forma:
Y = a + b1X1+...+bmXm,
unde coeficienii a si bi (i=1,...,m) se determin astfel
nct s minimizeze expresia:
n

(Y (a b X
i 1

1i

... b m X mi ))

2
.

31

Comparaia a
2 grupuri
distribuie
normal

teste
parametrice

Variabil
cantitativ
distribuie
non-normal
Variabil
ordinal

Variabil
dihotomial
Interval de
timp

teste
nonparametrice

Student (t)

Comparaia a
3 grupuri

Test F (ANOVA)

Corelaia a 2
variabile n
acelai grup

Corelaie
(coeficient Pearson)/
regresie

Corelaia a 2
variabile n
acelai grup

Corelaie
(coef. Spearman)

Comparaia a
2 grupuri

Mann-Whitney U,
Wilcoxon

Comparaia a
3 grupuri

Kruskall-Wallis

Hi ptrat
Fisher exact
Log rank

Regresie
linear
multipl

Regresie
logistic
Modelul
lui Cox