Sunteți pe pagina 1din 43

Regresia liniară şi corelaţia

Cuprins

 Introducere

 Covarianță, corelație, regresie

 Ecuaţia generală a dreptei de regresie

 Coeficientul de corelație liniară (coeficientul de corelație Pearson) și


coeficientul de determinare

 Calculul coeficienților dreptei de regresie

 Calculul coeficienților de corelație liniară și covarianță

 Reguli empirice pentru interpretarea coeficienților de corelație și covarianță

2
 Exemple de calcul
Introducere

 Sunt situaţii în care ne interesează să estimăm intensitatea legăturii dintre


două sau mai multe variabile, sau

 Să găsim o relaţie matematică care să exprime o variabilă în funcţie de


altele implicate în procesul studiat.

3
Introducere

 În ştiinţele experimentale şi în particular, în medicină şi biologie, un studiu


de interes este nu doar variaţia unui singur parametru, ci şi a doi parametri
cantitativi, despre care presupunem că se influenţează unul pe altul.

 De exemplu, dorim să ştim dacă există într-o grupă de subiecţi o relaţie


între greutate şi înălţime, între tensiunea arterială şi valoarea colesterolului,
etc.

 Această relaţie, de o natură particulară, se numeşte corelaţie statistică, şi


joacă un rol important în ştiinţele vieţii, şi în particular în medicină.

 Cel mai simplu caz de corelaţie este corelaţia liniară, unde una dintre
mărimi variază direct/invers proporţional cu alta, ambele mărimi fiind
numerice sau cantitative.

4
Introducere

 Pentru a se determina o expresie precisă (exactă) a influenţei pe care unul


dintre parametri o exercită asupra celuilalt, în cazul unei variaţii
proporţionale a acestora, statisticienii folosesc noţiunea de covarianţă.

 Astfel, pentru un eşantion selectat dintr-o populaţie dată, se calculează:


 mediile aritmetice ale celor doi parametri analizaţi, şi , precum şi
 abaterile de la medie ale valorilor individuale, şi .

 Variaţia proporţională a celor doi parametri x, y este exprimată, din punct


de vedere matematic, prin faptul că suma produselor abaterilor de la medie
ale celor doi parametri este un număr pozitiv:

5
Introducere

 Analog, variaţia invers proporţională a celor doi parametri x, y este


exprimată prin faptul că suma produselor abaterilor de la medie ale celor
doi parametri este un număr negativ:

 iar absenţa corelaţiei este exprimată prin faptul că această expresie este
egală sau tinde către 0:

6
Covarianța

 Pentru a se da o semnificaţie mai generală acestei sume, ea se raportează


la numărul de cazuri N, definindu-se astfel noţiunea de covarianţă, notată
prin :

 care poate fi folosită ca o măsură fidelă a gradului de corelaţie între doi


parametri cantitativi.

 Grafic, această dependenţă proporţională între două variabile este


caracterizată printr-o dreaptă, care se numeşte „dreaptă de regresie” şi, de
asemenea, poate fi definită precis din punct de vedere matematic.

7
Ecuația dreptei de regresie a lui y în raport cu x

 Ecuaţia generală a dreptei de regresie, cu notaţiile de mai sus, va fi:

 unde

 ax se numeşte coeficientul liniar de regresie a lui y în raport cu x, care


măsoară panta dreptei de regresie față de axa absciselor (axa orizontală
Ox).

 ax indică de câte ori, în medie, y este mai mare sau mai mic decât x.

 ax este pozitiv sau negativ, după cum dreapta are o pantă ascendentă sau
descendentă, de la stânga la dreapta.
8
Ecuația dreptei de regresie a lui x în raport cu y

 În mod simetric (schimbând x cu y şi y cu x), se defineşte dreapta de


regresie a lui x în raport cu y, care corespunde ecuaţiei:

 unde

 ay se numeşte coeficientul liniar de regresie a lui x în raport cu y, care


măsoară panta dreptei de regresie față de axa verticală Oy.

 ay indică de câte ori, în medie, x este mai mare sau mai mic decât y.

9
Coeficientul de determinare și coeficientul de corelație
liniară (coeficientul de corelație Pearson)

 Pe baza acestor doi coeficienţi liniari de regresie, a lui y în raport cu x,


respectiv a lui x în raport cu y, se defineşte produsul

(media geometrică a celor două pante de regresie);


 Parametrul 𝑟 2 se numeşte coeficientul de determinare.
 Parametrul 𝑟 se numeşte coeficientul corelaţiei liniare, sau coeficientul de
corelaţie Pearson.
 Formula de calcul a coeficientului de corelaţie liniară va fi:

10
Coeficientul de determinare și coeficientul de corelație
liniară (coeficientul de corelație Pearson)

 Coeficientul de corelaţie Pearson reprezintă măsura intensităţii legăturii


liniare între două variabile şi are valori cuprinse între -1 şi 1.

 Valorile apropiate de 0 indică absenţa corelaţiei între variabilele respective,


iar valorile apropiate de 1 sau de -1 indică prezenţa unei corelaţii puternice
între variabile.

 Valorile negative indică prezenţa unei corelaţii invers proporţionale (atunci


când valorile uneia dintre variabile cresc, valorile celeilalte variabile scad
corespunzător), iar valorile pozitive indică prezenţa unei corelaţii direct
proporţionale (atunci când valorile uneia dintre variabile cresc, valorile
celeilalte variabile cresc şi ele).

11
Reguli empirice pentru interpretarea coeficienților de
corelație

 Colton (1974) a indicat următoarele reguli empirice pentru interpretarea


coeficienţilor de corelaţie:

 Un coeficient de corelaţie între 0,00 şi 0,25, semnifică o corelaţie nulă


sau foarte slabă,
 Un coeficient de corelaţie între 0,25 şi 0,50 semnifică o corelaţie
acceptabilă,
 Un coeficient de corelaţie între 0,50 şi 0,75 semnifică o corelaţie
moderată spre bună,
 Un coeficient de corelaţie peste 0,75 semnifică o corelaţie foarte bună.

12
Aplicația 1

 Să se determine coeficienţii de corelaţie între Vârstă, Greutate şi Glicemie la


momentul 0, pentru a putea afla dacă vârsta sau greutatea influenţează în
vreun fel valorile Glicemiei.

 Una dintre condiţiile practice necesare pentru a putea calcula coeficienţii de


corelaţie este ca variabilele pentru care dorim să le calculăm să fie situate
în coloane învecinate – condiţie realizată în cazul tabelului nostru – altfel,
coloanele respective ar trebui copiate şi rearanjate separat.

13
Fereastra corespunzătoare calculului coeficienţilor de
corelaţie

14
Modul de prezentare a rezultatului corelației între cele 3
variabile

 Se generează de fapt Matricea Coeficienţilor de Corelaţie, ce conţine


coeficienţii de corelaţie Pearson între toate perechile posibile de variabile
selectate prin comandă.

 În cazul nostru, corelaţia între greutate şi vârstă este 0.3879, deci


pozitivă, acceptabilă, dar corelaţiile între glicemie şi vârstă (0.0697),
respectiv glicemie şi greutate (0.0660) sunt practic nule.

15
Aplicația 2

 Să se determine coeficienţii de covarianţă între Vârstă, Greutate şi Glicemie


la momentul 0, pentru a putea afla dacă vârsta sau greutatea influenţează
în vreun fel valorile Glicemiei.

 După cum am arătat, covarianţa este o măsură premergătoare calculului


coeficienţilor de corelaţie între două variabile, definită ca media produselor
deviaţiilor pentru fiecare pereche de puncte.
 Spre deosebire de coeficientul de corelaţie, valoarea coeficientului de
covarianţă nu aparţine unui interval fixat (dat) de valori, putând lua ca
valoare orice număr real.
 Covarianţa se foloseşte pentru a determina doar natura legăturii între cele
două variabile: valorile pozitive ale ei indică o legătură direct proporţională
între variabile, valorile negative indică o legătură invers proporţională, iar
valorile apropiate de 0 indică absenţa unei influenţe între cele două
variabile.
16
Fereastra corespunzătoare calculului covarianţei

17
Modul de prezentare a rezultatului covarianței între cele
3 variabile

 Între toate cele 3 variabile există o legătură direct proporţională, mai


accentuată între Greutate şi Vârstă (69.0012), şi foarte slabă între
Glicemie şi Vârstă (6.3772), respectiv Glicemie și Greutate (7.7596).

18
Regresia liniară

 Termenul de regresie a fost introdus de matematicianul Galton.

 Metoda constă în determinarea unei funcţii liniare (cea mai simplă formă de
dependenţă):

f(x) = y = a + bx ,

care să aproximeze calculul valorilor y prin valorile x


(y – variabila dependentă,
x – variabila independentă sau predictor).

 Atât x cât şi y sunt variabile de tip continuu.

19
Regresia liniară

 Metoda de calcul pentru parametrii dreptei de regresie (coeficienții a și b)


constă în definirea unei erori şi minimizarea acesteia.

 Considerăm că avem două şiruri de date corespunzătoare variabilelor


aleatoare de interes X şi respectiv, Y (caracterizate ca fiind distribuite
normal sau gaussian).

 În tabelul următor sunt prezentate cele două şiruri, notate X, respectiv Y,


fiecare având același număr de valori:

20
Regresia liniară

21
Regresia liniară

22
Regresia liniară

 Dorim să determinăm parametrii a şi b (coeficienții ecuației dreptei de


regresie) care definesc dreapta de regresie:

f(x) = y = a + bx

 Pentru aceasta se foloseşte metoda celor mai mici pătrate, care constă în a
minimiza suma pătratelor erorilor, adică a abaterilor dintre valorile yi
(extrase din experiment) şi valorile f(xi), calculate cu ajutorul formulei
dreptei de regresie.

 Se defineşte eroarea:

 i  f ( xi )  yi  a  bxi  yi
23
Regresia liniară

 Unele valori ale erorii i sunt pozitive, altele sunt negative, dar eroare
există în toate cazurile atunci când i  0.

 Pentru a nu pierde această informaţie se va folosi pătratul erorii.

 Eroarea totală va fi formată din suma tuturor erorilor determinate de cele n


valori experimentale:

n n
     a  b  x  y 
2 2
i i i
i 1 i 1

24
Regresia liniară

 Această sumă a pătratelor diferenţelor este pozitivă.

 Privind problema cu necunoscutele a respectiv b, funcţia eroare totală


definită anterior va admite un minim (fiind suma pătratelor, aceasta va fi
numai pozitivă) strict pozitiv sau chiar valoarea 0.

 Eroarea totală trebuie minimizată pentru a obţine o aproximare cât mai


corectă a valorilor lui y în funcţie de valorile lui x.

 Condiţia este ca derivata funcției “eroarea totală” în raport cu fiecare


variabilă în parte (a și b) să fie zero.

 Obţinem astfel sistemul de ecuaţii:


25
Regresia liniară

26
Regresia liniară

 n
 n   yi  b  xi 
 n  a   b  x  y   0  a  i 1  Y  b  X , (1)
 i 1
i i
n
n
 (a  xi  b  xi2  xi  yi )  0. (2)
i 1

27
Regresia liniară

 Înlocuim valoarea lui a din prima ecuaţie în a doua şi aflăm parametrul b.


[formula (3)]:

Y  b  X   xi  b   xi2   xi  yi
n n n
0
i 1 i 1 i 1

 Ne folosim de formula (4) de mai jos:

n
n  xi
i 1
 xi  n
n  X n
i 1 28
Regresia liniară

 Înlocuim (4) în (3) şi avem:


n n
Y n X bn X b 2 2
xi   xi  y i  0
i 1 i 1
 Extrăgând pe b obţinem [formula (5)]:

n
n  X  Y   xi  y i
i 1
b n
n  X 2   xi2
i 1 29
Regresia liniară

 Valoarea lui a se calculează conform celor demonstrate cu formula:

a  Y  bX (6)

 În concluzie, s-au dedus parametrii dreptei: y = a + bx.

30
Coeficienţii (parametrii) dreptei de regresie

 Parametrul a reprezintă intersecţia dreptei de regresie cu axa YY’.

 Dacă x=0 atunci y = a.

 Dacă avem mai multe cazuri cu x=0, atunci valoarea lui a va fi egală cu
media tuturor valorilor pentru care x este 0.

 Trebuie avut în vedere următorul aspect: nu în orice situaţie este posibilă şi


are sens această intersecţie cu axa YY’.

 De exemplu, pentru predictor X , reprezentând presiunea sistolică sau


temperatura corpului, valoarea 0 nu are interpretare în cazuri normale
(studiem pacienţii deci persoane în viaţă!).

31
Coeficienţii (parametrii) dreptei de regresie

 Parametrul b reprezintă panta dreptei (tangenta unghiului dintre dreaptă şi


axa orizontală).

 Dacă valoarea lui b este pozitivă, atunci dependenţa între cele două
variabile aleatoare este direct proporţională.

 Astfel, o creştere a valorii variabilei x va determina o creştere a valorii


variabilei y, respectiv o scădere a valorii variabilei x, va conduce la o
scădere a valorii variabilei y.

32
Coeficienţii (parametrii) dreptei de regresie

 Dacă valoarea parametrului b este negativă, atunci dependenţa între cele


două variabile aleatoare este invers proporţională.

 Variaţia într-un anume sens a variabilei x, va duce la o variaţie în sens


contrar a variabilei y.

 Cazul în care nu există dependenţă între cele două variabile x, respectiv y


se obţine pentru b=0.

 În acest caz, oricât am modifica variabila x, variabila y va păstra o valoare


constantă, y = a.

33
Semnificația pantei dreptei de regresie

 Panta dreptei reprezintă variaţia variabilei dependente y, pentru o creştere


sau descreştere a predictorului (x) cu o unitate.

 Avem ecuația dreptei de regresie: y = a + bx.

 Creştem valoarea lui x cu o unitate,

x  x 1
 Noul y va fi: y1 = a + b (x+1) = a + bx + b.

 Se observă că diferenţa dintre y şi y1 este egală cu b (panta dreptei de


regresie).

34
Corelaţia

Y Y

X
X

Legătură puternică Legătură slabă

35
Coeficientul de corelaţie

  x    yi   y 
n

 x i
 i 1

  x   y i   y 
n

 x
2 2
i
i 1

36
Corelaţia

A,B
A B

1
0,4

Dependenţă deterministă Dependenţă stohastică


direct proporţională direct proporţională

37
Corelaţia

A,B
A B

1 0,6

Dependenţă deterministă Dependenţă stohastică


invers proporţională invers proporţională

38
Regresie neliniară hiperbolică

1 1 axb
y , y , y
a b x a
b x
x

39
Regresie neliniară exponenţială

y  ae b x
, cu x  ,

40
Regresie neliniară exponenţială

b>0
b<0

A(0,a)

41
Regresie liniară multiplă (multivariată)

y = a0 + a1  x1 + a2  x2 + … + an  xn 

n
y  a0   a i  xi
i 1

42
Probleme discutate

 Covarianță, corelație, regresie

 Ecuaţia generală a dreptei de regresie

 Coeficientul de corelație liniară (coeficientul de corelație Pearson) și


coeficientul de determinare

 Calculul coeficienților dreptei de regresie

 Calculul coeficienților de corelație liniară și covarianță

 Reguli empirice pentru interpretarea coeficienților de corelație și


covarianță

 Exemple de calcul 43

S-ar putea să vă placă și