Regresia

Regresia liniară şi corelaţia
Cuprins
 Introducere
 Covarianță, corelație, regresie
 Ecuaţia generală a dreptei de regresie
 Coeficientul de corelație liniară (coeficientul de corelație Pearson) și

coeficientul de determinare
 Calculul coeficienților dreptei de regresie
 Calculul coeficienților de corelație liniară și covarianță
 Reguli empirice pentru interpretarea coeficienților de corelație și covarianță
2
 Exemple de calcul
Introducere
 Sunt situaţii în care ne interesează să estimăm intensitatea legăturii dintre

două sau mai multe variabile, sau
 Să găsim o relaţie matematică care să exprime o variabilă în funcţie de

altele implicate în procesul studiat.
3
Introducere
 În ştiinţele experimentale şi în particular, în medicină şi biologie, un studiu

de interes este nu doar variaţia unui singur parametru, ci şi a doi parametri
cantitativi, despre care presupunem că se influenţează unul pe altul.
 De exemplu, dorim să ştim dacă există într-o grupă de subiecţi o relaţie

între greutate şi înălţime, între tensiunea arterială şi valoarea colesterolului,
etc.
 Această relaţie, de o natură particulară, se numeşte corelaţie statistică, şi

joacă un rol important în ştiinţele vieţii, şi în particular în medicină.
 Cel mai simplu caz de corelaţie este corelaţia liniară, unde una dintre
mărimi variază direct/invers proporţional cu alta, ambele mărimi fiind
numerice sau cantitative.
4
Introducere
 Pentru a se determina o expresie precisă (exactă) a influenţei pe care unul

dintre parametri o exercită asupra celuilalt, în cazul unei variaţii
proporţionale a acestora, statisticienii folosesc noţiunea de covarianţă.
 Astfel, pentru un eşantion selectat dintr-o populaţie dată, se calculează:

 mediile aritmetice ale celor doi parametri analizaţi, şi , precum şi
 abaterile de la medie ale valorilor individuale, şi .
 Variaţia proporţională a celor doi parametri x, y este exprimată, din punct

de vedere matematic, prin faptul că suma produselor abaterilor de la medie
ale celor doi parametri este un număr pozitiv:
5
Introducere
 Analog, variaţia invers proporţională a celor doi parametri x, y este

exprimată prin faptul că suma produselor abaterilor de la medie ale celor
doi parametri este un număr negativ:
 iar absenţa corelaţiei este exprimată prin faptul că această expresie este
egală sau tinde către 0:
6
Covarianța
 Pentru a se da o semnificaţie mai generală acestei sume, ea se raportează

la numărul de cazuri N, definindu-se astfel noţiunea de covarianţă, notată
prin :
 care poate fi folosită ca o măsură fidelă a gradului de corelaţie între doi

parametri cantitativi.
 Grafic, această dependenţă proporţională între două variabile este

caracterizată printr-o dreaptă, care se numeşte „dreaptă de regresie” şi, de
asemenea, poate fi definită precis din punct de vedere matematic.
7
Ecuația dreptei de regresie a lui y în raport cu x
 Ecuaţia generală a dreptei de regresie, cu notaţiile de mai sus, va fi:
 unde
 ax se numeşte coeficientul liniar de regresie a lui y în raport cu x, care

măsoară panta dreptei de regresie față de axa absciselor (axa orizontală
Ox).
 ax indică de câte ori, în medie, y este mai mare sau mai mic decât x.
 ax este pozitiv sau negativ, după cum dreapta are o pantă ascendentă sau
descendentă, de la stânga la dreapta.
8
Ecuația dreptei de regresie a lui x în raport cu y
 În mod simetric (schimbând x cu y şi y cu x), se defineşte dreapta de

regresie a lui x în raport cu y, care corespunde ecuaţiei:
 unde
 ay se numeşte coeficientul liniar de regresie a lui x în raport cu y, care

măsoară panta dreptei de regresie față de axa verticală Oy.
 ay indică de câte ori, în medie, x este mai mare sau mai mic decât y.
9
Coeficientul de determinare și coeficientul de corelație
liniară (coeficientul de corelație Pearson)
 Pe baza acestor doi coeficienţi liniari de regresie, a lui y în raport cu x,

respectiv a lui x în raport cu y, se defineşte produsul
(media geometrică a celor două pante de regresie);

 Parametrul 𝑟 2 se numeşte coeficientul de determinare.
 Parametrul 𝑟 se numeşte coeficientul corelaţiei liniare, sau coeficientul de
corelaţie Pearson.
 Formula de calcul a coeficientului de corelaţie liniară va fi:
10
Coeficientul de determinare și coeficientul de corelație
liniară (coeficientul de corelație Pearson)
 Coeficientul de corelaţie Pearson reprezintă măsura intensităţii legăturii

liniare între două variabile şi are valori cuprinse între -1 şi 1.
 Valorile apropiate de 0 indică absenţa corelaţiei între variabilele respective,

iar valorile apropiate de 1 sau de -1 indică prezenţa unei corelaţii puternice
între variabile.
 Valorile negative indică prezenţa unei corelaţii invers proporţionale (atunci

când valorile uneia dintre variabile cresc, valorile celeilalte variabile scad
corespunzător), iar valorile pozitive indică prezenţa unei corelaţii direct
proporţionale (atunci când valorile uneia dintre variabile cresc, valorile
celeilalte variabile cresc şi ele).
11
Reguli empirice pentru interpretarea coeficienților de
corelație
 Colton (1974) a indicat următoarele reguli empirice pentru interpretarea

coeficienţilor de corelaţie:
 Un coeficient de corelaţie între 0,00 şi 0,25, semnifică o corelaţie nulă

sau foarte slabă,
 Un coeficient de corelaţie între 0,25 şi 0,50 semnifică o corelaţie
acceptabilă,
 Un coeficient de corelaţie între 0,50 şi 0,75 semnifică o corelaţie
moderată spre bună,
 Un coeficient de corelaţie peste 0,75 semnifică o corelaţie foarte bună.
12
Aplicația 1
 Să se determine coeficienţii de corelaţie între Vârstă, Greutate şi Glicemie la

momentul 0, pentru a putea afla dacă vârsta sau greutatea influenţează în
vreun fel valorile Glicemiei.
 Una dintre condiţiile practice necesare pentru a putea calcula coeficienţii de

corelaţie este ca variabilele pentru care dorim să le calculăm să fie situate
în coloane învecinate – condiţie realizată în cazul tabelului nostru – altfel,
coloanele respective ar trebui copiate şi rearanjate separat.
13
Fereastra corespunzătoare calculului coeficienţilor de
corelaţie
14
Modul de prezentare a rezultatului corelației între cele 3
variabile
 Se generează de fapt Matricea Coeficienţilor de Corelaţie, ce conţine

coeficienţii de corelaţie Pearson între toate perechile posibile de variabile
selectate prin comandă.
 În cazul nostru, corelaţia între greutate şi vârstă este 0.3879, deci

pozitivă, acceptabilă, dar corelaţiile între glicemie şi vârstă (0.0697),
respectiv glicemie şi greutate (0.0660) sunt practic nule.
15
Aplicația 2
 Să se determine coeficienţii de covarianţă între Vârstă, Greutate şi Glicemie

la momentul 0, pentru a putea afla dacă vârsta sau greutatea influenţează
în vreun fel valorile Glicemiei.
 După cum am arătat, covarianţa este o măsură premergătoare calculului

coeficienţilor de corelaţie între două variabile, definită ca media produselor
deviaţiilor pentru fiecare pereche de puncte.
 Spre deosebire de coeficientul de corelaţie, valoarea coeficientului de
covarianţă nu aparţine unui interval fixat (dat) de valori, putând lua ca
valoare orice număr real.
 Covarianţa se foloseşte pentru a determina doar natura legăturii între cele
două variabile: valorile pozitive ale ei indică o legătură direct proporţională
între variabile, valorile negative indică o legătură invers proporţională, iar
valorile apropiate de 0 indică absenţa unei influenţe între cele două
variabile.
16
Fereastra corespunzătoare calculului covarianţei
17
Modul de prezentare a rezultatului covarianței între cele
3 variabile
 Între toate cele 3 variabile există o legătură direct proporţională, mai

accentuată între Greutate şi Vârstă (69.0012), şi foarte slabă între
Glicemie şi Vârstă (6.3772), respectiv Glicemie și Greutate (7.7596).
18
Regresia liniară
 Termenul de regresie a fost introdus de matematicianul Galton.
 Metoda constă în determinarea unei funcţii liniare (cea mai simplă formă de
dependenţă):
f(x) = y = a + bx ,
care să aproximeze calculul valorilor y prin valorile x

(y – variabila dependentă,
x – variabila independentă sau predictor).
 Atât x cât şi y sunt variabile de tip continuu.
19
Regresia liniară
 Metoda de calcul pentru parametrii dreptei de regresie (coeficienții a și b)

constă în definirea unei erori şi minimizarea acesteia.
 Considerăm că avem două şiruri de date corespunzătoare variabilelor

aleatoare de interes X şi respectiv, Y (caracterizate ca fiind distribuite
normal sau gaussian).
 În tabelul următor sunt prezentate cele două şiruri, notate X, respectiv Y,

fiecare având același număr de valori:
20
Regresia liniară
21
Regresia liniară
22
Regresia liniară
 Dorim să determinăm parametrii a şi b (coeficienții ecuației dreptei de

regresie) care definesc dreapta de regresie:
f(x) = y = a + bx
 Pentru aceasta se foloseşte metoda celor mai mici pătrate, care constă în a
minimiza suma pătratelor erorilor, adică a abaterilor dintre valorile yi
(extrase din experiment) şi valorile f(xi), calculate cu ajutorul formulei
dreptei de regresie.
 Se defineşte eroarea:
 i  f ( xi )  yi  a  bxi  yi
23
Regresia liniară
 Unele valori ale erorii i sunt pozitive, altele sunt negative, dar eroare
există în toate cazurile atunci când i  0.
 Pentru a nu pierde această informaţie se va folosi pătratul erorii.
 Eroarea totală va fi formată din suma tuturor erorilor determinate de cele n

valori experimentale:
n n
     a  b  x  y 
2 2
i i i
i 1 i 1
24
Regresia liniară
 Această sumă a pătratelor diferenţelor este pozitivă.
 Privind problema cu necunoscutele a respectiv b, funcţia eroare totală

definită anterior va admite un minim (fiind suma pătratelor, aceasta va fi
numai pozitivă) strict pozitiv sau chiar valoarea 0.
 Eroarea totală trebuie minimizată pentru a obţine o aproximare cât mai

corectă a valorilor lui y în funcţie de valorile lui x.
 Condiţia este ca derivata funcției “eroarea totală” în raport cu fiecare

variabilă în parte (a și b) să fie zero.
 Obţinem astfel sistemul de ecuaţii:

25
Regresia liniară
26
Regresia liniară
 n
 n   yi  b  xi 
 n  a   b  x  y   0  a  i 1  Y  b  X , (1)
 i 1
i i
n
n
 (a  xi  b  xi2  xi  yi )  0. (2)
i 1
27
Regresia liniară
 Înlocuim valoarea lui a din prima ecuaţie în a doua şi aflăm parametrul b.

[formula (3)]:
Y  b  X   xi  b   xi2   xi  yi
n n n
0
i 1 i 1 i 1
 Ne folosim de formula (4) de mai jos:
n
n  xi
i 1
 xi  n
n  X n
i 1 28
Regresia liniară
 Înlocuim (4) în (3) şi avem:

n n
Y n X bn X b 2 2
xi   xi  y i  0
i 1 i 1
 Extrăgând pe b obţinem [formula (5)]:
n
n  X  Y   xi  y i
i 1
b n
n  X 2   xi2
i 1 29
Regresia liniară
 Valoarea lui a se calculează conform celor demonstrate cu formula:
a  Y  bX (6)
 În concluzie, s-au dedus parametrii dreptei: y = a + bx.
30
Coeficienţii (parametrii) dreptei de regresie
 Parametrul a reprezintă intersecţia dreptei de regresie cu axa YY’.
 Dacă x=0 atunci y = a.
 Dacă avem mai multe cazuri cu x=0, atunci valoarea lui a va fi egală cu
media tuturor valorilor pentru care x este 0.
 Trebuie avut în vedere următorul aspect: nu în orice situaţie este posibilă şi

are sens această intersecţie cu axa YY’.
 De exemplu, pentru predictor X , reprezentând presiunea sistolică sau

temperatura corpului, valoarea 0 nu are interpretare în cazuri normale
(studiem pacienţii deci persoane în viaţă!).
31
 Parametrul b reprezintă panta dreptei (tangenta unghiului dintre dreaptă şi

axa orizontală).
 Dacă valoarea lui b este pozitivă, atunci dependenţa între cele două
variabile aleatoare este direct proporţională.
 Astfel, o creştere a valorii variabilei x va determina o creştere a valorii

variabilei y, respectiv o scădere a valorii variabilei x, va conduce la o
scădere a valorii variabilei y.
32
 Dacă valoarea parametrului b este negativă, atunci dependenţa între cele

două variabile aleatoare este invers proporţională.
 Variaţia într-un anume sens a variabilei x, va duce la o variaţie în sens

contrar a variabilei y.
 Cazul în care nu există dependenţă între cele două variabile x, respectiv y

se obţine pentru b=0.
 În acest caz, oricât am modifica variabila x, variabila y va păstra o valoare

constantă, y = a.
33
Semnificația pantei dreptei de regresie
 Panta dreptei reprezintă variaţia variabilei dependente y, pentru o creştere

sau descreştere a predictorului (x) cu o unitate.
 Avem ecuația dreptei de regresie: y = a + bx.
 Creştem valoarea lui x cu o unitate,
x  x 1
 Noul y va fi: y1 = a + b (x+1) = a + bx + b.
 Se observă că diferenţa dintre y şi y1 este egală cu b (panta dreptei de

regresie).
34
Corelaţia
Y Y
X
X
Legătură puternică Legătură slabă
35
Coeficientul de corelaţie
  x    yi   y 
n
 x i
 i 1
  x   y i   y 
n
 x
2 2
i
i 1
36
Corelaţia
A,B
A B
1
0,4
Dependenţă deterministă Dependenţă stohastică

direct proporţională direct proporţională
37
Corelaţia
A,B
A B
1 0,6
Dependenţă deterministă Dependenţă stohastică

invers proporţională invers proporţională
38
Regresie neliniară hiperbolică
1 1 axb
y , y , y
a b x a
b x
x
39
Regresie neliniară exponenţială
y  ae b x
, cu x  ,
40
Regresie neliniară exponenţială
b>0
b<0
A(0,a)
41
Regresie liniară multiplă (multivariată)
y = a0 + a1  x1 + a2  x2 + … + an  xn 
n
y  a0   a i  xi
i 1
42
Probleme discutate
 Covarianță, corelație, regresie
 Ecuaţia generală a dreptei de regresie
 Coeficientul de corelație liniară (coeficientul de corelație Pearson) și

coeficientul de determinare
 Calculul coeficienților dreptei de regresie
 Calculul coeficienților de corelație liniară și covarianță
 Reguli empirice pentru interpretarea coeficienților de corelație și

covarianță
 Exemple de calcul 43

Regresia

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresia

Încărcat de

Drepturi de autor:

Formate disponibile

Regresia liniară şi corelaţia

 Covarianță, corelație, regresie

 Ecuaţia generală a dreptei de regresie

 Coeficientul de corelație liniară (coeficientul de corelație Pearson) și

 Calculul coeficienților dreptei de regresie

 Calculul coeficienților de corelație liniară și covarianță

 Reguli empirice pentru interpretarea coeficienților de corelație și covarianță

 Sunt situaţii în care ne interesează să estimăm intensitatea legăturii dintre

 Să găsim o relaţie matematică care să exprime o variabilă în funcţie de

 În ştiinţele experimentale şi în particular, în medicină şi biologie, un studiu

 De exemplu, dorim să ştim dacă există într-o grupă de subiecţi o relaţie

 Această relaţie, de o natură particulară, se numeşte corelaţie statistică, şi

 Pentru a se determina o expresie precisă (exactă) a influenţei pe care unul

 Astfel, pentru un eşantion selectat dintr-o populaţie dată, se calculează:

 Variaţia proporţională a celor doi parametri x, y este exprimată, din punct

 Analog, variaţia invers proporţională a celor doi parametri x, y este

 Pentru a se da o semnificaţie mai generală acestei sume, ea se raportează

 care poate fi folosită ca o măsură fidelă a gradului de corelaţie între doi

 Grafic, această dependenţă proporţională între două variabile este

 Ecuaţia generală a dreptei de regresie, cu notaţiile de mai sus, va fi:

 ax se numeşte coeficientul liniar de regresie a lui y în raport cu x, care

 În mod simetric (schimbând x cu y şi y cu x), se defineşte dreapta de

 ay se numeşte coeficientul liniar de regresie a lui x în raport cu y, care

 Pe baza acestor doi coeficienţi liniari de regresie, a lui y în raport cu x,

(media geometrică a celor două pante de regresie);

 Coeficientul de corelaţie Pearson reprezintă măsura intensităţii legăturii

 Valorile apropiate de 0 indică absenţa corelaţiei între variabilele respective,

 Valorile negative indică prezenţa unei corelaţii invers proporţionale (atunci

 Colton (1974) a indicat următoarele reguli empirice pentru interpretarea

 Un coeficient de corelaţie între 0,00 şi 0,25, semnifică o corelaţie nulă

 Să se determine coeficienţii de corelaţie între Vârstă, Greutate şi Glicemie la

 Una dintre condiţiile practice necesare pentru a putea calcula coeficienţii de

 Se generează de fapt Matricea Coeficienţilor de Corelaţie, ce conţine

 În cazul nostru, corelaţia între greutate şi vârstă este 0.3879, deci

 Să se determine coeficienţii de covarianţă între Vârstă, Greutate şi Glicemie

 După cum am arătat, covarianţa este o măsură premergătoare calculului

 Între toate cele 3 variabile există o legătură direct proporţională, mai

 Termenul de regresie a fost introdus de matematicianul Galton.

care să aproximeze calculul valorilor y prin valorile x

 Atât x cât şi y sunt variabile de tip continuu.

 Metoda de calcul pentru parametrii dreptei de regresie (coeficienții a și b)

 Considerăm că avem două şiruri de date corespunzătoare variabilelor

 În tabelul următor sunt prezentate cele două şiruri, notate X, respectiv Y,

 Dorim să determinăm parametrii a şi b (coeficienții ecuației dreptei de

 Pentru a nu pierde această informaţie se va folosi pătratul erorii.

 Eroarea totală va fi formată din suma tuturor erorilor determinate de cele n

 Această sumă a pătratelor diferenţelor este pozitivă.

 Privind problema cu necunoscutele a respectiv b, funcţia eroare totală

 Eroarea totală trebuie minimizată pentru a obţine o aproximare cât mai

 Condiţia este ca derivata funcției “eroarea totală” în raport cu fiecare

 Obţinem astfel sistemul de ecuaţii:

 Înlocuim valoarea lui a din prima ecuaţie în a doua şi aflăm parametrul b.

 Ne folosim de formula (4) de mai jos:

 Înlocuim (4) în (3) şi avem:

 Valoarea lui a se calculează conform celor demonstrate cu formula:

 În concluzie, s-au dedus parametrii dreptei: y = a + bx.

 Parametrul a reprezintă intersecţia dreptei de regresie cu axa YY’.

 Dacă x=0 atunci y = a.

 Trebuie avut în vedere următorul aspect: nu în orice situaţie este posibilă şi

 De exemplu, pentru predictor X , reprezentând presiunea sistolică sau

 Parametrul b reprezintă panta dreptei (tangenta unghiului dintre dreaptă şi

 Astfel, o creştere a valorii variabilei x va determina o creştere a valorii

 Dacă valoarea parametrului b este negativă, atunci dependenţa între cele

 Variaţia într-un anume sens a variabilei x, va duce la o variaţie în sens