Sunteți pe pagina 1din 25

BIOSTATISTICĂ

REGRESIA LINIARĂ
CORELAȚIA PEARSON

Conf. Dr. Mihaela Moscalu


Conf. Dr. Lucian V. Boiculese
Termeni utilizați în definirea de asocieri, relații sau legături posibile între caracteristicile medicale:

- Relația existentă între înălțime și greutatea persoanei;

- Existența unei asocieri pozitive între consumul de țigări și riscul de a avea cancer de plămân;

- Relația sau legătura existentă între timpul alocat studiului și nota obținută;

- Corelația negativă existentă între vârstă și acuitatea vizuală;

- Relația pozitivă între consumul de dulciuri și nivelul de glucoză din sânge;

- Asocierea existentă între indicele de masă corporală și presiunea arterială sistolică exprimată prin regresia
liniară.
Regresia Liniară
Termenul de regresie a fost introdus de matematicianul Galton (1886). Metoda constă în determinarea
unei funcţii liniare f(x) = y_estimat = a + bx, care să aproximeze calculul valorilor y prin valorile x.
Metoda de calcul pentru parametrii dreptei de regresie, constă în definirea unei erori şi minimizarea
acesteia.
Considerăm că avem două şiruri de date corespunzătoare variabilelor aleatoare de interes X şi
respectiv Y.
În tabelul următor sunt prezentate cele două şiruri: X: x1 x2 …. xn
Y: y1 y2 … yn

Dorim să determinăm parametrii a, b ce definesc dreapta de regresie:


Pentru aceasta se foloseşte metoda celor mai mici pătrate, care constă în a minimiza suma
pătratelor erorilor dintre valorile yi (extrase din experiment) şi valorile f(xi) calculate cu ajutorul formulei dreptei
de regresie.
Se defineşte eroarea:  i  f ( xi )  y i  a  b  xi  y i

Unele valori ale erorii i sunt pozitive, altele sunt negative, dar eroare există în toate cazurile când i 
0. Pentru a nu pierde această informaţie se va folos pătratul erorii. Eroarea totală va fi formată din suma tuturor
n n
erorilor determinate de cele n valori experimentale:
    i   a  b  xi  y i 2
2

i 1 i 1
Această sumă a pătratelor diferenţelor este pozitivă. Astfel privind problema cu necunoscutele a
respectiv b, funcţia de gradul doi va admite un minim (fiind suma pătratelor va fi numai pozitivă). Eroarea totală
trebuie minimizată pentru a obţine o aproximare cât mai corectă a valorilor lui y funcţie de x. Condiţia este ca
derivata funcţie de fiecare variabilă în parte să fie zero. Obţinem astfel sistemul de ecuaţii:

 n
  a  b  xi  y i 2
 n

 a  0  i 1  0  2   a  b  xi  yi   0,
  a  i 1
   n   n 
 0   a  b  x  y 2 2   a  b  x  y x  0.
b  i 1 i i
 i 1 i i i
 0
 b
n
n  X  Y   xi  y i
b i 1
n a  Y b X
n X x2 2
i
i 1 Media variabilei x respectiv media variabilei y
definesc un punct de pe linia de regresie
REGRESIE LINIARĂ
5 f(x)=Yestimat = a + bX
4.5 Y
4 Norul de puncte
3.5 reprezentat grafic
α
3
formează diagrama de f(0)= a
2.5
(xi,yi) dispersie. tg(α)=b
2 a
1.5
a
1 tg α = b = 0,628
X=0 X
0 1 2 3 4 5 6

În concluzie s-au dedus parametrii dreptei: yestimat =f(x) = a + bx.


Parametrul a reprezintă intersecţia dreptei de regresie cu axa YY’. Dacă x=0 atunci f(0) = a.
Parametrul b este panta dreptei. Dacă valoarea lui b este pozitivă atunci dependenţa între cele două variabile
aleatoare este direct proporţională. Astfel o creştere a variabilei x va duce la o creştere a variabilei y. Dacă
valoarea parametrului b este negativă atunci dependenţa între cele două variabile aleatoare este invers
proporţională. Cazul în care nu există dependenţă între cele două variabile x, respectiv y, se obţine pentru b=0.
Oricât am modifica variabila x , f(x) va rămâne constant f(x) = a.
Observaţie:
Atât a cât şi b sunt deduse din eşantioane, deci, la rândul lor, reprezintă variabile aleatoare. Astfel se
poate crea un interval de încredere pentru cele două necunoscute a şi b.
Prin estimarea parametrilor a şi b se vor obţine pentru intervale simetrice valorile limită: 𝑎𝑚𝑎𝑥/𝑚𝑖𝑛 =
𝑎 ± ∆𝑎 respectiv 𝑏𝑚𝑎𝑥/𝑚𝑖𝑛 = 𝑏 ± ∆𝑏 .
Reprezentând grafic dreapta de regresie pentru cele 4 cazuri limită obţinem o suprafaţă de regresie.

În acest caz unei valori xi îi va corespunde un interval de valori 𝑦𝑖 ∈ 𝑦𝑚𝑖𝑛 , 𝑦𝑚𝑎𝑥 .


Pentru x=0 intervalul coincide cu (amin, amax). Acest interval este datorat tocmai estimărilor parametrilor
dreptei de regresie.
Există și alte metode de determinare a intervalului de confidență pentru dreapta de regresie.
Interpretarea coeficienților dreptei de regresie
Coeficienții covariabilelor
Forma generală a dreptei pentru o regresie multiplă (cu p covariabile) este:
YA = f(x1,x2,…xp)=b0+b1*x1+b2*x2+…bi*xi+…+bp*xp (A)
Considerăm că avem o creștere de o unitate a covariabilei xi. Astfel noua valoare va fi xi+1. Avem în
continuare conform relației matematice:
YB = f(x1,x2,…xi+1,…xp)=b0+b1*x1+…+bi*(xi+1)+…+bp*xp (B)
Scădem din (B) pe (A):
YB-YA = f(x1,x2,…xi+1,…xp) - f(x1,x2,…xp)=bi*(xi+1)-bi*xi = bi
Această diferență a lui y este egală cu bi (dacă bi este negativ atunci y va scădea). Avem o creștere a lui y
tocmai cu bi coeficientul covariabilei modificate cu o unitate.

Concluzie: În cadrul regresiei liniare coeficientul unei covariabile reprezintă efectul asupra ieșirii
(variabilei y) pentru o creștere a covariabilei cu un punct (evident măsurat în unitatea de măsură
stabilită) și păstrarea constantă a valorilor celorlalte covariabile. Atenție nu contează valoarea efectivă
a celorlalte covariabile – contează să nu fie modificate - indiferent de valoare.
Valoarea de un punct a covariabilei depinde de unitatea de măsură, poate fi : un an, o lună , o zi, un gram ,
1 Kg, 1 cm, 1 mmL etc.
Exemple de utilizare a pantei dreptei de regresie – ca efect asupra variabilei
dependente y.

Forma generală a dreptei de regresie: f(x)= a + b*x

Dacă x crește cu 1, atunci pe y valoare funcției va crește (ca efect) cu b:


f(x+1) - f(x) = b.

Dacă x crește cu 5, …………………………………………………………5*b.

Deci la modul general dacă x crește cu Δx, atunci …. …………………. Δx*b


Interpretarea coeficienților dreptei de regresie
Termenul liber

Acesta este notat cu b0. Iată repetăm forma generală a dreptei de regresie pentru un model cu p covariabile:

Y=f(x1,x2,…xp)=b0+b1*x1+b2*x2+…bi*xi+…+bp*xp (A)

Dacă toate covariabilele X1, X2, …Xp au valoarea 0 deci x1=0, x2=0 ,,,xp=0 atunci f(0,0,…0)=b0. Practic b0
reprezintă ordonata de intersecție a dreptei – sau intersecția dreptei cu axa YY`.
De multe ori în practica medicală acest coeficient b0 nu are sens. Iată de exemplu să considerăm
x1=greutatea, x2=IMC-ul, x3=TAS…. etc.
Pot fi aceste valori 0 ? Evident nu – nu există persoană cu greutate=0, IMC=0 …etc.

Pentru a avea valori reale ale coeficientului b0, se poate considera pacientul ideal de greutate G=70 Kg,
TAS=120 … etc. Apoi se raportează toate celelalte covariabile la forma ideală. Astfel coeficientul b0 capătă sens
deoarece reprezintă ieșirea din sistem pentru pacientul ideal – practic s-a făcut o translare a graficului din
originea (0,0,0…) în noua origine (G=70Kg, TAS=120, …).
Corelație
Legătura liniară dintre două variabile aleatoare repartizare normal a fost descrisă ca model matematic de
dreapta de regresie. În unele situații practice variabila X poate fi controlată, adică ia anumite valori prestabilite.
Corelația caracterizează intensitatea legăturii dintre cele două variabile aleatoare.
Vom descrie coeficientul de corelație Pearson – coeficient de corelația liniară.
Menționăm că cele două variabile aleatoare trebuie să fie distribuite normal.
Se notează cu r dacă este determinat din eșantioane respectiv ρ (Ro) dacă este perfect măsurat (reprezintă
valoarea calculată din populație).
n

 x  x    yi  y 
REȚINEȚI
i Corelația măsoară intensitatea legăturii dintre două
variabile aleatoare (puterea legăturii). Funcția este
r i 1
comutativă: r(x,y)=r(y,x) – comutativitate.
n n

 x  x    yi  y 
2 2 Regresia reprezintă un model matematic – putem
i afla valoarea Y funcție de covariabilele Xi.
i 1 i 1

Domeniul de variaţie este cuprins între –1 şi 1: 𝜌 ∈ [−1 , +1] .


Interpretare
1) - Dacă  =0 atunci cele două variabile aleatoare sunt independente, nu există relație liniară între acestea.
2) - Pentru >0 spunem că cele două variabile aleatoare sunt dependente direct proporţional (sau avem o
relație pozitivă). O creștere/descreștere a lui x va duce la o creștere/descreștere proporțională a lui y. Cu cât 
se apropie mai mult de valoarea 1 cu atât dependenţa este mai puternică.
3) - Dacă <0, atunci cele două variabile aleatoare variază invers proporţional (sau avem relație negativă sau
anticorelație). O creștere/descreștere a lui x va duce la o descreștere/creștere proporțională a lui y. Legătura
este cu atât mai puternică cu cât coeficientul de corelaţie este mai apropiat de valoarea –1.
4) – Coeficientul de determinare deci valoarea la pătrat a corelaţiei calculate, notat r2, exprimă proporția din
variaţia variabilei Y ce poate fi explicată de variaţia variabilei X. Poate fi interpretat și sens invers (este
comutativ): definește proporția din variaţia variabilei X ce poate fi explicată de variaţia variabilei Y. Relația
cauză-efect noi o stabilim.
Domeniu: 0 ≤ r2 ≤ 1
Variabilitate mare implică corelație mică !

Reamintim corelația este comutativă:


r (x, y) = r (y, x).
Rețineți formele dreptei de regresie în relație cu panta și coeficientul de corelație.

Regresia : f(x) = a + b·x


Corelația : r(x,y)

Y Y b<0 Y
b=0
r(x,y) < 0
r(x,y) = 0
b>0
r(x,y) > 0

X X X

Relație pozitivă Relație negativă Variabile


(direct proporțională) (invers proporțională) independente
Observaţii asupra regresiei liniare şi corelaţiei
Presupunem că avem două seturi de date X: x1, x2, … , xn respectiv Y: y1, y2, …yn.
Calculând regresia y = f(x) = a + bx obţinem anumite valori pentru coeficienţii a şi b. Dacă extragem pe x
funcţie de y avem: x = -a/b + 1/b·y (1)
Calculând regresia x = g(y) = a’ +b’y (2) şi comparând cu relaţia (1) cele două drepte pot sau nu coincide.
Deducerea coeficienţilor a,b, respectiv a’, b’ diferă substanţial deoarece în primul caz s-a pus condiţia ca
suma pătratelor erorilor pe direcţia OY să fie minimă iar în al doilea caz condiţia a fost ca suma pătratelor
erorilor pe OX să fie minimă.
Corelaţia exprimă tocmai această asemănare dintre cele două drepte de regresie.
Notăm cu A dreapta y=f(x), respectiv cu B dreapta x=g(y).
Dacă =1 atunci dreptele se suprapun, iar dependenţa aleatoare devine deterministă (unui punct pe x îi
corespunde un singur punct pe y) şi dreptele de regresie au alura primei bisectoare. Astfel, cunoscând pe x,
putem determina pe y cu o precizie bună în funcţie de datele din eşantion.
Dacă  = -1 atunci dreptele se suprapun dar au forma bisectoarei a doua iar dependenţa este invers
proporţională. Şi în acest caz legătura este de tip determinist.
În general dreptele pot sau nu să se apropie mai mult sau mai puţin demonstrând dependenţa datelor.
Prezentăm mai jos în patru grafice succesive cele relatate.
Dacă valoarea coeficientului de corelaţie este 0, atunci ne așteptăm ca cele două drepte să facă un unghi de
900 (sunt perpendiculare).
Este normal ca legătura dintre cele două drepte să determine şi semnul coeficientului de corelaţie. Dacă din
y=f(x) obţinem o pantă negativă atunci tot negativă va fi şi panta obţinută din calculul x=g(y) şi tot negativ va fi
şi coeficientul de corelaţie (evident legătura rămâne valabilă şi pentru cazul pantei pozitive).
Testarea modelului de regresie : f(x) =Yestimat = a + b·X

Putem testa coeficienții dreptei de regresie – în special panta ne interesează dacă este sau nu diferită de 0.
- condiții necesare pentru a aplica aparatul matematic: relația este de tip liniar, datele sunt alese aleatoriu,
termenul de eroare este normal distribuit de medie 0 și deviație standard constantă de-a lungul axei XX’.
Ipotezele de lucru:
H0: b = 0 , panta este nulă – deci nu avem relație.
H1: b ≠ 0 , panta este diferită de 0.
𝑏−0
Se calculează statistica discriminantă 𝑡 = 𝑆𝐸𝑏 , SEb este eroarea standard a coeficientului b. Este de fapt o
distribuție de tip t sau Student cu n-2 grade de libertate (n este volumul eșantionului).
𝑛 ∈
𝑖=1 𝑖
Formula pentru eroarea standard este : SEb = 𝑛−2
𝑛 𝑥 −𝑥 2
.
𝑖=1 𝑖

Se poate calcula în final nivelul de semnificație - dacă p ≤ 0.05 avem confirmarea statistică a diferenței față de
0 a pantei dreptei de regresie.
Există o metodă asemănătoare pentru testarea termenului liber (a) al regresiei.
Există și o variantă de testare a întregului model, bazată pe analiza varianței (numită ANOVA) poate fi
aplicată. Condiția este aceeași – pentru p ≤ 0.05 avem confirmarea statistică a utilității sistemului.
Exemple:

Diagrame de dispersie și corelațiile corespunzătoare.

http://en.wikipedia.org/wiki/File:Correlation_examples2.svg
MODELE NELINIARE DE REGRESIE
În practica de zi cu zi se întâlnesc des cazuri în care legătura de tip liniar dintre două variabile nu este
respectată şi reprezintă doar un aspect particular al realităţii. Se impune astfel dezvoltarea de metode de
deducere a legăturilor de tip neliniar existente între variabila de intrare notată x (numită şi variabilă
independentă sau factor) şi variabila y (numită şi variabilă dependentă).
Prezentăm în continuare câteva modele neliniare de interes pentru determinarea regresiei.

Modele parabolice
Parabola este exprimarea variabilei dependente
faţă de variabila x la puterea a doua, conţinând eventual un Y
termen liber şi eventual un termen x la puterea întâi. M
C>0
Expresia matematică este: y = a + b  x + c  x2 .
Funcţie de semnul parametrului de regresie c
parabola prezintă un punct de extrem. Dacă c > 0 parabola
prezintă un punct de minim notat cu ,,m” iar în cazul în care
m C<0
c < 0, punctul de extrem este un maxim notat cu ,,M”.
X
Calculul punctului de extrem este realizat din punct
de vedere matematic prin condiţia ca derivata întâi în raport 0
cu variabila x să fie egală cu zero.
Modele hiperbolice
Există modele în cadrul fenomenelor reale biologice care pot lua o formă hiperbolică. Exprimarea
matematică este: 𝒚 = 𝒂 + 𝒃/𝒙 , pentru x > 0.
Graficul funcţiei depinde de semnul coeficientului b (ca şi în celelalte cazuri). Pentru b < 0 avem
dependenţă crescătoare, curba tinzând asimptotic la valoarea a (y = a ) pentru x tinzând la infinit. Pentru b > 0
avem dependenţă descrescătoare şi curba tinde asimptotic tot la valoarea a pentru x tinzând la infinit.
Reprezentarea grafică a hiperbolei este realizată în figura următoare (pentru a pozitiv):

y=a+ b
x , pentru x > 0
Model exponenţial

Funcţia de tip exponenţial are forma matematică următoare: y  a  e b x , cu x  , 

Pentru x = 0 se obţine y = a, iar toate curbele au un punct comun anume A (0, a).
Pentru coeficient b > 0 se obţine o curbă crescătoare iar pentru coeficientul b < 0 se obţine o curbă
descrescătoare.

Am considerat în graficul alăturat a>0.

y = a · exp(b·x)
Analiza de regresie multiplă

Legătura multiplă reprezintă o relaţie matematică în care există mai multe variabile factoriale sau
independente (independent, explanatory variable or covariates). Astfel, variabila dependentă (sau răspuns)
poate fi exprimată matematic cu formula: 𝑦 = 𝑓 𝑥𝑖 + 𝜖 , cu i având valori de la 1 la n (n reprezintă numărul de
variabile), iar ε reprezintă eroarea.
Sunt situaţii în care nu se cunosc care variabile să se ia în consideraţie în cadrul regresiei multiple.
Pentru a determina variabilele independente care au efect important asupra variabilei rezultative (y) se
calculează spre exemplu coeficientul de corelaţie r(xi,y) şi se aleg apoi acele variabile ce corespund valorilor
maxime ale acestui coeficient. Există şi alte metode de analiză discriminantă pentru alegerea variabilelor
factoriale de interes. Această alegere are un efect important asupra erorii sistemului, căci eliminând o parte din
variabile, aproximarea sistemului este mai ,,grosolană” .
Funcţia f(xi) poate fi liniară, ceea ce reprezintă cazul cel mai simplu sau dimpotrivă, poate depinde
neliniar de variabilele de interes.
În cadrul unei legături multiple liniare ecuaţia este de forma: yestimat = a0 + a1  x1 + a2  x2 + … + an  xn
Fiecare coeficient ,,ai” reprezintă influenţa variabilei corespunzătoare xi, iar a0 (termenul liber)
reprezintă influenţa celorlalţi factori, care sunt consideraţi ca o acţiune constantă.
Dacă în coordonate bidimensionale regresia liniară este o dreaptă, în coordonate n-dimensionale
regresia liniară va reprezenta o suprafaţă multidimensională ce trece prin punctul valorilor medii ale variabilelor.
Observație – asupra valorilor numerice ale coeficientului de corelație respectiv pantei dreptei de regresie.
Coeficientul de corelație măsoară intensitatea relației liniare dintre două variabile aleatoare – este o valoare
standardizată între -1 și 1. Cu cât variabilitatea datelor este mai mare cu atât acest coeficient va fi mai mic.
Panta dreptei de regresie măsoară în medie dependenţa ca model matematic dintre variabila dependentă Y
şi covariabilele Xi.
Dacă din modelul matematic rezultă o dependență direct proporțională deci pantă pozitivă atunci sigur și
corelația va fi pozitivă (și invers).
Nu putem afirma că o pantă mare atrage după sine un coeficient de corelație mare (și reciproc pantă mică
corelație mică – este fals !).
Iată un exemplu grafic:
Pantele dreptelor de regresie sunt foarte apropiate:
b1=2.056 ; b2=2.003
- Diferă la a doua zecimală.
Coeficienții de corelație:
r1=0.809 ; r2=0.989
Diferențe mari !
Coeficienții de determinare:
(r1)^2=0.655 ;
(r2)^2=0.978.
Excel – funcții pentru calculul regresiei liniare și a corelației:

• Panta, b: =SLOPE(known_y's, known_x's)


• y-intercept, a: =INTERCEPT(known_y's, known_x's)
• Coeficientul de corelație, r: =CORREL(known_y's, known_x's)
• Corf. de determinare, r2: =RSQ(known_y's, known_x's)

Calcule în cadrul regresiei:

- Calcularea coeficienților
- Verificarea modelului prin teste statistice de ipoteză
Exemple de posibile întrebări de examen

• Ce reprezintă regresia, definiți regresia… R: este un model matematic: Yestimat = a + b*X


• Ce este corelația ? R: Corelația este măsura intensității dintre două variabile.
• Ce înțelegem prin relație direct proporțională ? R: Panta b>0 respectiv coef. corel. r>0.
• Prin ce metodă determinăm coeficienții dreptei de regresie ? R: metoda celor mai mici pătrate.
• Ce au în comun regresia și corelația ? R: Au același semn (ori ambele + ori ambele -)
• Cum interpretăm coeficientul variabilei X din modelul liniar de regresie ? Cum calculam efectul ; o creștere a lui x cu delta va
duce la o schimbare a lui y cu ….? R: delta*b
• Scrieți funcția liniară a dreptei de regresie. R: Yestimat = a + b*X
• Desenați o dreaptă de regresie ce să reprezinte o dependență direct proporțională… dar invers prop…
• Independența a două variabile X și Y cum se observă prin regresie ? Dar prin corelație ? R: panta este 0 ; corelația este 0
• Coeficientul de determinare se calculează cu formula …. R: corelația la pătrat
• Coeficientul de determinare variază între limitele …… R: [0,1]
• Coeficientul de corelație variază între limitele…. R: [-1, 1]
• Puteți desena două seturi de date (de tip XY) primul să exprime corelație slabă iar al doilea corelație puternică ?
• Notăm cu r corelația și cu V1 respectiv V2 cele două variabile aleatoare studiate. Este adevărată relația:r1(v1,v2)=r2(v2,v1) ?
Da este adevărată , este proprietatea de comutativitate.
• …………………………….etc.
Vă mulțumim !

S-ar putea să vă placă și