Sunteți pe pagina 1din 20

BIOSTATISTICA

regresie - corelatie

Conf.dr. Lucian V. Boiculese


Regresia Liniară
Termenul de regresie a fost introdus de matematicianul Galton (1886).
Metoda constă în determinarea unei funcţii liniare f(x) = y = a + bx, care să
aproximeze calculul valorilor y prin valorile x.
Metoda de calcul pentru parametrii dreptei de regresie, constă în
definirea unei erori şi minimizarea acesteia.
Considerăm că avem două şiruri de date corespunzătoare variabilelor
aleatoare de interes X şi respectiv Y.
În tabelul următor sunt prezentate cele două şiruri: X: x1 x2 …. xn
Y: y1 y2 … yn

Dorim să determinăm parametrii a, b ce definesc dreapta de regresie:


f(x) = y = a + bx.
Pentru aceasta se foloseşte metoda celor mai mici pătrate, care constă în a
minimiza suma pătratelor erorilor dintre valorile yi (extrase din experiment) şi
valorile f(xi) calculate cu ajutorul formulei dreptei de regresie.
Se defineşte eroarea:  i  f ( xi )  y i  a  b  xi  y i
Unele valori ale erorii i sunt pozitive, altele sunt negative, dar eroare
există în toate cazurile când i  0. Pentru a nu pierde această informaţie se va
folosi pătratul erorii. Eroarea totală va fi formată din suma tuturor erorilor
determinate de cele n valori experimentale:
n n
      a  b  xi  yi 2
i
2

i 1 i 1
Eroarea totală trebuie minimizată în variabilele a şi b pentru a obţine o
aproximare cât mai corectă a valorilor lui y funcţie de x. Condiţia este ca
derivata funcţie de fiecare variabilă în parte să fie zero. Obţinem astfel sistemul
de ecuaţii:
 n
 
 a  b  x  y  2


i i n

a  0  i 1
 0  2   a  b  xi  yi   0
 a 
  n   ni 1 
 0   a  b  xi  yi 2 2   a  b  xi  yi xi  0
b  i 1  i 1
  0
b
n
n  X  Y   xi  y i
b i 1
n a  Y b X
n  X 2   xi2 Media variabilei x respectiv media
i 1 variabilei y definesc un punct de pe
linia de regresie!!

Era cumva de așteptat …..


Norul de puncte reprezentat grafic formează
diagrama REGRESIE
de LINIARĂ
dispersie.
5 f(x)=Y = a + bX
4.5 Y
y = 0,628x + 1.209
4
3.5
3 f(0)= a α
2.5 (xi,yi)
2 a tg(α)=b
1.5
a tg a = b = 0,628
1 , X=0 X
0 1 2 3 4 5 6
În concluzie s-au dedus parametrii dreptei: y = a + bx.
Parametrul a reprezintă intersecţia dreptei de regresie cu axa YY’. Dacă x=0
atunci y = a.
Parametrul b este panta dreptei. Dacă valoarea lui b este pozitivă atunci
dependenţa între cele două variabile aleatoare este direct proporţională. Astfel o
creştere a variabilei x va duce la o creştere a variabilei y. Dacă valoarea
parametrului b este negativă atunci dependenţa între cele două variabile aleatoare
este invers proporţională. Cazul în care nu există dependenţă între cele două
variabile x, respectiv y, se obţine pentru b=0. Oricât am modifica variabila x , y va
rămâne constant y = a.
Observaţie:
Atât a cât şi b sunt deduse din eşantioane, deci, la rândul lor, reprezintă
variabile aleatoare. Astfel se poate crea un interval de încredere pentru cele două
necunoscute a şi b.
Prin estimarea parametrilor a şi b se vor obţine pentru intervale simetrice valorile
limită: a  a0  a , respectiv b  b0  b .
Reprezentând grafic dreapta de regresie pentru cele 4 cazuri limită obţinem o
suprafaţă de regresie.
amin  a  a , amax  a  a .
bmin  tg a1   b  b , bmax  tg a 2   b  b .

Y y=a+bx
amax
a
amin

a X
Figura 2.10 2 - Reprezentarea grafică a suprafeţei de regresie.

În acest caz unei valori xi îi va corespunde un interval de valori


yi  Ymin , Ymax  . Pentru x=0 intervalul coincide cu (amin, amax). Acest interval este
datorat tocmai estimărilor parametrilor dreptei de regresie.
Interpretarea coeficienților dreptei de regresie
Coeficienții covariabilelor
Forma generală a dreptei de regresie pentru analiza multivariată (cu p
covariabile) este:
YA = f(x1,x2,…xp)=b0+b1*x1+b2*x2+…bi*xi+…+bp*xp (A)
Considerăm că avem o creștere de o unitate a covariabilei xi. Astfel noua
valoare va fi xi+1. Avem în continuare conform relației matematice:
YB = f(x1,x2,…xi+1,…xp)=b0+b1*x1+…+bi*(xi+1)+…+bp*xp (B)
Scădem din (B) pe (A):
YB-YA = f(x1,x2,…xi+1,…xp) - f(x1,x2,…xp)=bi*(xi+1)-bi*xi = bi
Această diferență a lui y este egală cu bi (dacă bi este negativ atunci y va
scădea). Avem o creștere/descreștere a lui y tocmai cu bi coeficientul
covariabilei modificate cu o unitate.

Tragem următoarea concluzie: În cadrul regresiei liniare coeficientul unei


covariabile reprezintă efectul asupra ieșirii (variabilei y) pentru o creștere
a covariabilei cu un punct (evident măsurat în unitatea de măsură stabilită)
și păstrarea constantă a valorilor celorlalte covariabile. Atenție nu
contează valoarea efectivă a celorlalte covariabile – contează să nu fie
modificate - indiferent de valoare.
Valoarea de un punct a covariabilei depinde de unitatea de măsură, poate fi :
un an, o lună , o zi, un gram , 1 Kg, 1 cm, 1 mmL etc.
Interpretarea coeficienților dreptei de regresie
Termenul liber

Acesta este notat cu b0. Iată repetăm forma generală a dreptei de regresie
pentru analiza multivariată (cu p covariabile) este:

Y=f(x1,x2,…xp)=b0+b1*x1+b2*x2+…bi*xi+…+bp*xp (A)

Dacă toate covariabilele X1, X2, …Xp au valoarea 0 deci x1=0, x2=0 ,,,xp=0
atunci f(0,0,…0)=b0. Practic b0 reprezintă ordonata de intersecție a dreptei –
sau intersecția dreptei cu axa YY`.
De multe ori în practica medicală acest coeficient b0 nu are sens. Iată de
exemplu să considerăm x1=greutatea, x2=IMC-ul, x3=TAS…. etc.
Pot fi aceste valori 0 ? Evident nu – nu există persoană cu greutate=0, IMC=0
…etc.

Pentru a avea o imagine reală se poate considera (dar nu obligatoriu)


pacientul ideal de greutate G=70 Kg, TAS=120 … etc. Apoi se raportează toate
celelalte valori la forma ideală. Astfel coeficientul b0 capătă sens deoarece
reprezintă ieșirea din sistem pentru pacientul ideal – practic s-a făcut o translare
a graficului din originea (0,0,0…) în noua origine (G=70Kg, TAS=120, …).
Corelaţie

Legătura dintre două variabile aleatoare în care una dintre ele variază
constant (sau controlat), iar cealaltă variază aleator a fost descrisă de forma
liniară a dreptei de regresie.
Corelaţia caracterizează legătura dintre două variabile aleatoare X şi Y cu
   
repartiţii normale N  x ,  x2 respectiv N  y ,  y2 .
REȚINEȚI
n

 x  x   y  y 
Corelația măsoară intensitatea
i i legăturii dintre două variabile
legăturii).
r i 1 aleatoare
Formula
(puterea
prezintă simetrie:
n n

 x  x    y  y 
2 2 r(x,y)=r(y,x) – comutativitate.
i i Regresia reprezintă un model
i 1 i 1 matematic – putem afla valoarea
Y funcție de covairabilele Xi.
 reprezintă coeficientul de corelaţie. Domeniul de variaţie este cuprins
între –1 şi 1,    1,  1 . Practic gradul de dependenţă dintre cele două
variabile aleatoare este definit de acest coeficient de corelaţie (se mai notează şi
cu ,,r”).
Dacă =0, atunci nu există dependenţă între cele două variabile aleatoare,
acestea sunt independente.
Observaţii:

 Dacă   0 atunci cele două variabile aleatoare sunt dependente


stocastic (aleator).

 Pentru >0, spunem că cele două variabile aleatoare sunt dependente


direct proporţional. Cu cât  se apropie de valoarea 1 cu atât
dependenţa este mai puternică.

 Dacă <0 atunci cele două variabile aleatoare variază invers


proporţional şi legătura este cu atât mai puternică cu cât coeficientul de
corelaţie este mai apropiat de valoarea –1. ρ=-1 avem anticorelație !
Graficele de mai jos exprimă o legătură puternică, respectiv slabă, între
două variabile aleatoare.

Y Y
Variabilitate
mare implică
corelație
mică !
X
X
Legătură puternică Legătură slabă

Figura 41 - Tipuri de legături între seturi de date.


Observaţii asupra regresiei liniare şi corelaţiei
Presupunem că avem două seturi de date X: x1, x2, … , xn respectiv Y: y1,
y2, …yn.
Calculând regresia y = f(x) = a + bx, obţinem anumite valori pentru
a 1
coeficienţii a şi b. Dacă extragem pe x funcţie de y avem: x    y (1).
b b
Calculând regresia x = g(y) = a’ +b’y (2) şi comparând cu relaţia (1) cele
două drepte pot sau nu coincide.
Deducerea coeficienţilor a,b, respectiv a’,b’, diferă substanţial deoarece în
primul caz s-a pus condiţia ca suma pătratelor erorilor pe direcţia oy să fie
minimă iar în al doilea caz condiţia a fost ca suma pătratelor erorilor pe ox să fie
minimă.
Corelaţia exprimă tocmai această asemănare dintre cele două drepte de
regresie.
Notăm cu A dreapta y=f(x), respectiv cu B dreapta x=g(y).
Dacă dreptele se suprapun atunci =1, iar dependenţa aleatoare devine
deterministă (unui punct pe x îi corespunde un singur punct pe y) şi dreptele de
regresie au alura primei bisectoare. Astfel, cunoscând pe x, putem determina pe
y cu o precizie bună funcţie de datele din eşantion.
Dacă  = -1 atunci dreptele se suprapun dar au forma bisectoarei a doua şi
dependenţa este invers proporţională. Şi în acest caz legătura este de tip
determinist.
În general dreptele pot sau nu să se apropie mai mult sau mai puţin
demonstrând dependenţa dintre date.
Prezentăm mai jos în patru grafice succesive cele relatate.
A,B
A B

 ,

Dependenţă deterministă Dependenţă stohastică


direct proporţională direct proporţională

A,B
A B
 ,

Dependenţă deterministă Dependenţă stohastică


invers proporţională invers proporţională

Figura 42 -Tipuri de dependenţe între regresie şi corelaţie.

Dacă valoarea coeficientului de corelaţie este 0 atunci cele două drepte fac
un unghi de 900, sunt perpendiculare.

Este normal ca legătura dintre cele două drepte să determine şi semnul


coeficientului de corelaţie. Dacă din y=f(x) obţinem o pantă negativă atunci tot
negativă va fi şi panta obţinută din calculul x=g(y) şi tot negativ va fi şi
coeficientul de corelaţie (evident legătura rămâne valabilă şi pentru cazul
pozitiv).
Exemple:

Diagrame de dispersie și corelațiile corespunzătoare.


http://en.wikipedia.org/wiki/File:Correlation_examples2.svg
Modele de regresie neliniară

În practica de zi cu zi se întâlnesc des cazuri în care legătura de tip liniar


dintre două variabile nu este satisfăcătoare şi reprezintă doar o latură particulară
a realităţii. Se impune astfel dezvoltarea de metode de deducere a legăturilor de
tip neliniar existente între variabila de intrare notată x (numită şi variabilă
independentă sau factor) şi variabila y (numită şi variabilă dependentă).
Prezentăm în continuare câteva modele neliniare de interes pentru
determinarea regresiei.
Modele parabolice
Parabola este exprimarea variabilei dependente faţă de variabila x la
puterea a doua, conţinând eventual termeni liberi şi eventual termen x la puterea
întâi.
Expresia matematică este: y = a + b  x + c  x2
Y
M
C>0

m
C<0
X

0
Modele hiperbolice

Există modele din cadrul fenomenelor reale biologice care pot lua o formă
hiperbolică.
b
Exprimarea matematică este: y  a  , pentru x > 0.
x
Graficul funcţiei depinde de semnul coeficientului b (ca şi în celelalte
cazuri). Pentru b < 0 avem dependenţă crescătoare, curba tinzând asimptotic la
valoarea a (y = a ) pentru x tinzând la infinit. Pentru b > 0 avem dependenţă
descrescătoare şi curba tinde asimptotic tot la valoarea a pentru x tinzând la
infinit.
Reprezentarea grafică a hiperbolei este realizată în figura următoare:
Y
b>0

b<0

X
0

Figura 44 – Regresii hiperbolice

Există mai multe modele hiperbolice, dintre care menţionăm:


1 1 axb
y ; y ; y
a bx b x
a
x
Legătura de tip exponenţial

Funcţia de tip exponenţial are forma matematică următoare:


y  a  e b x , cu x  , 
Pentru x = 0 se obţine y = a, iar toate curbele au un punct comun anume
A (0, a).
Pentru coeficient b > 0 se obţine o curbă crescătoare iar pentru coeficient b
< 0 se obţine o curbă descrescătoare.

b>0
b<0

A(o,a)

Figura 45 – Regresii de tip exponenţial


Analiză multivariabilă (regresie multiplă)

Legătura multiplă reprezintă o relaţie matematică în care există mai multe


variabile factoriale sau independente. Astfel variabila dependentă poate fi
exprimată matematic cu formula:
y  f ( xi )   , cu i având valori de la 1 la n (n reprezintă
numărul de variabile).
Sunt situaţii în care nu se cunosc care variabile să se ia în consideraţie în
cadrul regresiei multiple. Pentru a determina variabilele independente care au
efect important asupra variabilei rezultative (y) se calculează spre exemplu
coeficientul de corelaţie şi se aleg acele variabile ce corespund valorilor
maxime ale acestui coeficient. Există şi alte metode de analiză discriminantă
pentru alegerea variabilelor factoriale de interes. Această alegere are mare efect
asupra erorii sistemului, căci eliminând o parte din variabile aproximarea
sistemului este mai ,,grosolană” .
Funcţia f(xi) poate fi liniară, ceea ce reprezintă cazul cel mai simplu sau
poate depinde neliniar de variabilele de interes.
Ecuaţia în cadrul unei legături multiple liniare este de forma:
y = a0 + a1  x1 + a2  x2 + … + an  xn
Observație – asupra valorilor numerice ale coeficientului de corelație
respectiv pantei dreptei de regresie.
Coeficientul de corelație măsoară intensitatea relației liniare dintre două
variabile aleatoare – este o valoare standardizată între -1 și 1. Cu cât
variabilitatea datelor este mai mare cu atât acest coeficient va fi mai mic.
Panta dreptei de regresie măsoară în medie dependenţa ca model
matematic dintre variabila dependentă Y şi covariabilele Xi.
Dacă din modelul matematic rezultă o dependență direct proporțională deci
pantă pozitivă atunci sigur și corelația va fi pozitivă (și invers).
Nu putem afirma că o pantă mare atrage după sine un coeficient de corelație
mare (și reciproc pantă mică corelație mică – este fals !).
Iată un exemplu grafic:
Pantele dreptelor de
regresie sunt foarte apropiate:
b1=2.056 ; b2=2.003
- Diferă la a doua zecimală.

Coeficienții de corelație:
r1=0.781 ; r2=0.988
Diferențe mari !
Coeficienții de determinare:
(r1)^2=0.655 ;
(r2)^2=0.978.
Excel – funcții pentru calculul regresiei liniare și a corelației:

• Panta, b: =SLOPE(known_y's, known_x's)


• y-intercept, a: =INTERCEPT(known_y's, known_x's)
• Coeficientul de corelație, r: =CORREL(known_y's, known_x's)
• Corf. de determinare, r2: =RSQ(known_y's, known_x's)

EXAMPLES OF REGRESSION

- COMPUTING THE COEFFICIENTS


- PLOTTING THE DATA – REGRESSION LINE
- TESTING THE MODEL – P VALUE

S-ar putea să vă placă și