Sunteți pe pagina 1din 14

BIOSTATISTICA

regresie - corelatie

Conf.dr. Lucian V. Boiculese


Regresia Liniară
Termenul de regresie a fost introdus de matematicianul Galton. Metoda
constă în determinarea unei funcţii liniare f(x) = y = a + bx, care să aproximeze
calculul valorilor y prin valorile x.
Metoda de calcul pentru parametrii dreptei de regresie, constă în
definirea unei erori şi minimizarea acesteia.
Considerăm că avem două şiruri de date corespunzătoare variabilelor
aleatoare de interes X şi respectiv Y.
În tabelul următor sunt prezentate cele două şiruri: X: x1 x2 …. xn
Y: y1 y2 … yn

Dorim să determinăm parametrii a, b ce definesc dreapta de regresie:


f(x) = y = a + bx.
Pentru aceasta se foloseşte metoda celor mai mici pătrate, care constă în a
minimiza suma pătratelor erorilor dintre valorile yi (extrase din experiment) şi
valorile f(xi) calculate cu ajutorul formulei dreptei de regresie.
Se defineşte eroarea:  i  f ( xi )  yi  a  b  xi  yi
Unele valori ale erorii i sunt pozitive, altele sunt negative, dar eroare
există în toate cazurile când i  0. Pentru a nu pierde această informaţie se va
folosi pătratul erorii. Eroarea totală va fi formată din suma tuturor erorilor
determinate de cele n valori experimentale:
n n
      a  b  xi  yi 2
i
2

i 1 i 1
Eroarea totală trebuie minimizată în variabilele a şi b pentru a obţine o
aproximare cât mai corectă a valorilor lui y funcţie de x. Condiţia este ca
derivata funcţie de fiecare variabilă în parte să fie zero. Obţinem astfel sistemul
de ecuaţii:
 n
 
 a  b  x  y  2


i i n

a  0  i 1
 0  2   a  b  xi  y i   0
 a 
   n   n
i 1

 0   a  b  xi  y i 2 2   a  b  xi  y i xi  0
b  i 1  i 1
  0
b
n
n  X  Y   xi  y i
b i 1
n a  Y b X
n  X 2   xi2
i 1
REGRESIE LINIARĂ
5
4.5
y = 0,628x + 1.209
4 Norul de puncte reprezentat
3.5 grafic formează diagrama de
3 dispersie.
2.5 (xi,yi)
2
1.5
a tg a = b = 0,628
1 ,
0 1 2 3 4 5 6
În concluzie s-au dedus parametrii dreptei: y = a + bx.
Parametrul a reprezintă intersecţia dreptei de regresie cu axa YY’. Dacă x=0
atunci y = a.
Parametrul b este panta dreptei. Dacă valoarea lui b este pozitivă atunci
dependenţa între cele două variabile aleatoare este direct proporţională. Astfel o
creştere a variabilei x va duce la o creştere a variabilei y. Dacă valoarea
parametrului b este negativă atunci dependenţa între cele două variabile aleatoare
este invers proporţională. Cazul în care nu există dependenţă între cele două
variabile x, respectiv y, se obţine pentru b=0. Oricât am modifica variabila x , y va
rămâne constant y = a.
Observaţie:
Atât a cât şi b sunt deduse din eşantioane, deci, la rândul lor, reprezintă
variabile aleatoare. Astfel se poate crea un interval de încredere pentru cele două
necunoscute a şi b.
Prin estimarea parametrilor a şi b se vor obţine pentru intervale simetrice valorile
limită: a  a0  a , respectiv b  b0  b .
Reprezentând grafic dreapta de regresie pentru cele 4 cazuri limită obţinem o
suprafaţă de regresie.
amin  a  a , amax  a  a .
bmin  tg a1   b  b , bmax  tg a 2   b  b .

Y y=a+bx
amax
a
amin

a X
Figura 2.10 2 - Reprezentarea grafică a suprafeţei de regresie.

În acest caz unei valori xi îi va corespunde un interval de valori


yi  Ymin , Ymax  . Pentru x=0 intervalul coincide cu (amin, amax). Acest interval este
datorat tocmai estimărilor parametrilor dreptei de regresie.
Corelaţie

Legătura dintre două variabile aleatoare în care una dintre ele variază
constant (sau controlat), iar cealaltă variază aleator a fost descrisă de forma
liniară a dreptei de regresie.
Corelaţia caracterizează legătura dintre două variabile aleatoare X şi Y cu
  
repartiţii normale N  x ,  x2 respectiv N  y ,  y2 . 
  x    yi   y 
n

 x i
 i 1

 
n

 i x i y
x    2
 y   2

i 1
Această formulă de calcul poate fi aplicată doar în cazul a două variabile
aleatoare repartizate normal.

 reprezintă coeficientul de corelaţie. Domeniul de variaţie este cuprins


între –1 şi 1,    1,  1 . Practic gradul de dependenţă dintre cele două
variabile aleatoare este definit de acest coeficient de corelaţie (se mai notează şi
cu ,,r”).
Dacă =0, atunci nu există dependenţă între cele două variabile aleatoare,
acestea sunt independente.
Observaţii:

 Dacă   0 atunci cele două variabile aleatoare sunt dependente


stocastic (aleator).

 Pentru >0, spunem că cele două variabile aleatoare sunt dependente


direct proporţional. Cu cât  se apropie de valoarea 1 cu atât
dependenţa este mai puternică.

 Dacă <0 atunci cele două variabile aleatoare variază invers


proporţional şi legătura este cu atât mai puternică cu cât coeficientul de
corelaţie este mai apropiat de valoarea –1.
Graficele de mai jos exprimă o legătură puternică, respectiv slabă, între
două variabile aleatoare.

Y Y

X
X
Legătură puternică Legătură slabă

Figura 41 - Tipuri de legături între seturi de date.


Observaţii asupra regresiei liniare şi corelaţiei
Presupunem că avem două seturi de date X: x 1, x2, … , xn respectiv Y: y1,
y2, …yn.
Calculând regresia y = f(x) = a + bx, obţinem anumite valori pentru
a 1
coeficienţii a şi b. Dacă extragem pe x funcţie de y avem: x    y (1).
b b
Calculând regresia x = g(y) = a’ +b’y (2) şi comparând cu relaţia (1) cele
două drepte pot sau nu coincide.
Deducerea coeficienţilor a,b, respectiv a’,b’, diferă substanţial deoarece în
primul caz s-a pus condiţia ca suma pătratelor erorilor pe direcţia oy să fie
minimă iar în al doilea caz condiţia a fost ca suma pătratelor erorilor pe ox să fie
minimă.
Corelaţia exprimă tocmai această asemănare dintre cele două drepte de
regresie.
Notăm cu A dreapta y=f(x), respectiv cu B dreapta x=g(y).
Dacă dreptele se suprapun atunci =1, iar dependenţa aleatoare devine
deterministă (unui punct pe x îi corespunde un singur punct pe y) şi dreptele de
regresie au alura primei bisectoare. Astfel, cunoscând pe x, putem determina pe
y cu o precizie bună funcţie de datele din eşantion.
Dacă  = -1 atunci dreptele se suprapun dar au forma bisectoarei a doua şi
dependenţa este invers proporţională. Şi în acest caz legătura este de tip
determinist.
În general dreptele pot sau nu să se apropie mai mult sau mai puţin
demonstrând dependenţa dintre date.
Prezentăm mai jos în patru grafice succesive cele relatate.
A,B
A B

 ,

Dependenţă deterministă Dependenţă stohastică


direct proporţională direct proporţională

A,B
A B
 ,

Dependenţă deterministă Dependenţă stohastică


invers proporţională invers proporţională

Figura 42 -Tipuri de dependenţe între regresie şi corelaţie.

Dacă valoarea coeficientului de corelaţie este 0 atunci cele două drepte fac
un unghi de 900, sunt perpendiculare.

Este normal ca legătura dintre cele două drepte să determine şi semnul


coeficientului de corelaţie. Dacă din y=f(x) obţinem o pantă negativă atunci tot
negativă va fi şi panta obţinută din calculul x=g(y) şi tot negativ va fi şi
coeficientul de corelaţie (evident legătura rămâne valabilă şi pentru cazul
pozitiv).
Exemple:

Diagrame de dispersie și corelațiile corespunzătoare.


http://en.wikipedia.org/wiki/File:Correlation_examples2.svg
Modele de regresie neliniară

În practica de zi cu zi se întâlnesc des cazuri în care legătura de tip liniar


dintre două variabile nu este satisfăcătoare şi reprezintă doar o latură particulară
a realităţii. Se impune astfel dezvoltarea de metode de deducere a legăturilor de
tip neliniar existente între variabila de intrare notată x (numită şi variabilă
independentă sau factor) şi variabila y (numită şi variabilă dependentă).
Prezentăm în continuare câteva modele neliniare de interes pentru
determinarea regresiei.
Modele parabolice
Parabola este exprimarea variabilei dependente faţă de variabila x la
puterea a doua, conţinând eventual termeni liberi şi eventual termen x la puterea
întâi.
Expresia matematică este: y = a + b  x + c  x2
Y
M
C>0

m
C<0
X

0
Modele hiperbolice

Există modele din cadrul fenomenelor reale biologice care pot lua o formă
hiperbolică.
b
Exprimarea matematică este: y  a  , pentru x > 0.
x
Graficul funcţiei depinde de semnul coeficientului b (ca şi în celelalte
cazuri). Pentru b < 0 avem dependenţă crescătoare, curba tinzând asimptotic la
valoarea a (y = a ) pentru x tinzând la infinit. Pentru b > 0 avem dependenţă
descrescătoare şi curba tinde asimptotic tot la valoarea a pentru x tinzând la
infinit.
Reprezentarea grafică a hiperbolei este realizată în figura următoare:
Y
b>0

b<0

X
0

Figura 44 – Regresii hiperbolice

Există mai multe modele hiperbolice, dintre care menţionăm:


1 1 axb
y ; y ; y
a b x b x
a
x
Legătura de tip exponenţial

Funcţia de tip exponenţial are forma matematică următoare:


y  a  e b x , cu x  , 
Pentru x = 0 se obţine y = a, iar toate curbele au un punct comun anume
A (0, a).
Pentru coeficient b > 0 se obţine o curbă crescătoare iar pentru coeficient b
< 0 se obţine o curbă descrescătoare.

b>0
b<0

A(o,a)

Figura 45 – Regresii de tip exponenţial


Analiză multivariabilă (regresie multiplă)

Legătura multiplă reprezintă o relaţie matematică în care există mai multe


variabile factoriale sau independente. Astfel variabila dependentă poate fi
exprimată matematic cu formula:
y  f ( xi )   , cu i având valori de la 1 la n (n reprezintă
numărul de variabile).
Sunt situaţii în care nu se cunosc care variabile să se ia în consideraţie în
cadrul regresiei multiple. Pentru a determina variabilele independente care au
efect important asupra variabilei rezultative (y) se calculează spre exemplu
coeficientul de corelaţie şi se aleg acele variabile ce corespund valorilor
maxime ale acestui coeficient. Există şi alte metode de analiză discriminantă
pentru alegerea variabilelor factoriale de interes. Această alegere are mare efect
asupra erorii sistemului, căci eliminând o parte din variabile aproximarea
sistemului este mai ,,grosolană” .
Funcţia f(xi) poate fi liniară, ceea ce reprezintă cazul cel mai simplu sau
poate depinde neliniar de variabilele de interes.
Ecuaţia în cadrul unei legături multiple liniare este de forma:
y = a0 + a1  x1 + a2  x2 + … + an  xn

S-ar putea să vă placă și