Sunteți pe pagina 1din 13

BIOSTATISTICA

regresie - corelatie
Conf.dr. Lucian V. Boiculese

Regresia Liniar
Termenul de regresie a fost introdus de matematicianul Galton. Metoda
const n determinarea unei funcii liniare f(x) = y = a + bx, care s aproximeze
calculul valorilor y prin valorile x.
Metoda de calcul pentru parametrii dreptei de regresie, const n
definirea unei erori i minimizarea acesteia.
Considerm c avem dou iruri de date corespunztoare variabilelor
aleatoare de interes X i respectiv Y.
X: x1 x2 . xn
n tabelul urmtor sunt prezentate cele dou iruri:

Y:

y1

y2

yn

n X Y xi y i
i 1
n

n X 2 xi2
i 1

a Y b X

n concluzie s-au dedus parametrii dreptei: y=a+bx.


Parametrul a reprezint intersecia dreptei de regresie cu axa YY. Dac x=0
atunci y = a.
Parametrul b este panta dreptei. Dac valoarea lui b este pozitiv atunci
dependena ntre cele dou variabile aleatoare este direct proporional. Astfel o
cretere a variabilei x va duce la o cretere a variabilei y. Dac valoarea parametrului
b este negativ atunci dependena ntre cele dou variabile aleatoare este invers
proporional. Cazul n care nu exist dependen ntre cele dou variabile x,
respectiv y, se obine pentru b=0. Orict am modifica variabila x , y va rmne
constant y = a.
Observaie:
Att a ct i b sunt deduse din eantioane, deci, la rndul lor, reprezint
variabile aleatoare. Astfel se poate crea un interval de ncredere pentru cele dou
necunoscute a i b.

Corelaie
Legtura dintre dou variabile aleatoare n care una dintre ele variaz
constant (sau controlat), iar cealalt variaz aleator a fost descris de forma
liniar a dreptei de regresie.
Corelaia caracterizeaz legtura dintre dou variabile aleatoare X i Y cu
repartiii normale N x , x2 respectiv N y , y2 .

x
i 1

x yi y

2
2

i x i y
n

i 1

Aceast formul de calcul poate fi aplicat doar n cazul a dou variabile


aleatoare repartizate normal.
reprezint coeficientul de corelaie. Domeniul de variaie este cuprins
ntre 1 i 1, 1, 1 . Practic gradul de dependen dintre cele dou
variabile aleatoare este definit de acest coeficient de corelaie (se mai noteaz i
cu ,,r).
Dac =0, atunci nu exist dependen ntre cele dou variabile aleatoare,
acestea sunt independente.

Observaii:
Dac 0 atunci cele dou variabile aleatoare sunt dependente
stocastic (aleator).
Pentru >0, spunem c cele dou variabile aleatoare sunt dependente
direct proporional. Cu ct se apropie de valoarea 1 cu att
dependena este mai puternic.
Dac <0 atunci cele dou variabile aleatoare variaz invers
proporional i legtura este cu att mai puternic cu ct coeficientul de
corelaie este mai apropiat de valoarea 1.
Graficele de mai jos exprim o legtur puternic, respectiv slab, ntre
dou variabile aleatoare.
Y

X
Legtur puternic

Legtur slab

Figura 41 - Tipuri de legturi ntre seturi de date.

Observaii asupra regresiei liniare i corelaiei


Presupunem c avem dou seturi de date X: x1, x2, , xn respectiv Y: y1,
y2, yn.
Calculnd regresia y = f(x) = a + bx, obinem anumite valori pentru
coeficienii a i b. Dac extragem pe x funcie de y avem: x

a 1
y (1).
b b

Calculnd regresia x = g(y) = a +by (2) i comparnd cu relaia (1) cele


dou drepte pot sau nu coincide.
Deducerea coeficienilor a,b, respectiv a,b, difer substanial deoarece n
primul caz s-a pus condiia ca suma ptratelor erorilor pe direcia oy s fie
minim iar n al doilea caz condiia a fost ca suma ptratelor erorilor pe ox s fie
minim.
Corelaia exprim tocmai aceast asemnare dintre cele dou drepte de
regresie.
Notm cu A dreapta y=f(x), respectiv cu B dreapta x=g(y).
Dac dreptele se suprapun atunci =1, iar dependena aleatoare devine
determinist (unui punct pe x i corespunde un singur punct pe y) i dreptele de
regresie au alura primei bisectoare. Astfel, cunoscnd pe x, putem determina pe
y cu o precizie bun funcie de datele din eantion.
Dac = -1 atunci dreptele se suprapun dar au forma bisectoarei a doua i
dependena este invers proporional. i n acest caz legtura este de tip
determinist.
n general dreptele pot sau nu s se apropie mai mult sau mai puin
demonstrnd dependena dintre date.
Prezentm mai jos n patru grafice succesive cele relatate.

A,B

Dependen determinist
direct proporional

Dependen stohastic
direct proporional

A,B
A

Dependen determinist
invers proporional

Dependen stohastic
invers proporional

Figura 42 -Tipuri de dependene ntre regresie i corelaie.


Dac valoarea coeficientului de corelaie este 0 atunci cele dou drepte fac
un unghi de 900, sunt perpendiculare.
Este normal ca legtura dintre cele dou drepte s determine i semnul
coeficientului de corelaie. Dac din y=f(x) obinem o pant negativ atunci tot
negativ va fi i panta obinut din calculul x=g(y) i tot negativ va fi i
coeficientul de corelaie (evident legtura rmne valabil i pentru cazul
pozitiv).

Modele de regresie neliniar


n practica de zi cu zi se ntlnesc des cazuri n care legtura de tip liniar
dintre dou variabile nu este satisfctoare i reprezint doar o latur particular
a realitii. Se impune astfel dezvoltarea de metode de deducere a legturilor de
tip neliniar existente ntre variabila de intrare notat x (numit i variabil
independent sau factor) i variabila y (numit i variabil dependent).
Prezentm n continuare cteva modele neliniare de interes pentru
determinarea regresiei.
Modele parabolice
Parabola este exprimarea variabilei dependente fa de variabila x la
puterea a doua, coninnd eventual termeni liberi i eventual termen x la puterea
nti.
Expresia matematic este: y = a + b x + c x2
Y

C>0

C<0

Modele hiperbolice
Exist modele din cadrul fenomenelor reale biologice care pot lua o form
hiperbolic.
Exprimarea matematic este: y a

b
, pentru x > 0.
x

Graficul funciei depinde de semnul coeficientului b (ca i n celelalte


cazuri). Pentru b < 0 avem dependen cresctoare, curba tinznd asimptotic la
valoarea a (y = a ) pentru x tinznd la infinit. Pentru b > 0 avem dependen
descresctoare i curba tinde asimptotic tot la valoarea a pentru x tinznd la
infinit.
Reprezentarea grafic a hiperbolei este realizat n figura urmtoare:
Y
b>0

a
b<0
X

Figura 44 Regresii hiperbolice


Exist mai multe modele hiperbolice, dintre care menionm:

1
a b x

1
a

b
x

axb
x

Legtura de tip exponenial


Funcia de tip exponenial are forma matematic urmtoare:

y a e b x ,

cu x ,

Pentru x = 0 se obine y = a, iar toate curbele au un punct comun anume


A (0, a).
Pentru coeficient b > 0 se obine o curb cresctoare iar pentru coeficient b
< 0 se obine o curb descresctoare.

Y
b>0

b<0
A(o,a)

X
0

Figura 45 Regresii de tip exponenial

Analiz multivariabil (regresie multipl)


Legtura multipl reprezint o relaie matematic n care exist mai multe
variabile factoriale sau independente. Astfel variabila dependent poate fi
exprimat matematic cu formula:
y f ( xi ) , cu i avnd valori de la 1 la n (n reprezint
numrul de variabile).
Sunt situaii n care nu se cunosc care variabile s se ia n consideraie n
cadrul regresiei multiple. Pentru a determina variabilele independente care au
efect important asupra variabilei rezultative (y) se calculeaz spre exemplu
coeficientul de corelaie i se aleg acele variabile ce corespund valorilor
maxime ale acestui coeficient. Exist i alte metode de analiz discriminant
pentru alegerea variabilelor factoriale de interes. Aceast alegere are mare efect
asupra erorii sistemului, cci eliminnd o parte din variabile aproximarea
sistemului este mai ,,grosolan .
Funcia f(xi) poate fi liniar, ceea ce reprezint cazul cel mai simplu sau
poate depinde neliniar de variabilele de interes.
Ecuaia n cadrul unei legturi multiple liniare este de forma:
y = a0 + a1 x1 + a2 x2 + + an xn