Sunteți pe pagina 1din 7

1

CURS 11
Biostatistic
1. Corelaia statistic
n tiinele experimentale i, n particular, n medicin i
biologie, intereseaz nu numai variaia unei singure mrimi, ci i a
dou valori, adic a dou caractere cantitative, ntr-o populaie
statistic. De exemplu, dorim s tim dac exist ntr-o grup de
subieci o relaie ntre greutate i nlime, ntre tensiunea arterial i
mrimea umoral a unei substane, etc.
Pe plan matematic problema este rezolvat prin noiunea de
funcie, care traduce relaia ntre variaia celor dou mrimi, relaie
materializat prin curba sa reprezentativ: y = f(x). n acest caz, unei
valori date a variabilei independente x i corespunde o valoare i
numai una a variabilei dependente y, relaia y = f(x) permind
calcularea cu exactitate a acestei valori. O astfel de relaie fiind
stabilit, cunoaterea unei valori ne este suficient pentru
determinarea valorii corespondente. Acest tip de relaie, numit
relaie funcional, este cea care se ntlnete n aa-zisele tiine
exacte. Dar problema se complic atunci cnd valorile care se
studiaz (cea dependent i cea independent) sunt supuse
fluctuaiilor. Fluctuaiile se manifest nu numai pentru o singur
valoare dat, ci pentru toate variabilele distribuiei.
Exemplu:
ntr-un grup de subieci crora li s-a studiat nlimea i
greutatea, pentru o valoare dat a nlimii (de exemplu 1.70 m) se va
gsi seria tuturor subiecilor avnd aceeai nlime i diferind ntre ei
prin greutate. Invers, pentru o valoare dat a greutii se va gsi seria
subiecilor cu aceeai greutate, dar cu nlimi diferite. Nu se tie, i
se pune problema dac greutatea este funcie de nlime, sau invers.
Se constat c la o nlime mic corespunde o greutate mai
mic, i invers. Prin urmare, exist o relaie sigur ntre aceste dou
mrimi, dar mai puin rigid dect relaia funcional propriu-zis.
Aceast relaie, de o natur particular, se numete corelaie
statistic, i joac un rol important n tiinele vieii, i n particular n
medicin. Cel mai simplu caz de corelaie este corelaia liniar, unde
una dintre mrimi variaz proporional cu alta.

1. Diagrama de dispersie
Un prim mod de a aborda problema const n a folosi
reprezentarea grafic. Similar cu studiul unei funcie, se merge la un
sistem de axe rectangulare Ox i Oy, pe care se vor reprezenta
valorile a dou mrimi: x (nlimea) i y (greutatea). Fiecare individ
este reprezentat printr-o pereche (x, y). Ansamblul populaiei studiate
va fi reprezentat printr-un nor de puncte, care va constitui dispersia
populaiei studiate (figura 1).
6
5
4
y3
(x,y)

2
1
0
0

4
x

Figura 1: Dispersia unei populaii (norul de puncte)


O astfel de diagram, numit diagram de dispersie, permite deja o
aproximare a noiunii de corelaie: ntr-adevr, dac exist o
corelaie astfel nct, de exemplu, greutile mai mari s fie asociate
nlimilor mai mari, norul de puncte va avea o form alungit oblic
n sus i la dreapta (figura 2).
3,5

4,5
4
3,5

3
2,5

3
2,5

2
1,5

2
1,5
1

1
0,5

0,5
0

0
0

0,5

1,5

0,5

2,5

Figura 2: Corelaie pozitiv (direct)


negativ (invers)

Figura 3: Corelaie

6
5
4
y3
2
1
0
0

1,5
x

4
x

2,5

Figura 4: Corelaie zero


Dac, dimpotriv, se coreleaz valori mai mari ale uneia dintre
mrimi cu valori mai mici ale celeilalte, norul de puncte va avea un
aspect analog, dar dirijat n jos i la dreapta (figura 3). Atunci cnd
valorile nu se influeneaz reciproc, deci nu exist corelaie, norul de
puncte va avea un aspect uniform dispersat (de exemplu, nlimea
i glicemia ntr-un lot de persoane) figura 4. Absena corelaiei
indic independena caracterelor studiate.
2. Noiunea de covarian
Se consider o sub-populaie a unei populaii date, creia i
vom calcula:
- media x ;
- abaterea de la medie x x ;
- media y ;
- abaterea de la medie y y .
Dac exist o corelaie pozitiv ntre x i y, calculnd pentru
fiecare pereche de valori (x, y) produsul ( x x) ( y y ) 0 i fcnd
suma algebric a tuturor acestor produse, obinem c:
( x x)( y y ) 0 .
n cazul corelaiei negative, pentru fiecare pereche de valori (x, y)
produsul ( x x) ( y y ) 0 i fcnd suma algebric a acestor produse,
obinem c:
(x x) ( y y ) 0 .
Dac nu exist corelaie, urmnd un raionament analog:
( x x)( y y ) 0 .
Pentru a se da o semnificaie mai general acestei sume, o raportm
la numrul de cazuri N. Definim astfel noiunea de covarian, P:
P

Deoarece

( x x)
N

( x x)( y y ) .

N
( x x)( x x)

deviaia

standard

traduce dispersia statistic n cazul unei singure serii statistice.

2. Regresia liniar
Regresia este o metod de estimare a relaiei numerice
dintre variabile. Numele de regresie se datoreaz lui Galton
(1886), care a dezvoltat tehnicile de investigare a relaiei dintre
nlimea copiilor i a prinilor lor. n problemele de regresie, scopul
este s vedem ct de bine poate fi folosit o variabil pentru a o
prediciona pe cealalt.

Cnd studiem o serie statistic important, avem interesul s


grupm valorile n clase. Putem proceda la fel pentru distribuia
tuturor valorilor lui x. Prin urmare, se va decupa norul de puncte n
benzi verticale (figura 5). Vom nota toate valorile lui y care
corespund valorilor lui x din aceeai clas, i vom calcula valorile
medii pentru acest y.
Pentru fiecare band vertical a norului de puncte se obine
astfel un numr sigur de valori medii pentru y, numite punctele
mediane ale fiecrei clase. Unind aceste puncte obinem linia de
regresie, sau linia de estimare a lui y n x.
Se poate i, invers, s l estimm pe x n funcie de y. Pentru
aceasta, este suficient s plecm de la y i s partajm norul de
puncte n benzi orizontale, corespunztoare fiecreia dintre clasele
individualizate pe axa Oy (figura 6). Valorile medii ale lui x obinute
n fiecare dintre aceste benzi orizontale permit s definim o linie de
regresie a lui x n y, evident diferit de cea precedent.
0,9

0,7

0,8

0,6
0,5
y

0,7
0,6

y xi

0,4

0,3

0,5
0,4

yj

0,3
0,2

0,2

0,1

0,1
xi

0
0

0,2

0,4

0,6

xy j

0
0,8

Figura 5: Linia de regresie a lui y n x


lui x n y

0,2

0,4

0,6

0,8

Figura 6: Linia de regresie a

Liniile de regresie dau imaginea variaiilor mediilor unei


mrimi n funcie de alta. Ele exprim legea general, care
stabilete variaiile acestor dou mrimi, fiind echivalentul curbei
reprezentative a unei funcii. Ele permit ca, plecnd de la o mrime
variabil numit variabil de control, sau explicativ (care joac
rolul variabilei independente), s obinem informaii despre alt
variabil, numit variabil controlat, sau explicat (care joac rolul
variabilei dependente, sau al funciei).
Dreapta de regresie
Un caz interesant n practic este acela unde legea variaiilor
mediilor, reprezentat prin linia de regresie, este o lege liniar, adic
o mrime variaz proporional cu cealalt. n acest caz, linia de
regresie este o dreapt a crei liniaritate este mai puin mascat de
fluctuaiile de eantionaj. Dreapta obinut d cea mai bun estimare
a unei variabile funcie de alta.
Se arat c dreapta care corespunde acestor condiii are
ecuaia:
y y a x ( x x) ,

unde a x
-

( x x)( y y ) .
( x x)
2

Se definesc astfel coeficienii liniari de regresie:


ax : coeficientul liniar de regresie al lui y n x, care msoar panta
dreptei D pe orizontala Ox. Indic de cte ori n medie y este mai
mare sau mai mic dect x. Este pozitiv sau negativ dup cum
dreapta este ascendent sau descendent de la stnga la
dreapta.
ax

( x x)( y y )
( x x)
2

n mod simetric (schimbnd x cu y i y cu x) se definete


dreapta de regresie a lui x n y, care corespunde ecuaiei:
x x a y ( y y ) , cu coeficientul de regresie corespunztor ay. Prin
urmare, avem i:
- ay : coeficientul liniar de regresie al lui x n y, care msoar panta
dreptei D pe verticala Oy. Indic de cte ori x este mai mare sau mai
mic dect y.
ay

( y y)( x x)
( y y)
2

Formulele coeficienilor liniari de regresie arat c ei se pot


exprima la fel de bine i n funcie de covariana P:

( x x)( y y)
( x x)

( x x)( y y )

N
( x x) 2

P
x2

P
P
ax 2 , a y 2 .
x
y

3. Dreapta de regresie i corelaia liniar


Dreptele de regresie permit de a preciza mai mult noiunea de
corelaie liniar.
n cazul corelaiei perfecte corespunztor unei relaii funcionale unei valori date x i corespunde o valoare i numai una y i invers,
unei valori date y i corespunde o unic valoare a lui x, dreapta de
regresie a lui y funcie de x, Dy este identic cu dreapta de regresie a
lui x funcie de y, Dx; cele dou drepte Dx i Dy se suprapun ntr-o
unic linie, care exprim relaia direct de proporionalitate ntre
variaiile celor dou mrimi (figura 7).
Dac nu exist corelaie ntre variaiile celor dou mrimi,
valoarea medie a lui y va fi independent de valoarea lui x; aceast
valoare va fi aceeai pentru orice valori ale lui x, i prin urmare
dreapta Dy de regresie a lui y n x este paralel cu axa Ox. Analog,
valoarea medie a lui x este independent de valorile lui y, iar dreapta
Dx de regresie a lui x n funcie de y va fi paralel cu axa Oy; prin
urmare, cele dou drepte Dx i Dy sunt perpendiculare (figura 8).

ntre aceste dou extreme se situeaz cazul n care exist


corelaie; atunci exist dou drepte de regresie Dx i Dy care
formeaz ntre ele un unghi < 900 (figura 9). n consecin, dac se
parcurg toate valorile lui r, se observ c cele dou drepte de regresie
se rotesc n jurul originii sistemului de coordonate, M, apropiindu-se
una de cealalt, pn cnd se vor confunda (cazul corelaiei perfecte).
Convergena sau divergena acestor dou drepte d un
aspect vizual gradului de legtur ntre cele dou variabile, aceast
legtur fiind cu att mai strns cu ct cele dou drepte sunt mai
apropiate. Se va putea deci evalua cantitativ gradul de corelaie, cu
condiia de a gsi un parametru care s dea poziia celor dou drepte.
Se deduce c n parametru vor fi implicate pantele celor dou drepte.
y

D
Dx

Dx
Dy

Dy
M

Figura 7: Cazul corelaiei perfecte


corelaiei zero

Figura 8: Cazul

D
Dx
Dy
M

Figura 9: Cazul corelaiei uzuale


4. Coeficientul de corelaie liniar
2
Se utilizeaz ca parametru de corelaie produsul r a x a y
(media geometric a celor dou pante de regresie); acest parametru
se numete coeficientul corelaiei liniare. Formula de calcul a
coeficientului de corelaie liniar rezult din:
r 2 ax a y r 2

P P
P
2 r
2
x y
x y

Prin urmare, r reprezint covariana P atunci cnd cele dou serii de


variabile sunt raportate la abaterile tip, x i y. Formula sa de calcul
va fi:
r

x y

( x x)( y y)
N x y

Aceast formul permite s exprimm pantele ax i ay funcie


de r:
ax r

y
x

, ay r

x
.
y

Folosind aceste formule, este posibil s studiem natura


corelaiei:
- cnd nu exist corelaie: a x a y 0 r 0 ;
2
- cnd exist corelaie perfect: a x a y 1 r r 1 ; apar dou
situaii:
- r = + 1 : indic o corelaie perfect pozitiv (figura 10);
- r = 1 : indic o corelaie perfect negativ (figura 11).
Studiul parametrului r permite deci o evaluare cantitativ a
corelaiei.
y

D
D

Figura 10: Corelaie perfect pozitiv


perfect negativ

Figura 11:

Corelaie