Sunteți pe pagina 1din 12

Biostatistic - Cursul al VII-lea

Corelaii i regresii
1. Noiunea de corelaie
Funcionarea organismul ca un tot unitar este condiionat de conlucrarea ntr-o armonie perfect a unei
miriade de factori, muli dintre ei nc necunoscui. Legturile dintre ei sunt de o complexitate ce ne scap
deocamdat n multe cazuri. Cunoaterea uman, cu toate progresele fcute, a reuit s dezvluie ceea ce am
putea numi vlul exterior al proceselor complexe din organism. Rmn de studiat corelaii pe care acum nici
nu le bnuim sau pe care le cunoatem doar superficial i trebuie s le aprofundm.
Pentru a explica noiunea de corelaie, vom exemplifica cteva legturi ntre parametri de macrosistem, adic
parametri ce caracterizeaz organismul n totalitatea lui sau sistemele mai importante din organism. Astfel,
tim cu toii c exist o corelaie ntre tensiunea arterial sistolic i cea diastolic. Ce nseamn acest fapt?
nseamn c tendina de cretere a tensiunii sistolice, este nsoit de o tendin de cretere i a tensiunii
diastolice, iar tendina de scdere a primeia este nsoit de o tendin de scdere a celei de-a doua.
Tot astfel, alte perechi de parametri manifest o comportare asemntoare: greutatea i nlimea, numrul de
eritrocite i hemoglobina, vitezele de sedimentare a hematiilor la o or i la dou ore, colesterolemia i
lipemia, etc. Trebuie subliniat c variaia concomitent a celor doi parametri se manifest numai ca tendin,
nu este o regul. Pot exista indivizi cu tensiunea sistolic foarte mare i cea diastolic normal sau invers,
indivizi cu tensiunea sistolic normal i cea diastolic sczut. Totui, majoritatea indivizilor manifest
tendina de a avea valori crescute sau sczute, pentru ambele concomitent.
Definiie:
Vom spune c doi parametri care au tendina de a crete sau descrete simultan sunt direct
corelai.
Aa cum a fost dat mai sus, noiunea de corelaie se refer la tendina de cretere sau descretere simultan a
doi parametri indiferent ct de puternic sau de slab este aceast tendin. Vom vedea mai departe c este
nevoie de o cuantificare a triei corelaiei ntre doi parametri, altfel discuiile nu pot fi nuanate i corelaia ar
fi o noiune prea puin util.
Pe de alt parte, exist cazuri n care doi parametri se coreleaz prin creterea unuia nsoit de o tendin de
descretere a celuilalt. Astfel, creterea concentraiei hormonului tiroidian T 4, este nsoit de o scdere a
frecvenei cardiace. Aceti doi parametri sunt un exemplu de corelaie invers.
Definiie:
Vom spune c doi parametri sunt corelai invers dac au tendina ca, odat cu creterea sau
descreterea unuia, cellalt s descreasc sau s creasc. (au tendin invers de variaie).
Trebuie fcute cteva observaii care s clarifice cele introduse mai sus i s evite o folosire abuziv a
termenului de corelaie:

Corelaiile le vom cuta pentru parametri care pot fi msurai cantitativ i deci sunt exprimai prin
numere.

Nu vom cuta corelaii, cel puin nu n sensul definiiei de mai sus ntre parametri calitativi care se
exprim prin simboluri nenumerice, adic care produc date nominale sau ordinale.

Tendina de corelaie o putem nelege n mai multe sensuri dintre care dou intereseaz mai mult domeniul
medicinii:

Biostatistic - Cursul al VII-lea

Tendina unui parametru de a se schimba de la pacient la pacient poate fi nsoit de tendina altui
parametru de a se schimba n acelai sens sau invers

Corelaii n sensul c un parametru variaz la acelai individ, de exemplu n timp, i variaia este
nsoit de o variaie corepunztoare a altui parametru, la acelai pacient

Exemple de situaii n care avem corelaie ntre doi parametri sunt redate n figurile 1, 2 i 3. n figura 1, sunt
reprezentate valorile bilirubinei totale i ale bilirubinei directe la 235 de pacieni cu ciroze hepatice i cancer
hepatic. Se observ o corelaie extrem de puternic, din forma norului de puncte care este extrem de alungit
i subire.

Figura 1 Valorile bilirubinei totale i ale bilirubinei directe la 235 de pacieni cu ciroze hepatice i cancer hepatic. Se
observ o corelaie extrem de puternic, din forma norului de puncte care este extrem de alungit i subire

n figura 2, sunt reprezentate valorile pentru hormonul tiroidian T4 i cele ale hormonului T3, la 9
pacieni cu hipertiroidie i 9 pacieni hipotiroidie. Valorile sunt puternic corelate, fapt care se observ
din forma norului dublu de puncte care se aliniaz de-a lungul unei linii aproape drepte.
Faptul c norul este ntrerupt nu are o relevan prea mare n acest caz, dar de multe ori are o
importan mare. La mijlocul norului de puncte lipsesc de fapt valorile normale. Pacienii pentru care
s-au fcut msurtorile, avnd diferite forme de tiroidii, valorile pentru cei doi hormoni sunt extreme.

Figura 2 Valorile pentru hormonul tiroidian T4 i cele ale hormonului T3, la 9 pacieni cu hipertiroidie i 9 pacieni
hipotiroidie. Valorile sunt puternic corelate, fapt care se observ din forma norului dublu de puncte care se aliniaz
de-a lungul unei linii aproape drepte.

Biostatistic - Cursul al VII-lea

n figura 3 este dat un alt exemplu de pereche de parametri care se coreleaz puternic: VSH la o or i VSH
la dou ore. Norul foarte alungit i subire, arat tendina de corelaie. Cele cteva puncte care sunt mult n
afar norului, trdeaz erori de introducere a datelor. Acest exemplu ne spune i c unele din valorile aberante
pot fi observate pe graficul de corelaie.

Figura 3 VSH la o or i VSH la dou ore. Norul foarte alungit i subire, arat tendina de corelaie

n figura 4 se observ c ntre valorile sodiului seric i potasiului seric ale pacienilor cu afeciuni hepatorenale nu exist nici o corelaie, deoarece datele sunt distribuite aproximativ ntmpltor. Nu se poate
observa o tendin clar ca punctele graficului s fie aezate ntr-un fel anume, n afar de tendina natural
ca densitatea s fie mai mare n mijloc, tendin care se poate observa n general, la majoritatea datelor n
medicin i biologie i nu numai. Pe de alt parte, tendina punctelor de a se aeza ntr-un singur nor, arat
omogenitatea seriei de valori.
Corelatia intre sodiul si potasiul seric la pacientii cu
afectiuni hepato-renale
5.0

K seric

4.5
4.0
3.5
3.0
120

125

130

135

140

145

150

Na seric

Figura 4 Valorile sodiului seric i potasiului seric la 235 de pacieni cu afeciuni hepato-renale. Nu exist corelaie,
deoarece punctele norului sunt distribuite ntmpltor.

n ce privete graficul punctual (SCATTER), se va urmri totdeauna trei tipuri diferite de


informaie pe care acesta ni le poate oferi:
dac cele dou serii de valori sunt corelate (Corelaia).
dac eantionul pe care s-au fcut msurtorile este omogen sau este eterogen (Omogenitatea).
anumite informaii despre simetria distribuiei celor dou serii de valori (Simetria).
Exemple:
n graficul din figura 4 se observ c ntre valorile sodiului seric i potasiului seric ale pacienilor cu
afeciuni hepato-renale nu exist nici o corelaie, deoarece datele sunt distribuite aproximativ ntmpltor. Nu
3

Biostatistic - Cursul al VII-lea

se poate observa o tendin clar ca punctele graficului s fie aezate ntr-un fel anume, n afar de tendina
natural ca densitatea s fie mai mare n mijloc, tendin care se poate observa n general, la majoritatea
datelor n medicin i biologie i nu numai. Pe de alt parte, tendina punctelor de a se aeza ntr-un singur
nor, arat omogenitatea seriei de valori.
n graficul din figura 1, se observ c ntre valorile bilirubinei totale i bilirubinei directe ale pacienilor cu
ciroze i cancere hepatice exist o corelaie puternic, deoarece datele sunt distribuite aproximativ de-a
lungul unei linii drepte. De asemeni, eantionul este omogen, ca i n cazul graficului 1, lucru care se observ
din faptul c norul de puncte nu are tendina de a se divide n doi nori diferii.
Pe de alt parte se vede c norul este mult mai dens n stnga jos. Deci, valorile din seria bilirubinei totale
(orizontal), sunt distribuite asimetric (valori mai multe n stnga = asimetrie dreapta). La fel, valorile din
seria bilirubinei directe (vertical), sunt mai dense jos, la valori mici, deci sunt distribuite tot asimetric
(asimetrie dreapta).
n figura 2, se observ c ntre valorile hormonilor tiroidieni T4 i T3 ale pacienilor cu diferite forme de
tiroidism exist o corelaie datele fiind distribuite tot de-a lungul unei linii, chiar dac este discontinu. De
asemeni, se observ c distribuia lor este grupat: o grup cu valori mici pentru cei doi hormoni indicnd
hipotiroidienii i o grup cu valori mari pentru cei doi hormoni indicnd hipertiroidienii, adic o tendin
clar de separare n doi nori diferii. Spunem n acest caz c eantionul este eterogen sau neomogen.
La fiecare grafic de acest tip este bine s fie urmrite cele trei tipuri de informaie pe care poate s ni le ofere
(Corelaie, Omogenitate i Simetrie). Unele ne dau o informaie mai util privind corelaia, altele ne
informeaz mai bine n ce privete omogenitatea sau simetria, deci nu totdeauna se pot obine dintr-un singur
grafic toate cele trei tipuri de informaie la fel de uor. Aprecierile sunt totdeauna subiective i depind de
deprinderile pe care utilizatorul i le-a format lucrnd cu ct mai muote i mai variate exemple.

2. Coeficientul de corelaie PEARSON


Este evident c o exprimare a tendinei de corelaie astfel nct s surprindem tria corelaiei este foarte util.
De-a lungul timpului au fost propuse mai multe metode de msurare a tendinei de corelaie, dintre ele cele
mai utile s-au dovedit acelea care propun coeficieni ce in cont de toate valorile pe care le avem la
dispoziie.
Coeficientul de corelaie PEARSON este de departe cel mai utilizat n exprimarea triei corelaiei ntre doi
parametri numerici.
Anume, fie X x1 , x 2 ,.......x n i Y y1 , y 2 ,....... y n , valorile msurate pentru cei doi parametri i fie
X , Y , mediile de eantionare respective. Atunci coeficientul de corelaiile al parametrilor exprimai de
seriile statistice X i Y va fi:
n

x X y
i 1

x X
i 1

y
i 1

Aceast formul, care la prima vedere pare foarte complicat, ne ofer n realitate ntr-un mod relativ simplu,
o valoare numeric care, se va vedea mai jos, apreciaz foarte obiectiv situaia de fapt n ceea ce privete
corelaia.
Pentru a nelege cum funcioneaz formula de mai sus s lum un exemplu: tensiunile arteriale sistolic i
diastolic msurate la 10 pacieni sunt urmtoarele:

Tensiunea sistolic TMAX: 170, 160, 160, 150, 150, 170, 160, 180, 150, 150.

Tensiunea diastolic TMIN: 85, 80, 80, 75, 80,, 85, 80, 85, 75, 75

Se observ c pentru calculul lui r avem nevoie de mediile celor dou serii statistice, X i Y , i pentru
fiecare pacient n parte de diferenele xi X i yi Y , care pentru numrtor trebuie nmulite ntre ele,
4

Biostatistic - Cursul al VII-lea

iar pentru numitor trebuie ridicate la ptrat i apoi sumate pentru toi pacienii. Deoarece valorile au fost
alese special ca s se uureze calculele, se observ c mediile pentru TAMAX i TAMIN sunt X =160 i Y
=80. Este bine ca toate calculele necesare pentru gsirea lui r s fie organizate ntr-un tabel aa cum se vede
n tabelul 9.1:
Tabelul 9.1 Calculul coeficientului de corelaie Pearson

xi

170, 160, 160, 150, 150, 170, 160, 180, 150, 150

Valorile pentru TAMAX

yi

85,

80,

80,

Valorile pentru TAMIN

xi X ( X =160)

10

-10

yi Y ( Y

50

=80)

x X y Y
i

75,

80,,

85,

80,

85,

75,

75

-10

10

20

-10

-10

Diferenele pentru TAMAX

-5

-5

-5

Diferenele pentru TAMIN

50

50

100

50

50

10

x
i 1

100

100

100 100

400

100

100

25

25

25

25

25

25

X yi Y =350

10

i 1

10

i 1

=1000

=150

Calculul lui r este:


r

350
1000 150

350
15 10000

350
350

0,9037 90,37%
100 3,8729 387,29

Trecnd peste faptul c de obicei calculele sunt puin mai dificile din cauza unor zecimale care apar inerent
la calculul mediilor i deci al diferenelor, s cutm s vedem ce se poate ntmpla n diverse situaii ce pot
apare n legtur cu valorile luate de cei doi parametri. n primul rnd s observm c la numrtor, n cazul
nostru, numrul 350 a fost obinut prin adunarea unor numere pozitive i anume 5x50+100. Dar observm c
valoarea 50 obinut pentru al patrulea pacient (ca i la al noulea i al zecelea, de altfel) s-au nmulit dou
numere negative, pe cnd la celelalte valori diferite de 0, la pacienii 1, 6 i 8, numerele au fost obinute prin
nmulirea unor numere pozitive. Acest lucru nu este nici pe de parte lipsit de importan, ci din contr, este
ceea ce caracterizeaz situaia prezentat n mod fundamental.
S facem urmtoarele observaii referitoare la cazul prezentat:

Pacienii 4,9 i 10 au i valori TAMAX i TAMIN sub media celor 10 pacieni. Deci diferenele
xi X i y i Y sunt ambele negative iar produsul lor, cel care se adun la numrtor este pozitiv

Pacienii 1,6 i 8 au i valori TAMAX i TAMIN peste media celor 10 pacieni. Deci diferenele
xi X i y i Y sunt ambele pozitive iar produsul lor, cel care se adun la numrtor este pozitiv

Pacienii 2, 3, 5 i 7 au valori TAMAX sau TAMIN egale cu media celor 10 pacieni. Deci, dintre
diferenele xi X i y i Y cel puin una este 0 iar produsul lor, cel care se adun la numrtor
este 0.

Ceea ce am precizat n rndurile de mai sus este caracteristic pentru situaiile n care cei doi parametri se
coreleaz: cei doi parametri iau valori preponderent n acelai sens, adic ori ambii sub medie, ori ambii
peste medie.
Din cauza tendinei a doi parametri care se coreleaz direct, ca atunci cnd unul este crescut, s fie i cellalt
crescut, vom fi pentru majoritatea pacienilor n situaii ca mai sus i produsele care se adun la numrtor
sunt preponderent pozitive. n acest caz, suma de la numrtor tinde s aib valori pozitive crescute. Evident,
corelaia dintre parametri este doar o tendin i este probabil s ntlnim pacieni care, dei au unul din
5

Biostatistic - Cursul al VII-lea

parametri crescut, de exemplu peste medie, cellalt poate s nu fie crescut, chiar s fie sub medie, caz n care
produsul xi X yi Y corespunztor lui va fi negativ. Dar acest fenomen nu este o tendin dac
parametrii sunt corelai ci mai curnd accident. Suma obinut la numrtor va avea tendina de a lua valori
mari i pozitive n ciuda unor astfel de accidente.
Dac cei doi parametri sunt corelai invers, adic tendina unuia de a avea valori crescute este nsoit de
tendina celuilalt de a avea valori sczute, n acest caz, predominante vor fi situaiile n care n produsul
xi X yi Y , ia des valori negative. ntr-adevr, dac un parametru are valori sub medie i cellalt
peste medie, o parantez va fi pozitiv i una negativ. Dac acest fapt este o tendin, parantezele de la
numrtor vor fi cele mai multe negative. Suma obinut la numrtor va avea tendina de a lua valori mari i
negative.

Dac cei doi parametri nu sunt corelai, parantezele de la numrtor vor avea semne aleatorii, vor fi unele
produse xi X yi Y pozitive i unele negative. Tendina va fi ca cele negative i cele pozitive s se
anuleze unele pe altele. Suma obinut la numrtor va avea tendina de a lua valori mici, pozitive sau
negative.
Nu am discutat nimic despre numitorul coeficientului r, deoarece el are totdeauna semnul +, iar rolul lui este
numai de a face ca r s fie cuprins ntre -1 i +1. Magnitudinea lui r, precum i semnul su, sunt dictate de
suma de la numrtor. Aadar, orice valori ar lua cei doi parametri, prin calculul lui r, obinem un numr real
cuprins n intervalul de numere reale [-1, 1].
Interpretarea coeficientului de corelaie Pearson se face n termeni extrem de subiectivi i imprecis astfel:
Valori foarte apropiate de 1 arat o foarte puternic corelaie direct

Valori n jurul a 0,7 0,9 arat o corelaie puternic

Valori ntre 0,4 0,7 arat corelaie

Valori ntre 0,15 0,4 arat corelaie slab

Valori sub 0,15 arat lips de corelaie

La fel, pentru valori negative pentru anticorelaie (corelaie invers).

3. Noiunea de dreapt de regresie


Dac doi parametri sunt suficient de puternic corelai, atunci cunoscnd valoarea unuia dintre ei, cellalt nu
ia valori absolut aleatorii ci valoarea pe care acesta o poate lua este ntr-o legtur mai puternic sau mai
slab cu valoarea primului, n funcie de ct de puternic este coeficientul de corelaie ntre cei doi parametri.
S privim puin mai atent pe un grafic (vezi figura 6), ce se ntmpl n cazul unei corelaii puternice.
Anume, s reprezentm pe orizontal valorile latenei undei P100 pentru ochiul drept (LD), iar pe vertical
valorile latenei undei P100 pentru ochiul stng (LS), la 913 de pacieni, msurate n milisecunde.

Figura 6 Corelaia valorilor latenei undei P100 pentru ochiul drept (vertical) i valorile latenei undei P100 pentru
ochiul stng (orizontal), la 913 de pacieni, msurate n milisecunde. Fiecare punct de pe grafic corespunde unui
pacient. Se observ o corelaie puternic din aranjarea norului de puncte, care are o form alungit .

Biostatistic - Cursul al VII-lea

Aa cum era de ateptat valorile LD i LS se coreleaz, n sensul c au tendina de a se aeza ntr-un nor
alungit dinspre stnga jos spre dreapta sus pe grafic, cu unele excepii, reprezentate de punctele care sunt
ieite din nor. De fapt, se observ c majoritatea punctelor din grafic se aranjaz ntr-o zon oval.
n cazurile ca cel din figura 6, se poate ncerca gsirea unei drepte care s treac ct mai aproape de punctele
graficului, dreapt care s reprezinte o legtur ntre cei doi parametri. n figura 7 este reprezentat o astfel
de dreapta pentru graficul din figura 6. Aceast dreapt exist pentru nori de puncte foarte diveri, i se
numete dreapt de regresie.

Figura 7 Dreapta de regresie pentru cazul latenei semnalului nervos pe cei doi ochi, la apcieni cu diverse afeciuni.
Pe orizontal, valorile pentru ochiul stng, iar pe vertical cele pentru ochiul drept.

Numim aceast dreapt legtur ntre cei doi parametri n sensul urmtor: dac se cunoate valoarea de pe
orizontal, se poate calcula cu oarecare aproximare valoarea de pe vertical, i invers. n exemplul din figura
7, dac tim latena pentru ochiul stng, putem calcula cu o anumit aproximaie latena pentru ochiul drept,
i invers. Acest fapt este sugerat n figura 8, de sgeile care indic valoarea aproximativ de pe o ax,
corespunztoare unei anumite valori de pe cealalt ax.

Figura 8 Folosirea dreptei de regresie ca legtur ntre cei doi parametri care sunt puternic corelai.

Dreapta de regresie este de obicei cutat prin aa-numita metod a celor mai mici ptrate, expus n
subcapitolul urmtor.

Metoda celor mai mici ptrate (MCMMP)


Vom cuta o dreapt care s se apropie ct mai mult de punctele graficului, dreapt care o vom numi drept
de regresie liniar. Pentru a ne da seama cum intrepretm expresia se apropie ct mai mult de punctele
graficului, s lum un exemplu simplu, ca cel din figura 9.

Figura 9 O dreap de regresie se caut acea dreapta care este situat ct


mai aproape de punctele graficului. Distanele de la punctele graficului la
dreapt se msoar pe vertical. n imagine, distanele care trebuie s fie
ct mai mici sunt segmente verticale

Biostatistic - Cursul al VII-lea

Vom spune c o dreapt este dreapt de regresie dac suma distanelor de la puncte la dreapt, msurate pe
vertical i ridicate la ptrat, este minim.
Dreapta pe care o cutm are ecuaia y ax b , i vom nelege prin aceasta c, odat cunoscut valoarea
parametrului de pe abscis, x, putem calcula valoarea parametrului de pe ordonat, y, prin nmulirea cu a i
adunarea lui b. Aadar, gsirea dreptei de regresie este echivelent cu gsirea coeficienilor a i b. n figura
10 este prezentat o situaie n care dreapta de regresie poate fi folosit pentru aproximarea unui efect Y (care
poate fi un rezultat al unei medicaii) n funcie de o cauz X (care poate fi medica ia). Se observ c putem
gsi nivelul efectului dup valoarea luat de factorul cauz. Pentru valoarea 10 a lui X, efectul Y are valoarea
aproximativ 1010. Pentru valoarea 50 a lui X, Y ia valoarea 925.

Figura.10 Dreapta de regresie ca legtur ntre cauz i efect. Se observ c putem gsi nivelul efectului dup valoarea luat de
factorul cauz. Pentru valoarea 10 a lui X, efectul Y are valoarea aproximativ 1010. Pentru valoarea 50 a lui X, Y ia valoarea 925

- facultativProprietatea de baz a dreptei de regresie, se scrie astfel:


n

S yi axi b min
2

i 1

ceea ce exprim faptul c segmentele ce unesc fiecare punct cu punctele de pe dreapt situate pe aceeai vertical,
trebuie s fie ct mai scurte posibil. Exprimarea aceasta nu este tocmai corect, ci mai degrab intuitiv, cci, a spune c
segmentele sunt ct mai scurte, nu precizeaz nimic cnd se refer la toate segmentele. Nu vom ti exact care dintre ele
trebuie s fie mai scurt i care mai lung cnd suma ptratelor lor este minim.
Vom interpreta expresia de mai sus ca o expresie ce conine dou necunoscute, i anume a i b, i dorim aflarea lor
pentru a putea fi utilizate n ecuaia y ax b , atunci cnd avem nevoie.
Minimul expresiei ce are ca variabile pe a i pe b, se poate afla printr-un procedeu care este cunoscut din analiza
matematic, i anume, minimul unei funcii se realizeaz pentru acele valori ale necunoscutei care anuleaz derivata
nti a funciei n raport cu variabila respectiv. n cazul n care avem o funcie cu dou variabile, ca cea de mai sus, va
trebui s anulm derivatele ei n raport cu fiecare dintre cele dou necunoscute. Vom scrie deci expresia S astfel ca
derivarea n raport cu a i cu b s fie ct mai facil.
Pentru aceasta, vom folosi formula

a b c 2 a 2 b 2 c 2 2ab 2ac 2bc ,


precum i faptul c o sum poate fi distribuit, adic este valabil formula:
n

i 1

i 1

i 1

i 1

xi yi .... zi xi yi ..... zi
Astfel vom avea:
n

S yi axi b yi2 a 2 xi2 b 2 2axi yi 2byi 2abxi


2

i 1

i 1

i dup distribuirea de care vorbeam mai sus:

Biostatistic - Cursul al VII-lea


n

i 1

i 1

i 1

i 1

i 1

i 1

S yi2 a 2 xi2 b 2 2axi yi 2byi 2abxi


sau, dup ce scoatem n faa sumelor ceea ce nu depinde de i:
n

i 1

i 1

i 1

i 1

i 1

i 1

S yi2 a 2 xi2 b 2 1 2a xi yi 2b yi 2ab xi


Acum s nu uitm c xi i y i sunt valorile msurate ale celor doi parametri, care dau poziiile punctelor de pe grafic,
i deci, fiind cunoscute, sumele din expresia lui S sunt cunoscute. De fapt, se obinuiete ca aceste sume s fie notate cu
urmtoarele notaii, mult folosite n analiza de regresie:
n

x
i 1

2
i

S x2 ,

y
i 1

2
i

S y2 ,

x y
i 1

S xy ,

x
i 1

Sx ,

y
i 1

Sy

Aadar, S x , S y , S xy , S x , S y sunt numere cunoscute n momentul calculului de care ne ocupm ceea ce face ca
expresia lui S s devin:

S S y2 a 2 S x2 b 2 n 2aS xy 2bS y 2abS x


Acum pentru a afla minimul lui S vom deriva odat n raport cu a i vom egala cu 0 ceea ce am obinut, apoi vom
deriva n raport cu b i vom egala cu 0 ceea ce am obinut. Nu trebuie uitat c, la derivarea n raport cu a, vom considera
c b este constant i invers. Vom obine deci relaiile:

S S y2 a 2 S x2 b 2 n 2aS xy 2bS y 2abS x

S
S
2aS x2 2 S xy 2bS x 0 i
2bn 2 S y 2aS x 0 ,
a
b
care se vede c pot fi rescrise ca un sistem de dou ecuaii cu dou necunoscute, n felul urmtor:

2aS x2 2bS x 2S xy 0
,

2aS x 2bn 2 S y 0
sau, dup trecerea termenilor care nu depind de necunoscutele a i b n partea dreapt i mprirea cu 2 a ambelor
egaliti, obinem:

aS x2 bS x S xy

aS x bn S y
Acesta este, dup cum se poate uor observa, un sistem de dou ecuaii cu dou necunoscute, chiar n forma cea mai
simpl (sistem liniar). - - facultativMetoda expus mai sus se numete Metoda Celor Mai Mici Ptrate (MCMMP), i este mult folosit pentru
simplitatea cu care ne pune la dispoziie un rezultat util. Utilitatea acestei metode este mai clar pus n eviden atunci
cnd o folosim pentru evaluarea unui efect cuantificabil cnd cauzele care l produc pot fi cuantificate suficient de bine.
Un bun exemplu este aplicarea unui tratament cu un medicament n diferite doze, dac efectul acestuia este suficient de
obiectiv cuantificabil.
Alt exemplu de aplicare util a metodei celor mai mici ptrate este estimarea evoluiei n timp a unor fenomene de
intensitate cuantificabil. De exemplu, atunci cnd am nregistrat numrul anual de cazuri de cancer de sn ntr-o arie
geografic dat, i ne punem problema dac este ndreptit ipoteza unei tendine de cretere a incidenei acestei
maladii. n acest caz, dreapta de regresie este un estimator al vitezei de cretere a incidenei i se poate testa dac exist
o cretere semnificativ, iar n caz afirmativ se poate estima cantitativ aceast tendin.

Regresii neliniare (facultativ)


Exist cazuri cnd dependena ntre un efect i o cauz, sau n general ntre doi parametri nu este liniar. De exemplu,
efectul poate s sufere un fenomen de quasi saturaie i la un moment dat, dei doza crete semnificativ, efectul are o
cretere aproape insesizabil, sau invers, la creteri limitate ale dozei, efectul tinde s creasc foarte mult. n realitate se
pot ntlni extrem de multe astfel de situaii. n aceste cazuri, se caut nu drepte de regresie ci alte curbe, dup caz,
logaritmice, exponeniale, polinomiale, etc.

Biostatistic - Cursul al VII-lea

Cea mai simpl generalizare este cazul polinomului de gradul al doilea:


y ax 2 bx c ,

caz n care, n mod evident trebuie gsii trei coeficieni n loc de doi. Cantitatea de minimizat este

y
n

axi2 bxi c

i 1

min .

n acest caz, cei trei coeficieni sunt soluiile unui sistem de trei ecuaii cu trei necunoscute, obinute din egalarea cu 0 a
celor trei derivate pariale ale lui S n raport cu a, b i respectiv c:

S
S
S
0,
0,
0
a
b
c
Au fost folosite i regresii cu polinoame de ordin mai mare, ns pentru a presupune c ntre doi parametri este o
legtur foarte complex trebuie puternice dovezi teoretice, care de obicei nu ne stau la dispoziie.

Regresia liniar multipl (facultativ)


Exist situaii n care este util s considerm dependena unui parametru de dou sau chiar mai muli parametri
independeni. i n acest caz, Metoda Celor Mai Mici Ptrate este de un preios ajutor. n acest caz, se caut o
dependen de forma:

Y a1 X 1 a 2 X 2 .......... a n X m
unde Y este parametrul care depinde de ceilali, X1, X2,.............Xn sunt parametrii independeni, iar m este numrul lor,
uzual avnd valoarea 2 sau 3, mai rar ajungnd la 6 sau 8, foarte rar mai mare.
n acest caz, se pune problema gsirii coeficienilor a 1, a2,......an, astfel ca diferenele dintre valorile msurate
1
2
m
Y1,Y2,........Yn, s fie ct mai apropiate de valorile calculate cu expresia, a1 X i a 2 X i .......... a n X i , unde
coeficienii a1, a2,......an, i considerm necunoscute i ne propunem s i aflm, iar indicele i ne indic msurtoarea,
adic:
La msurtoarea 1 se obin valorile X 11 , X 12 ,....... X 1m , iar pentru Y valoarea Y1
La msurtoarea 2 se obin valorile X 21 , X 22 ,....... X 2m , iar pentru Y valoarea Y2
......................................................................................
1

La msurtoarea n se obin valorile X n , X n ,....... X n , iar pentru Y valoarea Yn


De exemplu, pentru dependena ntre un parametru dependent i doi independeni, cantitatea de minimizat este:

y
n

a1 X i1 a 2 X i2

i 1

4. Chestiuni de examen
1. Coeficientul de corelaie msoar:
1. tria mprtierii datelor unei serii statistice
2. tria corelaiei ntre medie i median
3. tria corelaiei ntre doi parametri exprimai numeric
4. tendina de cretere sau descretere simultan sau invers a doi parametri.
2. Coeficientul de corelaie calculat pentru doi parametri msurai la 429 de pacieni este 0,829. Aceasta nseamn c:
1. cei doi parametri nu sunt corelai
2. cei doi parametri sunt slab corelai
3. cei doi parametri sunt puternic corelai
4. sunt prea puine cazuri i nu avem ncredere n valoarea coeficientului
3. Coeficientul de corelaie calculat pentru doi parametri msurai la 429 de pacieni este -0,925. Aceasta nseamn c:
1. cei doi parametri nu sunt corelai
2. cei doi parametri sunt anticorelai
3. cei doi parametri sunt slab corelai

10

Biostatistic - Cursul al VII-lea

4. sunt prea puine cazuri i nu avem ncredere n valoarea coeficientului


4.Graficul Scatter ne d informaii despre:
1. Corelaia celor doi parametri de pe orizontal i vertical
2. Omogenitatea eantionului
3. Simetria distribuiilor fiecruia din cei doi parametri
4. Corelaia fiecrui parametru cu vrsta pacienilor
5.Coeficientul de corelaie calculat pentru doi parametri msurai la 12 de pacieni este 0,889. Aceasta nseamn c:
1. Cei doi parametri nu sunt corelai
2. Cei doi parametri sunt slab corelai
3. Cei doi parametri sunt corelai
4. Sunt prea puine cazuri i nu avem ncredere n valoarea coeficientului
6.Coeficientul de corelaie calculat pentru doi parametri msurai la 12 de pacieni este -0,889. Aceasta nseamn c:
1. Cei doi parametri nu sunt corelai
2. Cei doi parametri sunt anticorelai
3. Cei doi parametri sunt corelai
4. Sunt prea puine cazuri i nu avem ncredere n valoarea coeficientului
7. O dreapt de regresie este o dreapt care:
A. Este situat ct mai aproape de punctele unui grafic Scatter
B. Trece prin toate punctele unui grafic Scatter
C. Aproximeaz un poligon al frecvenelor
D. Este paralel cu una din axele de coordonate
8. O dreapt de regresie ne ofer:
A. O relaie aproximativ ntre valorile a doi parametri
B. O relaie exact ntre valorile a doi parametri
C. Traseul liniei frnte a poligonului frecvenelor
D. Posibilitatea aproximrii valorilor unui parametru dac tim valorile celuilalt
9. O dreapt de regresie se calculeaz:
A. Folosind mediile de eantionare
B. Folosind mediile i deviaiile standard
C. Folosind metoda celor mai mari ptrate
D. Folosind metoda celor mai mici ptrate
10. n ecuaia unei drepte de regresie, valorile care o determin sunt:
A. Panta (slope) i ordonata la origine (intercept)
B. Media i deviaia standard
C. Mediile de eantionare
D. Panta (slope)

Lista de subiecte teoretice


1.Introducere, noiuni de baz, caracteristici, scale
2. Tabele de frecven
3. Serii de valori, valori medii, mprtiere
4. Indicatori de asimetrie, ali indicatori statistici, clasificarea indicatorilor
5. Tabele de inciden, noiuni introductive, tabele de inciden 2x2
6. Criterii de dependen, CD, CP, OR, RR
7. Teste clinice i aprecierea calitii lor
8. Graficul histogram
9, Curba densitii de probabilitate, grede de libertate, densitatea Student
11

Biostatistic - Cursul al VII-lea

10. Densitatea normala (Gauss)


11. Eantion, eantionare
12. Intervale de ncredere
13. Problema testelor statistice, Testul Student de comparare a unei medii cu media teoretic
14. Testul Student de comparare a mediilor, cazul eantioanelor mici i dispersii egale, testul t
Student pentru esantioane mici cu dispersii diferite, testul t Student pentru esantioane pereche.
Testul ANOVA testul analizei de varian
15. Teste neparametrice
16. Graficul Scatter
17. Noiunea de corelaie, coeficientul de corelaie PEARSON
18. Noiunea de dreapt de regresie

12

S-ar putea să vă placă și