Cursul III

S-ar putea să vă placă și

Sunteți pe pagina 1din 16

Biostatistic - Cursul al III-lea

REPARTITII
1. Graficul histogram
Ca i concept, histograma este de fapt echivalentul grafic al tabelului de frecvene. Mai nti s lucrm pe un
exemplu concret i apoi s urmrim problemele specifice care pot face din histogram un instrument util de
lucru sau un balast.
Avem mai jos un tabel care sintetizeaz situaia parametrului Greutate corporal la 1014 pacieni cu diferite
afeciuni:
Tabelul 1 Greutatea corporal a 1014 pacieni cu diferite afeciuni,
pe clase din 5kg n 5kg

Frecvena
Clasa

Greutate(Kg)

(Nr indivizi)

1
2
3
4
5
6
7
8
9
10
11
12
13

35..40
40..45
45..50
50..55
55..60
60..65
65..70
70..75
75..80
80..85
85..90
90..95
95..100

17
46
84
108
130
136
160
113
106
54
29
12
9

Acum s privim graficul din figura 1, care reprezint situaia din tabel:

Figura 1 Histograma greutilor corporale a 1014 pacieni cu diferite afeciuni

Mai nti, ce s-a reprezentat de fapt Se oserv c pe orizontal sunt figurate clasele din tabel n ordine,
fiecreia fiindu-i alocat un segment de aceeai lungime, iar pe vertical, dreptunghiurile au nlimi
proporionale cu frecvenele absolute ale claselor. Mulimea barelor verticale este cea care ne d impresia
vizual pe care trebuie s o interpretm n sensul sitetizrii informaiei. Observm:

Biostatistic - Cursul al III-lea

Din stnga se ncepe cu bare scunde care cresc n nlime pe msur ce ne apropiem de clasa din centru,
dup care are loc un proces invers. Este tendina natural la cele mai multe situaii. Datele au de cele mai
multe ori tendina de a se situa n stnga i drepta mediei, din ce n ce mai puine pe msur ce ne deprtm
de medie. Pe acest grafic nu este figurat media dar este de bun sim s ne gndim c este situat undeva n
clasele de mijloc.
Indivizii care au sub 35 Kg i cei peste 100 Kg, probabil foarte puini, nu au fost luai n calcul. Se
obinuiete totui ca ei s fie luai n considerare prin introducerea a dou clase speciale. n acest caz, clasele
speciale de introdus ar fi fost: clasa sub 35 i clasa peste 100. De obicei aa este bine s se procedeze.
Modul cum cresc barele este diferit de modul cum descresc. Aceasta este ceea ce se numea la indicatorii
statistici asimetria. Aceast histogram arat o uoar asimetrie la dreapta. Dac indivizii de la care s-au
cules datele ar fi fost normali, histograma ar fi avut un aspect mai simetric. Asimetria acestei hitograme ne
arat c n clasele de la 40 la 65 kg sunt mai muli indivizi dect n clasele simetrice lor de la 75 la 90 kg.
Avnd n vedere c majoritatea lor sunt brbai, acest asimetrie ne spune c un numr de indivizi au
greutatea mai mic dect ar fi normal. Acest lucru este explicabil n acest caz, deoarece cei mai muli au
afeciuni hepatice grave ca ciroz hepatic, cancer hepatic, i sunt ntr-o stare fizic mult slbit.
n acest caz, am explicat forma histogramei pe baza realitii. De obicei ns se ntmpl exact pe dos.
Histograma este aceea care ne ajut s nelegem mai bine realitatea.
Pentru a realiza diferena dintre o distribuie simetric i una asimetric, s transpunem ntr-o histogram
situaia din tabelul 2, care sistematizeaz situaia supravieuirilor n cazurile de cancer mamar pe un lot de
2456 de pacieni.
Tabelul 2 Situaia supravieuirilor n cazurile de cancer mamar pe un lot de 2456 de pacieni.
Gruparea n clase de 12 luni

Procent

Procent

Nr.Crt

Perioada

Nr.cazuri

Cumulat %

1
2
3
4
5
6
7
8
9
10
11

0..12 luni
12..24 luni
24..36 luni
36..48 luni
48..60 luni
60..72 luni
72..84 luni
84..96 luni
96..108 luni
108..120 luni
Peste 120 luni

672
446
368
249
196
172
126
98
45
31
52

27.36
18.16
15.00
10.14
8.00
7.00
5.13
4.00
1.83
1.26
2.12

27.36
45.52
60.52
70.66
78.66
85.66
90.79
94.79
96.62
97.88
100.00

n figura 2, este reprezentat histograma corespunztoare pentru tabelul 2. Se observ c barele histogramei
au nlimi descresctoare ntocmai ca i frecvenele absolute ale claselor.

Figura 2 Histograma corespunztoare pentru tabelul 2. Se observ c barele histogramei au nlimi


descresctoare ntocmai ca i frecvenele absolute ale claselor

Biostatistic - Cursul al III-lea

Se observ la aceast histogram c are o asimetrie foarte puternic spre dreapta. Vom considera totdeauna
(ca o convenie), s spunem c o histogram arat asimetria spre partea unde descreterea este mai lent.
Tendina observat n aceast histogram este normal, avnd n vedere fenomenul surprins. Procesele de
supravieuire sunt de obicei marcate de o distribuie a valorilor cu excentricitate spre dreapta, adic spre
supravieuiri lungi.
Pentru o familiarizare cu acest tip de grafic foarte important, s urmrim cteva situaii culese din practica
medical. n figura 3, avem reprezentat histograma tensiunii arteriale la 593 de pacieni cu diferite
afeciuni. Se observ o excentricitate puternic, spre dreapta. n figura 4 avem histograma valorilor
hemoglobinei la 738 de pacieni cu diferite afeciuni. Se observ o distribuie a valorilor mai simetric dect
n figurile 2 i 3. n figura 5 se vede histograma taliei la 1042 pacieni pe clase din 5cm n 5cm. Este un
exemplu de distribuie cu o uoar asimetrie spre stnga, mai rar ntlnit n practic. Figura 6 prezint
histograma vrstelor la 308 pacieni cu afeciuni hepatice. Se observ c graficul are dou vrfuri. Se spune
despre acest tip de distribuie a datelor c este bimodal. Este un lot neomogen, alctuit din dou subloturi,
unul cu maximul n jurul vrstei de 45 50 de ani i cellalt n jurul vrstei de 65 70 de ani. n practic se
ntlnesc rar astfel de situaii. n mod normal, ntr-un asemenea caz, se studiaz fiecare sublot n parte din
punctul de vedere al vrstei

Figura 3 Histograma tensiunii arteriale la 593 de pacieni cu diferite afeciuni. Se observ o


excentricitate puternic, spre dreapta

Figura 4 Histograma valorilor hemoglobinei la 738 de pacieni cu diferite afeciuni. Se observ o


distribuie a valorilor ma simetric dect n figurile 5.2 i 5.3.

Biostatistic - Cursul al III-lea

Figura 5 Histograma taliei la 1042 pacieni pe clase din 5cm n 5cm. Este un exemplu de distribuie cu o
uoar asimetrie spre stnga, mai rar ntlnit n practic.

Figura 6 Histograma vrstelor la 308 pacieni cu afeciuni hepatice. Se observ c graficul are dou vrfuri. Se spune
despre acest tip de distribuie a datelor c este bimodal. Este un lot neomogen, alctuit din dou subloturi, unul cu
maximul n jurul vrstei de 45 50 de ani i cellalt n jurul vrstei de 65 70 de ani. n practic se ntlnesc rar
astfel de situaii. n mod normal, ntr-un asemenea caz, se studiaz fiecare sublot n parte.

Semnificaia statistic a histogramei


Histograma este influenat de factori aleatori n ce privete forma, deci ne poate da o informaie mai mult
sau mai puin valoroas n funcie de aceti factori. Ca i n cazul celorlali indicatori statisitici, vom
considera histograma ca avnd nmagazinat informaie cu att mai corect cu ct avem un numr mai mare
de indivizi n lotul pe care ea l reprezint.
n figura 7, sunt reprezentate o serie de histograme construite pe un lot de 739 de pacieni, la care s-a
msurat hemoglobina. n fiecare din ele, sunt luai un numr din ce n ce mai mare de valori, ncepnd de la
25 i terminnd cu toate cele 739 de valori. Se observ c primele histograme difer destul de mult ntre ele.
Spre sfrit ns, histogramele se stabilizeaz i dau impresia c adugarea eventual de valori nu ar mai
schimba prea mult aspectul.

Biostatistic - Cursul al III-lea

Figura 7 Serie de histograme care arat c numrul de indivizi din lot are importan asupra aspectului,
atunci cnd aceste numr este relativ mic

n figura 8, sunt reprezentate aceleai histograme, darse pstreaz aceeai scar de reprezentare. n felul
acesta se observ mai bine cum crete o histogram odat cu creterea numrului de indivizi din lot.
Aceeai constatare ca n figura 7, anume c variaiile sunt mari atta timp ct numrul de indivizi este mic.

Figura 8 Aceleai histograme din figura 7, cu diferena c se pstreaz aceeai scar de reprezentare

Biostatistic - Cursul al III-lea

n figura 9, este exemplificat influena lungimii claselor asupra aspectului unei histograme. Datele
luate n calcul sunt cele folosite la figurile 7 i 8. La fiecare histogram, s-au folosit 738 de valori.
Ceea ce se modific de la histogram la histogram este lungimea claselor i, implicit numrul de
clase. Se observ c lungimi prea mari (din 5 n 5, din 4 n 4, din 3 n 3, din 2 n 2 i din 1,5 n 1,5) dau
histograme care ascund distribuia. Lungimi prea mici ( din 0,5 n 0,5, din 0,25 n 0,25) dau prea multe
detalii inutile. Cele mai potrivite lungimi n acest caz sunt din 1 n 1 i din 0,75 n 0,75.

Figura 9 Influena lungimii claselor asupra aspectului unei histograme. Lungimea corect n acest caz
este din 1 n 1

Alegerea numrului de clase. De obicei, programele de calculator realizeaz histograme dup ce


utilizatorul a furnizat lungimea clasei. Pentru a nu ajunge n situaii cnd un astfel de tabel are un numr total
neindicat de clase, de obicei se calculeaz lungimea aproximativ a unei clase n aa fel nct numrul de
clase s fie cel dorit. Acest lucru se poate realiza dac se caut cea mai mic i cea mai mare valoare din seria
de date (notate mai jos cu min i max), i se ia ca lungime a unei clase, aproximativ rezultatul urmtorului
calcul:
max min
L
nr. clase
De exemplu, dac n seria vrstelor unor pacieni, cel mai tnr pacient are 26 de ani, iar cel mai vrstnic are
78, pentru a obine 6 clase (numr de clase indicat pentru vrste de aduli), avem L= (78 - 26) / 6 = 8,6. Deci
este indicat s se ia clase de 10 ani, prin rotunjire. Dac ns se doresc mai multe clase, s zicem 10, atunci
obinem: L = (78 - 26) / 10 = 5,2 i este indicat s se ia clase din 5 n 5 ani. Prima clas va fi [25,30), iar
urmtoarele: [30, 35), [35, 40),.[75, 80).
Numrul de clase nu este neaprat 10, el se alege de fapt de ctre cel care face histograma, astfel ca s se
piard ct mai puin informaie, dar i numrul de clase s nu fie prea mare cci atunci lum n considerare
aspecte prea nesemnificative.
Ca regul general, este bine s se rein c:
Se pierde cu att mai mult informaie cu ct numrul de clase este mai mic. Nu se recomand
histograme cu 2-4 clase
Un numr prea mare de clase duce la o ascundere a esenialului de ctre aspectele nesemnificative
6

Biostatistic - Cursul al III-lea

ntruct cei care nu au experien nu tiu cum s aleag numrul de clase, recomandm:
Pentru cteva zeci de valori, s se aleag maximum 6 8 clase

Pentru cteva sute de valori, s se aleag ntre 10 i 15 clase

Pentru cteva mii de valori, s se aleag peste 15 clase

Nu se recomand folosirea a mai mult de 20 30 de clase dect n cazuri speciale, n studii cu multe mii de
cazuri. Nici mai puin de 4 6 clase nu este recomandat s se foloseasc. Nu se recomand folosirea
histogramelor dac nu avem cel puin cteva zeci de valori. De exemplu, pentru o serie de 15 valori, nu se
face o histogram.
Alte exemple: Dac avem de reprezentat printr-o histogram valorile pentru hemoglobin, iar minimul este
8,13 iar maximul este 16,23, atunci, pentru a obine 10 clase, vom face calculul:
L

max min 16,23 8,13 8,1

0,81
nr.clase
10
10

n acest caz, vom rotunji la 1 i vom lua clasele din 1 n 1, ncepnd de la 8: [8, 9), [9,10), [16,17).
n cazul Imunoglobulinei G, din cei 235 de pacieni, valoarea minim a fost 112, n timp ce maximul a fost
900. Dac dorim tot 10 clase, atunci calculul este
L

max min 900 112 888

88,8
nr.clase
10
10

Vom lua clasele din 100 n 100, ncepnd de la 100: [100,200), [200,300) . [800,900), [900-1000).

2. Curba densitii de probabilitate


S-a vzut c histograma este un grafic care d informaii despre repartizarea valorilor dintr-o serie de valori,
care arat dac valorile din serie sunt repartizate simetric sau asimetric i dac repartiia are un singur vrf
sau este multimodal.
S ne imaginm c pe msur ce mrim indefinit numrul de valori din serie, lungimea claselor scade foarte
mult, astfel nct obinem histograme din ce n ce mai fine. Ce se obine prin acest proces? O apropiere din
ce n ce mai accentuat de repartiia real a datelor, repartiie pe care histogramele o aproximeaz din ce n ce
mai bine. Histogramele ofer imaginea repartizrii valorilor dintr-o serie, deci o imagine incomplet a
realitii. ntr-adevr, valorile dintr-o serie de date sunt culese pe un eantion sau lot, care este de obicei
extras dintr-o populaie mult mai numeroas. Ceea ce ne intereseaz de obicei ns, este modul cum se
repartizeaz valorile din ntreaga populaie.
n figura 10, este dat un exemplu de serie de valori foarte mare, alctuit din 10000 de valori. n acest caz,
lotul pe care s-au fcut msurtorile poate fi numit populaie, numrul de indivizi fiind foarte mare.

Figura 10 Folosind o serie de 10000 de valori, se pot face histograme din ce n ce mai fine, care trec de la aspectul de
treapt, la acela de curb

Biostatistic - Cursul al III-lea

Pe msur ce histogramele devin din ce n ce mai fine, ele tind s se asemene cu o curb. Dac volumul
seriei ar fi mult mai mare, asemnarea cu o curb ar fi att de clar nct ochiul nu ar mai putea observa
aspectul de treapt. Acest proces este vizibil n special atunci cnd n locul histogramelor folosim
poligoane ale frecvenelor. n figura 11, sunt reprezentate poligoanele frecvenelor efectuate pe valorile din
seria folosit n figura 10. La fiecare grafic s-au folosit o parte din valorile seriei, anume: la primul grafic
1000 de valori, la al doilea grafic 2000 de valori, i aa mai departe pn la ultimul grafic, care este executat
folosind toate cele 10000 de valori din serie.

Figura 11. Procesul de trecere de la poligonul frecvenelor la curba de distribuie

Acest mod de a ajunge la o curb a densitii de probabilitate (sau o curb de repartiie) este instructiv prin
faptul c ofer o imagine intuitiv a diferenei dintre o histogram sau un poligon al frecvenelor i o curb
de repartiie. n plus, ofer o ideie despre cum arat curba de repartiie.
Strict vorbind ns, noiunea de curb a densitii de probabilitate, trebuie introdus folosind un aparat
teoretic mai complex. Deoarece o introducere fundamentat ar depi nivelul cursului de fa, vom
considera, intuitiv, fr a pretinde c aceasta este o definiie riguroas, c:
O curb a densitii de repartiie este curba care are acelai aspect cu curba ctre care tinde
poligonul frecvenelor relative, atunci cnd numrul de valori dintr-o serie tinde la infinit, iar
lungimea fiecrei clase tinde la 0.
Pentru o exprimare mai clar, atunci cnd nu exist pericolul unor confuzii, n locul termenului de curb a
densitii de probabilitate, vom folosi termenul de curb de repartiie, sau mai simplu, repartiie.
8

Biostatistic - Cursul al III-lea

n medicin i biologie, ca i n celelalte domenii de activitate, exist o varietate larg de curbe ale densitii
de probabilitate. n figura 12, sunt prezentate cteva forme de astfel de curbe, simetrice, asimetrice cu
asimetri stng, cu asimetrie dreapt, etc.

Figura 12 Diverse forme ale curbei densitii de probabilitate

Pe msur ce statistica a evoluat ca tiin, s-a demonstrat c unele din curbele densitii de probabilitate
joac un rol central n tiin n general i n medicin n special. Astfel, multe fenomene din tiin se petrec
astfel nct deviaiile stnga-dreapta de la medie ale msurtorilor pe care le facem sunt repartizate simetric
i nu oricum, ci tind s fie repartizate foarte asemntor cu o anumit curb, mult studiat, care se numete
curba densitii normale sau curba Gauss.
Astfel, aa cum se va vedea n cursul despre eantionare, media de eantionare, adic media calculat aa
cum a fost descris n cursul 1, are n anumite condiii o repartiie normal. n subcapitolele care urmeaz vor
fi descrise cteva din curbele de repartiie mai folosite i mai des ntlnite n practic.
Curbele de repartiie se bucur de cteva proprieti care le fac extrem de utile n statistic, aa cum se va
vedea n capitolele despre eantionare i despre testele statistice.

Aria cuprins ntre curb i axa orizontal este 1 sau 100% (vezi figura 13).

Probabilitatea ca, extrgnd aleator un individ dintr-o populaie a crei repartiie are o curb
cunoscut i fcnd msurarea pe acel individ, valoarea obinut x, s fie situat ntre dou numere a
i b fixate (xa i xb), este exact aria cuprins ntre curb, axa orizontal i cele dou verticale
n a i b (Vezi figura 14).

Figura 13. Aria cuprins ntre o curb de repartiie i axa orizontal


este totdeauna 1 sau 100%

Figura 14. Dac extragem aleator un individ dintr-o populaie care are curba de repartiie cunoscut, valoarea
msurat la acel individ este cuprins ntre dou numere reale a i b cu o probabilitate egal cu aria cuprins
ntre curb, axa orizontal i cele dou verticale n a i b.

Biostatistic - Cursul al III-lea

3. Densitatea Normal (Gauss)


Curba Gauss, sau clopotul lui Gauss a jucat n istoria tinei i joac i acum un rol foarte important, iar n
medicin foarte muli parametri legai de organismul uman, de legile fundamentale ale viului, sunt repartizai
dup aceast curb. Ce este de fapt aceast curb?
Formula curbei lui Gauss, este:

1
f ( x)
e
s 2

( x m)2
s2

(facultativ!!!)

Se observ c aceast curb depinde de doi parametri, m i s, i ea este perfect determinat n momentul n
care se cunosc aceti parametri. Deoarece curba descrie repartiia unei populaii, cei doi parametri reprezint
media (m) i abaterea standard (s) ale populaiei respective.
Graficul din figura 15, care este graficul unei curbe Gauss, ne arat c, spre centru probabilitile sunt cu att
mai mari cu ct suntem mai aproape de medie, iar spre margini probabilitile scad apropiindu-se de zero pe
msur ce ne ndeprtm din ce n ce mai mult de medie. Curba este simetric, niciodat ns simetria nu este
perfect pe o histograma particular sau pe un poligon al frecevenelor, dar curba ideal este perfect
simetric. Subliniem c prin curb ideal nelegem curba ctre care se ndreapt poligonul frecvenelor
cnd numrul de cazuri tinde la infinit iar lungimea claselor se apropie de zero. Uneori, graficul funciei este
denumit clopotul lui Gauss datorit formei lui deosebite, asemntoare unui clopot.

Figura 15 Curba repartiiei normale, sau curba lui Gauss. Are un maxim n dreptul mediei, dou puncte de
inflexiune (n dreptul valorilor m-s i m+s), tinde la zero pe msur ce ne ndeprtm de medie la stnga i la
dreapta.

***
(Facultativ). n analiza matematic se arat c graficul acestei funcii, cel din figura 15, are un maxim pentru
x=m i dou puncte de inflexiune (n care devine din concav, convex), la m-s i la m+s. Curba normal
mai este cunoscut sub denumirea de legea Gauss-Laplace sau legea normal i apare pentru prima dat ntro lucrare a matematicianului Moivre (1667 1754), apoi n lucrrile lui Pierre Simon de Laplace (1749
1827). Celebr este fcut de lucrrile matematicianului Gauss (1777 1855). Utilitatea acestei repartiii se
datoreaz mai multor cauze, printre care:

Multe fenomene aleatoare din natur se supun exact sau aproximativ acestei legi. Astfel, deviaiile
stnga-dreapta de la medie ale erorilor de msurare urmeaz aceast lege simetric i cu proprietatea
c, erori din ce n ce mai mari sunt din ce n ce mai rare.
10

Biostatistic - Cursul al III-lea

O teorem foarte important, teorema limit central, asigur acestei repartiii un rol privilegiat prin
faptul c suma unui numr mare de variabile aleatoare independente una de alta, dar identic
repartizate, este repartizat Gauss sau aproximativ Gauss. Aceast teorem ne asigur de
exemplu, de faptul c, media calculat pe un lot are o repartiie Gauss sau apropiat.

S-a demonstrat c multe repartiii empirice ntlnite n practic pot fi aduse la o repartiie Gauss prin
transformri simple i n felul acesta devin mai uor de studiat.

***
Trebuie reinut c repartiia Gauss are urmtoarele proprieti importante:
Este simetric fa de media m

Are dou puncte de inflexiune, la m-s i m+s

Are maximul pentru x = m

Are dou cozi spre + i infinit care se apropie din ce n ce mai mult de axa orizontal, fr s o
ating
Mediana i modul, coincid cu media

Deoarece mediana coincide cu media, jumtate din aria de sub curb se afl n stnga mediei i
jumtate n dreapta. Deci, ntr-o populaie repartizat Gauss, 50% din indivizi sunt sub medie i 50%
peste medie
Aria cuprins ntre curb i axa orizontal este 1 indiferent de medie i de deviaia standard.
Aria cuprins ntre curb, axa orizontal i dou verticale n dreptul numerelor a i b, este
probabilitatea ca, extrgnd aleator un individ din populaie i fcnd msurtoarea pe acel individ,
valoarea obinut x, s fie ntre a i b (Vezi figura 16).

Figura 16 Aria cuprins ntre curb, axa orizontal i dou verticale n dreptul numerelor a i b, este
probabilitatea ca, extrgnd aleator un individ din populaie i fcnd msurtoarea pe acel individ, valoarea
obinut x, s fie ntre a i b

Repartiia Gauss, este de fapt o famile de repartiii ce depinde cei doi parametri: media i deviaia standard.
n figura 17, sunt desenate cteva curbe de repartiie Gauss, mai mult sau mai puin aplatizate, dup cum
deviaia standard este mai mic sau mai mare.

11

Biostatistic - Cursul al III-lea

Figura 17 Diferite curbe Gauss mai mult sau mai puin aplatizate, aplatizarea fiind dat de valoarea deviaiei
standard, s. Cu ct valoarea lui s este mai mare, cu att curba este mai aplatizat. Cnd s ia valori mici, curba
este mai nalt.

Avem de asemenea, o infinitate de curbe Gauss care au aceeai deviaie standard dar au medii diferite. Ele
sunt identice ca form, doar sunt localizate diferit n plan i pot fi suprapuse prin translaii stnga-dreapta. n
figura 18, sunt desenate cteva curbe Gauss care difer numai prin medie. Avnd toate aceeai deviaie
standard, au aceeai aplatizare.

Figura 18. Curbe Gauss cu aceeai deviaie standard. Ele sunt la fel de aplatizate i pot fi suprapuse prin
translaii stnga-dreapta.

Dac fixm media dar permitem orice deviaie standard, exist o infinitate de curbe Gauss care au aceeai
medie. Ele sunt localizate identic stnga-dreapta, dar difer prin aplatizare mai mult sau mai puin
accentuat. n figura 19, sunt desenate 3 curbe Gauss cu aceeai medie i cu deviaiile standard 1, 1.2 i 1.5.

Figura 19. Trei curbe Gauss cu aceeai medie i deviaii standard diferite

***
(Facultativ). Aa cum am artat, repartiia normal sau Gaussian este des ntlnit n studiul fenomenelor
biologice i are unele proprieti utile. n biologie, una din problemele importante care se pun n legtur cu
datele pe care le msurm este aceea dac se ncadreaz sau nu n limitele de normalitate. Repartiia
normal ne poate ajuta s dm un rspuns acestei ntrebri, cel puin pentru acele date care sunt distribuite
normal. Dac o variabil are repartiie Gauss, atunci se poate stabili ct de plauzibil este media i deviaia
standard gsite prin msurtori pe un lot i se pot face comparaii cu mediile care ar trebui s fie obinute i
care sunt cunoscute din literatura de specialitate (vezi cursul despre eantionare i cel despre teste statistice
pentru amnunte).
Cunoscnd despre o variabil c are repartiie Gauss, se pot deduce unele afirmaii despre valorile pe care le
poate lua. Cum folosim aceast repartiie pentru a deduce anumite concluzii despre variabila care ne
intereseaz? Dup cum am mai afirmat, pentru o variabil repartizat normal, procentul din populaie situat
ntre dou limite date este aria cuprins ntre curba Gauss, axa orizontal i cele dou verticale la limitele
fixate. De obicei se consider intervalele n jurul mediei, simetrice, cu limite situate la o distan de una sau
mai multe abateri standard de medie.

***
Sunt eseniale urmtoarele proprieti ale curbei Gauss, proprieti care nu sunt valabile la alte tipuri de
distribuii:
12

Biostatistic - Cursul al III-lea

n intervalul m-s, m+s se afl aproximativ 68% din indivizii unei populaii repartizate normal (vezi figura
20). Aceasta ns nu este o majoritate suficient de mare pentru a fi aproape de siguran dac ne ntrebm
ntre ce limite sunt situate valorile msurate pentru indivizii din populaie.

Figura 20. ntre m-s, m+s se afl aproximativ 68% din indivizii unei
populaii repartizate normal

De aceea se ia cel mai adesea n considerare intervalul m-2s, m+2s n care se situeaz aproximativ 95% din
indivizii unei populaiei repartizate normal. Acest interval este suficient de larg i cuprinde o majoritate
zdrobitoare a populaiei aa c este cel mai indicat s fie folosit ca interval de normalitate.

Figura 21. ntre m-2s, m+2s se afl aproximativ 95% din indivizii unei
populaii repartizate normal

Uneori, se iau intervale mai cuprinztoare, ca m-3s, m+3s, interval n care se situeaz peste 99% din
populaia considerat (vezi figura 22).

Figura 22. ntre m-3s, m+3s se afl peste 99% din indivizii unei
populaii repartizate normal

Chiar dac se consider de obicei c pentru variabilele folosite uzual n practica medical valorile medii sunt
cunoscute i se cunosc i aa-numitele intervale de normalitate, n realitate se cunosc doar foarte bune
aproximri ale lor obinute pe baza unor studii foarte atente, pe loturi largi. Valorile reale ale mediei i
deviaiei standard pentru o populaie distribuit normal, notate cu m i s, sunt aproximate cu X i care
sunt indicatorii medie i abatere standard pentru un lot extras din populaia respectiv.
Cum se stabilete ct de bune sunt aceste aproximri, care se mai numesc estimri, se va vedea n cursul
despre estimaii. Oricum, se folosesc din plin proprietile distribuiei Gaussiene.
Importana repartiiei normale
Dup cum s-a vzut, cunoaterea unei repartiii n general este util deoarece se pot verifica i elimina
valorile aberante, se pot verifica limitele de normalitate, etc. Dac tim c o variabil are o distribuie Gauss
cu media m i deviaia standard s, atunci aproximativ 99,5% din valorile acelei variabile sunt n intervalul
[m-3s, m+3s].
Deci, putem considera c ntr-un eantion de dimensiune destul de mare, de cteva sute de cazuri, apariia de
valori n afara acestui interval este aberant, adic, n principiu ar trebuie eliminate. Pe de alt parte valorile
pe care le considerm normale se ncadreaz n aa-numitul interval de normalitate care este aproximativ [m13

Biostatistic - Cursul al III-lea

2s, m+2s]. Mai mult, avnd o valoare dat, putem cere s se verifice ct de verosimil este ca ea s provin
dintr-o populaie cu distribuia Gauss, cu media m i abaterea standard s.
Regula celor 3 sigma. Deoarece n intervalul care se obine prin scderea i adunarea a trei sigma la medie
este cuprins o arie de aproximativ 99,74% din toat aria de sub curba normal, n eantioane ce nu depesc
anumite limite de volum, n mod normal nu exist nici o valoare care s fie n afara intervalului celor trei
sigma. De aceea n general, aceste valori, atunci cnd totui apar, sunt considerate aberante i sunt eliminate.
Eliminarea valorilor aberante nu se face automat i fr o judecat pentru fiecare astfel de valoare n parte.
Totui, uneori se elimin ca aberante valori care nu numai c se afl n afara intervalului celor trei sigma, dar
sunt foarte departe de marginile acestui interval. O teorem celebr, datorat lui Cebev spune c, indiferent
de distribuie, valorile sunt practic situate ntre media plus-minus ase abateri standard. Deci ceea ce iese din
acest interval trebuie oricum eliminat automat ca aberant.
Regula celor 2 sigma. n mod asemntor cu regula celor trei sigma, valorile situate n intervalul obinut
prin adunarea i scderea a dou valori ale lui sigma la m, sunt considerate ca valori normale. n acest
interval se gsesc aproximativ 95,44% din indivizii unei populaii, dac populaia are o distribuie Gauss.
Aceasta este considerat o majoritate suficient pentru a lua acest interval ca interval de normalitate.
Ar rezulta c se pot n acest fel construi intrevale de normalitate practic pentru orice tip de variabil
distribuit Gauss. Din pcate, n practic lucrurile nu stau deloc aa. Intervalul de normalitate se construiete
folosind media i deviaia standard ale repartiiei Gauss considerate. Dar aceti parametri sunt de obicei
necunoscui. De aceea, intervalele de normalitate puse la dispoziie de manuale i tratatele tiinifice sunt
calculate pe eantioane foarte mari, astfel ca media i abaterea standard de eantionare s aib valori foarte
apropiate de cele reale i sunt folosite n locul mediei i deviaiei standard ale ntregii populaii.
Intervalele de normalitate obinute astfel nu au valoarea tiinific pe care le-ar avea cele care folosesc
valorile exacte i nu pe cele aproximative. Totui ele sunt singurele pe care le avem la dispoziie i nimic mai
bun nu putem pretinde dect mbuntirea acestor intervale imprecise. De aceea se verific n permanen
modul n care un eantion se nscrie sau nu n intervalele de normalitate citate n literatura de specialitate.
Sunt uneori situaii n care surse diferite dau ca intervale de normalitate valori uor schimbate, dup autorul
sau studiul care le-a obinut. Micile diferene apar tocmai din faptul c se folosesc valori aproximative n
locul celor exacte.

4. Grade de libertate
Noiunea de grad de libertate este oarecum similar celei din problemele de mecanic. Anume, dac un punct
se afl pe o ax, se spune despre el c are un grad de libertate, pentru c nu putem s modificm la un
moment dat dect distana lui pn la origine. Dac ns punctul se afl ntr-un plan atunci el are dou grade
de libertate, cci se pot modifica independent unul de altul, adic liber, dou mrimi, abscisa lui i ordonata.
Dac se afl n spaiu, are trei grade de libertate conform celor trei dimensiuni care exprim poziia lui i care
se pot modofica liber. Dac un punct se mic pe o ax, atunci i se asociaz uneori trei grade de libertate
deoarece micarea este descris complet dac tim poziia lui, viteza i acceleraia. Deci el este caracterizat la
un moment dat de trei numere. Un punct care se mic n spaiu, este uneori modelat ca avnd nou grade de
libertate, trei pentru poziie, trei pentru vitez i trei pentru acceleraie.
Dac punctul este supus la anumite legturi care l oblig s se mite numai ntr-un anumit fel, are mai puine
grade de libertate. De exemplu, dac obligm un punct s se mite n spaiu, dar pe o sfer, nu mai are nou
grade de libertate ci numai ase.
ntr-un fenomen mai complex dect micarea unui punct putem avea mult mai multe grade de libertate. De
exemplu, dac dou puncte se afl pe o ax, sistemul format din cele dou puncte are dou grade de libertate.
Dac sunt 100 de puncte, avem 100 de grade de libertate, deoarece avem posibilitatea de a alege locul celor
100 de puncte independent unul de altul, oriunde pa ax.
n general, dac alegem n numere reale, sau le obinem printr-o operaie de msurare, avem n grade de
libertate, deoarece este ca i cnd am fixa n puncte, n mod liber pe o dreapt.
n statistic, se consider c dac se iau n calcul n valori independente una de alta, avem n grade de libertate.
Deoarece n general n studiile statistice, indivizii pe care se fac msurtorile sunt alei aleator i se msoar
14

Biostatistic - Cursul al III-lea

parametri cum ar fi hemoglobina sau calcemia sau glicemia, etc, nu avem nici un motiv s credem c valorile
obinute nu sunt independente. E ca i cum am pretinde c valoarea obinut pentru glicemia pacientului x are
o strns legtur cu valoarea pentru pacientul y, ceea ce este absurd.
Mai pe scurt, n msurtorile dedicate studiului statistic, de obicei avem relaia:
La n pacieni pe care s-au fcut msurtori avem n msurtori independente i deci n grade de libertate.
De exemplu, atunci cnd calculm media de eantionare pentru un eantion de n indivizi, aven n grade de
libertate.
Dac totul ar fi aa de simplu, nu ar mai avea rost toat discuia despre gradele de libertate. Dar nu totdeauna
n indivizi ntr-un eantion nseamn n grade de libertate. De exemplu, dac dorim s calculm dispersia de
eantionare pe un eantion de n indivizi, avem n-1 grade de libertate. Aceasta deoarece n calculul dispersiei
intervine i media de eantionare care se comport ca o legtur i reduce cu 1 numrul de grade de libertate.
Aceast reducere care se datoreaz faptului c ne este cunoscut media de eantionare, i are o asemnare cu
un fapt banal, care, n parte o i explic.
Dac un elev are notele 8, 8, 9, 10, 10, va avea media 9. Dar dac are notele 8, 8, 9, 10 i se ntrab ce not
trebuie s ia, astfel ca media s fie exact 9, va ajunge la concluzia c ultima not trebuie s fie 10. Aadar,
aceast ultim not nu este oarecare, ea depinde de celelalte i de medie. Aa se petrec lucrurile i cnd
calculm dispersia. Una din valori nu este independent, depinde de celelalte i de medie. Doar n-1 din valori
sunt independente, deci avem n-1 grade de libertate.

5. Densitatea Student
Este o repartiie care intervine mult n aplicaiile referitoare la testele statistice. Are o form simetric i
seamn ca aspect cu distribuia Gauss standard.
Este n realitate o familie infinit de repartiii, pentru fiecare n, numr de grade de libertate (df), avnd o
form diferit.
Aceast densitate are proprietatea c are un maxim n 0 i este simetric stnga-dreapta lui 0, ca form. Are
un aspect cu att mai aplatizat cu ct numrul de grade de libertate este mai mic. Dei pare s se asemene cu
curba lui Gauss, a densitii normale, n realitate, ntre ele este o diferen. Cnd numrul de grade de
libertate tinde la infinit, aspectul ei se apropie tot mai mult de forma repartiiei Gauss.

Figura 24. Curbe de repartiie Student corespunztor la 3, 6 i n>120 grade de libertate. Pentru n>120, forma curbei este
practic aceeai cu cea a curbei normale standard i nu se mai schimb odat cu n.

6. Chestiuni de examen:
1. Histograma este un grafic ce reprezint :
A. Frecvenele absolute ale unui tabel de frecven
B. Fiecare valoare n parte dintr-o serie de valori
C. Frecvena cu care valorile seriei sunt cuprinse n clasele stabilite la construcia ei
D. Indicatorii tendinei centrale a seriei
2. O histogram reprezint informaia dintr-o serie de valori :
A. Fr pierdere de informaie
B. Cu pierdere de informaie
C. Se pierde cu att mai mult informaie cu ct sunt mai puine clase
15

Biostatistic - Cursul al III-lea

D. Se pierde cu att mai mult informaie cu ct clasele au lungimi mai mari


3. Valorile hemoglobinei la 250 de pacieni sunt cuprinse ntre un minim de 7,9 i un maxim de 15,95. Dac
dorim s avem n jur de 9 clase i deci, 9 bare, vom lua lungimea claselor :
A. Din 2 n 2
B. Din 3 n 3
C. Din 1 n 1
D. Din 0,5 n 0,5
4. Seria de valori ce conine talia a 1132 de indivizi, are ca minim talia de 1,44m iar ca maxim, talia de
2,06m. Dorind s efectum o histogram cu cel puin 12 bare (deoarece numrul de indivizi este mare), vom
lua lungimea claselor :
A. Din 2 cm n 2 cm
B. Din 5 cm n 5 cm
C. Din 10 cm n 10 cm
D. Din 1 cm n 1 cm
5. Dac la efectuarea unei histograme, am ales din greal un numr de clase (i deci de bare) prea mare,
efectul este:
A. Se pierde mai puin informaie
B. Se vd inclusiv aspecte nesemnificative
C. Se pierde prea mult informaie
D. Se vor vedea doar aspectele eseniale, eliminndu-se aspectele nesemnificative
6. Poligonul frecvenelor este:
A. Un indicator statistic care arat dispersia valorilor dintr-o serie de valori
B. Un grafic care reprezint printr-o linie frnt frecvenele claselor dintr-un tabel de frecven
C. Un grafic care conine exact aceeai informaie ca i histogram corespunztoare
D. Un grafic care conine mai puin informaie ca i histograma corespunztoare
7. Curba lui Gauss este o curb care este:
A. Simetric fa de medie
B. Simetric fa de axa vertical
C. Are un maxim n dreptul mediei
D. Tinde asimptotic la 0 spre plus infinit i spre minus infinit
8. n ce privete curba Gauss este adevrat c:
A. n intervalul m s, m s se afl aproximativ 68% din indivizii populaiei
B. n intervalul m 2 s, m 2 s se afl aproximativ 95% din indivizii populaiei
C. n intervalul m 3s, m 3s se afl aproximativ 99% din indivizii populaiei
D. n intervalul m 2 s, m 2 s se afl aproximativ 90% din indivizii populaiei
9. Dac comparm o histogram i poligonul frecvenelor corespunztor, atunci:
A. Conine mai mult informaie histograma
B. Conine mai mult informaie poligonul frecvenelor
C. Conin amndou aceeai cantitate de informaie

16

S-ar putea să vă placă și