Sunteți pe pagina 1din 17

Biostatistic - Cursul al IV-lea

CURSUL AL IV-LEA
1 Reprezentarea grafic a datelor statistice - Consideraii generale
Sunt dou metode de baz n statistic: numeric i grafic. Folosind metoda numeric putem calcula
statistici ca media i deviaia standard. Aceste statistici poart informaie despre tendina central i
variabilitate, altele poart alt tip de informaie. Metoda grafic este mai potrivit dect cea numeric pentru
identificarea vizual a tendinei datelor. Metoda numeric este mai obiectiv i mai precis. De vreme ce se
completeaz una pe alta, este util s le folosim combinat.
Informaia coninut n date culese i nregistrate este dup cum s-a vzut n capitolul despre indicatori
statistici, greu de sintetizat pentru a avea o imagine ct mai clar despre situaia pe care acestea o reflect.
Indicatorii statistici ofer o sintez mai mult sau mai puin fidel a informaiei, pierznd inerent din
informaie. Totui, pierderea de informaie datorat nlocuirii unei serii de valori prin indicatorii si nu este
totdeauna o pierdere de care s ne ferim, din contr, de cele mai multe ori, indicatorii statistici ofer o
imagine mai util dect datele n sine. De obicei, pierderea de informaie este un ru necesar.
De la nceputurile statisticii, o metod de sintetizare a informaiei mult folosit este reprezentarea grafic a
datelor. Informaia prezentat vizual este mult mai penetrant pentru simuri i chiar pentru intelect i de
obicei o imagine bun este mai util ca o mie de cifre . Reprezentarea grafic a datelor se face ns cu
mult discernmnt cci, aa cum se va vedea mai jos, nu orice grafic ne spune ceva, iar cantitatea de
informaie care se pierde la reprezentare trebuie foarte atent controlat.
De-a lungul timpului au fost folosite multe tipuri de grafice perntru a reprezenta ct mai bine informaia
coninut n date. Cele mai des folosite grafice sunt histograma, graficul cu bare, poligonul frecvenelor,
graficul liniar de evoluie n timp, diagrame, grafice punctuale etc.
Pentru o mai bun nelegere s discutm nti cazul unui tip de grafic care a fcut carier n toate domeniile
de aplicabilitate ale statisticii: histograma.

2. Graficul histogram
Ca i concept, histograma este de fapt echivalentul grafic al tabelului de frecvene. Mai nti s lucrm pe un
exemplu concret i apoi s urmrim problemele specifice care pot face din histogram un instrument util de
lucru sau un balast.
Avem mai jos un tabel care sintetizeaz situaia parametrului Greutate corporal la 1014 pacieni cu
diferite afeciuni:
Tabelul 1 Greutatea corporal a 1014 pacieni cu diferite afeciuni,
pe clase din 5kg n 5kg

Frecvena
Clasa

Greutate(Kg)

(Nr indivizi)

1
2
3
4
5
6
7
8
9
10
11
12
13

35..40
40..45
45..50
50..55
55..60
60..65
65..70
70..75
75..80
80..85
85..90
90..95
95..100

17
46
84
108
130
136
160
113
106
54
29
12
9

Biostatistic - Cursul al IV-lea

Acum s privim graficul din figura 1, care reprezint situaia din tabel:

Figura 1 Histograma greutilor corporale a 1014 pacieni cu diferite afeciuni

Mai nti, ce s-a reprezentat de fapt? Se oserv c pe orizontal sunt figurate clasele din tabel n ordine,
fiecreia fiindu-i alocat un segment de aceeai lungime, iar pe vertical, dreptunghiurile au nlimi
proporionale cu frecvenele absolute ale claselor. Mulimea barelor verticale este cea care ne d impresia
vizual pe care trebuie s o interpretm n sensul sitetizrii informaiei. Observm:
Din stnga se ncepe cu bare scunde care cresc n nlime pe msur ce ne apropiem de clasa din centru,
dup care are loc un proces invers. Este tendina natural la cele mai multe situaii. Datele au de cele mai
multe ori tendina de a se situa n stnga i drepta mediei, din ce n ce mai puine pe msur ce ne deprtm
de medie. Pe acest grafic nu este figurat media dar este de bun sim s ne gndim c este situat undeva n
clasele de mijloc.
Indivizii care au sub 35 Kg i cei peste 100 Kg, probabil foarte puini, nu au fost luai n calcul. Se
obinuiete totui ca ei s fie luai n considerare prin introducerea a dou clase speciale. n acest caz, clasele
speciale de introdus ar fi fost: clasa sub 35 i clasa peste 100. De obicei aa este bine s se procedeze.
Modul cum cresc barele este diferit de modul cum descresc. Aceasta este ceea ce se numea la indicatorii
statistici asimetria. Aceast histogram arat o uoar asimetrie la dreapta. Dac indivizii de la care s-au
cules datele ar fi fost normali, histograma ar fi avut un aspect mai simetric. Asimetria acestei hitograme ne
arat c n clasele de la 40 la 65 kg sunt mai muli indivizi dect n clasele simetrice lor de la 75 la 90 kg.
Avnd n vedere c majoritatea lor sunt brbai, acest asimetrie ne spune c un numr de indivizi au
greutatea mai mic dect ar fi normal. Acest lucru este explicabil n acest caz, deoarece cei mai muli au
afeciuni hepatice grave ca ciroz hepatic, cancer hepatic, i sunt ntr-o stare fizic mult slbit.
n acest caz, am explicat forma histogramei pe baza realitii. De obicei ns se ntmpl exact invers.
Histograma este aceea care ne ajut s nelegem mai bine realitatea.
Pentru a realiza diferena dintre o distribuie simetric i una asimetric, s transpunem ntr-o histogram
situaia din tabelul 2, care sistematizeaz situaia supravieuirilor n cazurile de cancer mamar pe un lot de
2456 de pacieni.
Tabelul 2 Situaia supravieuirilor n cazurile de cancer mamar. Gruparea n clase de 12 luni

Nr.Crt

Perioada

Nr.cazuri

Procent %

Procent Cumulat %

1
2
3
4
5
6
7
8
9
10
11

0..12 luni
12..24 luni
24..36 luni
36..48 luni
48..60 luni
60..72 luni
72..84 luni
84..96 luni
96..108 luni
108..120 luni
Peste 120 luni

672
446
368
249
196
172
126
98
45
31
52

27.36
18.16
15.00
10.14
8.00
7.00
5.13
4.00
1.83
1.26
2.12

27.36
45.52
60.52
70.66
78.66
85.66
90.79
94.79
96.62
97.88
100.00

Biostatistic - Cursul al IV-lea

n figura 2, este reprezentat histograma corespunztoare pentru tabelul 2. Se observ c barele histogramei
au nlimi descresctoare ntocmai ca i frecvenele absolute ale claselor.

Figura 2 Histograma corespunztoare pentru tabelul 2. Se observ c barele histogramei au nlimi


descresctoare ntocmai ca i frecvenele absolute ale claselor

Se observ la aceast histogram c are o asimetrie foarte puternic spre dreapta. Vom considera totdeauna
(ca o convenie), s spunem c o histogram arat asimetria spre partea unde descreterea este mai lent.
Tendina observat n aceast histogram este normal, avnd n vedere fenomenul surprins. Procesele de
supravieuire sunt de obicei marcate de o distribuie a valorilor cu excentricitate spre dreapta, adic spre
supravieuiri lungi.
Pentru o familiarizare cu acest tip de grafic foarte important, s urmrim cteva situaii culese din practica
medical. n figura 3, avem reprezentat histograma tensiunii arteriale la 593 de pacieni cu diferite
afeciuni. Se observ o excentricitate puternic, spre dreapta. n figura 4 avem histograma valorilor
hemoglobinei la 738 de pacieni cu diferite afeciuni. Se observ o distribuie a valorilor mai simetric dect
n figurile 2 i 3. n figura 5 se vede histograma taliei la 1042 pacieni pe clase din 5cm n 5cm. Este un
exemplu de distribuie cu o uoar asimetrie spre stnga, mai rar ntlnit n practic. Figura 6 prezint
histograma vrstelor la 308 pacieni cu afeciuni hepatice. Se observ c graficul are dou vrfuri. Se spune
despre acest tip de distribuie a datelor c este bimodal. Este un lot neomogen, alctuit din dou subloturi,
unul cu maximul n jurul vrstei de 45 50 de ani i cellalt n jurul vrstei de 65 70 de ani. n practic se
ntlnesc rar astfel de situaii. n mod normal, ntr-un asemenea caz, se studiaz fiecare sublot n parte din
punctul de vedere al vrstei

Figura 3 Histograma tensiunii arteriale la 593 de pacieni cu diferite afeciuni. Se observ o


excentricitate puternic, spre dreapta

Biostatistic - Cursul al IV-lea

Figura 4 Histograma valorilor hemoglobinei la 738 de pacieni cu diferite afeciuni. Se observ o


distribuie a valorilor ma simetric dect n figurile 5.2 i 5.3.

Figura 5 Histograma taliei la 1042 pacieni pe clase din 5cm n 5cm. Este un exemplu de distribuie cu o
uoar asimetrie spre stnga, mai rar ntlnit n practic.

Figura 6 Histograma vrstelor la 308 pacieni cu afeciuni hepatice. Se observ c graficul are dou vrfuri. Se spune
despre acest tip de distribuie a datelor c este bimodal. Este un lot neomogen, alctuit din dou subloturi, unul cu
maximul n jurul vrstei de 45 50 de ani i cellalt n jurul vrstei de 65 70 de ani. n practic se ntlnesc rar
astfel de situaii. n mod normal, ntr-un asemenea caz, se studiaz fiecare sublot n parte.

Biostatistic - Cursul al IV-lea

Poligonul frecvenelor
Este un grafic care reprezint frecvenele absolute dintr-un tabel de frecven printr-o linie frnt. Clasele se
realizeaz ca i la histogram. Linia frnt, leag puncte din plan care au ca ordonate frecvenele de
reprezentat, iar ca abscise, mijloacele claselor. Graficul se poate realiza i din histogram, prin unirea
mijloacelor laturilor superioare ale barelor.
n figura 7 este reprezentat un exemplu de modul cum se obine poligonul frecvenelor din histogram.

Figura 7 Poligonul frecvenelor obinut prin unirea mijloacelor laturilor superioare ale barelor unei histograme.

n figura 8 este reprezentat poligonul frecvenelor pentru greutatea a 1042 de pacieni cu diferite afeciuni,
din 5 n 5 Kg.

Figura 8 Poligonul frecvenelor pentru greutatea a 1042 de pacieni cu diferite afeciuni, cu clase din 5 n 5 Kg.

Dei ofer o imagine vizual foarte bun a modului cum sunt distribuite valorile din serie pe clase, poligonul
frecvenelor este mai puin folosit dect histograma, care ofer i ea tot informaia despre distribuia valorilor din serie
pe clase. Aceasta deoarece histograma pare ochiului un grafic mai bogat. n realitate, ntre cele dou grafice, nu exist o
diferen calitativ. Ele ofer aceeai informaie.

ATENIE! Graficul histogram i graficul poligonul frecvenelor, conin exact aceeai cantitate de
informaie, dac au la baz acelai tabel de frecvene.
Semnificaia statistic a histogramei
Histograma este influenat de factori aleatori n ce privete forma, deci ne poate da o informaie mai mult
sau mai puin valoroas n funcie de aceti factori. Ca i n cazul celorlali indicatori statisitici, vom
considera histograma ca avnd nmagazinat informaie cu att mai corect cu ct avem un numr mai mare
de indivizi n lotul pe care ea l reprezint.
n figurile urmatoare sunt reprezentate o serie de histograme construite pe un lot de 738 de pacieni, la care sa msurat hemoglobina.

Biostatistic - Cursul al IV-lea

n figura 9, este exemplificat influena lungimii claselor asupra aspectului unei histograme. La fiecare
histogram, s-au folosit 738 de valori. Ceea ce se modific de la histogram la histogram este
lungimea claselor i, implicit numrul de clase. Se observ c lungimi prea mari (din 5 n 5, din 4 n 4,
din 3 n 3, din 2 n 2 i din 1,5 n 1,5) dau histograme care ascund distribuia. Lungimi prea mici ( din
0,5 n 0,5, din 0,25 n 0,25) dau prea multe detalii inutile. Cele mai potrivite lungimi n acest caz sunt
din 1 n 1 i din 0,75 n 0,75.

Figura 9 Influena lungimii claselor asupra aspectului unei histograme. Lungimea corect n acest caz
este din 1 n 1

Alegerea numrului de clase. De obicei, programele de calculator realizeaz histograme dup ce


utilizatorul a furnizat lungimea clasei. Pentru a nu ajunge n situaii cnd un astfel de tabel are un numr total
neindicat de clase, de obicei se calculeaz lungimea aproximativ a unei clase n aa fel nct numrul de
clase s fie cel dorit. Acest lucru se poate realiza dac se caut cea mai mic i cea mai mare valoare din
seria de date (notate mai jos cu min i max), i se ia ca lungime a unei clase, aproximativ rezultatul
urmtorului calcul:

L=

max min
nr . clase

De exemplu, dac n seria vrstelor unor pacieni, cel mai tnr pacient are 26 de ani, iar cel mai vrstnic are
78, pentru a obine 6 clase (numr de clase indicat pentru vrste de aduli), avem L= (78 - 26) / 6 = 8,6. Deci
este indicat s se ia clase de 10 ani, prin rotunjire. Dac ns se doresc mai multe clase, s zicem 10, atunci
obinem: L = (78 - 26) / 10 = 5,2 i este indicat s se ia clase din 5 n 5 ani. Prima clas va fi [25,30), iar
urmtoarele: [30, 35), [35, 40),.[75, 80).
Numrul de clase nu este neaprat 10, el se alege de fapt de ctre cel care face histograma, astfel ca s se
piard ct mai puin informaie, dar i numrul de clase s nu fie prea mare cci atunci lum n considerare
aspecte prea nesemnificative.
Ca regul general, este bine s se rein c:
Se pierde cu att mai mult informaie cu ct numrul de clase este mai mic. Nu se recomand
histograme cu 2-4 clase
Un numr prea mare de clase duce la o ascundere a esenialului de ctre aspectele nesemnificative
6

Biostatistic - Cursul al IV-lea

ntruct cei care nu au experien nu tiu cum s aleag numrul de clase, recomandm:
Pentru cteva zeci de valori, s se aleag maximum 6 8 clase
Pentru cteva sute de valori, s se aleag ntre 10 i 15 clase
Pentru cteva mii de valori, s se aleag peste 15 clase
Nu se recomand folosirea a mai mult de 20 30 de clase dect n cazuri speciale, n studii cu multe mii de
cazuri. Nici mai puin de 4 6 clase nu este recomandat s se foloseasc. Nu se recomand folosirea
histogramelor dac nu avem cel puin cteva zeci de valori. De exemplu, pentru o serie de 15 valori, nu se
face o histogram.
Alte exemple: Dac avem de reprezentat printr-o histogram valorile pentru hemoglobin, iar minimul este
8,13 iar maximul este 16,23, atunci, pentru a obine 10 clase, vom face calculul:
L=

max min 16,23 8,13 8,1


=
= 0,81
=
10
10
nr.clase

n acest caz, vom rotunji la 1 i vom lua clasele din 1 n 1, ncepnd de la 8: [8, 9), [9,10), [16,17).
n cazul Imunoglobulinei G, din cei 235 de pacieni, valoarea minim a fost 112, n timp ce maximul a fost
900. Dac dorim tot 10 clase, atunci calculul este

L=

max min 900 112 888


=
=
= 88,8
nr.clase
10
10

Vom lua clasele din 100 n 100, ncepnd de la 100: [100,200), [200,300) . [800,900), [900-1000).

3. Curba densitii de probabilitate


S-a vzut c histograma este un grafic care d informaii despre repartizarea valorilor dintr-o serie de valori,
care arat dac valorile din serie sunt repartizate simetric sau asimetric i dac repartiia are un singur vrf
sau este multimodal.
S ne imaginm c pe msur ce mrim indefinit numrul de valori din serie, lungimea claselor scade foarte
mult, astfel nct obinem histograme din ce n ce mai fine. Ce se obine prin acest proces? O apropiere din
ce n ce mai accentuat de repartiia real a datelor, repartiie pe care histogramele o aproximeaz din ce n ce
mai bine. Histogramele ofer imaginea repartizrii valorilor dintr-o serie, deci o imagine incomplet a
realitii. ntr-adevr, valorile dintr-o serie de date sunt culese pe un eantion sau lot, care este de obicei
extras dintr-o populaie mult mai numeroas. Ceea ce ne intereseaz de obicei ns, este modul cum se
repartizeaz valorile din ntreaga populaie.
n figura 10, este dat un exemplu de serie de valori foarte mare, alctuit din 10000 de valori. n acest caz,
lotul pe care s-au fcut msurtorile poate fi numit populaie, numrul de indivizi fiind foarte mare.

Figura 10 Folosind o serie de 10000 de valori, se pot face histograme din ce n ce mai fine, care trec de la aspectul de
treapt, la acela de curb

Biostatistic - Cursul al IV-lea

Pe msur ce histogramele devin din ce n ce mai fine, ele tind s se asemene cu o curb. Dac volumul
seriei ar fi mult mai mare, asemnarea cu o curb ar fi att de clar nct ochiul nu ar mai putea observa
aspectul de treapt. Acest proces este vizibil n special atunci cnd n locul histogramelor folosim
poligoane ale frecvenelor. n figura 11, sunt reprezentate poligoanele frecvenelor efectuate pe valorile din
seria folosit n figura 10. La fiecare grafic s-au folosit o parte din valorile seriei, anume: la primul grafic
1000 de valori, la al doilea grafic 2000 de valori, i aa mai departe pn la ultimul grafic, care este executat
folosind toate cele 10000 de valori din serie.

Figura 11. Procesul de trecere de la poligonul frecvenelor la curba de distribuie

Acest mod de a ajunge la o curb a densitii de probabilitate (sau o curb de repartiie) este instructiv prin
faptul c ofer o imagine intuitiv a diferenei dintre o histogram sau un poligon al frecvenelor i o curb
de repartiie. n plus, ofer o ideie despre cum arat curba de repartiie.
Strict vorbind ns, noiunea de curb a densitii de probabilitate, trebuie introdus folosind un aparat
teoretic mai complex. Deoarece o introducere fundamentat ar depi nivelul cursului de fa, vom
considera, intuitiv, fr a pretinde c aceasta este o definiie riguroas, c:
O curb a densitii de repartiie este curba care are acelai aspect cu curba ctre care tinde
poligonul frecvenelor relative, atunci cnd numrul de valori dintr-o serie tinde la infinit, iar
lungimea fiecrei clase tinde la 0.
Pentru o exprimare mai clar, atunci cnd nu exist pericolul unor confuzii, n locul termenului de curb a
densitii de probabilitate, vom folosi termenul de curb de repartiie, sau mai simplu, repartiie.
8

Biostatistic - Cursul al IV-lea

n medicin i biologie, ca i n celelalte domenii de activitate, exist o varietate larg de curbe ale densitii
de probabilitate. n figura 12, sunt prezentate cteva forme de astfel de curbe, simetrice, asimetrice cu
asimetri stng, cu asimetrie dreapt, etc.

Figura 12 Diverse forme ale curbei densitii de probabilitate

Pe msur ce statistica a evoluat ca tiin, s-a demonstrat c unele din curbele densitii de probabilitate
joac un rol central n tiin n general i n medicin n special. Astfel, multe fenomene din tiin se petrec
astfel nct deviaiile stnga-dreapta de la medie ale msurtorilor pe care le facem sunt repartizate simetric
i nu oricum, ci tind s fie repartizate foarte asemntor cu o anumit curb, mult studiat, care se numete
curba densitii normale sau curba Gauss.
Astfel, aa cum se va vedea n cursul despre eantionare, media de eantionare, adic media calculat aa
cum a fost descris n cursul 1, are n anumite condiii o repartiie normal. n subcapitolele care urmeaz vor
fi descrise cteva din curbele de repartiie mai folosite i mai des ntlnite n practic.
Curbele de repartiie se bucur de cteva proprieti care le fac extrem de utile n statistic, aa cum se va
vedea n capitolele despre eantionare i despre testele statistice.

Aria cuprins ntre curb i axa orizontal este 1 sau 100% (vezi figura 13).

Probabilitatea ca, extrgnd aleator un individ dintr-o populaie a crei repartiie are o curb
cunoscut i fcnd msurarea pe acel individ, valoarea obinut x, s fie situat ntre dou numere a
i b fixate (xa i xb), este exact aria cuprins ntre curb, axa orizontal i cele dou verticale
n a i b (Vezi figura 14).

Figura 13. Aria cuprins ntre o curb de repartiie i axa orizontal


este totdeauna 1 sau 100%

Figura 14. Dac extragem aleator un individ dintr-o populaie care are curba de repartiie cunoscut, valoarea
msurat la acel individ este cuprins ntre dou numere reale a i b cu o probabilitate egal cu aria cuprins
ntre curb, axa orizontal i cele dou verticale n a i b.

Biostatistic - Cursul al IV-lea

4. Densitatea Normal (Gauss)


Curba Gauss, sau clopotul lui Gauss a jucat n istoria tinei i joac i acum un rol foarte important, iar n
medicin foarte muli parametri legai de organismul uman, de legile fundamentale ale viului, sunt repartizai
dup aceast curb. Ce este de fapt aceast curb?
Formula curbei lui Gauss, este:

1
f ( x) =
e
s 2

( x m) 2
s2

(facultativ!!!)

Se observ c aceast curb depinde de doi parametri, m i s, i ea este perfect determinat n momentul n
care se cunosc aceti parametri. Deoarece curba descrie repartiia unei populaii, cei doi parametri reprezint
media (m) i abaterea standard (s) ale populaiei respective.
Graficul din figura 15, care este graficul unei curbe Gauss, ne arat c, spre centru probabilitile sunt cu att
mai mari cu ct suntem mai aproape de medie, iar spre margini probabilitile scad apropiindu-se de zero pe
msur ce ne ndeprtm din ce n ce mai mult de medie. Curba este simetric, niciodat ns simetria nu este
perfect pe o histograma particular sau pe un poligon al frecevenelor, dar curba ideal este perfect
simetric. Subliniem c prin curb ideal nelegem curba ctre care se ndreapt poligonul frecvenelor
cnd numrul de cazuri tinde la infinit iar lungimea claselor se apropie de zero. Uneori, graficul funciei este
denumit clopotul lui Gauss datorit formei lui deosebite, asemntoare unui clopot.

Figura 15 Curba repartiiei normale, sau curba lui Gauss. Are un maxim n dreptul mediei, dou puncte de
inflexiune (n dreptul valorilor m-s i m+s), tinde la zero pe msur ce ne ndeprtm de medie la stnga i la
dreapta.

***
(Facultativ). n analiza matematic se arat c graficul acestei funcii, cel din figura 15, are un maxim pentru
x=m i dou puncte de inflexiune (n care devine din concav, convex), la m-s i la m+s. Curba normal
mai este cunoscut sub denumirea de legea Gauss-Laplace sau legea normal i apare pentru prima dat ntro lucrare a matematicianului Moivre (1667 1754), apoi n lucrrile lui Pierre Simon de Laplace (1749
1827). Celebr este fcut de lucrrile matematicianului Gauss (1777 1855). Utilitatea acestei repartiii se
datoreaz mai multor cauze, printre care:

Multe fenomene aleatoare din natur se supun exact sau aproximativ acestei legi. Astfel, deviaiile
stnga-dreapta de la medie ale erorilor de msurare urmeaz aceast lege simetric i cu proprietatea
c, erori din ce n ce mai mari sunt din ce n ce mai rare.
10

Biostatistic - Cursul al IV-lea

O teorem foarte important, teorema limit central, asigur acestei repartiii un rol privilegiat prin
faptul c suma unui numr mare de variabile aleatoare independente una de alta, dar identic
repartizate, este repartizat Gauss sau aproximativ Gauss. Aceast teorem ne asigur de
exemplu, de faptul c, media calculat pe un lot are o repartiie Gauss sau apropiat.

S-a demonstrat c multe repartiii empirice ntlnite n practic pot fi aduse la o repartiie Gauss prin
transformri simple i n felul acesta devin mai uor de studiat.

***
Trebuie reinut c repartiia Gauss are urmtoarele proprieti importante:
Este simetric fa de media m
Are dou puncte de inflexiune, la m-s i m+s
Are maximul pentru x = m
Are dou cozi spre + i infinit care se apropie din ce n ce mai mult de axa orizontal, fr s o
ating
Mediana i modul, coincid cu media
Deoarece mediana coincide cu media, jumtate din aria de sub curb se afl n stnga mediei i
jumtate n dreapta. Deci, ntr-o populaie repartizat Gauss, 50% din indivizi sunt sub medie i 50%
peste medie
Aria cuprins ntre curb i axa orizontal este 1 indiferent de medie i de deviaia standard.
Aria cuprins ntre curb, axa orizontal i dou verticale n dreptul numerelor a i b, este
probabilitatea ca, extrgnd aleator un individ din populaie i fcnd msurtoarea pe acel individ,
valoarea obinut x, s fie ntre a i b (Vezi figura 16).

Figura 16 Aria cuprins ntre curb, axa orizontal i dou verticale n dreptul numerelor a i b, este
probabilitatea ca, extrgnd aleator un individ din populaie i fcnd msurtoarea pe acel individ, valoarea
obinut x, s fie ntre a i b

Repartiia Gauss, este de fapt o famile de repartiii ce depinde cei doi parametri: media i deviaia standard.
n figura 17, sunt desenate cteva curbe de repartiie Gauss, mai mult sau mai puin aplatizate, dup cum
deviaia standard este mai mic sau mai mare.

11

Biostatistic - Cursul al IV-lea

Figura 17 Diferite curbe Gauss mai mult sau mai puin aplatizate, aplatizarea fiind dat de valoarea deviaiei
standard, s. Cu ct valoarea lui s este mai mare, cu att curba este mai aplatizat. Cnd s ia valori mici, curba
este mai nalt.

Avem de asemenea, o infinitate de curbe Gauss care au aceeai deviaie standard dar au medii diferite. Ele
sunt identice ca form, doar sunt localizate diferit n plan i pot fi suprapuse prin translaii stnga-dreapta. n
figura 18, sunt desenate cteva curbe Gauss care difer numai prin medie. Avnd toate aceeai deviaie
standard, au aceeai aplatizare.

Figura 18. Curbe Gauss cu aceeai deviaie standard. Ele sunt la fel de aplatizate i pot fi suprapuse prin
translaii stnga-dreapta.

Dac fixm media dar permitem orice deviaie standard, exist o infinitate de curbe Gauss care au aceeai
medie. Ele sunt localizate identic stnga-dreapta, dar difer prin aplatizare mai mult sau mai puin
accentuat. n figura 19, sunt desenate 3 curbe Gauss cu aceeai medie i cu deviaiile standard 1, 1.2 i 1.5.

Figura 19. Trei curbe Gauss cu aceeai medie i deviaii standard diferite

***

(Facultativ). Aa cum am artat, repartiia normal sau Gaussian este des ntlnit n studiul fenomenelor
biologice i are unele proprieti utile. n biologie, una din problemele importante care se pun n legtur cu
datele pe care le msurm este aceea dac se ncadreaz sau nu n limitele de normalitate. Repartiia
normal ne poate ajuta s dm un rspuns acestei ntrebri, cel puin pentru acele date care sunt distribuite
normal. Dac o variabil are repartiie Gauss, atunci se poate stabili ct de plauzibil este media i deviaia
standard gsite prin msurtori pe un lot i se pot face comparaii cu mediile care ar trebui s fie obinute i
care sunt cunoscute din literatura de specialitate (vezi cursul despre eantionare i cel despre teste statistice
pentru amnunte).
Cunoscnd despre o variabil c are repartiie Gauss, se pot deduce unele afirmaii despre valorile pe care le
poate lua. Cum folosim aceast repartiie pentru a deduce anumite concluzii despre variabila care ne
intereseaz? Dup cum am mai afirmat, pentru o variabil repartizat normal, procentul din populaie situat
ntre dou limite date este aria cuprins ntre curba Gauss, axa orizontal i cele dou verticale la limitele
fixate. De obicei se consider intervalele n jurul mediei, simetrice, cu limite situate la o distan de una sau
mai multe abateri standard de medie.

***

Sunt eseniale urmtoarele proprieti ale curbei Gauss, proprieti care nu sunt valabile la alte tipuri de
distribuii:
12

Biostatistic - Cursul al IV-lea

n intervalul [m-s, m+s] se afl aproximativ 68% din indivizii unei populaii repartizate normal (vezi figura
20). Aceasta ns nu este o majoritate suficient de mare pentru a fi aproape de siguran dac ne ntrebm
ntre ce limite sunt situate valorile msurate pentru indivizii din populaie.

Figura 20. ntre [m-s, m+s] se afl aproximativ 68% din indivizii unei
populaii repartizate normal

De aceea se ia cel mai adesea n considerare intervalul [m-2s, m+2s] n care se situeaz aproximativ 95% din
indivizii unei populaiei repartizate normal. Acest interval este suficient de larg i cuprinde o majoritate
zdrobitoare a populaiei aa c este cel mai indicat s fie folosit ca interval de normalitate.

Figura 21. ntre [m-2s, m+2s] se afl aproximativ 95% din indivizii unei
populaii repartizate normal

Uneori, se iau intervale mai cuprinztoare, ca [m-3s, m+3s], interval n care se situeaz peste 99% din
populaia considerat (vezi figura 22).

Figura 22. ntre [m-3s, m+3s] se afl peste 99% din indivizii unei
populaii repartizate normal

Chiar dac se consider de obicei c pentru variabilele folosite uzual n practica medical valorile medii sunt
cunoscute i se cunosc i aa-numitele intervale de normalitate, n realitate se cunosc doar foarte bune
aproximri ale lor obinute pe baza unor studii foarte atente, pe loturi largi. Valorile reale ale mediei i
deviaiei standard pentru o populaie distribuit normal, notate cu m i s, sunt aproximate cu X i care sunt
indicatorii medie i abatere standard pentru un lot extras din populaia respectiv.
Cum se stabilete ct de bune sunt aceste aproximri, care se mai numesc estimri, se va vedea n cursul
despre estimaii. Oricum, se folosesc din plin proprietile distribuiei Gaussiene.

5 Graficul cu bare
Este graficul care reprezint prin bare verticale, frecvenele unui tabel de frecvene pentru variabile calitative (date
nominale) sau variabile ordinale. Dei pare asemntor cu histograma, ntre cele dou tipuri de grafice exist diferene.
Ca aspect, histograma are barele lipite, n timp ce graficul cu bare las o oarecare distan ntre bare. Nu este
recomandat folosirea graficelor unul n locul celuilalt.
n figura 9 sunt reprezentate frecvenele de apariie a unor afeciuni maligne, pe stadii.

13

Biostatistic - Cursul al IV-lea

Figura 9 Clasificarea pe stadii a unui numr de pacieni cu afeciuni maligne

Pentru a evidenia diferene dintre cele dou tipuri de grafic, s lum tabelul 3, care d frecvenele cu care au fost
nregistrate decese n timpul operaiei ntr-o secie de spital. Graficele corespunztoare sunt prezentate n figura
10.
Anul

Nr. Cazuri

1997
1998
1999
2000
2001
2002
2003

3
5
4
2
0
1
0

Frecvena

Frecvena

Tabelul 3 Frecvenele deceselor n timpul operaiei ntr-o secie de spital

3
2
1

3
2
1

0
1997

1998

1999

2000

2001

2002

2003

1997

Anul

1998

1999

2000

2002

Anul

Figura 10 Graficul histogram i graficul cu bare, cu datele din tabelul 3

Informaia coninut de tabelele de inciden se reprezint de obicei prin grafice cu bare pe perechi sau
triplete, n funcie de tipul tabelului. Pentru tabelele 2x2, graficul are dou perechi de bare (vezi graficul 11).

Figura 11. Repartiia a 190 de pacieni cu accidente vasculare cerebrale dup sex i dup mediul de provenien
(rural, urban)

14

Biostatistic - Cursul al IV-lea

Uneori, graficul este reprezentat n spaiul tridimensional, pe cteva rnduri, astfel nct ochiul are o vedere
comparativ a categoriilor pe care le reprezint tabelul (vezi figura 12 i figura 13).

Figura 12 Clasificarea dup grupa de vrst i starea civil a unui numr de pacieni.

Figura 13 Clasificarea dup sex i fumat a 469 de indivizi

6 Graficul PIE
Este un grafic care reprezint prin sectoare circulare frecvenele dintr-un tabel de frecven. Sectoarele sunt
proporionale ca numr de grade cu frecvenele absolute din tabel, sau cu frecvenele relative. Pe grafic pot apare n
dreptul fiecrui sector, fie frecvena absolut, fie cea relativ, fie ambele. Ca form, pot fi sectoare dintr-un cerc vzut
ntr-un plan, sau sectoare ale unui disc tridimensional (vezi figurile 14 17).

Repartizarea tuturor celor 190 de pacieni


pe sexe

83
masculin
56%

feminin
44%

107

Figura 14 Repartiia a 190 de pacieni dup sex

15

Biostatistic - Cursul al IV-lea

Repartizarea tuturor celor 190 de pacieni pe mediu


de provenien

75

115

rural
39%

urban
61%

Figura 15 Repartiia a 190 de pacieni dup mediul de provenien

Distribuia pacienilor pe sexe


Feminin
3%

Masculin
Feminin

Masculin
97%

Figura 16 Repartiia unui numr de pacieni dup sex. Grafic tridimensional

Distribuia pacienilor dup mediul de


provenien

Urban
37%

Rural
Urban
Rural
63%

Figura 17 Repartiia unui numr de pacieni dup mediul de provenien. Grafic tridimensional

Chestiuni de examen:
1. Histograma este un grafic ce reprezint :
A. Frecvenele absolute ale unui tabel de frecven
B. Fiecare valoare n parte dintr-o serie de valori
C. Frecvena cu care valorile seriei sunt cuprinse n clasele stabilite la construcia ei
D. Indicatorii tendinei centrale a seriei
16

Biostatistic - Cursul al IV-lea

2. O histogram reprezint informaia dintr-o serie de valori :


A. Fr pierdere de informaie
B. Cu pierdere de informaie
C. Se pierde cu att mai mult informaie cu ct sunt mai puine clase
D. Se pierde cu att mai mult informaie cu ct clasele au lungimi mai mari
3. Valorile hemoglobinei la 250 de pacieni sunt cuprinse ntre un minim de 7,9 i un maxim de 15,95. Dac
dorim s avem n jur de 9 clase i deci, 9 bare, vom lua lungimea claselor :
A. Din 2 n 2
B. Din 3 n 3
C. Din 1 n 1
D. Din 0,5 n 0,5
4. Seria de valori ce conine talia a 1132 de indivizi, are ca minim talia de 1,44m iar ca maxim, talia de
2,06m. Dorind s efectum o histogram cu cel puin 12 bare (deoarece numrul de indivizi este mare), vom
lua lungimea claselor :
A. Din 2 cm n 2 cm
B. Din 5 cm n 5 cm
C. Din 10 cm n 10 cm
D. Din 1 cm n 1 cm
5. Dac la efectuarea unei histograme, am ales din greal un numr de clase (i deci de bare) prea mare,
efectul este:
A. Se pierde mai puin informaie
B. Se vd inclusiv aspecte nesemnificative
C. Se pierde prea mult informaie
D. Se vor vedea doar aspectele eseniale, eliminndu-se aspectele nesemnificative
6. Poligonul frecvenelor este:
A. Un indicator statistic care arat dispersia valorilor dintr-o serie de valori
B. Un grafic care reprezint printr-o linie frnt frecvenele claselor dintr-un tabel de frecven
C. Un grafic care conine exact aceeai informaie ca i histogram corespunztoare
D. Un grafic care conine mai puin informaie ca i histograma corespunztoare
7. Curba lui Gauss este o curb care este:
A. Simetric fa de medie
B. Simetric fa de axa vertical
C. Are un maxim n dreptul mediei
D. Tinde asimptotic la 0 spre plus infinit i spre minus infinit
8. n ce privete curba Gauss este adevrat c:
A. n intervalul [m s, m + s ] se afl aproximativ 68% din indivizii populaiei

B. n intervalul [m 2 s, m + 2 s ] se afl aproximativ 95% din indivizii populaiei

C. n intervalul [m 3s, m + 3s ] se afl aproximativ 99% din indivizii populaiei

D. n intervalul [m 2 s, m + 2 s ] se afl aproximativ 90% din indivizii populaiei


9. Dac comparm o histogram i poligonul frecvenelor corespunztor, atunci:
A. Conine mai mult informaie histograma
B. Conine mai mult informaie poligonul frecvenelor
C. Conin amndou aceeai cantitate de informaie

17