Sunteți pe pagina 1din 61

Capitolul 3

PROBABILITATE I MODELE PROBABILISTICE

20-Apr-15

3.1 PROBABILITATE

O proporie este definit pentru a reprezenta mrimea relativ a poriunii din populaie cu o anumit
caracteristic (binar).
De exemplu, prevalena unei boli este proporia din populaie care prezint boala.
Similar, putem discuta despre proporia reaciei pozitive la un anumit test screening (test de identificare a
simptomelor unei afeciuni la pacienii aparent sntoi), proporia de brbai n cuprini n forme de studii de
post-liceale, etc.
O proporie este folosit ca o msur descriptiv pentru o populaie int n raport cu o caracteristic binar
(dihotomic).
Ea este un numr cuprins ntre 0 i 1 (sau 100%);
cu ct numrul este mai mare, cu att sub-populaia cu caracteristica respectiv este mai mare
[de exemplu, 70% brbai nseamn mai muli brbai dect femei (dect 50%)].

20-Apr-15

S considerm acum o populaie cu o anumit caracteristic binar.


O selecie aleatoare este definit ca fiind una n care fiecare persoan are ans egal de a fi selectat.
Care este ansa ca o persoan cu respectiva caracteristic s fie selectat (de exemplu, ansa de selecie a unei
persoane bolnave)?

Rspunsul depinde de mrimea sub-populaiei din care face parte aceasta (adic, proporia).

Cu ct este mai mare proporia, cu att este mai mare ansa (unei astfel de persoane de a fi selectat).
Aceast ans este msurat prin proporie, un numr ntre 0 i 1, numit probabilitate.
Proporia msoar mrimea; ea este o caracteristic statistic descriptiv.
Probabilitatea msoar ansa.
Cnd ne intereseaz rezultatul (nc incert n aceast etap) unei selecii aleatoare, o proporie (static, fr aciune)
devine o probabilitate (aciunea pe cale de a fi luat).

20-Apr-15

S ne gndim la un exemplu simplu privind o cutie ce conine 100 de bile, 90 dintre ele roii i 10 albastre.
Dac ntrebarea este:
Cte bile roii sunt n cutie?, cineva poate rspunde 90%.
Dar dac ntrebarea este:
Dac luai o bil la ntmplare, credei c vei extrage una roie?, rspunsul ar trebui s fie 90% ans.
Primul 90% reprezint o proporie; cel de-al doilea 90% indic o probabilitate.

n plus, dac facem mai multe selecii aleatoare (numite eantionri repetate),
frecvena relativ acumulat pe termen lung (cumulativ) cu care apare un eveniment
(caracteristica de observat) este egal cu proporia sub-populaiei cu aceast caracteristic.

Datorit acestei observaii, proporia i probabilitatea sunt uneori folosite alternativ.

n seciunile urmtoare vom opera cu conceptul de probabilitate i unele aplicaii simple pentru luarea deciziilor
medicale.
20-Apr-15

3.1.1 Certitudinea Incertitudinii

Chiar i tiina este incert.


Oamenii de tiin greesc deseori.
Ei ajung la concluzii diferite n multe domenii: efectul anumitor ingrediente alimentare sau cel al radioactivitii de
nivel sczut, rolul grsimilor n diete i altele.
Multe studii nu ajung la nici o concluzie.
De exemplu, zeci de ani chirurgii au crezut c o mastectomie radical ar fi fost singurul tratament pentru cancerul
de sn.
Recent ns, teste clinice atent proiectate au artat c tratamente mai puin drastice par s fie la fel de eficace.
De ce nu este ntotdeauna tiina sigur?

Pentru c natura este complex i plin de variabiliti biologice neexplicate.


n plus, aproape toate metodele de observare i experimentare sunt imperfecte.
Observatorii sunt supui prejudecilor i erorilor umane.
20-Apr-15

tiina (bio-) medical, mai ales, conine controverse i dezacorduri;

cu cele mai bune intenii, datele biomedicale istoricul medical, examinrile fizice, interpretarea testelor clinice,
descrierea simptomelor i afeciunilor sunt cumva inexacte.
Dar cel mai important dintre toate, ntotdeauna avem de a face cu informaii incomplete:
-

este fie imposibil, fie mult prea costisitor, sau necesit prea mult timp pentru a studia ntreaga populaie;

de cele mai multe ori trebuie s ne rezumm la informaiilor obinute dintr-un eantion adic un subgrup al
populaiei investigate.

Astfel, ntotdeauna predomin o anumit incertitudine.

tiina i oamenii de tiin se asigur n privina incertitudinii folosind conceptul de probabilitate.

Calculnd probabilitile, acetia sunt n msur s descrie ce se ntmpl i s prezic ce ar trebui s se ntmple n
viitor n condiii similare.
20-Apr-15

3.1.2 Probabilitate

Populaia int pentru a anumit cercetare este ntreg setul de subieci la care se refer cercetarea.
De exemplu, ntr-un screening pentru cancer ntr-o comunitate, populaia int va consta din toate persoanele
comunitii care sunt supuse riscului bolii.

Pentru una din situaii, populaia int poate fi constituit din toate femeile cu vrsta peste 35 de ani; pentru alta,
poate fi constituit din toi brbaii peste 50 de ani.
Probabilitatea unui eveniment, cum ar fi rezultatul pozitiv la un test screening, ntr-o populaie int este definit
ca frecvena relativ (adic proporia) cu care evenimentul apare n acea populaie int.
De exemplu, probabilitatea de a avea boala este prevalena bolii.
Ca un alt exemplu, s presupunem c dintr-un total de = 100.000 de persoane dintr-o anumit populaie int,
un total de 5.500 au reacie pozitiv la un anumit test screening; ca urmare, probabilitatea de a fi pozitiv, notat cu
Pr(pozitiv), este
5.500
Pr pozitiv =
= 0,055 sau 5,5%
100.000
Astfel, o probabilitate este o msur descriptiv a unei populaii int n raport cu un anumit eveniment de interes.
Ea este un numr ntre 0 i 1 (sau 0 i 100%); cu ct este mai mare numrul, cu att este mai mare sub-populaia.
20-Apr-15

Pentru cazul msurtorilor continue, exist probabilitatea de a ncepe cu un anumit interval.


De exemplu, probabilitatea unui nivel al colesterolului n snge ntre 180 i 210 (mg/100ml) este proporia de indivizi
din populaia int care au nivelurile colesterolului situat ntre limitele specificate.
Acesta este msurat, n contextul histogramei din Capitolul 2, prin suprafaa barei rectangulare corespunztoare clasei
(180-210).

De mare interes este interpretarea probabilitii drept conceptul eantionrii aleatoare astfel nct s se asocieze
conceptul de probabilitate cu incertitudinea i ansa.
S notm mrimea (volumul) populaiei int cu (de obicei un numr mare), iar cea al unui subset cu , un numr
n < N, din populaia int.

Eantionarea aleatoare simpl din populaia int este eantionarea realizat astfel nct fiecare eantion posibil de
volum s aib ans egal de selecie.
Pentru eantionarea aleatoare simpl:
1. Fiecare extragere individual este incert n raport cu orice eveniment sau caracteristic investigat (de exemplu,
existena unei boli), dar
2. n eantionarea repetat din populaie, frecvena relativ acumulat (cumulativ) pe termen lung cu care
evenimentul apare reprezint frecvena relativ a evenimentului n populaie.
20-Apr-15

Procesul fizic de eantionare aleatoare poate fi realizat dup cum urmeaz (sau ntr-o manier logic echivalent
pailor ce urmeaz).

1. Se pornete de la o list a tuturor celor subieci din populaie. O astfel de list este denumit referin (frame)
pentru populaie.
Subiecii sunt astfel disponibili pentru o numrtoare aleatoare (de ex., de la 000 la N = 999).
Referina se bazeaz de obicei pe un anuar (carte de telefon, carte de adrese, etc.) sau pe nregistrrile unui spital.
2. Se pregtete cte o etichet (bileel) pentru fiecare subiect, purtnd un numr 1,2,,.
3. Etichetele sunt puse ntr-o caset i apoi sunt amestecate foarte bine.
4. Se extrage o etichet.

Numrul etichetei identific apoi subiectul din populaie; acest subiect devine membru al eantionului.
Paii de la 2 la 4 pot fi de asemenea realizai folosind o tabel de numere aleatoare (Anexa A).
Se alege arbitrar o coloan de 3 digii (sau de 4 digii, dac volumul populaiei este mare) i un numr selectat
arbitrar din acea coloan servete pentru identificarea subiectului din populaie.

n practic, acest proces se realizeaz cu ajutorul calculatorului.


Astfel putem face legtura dintre conceptele de probabilitate i eantionare aleatoare dup cum se descrie n
continuare.
20-Apr-15

n exemplul cu screening-ul pentru cancer ntr-o comunitate de = 100.000 de persoane, probabilitatea calculat
de 0,055 este interpretat astfel:
Probabilitatea ca o persoan aleas aleatoriu din populaia int
s aib un rezultat pozitiv este 0,055 sau 5,5%.

Explicaia este argumentat n continuare.


La o extragere iniial, subiectul ales

sau

unul cu rspuns pozitiv.

Totui, dac acest proces de extragere aleatoare a unui subiect la un anumit moment din populaie este repetat
de mai multe ori, frecvena relativ cumulativ pe termen lung a receptorilor pozitivi din eantion va aproxima 0,055.

20-Apr-15

10

3.1.3 Legturi statistice

Datele din testul screening de cancer din Exemplul 1.4 sunt reproduse aici n Tabelul 3.1.
TABELUL 3.1

Afeciune,
+

Total

Rezultatul Testului,
+

154
225
362
23.362
516
23.587

Total
379
23.724
24.103

Aici, fiecare membru al populaiei este


caracterizat de dou variabile:
- rezultatul testului i
- starea de boal constatat .

Urmnd definiia anterioar, probabilitatea unui rezultat pozitiv al testului, notat cu Pr = + , este
516
= + =
= 0,021
24,103
iar probabilitatea unui test cu rezultat negativ, notat cu Pr = , este
23.587
= =
= 0,979
24.103
i similar, probabilitile de a avea = + i de a nu avea = afeciunea sunt date de
379
Pr = + =
= 0,016
24,103
i
23.724
Pr = =
= 0,984
24.103
20-Apr-15

11

S remarcm i c suma probabilitilor pentru fiecare variabil este egal cu unitatea:


Pr = + + Pr = = 1,0
Pr = + + Pr = = 1,0
Acesta este un exemplu de existen a regulii de aditivitate a probabilitilor pentru evenimentele mutual exclusive:
Unul din cele dou evenimente = + sau = este sigur c va fi adevrat pentru o persoan aleas aleatoriu din populaie.

Mai departe, putem calcula probabilitile asociate (joint probabilities).


Acestea sunt probabilitile celor dou evenimente precum a avea boala i a avea un rezultat pozitiv al testului de a apare simultan.

Cu dou variabile, i , exist patru condiii de rezultate i probabilitile asociate sunt

Pr X = +, Y = + =
Pr X = +, Y = =
Pr X = , Y = + =

Pr X = , Y = =

154
24.103
362
24.103
225
24.103
23.362
24.103

= 0,006
= 0,015
= 0,009

= 0,970

Cea de-a doua din cele patru probabiliti asociate, 0,015, reprezint probabilitatea ca o persoan extras aleatoriu
din populaia int s aib rezultat pozitiv la test, dar s fie sntoas (adic, s fie fals pozitiv).
20-Apr-15

12

Aceste probabiliti asociate i probabilitile marginale de mai sus, calculate separat pentru X i Y, sunt centralizate
n Tabelul 3.2.
TABELUL 3.2

Se poate observa c cele patru celule cu probabiliti conduc la valoarea


unitar
[adic unul din cele patru evenimente
= +, = + sau
= +, = sau
= , = + sau
= , =
este sigur adevrat pentru un individ selectat aleatoriu din populaie].

Total

+
0,006
0,015
0,021

0,009
0,970
0,979

Total
0,015
0,985
1,000

De asemenea, trebuie remarcat c probabilitile asociate de pe fiecare rnd (sau coloan) se nsumeaz la
probabilitatea marginal sau unidimensional la marginea rndului respectiv (sau coloanei).
De exemplu,
Pr X = +, Y = + + Pr X = , Y = + = Pr Y = + = 0,015

20-Apr-15

13

S considerm acum un al treilea tip de probabilitate.

De exemplu, sensibilitatea se poate exprima prin


=

154
= 0,406
379

calculat pentru evenimentul = + folosind sub-populaia avnd = + .

Adic, din numrul total de 379 de persoane avnd cancer, proporia celor cu rezultat pozitiv la test este 0,406 sau
40,6%.
Acest numr, reprezentat prin Pr = +| = + , este denumit probabilitate condiionat ( = + fiind condiia) i este
legat de alte dou tipuri de probabiliti:
Pr = +| = + =

Pr = +, = +
Pr = +

sau
Pr = +, = + = Pr = +| = + Pr = +

Evident, facem distincie ntre aceast probabilitate condiionat Pr X = +|Y = +


Pr X = + .

i probabilitatea marginal

Dac ele sunt egale,


Pr X = +|Y = + = Pr X = +
cele dou evenimente X = + i Y = + se spune c sunt independente (deoarece condiia Y = + nu schimb
probabilitatea X = +) i avem de-a face cu regula de multiplicare a probabilitilor evenimentelor independente:
Pr X = +, Y = + = Pr X = + Pr Y = +
20-Apr-15

14

Dac dou evenimente nu sunt independente, ele au o legtur statistic sau spunem c ele sunt statistic asociate.
Pentru exemplul relativ la screening-ul anterior,
Pr X = + = 0,021
Pr X = +|Y = + = 0,406
valori ce indic n mod clar o puternic legtur statistic [deoarece Pr X = +|Y = + Pr X = + ].
Evident, are sens s existe o puternic legtur statistic aici; altfel screening-ul este inutil.
Totui, trebuie subliniat c o asociere statistic nu nseamn neaprat c exist o cauz i un efect.
Cu excepia cazului n care o relaie este att de puternic i se repet n mod constant astfel nct situaia este
copleitoare prin eviden,
o relaie statistic,
n special una observat pe baza unui eantion (deoarece totalitatea informaiilor asupra populaiei este rareori
disponibil),
este doar un indiciu,
ceea ce nseamn c este necesar un studiu mai aprofundat sau existena unei confirmri.

20-Apr-15

15

Trebuie semnalat c sunt cteva moduri diferite de a verifica prezena unei legturi statistice.

1. Calculul raiei anselor. Cnd i sunt independente, sau nu sunt asociate statistic, raia anselor este egal cu 1.
Aici facem referin la valoarea raiei anselor pentru populaie; aceast valoare este definit prin
Pr X = +|Y = + /Pr X = |Y = +
raia anselor =
Pr X = +|Y = /Pr X = |Y =
i poate fi exprimat, echivalent, n termeni de probabiliti asociate astfel
Pr X = +|Y = + Pr X = |Y =
raia anselor =
Pr X = +|Y = Pr X = |Y = +
i, pentru exemplu de mai sus, conduce la
OR =

0,006 0,970
0,015 0,009

= 43,11 ceea ce indic n mod clar o legtur statistic.

2. Compararea probabilitii condiionate cu cea necondiionat (sau marginal):


de exemplu, Pr = + = cu Pr( = +).
3. Compararea probabilitilor condiionate: de exemplu, Pr( = +| = +) cu Pr( = +| = ).
Exemplul de mai sus privind screening-ul conduce la
Pr X = + Y = + = 0,406
362
n timp ce
Pr X = + Y = = 23.742 = 0,015 din nou, indic n mod clar o legtur statistic.
20-Apr-15

16

3.1.4 Folosirea Testelor Screening


Am introdus deja conceptul de probabilitate condiional.
Acesta este important pentru a face distincie ntre dou probabiliti condiionale,
Pr( = +| = +) i Pr( = +| = +).
n Exemplul 1.4, reintrodus n Seciunea 3.1.3, avem
154
Pr = + = + =
= 0,406
379

n timp ce

154
Pr = + = + =
= 0,298
516

Rezultatul Testului,

Afeciune,
+

Total
+
154
225
379

362
23.362 23.724
Total
516
23.587 24.103

n contextul evalurii testului screening:

1. Pr = + = + i Pr = = sunt respectiv sensibilitatea i specificitatea.


2. Pr = + = + i Pr = = sunt denumite predictibilitate pozitiv i predictibilitate negativ.
Cu predictibilitatea pozitiv (sau valoarea predictiv pozitiv), ntrebarea este:
20-Apr-15tiind

c testul sugereaz cancerul, care este probabilitatea ca, de fapt, cancerul s fie prezent?

17

Argumentarea pentru aceste valori predictive este aceea c un test trece prin cteva stadii.
Iniial, ideea original a testului apare de la un cercettor.

Trebuie apoi s treac printr-un stadiu de dezvoltare.


Acesta poate avea mai multe aspecte (n biochimie, microbiologie, etc.) unul din care fiind cel biostatistic:
ncercarea testului pe o populaie pilot.

Din acest stadiu de dezvoltare, eficiena testului este caracterizat prin sensibilitate i specificitate.

Un test eficient va trece apoi printr-un stadiu aplicativ cu aplicarea efectiv a testului pe o populaie int;
i aici ne concentrm doar pe valorile predictive ale acestuia.

20-Apr-15

18

Exemplul simplu prezentat n Tabelul 3.3 arat c, spre deosebire de sensibilitate i specificitate, valorile predictive
pozitive i negative depind nu doar de eficiena testului dar i de prevalena bolii n populaia int.
TABELUL 3.3

n ambele cazuri testul are sensibilitate 90%


i specificitate 90%.

Populaia A

45.000
5.000
5.000 45.000

Populaia B

9.000
1.000
9.000 81.000

Totui:
1. Populaia A are o prevalen de 50%, ceea ce conduce la o valoare predictiv pozitiv de 90%.
2. Populaia B are o prevalen de 10%, ceea ce conduce la o valoare predictiv pozitiv de 50%.

Concluzia este clar:


Dac un test chiar puternic sensibil i puternic specific este aplicat unei populaii int n care prevalena bolii
este sczut (adic, screening-ul populaiei pentru boli rare), valoarea predictiv pozitiv este sczut.

20-Apr-15

19

n aplicarea real a testului screening unei populaii int (stadiul de aplicare), datele asupra strii de boal a
indivizilor nu sunt disponibile (altfel, screening-ul nu ar mai fi necesar).
Totui, prevalenele bolilor sunt de multe ori disponibile din datele ageniilor naionale i supravegherii strii de
sntate a populaiei.

Valorile predictive sunt calculate din


predictibilitatea pozitiv =

prevalena sensibilitatea
prevalena sensibilitatea + 1 prevalena (1 specificitatea)

predictibilitatea negativ =

1 prevalena specificitatea
1 prevalena specificitatea + prevalena (1 sensibilitatea)

Aceste formule, denumite teorema lui Bayes, ne permit s calculm valorile predictive fr a avea la dispoziie
datele din stadiul de aplicare.
Tot ce ne trebuie este s avem la dispoziie prevalena bolii (obinut din datele ageniei naionale de sntate) i
sensibilitatea i specificitatea; aceste au fost obinute dup stadiul de dezvoltare.
Nu este prea dificil de demonstrat aceste formule, folosind regulile de adiie i multiplicare ale probabilitilor.
20-Apr-15

20

De exemplu, avem
Pr = +, = +
Pr = +, = +
=
=
Pr = +
Pr = +, = + + Pr = +, =
Pr = + Pr = +| = +
=
=
Pr = + Pr = +| = + + Pr = Pr = +| =
Pr = + Pr = +| = +
=
Pr = + Pr = +| = + + 1 Pr = + 1 Pr = | =
Pr = + = + =

care este prima ecuaie pentru predictibilitatea pozitiv.

Putei de asemenea observa c, n loc de a cuta dovezi formale, ilustrm validitatea acestora folosind datele
populaiei B de mai sus:
1. Calculul direct al predictibilitii pozitive conduce la

9.000
18.000

= 0,5

2. Folosirea prevalenei, sensibilitii i specificitii implic


prevalena sensibilitatea
0,1 0,9
=
= 0,5
prevalena sensibilitatea + 1 prevalena (1 specificitatea)
0,1 0,9 + 1 0,1 (1 0,9)

20-Apr-15

21

3.1.5 Concordana Msurtorilor


Multe cercetri experimentale se bazeaz pe judecata unui observator pentru a determina dac o afeciune, un
tratament sau un atribut este prezent sau absent.
De exemplu, rezultatul examinrii ORL va avea categoric efecte asupra comparrii tratamentelor concurente pentru
infecia urechii.
Bine neles, preocuparea de baz este caracteristica de ncredere.
Seciunile 1.1.2 i 3.1.4 opereaz cu un aspect important al ncrederii, valabilitatea estimrii.
Cu toate acestea, pentru a judeca valabilitatea metodei, trebuie s fie disponibil o metod exact de clasificare,
sau standardul de aur, pentru calculul sensibilitii i specificitii.
Cnd nu este disponibil o metod exact, ncrederea poate fi judecat indirect n termeni de reproductibilitate; cel
mai uzual mod de a face acest lucru este acela de a msura concordana dintre examinatori.
20-Apr-15

22

Pentru simplitate, s presupunem c fiecare din cei doi observatori independeni include fiecare din cele n elemente
sau subieci ntr-una din dou categorii.
Eantionul poate fi astfel centralizat ntr-un tabel 2 2 (Tabelul 3.4) sau n termeni de probabiliti (Tabelul 3.5).

Observatorul 1
Categoria 1
Categoria 2
Total

TABELUL 3.4
Observatorul 2
Categoria 1 Categoria 2
11
12
21
22
+1
+2

TABELUL 3.5
Total
1+
2+

Observatorul 1
Categoria 1
Categoria 2
Total

Observatorul 2
Categoria 1 Categoria 2
11
12
21
22
+1
+2

Total
1+
2+
1,0

Folosind aceste frecvene, putem defini:


O proporie global a concordanei:

11 +22

Proporii specifice pe categorii de concordan:


20-Apr-15

211
11 +12 +21

1 = 2

222
22 +12 +21

2 = 2

23

Distincia dintre concordan i asociere este aceea c


- pentru ca dou rspunsuri s fie asociate perfect, trebuie s prezicem categoria unui rspuns din categoria
celuilalt rspuns,
n timp ce
- pentru ca dou rspunsuri s aib concordan perfect, ele trebuie s cad n categoria identic.

Totui, proporia concordanei, global sau specific pe categorii, nu msoar corespondena.

Printre alte raiuni, ele sunt afectate de totalurile marginale.


O posibilitate este aceea de a compara concordana global,
1 =

unde sunt proporiile din cel de-al doilea tabel 2 2 de mai sus, cu concordana de ans,
2 =

+ +

care apare dac variabila rnd este independent de variabila coloan, deoarece dac dou evenimente sunt
independente, probabilitatea lor de mbinare ntmpltoare este produsul probabilitilor lor marginale individuale
(regula de multiplicare).

20-Apr-15

24

Aceasta conduce la o msur a concordanei,

1 2
12

numit kapa, 0 1,

care poate fi exprimat ca

2 11 2212 21
1+ +2 ++1 2+

iar evaluarea valorii calculate a lui kapa pentru cercetrile clinice se poate face dup regulile de mai jos:
> 0,75:
reproductibilitate excelent
0,40 0,75:
reproductibilitate bun
0 < 0,40:
reproductibilitate slab/marginal
n general, reproductibilitatea care nu este bun indic necesitatea efecturii mai multor estimri.

20-Apr-15

25

Exemplul 3.1
Dou asistente fac examinri ale urechii, concentrndu-se pe culoarea membranei timpanului; fiecare asistent
atribuie, pentru fiecare din cele 100 de urechi examinate, ncadrarea n una din dou categorii:
(a) normal sau gri, sau
(b) anormal (alb, roz, portocalie sau roie).
TABELUL 3.6
Asistenta 1
Normal
Anormal
Total

Asistenta 2
Normal
Anormal
35
10
20
35
55
45

Datele sunt prezentate n Tabelul 3.6.


Rezultatul este
2 35 35 20 10
=
= 0,406
45 45 + 55 55
Valoarea lui arat c ipoteza concordanei este greu de acceptat.

Total
45
55
100

Kapa, ca msur a concordanei, poate fi folosit i cnd avem mai mult de dou categorii pentru clasificare:
+ +
=
1 + +
Putem forma criterii specifice pentru categorii (de ex., pentru dou categorii)
11 1+ +1
22 2+ +2
1 = 1

=
2

1
1+ +1

2+ +2

Problema mai dificil cu este aceea c el se apropie de zero (chiar pentru un mare grad de concordan) dac
prevalena este apropiat de 0 sau de 1.
20-Apr-15

26

3.2 DISTRIBUIA NORMAL


3.2.1 Forma Curbei Normale
Histograma din figura 2.3 este reprodus aici ca Figura 3.1 (pentru detalii numerice, vezi Tabelul 2.2).
O examinare atent arat c n general frecvenele (sau densitile) relative sunt mari n vecintatea
intervalelor 20-29, 30-39 i 40-49 i scad ctre ambele extreme a domeniului de msurtori.

Figura 3.1 Distribuia


greutilor celor 57 de copii

S ne imaginm acum c numrul de copii crete la 50.000 i


scdem limea intervalului la 0,01 livre.

Dac vom continua cu creterea volumului


setului de date i cu scderea limii intervalului,
vom ajunge eventual la o curb neted care se
suprapune peste histograma din Figura 3.2,
denumit curb de densitate.

Figura 3.2 Histogram bazat pe un set mare de date de greuti


20-Apr-15

27

Probabil ai auzit deja de distribuia normal; este descris ca o distribuie avnd aspectul unei seciuni printr-un
clopot, similar Figurii 3.2.
Numele poate sugera c cele mai multe distribuii din natur sunt normale. Aceast presupunere este FALS.
Mai mult, distribuiile nu pot fi exact normale.

Unele, cum ar fi nlimea adulilor de un anumit gen i ras, sunt spectaculos de aproape de distribuia normal, dar
niciodat exact.
Distribuia normal este extrem de util n statistic, dar dintr-un motiv foarte diferit nu pentru c apare n natur.
Matematicienii au dovedit c pentru eantioane suficient de mari, valorile mediilor de eantion, (incluznd
proporiile eantionului ca un caz special), sunt distribuite aproximativ normal, chiar dac eantioanele sunt din
distribuii reale asimetrice.
Acest rezultat important poart numele de teorema limitei centrale.

Este important pentru statistic, precum este important nelegerea germenilor pentru nelegerea afeciunilor.
20-Apr-15

28

Reinei c normal este doar o denumire pentru aceast curb; dac o mrime nu este distribuit normal, nu
nseamn c este anormal.
Multe texte statistice furnizeaz proceduri statistice pentru a identifica dac o distribuie este normal, dar ele nu se
ncadreaz n scopul acestui curs.
De acum ncolo, pentru a face distincie ntre eantioane i populaie (un eantion este un subgrup din populaie),
vom adopta setul de noiuni definit n Tabelul 3.7.
TABELUL 3.7
Cantitatea
Medie
Varian (Dispersie)
Deviaie standard (Abatere medie ptratic)
Proporie

Notaie
Eantion
Populaie

Cantitile din prima coloan (, 2 , ) sunt mrimi statistice reprezentnd centralizarea informaiilor din eantion.
Parametrii corespunztori pentru populaie sunt fici (constani) dar necunoscui i fiecare mrime statistic poate
fi folosit ca o estimare a parametrului corespunztor al populaiei.
20-Apr-15

29

De exemplu, este folosit ca o estimare a ; acest aspect va fi discutat n detaliu n Capitolul 4.

O problem major n manipularea mrimilor statistice precum i este aceea c, dac vom considera un alt eantion
chiar folosind unul de acelai volum valorile mrimilor statistice se schimb de la un eantion la altul.
Teorema limitei centrale ne spune c dac mrimile eantioanelor sunt suficient de mari, valorile (sau ) n
eantionri repetate au o distribuie foarte apropiat de cea normal.
Ca urmare, pentru a opera cu variabilitatea datorat ansei, astfel nct s putem declara de exemplu c o anumit
diferen observat este mai mare dect cea care apare ntmpltor i este real, mai nti trebuie s nvm cum s
calculm probabilitile asociate curbelor normale.
Termenul curb normal, de fapt, se refer nu doar o curb ci la o familie de curbe, fiecare caracterizat printr-o medie
i o dispersie 2 .
n cazul special n care = 0 i 2 = 1, avem de-a face cu curba normal standard.
Pentru o medie i o dispersie 2 date, curba are form de clopot cu cozile cobornd puternic ctre linia de baz.
n teorie, cozile se apropie din ce n ce mai mult de linia de baz dar nu o ating niciodat, tinznd ctre zero cnd
tinde ctre infinit, n ambele direcii. n practic, ignorm acest lucru i lucrm cu limite practice.
Vrful curbei apare la media (care pentru aceast distribuie special este de asemenea medie i mod) i nlimea
curbei la vrf depinde, invers proporional, de dispersia 2 .
20-Apr-15

30

Figura 3.3 Familii de curbe normale:


sus - dou distribuii normale cu aceeai medie, dar cu dispersii diferite;
jos - dou distribuii normale cu medii diferite, dar cu aceeai dispersie.
20-Apr-15

31

3.2.2 Aria de sub Curba Normal Standard


O variabil care este distribuit normal cu media = 0 i dispersia 2 = 1 este denumit variabil normal
standard i este notat cu litera .
Ca pentru orice variabil continu, calculele de probabilitate au ntotdeauna scopul de a gsi probabilitatea ca
variabila s aib o valoare cuprins ntr-un interval limitat de dou puncte specifice i .
Probabilitatea ca o variabil continu s aib valori ntre dou puncte i este chiar aria de sub curba
densitii ntre i ; axa vertical reprezint densitile aa cum au fost definite n Capitolul 2.

Aria total de sub o astfel de curb reprezint unitatea (100%), iar Figura 3.4 prezint curba normal standard cu
unele subdiviziuni importante.
De exemplu, aproximativ 68% din arie este coninut n intervalul 1:
1 < < 1 = 0,6826
i aproximativ 95% n intervalul 2:
2 < < 2 = 0,9545

Figura 3.4 Curba normal standard


i unele subdiviziuni importante
20-Apr-15

32

Alte arii de sub curba normal standard au fost calculate i sunt disponibile tabelat
(vezi Anexa B).
Intrrile din tabelul din Anexa B ofer aria de sub curba normal standard ntre
medie ( = 0) i o valoare pozitiv specificat pentru .
Figura 3.5 Aria de sub curba
normal standard

Folosind tabelul din Anexa B i proprietatea de simetrie a curbei normale standard, putem prezenta i alte arii
calculate.
Folosind pachetele software uzuale, acestea pot fi obinute uor; vedei Seciunea 3.5.
Totui, credem c aceste aplicaii practice ajut nsuirea, chiar dac ele nu mai sunt strict
necesare.

20-Apr-15

33

Cum de Citete Tabelul din Anexa B


Intrrile n Anexa B ne ofer aria de sub curba normal standard dintre 0 i o valoare pozitiv pentru .

S presupunem c ne intereseaz aria dintre = 0 i = 1,35 (numerele sunt mai nti rotunjite la dou zecimale, sau
putem face o interpolare).
Pentru a afla acest lucru, mai nti cutm n rndul marcat cu 1,3 n coloana din stnga a tabelului, dup care
gsim coloana marcat cu 0,05 n partea superioar a primului rnd al tabelului (1.35 = 1.30 + 0,05).
Apoi ne uitm n corpul tabelului i gsim la intersecia rndului 1,30 cu coloana 0,05 valoarea 0,4115.
Acest numr, 0,4115, este aria cutat ntre = 0 i = 1,35.

TABELUL 3.8

O poriune din Anexa B, care face referire la aceti pai


este prezentat n Tabelul 3.8.

20-Apr-15

34

Un alt exemplu:

Aria dintre = 0 i = 1,23 este 0,3907;


aceast valoare se afl la intersecia rndului 1,2 cu coloana 0,03 a tabelului.

Tabelul poate fi folosit i invers, cnd avem la dispoziie aria dintre zero i o valoare pozitiv i vrem s aflm
valoarea lui .
S presupunem c ne intereseaz s aflm valoarea pentru care aria dintre zero i este 0,20.

Pentru aceasta ne vom uita n corpul tabelului pentru a gsi cea mai apropiat valoare de 0,20, care este
0,2019.
Acest numr se gsete la intersecia rndului 0,5 i coloanei 0,03.

Ca urmare valoarea cutat este 0,53 (0,53 = 0,50 + 0,03).

20-Apr-15

35

Exemplul 3.2 Care este probabilitatea de a obine o valoare a lui situat ntre 1 i 1?

Avem
1 1 = 1 0 + 0 1 = 2 0 1 = 2 0,3413 = 0,6826
ceea ce confirm numrul prezentat n Figura 3.4.

Figura 3.6 Aspectul grafic al Exemplului 3.2

Exemplul 3.3 Care este probabilitatea de a obine o valoare a


lui de cel puin 1,58?
Vom avea
1,58 = 0,5 0 1,58 = 0,5 0,4429 = 0,0571
i aceast probabilitate este prezentat n Figura 3.7.
Figura 3.7 Aspectul grafic al Exemplului 3.3
20-Apr-15

36

Exemplul 3.4 Care este probabilitatea de a obine o valoare de 0,5 sau mai mare?

Avem
0,5 = 0.5 0 + 0 = 0 0,5 + 0 =
= 0,1915 + 0,5 = 0,6915
i probabilitatea este prezentat n Figura 3.8.

Exemplul 3.5 Care este probabilitatea de a obine o valoare


ntre 1,0 i 1,58?

Figura 3.8 Aspectul grafic al Exemplului 3.4

Avem
1,0 1,58 = 0 1,58 0 1,0 =
= 0,4429 0,3413 = 0,1016
i probabilitatea este prezentat n Figura 3.9.

20-Apr-15

Figura 3.9 Aspectul grafic al Exemplului 3.5

37

Exemplul 3.6 S se gseasc valoarea astfel nct probabilitatea de a obine o valoare mai mare s fie de doar 0,10.
Avem
( ? ) = 0,10
i aceasta este ilustrat n Figura 3.10.

Figura 3.10 Aspectul grafic al Exemplului 3.6

Cutnd n tabelul dina Anexa B, gsim 0,3994 (aria dintre 0 i 1,28), astfel c
1.28 = 0,5 0 1,28 = 0,5 0,3997 0,10

n termenii ntrebrii iniiale, este o probabilitate de aproximativ 0,1 (10%) de a obine o valoare de 1,28 sau mai
mare.
20-Apr-15

38

3.2.3 Distribuia Normal ca Model Probabilistic


Motivul pentru care am discutat att de mult despre distribuia normal standard i cu att de multe exemple este
acela c probabilitile, pentru toate distribuiile normale, sunt calculate folosind distribuia normal standard.
Adic, atunci cnd avem o distribuie normal cu o medie i o abatere medie ptratic (sau dispersie 2 ) date,
vom pune ntrebrile privind probabilitile distribuiei dup ce mai nti o convertim (standardizm) la
distribuia normal standard:

Aici interpretm valoarea (sau scorul ) ca numrul abaterilor medii ptratice de la medie.
Exemplul 3.7
Dac valorile colesterolului total pentru o anumit populaie int sunt distribuite aproximativ normal cu
media de 200 (mg/100 ml) i
abaterea media ptratic de 20 (mg/100 ml),
probabilitatea ca o persoan aleas la ntmplare din aceast populaie sa aib valoarea colesterolului mai mare
dect 240 (mg/100 ml) este
200 240 200
Pr 240 = Pr

= Pr 2,0 =
20
20
= 0,5 Pr 2,0 = 0,5 0,4772 = 0,0288 sau 2,28%
20-Apr-15

39

Exemplul 3.8
Figura 3.11 este un model pentru hipertensiune i hipotensiune (Journal of
American Medical Association, 1964), prezentat aici ca o ilustrare simpl a
utilizrii distribuiei normale; chiar acceptarea unui astfel de model nu este
unanim.
Datele dintr-o populaie masculin au fost grupate dup vrst
n Tabelul 3.9.
Din acest tabel, folosind Anexa B, au fost calculate limitele
presiunii sangvine sistolice pentru fiecare grup (Tabelul 3.10).

Hipotensiv

Limit

Presiune sangvin
normal

Limit

Hipertensiv

Figura 3.11 Reprezentarea grafic a modelului


hipertensiunii

TABELUL 3.9
Vrsta
(ani)
16
17
18
19
2024
2529
3034
3539
4044
4554
5564

20-Apr-15

Presiunea sanguin sistolic (mmHg)


Media
Abaterea Medie Ptratic
118,4
121,0
119,8
121,8
123,9
125,1
126,1
127,1
129,0
132,3
139,8

12,17
12,88
11,95
14,99
13,74
12,58
13,61
14,20
15,07
18,11
19,99

TABELUL 3.10
Vrsta
Hipotensiunea
(ani)
este sub:
16
98,34
17
99,77
18
100,11
19
97,10
2024
?
2529
?
3034
130,67
3539
130,70
4044
104,16
4554
102,47
5564
106,91

Lim. inf.
(sntos)
102,80
104,49
104,48
102,58
?
?
108,65
108,90
109,68
109,09
114,22

Lim. sup.
(sntos)
134,00
137,51
135,12
141,02
?
?
143,55
145,30
148,32
155,41
165,38

Hipertensiunea
este peste:
138,46
142,23
139,49
146,50
?
?
148,53
150,50
153,84
162,03
172,74

40

De exemplu, cea mai mare limit superioar (sntos) pentru grupul 2025 ani se obine astfel:
123,9 ? 123,9
Pr ? = 0,10 = Pr

13,74
13,74
i, din Exemplul 3.6, obinem
? 123,9
1,28 =
13,74
ceea ce conduce la
? = 123,9 + 1,28 13,74 = 141,49
20-Apr-15

41

3.3 MODELE PROBABILISTICE PENTRU DATE CONTINUE


n Seciunea 3.2 am trecut rapid peste familia de curbe normale deoarece am dorit s facem o introducere pentru
cei pentru care formulele matematice nu sunt poate foarte relevante.
Aici ns, vom oferi informaii suplimentare pentru cei ce sunt mai interesai de bazele raionamentelor
biostatistice.
O clas de msurtori sau o caracteristic a unor observaii sau msurtori individuale efectuate se numete o
variabil.

Dac valorile unei variabile pot avea teoretic orice valoare pe o scal numeric, avem de-a face cu o variabil
continu; exemple de acest tip pot fi nlimea, greutatea i tensiunea arterial.
Spuneam n Seciunea 3.2 c fiecare variabil continu este caracterizat de o curb de densitate neted.
Matematic, o curb este caracterizat de o ecuaie de forma
=
denumit funcia de densitate de probabiliti, care include unul sau mai muli parametri;
aria total de sub curba de densitate este 1,0.
Probabilitatea ca aceast variabil s ia orice valoare ntr-un interval delimitat de dou puncte i este dat de


20-Apr-15

42

Funcia densitate de probabiliti pentru o familie de curbe normale, denumit i distribuie Gaussian, este dat de
1
1 2
=

pentru
2

2
Semnificaia parametrilor i / 2 a fost discutat n Seciunea 3.2; este media, 2 este dispersia (variana) i este
abaterea media ptratic (deviaia standard).
Cnd = 0 i 2 = 1 avem o distribuie normal standard.

Valorile numerice listate n Anexa B sunt cele date de

1
0

1
exp
2
2

Distribuia normal joac un rol important n raionamentele statistice deoarece:


Multe distribuii din viaa real sunt aproximativ normale.
Multe alte distribuii pot fi normalizate prin transformri convenabile ale datelor (de ex. folosind logaritmarea).
Cnd log are o distribuie normal, se spune c are o distribuie log-normal.
20-Apr-15

43

Pe msur ce volumul datelor msurate crete, mediile eantioanelor extrase din populaie ale oricrei distribuii tind
ctre distribuia normal.
Aceast teorem, cnd este formulat riguros, este cunoscut drept teorema limitei centrale (mai multe detalii n
Capitolul 4).
n plus fa de distribuia normal (Anexa B), noiunile introduse n capitolele ce urmeaz implic trei alte distribuii
continue:
Distribuia (Anexa C)
Distribuia 2 (Anexa D)
Distribuia (Anexa E)
Distribuia este similar distribuiei normale standard prin aceea c este uni-modal, n form de clopot i simetric;
se extinde infinit n ambele direcii; are media 0.
Aceasta este o familie de curbe, fiecare indexat de un numr numit grade de libertate (df degrees of freedom sau ).
Fiind dat un eantion de date continue, gradele de libertate msoar cantitatea de informaie disponibil n setul de
date care poate fi folosit pentru estimarea dispersiei populaiei 2 (adic 1, numrtorul din expresia pentru 2 ).
Curbele au cozi mai groase dect cele ale curbei normale standard; dispersia lor este uor mai mare dect 1
[= df/(df 2)].

Totui, aria de sub fiecare curb rmne egal cu unitatea (sau 100%).
20-Apr-15

44

Ariile de sub o curb pornind de la coada (ramura) dreapt pn la o anumit valoare (ariile haurate), sunt listate n
Anexa C; distribuia cu grad de libertate infinit este egal cu distribuia normal standard.
Aceast egalitate este uor de observat examinnd coloana marcat, s spunem, cu Aria = 0,025.
Ultima linie ( = ) conine valoarea 1,96 (verificarea se face folosind Anexa B).

Spre deosebire de distribuiile normal i , distribuiile 2 i se refer doar la atribute pozitive i vor fi folosite n
anumite teste n Capitolul 6 (distribuia 2 ) i Capitolul 7 (distribuia ).
Similar cazului distribuiei , formulele pentru funciile distribuiilor probabilitilor pentru distribuiile 2 i au
formule matematice complexe i nu vor fi abordate aici.
Fiecare distribuie 2 este indexat printr-un numr numit grade de libertate .
Vom face astfel referire la distribuia 2 cu grade de libertate;
media i dispersia acesteia sunt respectiv i 2.
O distribuie este indexat cu 2 grade de libertate (, ).

20-Apr-15

45

3.4 MODELE PROBABILISTICE PENTRU DATE DISCRETE


Ne reamintim c o clas de msurtori sau o caracteristic asupra creia s-au fcut observaii sau msurtori se
numete variabil.
Dac valorile unei variabile se plaseaz doar n puine puncte izolate, discutm despre o variabil discret;
exemplele includ rasa, sexul sau unele etichetri artificiale.
Subiectele introduse n capitolele urmtoare implic dou din aceste distribuii discrete: distribuia binomial i
distribuia Poisson.
3.4.1 Distribuia binomial
n Capitolul 1 am discutat despre cazul rezultatelor dihotomice (opuse) precum brbatfemeie, supravieuitordecedat,
infectatneinfectat, albnon-alb, sau pur i simplu pozitivnegativ.
Am vzut c astfel de date pot fi centralizate n proporii, rate i raii.

n aceast seciune ne concentrm pe probabilitatea unui eveniment compus: apariia a rezultate (pozitive) (0 )
din ncercri, numit probabilitate binomial.

20-Apr-15

46

De exemplu, dac un anumit medicament este cunoscut a avea un efect colateral n 10% din cazuri i dac cinci
pacieni sunt tratai cu acest medicament, care este probabilitatea ca patru sau mai muli s prezinte acest efect
colateral?

S notm cu un rezultat cu efect secundar i cu un rezultat normal, fr acest efect.

Procesul de determinare a ansei de a obine situaii din ncercri se realizeaz prin


-

listarea tuturor rezultatelor posibile,

calculul probabilitii fiecrui rezultat folosind regula de multiplicare (unde ncercrile se presupun a fi
independente) i n final prin

combinarea probabilitilor tuturor acestor rezultate care sunt compatibile cu rezultatul dorit folosind
regula aditivitii.

Cu cinci pacieni sunt posibile 32 de rezultate reciproce exclusive, aa cum se arat n Tabelul 3.11.

20-Apr-15

47

TABELUL 3.11
Nr.
Crt.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

Pacient 1
S
N
S
S
S
S
N
N
N
N
S
S
S
S
S
S
N
N
N
N
N
N
S
S
S
S
S
N
N
N
N
N

Pacient 2
S
S
N
S
S
S
N
S
S
S
N
N
N
S
S
S
N
N
N
S
S
S
N
N
N
S
N
S
N
N
N
N

Rezultat
Pacient 3
S
S
S
N
S
S
S
N
S
S
N
S
S
N
N
S
N
S
S
N
N
S
N
N
S
N
N
N
S
N
N
N

Pacient 4
S
S
S
S
N
S
S
S
N
S
S
N
S
N
S
N
S
N
S
N
S
N
N
S
N
N
N
N
N
S
N
N

Pacient 5
S
S
S
S
S
N
S
S
S
N
S
S
N
S
N
N
S
S
N
S
N
N
S
N
N
N
N
N
N
N
S
N

Probabilitatea
0,1 5
0,1 4 0,9
0,1 4 0,9
0,1 4 0,9
0,1 4 0,9
0,1 4 0,9
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 0,9 4
0,1 0,9 4
0,1 0,9 4
0,1 0,9 4
0,1 0,9 4
0,9 5

Numrul Pacienilor
cu efect secundar
5
4
4
4
4
4
3
3
3
3
3
3
3
3
3
3
2
2
2
2
2
2
2
2
2
2
1
1
1
1
1
0

Deoarece rezultatele celor cinci pacieni sunt independente, regula multiplicrii produce probabilitile
din Tabelul 3.11.
De exemplu:
Probabilitatea de a obine un rezultat cu 4 i 1
este
0,1 0,1 0,1 0,1 1 0,1 = 0,1 4 0,9
Probabilitatea de a obine toate 5 rezultatele este
0,1 0,1 0,1 0,1 0,1 = 0,1 5
Deoarece evenimentul toate cele cinci cazuri cu efect
secundar corespunde doar unuia din cele 32 de
rezultate,
iar evenimentul patru cazuri cu efect secundar i
unul fr aparine unui grup de cinci din cele 32,
fiecare cu probabilitatea 0,1 4 0,9 ,
regula aditivitii conduce la probabilitatea
0,1 5 + 5 0,1 4 0,9 = 0,00046
pentru evenimentul compus cu patru sau mai multe
cu efect secundar.

n general, modelul binomial se aplic atunci cnd fiecare ncercare a unui experiment are dou rezultate posibile
(de multe ori referite ca eec i succes sau negativ i pozitiv;
considerm c avem un succes atunci cnd este observat rezultatul primar).
20-Apr-15

48

S considerm c probabilitile eecului i succesului sunt, respectiv, 1 i , iar codificarea acestor dou
rezultate este 0 (eec) i 1 (succes).

Experimentul const n ncercri repetate ce satisfac urmtoarele supoziii:


1. Cele ncercri sunt toate independente.
2. Parametrul este acelai pentru fiecare ncercare.
Modelul se refer la numrul total de succese din ncercri, care este o variabil aleatoare .

Funcia densitii de probabilitate este dat de


= = 1

= 0,1,2, ,

unde este numrul de combinri ale obiectelor selectate dintr-un set de obiecte,
!
=
! !
i ! este produsul primilor ntregi.

De exemplu
20-Apr-15

3! = 1 2 3
49

Media i dispersia distribuiei binomiale sunt


=
2 = 1
i cnd numrul de ncercri este de la moderat ctre mare (de ex., > 25), putem aproxima distribuia binomial
printr-o distribuie normal i s rspundem la ntrebrile despre probabilitate fcnd mai nti conversia ctre un
scor normal standard:

=
1
unde este probabilitatea de a obine un rezultat pozitiv pentru o singur ncercare.

De exemplu, pentru = 0,1 i = 30, avem

= 30 0,1 = 3
2 = 30 0,1 0,9 = 2,7
astfel c
Pr 7 Pr

73

2,7

= Pr 2.43 = 0,0075

Cu alte cuvinte, dac probabilitatea real de a avea efect secundar este de 10%, probabilitatea de a avea apte sau
mai muli pacieni din 30 care s prezinte efectul secundar este mai mic de 1% (= 0,0075).
20-Apr-15

50

3.4.2 Distribuia Poisson

Aceast distribuie a fost folosit extensiv n tiinele sntii pentru a modela distribuia numrului de apariii a
unor evenimente aleatoare ntr-un interval de timp sau spaiu sau ntr-un anumit volum de materie.
De exemplu, administrator de spital a studiat prezentrile zilnice la serviciile de urgen pe o perioad de cteva luni
i a gsit c acestea au fost n medie de trei pe zi.
Administratorul este apoi interesat s afle probabilitatea ca ntr-o anumit zi s nu apar nici o prezentare de
urgen.
Distribuia Poisson este caracterizat prin densitatea sa de probabilitate:

= =

= 0,1,2,
!
Interesant pentru aceast distribuie este faptul c dispersia este egal cu media, i anume cu parametrul de mai
sus.
=
2 =
Ca urmare, putem rspunde chestiunilor de probabilitate folosind formula densitii de probabilitate Poisson sau
convertind numrul apariiilor x n scorul standard normal, tiind c 10:

Cu alte cuvinte, putem aproxima o distribuie Poisson printr-o distribuie normal cu media , dac este cel puin 10.
20-Apr-15

51

Iat un alt este


exemplu
Concluzia
clar:care implic o distribuie Poisson.
Fie am luat n analiz un eveniment extrem de improbabil, fie mortalitatea infantil n statele din New
Rata mortalitii
nou-nscuilor
(IMRmedia
infant
mortality rate) se definete ca =
England este
mai mic dect
naional.

pentru o anumit populaie int pe durata unui an, unde d este numrul de decese pe durata primului an de via i
N
esteobservat
numrul pentru
total destatele
nscui
vii.New England a fost de 9,7 decese la 1000 de nscui vii.
Rata
din
n studiile de IMR, N este convenional presupus fix i d urmeaz o distribuie Poisson.
Exemplul 3.9
Pentru anul 1981 avem la dispoziie urmtoarele date pentru statele din New England (Connecticut, Maine,
Massachusetts, New Hampshire, Rhode Island i Vermont):
= 1585
= 164.200
Pentru acelai an, rata naional a mortalitii infantile a fost 11,9 (la 1000 de nscui vii).
Dac aplicm IMR-ul naional (SUA) la statele din New England, vom obine

= 11,9 164,2 1954 decese de nou-nscui


Apoi, evenimentul de avea mai puin de 1585 decese de nou-nscui poate apare cu probabilitatea
1585 1954
Pr 1585 = Pr
= Pr( 8,35) 0
20-Apr-15
1954

52

3.5 CTEVA OBSERVAII ASUPRA ELEMENTELOR FUNDAMENTALE


3.5.1 Media i Dispersia
Aa cum am vzut n Seciunile 3.3 i 3.4, o funcie de densitate de probabilitate este definit astfel ca:
= Pr( = ) pentru cazul discret
= Pr( + ) pentru cazul continuu

Pentru o distribuie continu, aa cum este distribuia normal, media i dispersia 2 sunt calculate cu:
=
2 = 2
Pentru o distribuie discret, cum sunt distribuiile binomial i Poisson, media i dispersia 2 sunt calculate cu:
=
2 = 2
De exemplu, pentru distribuia binomial avem
=

2 = 1

i pentru distribuia Poisson


=

2 =

20-Apr-15

53

3.5.2 Studiul de tip caz/control pentru date pereche (mperecheate)


Datele din studiile epidemiologice pot proveni din diferite surse, dar cele dou modaliti experimentale de baz sunt
cel retrospectiv i cel prospectiv (sau cohort de grupuri).
Studiile retrospective preiau date din cazuri anterioare selectate (indivizi cu afeciune) i controale (indivizi fr
afeciunea respectiv) pentru a determina diferenele, dac exist vreuna, la expunerea la un anumit factor de risc
suspectat.
Acestea sunt de obicei denumite studii de tip caz/control.
Cazurile unei afeciuni specifice, cum ar fi cancerul de plmni, sunt constatate pe msur ce apar din registrele
primare ale afeciunilor populaiei sau din listele de internare n spitale, iar controalele sunt eantionate din
persoane din populaie care nu prezint afeciunea sau din pacienii spitalizai care prezint alt afeciune dect cea
studiat.

Avantajele studiului de caz/control sunt acelea c sunt economice i c devine posibil s se rspund ntrebrilor
relativ repede, deoarece cazurile sunt deja disponibile.

20-Apr-15

54

S presupunem c fiecare persoan dintr-o populaie mare a fost clasificat ca expus sau neexpus la un anumit
factor de risc i ca avnd sau neavnd o anumit afeciune.
Populaia poate fi acum rezumat ntr-un tabel 2 2 (Tabelul 3.12), cu intrri ce reprezint proporiile din
populaia total.
TABELUL 3.12
Afeciune
Factor
+

Total

+
1
2
1 + 2

3
4
3 + 4

Total
1 + 3
2 + 4
1

Folosind aceste proporii, asocierea (dac exist vreuna) ntre factorul de risc i boala respectiv poate fi msurat
prin raia de risc (sau riscul relativ) de a fi gsit pozitiv la afeciune pentru cei ce au fost sau nu expui factorului:
=

1
2
1 2 + 4

=
1 + 3 2 + 4 2 1 + 3

deoarece n multe situaii (chiar dac nu n toate), proporiile subiecilor clasificai ca pozitiv bolnavi va fi mic.
Adic, 1 este mic n raport cu 3 i 2 este mic n raport cu 4 .
20-Apr-15

55

Cum 1 este mic n raport cu 3 i 2 este mic n raport cu 4 ,


ntr-un astfel de caz riscul relativ este aproape egal cu :

/
= 14 = 1 /3 raia ansei de a fi pozitiv afectat
2 3

sau = 1 /2 raia ansei de a fi expus.

Aceasta justific folosirea raiei de ans pentru a determina diferenele, dac sunt, n expunerea la un factor de risc
suspectat.
Ca tehnic de control a factorilor ce pot fi confundai ntr-un studiu proiectat, cazurile individuale sunt corelate, de
multe ori direct unu-la-unu, cu un set de controale alese pentru a avea valori similare pentru variabilele confundate
importante.
Cel mai simplu exemplu de date corelate n pereche apare n cazul unei expuneri binare simple
(cum ar fi fumtor nefumtor).

Datele rezultatelor pot fi prezentate ntr-un tabel 2 2 (Tabelul 3.13) n care +, reprezint (expus, neexpus).
TABELUL 3.13
Caz
Control
+

20-Apr-15

+
1,1
1,0

0,1
0,0
56

De exemplu, 1,0 reprezint numrul perechilor n care cazul este expus,


dar perechea de control nu este expus.

Cel mai potrivit model statistic pentru a evidenia concluzia n privina


raiei ansei este folosirea probabilitii condiionale a numrului de
cazuri expuse printre perechile discordante.
= 1,0 + 0,1 fiind fix, se poate observa c 1,0 are o distribuie , , n care

= 1

Dovada poate fi prezentat pe scurt dup cum urmeaz.


Remarcnd c
1 = 1 1
0 1 1
0 = 1 0
0 0 1
sunt probabilitile expunerilor pentru cazuri i respectiv pentru controale, probabilitatea de a observa perechi
caz/control doar cu cazuri expuse este 1 0, n timp ce probabilitatea de a observa perechi n care doar controlul
este expus este 1 0 .
ntruct probabilitatea condiional de a observa o pereche din primul tip, care este discordant, este
=

1 0
1 0 /1 0
1 1 / 0 0

=
=
=
1 0 + 1 0 1 0 /1 0 + 1
1 1 / 0 0 + 1 + 1

care depinde doar de raia de ans .


20-Apr-15

57

3.6 NOTE ASUPRA CALCULELOR


n Seciunile 1.4 i 2.5 am acoperit tehnicile de baz din MS Excel: cum se deschide/organizeaz o foaie de calcul, cum
se salveaz, rencarc i cum se rezolv unele probleme de statistic descriptiv.
Subiectele au inclus paii de introducere a datelor, precum selectarea i tragerea, folosirea barei de formule, hrile cu
bare sau plcint, histogramele, calculul mrimilor statistice descriptive precum media i abaterea medie ptratic, ct
i calculul unui coeficient de corelaie.
n aceast seciune ne vom concentra pe modelele probabilistice utilizate n calculul ariilor de sub curbele de
densitate, n special curbele normal i .

Curbele normale
Primii doi pai sunt aceeai cu cei pentru obinerea informaiilor statistice descriptive (ns de aceast dat nu
avem nevoie de date): (1) dm clic pe paste function - i (2) apoi pe Statistical.
Dintre funciile disponibile, dou sunt legate de curbele normale: NORMDIST i NORMINV.

Excel furnizeaz informaii pentru orice distribuie normal, nu doar pentru distribuia normal standard ca n
Anexa B.
20-Apr-15

58

Dup selectarea uneia din cele dou funcii de mai sus, apare o cutie de dialog care cere furnizarea
(1) mediei ,
(2) abaterii medii ptratice i
(3) n ultimul rnd, marcat drept cumulativ, s introducem valoarea TRUE
(exist i o opiune FALSE, dar nu avem nevoie de ea).

Rspunsul va apare n celula preselectat.


NORMDIST furnizeaz aria de sub curba normal (cu media i abaterea medie ptratic indicate) ncepnd din
partea stng (minus infinit) pn la valoarea pe care trebuie s o specificm.
De exemplu, dac specificm = 0 i = 1, rspunsul va fi aria de sub curba normal standard pn la
punctul specificat (care este acelai numr cu cel din Anexa B + 0,5).

NORMINV realizeaz procesul invers, cnd furnizm c aria de sub curba normal (un numr ntre 0 i 1),
mpreun cu media i abaterea media ptratic , i avem nevoie de punctul de pe axa orizontal pentru care
aria, de sub curba normal de la minus infinit pn la valoarea , este egal cu numrul indicat ntre 0 i 1.
De exemplu, dac punem = 0, = 1 i probabilitatea =0,975, rezultatul va fi 1,96; spre deosebire de
Anexa B, dac vrem un numr situat n partea dreapt a curbei, probabilitatea trebuie s fie un numr mai
mare ca 0,5.
20-Apr-15

59

Curbele t: procedurile TDIST i TINV


Vrem s aflm acum modul n care gsim ariile de sub curbele normale astfel nct s determinm valorile pentru
testele statistice (un subiect discutat n Capitolul 5).
Un alt subiect important din aceast categorie este distribuia , care ncepe cu aceeai doi pai: (1) paste function
i (2) Statistical.
Dintre funciile disponibile, cele dou sunt legate de distribuia sunt TDIST i TINV.
Similar cazurilor corespunztor unei anumite arii de sub curb.
n fiecare caz trebuie s NORMDIST i NORMINV, TDIST ofer aria de sub curba t i cu TINV aflm punctul de pe
axa orizontal furnizm gradele de libertate.
n plus, pe ultimul rnd, marcat cu tails, introducem:
(Tails=) 1 dac avem risc unilateral (one-sided)
(Tails=) 2 dac avem risc bilateral (two-sided)

(Mai multe detalii asupra conceptelor de risc unilateral i bilateral sunt oferite n Capitolul 5.)
20-Apr-15

60

De exemplu:
Exemplul 1: Dac introducei (x=) 2,73, (grade de libertate=) 18, (Risc=) 1, ai cerut aria de sub curba cu 18 grade
de libertate i la dreapta de 2,73 (adic n coada dreapt); rspunsul este 0,00687.
Exemplul 2: Dac introducei (x=) 2,73, (grade de libertate=) 18, (Risc=) 2, ai cerut aria de sub curba cu 18 grade
de libertate i att la dreapta de 2,73, ct i la stnga de 2,73 (adic n ambele cozi); rspunsul este 0,01374, adic
de dou ori valoarea anterioar de 0,00687.

EXERCIII
3.1 3.25

20-Apr-15

61