Documente Academic
Documente Profesional
Documente Cultură
20-Apr-15
3.1 PROBABILITATE
O proporie este definit pentru a reprezenta mrimea relativ a poriunii din populaie cu o anumit
caracteristic (binar).
De exemplu, prevalena unei boli este proporia din populaie care prezint boala.
Similar, putem discuta despre proporia reaciei pozitive la un anumit test screening (test de identificare a
simptomelor unei afeciuni la pacienii aparent sntoi), proporia de brbai n cuprini n forme de studii de
post-liceale, etc.
O proporie este folosit ca o msur descriptiv pentru o populaie int n raport cu o caracteristic binar
(dihotomic).
Ea este un numr cuprins ntre 0 i 1 (sau 100%);
cu ct numrul este mai mare, cu att sub-populaia cu caracteristica respectiv este mai mare
[de exemplu, 70% brbai nseamn mai muli brbai dect femei (dect 50%)].
20-Apr-15
Rspunsul depinde de mrimea sub-populaiei din care face parte aceasta (adic, proporia).
Cu ct este mai mare proporia, cu att este mai mare ansa (unei astfel de persoane de a fi selectat).
Aceast ans este msurat prin proporie, un numr ntre 0 i 1, numit probabilitate.
Proporia msoar mrimea; ea este o caracteristic statistic descriptiv.
Probabilitatea msoar ansa.
Cnd ne intereseaz rezultatul (nc incert n aceast etap) unei selecii aleatoare, o proporie (static, fr aciune)
devine o probabilitate (aciunea pe cale de a fi luat).
20-Apr-15
S ne gndim la un exemplu simplu privind o cutie ce conine 100 de bile, 90 dintre ele roii i 10 albastre.
Dac ntrebarea este:
Cte bile roii sunt n cutie?, cineva poate rspunde 90%.
Dar dac ntrebarea este:
Dac luai o bil la ntmplare, credei c vei extrage una roie?, rspunsul ar trebui s fie 90% ans.
Primul 90% reprezint o proporie; cel de-al doilea 90% indic o probabilitate.
n plus, dac facem mai multe selecii aleatoare (numite eantionri repetate),
frecvena relativ acumulat pe termen lung (cumulativ) cu care apare un eveniment
(caracteristica de observat) este egal cu proporia sub-populaiei cu aceast caracteristic.
n seciunile urmtoare vom opera cu conceptul de probabilitate i unele aplicaii simple pentru luarea deciziilor
medicale.
20-Apr-15
cu cele mai bune intenii, datele biomedicale istoricul medical, examinrile fizice, interpretarea testelor clinice,
descrierea simptomelor i afeciunilor sunt cumva inexacte.
Dar cel mai important dintre toate, ntotdeauna avem de a face cu informaii incomplete:
-
este fie imposibil, fie mult prea costisitor, sau necesit prea mult timp pentru a studia ntreaga populaie;
de cele mai multe ori trebuie s ne rezumm la informaiilor obinute dintr-un eantion adic un subgrup al
populaiei investigate.
Calculnd probabilitile, acetia sunt n msur s descrie ce se ntmpl i s prezic ce ar trebui s se ntmple n
viitor n condiii similare.
20-Apr-15
3.1.2 Probabilitate
Populaia int pentru a anumit cercetare este ntreg setul de subieci la care se refer cercetarea.
De exemplu, ntr-un screening pentru cancer ntr-o comunitate, populaia int va consta din toate persoanele
comunitii care sunt supuse riscului bolii.
Pentru una din situaii, populaia int poate fi constituit din toate femeile cu vrsta peste 35 de ani; pentru alta,
poate fi constituit din toi brbaii peste 50 de ani.
Probabilitatea unui eveniment, cum ar fi rezultatul pozitiv la un test screening, ntr-o populaie int este definit
ca frecvena relativ (adic proporia) cu care evenimentul apare n acea populaie int.
De exemplu, probabilitatea de a avea boala este prevalena bolii.
Ca un alt exemplu, s presupunem c dintr-un total de = 100.000 de persoane dintr-o anumit populaie int,
un total de 5.500 au reacie pozitiv la un anumit test screening; ca urmare, probabilitatea de a fi pozitiv, notat cu
Pr(pozitiv), este
5.500
Pr pozitiv =
= 0,055 sau 5,5%
100.000
Astfel, o probabilitate este o msur descriptiv a unei populaii int n raport cu un anumit eveniment de interes.
Ea este un numr ntre 0 i 1 (sau 0 i 100%); cu ct este mai mare numrul, cu att este mai mare sub-populaia.
20-Apr-15
De mare interes este interpretarea probabilitii drept conceptul eantionrii aleatoare astfel nct s se asocieze
conceptul de probabilitate cu incertitudinea i ansa.
S notm mrimea (volumul) populaiei int cu (de obicei un numr mare), iar cea al unui subset cu , un numr
n < N, din populaia int.
Eantionarea aleatoare simpl din populaia int este eantionarea realizat astfel nct fiecare eantion posibil de
volum s aib ans egal de selecie.
Pentru eantionarea aleatoare simpl:
1. Fiecare extragere individual este incert n raport cu orice eveniment sau caracteristic investigat (de exemplu,
existena unei boli), dar
2. n eantionarea repetat din populaie, frecvena relativ acumulat (cumulativ) pe termen lung cu care
evenimentul apare reprezint frecvena relativ a evenimentului n populaie.
20-Apr-15
Procesul fizic de eantionare aleatoare poate fi realizat dup cum urmeaz (sau ntr-o manier logic echivalent
pailor ce urmeaz).
1. Se pornete de la o list a tuturor celor subieci din populaie. O astfel de list este denumit referin (frame)
pentru populaie.
Subiecii sunt astfel disponibili pentru o numrtoare aleatoare (de ex., de la 000 la N = 999).
Referina se bazeaz de obicei pe un anuar (carte de telefon, carte de adrese, etc.) sau pe nregistrrile unui spital.
2. Se pregtete cte o etichet (bileel) pentru fiecare subiect, purtnd un numr 1,2,,.
3. Etichetele sunt puse ntr-o caset i apoi sunt amestecate foarte bine.
4. Se extrage o etichet.
Numrul etichetei identific apoi subiectul din populaie; acest subiect devine membru al eantionului.
Paii de la 2 la 4 pot fi de asemenea realizai folosind o tabel de numere aleatoare (Anexa A).
Se alege arbitrar o coloan de 3 digii (sau de 4 digii, dac volumul populaiei este mare) i un numr selectat
arbitrar din acea coloan servete pentru identificarea subiectului din populaie.
n exemplul cu screening-ul pentru cancer ntr-o comunitate de = 100.000 de persoane, probabilitatea calculat
de 0,055 este interpretat astfel:
Probabilitatea ca o persoan aleas aleatoriu din populaia int
s aib un rezultat pozitiv este 0,055 sau 5,5%.
sau
Totui, dac acest proces de extragere aleatoare a unui subiect la un anumit moment din populaie este repetat
de mai multe ori, frecvena relativ cumulativ pe termen lung a receptorilor pozitivi din eantion va aproxima 0,055.
20-Apr-15
10
Datele din testul screening de cancer din Exemplul 1.4 sunt reproduse aici n Tabelul 3.1.
TABELUL 3.1
Afeciune,
+
Total
Rezultatul Testului,
+
154
225
362
23.362
516
23.587
Total
379
23.724
24.103
Urmnd definiia anterioar, probabilitatea unui rezultat pozitiv al testului, notat cu Pr = + , este
516
= + =
= 0,021
24,103
iar probabilitatea unui test cu rezultat negativ, notat cu Pr = , este
23.587
= =
= 0,979
24.103
i similar, probabilitile de a avea = + i de a nu avea = afeciunea sunt date de
379
Pr = + =
= 0,016
24,103
i
23.724
Pr = =
= 0,984
24.103
20-Apr-15
11
Pr X = +, Y = + =
Pr X = +, Y = =
Pr X = , Y = + =
Pr X = , Y = =
154
24.103
362
24.103
225
24.103
23.362
24.103
= 0,006
= 0,015
= 0,009
= 0,970
Cea de-a doua din cele patru probabiliti asociate, 0,015, reprezint probabilitatea ca o persoan extras aleatoriu
din populaia int s aib rezultat pozitiv la test, dar s fie sntoas (adic, s fie fals pozitiv).
20-Apr-15
12
Aceste probabiliti asociate i probabilitile marginale de mai sus, calculate separat pentru X i Y, sunt centralizate
n Tabelul 3.2.
TABELUL 3.2
Total
+
0,006
0,015
0,021
0,009
0,970
0,979
Total
0,015
0,985
1,000
De asemenea, trebuie remarcat c probabilitile asociate de pe fiecare rnd (sau coloan) se nsumeaz la
probabilitatea marginal sau unidimensional la marginea rndului respectiv (sau coloanei).
De exemplu,
Pr X = +, Y = + + Pr X = , Y = + = Pr Y = + = 0,015
20-Apr-15
13
154
= 0,406
379
Adic, din numrul total de 379 de persoane avnd cancer, proporia celor cu rezultat pozitiv la test este 0,406 sau
40,6%.
Acest numr, reprezentat prin Pr = +| = + , este denumit probabilitate condiionat ( = + fiind condiia) i este
legat de alte dou tipuri de probabiliti:
Pr = +| = + =
Pr = +, = +
Pr = +
sau
Pr = +, = + = Pr = +| = + Pr = +
i probabilitatea marginal
14
Dac dou evenimente nu sunt independente, ele au o legtur statistic sau spunem c ele sunt statistic asociate.
Pentru exemplul relativ la screening-ul anterior,
Pr X = + = 0,021
Pr X = +|Y = + = 0,406
valori ce indic n mod clar o puternic legtur statistic [deoarece Pr X = +|Y = + Pr X = + ].
Evident, are sens s existe o puternic legtur statistic aici; altfel screening-ul este inutil.
Totui, trebuie subliniat c o asociere statistic nu nseamn neaprat c exist o cauz i un efect.
Cu excepia cazului n care o relaie este att de puternic i se repet n mod constant astfel nct situaia este
copleitoare prin eviden,
o relaie statistic,
n special una observat pe baza unui eantion (deoarece totalitatea informaiilor asupra populaiei este rareori
disponibil),
este doar un indiciu,
ceea ce nseamn c este necesar un studiu mai aprofundat sau existena unei confirmri.
20-Apr-15
15
Trebuie semnalat c sunt cteva moduri diferite de a verifica prezena unei legturi statistice.
1. Calculul raiei anselor. Cnd i sunt independente, sau nu sunt asociate statistic, raia anselor este egal cu 1.
Aici facem referin la valoarea raiei anselor pentru populaie; aceast valoare este definit prin
Pr X = +|Y = + /Pr X = |Y = +
raia anselor =
Pr X = +|Y = /Pr X = |Y =
i poate fi exprimat, echivalent, n termeni de probabiliti asociate astfel
Pr X = +|Y = + Pr X = |Y =
raia anselor =
Pr X = +|Y = Pr X = |Y = +
i, pentru exemplu de mai sus, conduce la
OR =
0,006 0,970
0,015 0,009
16
n timp ce
154
Pr = + = + =
= 0,298
516
Rezultatul Testului,
Afeciune,
+
Total
+
154
225
379
362
23.362 23.724
Total
516
23.587 24.103
c testul sugereaz cancerul, care este probabilitatea ca, de fapt, cancerul s fie prezent?
17
Argumentarea pentru aceste valori predictive este aceea c un test trece prin cteva stadii.
Iniial, ideea original a testului apare de la un cercettor.
Din acest stadiu de dezvoltare, eficiena testului este caracterizat prin sensibilitate i specificitate.
Un test eficient va trece apoi printr-un stadiu aplicativ cu aplicarea efectiv a testului pe o populaie int;
i aici ne concentrm doar pe valorile predictive ale acestuia.
20-Apr-15
18
Exemplul simplu prezentat n Tabelul 3.3 arat c, spre deosebire de sensibilitate i specificitate, valorile predictive
pozitive i negative depind nu doar de eficiena testului dar i de prevalena bolii n populaia int.
TABELUL 3.3
Populaia A
45.000
5.000
5.000 45.000
Populaia B
9.000
1.000
9.000 81.000
Totui:
1. Populaia A are o prevalen de 50%, ceea ce conduce la o valoare predictiv pozitiv de 90%.
2. Populaia B are o prevalen de 10%, ceea ce conduce la o valoare predictiv pozitiv de 50%.
20-Apr-15
19
n aplicarea real a testului screening unei populaii int (stadiul de aplicare), datele asupra strii de boal a
indivizilor nu sunt disponibile (altfel, screening-ul nu ar mai fi necesar).
Totui, prevalenele bolilor sunt de multe ori disponibile din datele ageniilor naionale i supravegherii strii de
sntate a populaiei.
prevalena sensibilitatea
prevalena sensibilitatea + 1 prevalena (1 specificitatea)
predictibilitatea negativ =
1 prevalena specificitatea
1 prevalena specificitatea + prevalena (1 sensibilitatea)
Aceste formule, denumite teorema lui Bayes, ne permit s calculm valorile predictive fr a avea la dispoziie
datele din stadiul de aplicare.
Tot ce ne trebuie este s avem la dispoziie prevalena bolii (obinut din datele ageniei naionale de sntate) i
sensibilitatea i specificitatea; aceste au fost obinute dup stadiul de dezvoltare.
Nu este prea dificil de demonstrat aceste formule, folosind regulile de adiie i multiplicare ale probabilitilor.
20-Apr-15
20
De exemplu, avem
Pr = +, = +
Pr = +, = +
=
=
Pr = +
Pr = +, = + + Pr = +, =
Pr = + Pr = +| = +
=
=
Pr = + Pr = +| = + + Pr = Pr = +| =
Pr = + Pr = +| = +
=
Pr = + Pr = +| = + + 1 Pr = + 1 Pr = | =
Pr = + = + =
Putei de asemenea observa c, n loc de a cuta dovezi formale, ilustrm validitatea acestora folosind datele
populaiei B de mai sus:
1. Calculul direct al predictibilitii pozitive conduce la
9.000
18.000
= 0,5
20-Apr-15
21
22
Pentru simplitate, s presupunem c fiecare din cei doi observatori independeni include fiecare din cele n elemente
sau subieci ntr-una din dou categorii.
Eantionul poate fi astfel centralizat ntr-un tabel 2 2 (Tabelul 3.4) sau n termeni de probabiliti (Tabelul 3.5).
Observatorul 1
Categoria 1
Categoria 2
Total
TABELUL 3.4
Observatorul 2
Categoria 1 Categoria 2
11
12
21
22
+1
+2
TABELUL 3.5
Total
1+
2+
Observatorul 1
Categoria 1
Categoria 2
Total
Observatorul 2
Categoria 1 Categoria 2
11
12
21
22
+1
+2
Total
1+
2+
1,0
11 +22
211
11 +12 +21
1 = 2
222
22 +12 +21
2 = 2
23
unde sunt proporiile din cel de-al doilea tabel 2 2 de mai sus, cu concordana de ans,
2 =
+ +
care apare dac variabila rnd este independent de variabila coloan, deoarece dac dou evenimente sunt
independente, probabilitatea lor de mbinare ntmpltoare este produsul probabilitilor lor marginale individuale
(regula de multiplicare).
20-Apr-15
24
1 2
12
numit kapa, 0 1,
2 11 2212 21
1+ +2 ++1 2+
iar evaluarea valorii calculate a lui kapa pentru cercetrile clinice se poate face dup regulile de mai jos:
> 0,75:
reproductibilitate excelent
0,40 0,75:
reproductibilitate bun
0 < 0,40:
reproductibilitate slab/marginal
n general, reproductibilitatea care nu este bun indic necesitatea efecturii mai multor estimri.
20-Apr-15
25
Exemplul 3.1
Dou asistente fac examinri ale urechii, concentrndu-se pe culoarea membranei timpanului; fiecare asistent
atribuie, pentru fiecare din cele 100 de urechi examinate, ncadrarea n una din dou categorii:
(a) normal sau gri, sau
(b) anormal (alb, roz, portocalie sau roie).
TABELUL 3.6
Asistenta 1
Normal
Anormal
Total
Asistenta 2
Normal
Anormal
35
10
20
35
55
45
Total
45
55
100
Kapa, ca msur a concordanei, poate fi folosit i cnd avem mai mult de dou categorii pentru clasificare:
+ +
=
1 + +
Putem forma criterii specifice pentru categorii (de ex., pentru dou categorii)
11 1+ +1
22 2+ +2
1 = 1
=
2
1
1+ +1
2+ +2
Problema mai dificil cu este aceea c el se apropie de zero (chiar pentru un mare grad de concordan) dac
prevalena este apropiat de 0 sau de 1.
20-Apr-15
26
27
Probabil ai auzit deja de distribuia normal; este descris ca o distribuie avnd aspectul unei seciuni printr-un
clopot, similar Figurii 3.2.
Numele poate sugera c cele mai multe distribuii din natur sunt normale. Aceast presupunere este FALS.
Mai mult, distribuiile nu pot fi exact normale.
Unele, cum ar fi nlimea adulilor de un anumit gen i ras, sunt spectaculos de aproape de distribuia normal, dar
niciodat exact.
Distribuia normal este extrem de util n statistic, dar dintr-un motiv foarte diferit nu pentru c apare n natur.
Matematicienii au dovedit c pentru eantioane suficient de mari, valorile mediilor de eantion, (incluznd
proporiile eantionului ca un caz special), sunt distribuite aproximativ normal, chiar dac eantioanele sunt din
distribuii reale asimetrice.
Acest rezultat important poart numele de teorema limitei centrale.
Este important pentru statistic, precum este important nelegerea germenilor pentru nelegerea afeciunilor.
20-Apr-15
28
Reinei c normal este doar o denumire pentru aceast curb; dac o mrime nu este distribuit normal, nu
nseamn c este anormal.
Multe texte statistice furnizeaz proceduri statistice pentru a identifica dac o distribuie este normal, dar ele nu se
ncadreaz n scopul acestui curs.
De acum ncolo, pentru a face distincie ntre eantioane i populaie (un eantion este un subgrup din populaie),
vom adopta setul de noiuni definit n Tabelul 3.7.
TABELUL 3.7
Cantitatea
Medie
Varian (Dispersie)
Deviaie standard (Abatere medie ptratic)
Proporie
Notaie
Eantion
Populaie
Cantitile din prima coloan (, 2 , ) sunt mrimi statistice reprezentnd centralizarea informaiilor din eantion.
Parametrii corespunztori pentru populaie sunt fici (constani) dar necunoscui i fiecare mrime statistic poate
fi folosit ca o estimare a parametrului corespunztor al populaiei.
20-Apr-15
29
O problem major n manipularea mrimilor statistice precum i este aceea c, dac vom considera un alt eantion
chiar folosind unul de acelai volum valorile mrimilor statistice se schimb de la un eantion la altul.
Teorema limitei centrale ne spune c dac mrimile eantioanelor sunt suficient de mari, valorile (sau ) n
eantionri repetate au o distribuie foarte apropiat de cea normal.
Ca urmare, pentru a opera cu variabilitatea datorat ansei, astfel nct s putem declara de exemplu c o anumit
diferen observat este mai mare dect cea care apare ntmpltor i este real, mai nti trebuie s nvm cum s
calculm probabilitile asociate curbelor normale.
Termenul curb normal, de fapt, se refer nu doar o curb ci la o familie de curbe, fiecare caracterizat printr-o medie
i o dispersie 2 .
n cazul special n care = 0 i 2 = 1, avem de-a face cu curba normal standard.
Pentru o medie i o dispersie 2 date, curba are form de clopot cu cozile cobornd puternic ctre linia de baz.
n teorie, cozile se apropie din ce n ce mai mult de linia de baz dar nu o ating niciodat, tinznd ctre zero cnd
tinde ctre infinit, n ambele direcii. n practic, ignorm acest lucru i lucrm cu limite practice.
Vrful curbei apare la media (care pentru aceast distribuie special este de asemenea medie i mod) i nlimea
curbei la vrf depinde, invers proporional, de dispersia 2 .
20-Apr-15
30
31
Aria total de sub o astfel de curb reprezint unitatea (100%), iar Figura 3.4 prezint curba normal standard cu
unele subdiviziuni importante.
De exemplu, aproximativ 68% din arie este coninut n intervalul 1:
1 < < 1 = 0,6826
i aproximativ 95% n intervalul 2:
2 < < 2 = 0,9545
32
Alte arii de sub curba normal standard au fost calculate i sunt disponibile tabelat
(vezi Anexa B).
Intrrile din tabelul din Anexa B ofer aria de sub curba normal standard ntre
medie ( = 0) i o valoare pozitiv specificat pentru .
Figura 3.5 Aria de sub curba
normal standard
Folosind tabelul din Anexa B i proprietatea de simetrie a curbei normale standard, putem prezenta i alte arii
calculate.
Folosind pachetele software uzuale, acestea pot fi obinute uor; vedei Seciunea 3.5.
Totui, credem c aceste aplicaii practice ajut nsuirea, chiar dac ele nu mai sunt strict
necesare.
20-Apr-15
33
S presupunem c ne intereseaz aria dintre = 0 i = 1,35 (numerele sunt mai nti rotunjite la dou zecimale, sau
putem face o interpolare).
Pentru a afla acest lucru, mai nti cutm n rndul marcat cu 1,3 n coloana din stnga a tabelului, dup care
gsim coloana marcat cu 0,05 n partea superioar a primului rnd al tabelului (1.35 = 1.30 + 0,05).
Apoi ne uitm n corpul tabelului i gsim la intersecia rndului 1,30 cu coloana 0,05 valoarea 0,4115.
Acest numr, 0,4115, este aria cutat ntre = 0 i = 1,35.
TABELUL 3.8
20-Apr-15
34
Un alt exemplu:
Tabelul poate fi folosit i invers, cnd avem la dispoziie aria dintre zero i o valoare pozitiv i vrem s aflm
valoarea lui .
S presupunem c ne intereseaz s aflm valoarea pentru care aria dintre zero i este 0,20.
Pentru aceasta ne vom uita n corpul tabelului pentru a gsi cea mai apropiat valoare de 0,20, care este
0,2019.
Acest numr se gsete la intersecia rndului 0,5 i coloanei 0,03.
20-Apr-15
35
Exemplul 3.2 Care este probabilitatea de a obine o valoare a lui situat ntre 1 i 1?
Avem
1 1 = 1 0 + 0 1 = 2 0 1 = 2 0,3413 = 0,6826
ceea ce confirm numrul prezentat n Figura 3.4.
36
Exemplul 3.4 Care este probabilitatea de a obine o valoare de 0,5 sau mai mare?
Avem
0,5 = 0.5 0 + 0 = 0 0,5 + 0 =
= 0,1915 + 0,5 = 0,6915
i probabilitatea este prezentat n Figura 3.8.
Avem
1,0 1,58 = 0 1,58 0 1,0 =
= 0,4429 0,3413 = 0,1016
i probabilitatea este prezentat n Figura 3.9.
20-Apr-15
37
Exemplul 3.6 S se gseasc valoarea astfel nct probabilitatea de a obine o valoare mai mare s fie de doar 0,10.
Avem
( ? ) = 0,10
i aceasta este ilustrat n Figura 3.10.
Cutnd n tabelul dina Anexa B, gsim 0,3994 (aria dintre 0 i 1,28), astfel c
1.28 = 0,5 0 1,28 = 0,5 0,3997 0,10
n termenii ntrebrii iniiale, este o probabilitate de aproximativ 0,1 (10%) de a obine o valoare de 1,28 sau mai
mare.
20-Apr-15
38
Aici interpretm valoarea (sau scorul ) ca numrul abaterilor medii ptratice de la medie.
Exemplul 3.7
Dac valorile colesterolului total pentru o anumit populaie int sunt distribuite aproximativ normal cu
media de 200 (mg/100 ml) i
abaterea media ptratic de 20 (mg/100 ml),
probabilitatea ca o persoan aleas la ntmplare din aceast populaie sa aib valoarea colesterolului mai mare
dect 240 (mg/100 ml) este
200 240 200
Pr 240 = Pr
= Pr 2,0 =
20
20
= 0,5 Pr 2,0 = 0,5 0,4772 = 0,0288 sau 2,28%
20-Apr-15
39
Exemplul 3.8
Figura 3.11 este un model pentru hipertensiune i hipotensiune (Journal of
American Medical Association, 1964), prezentat aici ca o ilustrare simpl a
utilizrii distribuiei normale; chiar acceptarea unui astfel de model nu este
unanim.
Datele dintr-o populaie masculin au fost grupate dup vrst
n Tabelul 3.9.
Din acest tabel, folosind Anexa B, au fost calculate limitele
presiunii sangvine sistolice pentru fiecare grup (Tabelul 3.10).
Hipotensiv
Limit
Presiune sangvin
normal
Limit
Hipertensiv
TABELUL 3.9
Vrsta
(ani)
16
17
18
19
2024
2529
3034
3539
4044
4554
5564
20-Apr-15
12,17
12,88
11,95
14,99
13,74
12,58
13,61
14,20
15,07
18,11
19,99
TABELUL 3.10
Vrsta
Hipotensiunea
(ani)
este sub:
16
98,34
17
99,77
18
100,11
19
97,10
2024
?
2529
?
3034
130,67
3539
130,70
4044
104,16
4554
102,47
5564
106,91
Lim. inf.
(sntos)
102,80
104,49
104,48
102,58
?
?
108,65
108,90
109,68
109,09
114,22
Lim. sup.
(sntos)
134,00
137,51
135,12
141,02
?
?
143,55
145,30
148,32
155,41
165,38
Hipertensiunea
este peste:
138,46
142,23
139,49
146,50
?
?
148,53
150,50
153,84
162,03
172,74
40
De exemplu, cea mai mare limit superioar (sntos) pentru grupul 2025 ani se obine astfel:
123,9 ? 123,9
Pr ? = 0,10 = Pr
13,74
13,74
i, din Exemplul 3.6, obinem
? 123,9
1,28 =
13,74
ceea ce conduce la
? = 123,9 + 1,28 13,74 = 141,49
20-Apr-15
41
Dac valorile unei variabile pot avea teoretic orice valoare pe o scal numeric, avem de-a face cu o variabil
continu; exemple de acest tip pot fi nlimea, greutatea i tensiunea arterial.
Spuneam n Seciunea 3.2 c fiecare variabil continu este caracterizat de o curb de densitate neted.
Matematic, o curb este caracterizat de o ecuaie de forma
=
denumit funcia de densitate de probabiliti, care include unul sau mai muli parametri;
aria total de sub curba de densitate este 1,0.
Probabilitatea ca aceast variabil s ia orice valoare ntr-un interval delimitat de dou puncte i este dat de
20-Apr-15
42
Funcia densitate de probabiliti pentru o familie de curbe normale, denumit i distribuie Gaussian, este dat de
1
1 2
=
pentru
2
2
Semnificaia parametrilor i / 2 a fost discutat n Seciunea 3.2; este media, 2 este dispersia (variana) i este
abaterea media ptratic (deviaia standard).
Cnd = 0 i 2 = 1 avem o distribuie normal standard.
1
0
1
exp
2
2
43
Pe msur ce volumul datelor msurate crete, mediile eantioanelor extrase din populaie ale oricrei distribuii tind
ctre distribuia normal.
Aceast teorem, cnd este formulat riguros, este cunoscut drept teorema limitei centrale (mai multe detalii n
Capitolul 4).
n plus fa de distribuia normal (Anexa B), noiunile introduse n capitolele ce urmeaz implic trei alte distribuii
continue:
Distribuia (Anexa C)
Distribuia 2 (Anexa D)
Distribuia (Anexa E)
Distribuia este similar distribuiei normale standard prin aceea c este uni-modal, n form de clopot i simetric;
se extinde infinit n ambele direcii; are media 0.
Aceasta este o familie de curbe, fiecare indexat de un numr numit grade de libertate (df degrees of freedom sau ).
Fiind dat un eantion de date continue, gradele de libertate msoar cantitatea de informaie disponibil n setul de
date care poate fi folosit pentru estimarea dispersiei populaiei 2 (adic 1, numrtorul din expresia pentru 2 ).
Curbele au cozi mai groase dect cele ale curbei normale standard; dispersia lor este uor mai mare dect 1
[= df/(df 2)].
Totui, aria de sub fiecare curb rmne egal cu unitatea (sau 100%).
20-Apr-15
44
Ariile de sub o curb pornind de la coada (ramura) dreapt pn la o anumit valoare (ariile haurate), sunt listate n
Anexa C; distribuia cu grad de libertate infinit este egal cu distribuia normal standard.
Aceast egalitate este uor de observat examinnd coloana marcat, s spunem, cu Aria = 0,025.
Ultima linie ( = ) conine valoarea 1,96 (verificarea se face folosind Anexa B).
Spre deosebire de distribuiile normal i , distribuiile 2 i se refer doar la atribute pozitive i vor fi folosite n
anumite teste n Capitolul 6 (distribuia 2 ) i Capitolul 7 (distribuia ).
Similar cazului distribuiei , formulele pentru funciile distribuiilor probabilitilor pentru distribuiile 2 i au
formule matematice complexe i nu vor fi abordate aici.
Fiecare distribuie 2 este indexat printr-un numr numit grade de libertate .
Vom face astfel referire la distribuia 2 cu grade de libertate;
media i dispersia acesteia sunt respectiv i 2.
O distribuie este indexat cu 2 grade de libertate (, ).
20-Apr-15
45
n aceast seciune ne concentrm pe probabilitatea unui eveniment compus: apariia a rezultate (pozitive) (0 )
din ncercri, numit probabilitate binomial.
20-Apr-15
46
De exemplu, dac un anumit medicament este cunoscut a avea un efect colateral n 10% din cazuri i dac cinci
pacieni sunt tratai cu acest medicament, care este probabilitatea ca patru sau mai muli s prezinte acest efect
colateral?
calculul probabilitii fiecrui rezultat folosind regula de multiplicare (unde ncercrile se presupun a fi
independente) i n final prin
combinarea probabilitilor tuturor acestor rezultate care sunt compatibile cu rezultatul dorit folosind
regula aditivitii.
Cu cinci pacieni sunt posibile 32 de rezultate reciproce exclusive, aa cum se arat n Tabelul 3.11.
20-Apr-15
47
TABELUL 3.11
Nr.
Crt.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
Pacient 1
S
N
S
S
S
S
N
N
N
N
S
S
S
S
S
S
N
N
N
N
N
N
S
S
S
S
S
N
N
N
N
N
Pacient 2
S
S
N
S
S
S
N
S
S
S
N
N
N
S
S
S
N
N
N
S
S
S
N
N
N
S
N
S
N
N
N
N
Rezultat
Pacient 3
S
S
S
N
S
S
S
N
S
S
N
S
S
N
N
S
N
S
S
N
N
S
N
N
S
N
N
N
S
N
N
N
Pacient 4
S
S
S
S
N
S
S
S
N
S
S
N
S
N
S
N
S
N
S
N
S
N
N
S
N
N
N
N
N
S
N
N
Pacient 5
S
S
S
S
S
N
S
S
S
N
S
S
N
S
N
N
S
S
N
S
N
N
S
N
N
N
N
N
N
N
S
N
Probabilitatea
0,1 5
0,1 4 0,9
0,1 4 0,9
0,1 4 0,9
0,1 4 0,9
0,1 4 0,9
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 3 0,9 2
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 2 0,9 3
0,1 0,9 4
0,1 0,9 4
0,1 0,9 4
0,1 0,9 4
0,1 0,9 4
0,9 5
Numrul Pacienilor
cu efect secundar
5
4
4
4
4
4
3
3
3
3
3
3
3
3
3
3
2
2
2
2
2
2
2
2
2
2
1
1
1
1
1
0
Deoarece rezultatele celor cinci pacieni sunt independente, regula multiplicrii produce probabilitile
din Tabelul 3.11.
De exemplu:
Probabilitatea de a obine un rezultat cu 4 i 1
este
0,1 0,1 0,1 0,1 1 0,1 = 0,1 4 0,9
Probabilitatea de a obine toate 5 rezultatele este
0,1 0,1 0,1 0,1 0,1 = 0,1 5
Deoarece evenimentul toate cele cinci cazuri cu efect
secundar corespunde doar unuia din cele 32 de
rezultate,
iar evenimentul patru cazuri cu efect secundar i
unul fr aparine unui grup de cinci din cele 32,
fiecare cu probabilitatea 0,1 4 0,9 ,
regula aditivitii conduce la probabilitatea
0,1 5 + 5 0,1 4 0,9 = 0,00046
pentru evenimentul compus cu patru sau mai multe
cu efect secundar.
n general, modelul binomial se aplic atunci cnd fiecare ncercare a unui experiment are dou rezultate posibile
(de multe ori referite ca eec i succes sau negativ i pozitiv;
considerm c avem un succes atunci cnd este observat rezultatul primar).
20-Apr-15
48
S considerm c probabilitile eecului i succesului sunt, respectiv, 1 i , iar codificarea acestor dou
rezultate este 0 (eec) i 1 (succes).
= 0,1,2, ,
unde este numrul de combinri ale obiectelor selectate dintr-un set de obiecte,
!
=
! !
i ! este produsul primilor ntregi.
De exemplu
20-Apr-15
3! = 1 2 3
49
= 30 0,1 = 3
2 = 30 0,1 0,9 = 2,7
astfel c
Pr 7 Pr
73
2,7
= Pr 2.43 = 0,0075
Cu alte cuvinte, dac probabilitatea real de a avea efect secundar este de 10%, probabilitatea de a avea apte sau
mai muli pacieni din 30 care s prezinte efectul secundar este mai mic de 1% (= 0,0075).
20-Apr-15
50
Aceast distribuie a fost folosit extensiv n tiinele sntii pentru a modela distribuia numrului de apariii a
unor evenimente aleatoare ntr-un interval de timp sau spaiu sau ntr-un anumit volum de materie.
De exemplu, administrator de spital a studiat prezentrile zilnice la serviciile de urgen pe o perioad de cteva luni
i a gsit c acestea au fost n medie de trei pe zi.
Administratorul este apoi interesat s afle probabilitatea ca ntr-o anumit zi s nu apar nici o prezentare de
urgen.
Distribuia Poisson este caracterizat prin densitatea sa de probabilitate:
= =
= 0,1,2,
!
Interesant pentru aceast distribuie este faptul c dispersia este egal cu media, i anume cu parametrul de mai
sus.
=
2 =
Ca urmare, putem rspunde chestiunilor de probabilitate folosind formula densitii de probabilitate Poisson sau
convertind numrul apariiilor x n scorul standard normal, tiind c 10:
Cu alte cuvinte, putem aproxima o distribuie Poisson printr-o distribuie normal cu media , dac este cel puin 10.
20-Apr-15
51
pentru o anumit populaie int pe durata unui an, unde d este numrul de decese pe durata primului an de via i
N
esteobservat
numrul pentru
total destatele
nscui
vii.New England a fost de 9,7 decese la 1000 de nscui vii.
Rata
din
n studiile de IMR, N este convenional presupus fix i d urmeaz o distribuie Poisson.
Exemplul 3.9
Pentru anul 1981 avem la dispoziie urmtoarele date pentru statele din New England (Connecticut, Maine,
Massachusetts, New Hampshire, Rhode Island i Vermont):
= 1585
= 164.200
Pentru acelai an, rata naional a mortalitii infantile a fost 11,9 (la 1000 de nscui vii).
Dac aplicm IMR-ul naional (SUA) la statele din New England, vom obine
52
Pentru o distribuie continu, aa cum este distribuia normal, media i dispersia 2 sunt calculate cu:
=
2 = 2
Pentru o distribuie discret, cum sunt distribuiile binomial i Poisson, media i dispersia 2 sunt calculate cu:
=
2 = 2
De exemplu, pentru distribuia binomial avem
=
2 = 1
2 =
20-Apr-15
53
Avantajele studiului de caz/control sunt acelea c sunt economice i c devine posibil s se rspund ntrebrilor
relativ repede, deoarece cazurile sunt deja disponibile.
20-Apr-15
54
S presupunem c fiecare persoan dintr-o populaie mare a fost clasificat ca expus sau neexpus la un anumit
factor de risc i ca avnd sau neavnd o anumit afeciune.
Populaia poate fi acum rezumat ntr-un tabel 2 2 (Tabelul 3.12), cu intrri ce reprezint proporiile din
populaia total.
TABELUL 3.12
Afeciune
Factor
+
Total
+
1
2
1 + 2
3
4
3 + 4
Total
1 + 3
2 + 4
1
Folosind aceste proporii, asocierea (dac exist vreuna) ntre factorul de risc i boala respectiv poate fi msurat
prin raia de risc (sau riscul relativ) de a fi gsit pozitiv la afeciune pentru cei ce au fost sau nu expui factorului:
=
1
2
1 2 + 4
=
1 + 3 2 + 4 2 1 + 3
deoarece n multe situaii (chiar dac nu n toate), proporiile subiecilor clasificai ca pozitiv bolnavi va fi mic.
Adic, 1 este mic n raport cu 3 i 2 este mic n raport cu 4 .
20-Apr-15
55
Aceasta justific folosirea raiei de ans pentru a determina diferenele, dac sunt, n expunerea la un factor de risc
suspectat.
Ca tehnic de control a factorilor ce pot fi confundai ntr-un studiu proiectat, cazurile individuale sunt corelate, de
multe ori direct unu-la-unu, cu un set de controale alese pentru a avea valori similare pentru variabilele confundate
importante.
Cel mai simplu exemplu de date corelate n pereche apare n cazul unei expuneri binare simple
(cum ar fi fumtor nefumtor).
Datele rezultatelor pot fi prezentate ntr-un tabel 2 2 (Tabelul 3.13) n care +, reprezint (expus, neexpus).
TABELUL 3.13
Caz
Control
+
20-Apr-15
+
1,1
1,0
0,1
0,0
56
= 1
1 0
1 0 /1 0
1 1 / 0 0
=
=
=
1 0 + 1 0 1 0 /1 0 + 1
1 1 / 0 0 + 1 + 1
57
Curbele normale
Primii doi pai sunt aceeai cu cei pentru obinerea informaiilor statistice descriptive (ns de aceast dat nu
avem nevoie de date): (1) dm clic pe paste function - i (2) apoi pe Statistical.
Dintre funciile disponibile, dou sunt legate de curbele normale: NORMDIST i NORMINV.
Excel furnizeaz informaii pentru orice distribuie normal, nu doar pentru distribuia normal standard ca n
Anexa B.
20-Apr-15
58
Dup selectarea uneia din cele dou funcii de mai sus, apare o cutie de dialog care cere furnizarea
(1) mediei ,
(2) abaterii medii ptratice i
(3) n ultimul rnd, marcat drept cumulativ, s introducem valoarea TRUE
(exist i o opiune FALSE, dar nu avem nevoie de ea).
NORMINV realizeaz procesul invers, cnd furnizm c aria de sub curba normal (un numr ntre 0 i 1),
mpreun cu media i abaterea media ptratic , i avem nevoie de punctul de pe axa orizontal pentru care
aria, de sub curba normal de la minus infinit pn la valoarea , este egal cu numrul indicat ntre 0 i 1.
De exemplu, dac punem = 0, = 1 i probabilitatea =0,975, rezultatul va fi 1,96; spre deosebire de
Anexa B, dac vrem un numr situat n partea dreapt a curbei, probabilitatea trebuie s fie un numr mai
mare ca 0,5.
20-Apr-15
59
(Mai multe detalii asupra conceptelor de risc unilateral i bilateral sunt oferite n Capitolul 5.)
20-Apr-15
60
De exemplu:
Exemplul 1: Dac introducei (x=) 2,73, (grade de libertate=) 18, (Risc=) 1, ai cerut aria de sub curba cu 18 grade
de libertate i la dreapta de 2,73 (adic n coada dreapt); rspunsul este 0,00687.
Exemplul 2: Dac introducei (x=) 2,73, (grade de libertate=) 18, (Risc=) 2, ai cerut aria de sub curba cu 18 grade
de libertate i att la dreapta de 2,73, ct i la stnga de 2,73 (adic n ambele cozi); rspunsul este 0,01374, adic
de dou ori valoarea anterioar de 0,00687.
EXERCIII
3.1 3.25
20-Apr-15
61