Sunteți pe pagina 1din 34

Cursul 3.

Elemente de teoria probabilitatilor

În luarea deciziilor în conditii de incertitudine – asa cum se întâmpla de regula în


medicina, dar nu numai! – metodele statisticii sunt de cea mai mare importanta.

Aceste metode au un specific aparte, iar re zultatele obtinute în urma aplicarii lor trebuie
acceptate întotdeauna cu asumarea unui anumit risc. Fundamentarea acestor metode se
poate face în cadrul teoriei probabilitatilor, veche de circa patru secole. Aceasta nu
înseamna deloc absolutizarea acestei teorii, iar în ultimele decade au aparut multe alte
teorii având ca scop tratarea incertitudinii. Totusi, cunoasterea teoriei probabilitatilor
ramâne necesara pentru întelegerea „altfel” a multor fapte pe care le întâlnim.

Continutul acestui curs este urmatorul:

3.1. Experimente si evenimente ......................................................................................... 82

3.2. Probabilitati ................................................................................................................... 87

3.3. Evenimente conditionate si probabilitatile lor .......................................................... 91

3.4. Teorema lui Bayes........................................................................................................ 93

3.5. Comparatii si paradoxuri............................................................................................. 97

3.6. Variabile aleatoare si distributii.................................................................................100

3.7. Distributii binomiale ...................................................................................................109

3.8. Distributii Poisson.......................................................................................................113

81
3.1. Experimente si evenimente

Biostatistica este o parte a statisticii, statistica se bazeaza pe calculul probabilitatilor, iar


acest calcul presupune cunoasterea unui anumit înteles al notiunii de eveniment. Acest
înteles este legat de notiunea de experiment.

În fizica clasica întâlnim multe legi ce au caracter determinist, de exemplu legea caderii
corpurilor. Aceasta lege ne permite sa „prezicem” cu precizie traiectoria unei ghiulele sau
chiar a unei rachete. În cazu l în care repetam „experimentul”, vom obtine de fiecare data
acelasi rezultat.

Din contra, în termodinamica cele mai multe legi nu au caracter determinist. Repetând o
experiment, am putea obtine de fiecare data un alt rezultat. Fenomenele si procesele
termodinamice sunt aleatoare: nu se poate prezice rezultatul unui asemenea fenomen sau
proces, însa se poate prezice o distributie a rezultatelor.

Legile biologice (începând cu cea a lui Mendel) au toate un caracter aleator.

Prin experiment vom întelege un process repetabil, care are un rezultat fie identificabil,
fie masurabil. Exemple tipice sunt urmatoarele:

• Aruncarea unui zar; rezultatul obtinut este identificabil;

• Masurarea diametrului unei celule (în microni), sau a înaltimii unei persoane (în
centimetri), sau a tensiunii arteriale sistolice; rezultatele sunt, evident, masurabile;

• Examinarea unei radiografii pulmonare a unui pacient; rezultatul este identificabil


(detectarea sau nedetectarea tumorii);

• Numararea cazurilor de gripa detectate de un medic de familie; rezultatul este


identificabil. (Chiar daca este exprimat în numere, acestea nu apar ca urmare a unei
masurari!)

(Sa ne amintim ca masurarea unui obiect nu înseamna altceva decât compararea sa cu un


alt obiect, de acelasi fel, ales anterior ca unitate de masura!)

În multe cazuri – si în biologie cel mai frecvent – rezultatul unui experiment nu este
unic si nu poate fi prezis cu precizie; se spune ca avem de- a face cu un experiment aleator.
Aceasta înseamna ca, daca repetam de mai multe ori un experiment aleator – admitând ca o
putem face – de fiecare data am putea obtine un alt rezultat.

82
Evenimentele elementare sunt rezultatele posibile ale unui experiment aleator. Iar prin
eveniment vom întelege o colectie de evenimente elementare.

Exemple evidente sunt legate de aruncarea unui zar: multi oameni obisnuiti considera ca
aparitia fetei este un „eveniment”. Conform definitiei de mai sus, aceasta – la fel ca si

aparitia fetei – este un eveniment elementar! Atentie, eveniment este de asemenea

aparitia lui sau ! În urma unui asemenea experiment pot aparea multe evenimente

– nu doar sase, ci si alte cincizeci si opt – în total saizeci si patru!

Un alt exemplu de „eveniment” îl constituie detectarea unei tumori dupa ce vom fi


examinat radiogr afia pulmonara a pacientului Ion Ionescu. (Aici situatia este mult mai
simpla, existând doar doua situatii: vom detecta tumoarea sau nu. Acestea sunt însa
evenimentele elementare! Ne vom da seama în cele ce urmeaza ca teoria stabileste
existenta a patru evenimente!)

Din punct de vedere logic, odata cu un eveniment am putea considera asa-numitul

eveniment complementar. Evenimentul complementar lui E va fi notat E .

Pentru a întelege cum se opereaza cu evenimente, sa consideram si exemplul


experimentului ce consta în masurarea diametrului unei celule, în urma caruia obtinem un
rezultat masurabil. Daca alegem un interval arbitrar [a, b] de numere reale – unde a < b –
vom obtine urmatorul eveniment legat de acest interval: rezultatul masurarii diametrului
unei celule este în acest interval, adica este un numar între a si b. Sa notam cu E acest
eveniment particular.

Din punct de vedere logic apare si evenimentul complementar: rezultatul masurarii


diametrului celulei este în afara intervalului, ce ea ce înseamna ca fie este mai mic decât a,
fie este mai mare decât b. Acest eveniment complementar lui E va fi notat E (a se citi „E
barat”). Evident, daca intervalul nostru este [0, 1 (km)], atunci este sigur ca rezultatul
masurarii diametrului celulei va cadea în acest interval. Avem de-a face în acest caz cu
evenimentul sigur.

Complementarul evenimentului sigur este numit evenimentul imposibil si este notat cu


simbolul ∅ (acelasi folosit în teoria multimilor pentru notarea multimii vide).

83
(Atunci când aruncam un zar, evenimentul sigur consta în aparitia unei fete, iar
evenimentul imposibil consta în faptul ca nu apare nicio fata.)

Sa continuam cu exemplul masurarii diametrului celulei si sa consideram un alt interval


[c, d ] de numere reale (cu c < d ). Sa notam cu F urmatorul eveniment: rezultatul masurarii
diametrului cade în acest ultim interval, adica între c si d.

Avem acum doua evenimente „veritabile”, E si F (si automat înca doua, complementarele
lor, E si F ). Însa logica ne spune ca mai apare un eveniment, anume: rezultatul masurarii
diametrului cade între c si b (vezi figura urmatoare).

Este natural sa notam acest ultim eveniment cu E ∩ F si sa spunem ca el este


conjunctia evenimentelor E si F. Vom citi expresia E ∩ F astfel „evenimentul E si F”.

În general, odata date evenimentele E si F ca rezultate posibile ale aceluiasi experiment,


ne putem imagina un al treilea eveniment E ∩ F ca rezultat posibil al experimentului
nostru.

De exemplu, daca vom arunca un zar si daca E înseamna aparitia unei fete cu „mai putin
de trei puncte”, iar F înseamna aparitia unei fete „pare”, atunci E ∩ F înseamna exact

aparitia lui . Daca însa F ar însemna aparitia lui , atunci evident E ∩ F ar fi

imposibil, adica.

E∩ F =∅.

În general, daca pentru doua evenimente E si F constatam ca

E∩ F =∅,

vom spune ca evenimentele noastre sunt exclusive.

84
Din punct de vedere logic, odata date doua evenimente E si F, am putea lua în
considerare, pe lânga conjunctia E ∩ F , si disjunctia notata E ∪ F . În exemplul de mai sus
al „masurarii celulelor”, acest eveniment ar putea fi interpretat astfel: rezultatul masurarii
diametrului unei celule este între a si d (vezi figura de mai sus).

Atentie, am putea întâlni si alte situatii, cum este aceea ilustrata în figura urmatoare: aici
E ∪ F înseamna ca rezultatul masurarii diametrului este fie între a si b, fie între c si d.

Cele trei operatii cu evenimente, prezentate succint în cele de mai sus (anume
complementul, conjunctia si disjunctia) ne permit sa construim un „calcul cu evenimente”.
Nu este cazul sa insistam asupra acestuia, deoarece este analog calculului cu multimi (ceea
ce este sugerat si de notatiile folosite), iar majoritatea regulilor sunt evidente.

Aceasta analogie constituie fundamentul reprezentarii evenimentelor ca parti ale unui


„univers” U. Conjunctia evenimentelor devine intersectia partilor corespunzatoare (vezi
figura urmatoare), iar disjunctia evenimentelor devine reuniunea partilor corespunzatoare.
Evident, U însusi va reprezenta evenimentul sigur.

Sa consideram acum o fa milie finita E1 , E 2 ,..., E n de evenimente. În caz ca disjunctia

acestora coincide cu evenimentul sigur, vom spune ca familia este exhaustiva.

În cazul în care oricare doua evenimente distincte Ei , E j (i ≠ j) din familie sunt

exclusive, adica Ei ∩ E j = ∅ , vom spune ca evenimentele familiei sunt mutual exclusive.

Cea mai interesanta situatie este cea a unei familii de evenimente care este simultan
mutual exclusiva si exhaustiva. În aceasta situatie se spune ca familia este completa.

85
Ca exemplu extrem de simplu, sa consideram un zar ce va fi aruncat pe masa. Sa notam

cu E1 aparitia fetei , cu E 2 aparitia lui sau , cu E3 aparitia oricarei alte fete.

Este evident ca familia E1 , E2 , E3 este completa.

Un alt exemplu extrem de simplu de familie completa de evenimente este dat de familia
D1 , D2 , D3 , unde

D1 urmatoarea pacienta care va fi internata în spital sufe ra de apendicita,

D2 pacienta sufera de salpingita,

D3 pacienta este în orice alta situatie.

86
3.2. Probabilitati

Sa admitem ca experimentul ce consta în examinarea radiografiei pulmonare a unui


pacient are doar doua „rezultate” posibile: fie detectam, fie nu detectam o tumoare. Acest
experiment este similar cu cel al aruncarii unei monede, în care de asemenea sunt posibile
doar doua rezultate: fie apare stema, fie nu apare stema. Ceva face însa diferenta, si anume
sansele diferite. Notiunea de probabilitate încearca sa înlocuiasca, la nivel abstract, ceea ce
prin experienta noastra personala consideram a fi „sortii de izbânda”.

Suntem obisnuiti sa folosim cuvântul „probabilitate” în diverse contexte. De exemplu,


ne exprimam pareri despre probabilitatea ca o anumita maladie, si nu alta, sa fie cauza
simptomelor/ semnelor pe care le prezinta pacientul. De asemenea, evaluam probabilitatea
unui eveniment ce ar putea aparea cândva în viitor, cum ar fi îmbolnavirea de cancer în
urmatorii 10 ani a unei persoane astazi în vârsta de 40 de ani.

Limba engleza prezinta o mai mare flexibilitate în descrierea diverselor situatii. Astfel,
se face deosebirea între probability of an event si likelihood of a hypothesis. Exista de
asemenea cuvintele odds si chances .

O fundamentare precisa se poate face doar în cadrul unei teorii bine fundamentate.

Principala ipoteza a teoriei elementare a probabilitatilor este urmatoarea: fiecarui


eveniment E – elementar sau nu – i se asociaza un numar P(E) cuprins între 0 si 1
(= 100%). Acest numar este numit probabilitatea lui E si nu face altceva decât sa exprime
„sortii” ca evenimentul E sa apara ca rezultat al experimentului.

Evenimentul sigur are probabilitatea 1 (adica „este sigur ca va aparea”). Evenimentul


imposibil are probabilitatea 0 (adica „este imposibil sa apara”). Pentru orice alt eveniment
E, oamenii nu-i „cunosc” probabilitatea. Atentie, ei pot doar s-o estimeze , iar fiecare om în
parte ar putea s-o faca altfel.

Cum putem estima pro babilitatea unui eveniment E ? Dispunem de trei metode: cea
practica, cea logica si cea computationala.

Metoda practica consta în repetarea de multe ori a experimentului. Uneori E va aparea ca


rezultat, alteori nu. Vom numara de câte ori apare evenimentul E si vom calcula, prin
împartire, frecventa relativa

87
numãrul aparitiilo r evenimentu lui
f =
numãrul total de încercãri

Evident, aceasta frecventa relativa depinde puternic de numarul total de încercari.


Totusi, oricare frecventa relativa f estimeaza probabilitatea P(E)! Suntem convinsi ca daca
numarul total de încercari va creste nemarginit, frecventa relativa va tinde spre
probabilitatea P(E).

Astfel, daca vom arunca o moneda de 100 de ori, iar în acestea stema apare de 48 de ori,
vom putea estima probabilitatea evenimentului ce consta în aparitia stemei întro aruncare

viitoare prin numarul 48


= 48%. Daca vom avea suficient timp disponibil pentru a
100

efectua alte 900 de aruncari (în total 1000 de aruncari) si vom constata ca stema a aparut în
alte 510 cazuri (în total în 558 cazuri), atunci vom putea estima probabilitatea prin numarul
558
= 55.8%.
1000

Se accepta unanim ca odata cu cresterea numarului de aruncari estimarea probabilitatii


prin frecventa relativa va fi din ce în ce mai „buna”. (Totusi, nu exista niciun fundament
logic pentru aceasta convingere! Si cum oare trebuie sa procedam în caz ca un experiment
nu poate fi repetat în exact aceleasi conditii, asa cum se întâmpla de obicei în biologie,
economie si sociologie?)

Metoda logica de estimare a probabilitatilor consista în rationamente asupra conditiilor


geometrice si fizice. De exemplu, atunci când aruncam un zar (si suntem total lipsiti de
informatii despre acesta), nu avem niciun motiv sa credem ca o fata ar fi privilegiata în
raport cu oricare alta. Prin urmare este „logic” sa acceptam ca cele sase fete îsi împart între
ele „sortii” în mod echitabil.

(Dar cum stim oare ca zarul este „perfect”? Ce-ar fi daca simetria geometrica ar fi usor
modificata sau daca zarul n- ar fi omogen?)

1
Metoda logica ne indica valoarea pentru probabilitatea aparitiei stemei la aruncarea
2

unei monede. (Aceasta, atentie, în lipsa unor informatii despre „falsificarea” monedei!)

Metoda computationala pentru obtinerea probabilitatii evenimentului E presupune ca


„stim” deja (cu alte cuvinte, am estimat) probabilitatile altor evenimente, legate de E.

88
O prima si imediata relatie este asa-numita relatie a complementului: daca E este un
eveniment caruia îi „cunoastem” probabilitatea, atunci „cunoastem” si probab ilitatea
complementului sau, din:

P ( E ) = 1 − P( E ) .

Ca o consecinta imediata, daca E are o probabilitate „mare”, atunci complementul E are


o probabilitate „mica”.

Relatia de adunare este usor de exprimat: daca E si F sunt doua evenimente arbitrare,
atunci

P ( E ∪ F ) = P ( E ) + P ( F ) − P( E ∩ F ) .

Cu alte cuvinte, „cunoscând” probabilitatile P ( E ) si P ( F ) , vom „cunoaste” de asemenea


pe P ( E ∪ F ) , cu conditia sa „cunoastem” si pe P ( E ∩ F ) ! Ca un caz particular, atunci când
E si F sunt exclusive, avem

P ( E ∪ F ) = P ( E ) + P( F )

(deoarece în acest caz P ( E ∩ F ) = P (∅ ) = 0 ).

Relatia de adunare este usor de explicat. Dar pentru aceasta vom interpreta pe P ( E ) ca
aria partii E, acceptând ca universul U are aria egala cu unu (vezi figura urmatoare).

Acum, daca adunam ariile lui E si F vom obtine aria lui E ∪ F , dar vom observa ca aria
„intersectiei” E ∩ F a fost luata în considerare de doua ori!

Probabilitatea P(E) nu este singurul numar care exprima „sortii de izbânda”. Unii
folosesc în mod frecvent sansa lui E, notata cu O(E) – notatia provine de la cuvântul
englezesc odds. Acest numar poate fi exprimat ca un raport între probabilitatea
evenimentului E si probabilitatea complementarului sau, adica astfel:

89
P( E )
O(E) =
1 − P( E )

(valabila, evident, în caz ca P ( E ) ≠ 1 ).

De exemplu, sansa ca sa se obtina stema la aruncarea unei monede este exact 1; sansa ca
sa se obtina fata la aruncarea unui zar este de 20%. Masura sansa este centrata pe

numarul 1 si are tendinta de a exagera sansele mari.

Este usor de stabilit ca

O(E )
P(E) =
1 + O( E )

asa încât sansa si probabilitatea sunt echivalente, în sensul ca oricare dintre ele se poate
calcula imediat cunoscând pe cealalta.

90
3.3. Evenimente conditionate si probabilitatile lor

Notiunea de „eveniment”, asa cum a fost ea folosita anterior, are sens doar „în viitor”
(sau „în necunoscut ”). Odata ce evenimentul „a aparut” (mai precis „am aflat ca a aparut”),
el se transforma în „fapt care a avut loc” iar probabilitatea sa îsi pierde sensul.

Sa consideram o situatie în care un eveniment a priori A va influenta un eveniment


ulterior E, iar aparitia lui A ne va obliga sa re-estimam sortii aparitiei lui E. Vom spune ca
E este conditionat de A.

Pentru a întelege cum se prezinta asemenea situatii, sa consideram propozitia urmatoare:

„probabilitatea ca un barbat în vârsta de 40 de ani sa decedeze în urmatorii 10 ani este


de 15%”.

Aici evenimentul E este „decesul în urmatorii 10 ani, începând din acest moment”, iar
evenimentul A este „un barbat va ajunge la vârsta de 40 de ani”.

Sa consideram un exemplu poate ceva mai relevant din punct de vedere medical. Sa
admitem ca avem de- a face cu pacienti care pot suferi sau nu de maladia D, si sa luam în
considerare un semn-test S, care ar putea sa dea rezultat pozitiv sau negativ. Câteodata
vom emite afirmatia:

„Pacientul testeaza pozitiv, în conditiile în care sufera de maladia D”

alteori vom emite afirmatia:

„Pacientul sufera de maladia D, în conditiile în care testul a iesit pozitiv”.

Ambele afirmatii de mai sus se refera la evenimente conditionate.

În general, notatia E | A se citeste „evenimentul E conditionat de catre A”.

În reprezentarea evenimentelor prin parti ale „universului” (a se vedea figura urmatoare)


realizarea a priori a evenimentului A restrânge universul (de la U la partea A).

91
E | A este reprezentata de intersectia celor doua parti, dar daca dorim sa-i evaluam

probabilitatea prin arie, atunci va trebui sa ne raportam la noul univers A în loc de U (iar
aria lui A va deveni 1 în aceasta noua situatie). Prin urmare,

P ( E ∩ A)
P ( E | A) =
P( A)

(evident, atunci când P ( A) ≠ 0 ).

Doua evenimente E si F sunt numite independente (între ele) daca nicunul nu


conditioneaza pe celalalt, ceea ce înseamna ca realizarea a priori a unuia nu modifica
probabilitatea celuilalt:

P ( E | F ) = P ( E ) si P ( F | E ) = P ( F ) .

De exemplu, daca avem doua monede si le aruncam separat, atunci aparitia stemei la
aruncarea primei si aparitia stemei la aruncarea celei de-a doua sunt evenimente
independente.

Bazându-ne pe experienta clinica, vom putea accepta de exemplu ca „aparitia durerii în


cadranul inferior stâng” si „aparitia durerii în cadranul inferior drept” ar fi evenimente
independente.

Relatia evenimentelor independente este urmatoarea:

P ( E ∩ F ) = P (E ) × P ( F ) .

(Atentie, acesta relatie este valabila doar pentru evenimente independente!)

Aceasta relatie ne permite sa spunem ca probabilitatea obtinerii unui dublu sase la


aruncarea simultana a doua zaruri, ca si la aruncarea repetata a aceluiasi zar este 1/36.

92
3.4. Teorema lui Bayes

Aceasta teorema are urmatoarea exprimare abstracta, matematica:

Daca D1 , D2 ,..., Dn este o familie completa de evenimente ale caror probabilitati a

priori P( D1 ), P( D2 ), ..., P( Dn ) sunt cunoscute, iar S este un alt eveniment pentru care
toate probabilitatile conditionate

P ( S | D1 ), P ( S | D2 ),..., P ( S | Dn )

sunt cunoscute, atunci probabilitatile conditionate inverse P( Di | S) sunt obtinute cu


formula:

P (Di ) × P ( S | Di )
P ( Di | S ) = .
P( D1 ) × P ( S | D1 ) + P ( D2 ) × P (S | D2 ) + ... + P (Dn ) × P (S | Dn )

Teorema lui Bayes este un instrument ce poate fi folosit pentru a re- evalua
probabilitatile diferitelor ipoteze diagnostic posibile.

Notatiile D1 , D2 ,..., Dn de mai sus se pot referi la aceste ipoteze diagnostic posibile.

Probabilitatile a priori P( Di ) pot fi estimate prin diverse metode, de exemplu prin folosirea

datelor statistice sau de recensamânt la nivel national. Evenimentul S poate fi un semn sau
un simptom. În contextul prezentei acestui semn/simptom, probabilitatile ipotezelor
diagnostic trebuie sa fie re-evaluate; teorema lui Bayes de mai sus ne doteaza cu o formula
prin care putem calcula aceste probabilitati a posteriori.

Sa consideram urmatorul exemplu simplu, cu doar doua diagnostice posibile:

D1 – pacientul nostru are tuberculoza,

D2 = D1 – pacientul nostru nu are tuberculoza,

S – pacientul „Ion Ionescu” testeaza pozitiv (în radiografia pulmonara).

Evident, D1, D2 este o familie completa. Din datele de recensamânt la nivel national
stim ca 3% din populatie are tuberculoza. Asadar, putem estima:

P ( D1 ) = 3% = 0 .03 ;

si în consecinta

P ( D2 ) = 1 − 0 .03 = 0.97 .

93
Trebuie sa estimam si probabilitatea conditionata P( S | D1 ) . Din experienta medicala
stim ca 90% dintre pacientii suferinzi de tuberculoza testeaza pozitiv în radiografia
pulmonara. Asadar, P ( S | D1 ) = 0.90. De asemenea, exista sorti foarte mici, sa zicem de
1%, ca o persoana ce nu are tuberculoza sa testeze pozitiv. Asadar, estimam ca
P ( S | D2 ) = 0.01.

Dispunem acum de toate ingredientele pentru a folosi formula lui Bayes:

0.03 × 0 .90 0 .027


P ( D1 | S ) = = = 0 .736
0.03 × 0 .90 + 0 .97 × 0 .01 0.0367

Prin urmare, probabilitatea ca „Ion Ionescu”, care a „testat pozitiv” în radiografia


pulmonara, sa aiba tuberculoza este estimata acum la 73.6%.

(Cu alte cuvinte, din cauza evenimentului S, probabilitatea de a avea tuberculoza creste
de la 3% la 73.6%.)

Sa consideram acum un exemplu ceva mai sofisticat (luat din „Introduction to Clinical
Informatics” de Degoulet si Fieschi, Springer Verlag, 1999):

D1 – Pacienta noastra (dintr- un spital mare) are apendicita,

D2 – Pacienta noastra are salpingita,

D3 – Pacienta noastra este în orice alta situatie.

Probabilitatile a priori ar putea fi estimate si din înregistrarile spitalului. Sa presupunem


ca în anul care a trecut, din 10000 paciente tratate în spital, 1000 au fost diagnosticate cu

apendicita iar 500 cu salpingita. Prin urmare P( D1 ) = 0.10 , P( D2 ) = 0.05 , P( D3 ) = 0.85 .

(Sa ne amintim ca D1 ∪ D2 ∪ D3 trebuie sa fie evenimentul sigur!)

Sa consideram acum urmatoarele doua simptome:

R – durere în cadranul inferior drept,

L – durere în cadranul inferior stâng.

Specialistii ar putea sa ne ofere estimari bune ale probabilitatilor a priori:

P( R | D1) = 0.80 , P( R | D2 ) = 0.50 ,

94
P ( R | D3 ) = 0.05 ,

P( L | D1) = 0.10 , P( L | D 2 ) = 0.50 ,


P ( L | D3 ) = 0.05 .

Ca urmare, avem toate datele necesare pentru a calcula – fo losind formula lui Bayes –
probabilitatile a posteriori:

P( D1 | R) = 0.54 , P( D2 | R ) = 0.17 ,

P ( D3 | R ) = 0.29 .

Aceasta înseamna ca probabilitatea ca o anumita pacienta care se plânge de dureri în


cadranul inferior drept sa aiba apendicita sunt estimate la 54% iar salpingita la doar 17%.

Totusi, ce putem spune daca pacienta se plânge de dureri în ambele cadrane inferioare?
Am putea da un raspuns „probabilistic” daca am dispune de estimarile necesare din partea
specialistilor.

Sa încheiem aceasta sectiune cu observatia ca – chiar daca este un instrument puternic –


în medicina folosirea teoremei lui Bayes este foarte limitata, din cauza conditiilor impuse,
anume

a. Maladiile trebuie sa fie mutual exclusive,

b. Diferitele semne si simptome ce intervin în procesul de diagnoza trebuie sa fie


independente,

conditii care se întâlnesc destul de rar în practica medicala.

Exercitiu. Întrun spital mare a fost initiat un test nou pentru diagnoza cancerului, test
care pare promitator. S-a constatat ca 97% dintre pacientii spitalului, sufe rinzi de cancer,
reactioneaza pozitiv la test. Însa reactioneaza pozitiv si 5% dintre cei ce nu au cancer!
Stiind ca doar 2% dintre pacientii spitalului au cancer, care este probabilitatea ca un
pacient ce reactioneaza pozitiv la test sa aiba într-adevar cancer?

Formal, va trebui sa obtinem probabilitatea conditionata P (C | S ) în care C este


evenimentul „pacientul are cancer” iar S este evenimentul „pacientul reactioneaza pozitiv
la test”. Conform teoremei lui Bayes, aceasta este

95
P (C ) × P (S | C )
P (C | S ) =
P(C ) × P (S | C ) + P (C ) × P ( S | C )

Putem estima, pe baza datelor din spital, probabilitatea P ( S | C ) la valoarea 0.97, iar
probabilitatea P ( S | C ) la valoarea 0.05. Putem considera ca P (C ) = 0.02 si automat

P (C ) = 0.98 .

Daca formula lui Bayes pare complicata, vom putea rationa în felul urmator:

Din 10000 pacienti ai spitalului

0.02 0.98

un numar de 200 sufera de cancer, iar 9800 nu sufera de cancer

0.97 0.05

Dintre acestia, testeaza pozitiv 194, respectiv 490, în total 684 testeaza pozitiv.

Asadar, frecventa celor care au cancer în rândul celor ce reactioneaza pozitiv la test este

194
f = = 28.4%
684

si putem estima probabilitatea noastra prin aceasta frecventa.

96
3.5. Comparatii si paradoxuri

Sa luam în considerare doua medicamente (fie ele identificate prin MedA, respectiv
MedB) având ca scop cresterea imunitatii organismului. Despre care dintre ele putem
afirma ca este mai bun (decât celalalt)?
Ce poate sa însemne „mai bun decât”? Evident, ne putem imagina diverse criterii de
comparatie. Sa folosim „rata de succes” a fiecarui medicament. Comparându- le dupa ratele
de succes, este evident ca „mai bun” va fi considerat medicamentul al carui rata de succes
este mai mare.

Rata de succes a unui medicament o putem defini ca raport între


a) numarul de indivizi la care medicamentul ar avea ca efect o crestere „semnificativa” a
imunitatii, si
b) numarul total de indivizi ai populatiei.

Tabelul urmator prezinta aceasta situatie.


Crestere semnificativa a Stagnare sau Total Rata de
imunitatii descrestere indivizi succes
Numar de N = A+ C A
A C R=
indivizi A+C
Evident, nu ne putem permite sa experimentam medicamentul pe întreaga populatie.

Metodele statistice ne învata sa estimam „rata de succes” pe baza datelor pe care le


obtinem dintr-un esantion.

Admitând ca esantionul are n indivizi (nu insistam acum asupra procedurii de selectare a
lor, dar admitem ca ea corespunde regulilor impuse) si ca, dintre acestia, la un numar a s-a
a
constatat o crestere semnificativa a imunitatii, raportul r = conform tabelului urmator:
n
Crestere semnificativa a Stagnare sau Total Rata de
imunitatii descrestere indivizi succes
Numar de a
a n–a n r=
indivizi n
ne poate oferi o estimare a ratei de succes R.

Luând în considerare acum cele doua medicamente si admitând ca esantioanele folosite


pentru estimarea ratelor de succes sunt disjuncte (ceea ce înseamna ca niciun individ nu a
fost testat si cu MedA si cu MedB), vom obtine tabelul:

97
Crestere semnificativa a Stagnare sau Total Rata de
imunitatii descrestere indivizi succes
a
MedA a c nA = a + c rA =
a+c
b
MedB b d nB = b + d rB =
b+d
Am putea decide ca MedA este mai bun decât MedB în cazul în care rA > rB .

Sa nu uitam însa ca luam aceasta decizie bazându- ne pe esantioane din populatie si nu


pe investigarea întregii populatii. Ce încredere am putea avea ca ordonarea pe care am
decis-o se dovedeste corecta si în situatia în care am selecta alte esantioane?

Compararea directa între rA si rB nu este însa justificata din punct de vedere statistic.
Din acest punct de vedere, pentru comparare va trebui sa utilizam o statistica (formula)
careia sa-i cunoastem distributia valorilor daca nu perfect, macar aproximativ.

O asemenea statistica este:


RA − RB
 1 1 
R (1 − R ) + 
 N A NB 
unde
A+ B
R=
NA + NB

este rata de succes pe ansamblu. Despre aceasta statistica se stie ca este aproximata bine cu
o distributie normala standard (în caz ca sunt satisfacute unele conditii referitoare la
numarul de indivizi din esantion/esantioane).

Pe baza valorilor concrete, pe care le obtinem în urma exploatarii datelor provenite din
esantion/esantioane, vom putea evalua „valoarea p” ca masura a riscului pe care ni-l
asumam luând decizia de ordonare.

În figura de mai jos este prezentat un calcul concret, efectuat pe o foaie de calcul Excel,
pentru urmatoarele date initiale:

C.S.I. S.D.

MedA 24 26

MedB 22 28

98
MedA are o rata de succes de 0.48, deci prin comparatie cu rata 0.44 ar putea fi declarat
medicament mai bun decât MedB. Însa valoarea p a acestei afirmatii este de 0.725, mult
prea mare pentru a avea încredere în aceasta ordonare. Ar trebui sa avem încredere mai
degraba în afirmatia ca cele doua medicamente sunt echivalente.

Daca ne-am ghida strict dupa rata de succes, am putea întâlni situatii paradoxale. Ca
exemplu, sa presupunem ca datele din tabelul de mai sus au fost obtinute în urma testelor
efectuate pe barbati si femei. Daca am fi tinut seama de „stratificarea dupa sex”, datele ar fi
fost urmatoarele:

Barbati CSI SD Total Rata de succes

MedA 20 15 35 0.5714

MedB 10 5 15 0.6667

Femei CSI SD Total Rata de succes


MedA 4 11 15 0.2667

MedB 12 23 35 0.3429

si am fi constatat ca pentru ambele „straturi” MedB ar fi fost declarat „mai bun”, în totala
contradictie cu cele stabilite „pentru asamblu”.

Am prezentat o exemplificare a asa-numitului „paradox al lui Simpson” din teoria


deciziilor. Acesta ne atrage atentia ca deciziile care nu sunt bine fundamentate, luate la
nivel global pentru o populatie neomogena, pot fi în totala contradictie cu deciziile care ar
trebui luate la nivelul straturilor.

(Iesirea din paradox, prin metodele statisticii, nu prezinta nici un fel de dificultate. Vom
aborda aceste metode întrun curs viitor.)

99
3.6. Variabile aleatoare si distributii

O „variabila aleatoare” sau o „distributie” nu este altceva decât un alt mod de a descrie
rezultatul unui experiment aleator.

O definitie precisa a termenului „variabila aleatoare” este dificil de obtinut. În fapt, o


variabila aleatoare exprima rezultatul unui experiment (putin altfel decât o face ansamblul
evenimentelor). Atunci când folosim o variabila aleatoare, consideram ca rezultatul
experimentului este exprimat în forma numerica.

(Atentie, aceasta nu înseamna ca rezultatul ar fi un singur numar! Este posibil ca


rezultatul se fie multi-dimensional, adica un vector de numere, însa aceasta situatie este
mai complexa si este studiata abia dupa ce se dobândeste suficienta experienta.)

Valorile unei variabile aleatoare (unu-dimesionale) pot fi reprezentate prin puncte pe


axa reala. Tinând seama de aceasta reprezentare, se poate face usor distinctia între:

a) variabile aleatoare discrete, si

b) variabile aleatoare continue.

(Atentie, clarificarea deosebirii între „discret” si „continuu” prezinta dificultati serioase


din punct de vedere matematic sau filosofic. Intuitia ne „spune” ca un numar finit de
puncte nu pot fi distribuite pe axa reala decât „discret”, iar exemple pentru „continuu” sunt
intervalele de numere reale.)

Asadar, pentru o variabila aleatoare discreta X

o valorile posibile ale variabilei, notate x1, x2 ,..., xn ,... , sunt numerice si discrete.

Diversele variabile aleatoare (ce au aceleasi valori) se deosebesc între ele prin sansele ca
sa ia aceste valori. Putem vorbi despre o distributie (de probabilitate) atunci când
cunoastem nu doar valorile posibile ale unei variabile aleatoare, ci si „probabilitatile”
acestor valori.

Pentru cazul variabilelor aleatoare discrete nu avem dificultati în a explica ce înseamna


distributia de probabilitate:

o cunoastem toate probabilitatile p1 , p 2 ,..., p n ,... asociate acestor valori.

100
Asadar, o variabila aleatoare discreta X este descrisa perfect de tabelul:

 x1 x2 ... xn ... 
 
 p1 p2 ... pn ... 

în care pe prima linie sunt însirate valorile posibile ale variabilei. Probabilitatile de pe a
doua linie sunt numere reale care satisfac doua conditii:

1) toate sunt pozitive, adica

p n ≥ 0 pentru fiecare valoare x n ;

2) suma lor este 1:

p1 + p 2 + ... + p n + ... = 1 .

Numarul pn este interpretat ca „sortii de izbânda” ca, întrun experiment viitor, variabila

aleatoare X sa ia exact valoarea xn . Cu alte cuvinte, pn este probabilitatea evenimentului

X = x n , ceea ce notam:

p n = P ( X = xn ) .

Exemplu. Tabelul urmator

 AA Aa aa 
 9 1 
 6

 16 16 16 

9
ar putea descrie genotipul (unei anumite gene, cu alelele A si a). Evident, este
16
probabilitatea ca un individ al populatiei, ales aleatoriu, sa apartina genotipului AA.

Exprimând genotipul AA prin numarul 0, genotipul Aa prin numarul 1 iar genotipul aa


prin numarul 2, tabelul

 0 1 2 
 9 1 
 6

 16 16 16 

poate fi acceptat ca descriind o distributie de probabilitate. Variabila aleatoare respectiva


poate fi interpretata ca „numarul alelelor dominate în genotip”.

101
Rezultatul ce ar putea fi obtinut în urma aruncarii unui zar „perfect echilibrat” (înainte
de a-l afla) este o variabila aleatoare, a carei distributie de probabilitate este reprezentata
1 2 3 4 5 6
evident de tabelul:  1 1 1  (dar, atentie pe prima linie sunt însirate, ca valori
 1 1 1 
 6 6 6 6 6 6 

posibile ale variabilei, nu numere, ci reprezentari ale fetelor zarului. Probabilitatile de pe a


doua linie sunt toate egale între ele pentru ca nu avem motive sa „suspectam” ca una dintre
fete ar fi privilegiata în raport cu celelalte.)

Sexul unui viitor nou nascut este descris de tabelul:

 feminin masculin 
 
 0 .51 0 .49 

(din datele statistice se stie ca, din 100 de nou nascuti, 51 sunt fete), iar în urma
aruncarii unei monede perfect omogene si rotunde (si subtiri) rezultatul ce va fi obtinut
poate fi descris de tabelul

 stema banul 
 
 0 .5 0.5 

Asemenea tabele pot fi transformate relativ usor în distributii de probabilitate, însa


înlocuirea etichetelor „feminin”/”masculin” respectiv „stema”/”banul” cu numere este
arbitrara.

Tinând seama de ordonarea naturala a numerelor, pe prima linie a oricarui tabel prin
care descriem o distributie de probabilitate putem lista „ordonat”valorile:

x1 < x2 < ... < x n < ... .

Cunoscând distributia de probabilitate, putem calcula imediat „sansa” ca variabila X sa


ia valori „intermediare”. De exemplu:

P ( X ≤ x1 ) = P ( X = x1) = p1 ,

P( X ≤ x2 ) = P( X = x1 ∪ X = x2 ) = P( X = x1 ) + P( X = x2 ) = p1 + p2 ,

P ( x1 < X < x3 ) = P( X = x2 ) = p2 ,

P ( x1 < X ≤ x 3 ) = P ( X = x 2 ) ∪ P ( X = x 3 ) = P ( X = x 2 ) + P ( X = x 3 ) = p 2 + p 3

102
etc. În general,
k
P ( X ≤ xk ) = ∑p
i=1
i pentru k = 2, 3, …

k
P ( x j < X ≤ xk ) = ∑p
i = j +1
i

pentru 0 < j ≤ k .

În general, daca ne referim la distributia de probabilitate:


 x1 x2 ... x n ... 
X :   ,
 p1 p2 ... p n ... 
valorile x1 , x 2 ,..., x n ,... ale variabilei aleatoare discrete X sunt numere. Daca putem calcula
valoarea
x1 ⋅ p1 + x 2 ⋅ p 2 + ... + x n ⋅ p n + ...

atunci aceasta valoare este cunoscuta ca media variabilei X si este notata cu E (X ) . Este de
fapt „media ponderata” a valorilor posibile x1 , x2 ,..., x n ,... , ponderile fiind exact

probabilitatile p1 , p2 ,..., p n ,... . Numarul E (X ) ar putea servi ca un „centru” al tuturor


valorilor lui X.

Litera E din notatia de mai sus a fost universal adoptata deoarece media teoretica este
numita în limba franceza espérance iar în limba engleza expectation. Întelesurile acestor
cuvinte, anume „cât speram sa fie” (în franceza), respectiv „la ce sa ne asteptam” (în
engleza) reflecta mai bine „continutul” notiunii decât cel de „medie”, care este pur
calculatoriu.

Sa observam ca toate valorile posibile x1 , x 2 ,..., x n ,... apar în formula mediei E (X ) , iar
cele cu probabilitate „mai mare” contribuie „mai mult” la formarea acestei medii. Este
întrutotul posibil ca numarul E ( X ) sa fie diferit de toate valorile posibile ale variabilei X.

De exemplu, în cazul distributiei de probabilitate asociate aruncarii unui zar „corect”, se


calculeaza cu usurinta valoarea

1 1 1
E ( X ) = 1 ⋅ + 2 ⋅ + ... + 6 ⋅ = 3.5 ,
6 6 6

iar aceasta nu corespunde niciunei fete a zarului!

103
Sa consideram doua variabile aleatoare, fie acestea X având valorile x1, x2 ,..., xn ,...

respectiv Y, având valorile y1, y 2 ,..., y m ,... . Faptul ca X ia exact valoarea xn este, asa cum

am vazut anterior, un eveniment. La fel, faptul ca Y ia exact valoarea ym este un alt


eveniment. Aceste doua evenimente ar putea sa fie independente între ele sau nu.
Reamintim ca independenta lor nu înseamna altceva decât ca probabilitatea conjunctiei

„ X = x n si Y = y m ”

coincide cu produsul probabilitatilor evenimentelor, cu alte cuvinte:

P ( X = xn ∩ Y = ym ) = P ( X = xn ) ⋅ P (Y = ym )

Despre variabilele aleatoare X si Y se spune ca sunt independente în caz ca egalitatea


anterioara este valabila oricare ar fi valorile celor doua variabile aleatoare.

Independenta variabilelor aleatoare X si Y poate fi exprimata în cuvinte astfel: faptul ca


X ia o anumita valoare nu schimba cu nimic probabilitatile ca, ulterior, Y sa ia diversele
valori posibile.

Cu distributiile de probabilitate se pot efectua formal diverse operatii „aritmetice” (si nu


numai). Pe lânga distributia
 x1 x2 ... x n ... 
X :   ,
 p1 p2 ... p n ... 
fie Y o alta distributie de probabilitate, descrisa de tabelul:

 y1 y2 ... yn ... 
Y :   .
 q1 q2 ... qn ... 

În aceasta situatie vom putea considera suma X + Y , care are ca valori sumele distincte
x1 + y1, x1 + y2 ,... , cu probabilitatile respective r11, r12 ,... .

Sa facem însa observatia ca tabelul urmator nu reprezinta aceasta distributie „suma”:


 x1 + y1 x1 + y2 ... x1 + yn x2 + y1 ... x n + ym 
 
 r11 r12 ... r1n r21 ... rnm 

deoarece este perfect posibil ca sa existe egalitati de forma x1 + y 2 = x3 + y1 . Sa tinem


seama de faptul ca valorile unei variabile aleatoare, ce apar pe prima linie a tabelului, ar
trebui sa fie diferite între ele!

104
Prin definitie, numarul r este interpretat ca probabilitate a evenimentului „ X = xi si
ij

Y = y j ”. Aceasta probabilitate nu coincide cu produsul P ( X = x i ) ⋅ P(Y = y j ) decât în cazul

în care evenimentele individuale „ X = x i ” si „Y = y j ” sunt independente între ele. Cu alte

cuvinte, în general rij ≠ pi ⋅ q j !

Probabilitatile valorilor „sumei” sunt obtinute cu ajutorul formulei:


P( X + Y = s) = ∑ P( X = x ∩ Y = y)
x + y= s

care nu este usor de aplicat!

Sa luam un exemplu simplu. Anume, sa consideram tabelul urmator, care contine unele
date privind repartizarea cetatenilor dintr-un oras, în functie de doua criterii:

Sufera de astm Nu sufera de astm Total


bronsic (1) bronsic (2)

Fumatori (1) 21 419 440

Nefumatori (2) 9 1151 1160

Total 30 1570 1600

Sa consideram variabila aleatoare X având valorile numerice 1 (cetateanul este fumator)


si 2 (cetateanul nu este fumator). Probabilitatile acestor valori sunt estimate prin
frecventele relative, prin urmare vom putea reprezenta d istributia de probabilitate asociata
variabilei X prin tabelul
 1 2 
 440 1160
 
 1600 1600

Variabila aleatoare Y exprima incidenta astmului bronsic, luând valorile numerice 1


(cetateanul sufera de astm bronsic) si 2 (cetateanul nu sufera de astm bronsic). Analog,
vom putea reprezenta distributia de probabilitate asociata variabilei Y prin tabelul
 1 2 
 30 1570  .
 
 1600 1600 

Ce se poate spune despre suma (formala) X + Y ? Valorile distincte pe care le poate lua
sunt în numar de trei, anume 2, 3 and 4. Avem:

21
P ( X + Y = 2) = P ( X = 1 ∩ Y = 1) = P (fumeazä si astm bronsic ) = 1600 ,

105
1151
P ( X + Y = 4) = P ( X = 2 ∩ Y = 2) = P (nu fumeazä si nu astm bronsic ) = ,
1600

419 9 428
P ( X + Y = 3) = + = .
1600 1600 1600

Asadar, vom putea reprezenta distributia de probabilitate a „sumei” formale prin

 2 3 4 
X + Y :  21 1151 .
 428

 1600 1600 1600

În mod analog, produsul formal al variabilelor aleatoare X si Y poate fi definit ca


variabila aleatoare, notata prin X ⋅ Y , care are ca valori produsele distincte x1 ⋅ y1 , x1 ⋅ y 2 ,...
În exemplul de mai sus, distributia de probabilitate „produs” este reprezentata de:

 1 2 4 
X ⋅ Y :  21 1151  .
 428

 1600 1600 1600 

Patratul X 2 este definit ca produsul X ⋅ X . În caz ca X are doar valori pozitive, tabelul
urmator descrie patratul sau:

 x2 x22 ... xn2 ... 


X 2 :  1 .
 p1 p2 ... p n ... 

(Se observa ca linia probabilitatilor ramâne aceeasi cu a distributiei X!)

Se poate stabili ca media E( X 2 ) a patratului X 2 , în caz ca exista, este întotdeauna mai

mare decât patratul E (X ) 2 . Diferenta între aceste numere este cunoscuta ca varianta
variabilei aleatoare X si este notata Var (X ) . Asadar,

Var( X ) = E ( X 2 ) − E ( X ) 2 .

Exista si o alta formula

Var( X ) = E (( X − E ( X )) 2 ) ,

în care intervine abaterea (deviatia) variabilei X fata de media sa. De fapt, formula exprima
faptul ca varianta variabilei X este media patratului devia tiei variabilei aleatoare X de la
media sa E (X ) . Aceasta justifica folosirea variantei ca masura a împrastierii valorilor în
jurul „centrului” E (X ) .

Proprietatea esentiala a mediei E, în raport cu suma variabilelor aleatoare, este rezumata


de formula urmatoare:

106
E ( X + Y ) = E ( X ) + E (Y ) .

Cât despre varianta, în general,

Var( X + Y ) ≠ Var( X ) + Var(Y ) .

Totusi, în cazul în care variabilele aleatoare X si Y sunt independente, exista egalitatea

Var( X + Y ) = Var( X ) + Var (Y ) .

O variabila aleatoare care poate lua o singura valoare nu este altceva decât un numar
obisnuit. Cele mai simple variabile aleatoare „veritabile” sunt cele care pot lua doar doua
valori posibile; dintre acestea, cele mai cunoscute sunt variabilele aleatoare Bernoulli
(care sunt aso ciate experimentelor în care rezultatul poate fi doar „succesul” sau „esecul”).

Orice variabila aleatoare Bernoulli poate lua asadar doar doua valori, care sunt notate
numeric prin:

0, care corespunde „esecului”, respectiv

1, care corespunde „succesului”.

O variabila aleatoare Bernoulli este perfect determinata de probabilitatea „succesului”;


daca aceasta probabilitate este notata prin p , atunci tabelul corespunzator distributiei este:

 0 1
 .
1 − p p 

Aceasta distributie particulara va fi notata prin Be ( p ) , scotându-i în evidenta parametrul


p care o determina. Media ei este imediata:

E ( Be( p )) = p .

Cât despre varianta, si aceasta se calculeaza cu usurinta, daca observam ca patratul


distributiei Be ( p ) coincide cu Be ( p ) ; astfel,

Var( Be ( p )) = p (1 − p ) .

Atunci când aruncam o moneda (perfect echilibrata), rezultatul este exprimat ca o

() ()
distributie Be 1 ; valorile acestei distributii Be 1 sunt interpretate de exemplu ca numarul
2 2

stemelor care apar deasupra (0 sau 1).

107
Atunci când raspundem „la întâmplare” (adica „cu ochii închisi”) la o singura întrebare
dintr-un test grila, cu 5 raspunsuri posibile, dintre care doar unul corect, rezultatul obtinut –
la acea întrebare – este exprimat prin distributia Be(0.2 ) ; valorile acesteia sunt interpretate
ca numar de puncte obtinute (0 sau 1) la acea întrebare.

De mentionat ca rezultatele obtinute prin raspunsurile la doua întrebari dintr- un test grila
pot fi considerate a fi independente între ele, ca variabile aleatoare, doar daca în alegerea
raspunsului la a doua nu suntem deloc influentati de raspunsul pe care l- am dat anterior la
cealalta.

Numarul de fete care rezulta în urma unei nasteri simple poate fi exprimat prin
distributia Bernoulli Be(0.51) .

Numarul de fete care rezulta în urma unei nasteri de gemeni nu poate fi însa exprimat
printr-o distributie Bernoulli; este un exemplu de distributie binomiala.

Sa încheiem aceasta sectiune, dedicata distributiilor discrete generale, cu urmatorul


exemplu: C este numarul copiilor (cu vârsta sub 20 de ani) în cadrul unei familii obisnuite.
Ca distributie, este dat de tabelul:

c 0 1 2 3 4 5 si peste

p 0.47 0.23 0.18 0.08 0.03 0.01

Ce se poate spune despre evolutia p opulatiei pentru urmatorii 20 de ani?

Media se calculeaza imediat, admitând o eroare (care?):

E (C ) = 0 ⋅ 0 .47 + 1 ⋅ 0.23 + 2 ⋅ 0 .18 + 3 ⋅ 0 .08 + 4 ⋅ 0.03 + 5 ⋅ 0.1 = 1.00

ceea ce înseamna ca, în medie, o familie obisnuita are un singur copil. Evident, va trebui sa
ne asteptam la o înjumatatire a numarului de indivizi în populatie, în urmatorii 20 de ani.
(Atentie, acest rationament simplist, care nu tine seama de o serie de date colaterale sau de
amanunt, ne permite o proiectie rapida pentru viitor, chiar daca discutabila din multe
puncte de vedere.)

108
3.7. Distributii binomiale

Sa consideram patru monede pe care le aruncam simultan. Numarul de steme care apar
deasupra este reprezentat de o variabila aleatoare, care evident are ca valori doar pe 0, 1, 2,
3 sau 4. O trecere în revista a tuturor posibilitatilor identifica probabilitatile
corespunzatoare:

0 1 2 3 4
1 4 .
 6 4 1 
 16 16 16 16 16 

Sa ne imaginam ca nu aruncam simultan patru monede, ci aruncam de patru ori la rând


aceeasi moneda. Este evident ca „numarul de steme care apar deasupra” are aceeasi
distributie ca mai sus.

Acest exemplu admite urmatoarea generalizare. Sa consideram o secventa X 1, X 2 ,..., X n


de n distributii Bernoulli, toate de tipul Be ( p ) , fiecare reprezentând o încercare
independenta de cealalta. Toate sunt caracterizate de aceeasi probabilitate p a unui
„succes” în încercarea respectiva. Numarul de „succese” obtinute global în cele n încercari
consecutive este de fapt suma

X 1 + X 2 + ... + X n ,

care constituie o noua variabila aleatoare (distributie). Aceasta este notata prin b (n , p ) ,
iar valorile ei sunt numerele 0, 1, ... , n. Probabilitatea de a obtine un numar de k „succese”
în cele n încercari consecutive – ceea ce înseamna ca variabila b (n , p ) ia ca valoare pe k –
are expresia urmatoare

P(b(n, p) = k ) = C kn p k (1 − p) n− k .

Variabilele aleatoare/distributiile b (n , p ) care se obtin pentru diferitele numere n de


componente si diferitele probabilitati „de succes” p sunt numite variabile aleatoare
binomiale respectiv distributii binomiale.

Valorile distributiei binomiale b (n , p ) sunt discrete; prin urmare, formula urmatoare, ce


da probabilitatile „cumulate”, este evidenta:

j
P (b (n , p ) ≤ j ) = ∑ P (b (n , p ) = k ) .
k=0

109
Daca în locul distributiei sunt cunoscute aceste probabilitati cumulate, atunci orice
probabilitate de forma P( b (n, p ) = k ) este obtinuta imediat:

P (b (n , p ) = k ) = P (b (n , p ) ≤ k ) − P( b( n, p ) ≤ k − 1) .

O alta formula utila este urmatoarea

P (i ≤ b (n , p ) ≤ j ) = P (b (n , p ) ≤ j ) − P( b( n, p ) ≤ i − 1) .

Sa rezumam: o distributie binomiala este legata de un experiment ce satisface conditiile:


a) Consta dintr- un numar de n încercari;
b) Rezultatul fiecarei încercari poate fi clasificat fie ca un „succes”, fie ca un „esec”;
c) Probabilitatea p a unui succes este acceasi în toate încercarile;
d) Fiecare încercare este independenta de oricare alta.

Valorile ei reprezinta numarul de succese obtinute în cele n încercari.

Media distributiei binomiale b (n , p ) este usor de obtinut:

E (b (n , p )) = np .

Cât despre varianta, si formula de calcul a acesteia este imediata:

Var ( b (n, p )) = np (1 − p ) .

Exemplu. Un test este alcatuit din 15 întrebari, fiecare având atasate câte cinci
raspunsuri posibile (doar unul corect). Sa evaluam probabilitatea ca o persoana, care
raspunde la întâmplare, sa obtina exact 8 raspunsuri corecte (adica nota de trecere). Sa
calculam apoi media raspunsurilor corecte pe care le obtin persoanele care raspund la
întâmplare.

Atunci când se raspunde la întâmplare, numarul de raspunsuri corecte are o distributie


binomiala asociata unui numar de 15 încercari, iar probabilitatea succesului, în fiecare

încercare, este p = 1 = 0 .2 . Daca numarul de raspunsuri corecte este k = 8 , atunci vom sti
5

sa cautam în tabele (ceea ce nu este recomandat) sau sa calculam (si aceasta este
nerecomandat) probabilitatea

P (b (15, 0 . 2) = 8 )

a carei valoare este 0.00034, adica sub 1‰!

110
Pe de alta parte, media se obtine cu usurinta,

E (b (15, 0 .2)) = 15 ⋅ 0 .2 = 3 .

Prin urmare, în urma raspunsurilor la întâmplare se va obtine, în medie, 3 raspunsuri


corecte.

(Asadar, în aprecierea cunostintelor, notarea ar trebui sa înceapa de la 3 puncte, ceea ce


înseamna ca cu 8 puncte obtinute nu s- ar obtine nota de trecere!)

Exista tabele „clasice” ce contin valorile P (b ( n, p ) = k ) pentru câteva valori


„standardizate” ale lui p ( p = 0.25 , p = 0 .2 , p = 0 .1 etc.). Totusi, în urma folosirii
calculatoarelor aceste tabele au devenit superflue.

În Excel dispunem de functia denumita BINOMDIST ce are patru argumente si anume,


în ordine (vezi figura d e mai jos):
— numarul de „succese” k ;
— numarul de încercari n ;
— probabilitatea p a unui succes ;
— un parametru logic, a carui valoare TRUE indica dorinta de a obtine probabilitatea
cumulata.

În exemplul de mai sus ar fi trebuit sa cerem BINOMDIST(8, 1 5, 0.2, FALSE).

Exercitii. 1) Folosind Excel, reprezentati grafic setul de probabilitati P (b ( n, p ) = k )


pentru n = 120 , p = 0 .2 , k = 100 ,...,120 , apoi calculati suma acestor probabilitati. Ce
interpretare ar putea avea rezultatul?

2) Evaluati media punctelor obtinute, raspunzând la întâmplare, la un test format din 40


de întrebari cu un raspuns corect din doua, continuat cu 40 de întrebari cu un raspuns
corect din patru, încheiat cu 40 de întrebari cu un raspuns corect din cinci.

111
În Excel exista înca o functie legata de distributiile binomiale, anume cea denumita
NEGBINOMDIST. Aceasta functie este folosita pentru obtinerea probabilitatii a exact e
esecuri înainte de a se obtine al k-lea succes (evident, cu conditia ca probabilitatea p a
succesului sa fie aceeasi în toate încercarile).

În figurile de mai jos sunt reprezentate grafic doua distributii binomiale.

Exemple de reprezentari grafice ale distributiilor binomiale

n = 15 , p = 0. 25 n = 25 , p = 0 .2

Exercitiu. Din practica medicala se stie ca doar 1 din 3 pacienti suferinzi de maladia D
se vor vindeca în urma tratamentului cu medicamentul M. Pentru ca un medicament nou N
sa fie acceptat ca superior lui M, regulile impuse în unele spitale cer ca dintr-un numar de
12 pacienti (suferinzi de maladia D) tratati cu acest medicament, cel putin 7 sa se vindece.
Care este probabilitatea ca, în urma experimentarii pe 12 pacienti, medicamentul nou sa fie
discreditat, chiar daca rata sa de vindecare este de 1 din 2? Dar daca rata de vindecare este
de 3 din 4?

1
Cu rata de vindecare r = = 0.5 , numarul de pacienti vindecati, dintre cei 12 tratati cu
2
medicamentul N, este descris de variabila aleatoare b (12 ,0 .5) . Medicamentul nou va fi
discreditat daca numarul de pacienti vindecati va fi de cel mult 6. Probabilitatea acestui
eveniment se obtine apelând

BINOMDIST(12, 0.5, 6, True)

iar valoarea concreta este 0.613, destul de ridicata!

3
Pentru rata de vindecare r = = 0.75 , probabilitatea ca medicamentul sa fie totusi
4
discreditat este BINOMDIST(12, 0.75, 6, True) = 0.054, o valoare destul de redusa.

112
3.8. Distributii Poisson

O alta familie de distributii discrete este cea a distributiilor Poisson. Sa ne amintim ca o


variabila aleatoare discreta exprima numarul de „succese” obtinute întrun numar n, fixat,
de încercari. O variabila aleatoare Poisson exprima numarul de „aparitii rare” care au loc
întrun interval de timp dat, sau întrun interval spatial (regiune, domeniu) bine delimitat.

Un experiment Poisson este caracterizat de trei conditii:

1) Numarul de aparitii întrun interval dat este independent de orice se întâmpla în orice
alt interval;

2) Probabilitatea unei aparitii singulare întrun interval dat este proportionala cu


„lungimea” acelui interval;

3) Probabilitatea mai multor aparitii întrun interval tinde spre 0 atunci când „lungimea”
intervalului tinde spre 0 (ceea ce se interpreteaza de obicei spunând ca „aparitiile sunt
rare”).

O distributie Poisson rep rezinta numarul de aparitii întrun interval dat, în conditiile în
care sunt satisfacute conditiile unui experiment Poisson. O asemenea distributie depinde de
un singur parametru (real pozitiv) λ si este notata de obicei cu Po (λ) . Variabila aleatoare
corespunzatoare ia ca valori numerele naturale 0, 1, 2, ..., n, ... cu probabilitatile respective

?n
P ( Po (λ) = n ) = ⋅ exp( −n ) .
n!
Exista mai multe tabele care contin valori ale probabilitatilor P ( Po (λ ) = n ) pentru

diferite valori ale parametrului λ (tabele ce pot fi întâlnite în diverse carti). Totusi, în era
calculatoarelor asemenea tabele sunt superflue; de exemplu, în Excel avem la dispozitie
functia POISSON .

Un rationament matematic conduce la urmatoarele rezultate privind media si varianta


unei distributii Poisson:

E (Po( λ)) = λ si Var(Po (λ)) = λ .

113
Exemple. În biologie si în alte stiinte ale vietii se accepta ca incidenta atacurilor
parazitilor asupra unei populatii este descrisa „bine” de o distributie Poisson. Distributii
Poisson sunt folosite în organizarea activitatilor la statiile de servire (nu trebuie sa ne
gândim doar la „pompele de benzina ”, ci si la serviciile de urgenta în spitale) întrucât
descriu bine numarul de sosiri ale clientilor (masini, respectiv pacienti) întrun interval de
timp dat.

Exemple de reprezentari grafice ale distributiilor Poisson

Exemplu. Seful unei unitati SMURD stie, din experienta proprie, ca în medie se
primesc lunar 12 apeluri de urgenta ce necesita folosirea elicopterului.

Elicopterul poate efectua cel mult trei misiuni întro zi. Care este probabilitatea ca, întro
zi obisnuita, sa apara mai mult de 3 apeluri de urgenta care sa necesite folosirea
elicopterului?

Evaluarea este simpla, întrucât un asemenea fenomen se modeleaza cu distributii


12
Poisson. În cazul nostru avem λ = = 0.4 (admitând ca luna are 30 de zile). Probabilitatea
30

depasirii capacitatii este

P ( Po (λ) > 3) = 1 − P( Po (λ) ≤ 3) = 0. 00077

extrem de scazuta. Ar trebui sa ne asteptam, odata la trei ani, la o sit uatie exceptionala.

114

S-ar putea să vă placă și