Sunteți pe pagina 1din 50

BIOSTATISTICĂ

CURS 7
ELEMENTE DE
TEORIA
PROBABILITĂŢILOR
FENOMENE – lumea reală

DETERMINISTE NEDETERMINISTE

EXISTĂ un model NU EXISTĂ un model


matematic care matematic care
permite predicţia permite predicţia
„precisă” a evoluţiei „precisă” a evoluţiei /
/ rezultatelor rezultatelor
fenomenului. fenomenului.
FENOMENE
NEDETERMINISTE
ALEATORII Nu este posibilă predicţia
rezultatelor fenomenului, dar pe
termen lung rezultatele
evidenţiază o regularitate
statistică.

INCIDENTALE Nu este posibilă predicţia


rezultatelor fenomenului, iar pe
termen lung rezultatele nu
evidenţiază nici o regularitate
statistică.
PROBABILITATE = concept reprezentând un mod de
cunoaştere intermediar între nedeterminarea totală şi
certitudine.

PROBABILITATEA UNUI EVENIMENT este definită ca


raportul dintre numărul de cazuri favorabile şi numărul total
de cazuri posibile.
nr. cazuri favorabile
p
nr. cazuri posibile

PROPRIETATE:
Suma probabilităţilor tuturor evenimentelor posibile este
egală cu 1.
Exemple de fenomene aleatoare:
 Aruncarea unei monede

 Aruncarea unui zar

 Extragerea unei bile dintr-o urnă ce conţine bile de mai multe


culori

 Observarea duratei de viaţă a unui individ dintr-o populaţie


biologică

 Observarea numărului de atomi obţinuţi prin dezintegrarea


unui element radioactiv într-un interval de timp.
Spaţiul tuturor evenimentelor se notează cu  şi este cunoscut
sub numele de EVENIMENT SIGUR.

Evenimentul A  S cu proprietatea că P(A) = 0 se numeşte


EVENIMENT IMPOSIBIL.

Fiind dat un eveniment A  S, se defineşte EVENIMENTUL


COMPLEMENTAR al său, notat cu A , ca fiind evenimentul
care se produce prin nerealizarea evenimentului A.
OPERATOR LOGIC: NOT

 Evenimentul sigur se produce întotdeauna.


 Evenimentul imposibil nu se produce niciodată.
OPERATOR LOGIC: OR

Fiind date două evenimente A, B  S, se defineşte REUNIUNEA


lor, A  B, ca fiind acel rezultat al experimentului care duce la
realizarea cel puţin a unuia dintre evenimentele A, B.
Exemplu. Dacă A={2, 4, 5} şi B={2, 3}, atunci
AB ={2, 3, 4, 5}.

AB

A B
Diagrame Venn
OPERATOR LOGIC: AND

Analog, se defineşte INTERSECŢIA lor, A  B, ca fiind acel


rezultat al experimentului care duce la realizarea simultană a
ambelor evenimente A, B.
Exemplu. Dacă A={1, 3} şi B={1, 4, 6}, atunci
AB ={1}.

AB

A B
Diagrame Venn
Se numeşte DIFERENŢA evenimentelor A şi B, A – B,
evenimentul care se realizează atunci şi numai atunci când s-a
realizat A şi nu s-a realizat B.
Exemplu. Dacă A={2, 4, 6} şi B={2, 5}, atunci
A-B={4, 6}.

A-B

A B
Diagrame Venn
Se numeşte DIFERENŢA SIMETRICĂ a evenimentelor A şi B, A
 B, evenimentul care se realizează atunci şi numai atunci când
s-a realizat unul şi numai unul dintre cele două evenimente.
Exemplu. Dacă A={2, 4, 5} şi B={1, 3, 5}, atunci
(A-B)U(B-A)={1, 2, 3, 4}.

AB

A B
Diagrame Venn
Două evenimente A, B  S se numesc INCOMPATIBILE dacă şi
numai dacă este verificată relaţia: P(AB) = 0
Exemplu. Dacă A={1, 3, 5} şi B={2, 4, 6},
atunci A  B = .

OBSERVAŢII:
 Reuniunea a două evenimente complementare este evenimentul sigur, iar
intersecţia a două evenimente incompatibile (care în particular pot fi şi
complementare) este evenimentul imposibil.
 Evenimentele complementare sunt incompatibile, dar evenimentele
incompatibile nu sunt obligatoriu complementare (pot fi sau nu
complementare).
 Evenimentele sigur şi imposibil sunt complementare şi nu sunt compatibile.
 Dacă A implică B, atunci A şi B sunt compatibile dar în mod cert nu sunt
complementare.
Două evenimente A, B  S se numesc INDEPENDENTE dacă şi
numai dacă este verificată relaţia: P(AB) = P(A)  P(B)

Fie 2 evenimente A, B  S, P(B)  0. Se defineşte probabilitatea


condiţionată a evenimentului A relativ la evenimentul B, notată
P(AB), ca fiind mărimea calculată cu formula:

P( A  B)
P(AB) =
P( B)
Exemple de evenimente care se pot
realiza la aruncarea unui zar:
A. Apariţia unui număr mai mic sau egal cu 3.
B. Apariţia unui număr par.
C. Apariţia unui număr impar.
D. Apariţia feţelor 1 sau 2.
E. Apariţia unui număr mai mare sau egal cu 4.
F. Apariţia feţei 3.
Observaţii:
Perechea de evenimente A şi E sunt Evenimentele A şi D sunt
complementare, deoarece dacă nu compatibile (deoarece au în comun
obţinem un număr  3, atunci el este numerele 1 şi 2).
sigur  4.
Realizarea evenimentului D atrage
Evenimentele D şi E sunt după sine realizarea evenimentului
incompatibile, dar nu A.
complementare. Dacă nu se
realizează evenimentul D, se poate Evenimentele A, E şi B sunt
realiza sau nu evenimentul E incompatibile, deoarece nu se pot
(deoarece 3D şi 3E). Faţa cu realiza simultan.
numărul 3 aparţine sigur
complementarului lui D, dar nu
aparţine şi lui E. Intersecţia dintre E
şi D este evenimentul imposibil.
Principiul certitudinii practice:

 În numeroase situaţii reale se întâlnesc evenimente a căror


probabilitate se află la limitele extreme, adică aproape de 0 sau
aproape de 1.
 Acestea se numesc evenimente aproape imposibile şi respectiv,
evenimente aproape sigure.
 Dacă probabilitatea unui eveniment este foarte mică (de exemplu
0,0001), atunci se poate prevedea rezultatul experimentului.

Principiul certitudinii practice afirmă că, dacă


probabilitatea unui eveniment A este foarte mică şi
realizăm experienţa o singură dată, atunci putem fi
aproape siguri că evenimentul nu se va produce.
Legea numerelor mari:

 În cadrul realizării unui experiment, calculul frecvenţei de apariţie a


unui eveniment depinde evident, de numărul de experienţe efectuate.

Legea numerelor mari, formulată de Bernoulli, afirmă că:


Frecvenţele de realizare a evenimentelor se apropie
de (aproximează) probabilităţile lor, cu cât
numărul de experienţe este mai mare.
A

PROPRIETĂŢI:

P1: A  S un eveniment, probabilitatea evenimentului complementar se


calculează cu formula:

P( A) = 1 – P(A)

P2: A, B  S 2 evenimente, are loc relaţia: P(AB) = P(A) + P(B) – P(AB).
Dacă evenimentele A, B sunt incompatibile, atunci relaţia devine:
P(AB) = P(A) + P(B).
GENERALIZARE:  A1, A2, ... An n evenimente mutual exclusive două
câte două (Ai  Aj = ,  i  j) :
n
P( A ) = P(A1) + P(A2) + ... + P(An)
i 1
i

P3: Dacă A, B  S sunt 2 evenimente independente şi P(B)  0, atunci are loc


relaţia: P(AB) = P(A).

P4: Dacă A  B (evenimentul A implică evenimentul B), atunci P(A)  P(B).


Relația dintre frecvența relativă și
probabilitate:

Probabilitatea este limita frecvenţei relative:


n  , P = f = m/n
Teorema lui Bayes :
Este o formulă care descrie cum se modifică
probabilităţile unor ipoteze în prezenţa unor
dovezi demonstrate.
Derivă direct din formula probabilităţii
condiţionate şi poate fi folosită pentru a soluţiona
diverse probleme care implică modificări ale
ipotezelor.
Numeroase tehnici statistice (de ex. calcularea
valorilor p sau interpretarea rezultatelor medicale),
pot fi explicate prin modul în care contribuie la
modificarea ipotezelor, folosind teorema lui Bayes.
Teorema lui Bayes:
Fiind dată o ipoteză H şi o dovadă E, teorema lui
Bayes afirmă că relaţia dintre probabilitatea de
producere a ipotezei P(H) înainte de obţinerea
dovezii şi probabilitatea de producere a ipotezei
după obţinerea dovezii, P(H|E), este:
𝑃 (𝐸∨𝐻 )
𝑃 ( 𝐻| 𝐸 ) = ∙ 𝑃 (𝐻 )
𝑃 (𝐸)
P(H) = probabilitate anterioară
P(H|E) = probabilitate ulterioară
= likelihood ratio
Teorema lui Folosit în cercetarea medicală
pentru a rezolva probleme legate
Bayes: de precizia testelor de screening:

SENZITIVITATEA unui test de detectare a unei boli:


Este probabilitatea de a înregistra un REZULTAT POZITIV
atunci când subiectul are boala. Se notează cu P(T|D).

SPECIFICITATEA unui test de detectare a unei boli:


Este probabilitatea de a înregistra un REZULTAT
NEGATIV atunci când subiectul nu are boala. Se notează
cu P(|).
Valoarea Predictivă Pozitivă a testului:
Este probabilitatea ca un subiect să aibă boala atunci când
testul de screening are un rezultat pozitiv.
Se calculează folosind Teorema lui Bayes, cu formula:
𝑃 (𝑇 ∨𝐷)∙ 𝑃( 𝐷)
𝑃 ( 𝐷|𝑇 )=
𝑃 ( 𝑇 |𝐷 ) ∙ 𝑃 ( 𝐷 )+ 𝑃 (𝑇 ∨𝐷)∙ 𝑃 (𝐷)
P(D) = probabilitatea de apariţie a bolii, care de regulă este
cunoscută (prevalenţă).

𝑃 ( 𝐷 )=1 − 𝑃 ( 𝐷 )
𝑃 ( 𝑇 ∨ 𝐷 )=1− 𝑃 (𝑇 ∨𝐷)
Valoarea Predictivă Negativă a testului :
Este probabilitatea ca subiectul să nu aibă boala atunci când
testul de screening are un rezultat negativ.
Se calculează folosind Teorema lui Bayes, cu formula :

𝑃 (𝑇 ∨𝐷)∙ 𝑃 (𝐷)
𝑃 (𝐷∨𝑇 )=
𝑃 (𝑇 ∨𝐷)∙ 𝑃 (𝐷)+𝑃 (𝑇 ∨𝐷)∙ 𝑃 (𝐷)

𝑃 ( 𝑇 ∨ 𝐷 )=1− 𝑃 (𝑇 ∨𝐷)
Exemplu:
O echipă de cercetare medicală doreşte să evalueze precizia unui test de
screening pentru boala Alzheimer. Testul a fost aplicat într-un eşantion
aleatoriu de 450 pacienţi cu Alzheimer şi un eşantion aleatoriu,
independent, de 500 patients fără simptome de boală. Cele două eşantioane
au fost extrase dintr-o populaţie de persoane peste 65 de ani. Au fost
obţinute următoarele rezultate:

Boala prezentă
Rezultatul testului DA (D) NU () Total
Pozitiv(T) 436 5 441
)( Negativ 14 495 509
Total 450 500 950
În contextul acestui exemplu:

Un rezultat FALS Apare atunci când testul indică un


rezultat pozitiv (T) şi pacientul nu are
Pozitiv: boala (.

Un rezultat FALS Apare atunci când testul indică un


rezultat negativ () şi pacientul are
Negativ: boala (D).

SENZITIVITATEA 436
𝑃 ( 𝑇 |𝐷 )= =0.9689
testului: 450

SPECIFICITATEA 495
𝑃 (𝑇 ∨𝐷)= =0.99
testului: 500
Presupunem că prevalenţa bolii în populaţie este cunoscută, şi
anume P(D) = 11.3%.

Valoarea Predictivă Pozitivă a testului :

Valoarea Predictivă Negativă a testului :

=
TIPURI DE
DISTRIBUŢII ALE
DATELOR
DISTRIBUŢIA UNIFORMĂ

Se consideră o variabilă aleatoare X, cu n valori posibile, X = 1, 2,…n pentru care


probabilităţile de apariţie sunt egale:
P(X = 1) = P(X = 2) = … = P(X = n) = 1/n.
Distribuţia de probabilităţi a
valorilor variabilei X se numeşte
distribuţie uniformă.
Media distribuţiei uniforme:
1 n
m    xi
n i 1
1 n( n  1)
 
n 2
Varianţa n2 1 n 1
(dispersia):
 2
 
2 2
DISTRIBUŢIA HIPERGEOMETRICĂ
Schema bilei neîntoarse:
Se consideră o urnă care conţine p bile albe şi q bile negre. Se extrage un eşantion de
n bile, simultan sau una câte una, fără a repune în urnă bilele extrase – la fiecare
extragere compoziţia urnei se modifică.
Variabilă aleatoare : numărul r de bile albe conţinute în eşantionul de n bile, r 0,…
n.
Distribuţia de probabilităţi a
valorilor lui r se numeşte distribuţie
hipergeometrică.
EXPRESIA TERMENULUI DE RANG R:

C pr  Cqn  r Probabilitatea de a avea r de bile albe în


P( X  r )  n eşantionul de n bile extras.
C pq

p
Media distribuţiei hipergeometrice: m  n
pq

Varianţa 2 p  p  pqn
  n  1   
(dispersia): pq  p  q  p  q 1
DISTRIBUŢIA BINOMIALĂ
Experienţa dublei extrageri (schema bilei întoarse):
Se consideră o urnă care conţine p bile albe şi q bile negre. Se extrage un eşantion de
n bile, de fiecare dată repunând în urnă bilele extrase – la fiecare extragere
compoziţia urnei este aceeaşi.

Variabilă aleatoare : numărul r de bile albe conţinute în eşantionul de n bile, r 0,…


n.

Distribuţia de probabilităţi a
valorilor lui r, dată de termenii
succesivi din dezvoltarea binomului
(p+q)n, se numeşte distribuţie
binomială.
EXPRESIA TERMENULUI DE RANG R:
• Termenul de rang 0 = qn;
• Termenul de rang n = pn;
• Termenul de rang r = Cnr p r q n  r

n!
P( x  r )   p r  q nr
r!n  r !
Rangul termenului cel
mai probabil:
r  n p
Media distribuţiei m  n p
binomiale
Varianţa:  2  n pq
Deviaţia standard:
  n pq
DISTRIBUŢIA NORMALĂ
Distribuţia normală (gaussiană) este o distribuţie binomială simetrică în
care p = q =1/2, iar n  +.
Abraham de Moivre (1730, matematician francez)
Pierre Simon de Laplace, matematician francez, sec. XIX
Carl Friedrich Gauss, matematician german, sec. XIX

Distribuţia valorilor este de la 0 la +.

Pr

0 r +

n  + : Marginea superioară a diagramei se transformă într-o linie


continuă curbă - perfect definită matematic
– CURBA GAUSS-LAPLACE.
ECUAŢIA CURBEI GAUSS:

  x  m 2
1 2 2
Pentru n   şi p = q: y e
  2 

ECUAŢIA CURBEI CENTRATE: x2


1 
2 2
Se face translaţia X = x  m : y e
  2 

X xm
Se defineşte raportul t  (ABATERE REDUSĂ DE LA MEDIE)
 
t2
1 
y e 2

  2 
Se ia  ca unitate de măsură a abaterilor,  = 1:
t2
ECUAŢIA REDUSĂ A CURBEI: 1 
y e 2

2 
Forma curbei este determinată de valorile lui :
Curba descreşte de o parte şi de alta a unei valori maxime, la
început mai încet, apoi mai rapid, până la un punct de inflexiune (t
=1, respectiv t=–1) şi apoi iarăşi mai încet de la acest punct în jos,
până devine asimptotică la axa absciselor.

 = 0.25

 = 0.5

=1

-1 -0.6 -0.2 0.2 0.6 1


Suprafeţe importante ale curbei GAUSS:

Valoarea abaterii t (în raport cu ) generează următoarele


SUPRAFEŢE DE PE CURBA GAUSS-LAPLACE:

Aria 2(t) - corespunde unei abateri t =  1


 x =  1  x = (m  ) , x = (m + )

68.3 % din suprafaţa totală de sub curbă


Aria 2(t) - corespunde unei abateri t =  2
 x =  2  x = (m  2) , x = (m + 2)

95.5 % din suprafaţa totală de sub curbă

Aria 2(t) - corespunde unei abateri t =  2.6


 x =  2.6  x = (m  2.6) , x = (m + 2.6)

99.0 % din suprafaţa totală de sub curbă


Suprafeţe importante ale curbei GAUSS:

99%

95.50%

68.30%
t
- X 
-2.6 -2 -1 0 1 2 2.6
x
m-2.6s m -2s m-1s m m-1s m-2s m-2.6s
DISTRIBUŢIA POISSON
Distribuţia Poisson - „Legea probabilităţilor mici” - reprezintă limita
unei distribuţii binomiale în care termenii q (de exemplu) devin foarte mici
(practic <0.03%), ceea ce dă o distribuţie foarte asimetrică, atunci când n creşte
la infinit.
Este utilă în evaluarea evenimentelor legate de
NUMĂRĂTORI.

Dacă se cunoaşte media de apariţii ale unui


eveniment într-un interval stabilit de timp (ex. nr. de
apeluri telefonice primite într-o oră, nr. de e-mail-uri
primite într-o zi), şi presupunând că producerea
acelui eveniment este complet aleatoare, distribuţia
Poisson arată cât de probabil este să obţinem un
anumit număr de apariţii ale acelui eveniment în
intervalul de timp prestabilit.

Este utilă în studiul EVENIMENTELOR RARE.


Plancton în apa de mare
CONDIŢII DE APLICARE:
- producerea evenimentului este exprimată în
numere întregi, pozitive;

- producerile evenimentului sunt independente


unele de altele;

- este cunoscută frecvenţa medie de producere


a evenimentului în intervalul de timp studiat;
Bacterii în aer
- se poate număra de câte ori s-a produs
evenimentul analizat;

Stafide într-o prăjitură


EXPERIMENTUL
INIŢIAL:
Setul de date ale lui von Bortkiewicz (1898), care a calculat şansele
ca un soldat de cavalerie prusac să fie ucis prin lovitura de copită a unui
cal.
Au fost observate 10 corpuri de armată pe o perioadă de 20 de ani,
pentru fiecare corp de armată fiind realizate 200 de observaţii pe an.

Numărul total de decese prin lovituri de copită ale


calului a fost 122, deci numărul mediu de decese
anuale per corp de armată a fost 122/200 = 0.61.
Prin urmare, pe parcursul unui an se vor
înregistra uneori nici un deces, uneori unul, ocazional
două, eventual trei şi foarte rar mai multe. Aceasta
este o situaţie Poisson clasică: un eveniment rar, a
cărui rată de apariţie este redusă (mai mică decât 1),
şi cu observaţii realizate în intervale relativ reduse de
timp.
Media distribuţiei
m = frecvenţa medie de producere a Poisson m  nq
evenimentului în intervalul de timp studiat
Varianţa:
(media distribuţiei Poisson); 2 m
Deviaţia standard:
 m
𝒌
−𝒎 𝒎 probabilitatea de producere a evenimentului de k
( )
𝑷 𝑿 =𝒌 =𝒆 ∙ ori în intervalul de timp studiat;
𝒌!

EXPRESIA TERMENULUI DE RANG R:


• Termenul de rang 0 = e-m;
• Dacă m < 1: e-m este cel mai mare
termen; distribuţia descreşte constant
şi tinde spre 0;
• Dacă m = 1:
termenul de rang 0: e  m  e 1  0.37
termenul de rang 1: m  e m
• Dacă m >1: două valori maximale, r =m, r =m – 1.
0.9
0.8
0.7 m = 0.1
0.6
0.5
m=1
0.4 m=3
0.3 m=5
0.2
0.1
0
0 2 4 6 8 10

Reprezentarea grafică a legii Poisson pentru diferite valori


ale lui m
DISTRIBUŢIA MEDIILOR
Fie o populaţie statistică N (N foarte mare). Se extrage un eşantion de
efectiv n. Fie m1, m2, m3 … mediile găsite pentru diverse eşantioane. Se
studiază fluctuaţia statistică a mediilor eşantioanelor extrase, care sunt egal
repartizate faţă de media M a populaţiei de origine.

Distribuţia obţinută în acest mod se numeşte


distribuţia mediilor.

Media: Mm  M
Varianţa:
2 2
 
m
n
Deviaţia standard: EROAREA STANDARD A
 MEDIEI
m 
n
Forma curbei pentru distribuţia mediilor:
Mediile sunt mai puţin dispersate faţă de M, media globală a populaţiei,
decât valorile individuale din populaţie.

(a) Distributia mediilor


esantioanelor de cate
n observatii

σm

(b) Distributia a
σ N valori individuale

M m
Observaţie:
Pentru eşantioane de dimensiune n suficient de mare (n ≥ 30), distribuţia
mediilor tinde spre o distribuţie normală – chiar dacă distribuţia valorilor
individuale din populaţia de origine nu respectă legea normală – TEOREMA
LIMITEI CENTRALE.

POPULAŢIA ORIGINALĂ Distribuţia valorilor individuale


(eşantioane de dimensiune = 1)

Distribuţia mediilor Distribuţia mediilor


(eşantioane de dimensiune = 2) (eşantioane de dimensiune = 3)
DISTRIBUŢIA STUDENT t
William GOSSET

Fie o populaţie statistică N (N foarte mare). Se extrage un eşantion de


efectiv n < 30 observaţii. Fie m1, m2, m3 … mediile găsite pentru diverse
eşantioane. Se studiază fluctuaţia statistică a abaterilor reduse de la medie,
notate cu t1, t2, t3…

Distribuţia Student este distribuţia abaterilor reduse de la medie, respectiv a


parametrului mM
t
m Parametrul t - Student

Media: Mm  0
Varianţa: v = nr. de grade de
2 v libertate ale eşantionului,
m 
v2 v≥2
Curba reprezentativă a acestei distribuţii, pentru o valoare
dată n < 30, este aproximativ o curbă în clopot, simetrică, dar mai
aplatizată decât curba Gauss: curbă “hipernormală”.

Când n > 30, distribuţia Student coincide cu distribuţia


mediilor.
În fapt, există o familie de distribuţii t corespunzătoare
diferitelor valori posibile ale lui n<30.

n >= 30 - Curba normala

Curbele hipernormale
pentru diferite valori ale
n=10
parametrului t
n=1

S-ar putea să vă placă și