Documente Academic
Documente Profesional
Documente Cultură
Biostatistica
Biostatistica
Tipuri de date
Exemple:
va calitative: cele dihotomice pot avea două alternative de
tip Da/Nu sau Decedat/In viaţă. Variabilele aleatoare
calitative cu mai multe alternative pot descrie de exemplu
distribuţia bolnavilor după grupa de sânge (A, B, AB, O) sau
pot lua următoarele valori pentru întrebarea “Cât de bine ştiţi
limba engleză?”: “deloc”, “puţin”, “suficient”, “fluent”.
1
greutate, cantitatea în grame a îngheţatei consumate de o
persoană într-o săptămână.
6 7 6 8 5
2
7 6 9 10 6
Media aritmetică
4
dacă se calculează pentru un eşantion (indicator statistic)
se notează cu simbolul X .
Xifi Xifi
formula de calcul: μ= N
i 1
sau X = i 1
n
fi N
i 1
fi n
i 1
Exemple:
a) Fie Xi o va într-o populaţie, cu următoarele valori:
2 5 1 4 3
Media aritmetică va fi:
μ = 1/5(2+5+1+4+3) = 15/5 = 3
5
Dacă înlocuim valoarea fiecărei variabile Xi cu valoarea
mediei aritmetice, obţinem: 3+3+3+3+3=15, ceea ce
corespunde definiţiei mediei.
6
X2 3.0 1000.0 -997.0
X3 2995.0 1000.0 1995.0
Σ 3000.0 3000.0 0.0
( Xi X ) 0
i
( Xi X )
i
2
0
Modul
d1
mod = L d 1 d2
c
7
d2= diferenţa dintre frecvenţa clasei modale şi
frecvenţa clasei următoare
c=lungimea claselor
Exemple:
pentru datele din exemplul 1:
mod=6
Mediana
Exemple:
8
pentru datele din exemplul 1, după ordonarea datelor:
mediana=(6+7)/2=6.5, pentru că (10+1)/2=5.5
Cuantilele
9
Trebuie construite nişte măsurători care să arate cât de mult
diferă observaţiile de o valoare de referinţă (de obicei media
sau mediana).
N
1 1 n
σ= N
f ( X )
1
i i
2
sau s= fi ( Xi X ) 2
n 1
10
s
V= (pentru populaţie) sau v= X (pentru eşantion)
Exemple:
-1 0 -1 1 -2
0 -1 2 3 -1
şi
1 0 1 1 4
0 1 4 9 1
deci:
s2= 2.9520/19=0.1554
s= 0..1554 = 0.3924
v=0.3924/20.08=0.0196 sau ≈ 2%
12
Distribuţia normală (gaussiană)
prob (aX=xb) = f ( x ) dx =
a
( X )
Z=
14
Pentru distribuţia normală standard există tabele de calcul al
integralei de mai sus. Dacă se obţine valoarea lui Z, se
poate calcula apoi valoarea lui X.
Exemplu:
Presupunând că media şi abaterea standard pentru o
distribuţie normală sunt µ şi σ, să se calculeze valorile astfel
încât prob (x1Xx2)=0.95
Deci, trebuie să găsim valorile lui x1 şi x2 cunoscând
probabilitatea. Deoarece distribuţia normală standard este
simetrică faţă de 0, se vor lua în considerare doar valorile
pozitive; se va împărţi deci probabilitatea la 2
(0.95/2=0.475). Din tabele se va găsi valoarea cea mai
apropiată sau egală cu 0.475. Această valoare este 1.96 şi
va constitui valoarea din dreapta a intervalului:
0Z1.96
Prin simetrie, celălalt capăt al intervalului va avea valoarea
-1.96.
Deci:
prob (-1.96Z1.96)=0.95
Se poate obţine uşor valoarea lui X:
x1=µ-1.96σ
x2=µ+1.96σ
Distribuţia χ2
Yn=ΣYi=ΣUi2 i=1,2,.....,n
15
Această variabilă se numeşte χ2 şi are n grade de libertate,
unde n este numărul de variabile independente din formula
de mai sus.
Cu cât n este mai mare, distribuţia χ2 tinde să se apropie de
distribuţia normală.
Distribuţia t-Student
Testele de comparaţie
16
Demersul necesar construirii unui criteriu de semnificaţie
porneşte de la stabilirea ipotezei nule, H0, care postulează
faptul că nu există nici o diferenţă semnificativă între
indicatorii obţinuţi din eşantion şi cei ai populaţiei.
Aceşti indicatori sunt de regulă media (sau proporţia),
abaterea standard şi efectivul.
Pentru verificarea ipotezei statistice se utilizează diferite
teste de semnificaţie statistică, constând din calcularea unei
statistici (tα, uα, z, etc). şi din stabilirea de reguli precise de
acceptare sau de respingere a ipotezei nule, H0, cu o
anumită probabilitate.
Pentru un anumit test statistic, valoarea probabilităţii sub
care se respinge ipoteza nulă se numeşte prag de
semnificaţie şi este ales de cercetător. La testarea
semnificaţiei se pot comite două tipuri de erori:
eroarea de speţa I-a sau α, adică decizia de a respinge
ipoteza nulă când aceasta este adevărată
eroarea de speţa a II-a sau β, adică decizia de a aceepta
în mod eronat ipoteza nulă când aceasta este falsă
Testul t-Student
17
Pentru folosirea testului Student se impune o restricţie
privind varianţa celor două eşantioane, cerându-se ca
diferenţa dintre ele să nu depăşească un anumit raport. In
acest scop se aplică testul F, prin care raportul dintre
valoarea cea mai mare şî cea mai mică de la cele două
varianţe se compară cu o valoare F, dependentă de
mărimea riscului asumat şi de gradele de libertate din
fiecare eşantion.
inegalitatea:
| x1 x 2|
u
s12 s2 2
n1 1 n 2 1
eşantion
s12 şi s22 - varianţele în primul şi respectiv al doilea
eşantion
n1 şi n2 - mărimea celor două eşantioane (număr de
observaţii)
uα - valoarea tabelară, pentru distribuţia normală,
corespunzătoare unui risc α
18
unul de fete (3000g şi respectiv 2950g, o varianţă de 10000
g2). Aplicând formula de mai sus, se obţine:
|3000 2950|
3.536
10000 10000
100 100
Testul Χ2
2 n ( ad bc) 2
Χ = ( a b )(c d )(a c)(b d )
Diabet
Obezitate Prezent Absent Total
Prezentă 40 30 70
Absentă 20 10 30
Total 60 40 100
Χ2α=0.05,ν=1=3.841
( oi ci ) 2
2
Χc= ci 2 ,
Exemplu:
S-au administrat trei tratamente diferite la trei loturi de
bolnavi. S-au înregistrat valorile din tabelul de mai jos.
Rezultatul celor trei tratamente diferă semnificativ?
Starea bolnavului
Tratamen Vindecaţi Amelioraţi Staţionari Total
t
Trat A 20 20 10 50
oi (80/200)x5 (90/200)x5 (30/200)x5
21
0=20 0=22.5 0=7.5
ci
Trat B 30 25 5 60
oi (80/200)x6 (90/200)x6 (30/200)x6
0=24 0=27 0=9
ci
Trat C 30 45 15 90
oi (80/200)x9 (90/200)x9 (30/200)x9
0=36 0=40.5 0=13.5
ci
Total 80 90 30 200
Χ2c = (20-20)2/20+(30-24)2/24+(30-36)2/36+(20-
22.5)2/22.5+(25-27)2/27+(45-40.5)2/40.5+(10-7.5)2/7.5+(5-
9)2/9+(15-13.5)2/13.5 = 6.20
22