Documente Academic
Documente Profesional
Documente Cultură
J.L. Avenbury
321
322
ELEMENTE DE BIOSTATISTICĂ. INDICATORI STATISTICI
1. OBIECTIVELE STATISTICII
323
2. NOŢIUNI DE STATISTICĂ
324
2.3. Caracteristica (variabila) este una din însuşirile prin care se manifestă
unitatea de observare, este acea însuşire comună unităţilor unei populaţii
investigate.
Analiza studiului unei populaţii se poate face după una sau mai multe
variabile.
Exemple:
1. Să presupunem că interesează studiul numărului de eozinofile la
bolnavii internaţi într-un spital de boli infecţioase
- Populaţia statistică este formată din mulţimea bolnavilor
internaţi într-o anumită perioadă (un an),
- O unitatea statistică este constituită din fiecare bolnav,
- Caracteristica studiată este numărul de eozinofile ale bolnavului
la internare,
- Un eşantion din această populaţie statistică poate fi, de exemplu
mulţimea alcătuită din 100 de bolnavi internaţi luaţi din doi în
doi în ordinea internării.
2. Să presupunem că într-un studiu prezintă interes numărul de pacienţi
consultaţi zilnic în cabinetele medicilor de familie dintr-o anumită zonă.
Atunci:
- Populaţia statistică este reprezentată de mulţimea cabinetelor,
- O unitate statistică este reprezentată de oricare cabinet,
- Numărul de pacienţi consultaţi zilnic reprezintă o caracteristică.
Pentru studiile medicale este foarte importantă stabilirea exactă a
condiţiilor de incluziune şi excluziune pentru precizarea exactă a populaţiei
statistice.
325
a. Variabilele cantitative sunt asociate unor caracteristici măsurabile.
Sunt însuşiri măsurabile ale unităţilor de observare şi care pot fi
exprimate printr-o unitate de măsură (cm, g, ore etc.). Ele pot fi:
Variabile continue asociate unor caracteristici măsurabile care pot lua
orice formă numerică (inclusiv o fracţiune zecimală sau ordinală). De
exemplu: înălţimea, greutatea, vârsta, glicemia, numărul globulelor
roşii etc. Calculul mediei are întotdeauna semnificaţie.
Variabile discontinue sau discrete asociate unor caracteristici
măsurabile care nu iau valori decât numere întregi (scorul Apgar,
numărul copiilor într-o familie etc.). Valoarea mediei nu are
întotdeauna semnificaţie. Analiza rezultatelor poate fi delicată.
Variabilele cantitative pot fi metamorfozate în variabile calitative, dar
întotdeauna cu pierdere de informaţie. De exemplu: transformarea variabilei
cantitative continue “vârstă”, în variabilă calitativă “clase de vârstă”. Nu este
posibilă transformarea variabilelor calitative în variabile cantitative, chiar dacă
codificarea lor este numerică.
Variabilele discrete conferă avantajul că de cele mai multe ori este mai
simplu de lucrat cu ele decât cu variabilele continue.
Procedeul de transformare a unei variabile continue într-o variabilă
discretă se numeşte discretizare sau grupare în clase. Această discretizare este
cauzată şi de precizia aparatului de măsurat folosit, care transformă o variabilă
continuă într-o variabilă discretă.
326
2.5 Varianta este valoarea concretă sub care se înregistrează o variabilă. De
exmplu, variabila glicemie s-a înregistrat sub valoarea de 120 mg, într-un caz
studiat. Aceasta una dintre variantele sub care se poate înregistra caracteristica
respectivă (glicemia).
2.7. Seria statistică (sau repartiţia statistică) este şirul de valori numerice ale
unei variabile, ordonate după un anumit criteriu, în funcţie de şirul valorilor
altei caracteristici, reprezentând corespondenţa dintre două şiruri de date.
Repartiţia statistică este caracterizată de legea de repartiţie.
După numărul de variabile luate în considerare simultan seriile statistice
pot fi:
Univariate, dacă se referă la o singură variabilă,
Bivariate, dacă de referă la două variabile,
Multivariate, dacă se referă la mai mult de două variabile.
Dacă seriile se referă doar la variabile cantitative continue, atunci ele se
mai numesc unidimensionale, bidimensionale sau multidimensionale în funcţie
de numărul de variabile implicate.
327
3. CULEGEREA DATELOR
328
Serii de variaţie simple
Exemplu:
Variabila* Frecvenţa
Xi fi
0 8
1 12
2 11
3 13
4 14
5 21
. .
. .
95 2
96 0
97 0
98 0
99 1
fi =1.000
Pentru seriile de variaţie foarte lungi care pentru unele valori au frecvenţa
nulă, se preferă alcătuirea unei grupări în subdiviziuni ale domeniului de
variaţie al caracteristicii observate (clasă, grupă, categorie). În această situaţie
prezentarea informaţiilor se face printr-o serie de variaţie cu clase. Se
recomandă crearea unor clase egale ca mărime, cu intervalele externe închise.
Limitele de clasă, inferioară şi superioară, nu trebuie să se suprapună.
De exemplu 0-4 ani, 5-9 ani, 10-14 ani etc.….. şi nu 0-5 ani, 5-10 ani, 10-
15 ani etc.
329
Exemplu:
x max - x min
i =
1 + 3.322 log n
330
În cazul seriilor de variaţie cu clase (toate clasele sunt considerate egale),
pentru efectuarea prelucrărilor statistice este necesar a se calcula centrul clasei
(valoarea centrală a intervalului) care se notează cu Xi' .
Centrul clasei se determină diferit, în funcţie de caracterul variabilei.
Pentru variabilele cantitative continue, centrul clasei este egal cu
semisuma valorii minime a clasei respective şi a valorii minime a clasei
următoare.
Pentru variabilele cantitative discontinue, centrul clasei este egal cu
semisuma valorilor extreme ale clasei. Nu este obligatoriu ca centrul clasei să
fie o valoare întreagă.
Pentru variabilele cantitative continue, cu mai multe valori (peste 10) se
observă că o mare parte dintre observaţii se concentrează în jurul unei valori
centrale.
Această concentrare este denumită tendinţa centrală a distribuţiei de
frecvenţă.
331
4.INDICATORI AI TENDINŢEI CENTRALE
ŞI DE DISPERSIE, PENTRU CARACTERISTICI CANTITATIVE
4.1.1. Media
_
4.1.1.1. Media aritmetică ( x )
Media aritmetică este o măsură a valorii centrale a setului de date în jurul
căreia fluctuează datele setului. Media nu dă nici o indicaţie asupra gradului de
fluctuaţie (de abatere) de la medie, adică asupra a ceea ce se numeşte frecvent
dispersia datelor.
Media aritmetică a seriei de date asociate unui eşantion x 1 , x2 , ….., xn,
este raportul dintre suma acestora şi numărul lor:
n
xi
i=1 x1 + x2 + …..+ xn
x = =
n n
unde:
x – media aritmetică,
n
xi suma valorilor seriei de date (a variabilei),
i=1
n – numărul valorilor (seriei de date),
i = 1, 2,…, n
332
xifi x1 f1 + x2 f2 + + xk fk
x = =
fi f1 + f2 + …..+ fk
unde:
x – media aritmetică ponderată,
k
xifi - suma produsului dintre valorile variabilei şi frecvenţa lor în
i=1 serie,
k
fi - numărul valorilor, exprimat ca sumă a frecvenţelor.
i=1
Exemplu:
Durata unei boli exprimată în zile, pentru zece determinări poate fi:
4,5,3,5,6,6,10,4,5,5. Durata medie (media aritmetică) a bolii va fi de 5,3 zile:
4+5+3+5+6+6+10+4+5+5 53
x = = = 5,3 zile
10 10
Calculând durata medie cu ajutorul celei de a doua formule vom avea:
_ 3+4+4+5+5+5+5+6+6+10
x =
10
_ 31+42+54+62+101 53
x = = = 5,3 zile
10 10
k
( xi - x ) fi = 0
i=1
unde:
xi - valorile variabilei,
x – media aritmetică,
fi – frecvenţa; i= 1, 2,……, k.
333
Calculul mediei pentru seriile de variaţie cu clase se face în acelaşi mod,
folosindu-se valorile centrului claselor intervalului:
k
xi fi
i=1 unde: xi = centrul clasei
x =
fi
Proprietăţi ale mediei aritmetice:
x= hx
334
Media aritmetică ponderată se calculează după formula următoare în care
fiecare valoare xi este înmulţită cu o pondere wi nenegativă, care indică
importanţa valorii respective în raport cu celelalte valori.
wi xi
μx =
wi
1. Pentru serii cu număr impar de valori (2k +1), mediana este valoarea
de rang k+1.
2. Pentru serii cu număr par de valori (2k), mediana se află între valorile
de rang k şi k+1, convenindu-se a fi reprezentată de media aritmetică a
celor două valori.
Exemplu:
Caracteristicile lungimii la naştere sunt: 48, 49, 50, 52, 54 cm. Se observă
că valoarea 50 este mediana. Ea a împărţit şirul de valori astfel încât numărul
valorilor mai mici decât ea însăşi să fie egal cu numărul valorilor mai mari, în
exemplu existând valorile inferioare 48, 49 şi valorile superioare 52, 54.
În cazul seriilor cu număr impar de valori mediana este o valoare
observată (ca în exemplu dat). În cazul seriilor cu număr par mediana este o
valoare calculată.
Exemplu:
Fie seria 48, 49, 50, 51.
În acest caz mediana trebuie plasată între valorile 49 şi 50, atribuindu-i-se
valoarea 49,5, rezultat al semisumei celor două valori delimitatoare
49 + 50
( = 49,5 )
2
Referitor la aceste exemple se poate spune că mediana a avut poziţia sau
rangul 3 pentru primul exemplu şi respectiv, rangul 2,5 în cazul celui de-al
doilea exemplu. Apare evident că determinarea medianei este legată de ordinea
variantelor, motiv pentru care ea poate fi numită şi medie de poziţie.
Rangul medianei se poate calcula cu formula:
335
fi + 1
Rg =
2
În cazul în care observaţiile sunt grupate în clase de frecvenţă, clasa
mediană este cea care conţine mediana. Ca şi la medie, în cazul seriilor de
variaţie cu clase, se introduce o eroare în determinarea medianei.
Proprietăţi ale medianei:
1. Mediana nu este afectată de valorile extreme ale seriei de date, chiar dacă ele
sunt mult diferite de celelalte, având un caracter “aberant”.
2. Valoarea obţinută pentru mediană poate să fie nereprezentativă pentru
distribuţia seriei de valori dacă acestea nu se grupează înspre valoarea
centrală.
Comparativ cu media, mediana ca indicator are o capacitate mai mică în
estimarea populaţiei de origine printr-un eşantion. Din acest motiv în analiza
statistică va fi folosită mai mult media decât mediana.
Mo = x + 3 (Me - x )
336
Exemplu: Determinări ale uricemiei la 100 de pacienţi
xi fi xi fi
33 1 33
38 5 190
43 10 430
48 27 1296
53 25 1325
58 11 638
63 8 504
68 7 476
73 3 219
78 1 78
83 1 83
88 1 88
- 100 5360
xifi 5360
x = = = 53,60 Media
fi 100 aritmetică este 53,60.
fi + 1 101
Rg Me = = = 50,5 Rangul
2 2 medianei este 50,5.
x50 + x51 53 + 53
Me = = = 53 Mediana este
2 2 53.
337
“Variabilitatea” este proprietatea caracteristică a tuturor fenomenelor
biologice şi medicale. Ea determină împrăştierea, sau dispersia indicatorilor de
tendinţă centrală în caracterizarea seriei de variaţie şi se bazează pe noţiunea de
abatere. În condiţiile unei dispersii mari, indicatorii de tendinţă centrală nu sunt
suficienţi pentru a caracteriza seria de variaţie.
Indicatorii de dispersie oferă oferă informaţii asupra extinderii
împrăştierii datelor, sau a gradului de aglomerare (îngrămădire sau apropiere).
Indicatorii de dispersie sunt utili în stabilirea reprezentativităţii
indicatorilor centrali. Semnificaţia unei medii ca şi valoare reprezentativă pentru
un set de date depinde de gradul de dispersie a valorilor individuale în jurul ei.
Indicatorii de dispersie joacă un rol important în estimarea parametrilor
statistici şi în inferenţa statistică.
Principalii indicatori de dispersie sunt:
amplitudinea absolută şi relativă,
varianţa,
abaterea (deviaţia) standard,
coeficientul de variaţie.
4.2.1.Amplitudinea
Amplitudinea absolută (A) reprezintă diferenţa dintre valoarea maximă şi
valoarea minimă din serie.
A = x maxim – x minim
Exemplu:
Fie seriile de variaţie pentru dimensiunile unor celule ():
338
Seria 1 Seria 2 Seria 3
7 113 23
5 120 25
8 121 31
3 116 33
9 119 29
13 123 27
6 114 30
11 118 32
A
A% = 100
x
unde:
A% - amplitudinea relativă
A – amplitudinea absolută
x – media aritmetică a seriei
339
k
( xi - x )2 fi
i=1 (x1 - x)2 f1 +…+ (xk - x)2 fk
sx2 = =
k f1 + f2+ …+ fk
fi
i=1
unde:
sx2 – variaţia variabilei x
xi - valorile din şir (variabile x)
x – media aritmetică a şirului
fi - frecvenţa
n n
( xi - x ) 2
( xi - x )2
i=1 i=1
sx = =
2
n n
fi
i=1
În cazul eşantioanelor mici, adică pentru un număr mic de observaţii (n
30), se utilizează formula următoare, care reduce eroarea de calcul:
n
( xi - x )2
i=1
sx =
2
n–1
Avantajul excepţional pe care îl prezintă varianţa faţă de ceilalţi indicatori
de dispersie îl reprezintă faptul că varianţa unui eşantion permite o bună
estimare a varianţei populaţiei.
Limitele interpretative ale varianţei provin din faptul că valorile extreme
ale seriei intervin puternic asupra mărimii indicatorului datorită abaterilor lor
mari faţă de medie. Aceste abateri devin şi mai mari prin ridicarea la pătrat,
impusă de formula de calcul.
Varianţa se exprimă prin pătratul unităţii de măsură a variabilei (cm 2,
grame2, zile2, etc.).
Varianţa nu permite compararea dispersiilor fenomenelor măsurate prin
unităţi diferite sau de alt ordin de măsură, ca şi în cazul amplitudinii.
340
Pentru depăşirea acestor limite, se pot folosi ca indicatori abaterea
standard şi mai ales coeficientul de variaţie.
sx = ± √ sx2
341
4.2.5. Eroarea standard (ES)
Eroarea standard (ES) este indicatorul de dispersie a datelor utilizat în
inferenţa statistică. Se calculează după formula:
sx
ES =
√n
unde:
sx – abaterea standard
n – numărul valorilor seriei date.
342
5. INDICATORI AI TENDINŢEI CENTRALE ŞI DE DISPERSIE
PENTRU CARACTERISTICI CALITATIVE
5.1.1. Proporţia
m
p =
n
unde:
p = proporţia caracteristicii,
m = numărul de cazuri în care a fost constatată caracteristica,
n = numărul de evenimente observate
mi
p i =
n
cu condiţia ca: pi = 1; i = 1, …, k.
unde: pi = proporţia pentru o proprietate (stare) posibilă a caracteristicii
mi = numărul cazurilor cu o proprietate (stare) prezentă
n = numărul total de cazuri observate.
343
5.2. INDICATORI DE ÎMPRĂŞTIERE PENTRU CARACTERISTICI
CALITATIVE
sp = ± √ p (1 - p)
344
6. INDICATORI DE LOCALIZARE SAU DE AMPLASARE
6.1. Momente
Momentele sunt indici utilizaţi în evaluarea unor caracteristici ale unei
repartiţii de frecvenţă.
Momentul de ordin 1 se calculează după formula:
x fi
M1 =
n
(x)2 fi
M2 =
n
345
unde: x = xi - x = deviaţia de la medie
fi = frecvenţa valorilor variabilei
n = numărul valorilor seriei
xi fi (xi)3 fi
M1 = M3 = fi
fi
(xi)2 fi (xi)4 fi
M2 = M4 =
fi fi
-momente centrate (notate cu “”) ce se calculează faţă de media
aritmetică:
346
alta a mediei aritmetice. Asimetria se măreşte concomitent cu diferenţa dintre
medie şi modul.
Măsura de asimetrie (sau skewness) indică pentru o repartiţie de frecvenţă
(serie sau distribuţie de date) abaterea de la aspectul simetric şi direcţia
asimetriei (pozitivă sau negativă).
Pentru măsura asimetriei este folosit momentul de ordinul trei al abaterii
de la medie:
3
3 =
sx3
347
348
“Pământul are loc pentru toţi”
Schiller
349
350
ELEMENTE DE TEORIA PROBABILITĂŢILOR
1. Definiţie
Probabilitatea unui eveniment este proporţia (fracţiunea) din toate
evenimentele posibile ale evenimentului specificat într-o succesiune aproape
nelimitată a probelor în condiţii similare. Aceasta înseamnă că fiecărui
eveniment A legat de un anumit “experiment probabilist”, “aleator” (orice
acţiune care în împrejurări identice poate fi repetată, dar a căror rezultate nu pot
fi prevăzute cu exactitate) i se poate asocia un număr P(A) numit probabilitatea
de producere a evenimentului, iar P se numeşte funcţie de probabilitate.
351
5. Evenimente incompatibile (disjuncte sau mutual exclusive) sunt cele
care nu se pot produce simultan. Dacă notăm cu A feţele pare ale unui
zar şi cu B feţele impare, evenimentele A şi B sunt incompatibile, ele
nu se pot obţine concomitent.
Pr (A sau B) = Pr (A) + Pr (B) sau Pr (A) = 1 – Pr (B)
6. Eveniment implicat de alt eveniment se numeşte în cazul în care un
eveniment, de exemplu B are loc ori de câte ori apare evenimentul A.
2. Distribuţii de probabilitate
Tipurile clasice de distribuţii de probabilitate sunt:
Distribuţia normală descrisă de Laplace şi Gauss
Distribuţia binominală
Distribuţia denumită “Legea numerelor mici” a lui Poisson
Distribuţia Student (t)
Distribuţia 2 a lui Pearson
Distribuţia F a lui Fisher.
352
1 (x ) 2
1 2 2
f(x) = e pentru x
_____
2
12
10
8
6
4
2
0
1 3 5 7 9 11 13 15 17 19
Distribuţie normală
X-
Z =
353
Aceasta este legea normală redusă cu densitate de probabilitate:
1
x2
1 2
f(x) = e
_____
2
p() = Pr (Z - sau Z )
Pr (- Z ) = 1 – p()
Din tabelul ecartului redus p(1) = 0,32 şi deci 1 – p(1) = 0,68 iar p(1,96)
= 0,05 şi deci 1 – p(1) = 0,95
354
2.b). Distribuţia binominală sau distribuţia lui Bernoulli
Distribuţia binominală este acea distribuţie a rezultatelor unui
experiment, când acestea au numai două valori discrete şi mutual exclusive,
într-un număr cunoscut de probe. Rezultatele posibile ale fiecărei încercări
elementare sunt doar două evenimente numite de obicei succes (S) şi eşec (E).
Probabilitatea fiecăruia dintre cele două rezultate (p de succes şi q = 1 – p de
eşec) este constantă de la o încercare la alta, dar rezultatul fiecărei probe este
independent de rezultatul altei probe.
Probabilitatea pentru o distribuţie binominală este determinată prin
formula:
n
f(x) = pxqn-x
x (n - x)
355
boli foarte rare, numărul de dezintegrări ale unei substanţe radioactive într-un
interval de timp T, etc.)
Distribuţia lui Poisson este acea distribuţie binominală a rezultatelor în
care numărul de probe este foarte mare şi probabilitatea p este foarte mică. Într-
un interval suficient de mic probabilitatea de a observa mai mult de o realizare a
evenimentului este neglijabilă în raport cu probabilitatea de a observa una
singură (nesimultaneitatea realizării a două evenimente în timp şi spaţiu).
Această variabilă aleatorie x este caracterizată de un parametru care
reprezintă numărul mediu teoretic aşteptat de realizări ale evenimentului în
intervalul considerat şi are următoarea lege de distribuţie:
x
f(x) = e
x
356
U = X12 + X22 + … +Xn2 este distribuită după Pearson.
Unde: Xi2 reprezintă pătratul unei observaţii selectate aleator dintr-o
populaţienormal distribuită având media 0 şi deviaţia standard 1.
357
3. Reguli de calcul al probabilităţilor
Există două reguli de bază pentru calculul probabilităţilor în funcţie de
tipul de evenimente la care se aplică:
a. Regula aditivă
b. Regula multiplicativă.
Pr (A şi B) = Pr (A) Pr (B)
Exemplu:
Aproximativ 6,5 % din totalul bolnavilor internaţi într-un spital sunt de
vârstă X şi 55,3 % din toţi bolnavii sunt femei. Probabilitatea femeilor de vârstă
X va fi: (6,5 %) 0,065 (55,3 %) 0,553 = 0,0359 (3,59 %)
358
“Nici o investigaţie umană nu se poate intitula ştiinţă adevărată dacă nu
trece prin demonstraţia matematică”
Roger Bacon
359
360
TESTE STATISTICE
1. Ipoteza nulă
Statistica inferenţială cuprinde două laturi: estimarea parametrilor şi
testarea ipotezelor.
Unul dintre principalele aspecte ale cercetării ştiinţifice este formularea
de noi ipoteze. Întotdeauna o ipoteză nouă trebuie testată pentru a vedea dacă
este în concordanţă cu observaţiile făcute şi pentru a arăta că este mai bună
decât alte ipoteze alternative.
Aceste două modele se numesc ipoteza nulă şi ipoteza alternativă. Ipoteza
nulă notată H0, reprezintă modelul pe care experimentatorul ar dori să-l
înlocuiască. Ipoteza alternativă Ha este modelul care reprezintă o negaţie a
ipotezei nule.
Ipoteza nulă (H0 ) este ipoteza care postulează faptul că eşantioanele sau
populaţiile pe care le avem de comparat în cadrul unui studiu, experiment sau
test sunt similare, sau orice diferenţă este atribuită şansei şi nu unui anumit
factor.
Ipoteza nulă arată absenţa unor deosebiri care pot apărea în orice
problemă de comparare statistică. Ea se foloseşte pentru a defini semnificaţia
statistică (semnificaţia diferenţei), adică se spune că există semnificaţie
statistică între eşantioane, populaţii sau ambele datorată altor factori decât
şansa, dacă ipoteza nulă este falsă.
Acceptarea ipotezei nule presupune că diferenţă testată este
nesemnificativă între cele cele două populaţii, fără ca mediile populaţiilor să fie
identice.
Respingerea ipotezei nule, presupune că diferenţa între populaţii este
semnificativă, ea poate fi explicată prin alt factor decât şansa, iar una din
ipotezele alternative este acceptată.
361
Eroarea de speţă I, adică decizia de a respinge ipoteza nulă, H 0
când aceasta este adevărată;
Decizia investigatorului
Acceptarea Respingerea H0
H0
H0 adevărată Corecta Eronată
Pr = 1 - (Eroarea de speţă
Situa I ; Pr =
ţia H0 falsă Eronată Corectă
reală (Eroarea de Pr = 1 -
speţă a II-a;
Pr = )
362
1. Stabilirea ipotezei nule (H0);
2. Alegerea testului statistic pentru testarea lui H0;
3. Stabilirea nivelului de semnificaţie şi a volumului eşantionului;
4. Calcularea valorii statisticii corespunzătoare testului ales, utilizând
datele din eşantion;
5. Stabilirea intervalului de acceptare/ respingere pe baza celor
anterioare.
Dacă statistica testului se află în intervalul de respingere, se decide
respingerea lui H0 , iar dacă este în intervalul de acceptare, se decide
că H0 nu poate fi respinsă, pentru nivelul de semnificaţie ales ().
x
= x U
n
unde:
= media în populaţia din care s-a extras eşantionul
x = media eşantionului
n = numărul de cazuri din eşantion
x = dispersia caracteristicii studiate în populaţia din care s-a extras
eşantionul
U = coeficientul de distribuţia pentru un risc (valoare luată din
tabele), pentru o distribuţie normală Gauss-Laplace
Semnele arată că media eşantionului poate fi mai mică sau mai mare
decât media populaţiei.
Această formulă se utilizează dacă parametrii populaţiei şi eşantionului
sunt cunoscuţi.
363
Dacă nu se cunoaşte dispersia în populaţia din care
s-a extras eşantionul ea poate fi estimată pe baza varianţei eşantionului cu
formula:
n
ˆx = s
2
x
2
n-1
Exemplu:
În urma unui screening au fost examinate 5000 de persoane pentru care
valoare medie a glicemiei a fost de 80 mg % cu o abatere standard de 40 mg
%. Din populaţia examinată s-a extras un eşantion conţinând cazurile cu
obezitate, reprezentând 256 de persoane.Glicemia medie în acest grup a fost de
100 mg % cu o abatere standard de 48 mg %.
364
Parcurgem etapele unui test statistic
1. Stabilirea ipotezei nule H0
H0 : = x
Nu există diferenţă semnificativă statistic între media glicemiei populaţiei
şi cea a eşantionului extras din ea
= 0,05
| - x | n
Uc =
x
| 80 – 100 | 256 20 16 20
Uc = = = = 6,6
48 48 3
365
Testul “t” este folosit pentru eşantioane cu volum mai mic de 30 de cazuri
şi compară o singură medie (x) a eşantionului cu media populaţiei notată .
Testele “t” sunt utilizate în analiza pentru care deviaţiile standard din
eşantioane sunt substituite ca estimaţii pentru deviaţiile standard din populaţii.
Distribuţia “t”este folosită în cazul eşantioanelor mici (sub 30 de cazuri)
pentru a calcula “intervalele de încredere” în jurul mediei eşantionului.
Valoarea probabilităţii de respingere a ipotezei nule, când aceasta este
adevărată ( = p-value) este obţinută din tabela –t, corespunzătoare lui = n – 1
grade de liberate.
Statistica testului pentru compararea mediei unui eşantion cu media unei
populaţii este determinată prin formula:
x -
tc =
sx / n
unde:
tc = valoarea calculată a testului la diferite grade de libertate
x = valoarea medie a eşantionului
= media populaţiei
sx = deviaţia standard
n = volumul eşantionului
Numitorul ecuaţiei de mai sus este numit “eroarea standard a mediei
eşantionului”.
Etape:
1. n1, n2 30
2. Stabilirea ipotezei nule:
H0 : x1 = x2 (nu există diferenţă semnificativă statistic între
mediile celor două eşantioane independente)
3. Statistica testului “t”
x1 – x2
tc =
366
______________
sc2 / n1 + sc2 / n2
unde:
x1 – x2
tc =
___________
sc 1/n1 + 1/n2
unde:
sc = deviaţia standard ponderată a celor 2 eşantioane
= numărul gradelor de libertate
= n1 + n2 – 2
Numitorul ecuaţiei de mai sus este numit “eroarea standard a diferenţei
celor două medii”.
__________________________
(xi1 - x1)2 fi1 + (xi2 - x2)2 fi2
sc =
(n1 – 1)+ (n2 – 1)
1. n1, n2 30
2. Stabilirea ipotezei nule:
H0 : x1 = x2 (nu există diferenţă semnificativă statistic între
valorile medii înregistrate la cele două determinări)
3. Statistica testului “t”
367
d
tc(perechi) =
_____
sd2 / n
_______________
sd = (di - d)2 / (n-1)
unde:
tc(perechi) = valoarea calculată a testului la gradele de libertate
corespunzătoare
= numărul gradelor de libertate ( = n-1)
d = valoarea medie a diferenţelor
sd2 = varianţa diferenţei medii
n = numărul de perechi
368
c = numărul de coloane
Distribuţia de probabilitate chi-pătrat este o distribuţie continuă, simetrică
şi se bazează pe aproximaţia normală a distribuţiei binominale.
Pentru eşantioane mici se impune o corecţie de continuitate numită
“Corecţia Yates”, care scade valoarea lui chi-pătrat, deci scade probabilitatea
() de respingere a ipotezei nule (H0).
Valorile probabilităţii pentru respingerea ipotezei nule sunt obţinute din
tabele speciale pentru distribuţia chi-pătrat corespunzător numărului gradelor de
libertate.
(oi - ci - 1/2 )2
c2 =
ci
unde:
c2 = valoarea calculată a testului chi-pătrat
oi = frecvenţe absolute observate din fiecare celulă a tabelului
ci = frecvenţe teoretice (aşteptate) corespunzătoare frecvenţelor
observate
½ = corecţia Yates
369
BIBLIOGRAFIE
370