Sunteți pe pagina 1din 52

“ Viaţa trebuie măsurată după gândire şi acţiune, iar nu după timp”

J.L. Avenbury

65
66
ELEMENTE DE BIOSTATISTICĂ. INDICATORI STATISTICI

1. OBIECTIVELE STATISTICII

Statistica este un domeniu ştiinţific care permite studiul fenomenelor a


căror proprietate fundamentală este variabilitatea.
Aplicaţiile statisticii sunt foarte extinse cuprinzând domenii variate cum
sunt: economia, marketingul, industria, agricultura, învăţământul, psihologia,
sociologia, biologia, medicina.
Biostatistica este ramură a statisticii specializată pentru studiul
fenomenelor biologice şi medicale, înglobând tehnicile şi metodele utilizate în
domeniul biomedical pentru investigaţie în ştiinţele biologice şi medicale.
În biologie, nu există două fiinţe riguros identice, nici chiar o fiinţă
identică cu ea însăşi în două momente diferite din existenţa sa. În baza acestei
variabilităţi, un parametru biologic pentru a fi cunoscut cu o precizie suficientă,
trebuie evaluat pe baza unei mulţimi de măsurători sau observaţii. Apare deci
necesitatea de a prezenta şi studia această mulţime de măsurători într-o manieră
cât mai simplă, relevantă şi sintetică.
În cercetările biomedicale domeniile importante ale statisticii sunt
statistica descriptivă şi statistica inferenţială.
Statistica descriptivă este ramură a statisticii care se ocupă cu culegerea
datelor, înregistrarea, prezentarea şi determinarea unor caracteristici numerice
sintetice ale lor. O limită a statisticii descriptive este aceea că ea descrie sau
analizează o mulţime de date, de obiecte sau indivizi, fără a trage concluzii
asupra unei mulţimi mai mari care o conţin.
Statistica inferenţială permite generalizarea unor concluzii obţinute
pentru o parte din populaţie la toată populaţia respectivă. De exemplu, testarea
unui vaccin pe un lot de voluntari, permite formularea unor concluzii care să fie
valabile pentru întreaga populaţie vizată să utilizeze vaccinul.
Statistica inferenţială grupează acele metode şi tehnici de estimare a
caracteristicilor unei populaţii statistice din observaţii efectuate asupra unei
submulţimi de componenţi ai populaţiei. Submulţimea utilizată se numeşte
eşantion. Dacă eşantionul este corect selectat şi sunt utilizate proceduri adecvate
de derivare a rezultatelor, vom obţine o descriere suficient de exactă a întregii
populaţii statistice.
Se impune totuşi menţinerea unei diferenţieri între caracteristicile unui
eşantion şi cele ale întregii populaţii statistice. Dacă în cadrul populaţiei vorbim
de parametrii, în cadrul eşantionului vorbim de estimaţii (sau statistici).

67
NOŢIUNI DE STATISTICĂ

Principalele noţiuni utilizate în studiile statistice sunt:


-colectivitate statistică (populaţie statistică)
-unitate statistică
-variabilă statistică
-serie statistică

2.1. Colectivitatea statistică (populaţia statistică) formează obiectul analizei


statistice şi este reprezentată de totalitatea elementelor care au anumite
caracteristici (însuşiri sau atribute) comune. Numărul elementelor populaţiei se
numeşte volumul sau talia populaţiei.
O populaţie statistică poate fi:
-în medicină, mulţimea bolnavilor internaţi, mulţimea hematiilor din
sângele unei persoane, mulţimea microbilor dintr-o cultură etc.
-într-un studiu demografic, populaţia unei ţări
-un grup de indivizi (populaţia şcolară dintr-un oraş la un moment dat,
populaţia vârstnică dintr-o anumită regiune la un moment dat)
-un grup de evenimente sau fenomene
-o mulţime de obiecte.
Colectivitatea statistică generală sau populaţia este reprezentată de
totalitatea elementelor de un anumit tip existente teoretic sau practic.
În definirea populaţiilor statistice, care intervin în populaţiile medicale
trebuie stabilite cu claritate:
-criterii de includere, respectiv condiţiile în care o entitate este un element
al populaţiei,
-criteriile de excludere, adică condiţiile în care o entitate nu aparţine
populaţiei.
Elementele unei populaţii statistice se numesc unităţi statistice (unităţi
de observare) sau indivizi ai populaţiei statistice.

2.2. Unitatea statistică este reprezentată de fiecare element component al


colectivităţii statistice. Ea este supusă observării, i se determină şi i se
înregistrează valoarea caracteristicii sau caracteristicilor studiate. Unităţi
statistice pot fi: persoana, familia, căsătoria, născutul viu, gravida, cabinetul
medicului de familie etc.
Trăsătura comună a tuturor unităţilor unei populaţii care poate să prezinte
interes în cadrul unei analize statistice se numeşte caracteristică variabilă.

68
2.3. Caracteristica (variabila) este una din însuşirile prin care se manifestă
unitatea de observare, este acea însuşire comună unităţilor unei populaţii
investigate.
Analiza studiului unei populaţii se poate face după una sau mai multe
variabile.
Exemple:
1. Să presupunem că interesează studiul numărului de eozinofile la
bolnavii internaţi într-un spital de boli infecţioase
- Populaţia statistică este formată din mulţimea bolnavilor
internaţi într-o anumită perioadă (un an),
- O unitatea statistică este constituită din fiecare bolnav,
- Caracteristica studiată este numărul de eozinofile ale
bolnavului la internare,
- Un eşantion din această populaţie statistică poate fi, de
exemplu mulţimea alcătuită din 100 de bolnavi internaţi luaţi
din doi în doi în ordinea internării.
2. Să presupunem că într-un studiu prezintă interes numărul de pacienţi
consultaţi zilnic în cabinetele medicilor de familie dintr-o anumită zonă.
Atunci:
- Populaţia statistică este reprezentată de mulţimea
cabinetelor,
- O unitate statistică este reprezentată de oricare cabinet,
- Numărul de pacienţi consultaţi zilnic reprezintă o
caracteristică.
Pentru studiile medicale este foarte importantă stabilirea exactă a
condiţiilor de incluziune şi excluziune pentru precizarea exactă a populaţiei
statistice.

2.4. Mulţimea de valori pe care o caracteristică le poate lua pentru fiecare


unitate sau individ al unei populaţii statistice (sau eşantion) se numeşte
variabilă definită pe populaţia statistică (eşantion).
În realitate, variabila este o funcţie X: M→ C, unde M este populaţia
statistică iar C este o mulţime în care caracteristica ia valori.
Variabilele statistice pot fi de două tipuri:
• De natură cantitativă, asociate unor caracteristici ce pot fi
măsurate,
• De natură calitativă, asociate unor caracteristici care nu pot
fi măsurate.
Pentru variabilele statistice de natură cantitativă mulţimea C este o
mulţime de numere reale sau întregi, iar pentru cele de natură calitativă, C poate

69
fi de regulă o mulţime finită conţinând nivele calitative posibile ale
caracteristicii.

a. Variabilele cantitative sunt asociate unor caracteristici măsurabile.


Sunt însuşiri măsurabile ale unităţilor de observare şi care pot fi
exprimate printr-o unitate de măsură (cm, g, ore etc.). Ele pot fi:
• Variabile continue asociate unor caracteristici măsurabile
care pot lua orice formă numerică (inclusiv o fracţiune zecimală sau
ordinală). De exemplu: înălţimea, greutatea, vârsta, glicemia, numărul
globulelor roşii etc. Calculul mediei are întotdeauna semnificaţie.
• Variabile discontinue sau discrete asociate unor
caracteristici măsurabile care nu iau valori decât numere întregi
(scorul Apgar, numărul copiilor într-o familie etc.). Valoarea mediei
nu are întotdeauna semnificaţie. Analiza rezultatelor poate fi delicată.
Variabilele cantitative pot fi metamorfozate în variabile calitative, dar
întotdeauna cu pierdere de informaţie. De exemplu: transformarea variabilei
cantitative continue “vârstă”, în variabilă calitativă “clase de vârstă”. Nu este
posibilă transformarea variabilelor calitative în variabile cantitative, chiar dacă
codificarea lor este numerică.
Variabilele discrete conferă avantajul că de cele mai multe ori este mai
simplu de lucrat cu ele decât cu variabilele continue.
Procedeul de transformare a unei variabile continue într-o variabilă
discretă se numeşte discretizare sau grupare în clase. Această discretizare este
cauzată şi de precizia aparatului de măsurat folosit, care transformă o variabilă
continuă într-o variabilă discretă.

Variabilele de supravieţuire, corespund timpului scurs între includerea


unui subiect într-un studiu şi apariţia unui eveniment predefinit al studiului
(exemplu: deces, matastază, complicaţie, semn, simptom). Aceste variabile
intervin în anumite studii medicale şi sunt tot variabile de tip cantitativ.

b. Variabilele calitative sunt asociate unor caracteristici care nu se


exprimă în unităţi de măsură. Sunt nemăsurabile, finite, iar calculul mediei
valorilor ei nu are sens.
De exemplu, dacă unitatea de observare este bolnavul, lui i se pot
constata unele însuşiri nemăsurabile, ca starea prezentă din punct de
vedere al gravităţii afecţiunii medicale, culoarea tegumentelor, sexul etc.
Este importantă definirea numărului şi tipurilor de clase pentru aceste
variabile adică a numărului de valori pe care le poate lua.
Variabilele calitative pot fi:
• Nominale – grupează subiecţii în categorii ce nu pot fi ordonate (exemplu:
culoarea ochilor)

70
• Nominale ordonate – subiecţii sunt grupabili în categorii ce pot fi ordonate
(exemplu starea de sănătate= precară, bună, foarte bună)
• Dichotomiale – subiecţii sunt întotdeauna grupaţi doar în două categorii
(exemplu: vii / morţi, masculin / feminin)
2.5 Varianta este valoarea concretă sub care se înregistrează o variabilă. De
exmplu, variabila glicemie s-a înregistrat sub valoarea de 120 mg, într-un caz
studiat. Aceasta una dintre variantele sub care se poate înregistra caracteristica
respectivă (glicemia).

2.6. Frecvenţa este numărul de repetiţii sub care se înregistrează aceeaşi


variantă. De exemplu, varianta 120 mg a fost înregistrată la zece pacienţi dintr-o
colectivitate, atunci frecvenţa este zece pentru varianta respectivă a variabilei
glicemie.

2.7. Seria statistică (sau repartiţia statistică) este şirul de valori numerice ale
unei variabile, ordonate după un anumit criteriu, în funcţie de şirul valorilor
altei caracteristici, reprezentând corespondenţa dintre două şiruri de date.
Repartiţia statistică este caracterizată de legea de repartiţie.
După numărul de variabile luate în considerare simultan seriile statistice
pot fi:
• Univariate, dacă se referă la o singură variabilă,
• Bivariate, dacă de referă la două variabile,
• Multivariate, dacă se referă la mai mult de două variabile.
Dacă seriile se referă doar la variabile cantitative continue, atunci ele se
mai numesc unidimensionale, bidimensionale sau multidimensionale în funcţie
de numărul de variabile implicate.

2.8. Parametrul statistic este valoarea reprezentativă, dedusă dintr-un calcul


numeric aplicat unei repartiţii statistice (adică din legea de repartiţie). De
exemplu, media, dispersia, frecvenţa unui caracter etc.

2.9. Indicatorul statistic este mărimea statistică, cu ajutorul căruia se poate


caracteriza un fenomen- în cazul nostru, un fenomen bio sau socio-medical –
sub raportul structurilor interdependenţelor ori modificărilor în timp sau spaţiu.

2.10. Indicele statistic este valoarea numerică relativă ce rezultă din


compararea valorilor unui indicator statistic, fie la diferite momente de timp fie

71
în spaţii diferite, fie pentru categorii diferite constituite în raport cu o
caracteristică oarecare.

3. CULEGEREA DATELOR

Biostatistica de ocupă de culegerea, clasificarea, descrierea, analiza,


interpretarea şi prezentarea datelor observate sau calculate în prealabil.
Culegerea datelor presupune că în prealabil au fost parcurse succesiv
următoarele etape:
- Stabilirea scopului cercetării,
- Determinarea ipotezei de lucru,
- Documentarea bibliografică şi în teren,
- Delimitarea colectivităţii de studiat şi a volumului ei,
- Alegerea locului şi perioadei desfăşurării acţiunii,
- Stabilirea caracteristicilor principale care vor fi înregistrate,
- Fixarea tehnicilor de lucru,
- Proiectarea documentelor (formularelor) purtătoare de
informaţie,
- Testarea documentelor (formularelor) de lucru.
(după D. Enăchescu - Medicină socială, Elemente de biostatistică).

Datele care rezultă din observarea fenomenelor sunt înscrise în anumite


documente purtătoare de informaţii (de exemplu, foile de observaţie, buletine de
analiză, fişe speciale de cercetare etc.) şi apoi sunt centralizate.
În cazul caracteristicilor calitative, datele sunt centralizate în tabele
centralizatoare, iar în cazul celor cantitative se formează serii de variaţie.

3.1. Seria de variaţie sau distribuţia de frecvenţă

Centralizarea caracteristicilor cantitative este însoţită, de obicei, şi de


ordonarea datelor. Variantele sub care se înregistrează caracteristica sunt
dispuse în sens crescător, alăturat se notează frecvenţa lor de apariţie. Se
alcătuieşte astfel o serie de variaţie simplă sau o distribuţie de frecvenţă.

O distribuţie de frecvenţă se obţine prin observarea frecvenţei de apariţie


a unui eveniment.

Seriile de variaţie pot fi:

72
• Serii de variaţie simple
• Serii de variaţie cu clase

• Serii de variaţie simple

Exemplu:

Tabel I. Vârsta persoanelor dintr-un lot supus cercetării

Variabila* Frecvenţa
Xi fi
0 8
1 12
2 11
3 13
4 14
5 21
. .
. .
95 2
96 0
97 0
98 0
99 1
∑ fi =1.000

* Vârsta se exprimă în ani împliniţi:


- o persoană de 11 luni şi 28 zile va fi considerată de 0 ani
- o persoană de 9 ani, 11 luni şi 29 zile va fi considerată de 9 ani,
etc.

• Serii de variaţie cu clase

Pentru seriile de variaţie foarte lungi care pentru unele valori au frecvenţa
nulă, se preferă alcătuirea unei grupări în subdiviziuni ale domeniului de
variaţie al caracteristicii observate (clasă, grupă, categorie). În această situaţie
prezentarea informaţiilor se face printr-o serie de variaţie cu clase. Se

73
recomandă crearea unor clase egale ca mărime, cu intervalele externe închise.
Limitele de clasă, inferioară şi superioară, nu trebuie să se suprapună.
De exemplu 0-4 ani, 5-9 ani, 10-14 ani etc.….. şi nu 0-5 ani, 5-10 ani, 10-
15 ani etc.

Exemplu:

Tabel II. Vârsta persoanelor dintr-un lot supus cercetării

Clasa Centrul clasei xi' Frecvenţa fi


0-4 2,5 58
5-9 7,5 32
10-14 12,5 48
15-19 17,5 36
20-24 22,5 40
25-29 27,5 58
30-34 32,5 67
35-39 37,5 73
40-44 42,5 80
45-49 47,5 84
50-54 52,5 85
55-59 57,5 83
60-64 62,5 75
65-69 67,5 67
70-74 72,5 64
75-79 77,5 32
80-84 82,5 6
85-89 87,5 7
90-94 92,5 5
95-99 97,5 3
- - ∑ fi =1.000

Mărimea clasei (a intervalului de grupare) se poate aproxima, pentru


seriile de variaţie cu clase egale, cu ajutorul formulei lui H.A.Sturges:

x max - x min
i = 
1 + 3.322 ⋅ log n

74
unde: I – mărimea intervalului
x max - x min – valoarea maximă – valoarea minimă
k
n – numărul cazurilor ( ∑ fi )
i=1
În cazul seriilor de variaţie cu clase (toate clasele sunt considerate egale),
pentru efectuarea prelucrărilor statistice este necesar a se calcula centrul clasei
(valoarea centrală a intervalului) care se notează cu Xi' .
Centrul clasei se determină diferit, în funcţie de caracterul variabilei.
Pentru variabilele cantitative continue, centrul clasei este egal cu
semisuma valorii minime a clasei respective şi a valorii minime a clasei
următoare.
Pentru variabilele cantitative discontinue, centrul clasei este egal cu
semisuma valorilor extreme ale clasei. Nu este obligatoriu ca centrul clasei să
fie o valoare întreagă.
Pentru variabilele cantitative continue, cu mai multe valori (peste 10) se
observă că o mare parte dintre observaţii se concentrează în jurul unei valori
centrale.
Această concentrare este denumită tendinţa centrală a distribuţiei de
frecvenţă.

75
4.INDICATORI AI TENDINŢEI CENTRALE
ŞI DE DISPERSIE, PENTRU CARACTERISTICI CANTITATIVE

4.1. INDICATORI AI TENDINŢEI CENTRALE PENTRU


CARACTERISTICI CANTITATIVE

Indicatorii de tendinţă centrală ai unei serii de variaţie aduc informaţii


considerate tipice pentru acestea, prin faptul că valorile variabilei (variantele) se
distribuie în jurul lor.

Principalii indicatori de tendinţă centrală sunt:


 media,
 mediana,
 modul.

4.1.1. Media
_
4.1.1.1. Media aritmetică ( x )
Media aritmetică este o măsură a valorii centrale a setului de date în jurul
căreia fluctuează datele setului. Media nu dă nici o indicaţie asupra gradului de
fluctuaţie (de abatere) de la medie, adică asupra a ceea ce se numeşte frecvent
dispersia datelor.
Media aritmetică a seriei de date asociate unui eşantion x1 , x2 , ….., xn,
este raportul dintre suma acestora şi numărul lor:
n
∑ xi
i=1 x1 + x2 + …..+ xn
x = = 
n n
unde:
x – media aritmetică,
n
∑ xi suma valorilor seriei de date (a variabilei),
i=1
n – numărul valorilor (seriei de date),
i = 1, 2,…, n

Pentru valori ordonate într-o serie de variaţie (de valori xi şi frecvenţe fi ),


media aritmetică se poate calcula cu ajutorul formulei:

76
∑ xi⋅ fi x1 f1 + x2 f2 + + xk f k
x = = 
∑ fi f1 + f2 + …..+ fk
unde:
x – media aritmetică ponderată,
k
∑ xi⋅ fi - suma produsului dintre valorile variabilei şi frecvenţa lor în
i=1 serie,
k
∑ fi - numărul valorilor, exprimat ca sumă a frecvenţelor.
i=1

Exemplu:
Durata unei boli exprimată în zile, pentru zece determinări poate fi:
4,5,3,5,6,6,10,4,5,5. Durata medie (media aritmetică) a bolii va fi de 5,3 zile:

4+5+3+5+6+6+10+4+5+5 53
x = = = 5,3 zile
10 10
Calculând durata medie cu ajutorul celei de a doua formule vom avea:
_ 3+4+4+5+5+5+5+6+6+10
x = 
10

_ 3⋅ 1+4⋅ 2+5⋅ 4+6⋅ 2+10⋅ 1 53


x = == 5,3 zile
10 10

Media aritmetică poate fi definită şi ca valoarea faţă de care suma


abaterilor variantelor din seria de variaţie este nulă. Această proprietate a mediei
se poate folosi şi ca metodă de verificare a corectitudinii calculelor.

Deci, trebuie îndeplinită condiţia:

k
∑ ( xi - x ) ⋅ fi = 0
i=1

unde:
xi - valorile variabilei,
x – media aritmetică,

77
fi – frecvenţa; i= 1, 2,……, k.

Calculul mediei pentru seriile de variaţie cu clase se face în acelaşi mod,


folosindu-se valorile centrului claselor intervalului:

k
∑ x′ i ⋅ fi
i=1 unde: x′ i = centrul clasei
x = 
∑ fi
Proprietăţi ale mediei aritmetice:

1. Orice valoare a seriei este luată în considerare în calculul mediei.


Această proprietate nu este adevărată pentru toate măsurile de
centralitate (de exemplu valoarea centrală).
2. Valorile centrale pot influenţa media distrugându-i
reprezentativitatea.
3. Media aritmetică se situează printre valorile seriei de date.
4. Suma diferenţelor dintre valorile individuale din serie şi medie este
zero:
n
∑ (xi -x) = 0
i=1
5. Schimbarea originii scalei de măsurare a variabilei x din care
provine seria de date are influenţă asupra mediei. Fie x″ =x + c, unde
c este o constantă. Atunci, xi″ =xi + c, iar media devine:
x″ =x + c
Transformarea scalei de măsură a variabilei x influenţează media
aritmetică. Astfel, dacă x″ = h x, h fiind o constantă reală, xi″ = h
xi, şi rezultă uşor că:

x″ = hx

Includerea valorilor extreme în calculul mediei denaturează valoarea


acesteia. În cazul în care pentru medie se doreşte o valoare
reprezentativă, se poate calcula o medie aritmetică modificată prin
excluderea valorilor extreme.
Pentru calculul mediei aritmetice modificate, prin decizia analistului, se
elimină un număr egal de valori de la capetele distribuţiei, media calculându-se
cu valorile rămase.

78
Astfel, se practică în mod obişnuit determinarea unei medii modificate
prin eliminarea a 5% dintre valorile extreme (cum este cazul în programul
statistic SPSS).

4.1.1.2. Media aritmetică ponderată (μx)


Media aritmetică ponderată se calculează după formula următoare în care
fiecare valoare xi este înmulţită cu o pondere wi nenegativă, care indică
importanţa valorii respective în raport cu celelalte valori.

∑ wi ⋅ xi
μx = 
∑ wi

4.1.2. Mediana (Me)

Mediana este alt indicator de tendinţă centrală.


Ea se defineşte ca fiind valoarea care împarte şirul ordonat de valori în
două părţi egale, situându-se la mijlocul seriei de variaţie, astfel încât jumătate
dintre valori îi sunt inferioare (sau egale) şi cealaltă jumătate îi sunt superioare
(sau egale). Se disting două situaţii:

1. Pentru serii cu număr impar de valori (2k +1), mediana este valoarea
de rang k+1.
2. Pentru serii cu număr par de valori (2k), mediana se află între valorile
de rang k şi k+1, convenindu-se a fi reprezentată de media aritmetică a
celor două valori.

Exemplu:
Caracteristicile lungimii la naştere sunt: 48, 49, 50, 52, 54 cm. Se observă
că valoarea 50 este mediana. Ea a împărţit şirul de valori astfel încât numărul
valorilor mai mici decât ea însăşi să fie egal cu numărul valorilor mai mari, în
exemplu existând valorile inferioare 48, 49 şi valorile superioare 52, 54.
În cazul seriilor cu număr impar de valori mediana este o valoare
observată (ca în exemplu dat). În cazul seriilor cu număr par mediana este o
valoare calculată.
Exemplu:
Fie seria 48, 49, 50, 51.
În acest caz mediana trebuie plasată între valorile 49 şi 50, atribuindu-i-se
valoarea 49,5, rezultat al semisumei celor două valori delimitatoare
49 + 50
( = 49,5 )
2

79
Referitor la aceste exemple se poate spune că mediana a avut poziţia sau
rangul 3 pentru primul exemplu şi respectiv, rangul 2,5 în cazul celui de-al
doilea exemplu. Apare evident că determinarea medianei este legată de ordinea
variantelor, motiv pentru care ea poate fi numită şi medie de poziţie.
Rangul medianei se poate calcula cu formula:
∑ fi + 1
Rg = 
2
În cazul în care observaţiile sunt grupate în clase de frecvenţă, clasa
mediană este cea care conţine mediana. Ca şi la medie, în cazul seriilor de
variaţie cu clase, se introduce o eroare în determinarea medianei.
Proprietăţi ale medianei:
1. Mediana nu este afectată de valorile extreme ale seriei de date, chiar dacă ele
sunt mult diferite de celelalte, având un caracter “aberant”.
2. Valoarea obţinută pentru mediană poate să fie nereprezentativă pentru
distribuţia seriei de valori dacă acestea nu se grupează înspre valoarea
centrală.
Comparativ cu media, mediana ca indicator are o capacitate mai mică în
estimarea populaţiei de origine printr-un eşantion. Din acest motiv în analiza
statistică va fi folosită mai mult media decât mediana.

4.1.3. Modul (Mo)


Modul (sau valoarea modală) este definit ca fiind valoarea cu numărul cel
mai mare de apariţii, deci cu frecvenţa cea mai mare.
Modul este o valoare observată şi nu una calculată, ca în cazul mediei şi a
medianei.
Stabilirea modului este simplă: se caută frecvenţa cea mai mare şi se
citeşte valoarea corespunzătoare variabilei (varianta) acestei frecvenţe.
Dacă seria de variaţie este sub formă de clase, modul corespunde
centrului clasei de frecvenţă maximă.
Se vorbeşte de:
 distribuţie de frecvenţe unimodală dacă tabela de frecvenţe are un
singur maxim
 distribuţie de frecvenţe multimodală dacă are mai multe maxime
(ex. bimodale dacă are două valori maxime ale frecvenţelor
corespunzând a două valori diferite ale variabilei).
Pentru seriile unimodale, K.Pearson a stabilit că valoarea apropiată a
modului, poate avea expresia:

Mo = x + 3 (Me - x )

80
Din punct de vedere grafic modul reprezintă abscisa căreia îi corespunde
ordonata maximă.
Modul poate oferi indicaţii asupra omogenităţii seriei de variaţie.

Exemplu: Determinări ale uricemiei la 100 de pacienţi

xi fi xi fi
33 1 33
38 5 190
43 10 430
48 27 1296
53 25 1325
58 11 638
63 8 504
68 7 476
73 3 219
78 1 78
83 1 83
88 1 88
- 100 5360

∑ xi⋅ fi 5360
x = = = 53,60 ⇒ Media
∑ fi 100 aritmetică este 53,60.

∑ fi + 1 101
Rg Me = = = 50,5 ⇒ Rangul
2 2 medianei este 50,5.

x50 = 53, x51 = 53

x50 + x51 53 + 53
Me = = = 53 ⇒ Mediana este
2 2 53.

Mo = 48 (corespunde frecvenţei cea mai mare 27) ⇒ Modul este 48.

81
4.2. INDICATORI DE DISPERSIE PENTRU CARACTERISTICI
CANTITATIVE

“Variabilitatea” este proprietatea caracteristică a tuturor fenomenelor


biologice şi medicale. Ea determină împrăştierea, sau dispersia indicatorilor de
tendinţă centrală în caracterizarea seriei de variaţie şi se bazează pe noţiunea de
abatere. În condiţiile unei dispersii mari, indicatorii de tendinţă centrală nu sunt
suficienţi pentru a caracteriza seria de variaţie.
Indicatorii de dispersie oferă oferă informaţii asupra extinderii
împrăştierii datelor, sau a gradului de aglomerare (îngrămădire sau apropiere).
Indicatorii de dispersie sunt utili în stabilirea reprezentativităţii
indicatorilor centrali. Semnificaţia unei medii ca şi valoare reprezentativă pentru
un set de date depinde de gradul de dispersie a valorilor individuale în jurul ei.
Indicatorii de dispersie joacă un rol important în estimarea parametrilor
statistici şi în inferenţa statistică.
Principalii indicatori de dispersie sunt:
 amplitudinea absolută şi relativă,
 varianţa,
 abaterea (deviaţia) standard,
 coeficientul de variaţie.

4.2.1.Amplitudinea
Amplitudinea absolută (A) reprezintă diferenţa dintre valoarea maximă şi
valoarea minimă din serie.

A = x maxim – x minim

Unde: A – amplitudinea absolută,


x maxim - valoarea maximă,
x minim - valoarea minimă.

Pentru seriile de variaţie cu clase, amplitudinea se calculează ca diferenţa


dintre limita superioară a clasei cu valorile cele mai mari şi limita inferioară a
clasei cu valorile cele mai mici. În acest caz se produce o oarecare
supradimensionare a amplitudinei.
Amplitudinea absolută păstrează unitatea de măsură a variabilei.
Dezavantajul major al amplitudinii ca măsură de dispersie este că se
bazează doar pe valorile extreme ale seriei. Ea nu oferă nici o informaţie despre
aglomerarea datelor distribuite între extreme, nu ţine seama de valorile
intermediare ale seriei şi nici de frecvenţa lor de apariţie.

82
Exemplu:
Fie seriile de variaţie pentru dimensiunile unor celule (µ ):

Seria 1 Seria 2 Seria 3


7 113 23
5 120 25
8 121 31
3 116 33
9 119 29
13 123 27
6 114 30
11 118 32

A1 = 13-3=10 A2= 123 – 113 = 10 A3 = 33 – 23 = 10

Se observă că deşi ordinul de mărime al caracteristicii este diferit,


amplitudinea celor 3 serii este egală.
Pentru a elimina influenţa ordinului de mărime, se calculează
amplitudinea relativă (A%) după formula:

A
A% = ⋅ 100
x

unde:
A% - amplitudinea relativă
A – amplitudinea absolută
x – media aritmetică a seriei

Amplitudinea relativă este utilă la compararea dispersiei a două


caracteristici exprimate în unităţi de măsură diferite.
Indicatorii de amplitudine relativă sunt comparabili, ei fiind abstracţi.

4.2.2. Varianţa (dispersia)


Varianţa reprezintă cel mai utilizat mod de exprimare al dispersiei datelor
în jurul mediei aritmetice.
Varianţa (sx2) este un indicator de împrăştiere care ţine cont de frecvenţa
de apariţie a valorilor din serie. Varianţa este media aritmetică a pătratului
abaterilor dintre valorile observate şi media lor.

83
Formula varianţei este:
k
∑ ( xi - x )2 ⋅ fi
i=1 (x1 - x)2⋅ f1 +…+ (xk - x)2⋅ fk
sx2 = = 
k f1 + f2+ …+ fk
∑ fi
i=1
unde:
sx2 – variaţia variabilei x
xi - valorile din şir (variabile x)
x – media aritmetică a şirului
fi - frecvenţa

În cazul seriilor de valori cu frecvenţe egale, varianţa se calculează mai


simplu, cu formula:

n n
∑ ( xi - x ) 2
∑ ( xi - x )2
i=1 i=1
sx = = 
2

n n
∑ fi
i=1
În cazul eşantioanelor mici, adică pentru un număr mic de observaţii (n≤
30), se utilizează formula următoare, care reduce eroarea de calcul:
n
∑ ( xi - x )2
i=1
sx = 
2

n–1
Avantajul excepţional pe care îl prezintă varianţa faţă de ceilalţi indicatori
de dispersie îl reprezintă faptul că varianţa unui eşantion permite o bună
estimare a varianţei populaţiei.
Limitele interpretative ale varianţei provin din faptul că valorile extreme
ale seriei intervin puternic asupra mărimii indicatorului datorită abaterilor lor
mari faţă de medie. Aceste abateri devin şi mai mari prin ridicarea la pătrat,
impusă de formula de calcul.
Varianţa se exprimă prin pătratul unităţii de măsură a variabilei (cm2,
grame2, zile2, etc.).

84
Varianţa nu permite compararea dispersiilor fenomenelor măsurate prin
unităţi diferite sau de alt ordin de măsură, ca şi în cazul amplitudinii.
Pentru depăşirea acestor limite, se pot folosi ca indicatori abaterea
standard şi mai ales coeficientul de variaţie.

4.2.3. Abaterea standard


Abaterea standard (deviaţia standard sau ecartul tip S) reprezintă rădăcina
pătrată a varianţei:

sx = ± √ sx2

Abaterea standard prezintă avantajul de a permite exprimarea dispersiei


în aceeaşi unitate de măsură ca şi a caracteristicii. Acest fapt este şi un
inconvenient pentru că indicatorul nu poate fi folosit la compararea dispersiei,
pentru două fenomene exprimate prin caracteristici cu unităţi de măsură diferite.
Existenţa atât a valorilor pozitive cât şi a valorilor negative este
justificată, deoarece indicatorul exprimă media abaterilor varianţelor faţă de
media aritmetică a şirului, aceste abateri fiind atât pozitive cât şi negative.
Din punct de vedere geometric abaterea standard sau ecartul tip poate fi
interpretat ca o “distanţă euclidiană” a seriei la media ei aritmetică.

4.2.4.Coeficientul de variaţie (CV %)


Coeficientul de variaţie este o măsură relativă a dispersiei datelor.
Coeficientul de variaţie se calculează ca un raport procentual între
abaterea standard şi valoarea medie a şirului.
sx
CV% = ⋅ 100
x

Valoarea coeficientului de variaţie nu are unitate de măsură. Aceasta a


dispărut prin raportarea abaterii la medie. Datorită acestui fapt indicatorul poate
fi folosit la compararea a două sau mai multe serii de variaţie, indiferent de
ordinul de mărime al variabilelor şi de unităţile de măsură folosite.
În utilizarea coeficientului de variaţie la studiul omogenităţii unor
populaţii se pot utiliza următoarele reguli empirice (Dragomirescu L.):
 dacă CV este sub 10 % atunci populaţia poate fi considerată
omogenă,
 dacă CV este între 10 % – 20 % atunci populaţia poate fi
considerată relativ omogenă,

85
 dacă CV este între 20 % - 30 % atunci populaţia poate fi
considerată relativ eterogenă,
 dacă CV este peste 30 % atunci populaţia poate fi considerată
eterogenă.

4.2.5. Eroarea standard (ES)


Eroarea standard (ES) este indicatorul de dispersie a datelor utilizat în
inferenţa statistică. Se calculează după formula:

sx
ES = 
√n

unde:
sx – abaterea standard
n – numărul valorilor seriei date.

Eroarea standard intervine în estimarea statistică în determinarea


intervalelor de încredere pentru medie.

86
5. INDICATORI AI TENDINŢEI CENTRALE ŞI DE DISPERSIE
PENTRU CARACTERISTICI CALITATIVE

5.1. INDICATORI DE TENDINŢĂ CENTRALĂ PENTRU


CARACTERISTICI CALITATIVE

5.1.1. Proporţia

Proporţia este indicatorul de tendinţă centrală pentru caracteristici


calitative şi se notează de cele mai multe ori cu simbolurile p şi q.
Proporţia este definită ca raportul dintre numărul cazurilor în care o
variantă a caracteristicei a fost constantă şi numărul total de evenimente.

m
p = 
n

unde:
p = proporţia caracteristicii,
m = numărul de cazuri în care a fost constatată caracteristica,
n = numărul de evenimente observate

Pentru caracteristicile calitative nealternative, însuşirea studiată poate


îmbrăca mai mult decât două forme.
Formula generală de calcul a proporţiei pentru caracteristicile calitative
nealternative este:

mi
p i = 
n

cu condiţia ca: Σ pi = 1; i = 1, …, k.
unde: pi = proporţia pentru o proprietate (stare) posibilă a caracteristicii
mi = numărul cazurilor cu o proprietate (stare) prezentă
n = numărul total de cazuri observate.

87
5.2. INDICATORI DE ÎMPRĂŞTIERE PENTRU CARACTERISTICI
CALITATIVE

5.2.1. Varianţa (dispersia)


Varianţa pentru caracteristicile calitative se poate calcula în analogie cu
cea pentru caracterisiticile cantitative după formula:
sp2 = p (1 - p) = p q
unde:
sp2 = varianţa
q=1–p
p = proporţia unei stări posibile a caracteristicii calitative

Pentru caracteristici calitative nealternative se pot calcula tot atâţia


indicatori de varianţă câte stări sunt posibile. Atfel:
sk2 = pk (1 – pk)

5.2.2. Abaterea standard (s)


Este rezultatul extragerii rădăcinii pătrate din varianţă, ca şi la
caracteristicile cantitative:

sp = ± √ p (1 - p)

88
6. INDICATORI DE LOCALIZARE SAU DE AMPLASARE

Ca indicatori de localizare sau de amplasare se utilizează cuantilele.


Cuantilele sunt valori ale variabilei care împart seria statistică ordonată în n
părţi, cuprinzând acelaşi efectiv, egal cu 1/n din efectivul total.
Dacă n ia următoarele valori, cuantilele pot fi:
- pentru n = 4, cvartile;
- pentru n = 10, decile;
- pentru n = 100, centile.

Cvartilele împart seria de valori observate în patru părţi de frecvenţe egale cu


¼. Se notează Q1, Q2, Q3.
Astfel prima cvartilă sau cvartila de 25 % este o valoare cu proprietatea ca
25 % dintre datele seriei sunt mai mici sau egale cu ea iar 75 % mai mari sau
egale cu prima cvartilă.
A doua cvartilă sau cvartila de 50 % este reprezentată de mediană.
A treia cvartilă sau cvartila de 75 % este o valoare având proprietatea ca 75
% dintre datele seriei sunt mai mici sau egale cu ea iar 25 % mai mari sau egale
cu a treia cvartilă.
Decilele, în număr de nouă, împart seria de valori în intervale conţinând
fiecare 10 % din observaţii. A cincea dintre ele se confundă cu mediana. Se
notează D1,….., D9.
Centilele, în număr de 99, separă seria de variaţie în o sută de intervale
egale, conţinând fiecare 1 % din observaţii. A cincizecea dintre ele se confundă
cu mediana.

6.1. Momente
Momentele sunt indici utilizaţi în evaluarea unor caracteristici ale unei
repartiţii de frecvenţă.
Momentul de ordin 1 se calculează după formula:

Σ x′ ⋅ fi
M1 = 
n

unde: x′ = xi - x = deviaţia de la medie


fi = frecvenţa valorilor variabilei
n = numărul valorilor seriei

Σ (x′ )2 ⋅ fi
M2 = 

89
n
unde: x′ = xi - x = deviaţia de la medie
fi = frecvenţa valorilor variabilei
n = numărul valorilor seriei

Mai frecvent utilizate în practică sunt momentele de ordinul 1 până la


ordinul 4, clasate în două categorii:

-momente simple (notate cu “M”) ce se calculează faţă de origine (x = 0):

Σ xi ⋅ fi Σ (xi⋅ )3 fi
M1 =  M3 =  Σ fi
Σ fi
Σ (xi) ⋅ fi
2
Σ (xi)4 ⋅ fi
M2 =  M4 = 
Σ fi Σ fi
-momente centrate (notate cu “µ ”) ce se calculează faţă de media
aritmetică:

Σ fi (xi - x) Σ fi (xi - x)3


µ 1 = = 0 µ 3= 
Σ fi Σ fi

Σ fi (xi - x)2 Σ fi (xi- x)4


µ 2 =  µ 4= 
Σ fi Σ fi

unde: xi - x = deviaţia de la medie


x = media aritmetică
fi = frecvenţa valorilor variabilei
Σ fi = n = numărul valorilor seriei

Aşa cum se observă din formulă, momentul simplu de ordinul 1 (M1)


corespunde mediei aritmetice, iar momentul centrat de ordinul 1 (µ 1) este egal
cu zero, pentru că suma deviaţiilor de la media aritmetică este egală cu zero.
Momentul centrat de ordinul 2 (µ 2) corespunde variaţiei şi intră în
calculul abaterii standard.

90
6.2. Asimetria (skewness)
Repartiţiile de frecvenţă a valorilor pe care le poate lua în timp şi spaţiu
pot fi simetrice, în cazul în care aceste valori sunt egal dispersate de o parte sau
alta a mediei aritmetice. Asimetria se măreşte concomitent cu diferenţa dintre
medie şi modul.
Măsura de asimetrie (sau skewness) indică pentru o repartiţie de frecvenţă
(serie sau distribuţie de date) abaterea de la aspectul simetric şi direcţia
asimetriei (pozitivă sau negativă).
Pentru măsura asimetriei este folosit momentul de ordinul trei al abaterii
de la medie:

Σ fi (xi - x)3 Σ fi (xi - x)3


µ 3 = = 
Σ fi n

Momentul de ordinul 3 prezintă dezavantaje:


-Compararea cu dificultate a ordinelor de mărime a asimetriei
pentru două distribuţii deoarece acest moment se exprimă cu ajutorul unităţilor
de măsură ale datelor;
-Ordinul de mărime al momentului trei creşte odată cu variaţia ceea
ce creează probleme în legătură cu variaţia unei distribuţii date pentru două
distribuţii având aceeaşi formă.
Aceste dezavantaje au fost eliminate prin standardizarea momentului de
ordin trei, realizată prin împărţirea la cubul abaterii standard:

µ 3
α 3 = 
sx3

6.3. Boltirea (kurtosis)


Excesul sau boltirea (kurtosis) este o măsură a unei forme sau distribuţii
de date, care măsoară înălţimea aplatizării/ boltirii unei distribuţii în comparaţie
cu o distribuţie normală. Se calculează prin formula:
1/n ⋅ Σ fi (xi - x)4
α 4 = −3
sx4
Excesul α 4 este zero pentru o serie de date având o distribuţie normală,
este pozitiv pentru o serie de date având trena mai înaltă decât cea a unei
distribuţii normale şi este negativ pentru o serie de date a cărei trenă este mai

91
coborâtă decât cea a unei distribuţii normale (respectiv trena se apropie mai
încet (α 4 > 0) sau mai rapid (α 4 < 0) de zero decât cea a distribuţiei normale).

92
“Pământul are loc pentru toţi”
Schiller

93
94
ELEMENTE DE TEORIA PROBABILITĂŢILOR

1. Definiţie
Probabilitatea unui eveniment este proporţia (fracţiunea) din toate
evenimentele posibile ale evenimentului specificat într-o succesiune aproape
nelimitată a probelor în condiţii similare. Aceasta înseamnă că fiecărui
eveniment A legat de un anumit “experiment probabilist”, “aleator” (orice
acţiune care în împrejurări identice poate fi repetată, dar a căror rezultate nu pot
fi prevăzute cu exactitate) i se poate asocia un număr P(A) numit probabilitatea
de producere a evenimentului, iar P se numeşte funcţie de probabilitate.

numărul cazurilor favorabile m


Pr (A) = = 
numărul total de cazuri posibile n

În orice experiment aleator, ca o măsură a “şansei”, sau probabilităţii cu


care ne putem aştepta la producerea unui eveniment oarecare, acesta poate lua
valoarea zero (eveniment imposibil) sau valoarea unu (eveniment cert, sigur).
La un număr mai mare de experimente media evenimentelor poate lua
orice valoare între zero şi unu.
Tipuri de evenimente:
1. Evenimentul sigur se produce cu certitudine la efectuarea
experimentului probabilist şi se notează cu litera S. De exemplu la
extragerea bilelor dintr-o urnă se poate extrage sau o bilă albă sau o
bilă neagră. În ambele cazuri vorbim de evenimente sigure, noţiunea
fiind similară cu cea de “spaţiu de evenimente elementare” al
experimentului probabilist (mulţime de elemente structurate atfel încât
orice eveniment rezultat în urma experienţei corespunde unui singur
element).
2. Evenimentul imposibil nu se poate produce la nici o efectuare a
evenimentului şi se notează cu φ egal cu zero (Pφ = 0). În cazul
exemplului anterior nu se poate extrage din urnă o bilă de o altă
culoare în afară de cea albă sau neagră, un alt eveniment fiind deci
imposibil.
3. Evenimente contrare (complementare). Prin contrarul unui
eveniment A se înţelege un eveniment care se realizează ori de câte ori
nu se realizează A. Evenimentul contrar se notează non A, A sau CA.
4. Evenimente compatibile sunt acele evenimente care se pot produce
simultan. Dacă notăm cu A feţele paralele ale unui zar (2, 4, 6) şi cu B
doar faţa 2, în cazul în care se obţine evenimentul (faţa 2) în acelaţi
timp s-a produs şi evenimentul A (faţa cu număr par).

95
5. Evenimente incompatibile (disjuncte sau mutual exclusive) sunt
cele care nu se pot produce simultan. Dacă notăm cu A feţele pare ale
unui zar şi cu B feţele impare, evenimentele A şi B sunt incompatibile,
ele nu se pot obţine concomitent.
Pr (A sau B) = Pr (A) + Pr (B) sau Pr (A) = 1 – Pr (B)
6. Eveniment implicat de alt eveniment se numeşte în cazul în care un
eveniment, de exemplu B are loc ori de câte ori apare evenimentul A.

Reuniunea a două evenimente A şi B, notată cu A ∪ B este evenimentul a


cărui producere constă în apariţia a cel puţin unul din cele două evenimente A
sau B.
Intersecţia evenimentelor A şi B, notată A ∩ B constă în producerea
concomitentă a celor două evenimente A şi B.
Evenimentele A, B sunt independente dacă: Pr (A şi B) = Pr (A) ⋅ Pr (B).
Prin independenţă se înţelege că realizarea sau nerealizarea evenimentului A sau
B nu modifică probabilitatea de realizare sau nerealizare a celuilalt eveniment.

2. Distribuţii de probabilitate
Tipurile clasice de distribuţii de probabilitate sunt:
• Distribuţia normală descrisă de Laplace şi Gauss
• Distribuţia binominală
• Distribuţia denumită “Legea numerelor mici” a lui Poisson
• Distribuţia Student (t)
• Distribuţia χ 2 a lui Pearson
• Distribuţia F a lui Fisher.

2.a). Distribuţia normală (Gauss-Laplace)


Distribuţia normală (distribuţia gaussiană)este simetrică în jurul valorii
centrale, media aritmetică, mediana şi modul fiind egale, situate în origine. În
punctul x=0 ordonata va avea valoarea maximă. Dacă se cunosc media şi
deviaţia standard, curba se poate descrie perfect.
Curba are o alura tipică de clopot, cu două cozi simetrice, continue şi
poate, teoretic, să varieze între −∞ şi +∞.
Este numită curbă normală sau curba lui Gauss. Ea poate constitui un
model pentru multe variabile aleatoare continue cum ar fi: concentraţiile de
substanţe, erorile de măsurare în biologie, medicină, fizică, economie, etc.
Aşa cum am spus anterior distribuţia normală depinde de media µ şi de
abaterea standard σ şi are densitatea de probabilitate următoare:
Aşa cum am spus anterior distribuţia normală depinde de media µ şi de
abaterea standard σ şi are densitatea de probabilitate următoare:

96
1 (x − µ ) 2
−  ⋅ 
1 2 σ 2

f(x) =  ⋅ e pentru −∞ < x < +∞


_____
σ√ 2 π

unde: f(x) = probabilitate obţinerii unei distribuţii normale


x = variabila
µ = valoarea medie
σ = abaterea (deviaţia) standard

12
10
8
6
4
2
0
1 3 5 7 9 11 13 15 17 19

Distribuţie normală

Pentru fiecare pereche de parametrii (µ ,σ ) există câte o lege de


distribuţie normală, deci va exista o gamă infinită de legi normale.
Toate aceste distribuţii normale se pot reduce la una singură, având media
0 şi abaterea standard 1, cu ajutorul unei schimbări de variabilă:

X-µ
Z = 
σ

97
Aceasta este legea normală redusă cu densitate de probabilitate:

1
−x 2
1 2
f(x) =  ⋅ e
_____
√2π

Acestei legi de probabilitate îi sunt asociate un număr de tabele care


permit utilizarea practică a ei. Unul dintre aceste tabele este Tabelul p(µ ) care
conţine pentru fiecare valoare µ probabilitatea ca variabila Z să fie în exteriorul
intervalului [ -µ , µ ]. Alt tabel asociat legii este Tabelul abaterii standard.
Au loc relaţiile:

p(µ ) = Pr (Z < -µ sau Z > µ )

Pr (-µ ≤ Z ≤ µ ) = 1 – p(µ )

Din tabelul ecartului redus p(1) = 0,32 şi deci 1 – p(1) = 0,68 iar p(1,96)
= 0,05 şi deci 1 – p(1) = 0,95

98
2.b). Distribuţia binominală sau distribuţia lui Bernoulli
Distribuţia binominală este acea distribuţie a rezultatelor unui
experiment, când acestea au numai două valori discrete şi mutual exclusive,
într-un număr cunoscut de probe. Rezultatele posibile ale fiecărei încercări
elementare sunt doar două evenimente numite de obicei succes (S) şi eşec (E).
Probabilitatea fiecăruia dintre cele două rezultate (p de succes şi q = 1 – p de
eşec) este constantă de la o încercare la alta, dar rezultatul fiecărei probe este
independent de rezultatul altei probe.
Probabilitatea pentru o distribuţie binominală este determinată prin
formula:

n!
f(x) = pxqn-x
x! (n - x) !

unde: f(x) = probabilitatea obţinerii valorii x în n probe;


p = probabilitatea unuia din cele două rezultate posibile (“un succes”)
într-o singură probă;
q = probabilitatea celuilalt rezultat posibil (“un eşec”) într-o singură
probă;
n = numărul total de probe în cadrul experimentului;
x = numărul de succese obţinute în cadrul unui experiment de n probe;
n – x = numărul de “eşecuri” obţinute în cadrul aceluiaşi experiment;
! = semnul factorial (n! = 1x2x3x….xn; 0! = 1! = 1)

Distribuţia binominală se referă la o variabilă aleatorie discretă x (=


numărul de “succese”) pentru care valoarea medie este:
µ x = np
şi dispersia se calculează după formula:
σ 2x = npq
Pentru diverse valori ale lui n şi p se obţin diverse curbe reprezentative
pentru probabilităţile f(x).
Pentru np> 10 şi nq> 10, curbele devin suficient de simetrice în jurul
valorii lui µ x şi se poate asimila distribuţia binominală cu o distribuţie normală
(gauss-Laplace).

2.c).Distribuţia denumită “Legea numerelor mici” a lui Poisson


Variabila aleatorie Poisson este o variabilă discretă care ia o infinitate
numărabilă de valori: 0, 1, 2, …, x, care reprezintă numărul de realizări într-un
interval dat de timp sau spaţiu ale unui eveniment (de exemplu frecvenţa unor

99
boli foarte rare, numărul de dezintegrări ale unei substanţe radioactive într-un
interval de timp T, etc.)
Distribuţia lui Poisson este acea distribuţie binominală a rezultatelor în
care numărul de probe este foarte mare şi probabilitatea p este foarte mică. Într-
un interval suficient de mic probabilitatea de a observa mai mult de o realizare a
evenimentului este neglijabilă în raport cu probabilitatea de a observa una
singură (nesimultaneitatea realizării a două evenimente în timp şi spaţiu).
Această variabilă aleatorie x este caracterizată de un parametru θ care
reprezintă numărul mediu teoretic aşteptat de realizări ale evenimentului în
intervalul considerat şi are următoarea lege de distribuţie:

θ x
−θ
f(x) = e 
x!

Se poate demonstra că valoarea medie şi dispersia sunt:


µ x=θ
σ 2x = θ .

Prin creşterea lui θ , se obţin curbe simetrice, astfel pentru θ ≥ 20,,


distribuţia Poisson poate fi asimilată cu o distribuţie normală.

2.d).Distribuţia Student (t)


Distribuţia t este o distribuţie aleatorie continuă, simetrică, unimodală,
care variază de la -∞ la +∞, are formă de clopot şi este mult mai “largă” decât
distribuţia normală. Din aceste motive, distribuţia ”t” este utilizată pentru
eşantioane mici.
Funcţia de probabilitate a variabilei aleatorie Student t depinde de un
singur parametru k numit numărul gradelor de libertate.
Cînd k tinde la ∞, distribuţia Student tinde către o distribuţie normală
redusă.
Această variabilă aleatorie este utilizată, în anumite condiţii, în testul de
comparaţie a mediilor numit testul Student (t) (descris în capitolul teste
statistice).

2.e).Distribuţia χ 2 a lui Pearson


Distribuţia χ 2 a lui Pearson descrie comportarea unei sume de pătrate a
unor variabile independente normal distribuite, fiecare având o medie egală cu
zero şi abatere standard egală cu 1. Astfel variabila U, definită prin egalitatea

100
U = X12 + X22 + … +Xn2 este distribuită după Pearson.
Unde: Xi2 reprezintă pătratul unei observaţii selectate aleator dintr-o
populaţienormal distribuită având media 0 şi deviaţia standard 1.

Numărul de termeni Xi2 independenţi se numeşte numărul de grade de


libertate care determină forma acestei distribuţii. Media şi dispersia sunt:
µ x=d
σ 2x =2d, unde d este numărul gradelor de libertate.

Distribuţiile Pearson având un număr mic de grade de libertate sunt


asimetrice spre dreapta, asimetria crescând o dată cu scăderea numărului de
grade de libertate. Dacă numărul de grade de liberatate creşte atunci distribuţia
asociată se apropie de una simetrică iar forma acestei distribuţii la limită tinde
spre forma unei distribuţii normale. Este legitim să se utilizeze o aproximaţie
normală cu media egală cu d şi abaterea standard √ 2d pentru o distribuţie
Pearson cu numărul de grade de libertate cel puţin egal cu 30.

2.f).Distribuţia F a lui Fisher


Distribuţia F este definită pe intervalul [ 0, +∞) şi descrie comportarea
câtului a două variabile cu distribuţie Pearson fiecare fiind împăţită prin
numărul gradelor sale de libertate.
Un membru al acestei clase de distribuţii este determinat prin numărul de
grade de libertate ale numărătorului dn şi respectiv numărul de grade de libertate
ale numitorului dm, distribuţiile F distincte fiind determinate de perechi (dn, dm)
distincte.
În general, pentru dn şi dm > 2 distribuţia F este unimodală şi pozitiv
asimetrică. Atunci când numărul gradelor de libertate creşte distribuţia F se
apropie pe domeniul său de definiţie de o distribuţie normală.
Această distribuţie este utilizată în testele de comparaţie a variaţiilor şi ca
aplicaţie a acestora în testele ANOVA.

101
3. Reguli de calcul al probabilităţilor
Există două reguli de bază pentru calculul probabilităţilor în funcţie de
tipul de evenimente la care se aplică:
a. Regula aditivă
b. Regula multiplicativă.

a. Regula aditivă se aplică pentru evenimente mutual exclusive sau


“disjuncte” (realizarea unuia înseamnă automat nerealizarea celuilalt). Dacă
avem cel puţin două evenimente disjunte, atunci probabilitatea lui A sau B se
calculează prin însumarea probabilităţilor fiecărui eveniment.

Pr (A sau B) = Pr (A) + Pr (B)


unde: Pr (A sau B) = probabilitatea evenimentului A sau a evenimentului
B
Pr (A) = probabilitatea evenimentului A
Pr (B) = probabilitatea evenimentului B
Exemplu:
Se ştie că aproximativ 6,5 % din totalul bolnavilor internaţi într-un spital
sunt de vârstă X, iar 4,9 % sunt de vârstă Y. Probabilitatea ca un bolnav luat la
întâmplare să fie de vârstă X sau de vârstă Y este: 6,5 % + 4,9 % = 11,4 %.
Evenimentele sunt mutual exclusive, în sensul că un anumit pacient internat nu
poate fi, în acelaşi timp şi de vârstă X şi de vârstă Y.

b.Regula multiplicativă se aplică pentru evenimente independente care se


produc concomitent şi constă în multiplicarea probabilităţilor individuale ale
evenimentelor.

Pr (A şi B) = Pr (A) ⋅ Pr (B)

unde: Pr (A şi B) = probabilitatea producerii concomitente a


evenimentului A şi B
Pr (A) = probabilitatea evenimentului A
Pr (B) = probabilitatea evenimentului B

Exemplu:
Aproximativ 6,5 % din totalul bolnavilor internaţi într-un spital sunt de
vârstă X şi 55,3 % din toţi bolnavii sunt femei. Probabilitatea femeilor de vârstă
X va fi: (6,5 %) 0,065 ⋅ (55,3 %) 0,553 = 0,0359 (3,59 %)

102
103
“Nici o investigaţie umană nu se poate intitula ştiinţă adevărată dacă nu
trece prin demonstraţia matematică”
Roger Bacon

104
105
TESTE STATISTICE

1. Ipoteza nulă
Statistica inferenţială cuprinde două laturi: estimarea parametrilor şi
testarea ipotezelor.
Unul dintre principalele aspecte ale cercetării ştiinţifice este formularea
de noi ipoteze. Întotdeauna o ipoteză nouă trebuie testată pentru a vedea dacă
este în concordanţă cu observaţiile făcute şi pentru a arăta că este mai bună
decât alte ipoteze alternative.
Aceste două modele se numesc ipoteza nulă şi ipoteza alternativă. Ipoteza
nulă notată H0, reprezintă modelul pe care experimentatorul ar dori să-l
înlocuiască. Ipoteza alternativă Ha este modelul care reprezintă o negaţie a
ipotezei nule.

Ipoteza nulă (H0 ) este ipoteza care postulează faptul că eşantioanele sau
populaţiile pe care le avem de comparat în cadrul unui studiu, experiment sau
test sunt similare, sau orice diferenţă este atribuită şansei şi nu unui anumit
factor.
Ipoteza nulă arată absenţa unor deosebiri care pot apărea în orice
problemă de comparare statistică. Ea se foloseşte pentru a defini semnificaţia
statistică (semnificaţia diferenţei), adică se spune că există semnificaţie
statistică între eşantioane, populaţii sau ambele datorată altor factori decât
şansa, dacă ipoteza nulă este falsă.
Acceptarea ipotezei nule presupune că diferenţă testată este
nesemnificativă între cele cele două populaţii, fără ca mediile populaţiilor să fie
identice.
Respingerea ipotezei nule, presupune că diferenţa între populaţii este
semnificativă, ea poate fi explicată prin alt factor decât şansa, iar una din
ipotezele alternative este acceptată.

Pentru verificarea ipotezei statistice se utilizează diferite teste statistice


parametrice şi neparametrice, constând din calcularea unor statistici şi din
stabilirea unor reguli clare de acceptare sau de respingere a ipotezei nule H0 , cu
o anumită probabilitate.
Valoarea probabilităţii sub care se respinge ipoteza nulă se numeşte prag
de semnificaţie sau risc, pentru un anumit test statistic. Pragul de semnificaţie
este ales de cercetător şi se notează cu α sau p-value. În general α = 0,05.
Dacă el este maximum 5 % se respinge ipoteza nulă, care spune că nu există
diferenţă semnificativă statistic între cele două populaţii, iar una dintre ipotezele
alternative este acceptată.
În orice testare a semnificaţiei statistice se pot comite două tipuri de erori:

106
• Eroarea de speţă I, adică decizia de a respinge ipoteza nulă,
H0 când aceasta este adevărată;

• Eroarea de speţă a II-a, adică decizia de a accepta ipoteza


nulă H0 când aceasta este falsă, ipoteza alternativă Ha fiind cea
adevărată.

Riscul erorilor asociate unui test statistic, în termeni probabilistici arată


astfel:

Pr (Ha / H0 adevărată ) = α , riscul erorii de speţă I

Pr (H0 / Ha adevărată ) = β , riscul erorii de speţă a II-a

Aceste riscuri cu erorile respective sunt ilustrate în tabelul următor:

Decizia investigatorului
Acceptarea Respingerea H0
H0
H0 adevărată Corecta Eronată
Pr = 1 - α (Eroarea de speţă
Situa I ; Pr = α
ţia H0 falsă Eronată Corectă
reală (Eroarea de Pr = 1 - β
speţă a II-a;
Pr = β )

În funcţie de aceste interpretări, în spaţiul eşantioanelor mulţimea tuturor


valorilor posibile calculate se împarte în două intervale (arii sau regiuni
complementare):
 Interval de acceptare (I.A.) reprezintă mulţimea valorilor pentru
care, dacă o valoare a statisticii calculate prin test se înscrie printre
valorile sale, se acceptă ipoteza nulă, H0 ; iar dacă H0 este adevărată,
atunci 1 - α este probabilitatea ca valoarea statisticii să aparţină
acestui interval;
 Interval de respingere (I.R.) reprezintă mulţimea valorilor pentru
care, dacă o valoare a statisticii calculate prin test se înscrie printre
valorile sale, se respinge ipoteza nulă H0 ; iar dacă H0 este adevărată,
atunci β este probabilitatea ca valoarea statisticii să aparţină acestui
interval.
Pe baza celor prezentate anterior, etapele unui test statistic sunt:

107
1. Stabilirea ipotezei nule (H0);
2. Alegerea testului statistic pentru testarea lui H0;
3. Stabilirea nivelului de semnificaţie α şi a volumului eşantionului;
4. Calcularea valorii statisticii corespunzătoare testului ales, utilizând
datele din eşantion;
5. Stabilirea intervalului de acceptare/ respingere pe baza celor
anterioare.
Dacă statistica testului se află în intervalul de respingere, se decide
respingerea lui H0 , iar dacă este în intervalul de acceptare, se decide
că H0 nu poate fi respinsă, pentru nivelul de semnificaţie ales (α ).

2. Comparaţia caracteristicilor cantitative

2.1. Comparaţia mediei unui eşantion cu media unei populaţii

Atunci când se cunoaşte media unui eşantion (x) şi numărul cazurilor


conţinute în acesta (n) se poate estima media populaţiei (µ ) din care provine
eşantionul.
Relaţia dintre media unei populaţii şi media eşantionului este dată de
formula:

σ x
µ = x ± Uα 
√n

unde:
µ = media în populaţia din care s-a extras eşantionul
x = media eşantionului
n = numărul de cazuri din eşantion
σ x = dispersia caracteristicii studiate în populaţia din care s-a
extras eşantionul
Uα = coeficientul de distribuţia pentru un risc (valoare luată din
tabele), pentru o distribuţie normală Gauss-Laplace

Semnele ± arată că media eşantionului poate fi mai mică sau mai mare
decât media populaţiei.
Această formulă se utilizează dacă parametrii populaţiei şi eşantionului
sunt cunoscuţi.

108
Dacă nu se cunoaşte dispersia în populaţia din care
s-a extras eşantionul ea poate fi estimată pe baza varianţei eşantionului cu
formula:

n
σ ˆ = sx ⋅ 
x
2 2

n-1

unde: σ x2 = varianţa estimată a populaţiei


sx2 = varianţa eşantionului
n = numărul de cazuri din eşantion
n
= termen de corecţie
n-1

Formula se modifică devenind:


sx
µ = x ± tα , ν 
√n-1
Distribuţia normală Gauss-Laplace este înlocuită prin distribuţia Student.
α = riscul asumat, stabilit de cercetător, de cele mai multe ori fiind de
0,05 ( 5%), ce corespunde unei probabilităţi de 95 %.
ν = grad de libertate, dat de numărul variantelor aleatorii independente
de care depinde statistica considerată; pentru o serie de variaţie cu n variante,
sunt n-1 grade de libertate;
ν =n-1

Ori de câte ori nu de cunoaşte varianţa în populaţie şi se foloseşte o


valoare estimată prin varianţa eşantionului, se utilizează formula:
σ ˆx
µ = x ± tα , ν 
√n-1

Exemplu:
În urma unui screening au fost examinate 5000 de persoane pentru care
valoare medie a glicemiei a fost de 80 mg % cu o abatere standard de ± 40 mg
%. Din populaţia examinată s-a extras un eşantion conţinând cazurile cu
obezitate, reprezentând 256 de persoane.Glicemia medie în acest grup a fost de
100 mg % cu o abatere standard de 48 mg %.

109
Parcurgem etapele unui test statistic
1. Stabilirea ipotezei nule H0

H0 :  µ = x
Nu există diferenţă semnificativă statistic între media glicemiei populaţiei
şi cea a eşantionului extras din ea

2. Stabilirea statisticii testului:


Mediile cunoscute, dispersiile cunoscute atât în eşantion cât şi în
populaţie, calculăm valoarea testului şi o comparăm cu valoarea tabelară a
acestuia.
Dacă Uc < Uα se acceptă ipoteza nulă, iar dacă
Uc > Uα se respinge ipoteza nulă

3. Stabilirea nivelului de semnificaţie α

α = 0,05

4. Calcularea valorii statistice a testului

| µ - x | √n
Uc = 
σx

| 80 – 100 | √256 20 ⋅ 16 20
Uc = = = = 6,6
48 48 3

5. Stabilirea intervalului de acceptare / respingere

Valoarea tabelară pentru o probabilitate de 95 % este


Uα = 1,96.

6. Decizia asupra ipotezei nule de respingere sau acceptare

Deci, Uc > Uα , deci diferenţa mediilor glicemiilor populaţiei şi eşantionului este


semnificativă statistic, se respinge ipoteza nulă. Aceasta indică faptul că lotul nu
afost extras la întâmplare din populaţie, ci de fapt s-a arătat de la început că el a
fost delimitat după un criteriu, obezitate.

110
2.2. Testul “t” (student) pentru un singur eşantion mic

Testul “t” este folosit pentru eşantioane cu volum mai mic de 30 de cazuri
şi compară o singură medie (x) a eşantionului cu media populaţiei notată µ .
Testele “t” sunt utilizate în analiza pentru care deviaţiile standard din
eşantioane sunt substituite ca estimaţii pentru deviaţiile standard din populaţii.
Distribuţia “t”este folosită în cazul eşantioanelor mici (sub 30 de cazuri)
pentru a calcula “intervalele de încredere” în jurul mediei eşantionului.
Valoarea probabilităţii de respingere a ipotezei nule, când aceasta este
adevărată (α = p-value) este obţinută din tabela –t, corespunzătoare lui ν = n –
1 grade de liberate.
Statistica testului pentru compararea mediei unui eşantion cu media unei
populaţii este determinată prin formula:

x - µ
tc = 
sx / √n
unde:
tc = valoarea calculată a testului la diferite grade de libertate
x = valoarea medie a eşantionului
µ = media populaţiei
sx = deviaţia standard
n = volumul eşantionului
Numitorul ecuaţiei de mai sus este numit “eroarea standard a mediei
eşantionului”.

2.3. Testul “t” pentru eşantioane independente


Testul “t” pentru eşantioane independente compară mediile a două
eşantioane care au fiecare sub 30 de cazuri (n1, n2 < 30 cazuri). Determinările
apaţin la indivizi diferiţi fără nici o legătură între ei.
Testul “t” este nepotrivit atunci când avem de comparat mai mult de 2
valori medii; în acest caz se aplică metode de comparare multiplă (modelul
“ANOVA”).

Etape:
1. n1, n2 < 30
2. Stabilirea ipotezei nule:
H0 : x1 = x2 (nu există diferenţă semnificativă statistic între
mediile celor două eşantioane independente)

111
3. Statistica testului “t”
x1 – x2 
tc = 
______________
√sc2 / n1 + sc2 / n2
unde:

tc = valoarea calculată a testului la gradele de libertate corespunzătoare


x1 = valoarea medie din primul eşantion
x2 = valoarea medie din al doilea eşantion
sc2 = varianţa comună a celor două eşantioane
n1 = volumul primului eşantion
n2 = volumul celui de-al doilea eşantion

x1 – x2 
tc = 
___________
sc √1/n1 + 1/n2
unde:
sc = deviaţia standard ponderată a celor 2 eşantioane
ν = numărul gradelor de libertate
ν = n1 + n2 – 2
Numitorul ecuaţiei de mai sus este numit “eroarea standard a diferenţei
celor două medii”.

__________________________
Σ (xi1 - x1)2 fi1 + Σ (xi2 - x2)2 fi2
sc = √ 
(n1 – 1)+ (n2 – 1)

4. Dacă tc > tα , ν se respinge ipoteza nulă


Dacă tc < tα , ν se acceptă ipoteza nulă

2.4. Testul “t” pentru eşantioane perechi


Testul “t” pentru eşantioane perechi compară valorile medii a două
eşantioane perechi. Determinările aparţin la aceeaşi indivizi în condiţii sau
momente de timp diferite. Numărul de perechi trebuie să fie sub 30.

1. n1, n2 < 30
2. Stabilirea ipotezei nule:

112
H0 : x1 = x2 (nu există diferenţă semnificativă statistic între
valorile medii înregistrate la cele două determinări)
3. Statistica testului “t”

d
tc(perechi) = 
_____
√sd2 / n

_______________
sd = √Σ (di - d)2 / (n-1)

unde:
tc(perechi) = valoarea calculată a testului la gradele de libertate
corespunzătoare
ν = numărul gradelor de libertate (ν = n-1)
d = valoarea medie a diferenţelor
sd2 = varianţa diferenţei medii
n = numărul de perechi

Numitorul testului “t” pe perechi este “eroarea standard a diferenţei


mediilor”.

4. Dacă tc > tα , ν se respinge ipoteza nulă


Dacă tc < tα , ν se acceptă ipoteza nulă.

3. Comparaţia caracteristicilor calitative


3.1. Testul “χ 2” (chi-pătrat)

3.1.1. Testul“χ 2” - “rxc”


Testul“χ 2” - “rxc” compară o distribuţie de frecvenţe absolute observate
(sau proporţii) cu o distribuţie teoretică (aşteptată) de frecvenţe absolute (sau
proporţii) sau compară 2 sau mai multe distribuţii observate pe baza
“distribuţiei de probabilitate chi-pătrat”.
În cadrul testului se pot folosi numai valori absolute, iar categoriile de
date trebuie să fie mutual exclusive sau discrete.
Frecvenţele teoretice trebuie să fie mai mari decât 5, frecvenţele
observate pot fi mai mici decât 5.

113
Valorile probabilităţii pentru respingerea ipotezei nule (H0) sunt obţinute
din tabele speciale pentru distribuţia chi-pătrat, corespunzător numărului de
grade de libertate.
Numărul gradelor de liberatate este ν = (r - 1) (c - 1), unde:
r = numărul de rânduri
c = numărul de coloane
Distribuţia de probabilitate chi-pătrat este o distribuţie continuă, simetrică
şi se bazează pe aproximaţia normală a distribuţiei binominale.
Pentru eşantioane mici se impune o corecţie de continuitate numită
“Corecţia Yates”, care scade valoarea lui chi-pătrat, deci scade probabilitatea
(α ) de respingere a ipotezei nule (H0).
Valorile probabilităţii pentru respingerea ipotezei nule sunt obţinute din
tabele speciale pentru distribuţia chi-pătrat corespunzător numărului gradelor de
libertate.
(oi - ci - 1/2 )2
χ c2 = Σ 
ci
unde:
χ c2 = valoarea calculată a testului chi-pătrat
oi = frecvenţe absolute observate din fiecare celulă a tabelului
ci = frecvenţe teoretice (aşteptate) corespunzătoare frecvenţelor
observate
½ = corecţia Yates

3.1.2. Testul “χ c2” “2 x 2”


Testul “χ c2” “2 x 2”este un caz particular al testului“χ 2” - “rxc”, se
aplică pentru tabelele de contingenţă “2x2” şi are 1 grad de libertate.

3.2. Teste neparametrice


Testele neparametrice testează ipoteza nulă sau determină “limitele de
încredere” pentru eşantioane şi populaţii fără a se ţine cont de distribuţia
populaţiei.
Tipuri de teste neparametrice:
- Testul Wilcoxon al sumei rangurilor, este un test pentru date
neperechi sau împerechiate şi este o alternativă a testului “t” al lui
Student pentru eşantioane perechi.
- Testul Wilcoxon pentru două eşantioane este un test pentru date
neîmperecheate şi este o alternativă a testului “t” al lui Student pentru
eşantioane independente.
- Testul “U”Mann-Whitney, duce la rezultate echivalente cu
testul Wilcoxon pentru două eşantioane.

114
- Testul exact Fisher, se aplică pentru tabele de contingenţă
“2x2”, în aceleaşi condiţii ca testul “χ c2” dar când frecvenţele
aşteptate sunt mai mici decât 5.

115
BIBLIOGRAFIE

1. Achimaş A. Cadariu - Metodologia cercetării ştiinţifice medicale - EMU “Iuliu


Haţieganu”, Cluj-Napoca, 1999
2. Beaglehole R., Bonita R., KjellstramT. - Bazele epidemiologiei - Ed. ALL
3. Bowling A. - Measuring health - A review of quality life measurement scales,
1991
4. Clocotici V., Stan A. – Statistică aplicată în psihologie, Ed. Iaşi, 2001
5. Colton T. – Statistics in Medicine, University of New-foundland, St. John’s,
New-foundland, Canada, 1998
6. Drugan T., Bondor C., Bolboacă S., Călinici T., Colosi H., Gălătuş R., Istrate D.,
Văleanu M., Achimaş A., Ţigan Ş. – Aplicaţii practice de informatică şi statistică
medicală, Ed. Alma Mater, Cluj-Napoca, 2002
7. Enăchescu D., Havriliuc C., Lemneanu E., Luculescu S., Mihăilescu D., Popa I.,
Popescu-Spineni S. – Medicina socială, elemente de biostatistică, Bucureşti,
1990
8. Keynes Milton - Open University Press
9. Lofland J. & Lofland L. - Analysing social settings, CA: Wadsworth, Belmont,
1984
10. Lupu I., Zand I. – Sociologie medicală, Teorie şi Aplicaţii, Ed. Polirom, Iaşi,
1999
11.Marin Estell M. – L’idee que l’on setat de l’eficacite organisationnelle
12.Mazs Nicolas, Pope Catherine - Rigour and qualitative research - BMJ, vol.311,
1995
13. Mureşan P. - Manual de metode matematice în analiza stării de sănătate – Ed.
Medicală, Bucureşti, 1989
14.Silverman D. - Interpreting quantitative data, Ed. Stage Publications, London,
1993
15.Steiner & Norman Health measurement scales - A practical guide to their
development and use, 1989
16. Steward & Ware - Measuring functioning and well-being-The Medical
Outcomes Study approach, 1992
17.The Washington DC Conference - Aplication of health status assessement
measures in clinical practice Medical Care, Ed. Lohr, 1992
18.Ţigan Ş., Achimaş A., Drugan T. – Biostatistică medicală, Ed. Srima, Cluj –
Napoca, 1999
19.Ţigan Ş., Achimaş A., Drugan T. – Curs de informatică şi statistică medicală,
Ed. Srima, Cluj – Napoca, 2001

116