Sunteți pe pagina 1din 241

Lucian Vasile BOICULESE

Gabriel DIMITRIU
Mihaela MOSCALU

ELEMENTE DE BIOSTATISTICĂ
ANALIZA STATISTICĂ A DATELOR BIOLOGICE

EDITURA PIM
IAŞI, 2007
Referent ştiinţific: Prof. univ. dr. Ilie Burdujan
Universitatea de Ştiinţe Agricole şi
Medicină Veterinară "Ion Ionescu de la Brad” – Iaşi

ISBN: 978-973-716-523-7

© Editura PIM, Iaşi – 2007


PREFAŢĂ

În zilele noastre se manifestă un interes deosebit pentru statistica matematică şi


conexiunile ei cu diferite alte domenii de cercetare. Acest interes se concretizează prin
includerea cunoştinţelor de statistică în programele de pregătire ale unui număr mare
de specialişti.
Biostatistica cuprinde totalitatea metodelor descriptive şi de analiză statistică a
datelor biologice (acestea includ şi datele medicale).
Modalităţile statistice de analiză a datelor, continuă să se afle într-o îmbogăţire de
concepte şi tehnici cu aplicaţii în multe domenii ale ştiinţei. Înţelegerea şi utilizarea
acestora nu poate fi realizată fără o bază bine dezvoltată, care să permită crearea
abilităţilor necesare realizării analizelor statistice.
Prin urmare, se impune scrierea unor lucrări de actualitate care să familiarizeze
cititorii din diverse sfere de activitate cu noţiunile de baza din teoria probabilităţilor şi
statisticii matematice, fără a recurge însă la un aparat matematic prea sofisticat. Este
ceea ce ne-am propus să realizăm în cele ce urmează, incluzând în acelaşi timp
prezentarea unor noutăţi soft de prelucrare statistică.
Această carte furnizează un arsenal bogat de cunoştinţe de statistică descriptivă,
precum şi de analiză statistică, cu numeroase exemple şi aplicaţii realizate cu programe
specializate, cum ar fi SPSS şi EpiInfo, dar şi cu binecunoscutul program de calcul
tabelar Microsoft Excel.
Cartea este structurată în trei mari capitole, ce construiesc o bază completă de
informaţii necesară pentru înţelegerea teoriei statistice şi a aplicaţiilor ei în biologie.
Este firesc ca multe dintre metodele prezentate, chiar dacă sunt axate pe exemple
medicale, să nu fie dedicate doar acestui domeniu, putând fi uşor întrebuinţate şi în alte
sfere ale ştiinţelor.
În capitolul întâi sunt descrise elemente de teoria probabilităţilor, fiind cuprinse
noţiuni ce sunt necesare ca un prim pas în înţelegerea analizelor statistice. Sunt
prezentate concepte de bază incluzând: probabilităţi condiţionate, formula probabilităţii
totale, formula lui Bayes cât şi repartiţiile de tip discret şi continuu. Descrierea acestor
cunoştinţe, demonstraţiile matematice şi exemplele analizate construiesc o clară
expunere ştiinţifică a acestor noţiuni.
Capitolul al doilea, cel mai amplu ca dimensiune, prezintă tehnicile utilizate în
biostatistică începând cu elementele descriptive, urmate de studiul intervalelor de
confidenţă, determinarea eşantionului de lucru, ajungând la teste de ipoteză, modele de
regresie, analize de supravieţuire şi determinarea calităţii testelor pentru diagnostic.
Ultimul capitol descrie utilizarea softului de statistică EpiInfo 3.3.2 2005, program
ce se poate folosi gratuit, dar care prin calculele şi analizele dezvoltate este de o
utilitate incontestabilă.
Prezentarea subiectelor teoretice şi practice, atât prin descrierea lor cât şi prin
demonstraţiile matematice care le însoţesc, ajută la o bună cunoaştere a problemelor de
biostatistică.
Această carte este necesară studenţilor din domeniile ştiinţelor medicale, biologice
dar este foarte utilă şi doctorilor, doctoranzilor, fizicienilor, informaticienilor,
inginerilor şi nu numai, care sunt interesaţi în înţelegerea, învăţarea şi aprofundarea
noţiunilor de analiză statistică.

Autorii
Contribuţia pe capitole a autorilor:

Capitolul 1 – TEORIA PROBABILITĂŢILOR


Lucian V. Boiculese, Gabriel Dimitriu

Capitolul 2 – BIOSTATISTICA
Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu

Capitolul 3 – EPIINFO 3.3.2 2005


Lucian V. Boiculese, Mihaela Moscalu

Produsele Windows XP, MS Excel sunt mărci înregistrate sub licenţă Microsoft.
Programul de analiză statistică SPSS (Statistical Package for the Social Sciences)
este dezvoltat de Fundaţia software Apache şi este sub licenţa SPSS Inc. Produsul
EpiInfo este destinat analizei statistice pentru sănătate publică şi este sub licenţa
Centrului de Prevenire şi Control al Maladiilor (CDC) SUA.
Acestea sunt protejate de legile şi tratatele internaţionale asupra dreptului de
autor.
CUPRINS

1. TEORIA PROBABILITĂŢILOR ............................................... 7


1.1. SCURT ISTORIC ......................................................................................................... 7
1.2. ELEMENTE DE BAZĂ................................................................................................ 9
Proprietăţile probabilităţilor............................................................................................ 13
Principiul certitudinii practice ......................................................................................... 15
Legea numerelor mari...................................................................................................... 15
1.3. PERMUTĂRI, COMBINĂRI, ARANJAMENTE ....................................................... 15
1.4. PROBABILITĂŢI CONDIŢIONATE......................................................................... 20
Definiţie .......................................................................................................................... 20
Probabilitatea intersecţiei a n evenimente ........................................................................ 22
Formula probabilităţii totale ............................................................................................ 22
Formula lui Bayes............................................................................................................ 24
Evenimente independente stocastic ................................................................................... 26
1.5. VARIABILE ALEATOARE ...................................................................................... 27
Variabile aleatoare discrete ............................................................................................. 27
Variabile aleatoare continue ............................................................................................ 28
Valori tipice pentru variabile aleatoare continue .............................................................. 30
Valori tipice de localizare ................................................................................................ 30
Valori tipice de variaţie ................................................................................................... 32
Abaterea standard ........................................................................................................... 33
1.6. REPARTIŢII DISCRETE ........................................................................................... 34
Repartiţia hipergeometrică (schema bilei neîntoarse) ....................................................... 34
Repartiţia binomială (Bernoulli) ...................................................................................... 35
Repartiţia Poisson ........................................................................................................... 36
1.7. REPARTIŢII CONTINUE .......................................................................................... 37
Repartiţia uniformă.......................................................................................................... 37
Media repartiţiei uniforme ............................................................................................... 38
Dispersia repartiţiei uniforme .......................................................................................... 38
Repartiţia exponenţială .................................................................................................... 39
Media ............................................................................................................................. 41
Dispersia ........................................................................................................................ 41
Repartiţia normală (Gauss-Laplace) ................................................................................ 41
Proprietăţile repartiţiei normale ....................................................................................... 43
Repartiţia normală redusă ............................................................................................... 45
Repartiţia Chi pătrat (  2 ) ............................................................................................... 48
Repartiţia Student (,,t”).................................................................................................... 50
Repartiţia Fisher-Snedecor (F) ........................................................................................ 51
2. BIOSTATISTICA ...................................................................... 52
2.1. INTRODUCERE ........................................................................................................ 52
2.2. TIPURI DE VARIABILE ........................................................................................... 52
2.3. VARIABILITATEA DATELOR MEDICALE ............................................................ 54
2.4. REPREZENTAREA DATELOR STATISTICE .......................................................... 55
Gruparea termenilor ........................................................................................................ 56
Reprezentarea datelor prin diagrame ............................................................................... 57
Histograma ..................................................................................................................... 57
Diagrama cu linii ............................................................................................................ 58
Poligonul frecvenţelor ..................................................................................................... 58
Diagrama Tukey (cunoscută şi sub numele de „stem and leaf” – tulpină şi frunză) ............ 59
Graficul de tip Box-and-Whiskers ................................................................................... 60
Diagrame de structură ..................................................................................................... 61
2.5. INDICATORI STATISTICI ....................................................................................... 62
Indicatori de localizare sau de poziţie .............................................................................. 62
Media aritmetică (simplă)................................................................................................ 62
Media aritmetică ponderată ............................................................................................. 62
Media armonică .............................................................................................................. 63
Media cronologică .......................................................................................................... 64
Media geometrică ........................................................................................................... 64
Media pătratică ............................................................................................................... 64
Mediana ......................................................................................................................... 65
Modul (modulul sau dominanta) ...................................................................................... 65
Valoarea centrală ............................................................................................................ 67
Proprietăţile caracteristicilor de localizare ........................................................................ 67
Indicatori de variaţie ....................................................................................................... 67
Dispersia (varianţa) ......................................................................................................... 67
Abaterea pătratică medie (deviaţia standard) .................................................................... 68
Amplitudinea .................................................................................................................. 69
Intervalul intercuartilic .................................................................................................... 69
Coeficientul de variaţie ................................................................................................... 70
Momente ........................................................................................................................ 71
Asimetrie (skewness) ...................................................................................................... 73
Boltirea (excesul, kurtosis) .............................................................................................. 74
2.6. INTERVALE DE ÎNCREDERE (CONFIDENŢĂ) ...................................................... 76
Introducere ...................................................................................................................... 76
Intervalul de încredere pentru media unei variabile aleatoare de tip continuu repartizată
normal .......................................................................................................................... 77
Cazul 1 – Valoarea dispersiei este cunoscută. ................................................................... 80
Cazul 2 – Valoarea dispersiei este necunoscută. ............................................................... 82
Intervalul de încredere determinat prin metoda neparametrică „bootstrap” .................... 83
Intervalul de încredere pentru diferenţa a două medii ....................................................... 83
Intervalul de încredere pentru proporţia unei variabile aleatoare ..................................... 84
Exemple de calcul al intervalului de confidenţă ................................................................ 86
2.7. METODE DE DETERMINARE A EŞANTIOANELOR DE STUDIU......................... 91
Eşantionarea simplă aleatorie (random) .......................................................................... 92
Eşantionarea sistematică ................................................................................................. 93
Eşantionarea stratificată aleatoare .................................................................................. 93
Eşantionarea în ciorchine (cluster – grup, ciorchine) ....................................................... 94
Eşantionarea convenabilă (convenience – avantaj, comoditate) ........................................ 94
Eşantionarea prin autogenerare (bootstrap – autogenerator) ........................................... 94
Dimensiunea eşantionului de studiu ................................................................................. 96
1 – Determinarea volumului eşantionului de studiu pentru o variabilă de tip continuu........ 97
2 – Determinarea volumului eşantionului de studiu pentru estimarea unei proporţii ........... 99
3 – Determinarea volumului eşantionului de studiu pentru estimarea unei corelaţii. ......... 102
4 – Determinarea volumului eşantionului de studiu pentru verificarea unei diferenţe impuse.
............................................................................................................................................. 103
2.8. TESTE DE IPOTEZĂ............................................................................................... 104
Concepte de bază în evidenţa (siguranţa) statistică......................................................... 104
Erori posibile................................................................................................................. 106
Regiunea de acceptare / respingere a ipotezei nule ......................................................... 107
Testul ipotezei simple – compararea mediei unui eşantion cu o valoare de referinţă ....... 108
Cazul 1 – Valoarea dispersiei este cunoscută .................................................................. 109
Cazul 2 – Valoarea dispersiei este necunoscută .............................................................. 110
Testul ipotezei duble – compararea mediilor a două eşantioane (t, Student) .................... 113
Cazul 1 – Datele sunt perechi ........................................................................................ 114
Cazul 2 – Dispersiile  x2 ,  y2 sunt cunoscute .............................................................. 114
Cazul 3 – Dispersiile  x2 ,  y2 sunt egale de valori necunoscute. ................................... 115
Cazul 4 – Dispersiile sunt necunoscute (pot fi sau nu egale) ........................................... 115
Testul ipotezei multiple – compararea mediilor mai multor eşantioane (ANOVA)............ 119
2.9. TABELE DE CONTINGENŢĂ – TESTUL CHI PĂTRAT (  2 ), RISC, COTĂ ......... 124
Noţiuni .......................................................................................................................... 124
Testarea dependenţei dintre două variabile categoriale .................................................. 126
Formula generală de calcul pentru statistica  2 ............................................................ 128
Paradoxul Simpson – în tabele 2x2................................................................................. 129
Riscul, Cota şi Valorile relative ..................................................................................... 130
Exemplu de calcul folosind programul SPSS................................................................... 133
Exemplu de calcul folosind programul EpiInfo ............................................................... 135
2.10. REGRESIA LINIARĂ ŞI CORELAŢIA ................................................................... 137
Regresia liniară ............................................................................................................. 137
Coeficienţii (parametrii) dreptei de regresie ................................................................... 139
Testarea modelului prin metoda analizei varianţei (ANOVA) ......................................... 140
Corelaţia ....................................................................................................................... 143
Noţiuni ......................................................................................................................... 143
Interpretare ................................................................................................................... 143
Testarea coeficientului de corelaţie ................................................................................ 144
Observaţii asupra regresiei liniare şi corelaţiei................................................................ 145
2.11. MODELE NELINIARE DE REGRESIE ................................................................... 147
Modele parabolice ......................................................................................................... 147
Modele hiperbolice ........................................................................................................ 148
Model exponenţial ......................................................................................................... 148
Analiza de regresie multiplă (analiza multivariată) ........................................................ 149
Interacţiuni între variabile ............................................................................................. 150
Analiza ANOVA pentru validarea modelului multivariabil ............................................. 150
Testarea semnificaţiei unui singur factor dintre predictori ............................................... 151
Testarea semnificaţiei unui grup de variabile introduse în model..................................... 152
Determinarea variabilelor din model pas cu pas.............................................................. 152
Regresia logistică .......................................................................................................... 154
Determinarea coeficienţilor de regresie logistică ............................................................ 155
Interpretarea coeficienţilor în cazul regresiei logistice .................................................... 156
2.12. ANALIZA SUPRAVIEŢUIRII ................................................................................. 158
Introducere .................................................................................................................... 158
Metodă .......................................................................................................................... 158
Funcţii ce descriu distribuţia timpului de supravieţuire .................................................. 160
Funcţia de supravieţuire (survival function).................................................................... 161
Funcţia densitate de probabilitate (probability density function) ...................................... 162
Funcţia hazard (hazard function) ................................................................................... 162
Analiza supravieţuirii utilizând metoda Kaplan Meier .................................................... 164
Comparaţii între funcţiile de supravieţuire ..................................................................... 167
Exemplu de realizare a analizei de supravieţuire folosind metoda Kaplan Meier în SPSS. 169
Interpretarea rezultatelor ............................................................................................... 171
Analiza supravieţuirii utilizând metoda Cox ................................................................... 174
Exemplu SPSS – studiu de supravieţuire ....................................................................... 177
Interpretarea rezultatelor. .............................................................................................. 179
2.13. CALITATEA EXAMENULUI DIAGNOSTIC ........................................................ 183
Introducere .................................................................................................................... 183
Sensibilitate, Specificitate .............................................................................................. 183
Estimarea intervalului de încredere pentru Se şi Sp ........................................................ 184
Legătura dintre sensibilitate şi specificitate – curba ROC............................................... 185
Valoare predictivă ......................................................................................................... 187
Realizarea curbei ROC , calculul Se şi Sp în SPSS.......................................................... 189
3. EPIINFO 3.3.2 – 2005............................................................... 190
3.1. CREAREA UNUI CHESTIONAR ..................................................................................... 190
3.2. TIPURI DE CÂMPURI UTILIZATE ÎN DEFINIREA STRUCTURII UNUI TABEL ........................ 194
Exemplu de creare a unui chestionar .............................................................................. 196
3.3. ANALIZA DATELOR ................................................................................................... 197
Comenzi pentru lucru cu tabele sau chestionare ............................................................. 197
Lucrul cu variabile ........................................................................................................ 198
Selectarea datelor .......................................................................................................... 200
Elemente de analiză statistică ........................................................................................ 201
Afişarea datelor (List) ................................................................................................... 201
Frecvenţe (Frequencies) ................................................................................................ 202
Testul Chi pătrat – compararea frecvenţelor eşantioanelor (Tables) ................................. 203
Testul ANOVA – compararea mediilor eşantioanelor (Means) ....................................... 208
Regresie şi corelaţie (Regress) ....................................................................................... 213
Analiza supravieţuirii – metoda Kaplan Meier................................................................ 215

ANEXE ............................................................................................... 218


ANEXA A - Distribuţia Normală redusă ........................................................................ 218
ANEXA B - Distribuţia Student normalizată .................................................................. 219
ANEXA C - Distribuţia Chi pătrat ............................................................................... 221
ANEXA D - Distribuţia Fisher ...................................................................................... 223
ANEXA E - Metoda verosimilităţii maxime................................................................... 225
ANEXA F - Tabelul datelor utilizate pentru analiza de supravieţuire (Kaplan-Meier) ...... 227
ANEXA G - Exemplu de test grilă la biostatistică. ......................................................... 228

BIBLIOGRAFIE ................................................................................ 232

INDEX ................................................................................................ 235


TEORIA PROBABILITĂŢILOR

1. TEORIA PROBABILITĂŢILOR

1.1. SCURT ISTORIC

Teoria probabilităţilor se ocupă de studiul experimentelor cu rezultat întâmplător


(experimente aleatoare), adaptând formalismul matematic la studiul acestei categorii de
experimente.
Calculul probabilităţilor a apărut pe la mijlocul secolului al XVII-lea, fiind generat
de jocurile de noroc. Bazele teoriei probabilităţilor au fost întemeiate de matematicienii
BLAISE P ASCAL (1623-1662) şi PIERRE FERMAT (1601-1665). Un pasionat jucător de
zaruri, cavalerul DE MÉRÉ (1607-1685), susţinea în discuţiile sale cu P ASCAL că
jocurile de noroc conduc uneori la rezultate care contrazic matematica. Astfel, afirma
el, a arunca un zar de 4 ori pentru a obţine o dată faţa şase înseamnă acelaşi lucru cu a
arunca de 24 de ori câte două zaruri pentru a obţine o dublă de şase. Dacă aruncăm un
zar, avem 6 rezultate posibile (feţele: 1, 2, ..., 6) şi efectuăm 4 încercări. Avem raportul
4 2
 (evident, calcul greşit!). Dacă aruncăm două zaruri, avem 36 de cazuri posibile
6 3
(perechile cu feţele: (1, 1), (1, 2), ..., (6, 6)) şi 24 de încercări. Deci, se obţine acelaşi
24 2
raport:  . Cu toate acestea, cavalerul DE MÉRÉ a remarcat că, jucând în varianta
36 3
a doua (cu două zaruri aruncate de 24 de ori), pierde faţă de adversarul său, dacă acesta
alege prima variantă (aruncarea unui singur zar de 4 ori), ceea ce, considera el,
contrazice regulile matematice. PASCAL şi FERMAT au arătat însă că probabilitatea de
câştig la jocul cu un singur zar este de 0,518 iar la jocul cu două zaruri de 0,492. Deşi
diferenţa dintre cele două probabilităţi este mică, totuşi, la un număr mare de partide,
jucătorul cu probabilitatea de câştig 0,518 câştigă în faţa jucătorului cu probabilitatea
de câştig 0,492. Aşadar, practica jocului confirmă justeţea raţionamentului matematic,
contrar credinţei lui DE MÉRÉ.
O altă problemă, devenită celebră prin faptul că a condus la naşterea unei noi
discipline matematice, a constat în împărţirea mizei la un joc care este întrerupt înainte
de a fi desemnat un câştigător. La un joc la care participă doi parteneri în condiţii
egale, este declarat învingător cel care câştigă trei partide. După trei partide jucate
jocul se întrerupe, primul jucător având două partide câştigate, iar al doilea numai una.
Cum trebuie împărţită miza jocului? Cavalerul DE MÉRÉ susţinea că aceasta trebuie să
se împartă proporţional cu numărul partidelor câştigate de fiecare jucător, adică cu
numerele 2 şi 1. PASCAL, FERMAT şi CRISTIAN HUYGENS (1629-1695), care a
contribuit şi el la apariţia probabilităţilor, au demonstrat prin modalităţi diferite, că
miza trebuie împărţită proporţional cu numerele 3 şi 1.
Mai târziu, în opera postumă, „Ars conjectandi” (1713) a unui alt mare
matematician, JACOB BERNOULLI (1654-1705) se stabileşte, pentru prima oară, că noua
7
TEORIA PROBABILITĂŢILOR

teorie matematică este fundamentală pentru studiul fenomenelor de masă. Printr-o


teoremă celebră, intitulată de el „teorema numerelor mari”, J. BERNOULLI stabileşte
relaţia matematică dintre frecvenţă şi probabilitate după un număr mare de probe.
Această teoremă constituie fundamentul statisticii matematice şi justifică aplicarea
teoriei probabilităţilor în alte domenii. N. BERNOULLI (1687-1759), editorul operei
„Ars conjectandi”, a aplicat cu succes teoria probabilităţilor în ştiinţele moral-politice
şi în demografie, iar DANIEL BERNOULLI (1700-1782) a fost primul care a aplicat-o la
studiul teoriei cinetice a gazelor şi a studiat probleme premergătoare teoriei deciziei de
astăzi. N. BERNOULLI şi D. BERNOULLI au fost nepoţii lui J. BERNOULLI.
Un alt matematician care a adus contribuţii importante în teoria probabilităţilor a
fost ABRAHAM DE MOIVRE (1667-1754). El a găsit legea normală de probabilităţi,
atribuită mai târziu, pe nedrept, altor oameni de ştiinţă.
Cel care pe drept cuvânt trebuie să fie considerat ca fondator al teoriei moderne a
probabilităţilor este PIERRE S IMON LAPLACE (1749-1827). În tratatul său „Teoria
analitică a probabilităţilor” (1813) el expune în mod riguros propoziţiile de bază ale
teoriei probabilităţilor, enunţă şi rezolvă în anumite cazuri teorema limită centrală,
fundamentală în teoria erorilor, şi aplică în mod ştiinţific calculul probabilităţilor în
demografie, astronomie şi în alte domenii.
Printre marii matematicieni, care au adus contribuţii în teoria probabilităţilor în
secolul al XIX-lea, cităm pe KARL FRIEDERICH GAUSS1 (1777-1855), JOSEPH
BERTRAND (1822-1900), JULES HENRI POINCARÉ (1854-1912). Trebuie semnalat, de
asemenea, şi aportul şcolii ruse de probabilităţi, întemeiată de P AFNUTI LVOVICI
CEBÎŞEV (1821-1894), având ca reprezentaţi străluciţi pe ALEXANDRU MIHAILOVICI
LIAPUNOV (1857-1918) şi ANDREI ANDREEVICI MARKOV (1856-1922), autorul unor
procese stocastice de mare importanţă în ştiinţa de astăzi.
În secolul nostru s-a realizat axiomatizarea teoriei probabilităţilor. Au adus
contribuţii însemnate în această direcţie: E. BOREL, F.P. CANTELLI, R. MISES, A.N.
KOLMOGOROV, O. ONICESCU, BRUNO DE FINETTI, V.I. GLIVENKO, A. RENYI şi alţi
matematicieni de seamă.
Epoca noastră cunoaşte o dezvoltare considerabilă a acestei teorii, care este
aplicată, aproape fără excepţie, în toate sferele de activitate (fizică, chimie, biologie,
tehnică, astronomie, medicină, economie, sociologie, istorie, arheologie, psihologie,
lingvistică, ş.a.).
Aplicaţiile teoriei probabilităţilor au mers concomitent cu dezvoltarea ei teoretică.
Încă la sfârşitul secolului al XVII-lea au apărut primele calcule de asigurări, iar
astronomul EDMUND HALLEY (1656-1742) a construit prima tabelă de mortalitate a
unei populaţii umane. Statistica a căpătat o mare dezvoltare teoretică şi practică.
Întemeietorii statisticii ca ştiinţă trebuie să fie consideraţi FRANCIS GALTON (1822-
1911), K. PEARSON (1857-1936), R. FISHER (1890-1962).
Şcoala românească de teoria probabilităţilor, fondată de acad. OCTAV ONICESCU
şi GHEORGHE MIHOC are contribuţii remarcabile în studierea lanţurilor Markov, în

1
Carl Friederich Gauss - Britannica Encyclopedia ; Karl Friederich Gauss – The American
Heritage Dictionaries
8
TEORIA PROBABILITĂŢILOR

rezolvarea problemei limită centrală pentru lanţuri Markov finite omogene, în


introducerea unui nou tip de dependenţă a variabilelor aleatoare etc.
Din teoria probabilităţilor s-au desprins, în ultimele decenii, noi discipline
ştiinţifice, importante prin aplicaţiile lor: teoria informaţiei, teoria fiabilităţii,
programarea matematică, teoria deciziei, controlul statistic al calităţii etc., care
îmbogăţesc continuu matematica fenomenelor aleatoare.

1.2. ELEMENTE DE BAZĂ

Există multe situaţii în domeniul biologic sau medical în care trebuie să aflăm
probabilităţile de producere a anumitor fenomene. În cele ce urmează, prezentările şi
demonstraţiile vor fi făcute pe exemplele clasice ale urnelor cu bile sau ale jocului de
zaruri, deoarece acestea permit o înţelegere mai rapidă a fenomenelor.
În teoria probabilităţilor se operează cu o serie de noţiuni, care vor fi descrise în
continuare:
Experimentul (sau experienţa) reprezintă realizarea unui ansamblu de condiţii,
conform unui anumit obiectiv de studiu dorit. În vederea atingerii scopului urmărit, el
poate fi realizat prin provocarea intenţionată a unor fenomene. Prin experienţă
aleatoare2 se înţelege o experienţă al cărei rezultat este supus întâmplării, rezultat ce
poate lua forme diferite, dar nu poate fi anticipat.
Exemple de experienţe aleatoare: aruncarea unei monede, aruncarea unui zar,
extragerea unei bile dintr-o urnă ce conţine bile de mai multe culori, observarea duratei
de viaţă a unui individ dintr-o populaţie biologică, observarea numărului de atomi
obţinuţi prin dezintegrarea unui element radioactiv într-un interval de timp.
Realizarea unei experienţe aleatoare duce la obţinerea unei probe.
Evenimentul este rezultatul unui experiment sau fenomen care se cercetează. Se
numeşte eveniment elementar orice rezultat posibil al unei experienţe aleatoare. Cu alte
cuvinte evenimentul elementar este rezultatul unei probe.
Evenimentul aleator, sau întâmplător, se poate produce sau nu în cadrul realizării
experienţei doar o singură dată. Atributul aleator arată natura incertă aprioric care
devine certitudine după terminarea experienţei. Practic înainte de experienţă noi
cunoaştem doar mulţimea tuturor evenimentelor elementare asociate acesteia, mulţime
numită şi spaţiul de selecţie al experienţei.
Exemplu. Fie experienţa aleatoare constând în aruncarea pe o masă, simultan, a
două zaruri. Dacă apariţia feţei cu i puncte la unul din zaruri şi a feţei cu j puncte la
celălalt zar îi punem în corespondenţă perechea ordonată de numere ( i, j ), atunci
spaţiul evenimentelor elementare este   {(i, j ) : 1  i, j  6} . Legat de această
experienţă, considerăm propoziţia logică: „Numărul de puncte apărute la unul din
zaruri este egal cu numărul de puncte apărute la celălalt zar”. Această propoziţie este
adevărată pentru mulţimea de evenimente elementare

2
Cuvântul „aleator” are sens de întâmplător şi provine de la latinescul „alea” (zar).
9
TEORIA PROBABILITĂŢILOR

A  {(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)},
care este o submulţime a lui  şi constituie evenimentul aleator A .
Orice eveniment elementar care intră în componenţa evenimentului aleator A
se numeşte eveniment elementar favorabil lui A .

Exemplu. Apariţia perechii (6,6) este un eveniment elementar favorabil


evenimentului A , considerat în experienţa precedentă.

Spunem că evenimentul A se realizează (apare, are loc, se produce) într-o probă


dacă şi numai dacă rezultatul acelei probe este un eveniment elementar favorabil lui A .

Evenimentul sigur este acel eveniment care se produce cu certitudine la orice


efectuare a experienţei respective. Se notează cu E sau .
Exemple: - la naştere, sexul unui copil poate fi masculin sau feminin.
- la aruncarea unui zar se poate obţine un număr cuprins între 1 şi 6.
În mod evident, s-a considerat că zarul are feţele notate de la 1 la 6, este aruncat
pe o suprafaţă plană, este de formă cubică şi nu există posibilitatea să rămână în poziţie
de echilibru pe muchie.

Evenimentul imposibil este acel eveniment care nu se produce oricât am efectua


experienţa. Altfel spus, evenimentul imposibil nu conţine nici un eveniment elementar
al experienţei şi deci este justificat a nota acest eveniment prin Ø.
Exemplu - la aruncarea unui zar, nu se va obţine niciodată valoarea 7 !

Probabilitatea este o măsură numerică a posibilităţii de realizare a unui


eveniment. Pentru o experienţă cu un număr finit de evenimente cu şanse egale de
realizare, probabilitatea este raportul dintre numărul cazurilor favorabile realizării
evenimentului şi numărul total de cazuri posibile.
P  nr. cazuri favorabile / nr. total cazuri .

Câmpul de evenimente se defineşte ca fiind totalitatea evenimentelor distincte,


obţinute prin realizarea de un anumit număr de ori a unei experienţe.
Câmpul de probabilitate se defineşte ca fiind format din totalitatea probabilităţilor
corespunzătoare câmpului de evenimente dat.

Spunem că evenimentul A implică un alt eveniment B, dacă realizarea lui A atrage


după sine şi realizarea evenimentului B. Se va scrie: A B.
Cu alte cuvinte, mulţimea evenimentelor elementare favorabile lui A este inclusă
în mulţimea evenimentelor elementare favorabile lui B şi deci este justificat a
desemna relaţia de implicaţie şi prin „  ” (incluziune). Relaţia A  B o citim:
„evenimentul A implică evenimentul B ” sau echivalent „evenimentul B este implicat
de evenimentul A ”.
Exemplu. Dacă A  {2,4} şi B  {2,4,5,6} , atunci A  B .

10
TEORIA PROBABILITĂŢILOR

Spunem că evenimentul A este egal (echivalent) cu evenimentul B dacă oricare


probă ce realizează pe A , realizează şi pe B şi reciproc.
Atunci, rezultă că mulţimile de evenimente elementare favorabile lui A , respectiv
lui B sunt egale si deci este justificat a desemna relaţia de egalitate prin „=”. Relaţia
A  B revine la a demonstra că au loc simultan A  B şi B  A .

Exemplu. Fie experienţa aleatoare constând în aruncarea unui zar. Definim


evenimentul A prin în apariţia feţei cu 6 puncte şi evenimentul B constând în apariţia
unei feţe cu un număr de puncte mai mare decât 5, atunci A  B .

Remarcă. Relaţiile de implicaţie şi egalitate între evenimente posedă proprietăţi


analoage cu relaţiile de incluziune, respectiv egalitate din teoria mulţimilor.

Se defineşte reuniunea a două evenimente A, B, ca fiind acel rezultat al


experimentului care duce la realizarea lui A sau B sau a amândurora. Se notează AB
(A sau B). Cu alte cuvinte, înseamnă realizarea cel puţin a unuia dintre evenimentele,
A sau B.
Exemplu. Dacă A  {2, 4, 5} şi B  {2, 3} , atunci A  B  {2, 3, 4, 5} .

Se defineşte intersecţia a două evenimente A, B ca fiind evenimentul care se


realizează atunci şi numai atunci când ambele evenimente s-au realizat. Se va nota cu
AB (A şi B).
Exemplu. Dacă A  {1, 3} şi B  {1, 4, 6} , atunci A  B  {1}.

Evenimentul contrar sau complementar unui eveniment A, este evenimentul notat


Ā, care se realizează în mod cert la nerealizarea lui A.
Complementarul complementarului unui eveniment A este tot evenimentul A.
A  A (dubla negaţie conduce la afirmaţie).

Dacă judecăm corectitudinea exprimării în limba română, putem afirma că


aceasta nu respectă regulile matematice din teoria probabilităţilor. De exemplu,
afirmaţia „N-am fost niciodată la Barcelona”, interpretată în formă matematică,
devine echivalentă cu ”Am fost odată …” – căci dubla negaţie este echivalentă cu o
afirmaţie.

Se numeşte diferenţă a evenimentelor A şi B evenimentul care se realizează


atunci şi numai atunci când s-a realizat A şi nu s-a realizat B . Notăm acest eveniment
prin A \ B .
Exemplu. Dacă A  {2, 4, 6} şi B  {2, 5} , atunci A \ B  {4, 6} .

Se numeşte diferenţă simetrică a evenimentelor A şi B evenimentul care se


realizează atunci şi numai atunci când s-a realizat unul şi numai unul dintre cele două
evenimente. Notăm acest eveniment prin A  B .
11
TEORIA PROBABILITĂŢILOR

Exemplu. Dacă A  {2, 4, 5} şi B  {1, 3, 5} , atunci A  B  {1,2, 3, 4} .

La rândul lor, evenimentele aleatoare pot fi compatibile sau incompatibile. Două


sau mai multe evenimente sunt compatibile, dacă se pot produce simultan şi sunt
incompatibile, dacă nu se pot produce simultan (se exclud mutual).

Exemplu. Dacă A  {1, 3, 5} şi B  {2, 4, 6} , atunci A  B  Ø .

Spunem că evenimentele A1 , A2 , ... An sunt incompatibile în ansamblu dacă


oricare două evenimente dintre acestora sunt incompatibile.

Observaţii.
Reuniunea a două evenimente complementare este evenimentul sigur, iar
intersecţia a două evenimente incompatibile (care în particular pot fi şi complementare)
este evenimentul imposibil.
Evenimentele complementare sunt incompatibile, dar evenimentele incompatibile
nu sunt obligatoriu complementare (pot fi sau nu).
Evenimentele sigur şi imposibil sunt complementare şi nu sunt compatibile.
Dacă A implică B, atunci A şi B sunt compatibile şi sigur nu sunt complementare.

Operaţiile cu evenimente au proprietăţi analoage operaţiilor cu acelaşi nume din


teoria mulţimilor. Dintre acestea enumerăm numai pe acelea în care apar evenimentul
sigur  şi evenimentul imposibil Ø . Dacă A este un eveniment oarecare, atunci au
loc egalităţile:
A A  , A A  Ø,
AØ  A, A  Ø  Ø,
A  , A  A,
  Ø, Ø  .

Spunem că evenimentele A1, A2,…, An formează un sistem complet de


evenimente dacă se realizează cu certitudine unul şi numai unul din aceste evenimente.

Remarcăm că cele n evenimente formează un sistem complet dacă şi numai dacă:


1. A1  A2  …  An =  (se realizează cel puţin unul din evenimente).
2. A1, A2,…, An sunt incompatibile două câte două: Ai  Aj  Ø ,  i,j{1,2,...,n},
ij (se realizează cel mult unul din evenimente).

Sistemul complet de evenimente mai este cunoscut şi sub numele de partiţie a


evenimentului sigur ..

12
TEORIA PROBABILITĂŢILOR

Exemple
Considerăm următoarele evenimente care se pot realiza la aruncarea unui zar:
A: Apariţia unui număr mai mic sau egal cu 3.
B: Apariţia unui număr par.
C: Apariţia unui număr impar.
D: Apariţia feţelor 1 sau 2.
E: Apariţia unui număr mai mare sau egal cu 4.
F: Apariţia feţei 3.
Evenimentele incompatibile sunt: B şi C; A şi E; D şi F; D şi E; E şi F. Dacă se
realizează B, nu se poate realiza şi C. Mai mult chiar, B şi C sunt complementare –
dacă nu se obţine un număr par, atunci se obţine în mod sigur un număr impar. Astfel
avem B  C , C  B , B C   .
Se observă că şi perechea de evenimente A şi E sunt complementare, deoarece
dacă nu obţinem un număr  3, atunci el este sigur  4. Avem A  E , E  A .
Evenimentele D şi E sunt incompatibile, dar nu complementare. Dacă nu se
realizează evenimentul D, se poate realiza sau nu evenimentul E (deoarece 3D şi
3E). Faţa cu numărul 3 aparţine sigur complementarului lui D, dar nu aparţine şi lui
E. Intersecţia dintre E şi D este evenimentul imposibil.
Evenimentele A şi D sunt compatibile (deoarece au în comun numerele 1 şi 2);
mai mult chiar, evenimentul D implică evenimentul A (DA). Realizarea
evenimentului D atrage după sine realizarea evenimentului A.
Evenimentele A, E şi B sunt incompatibile, deoarece nu se pot realiza simultan.
Observaţie Dacă avem două evenimente incompatibile (care pot fi şi
complementare), atunci orice mulţime de evenimente adăugată la cele două evenimente
incompatibile va forma o mulţime de evenimente incompatibile.
Reuniunea evenimentelor D şi F conduce la realizarea evenimentului A (D  F =
A).
Evenimentele B, C formează o partiţie a evenimentului sigur , adică reprezintă
un sistem complet de evenimente. Un alt exemplu de sistem complet de evenimente
este:
A1={1,2}; A2={3}; A3={4,5}, A4={6}. Într-adevăr A1  A2  A3  A4 =  şi
se respectă proprietatea de incompatibilitate a evenimentelor două câte două adică  i,j
 {1,2,3,4} cu i  j, avem Aj  Aj = Ø .

Proprietăţile probabilităţilor
În continuare vom nota cu A, un eveniment generic care poate avea loc cu
probabilitatea P(A) la realizarea unei experienţe.
Pentru orice eveniment A, probabilitatea sa este un număr cuprins în intervalul
[0,1], 0  P(A)  1. Probabilitatea evenimentului cert este 1, P() = 1.
Probabilitatea evenimentului imposibil este 0, P( Ø ) = 0.
P(A sau B) = P(A) + P(B) – P(A şi B). Această regulă poate fi scrisă şi astfel:
P(AB) = P(A) + P(B) – P(A  B).
13
TEORIA PROBABILITĂŢILOR

Reprezentăm grafic două mulţimi ce se intersectează având anumite elemente


comune. Prin urmare, evenimentele A şi B sunt compatibile. P(A) este proporţională cu
mulţimea A, iar P(B) este proporţională cu mulţimea B.

P(A) + P(B) cuprinde de două ori


A B intersecţia haşurată în figura 1.2 1.

Figura 1.2 1 – intersecţia a două evenimente.


Reunirea celor două mulţimi reprezentată în figura 1.2 2 cuprinde doar o dată
partea comună a lor, ceea ce demonstrează formula specificată mai sus.

Observaţie - Dacă evenimentele A, B


A  B sunt incompatibile, atunci:
P(AB) = Ø şi avem
P(AB) = P(A) + P(B).
Figura 1.2 2 – reuniunea a două evenimente
Probabilitatea evenimentului contrar lui A este egală cu diferenţa până la 1 a
probabilităţii lui A adică P( A ) =1- P(A).

P(A  B ) = P(A) – P(A  B).


Această regulă se observă uşor din figura următoare:

A B
A  B

Figura 1.2 3.

Dacă B  A, atunci realizarea lui B atrage după sine realizarea evenimentului A.


Aceasta înseamnă că P(A  B) = P(B) şi proprietatea anterioară devine:
P(A  B ) = P(A) – P(B), ceea ce corespunde realizării grafice de mai jos:

A - B
B

Figura 1.2 4.
Aceste proprietăţi ne ajută să calculăm probabilitatea necunoscută a unui
eveniment în cazul cunoaşterii altor probabilităţi.
14
TEORIA PROBABILITĂŢILOR

Principiul certitudinii practice


În numeroase situaţii reale se întâlnesc evenimente a căror probabilitate se află la
limitele extreme, adică aproape de 0 sau aproape de 1. Acestea se numesc evenimente
aproape imposibile şi respectiv evenimente aproape sigure. Dacă probabilitatea unui
eveniment este foarte mică (de exemplu 0,0001), atunci se poate prevedea rezultatul
experimentului. Astfel, principiul certitudinii practice afirmă că dacă probabilitatea
unui eveniment A este foarte mică şi realizăm experienţa o singură dată, atunci putem
fi aproape siguri că evenimentul nu se va produce.
Legea numerelor mari
În cadrul realizării unui experiment, calculul frecvenţei de apariţie a unui
eveniment depinde evident, de numărul de experienţe efectuate.
Considerăm exemplul următor: Avem o urnă care conţine 3 bile albe şi o bilă
neagră. Extragem o bilă, remarcăm culoarea şi o reintroducem în urnă. După efectuarea
de 5 ori a experienţei putem obţine următoarele frecvenţe de apariţie a bilelor:
- bila albă, fa=4/5, - bila neagră fn=1/5.
Calculând probabilitatea avem pentru bila albă Pa=3/4, iar pentru bila neagră
Pn=1/4 (număr cazuri favorabile raportat la număr cazuri totale). Probabilitatea diferă
evident faţă de frecvenţele calculate anterior.
Dacă repetăm experienţa de un număr mare de ori (400 de exemplu), obţinem
frecvenţele următoare: - bila albă fa=305/400, - bila neagră fn=95/400. Observăm că
frecvenţele se apropie de probabilităţile calculate anterior.
Legea numerelor mari a fost formulată de Bernoulli şi afirmă că frecvenţele de
realizare a evenimentelor se apropie de probabilităţile lor, cu cât numărul de
experienţe este mai mare.

1.3. PERMUTĂRI, COMBINĂRI, ARANJAMENTE

 Avem n elemente distincte (cărţi de joc, numere, etc.). Numărul total de


variante posibile pentru a aranja cele n elemente reprezintă mărimea matematică
numită permutări de n şi se notează n! (n factorial).
n! = 1  2  3 … n sau n! = n  (n-1)  (n-2)  …  1.
Exemplu Considerăm că avem trei cărţi de joc notate A, B, C. Prezentăm numărul
total de variante a câte trei elemente:
ABC BAC CAB
ACB BCA CBA
Avem în total 6 posibilităţi, şi conform formulei de calcul 3! = 1  2  3 = 6.

 Presupunem că avem n elemente distincte şi alegem k din acestea. Numărul


total de combinaţii de k elemente (indiferent de ordinea de apariţie) reprezintă o
mărime matematică numită combinări de n luate câte k şi se calculează cu formula:

15
TEORIA PROBABILITĂŢILOR

n! n
Cnk  . Se foloseşte şi notaţia: C nk    .
k!  (n  k )! k 
Exemplu Considerăm 4 cărţi de joc, notate A, B, C, D. Numărul total de
combinaţii ale acestora luate câte două este prezentat în continuare.
AB BC CD
AC BD
AD
În concluzie, sunt 6 variante (ordinea de aranjare nu contează – dacă avem AB sau
BA este acelaşi lucru).
Rezultatul este acelaşi folosind formula combinărilor:
 4 4! 1 2  3  4
C42      6.
 2  2 !  (4  2) ! 1  2  1  2
 Considerând aceeaşi situaţie ca în cazul combinărilor, dar în care ordinea de
apariţie a elementelor contează, obţinem o altă mărime matematică numită
aranjamente de n luate câte k a cărei valoare se calculează cu formula:
n! n!
Ank  Cnk  k !   k!   n  (n  1)  ...  (n  k  1) .
k!  (n  k )! (n  k )!
Exemplu Presupunem că avem 3 cărţi notate A, B, C. Prezentăm numărul de
aranjamente luate câte două.
AB AC BC
BA CA CB
3!
În total sunt 6 variante, ceea ce rezultă şi din calculul: A32   6.
(3  2) !
În definirea noţiunilor de permutări, combinări şi aranjamente nu există
posibilitatea (din definiţie) de a se repeta un element în cadrul unei variante. Spre
exemplu, în cazul permutărilor nu avem elementul AAA, în cazul combinărilor nu avem
BB şi nici CC în cazul aranjamentelor.
Dacă considerăm un număr de k cifre (în baza 10), numărul maxim obţinut este
10k-1. Numărul maxim de variante (obţinute prin numărare efectivă) este însă 10k,
deoarece se numără şi valoarea 0. Generalizăm această observaţie: Dacă avem k
poziţii şi pe fiecare poziţie avem p elemente posibile, atunci numărul maxim de
variante este pk.
Exemplu
Presupunem că avem două poziţii şi pe fiecare se pot afişa numerele 1, 2 sau 3.
Numărul total de variante este:
11 21 31
12 22 32
13 23 33
Sunt 9 variante şi conform cu formula: 32 = 9. Se observă că în această situaţie se
pot repeta elemente în cadrul variantelor (11, 22, 33).

16
TEORIA PROBABILITĂŢILOR

Probleme
I
Avem un pachet de 10 cărţi notate de la 1 la 10. Se amestecă pachetul şi se cere
probabilitatea ca prima carte să fie cea cu numărul 7.
Rezolvare
Metoda 1. Pe prima poziţie se poate afla una dintre cele 10 cărţi. Doar una este cea
dorită. Astfel, probabilitatea este independentă de numărul dorit şi este P=1/10.
Metoda 2. Numărul total de variante de aranjare a celor 10 cărţi este 10!.
Variantele favorabile se caracterizează prin aceea că prima poziţie este ocupată cu
valoarea dorită. Rămân doar 9 poziţii în care se pot aranja restul cărţilor. Avem 9!
cazuri favorabile. Probabilitatea este:
P=9!/10!=1/10 (aceeaşi ca la metoda 1).
Putem acum generaliza problema în felul următor. Presupunem că avem un pachet
de n cărţi, notate 1, …, n. Care este probabilitatea ca un număr de p cărţi să iasă într-o
ordine (spre exemplu 1,2, … ,p) definită la o extragere de p cărţi.
Rezolvare
Numărul total de aranjări a celor n cărţi este n!. Cazurile favorabile se
caracterizează cu primele p cărţi aranjate în ordinea dorită. Restul cărţilor pot fi
aranjate oricum, deci într-un număr de (n-p)! variante. Probabilitatea va fi P=(n-p)!/n!.

În continuare, putem modifica problema astfel: - Să se afle probabilitatea ca


primele p cărţi să conţină anumite valori, indiferent de ordinea extragerii.
Rezolvare
Pe primele p poziţii cărţile pot fi aranjate în p! variante. Restul poziţiilor pot
genera (n-p)! variante. Numărul total de cazuri favorabile este p!(n-p)!. Numărul total
de cazuri este n!. În final, probabilitatea dorită este P=p!(n-p)!/n!.
II
Se aruncă un zar de 4 ori. Care este probabilitatea ca măcar o dată să apară faţa cu
numărul 6?
Rezolvare
Avem patru poziţii . Pe fiecare poziţie pot apărea 6 valori. Numărul total
de variante posibile este 6 4. Pentru a nu avea pe nici o poziţie valoarea 6, vom calcula
numărul total de variante numai cu 5 valori. Acesta este 54. Probabilitatea de a nu avea
din 4 aruncări de zar nici o faţă cu valoarea 6 este P=54/64. Probabilitatea de a avea
măcar o dată faţa cu numărul 6 este probabilitatea evenimentului complementar şi este
P’=1-P=1-54/64=1-0,4822=0,5178.
Putem generaliza problema în sensul calculului probabilităţii de a obţine măcar un
6 din n aruncări (numărul 6 este ales generic, poate fi orice număr de pe zar).
Probabilitatea va fi: Pn = 1 – 5n/6n. Cu cât n creşte, raportul va scădea, diferenţa va
creşte şi astfel probabilitatea se va mări. Altfel spus, cu cât numărul de încercări creşte
cu atât şansa de obţinere a unui număr dorit va fi mai mare.
III
Dacă se aruncă două zaruri de 24 de ori, care este probabilitatea să se obţină o
dublă de 6-6?
17
TEORIA PROBABILITĂŢILOR

Rezolvare
Dacă avem 2 zaruri, atunci numărul total de variante care se pot obţine este 6 2=36.
Dacă aruncăm de 24 de ori cele 2 zaruri, obţinem în total 3624 variante.
Pentru a nu avea dubla 6-6 la nici o aruncare cu zarurile, atunci cu două zaruri
obţinem 36-1 variante (s-a scăzut dubla 6-6). Din 24 de aruncări vom avea 35 24
posibilităţi.
Probabilitatea de a nu nimeri dubla 6-6 este P’=3524/3624. Probabilitatea
evenimentului contrar, de a nimeri 6-6 este P=1-P’=1-3524/3624=1-0,508=0,492.
IV
Într-o urnă sunt 95 bile albe şi 5 bile roşii. Se extrag la întâmplare 5 bile. Care este
probabilitatea ca măcar una din cele 5 bile să fie roşie?
Rezolvare
Observăm că la extragere nu ne interesează ordinea de apariţie a bilelor. Astfel
variantele posibile se vor calcula cu ajutorul formulei combinărilor.
Definim două evenimente complementare:
Evenimentul 1 – nici o bilă extrasă din cele 5 nu este roşie.
Evenimentul 2 – măcar o bilă extrasă din cele 5 este roşie.
Deoarece evenimentele sunt complementare, P(ev.2)=1-P(ev.1). Calculăm în
continuare probabilitatea evenimentului 1. Pentru a nu extrage nici o bilă roşie din cele
cinci extrageri, înseamnă că lucrăm doar cu cele 95 de bile albe. Numărul de variante
5
extrase de câte 5 bile este C95 . Numărul de variante de câte 5 bile extrase din totalul
5
de 100 bile este C100 . Acum putem afla probabilitatea evenimentului 1, P(ev.1)=
5 5
C95 C100 . Evenimentul 2 fiind complementar, probabilitatea sa va fi P(ev.2)=
1  C95
5 5
C100 =0,2304.
B V
Se alege la întâmplare o coardă a unui cerc.
Care este probabilitatea ca aceasta să fie mai mare
ca latura triunghiului echilateral înscris în cerc ?
D Problema prezintă din start o incertitudine.
d Aceasta constă în lipsa de informare asupra
600 metodei de alegere la întâmplare a coardei
O cercului.
0
R 30 Rezolvarea 1
A Un triunghi echilateral înscris într-un cerc
împarte razele perpendiculare pe laturi în părţi
egale.
S-a notat cu R raza cercului şi d=OD.
Figura 1.3 1. În triunghiul ODA avem unghiul OAD=300
şi sin(OAD)=1/2=d/R => d = R/2.
Prin alegere la întâmplare, putem înţelege
determinarea unui punct din domeniul [0, R], punct ce reprezintă mijlocul coardei.

18
TEORIA PROBABILITĂŢILOR

Dacă coarda este mai mare ca latura triunghiului echilateral, atunci punctul ales trebuie
să cadă în domeniul [0, R/2] (în prima jumătate). Probabilitatea căutată este:
R
nr. cazurilor favorabile 2 1
P    0,50 .
nr. total de cazuri R 2

Rezolvarea 2
Alegerea la întâmplare poate fi înţeleasă ca
R determinarea suprafeţei pe care poate fi ales mijlocul
coardei. În figura 1.3 2 sunt prezentate două cercuri
concentrice de raze R, respectiv R/2. Probabilitatea
de a obţine o coardă de lungime mai mare ca latura
R/2 triunghiului echilateral înscris este raportul celor
două arii:
S cerc R / 2   R / 2
2
1
P    0,25 .
S cerc R  R 2
4
Figura 1.3 2.

Rezolvarea 3

O altă interpretare constă în alegerea unghiului descris



de coardă şi centrul cercului (figura 1.3 3).
2
Unghiul  are dimensiunea de 1200 sau radiani.
3
Acest unghi poate varia între 0 şi respectiv  . O coardă
mai mare ca lungime decât latura triunghiului echilateral
Figura 1.3 3. înscris se obţine pentru un unghi mai mare de 1200, sau mai
2
mare ca radiani. Putem deduce probabilitatea căutată:
3
2 1
 
P 3  3  1  0,33 .
  3
O problemă bine definită trebuie, prin rezolvare, să permită obţinerea aceloraşi
rezultate, indiferent de metoda aplicată. Datorită incertitudinii în descrierea metodei de
alegere la întâmplare a corzii, există mai multe posibilităţi care diferă, şi prin urmare
rezultatul diferă şi el.
O altă interpretare constă în alegerea lungimii corzii sub o formă aleatoare.
Această lungime variază între 0 şi valoarea 2R. Lungimea laturii triunghiului

19
TEORIA PROBABILITĂŢILOR

echilateral înscris în cerc este: L  2  R  sin(60o ) , după cum se observă din figura
2 R  2 R  sin(60) 3 2 3
1.3 1. Avem astfel: P   1   0,133 .
2R 2 2

1.4. PROBABILITĂŢI CONDIŢIONATE

Considerăm experienţa aleatoare constând în extragerea la întâmplare a unei bile


de către fiecare din două persoane, dintr-o urnă conţinând două bile albe şi o bilă
neagră. Fie A , evenimentul extragerii unei bile albe de către o persoană notată X şi B ,
evenimentul extragerii unei bile albe de către o persoană notată Y. Dacă nu dispunem
de nici o informaţie suplimentară cu privire la realizarea evenimentului A , atunci
probabilitatea extragerii unei bile albe de către persoana Y va fi, conform regulii
2
clasice de calcul a probabilităţii, P( B)  . Dacă dispunem de informaţia că A s-a
3
realizat (adică, persoana X a extras prima din urnă o bilă albă), atunci probabilitatea
1 2
extragerii unei bile albe de către persoana Y este egală cu , valoare diferită de .
2 3
Deci, informaţia că primul eveniment notat A s-a realizat, a modificat probabilitatea
evenimentului B .
În felul acesta, suntem conduşi în anumite situaţii la calculul probabilităţii unui
eveniment B , în ipoteza că un alt eveniment A s-a realizat. O asemenea probabilitate
va fi numită probabilitate condiţionată.
Definiţie
Vom nota cu P(B/A) – probabilitatea realizării evenimentului B în condiţia
realizării evenimentului A. Aceasta se va numi probabilitatea lui B condiţionată de A.
Dacă efectuăm o experienţă de n ori şi evenimentul A se produce de m ori, din care de
p ori împreună cu un eveniment B, atunci putem deduce frecvenţa apariţiei
p
evenimentului B: F ( B / A)  , frecvenţa lui B condiţionată de A.
m
Putem scrie în continuare:
p
f ( A  B)
F ( B / A)  n  .
m f ( A)
n
Menţionăm că evenimentul B se poate eventual produce şi fără evenimentul A
(formula rămâne aceeaşi).
Şi în domeniul probabilităţilor se păstrează relaţia:

20
TEORIA PROBABILITĂŢILOR

p
P( A  B)
P( B / A)  n  - Formula probabilităţii condiţionate.
m P( A)
n
Exemplul 1
Notăm cu A evenimentul naşterii unui băiat şi cu B evenimentul ca la naştere
copilul să aibă peste 3 Kg. Presupunem că avem n naşteri din care p sunt băieţi, m au
peste 3 Kg şi q băieţi au peste 3 Kg.
Dacă ştim că cel născut este băiat, care este probabilitatea evenimentului ca acesta
să aibă peste 3 Kg ?
Rezolvare
p
Probabilitatea naşterii unui băiat va fi: P( A)  .
n
m
Probabilitatea naşterii unui copil de peste 3 Kg va fi: P( B)  .
n
q
Probabilitatea naşterii unui băiat de peste 3 Kg va fi: P( A  B)  .
n
Dacă este băiat, atunci toate cazurile favorabile sunt p. Ca să aibă peste 3 Kg doar
q respectă condiţia. În concluzie, probabilitatea este:
q q / n P( A  B)
P( B / A)    .
p p/n P( A)

Exemplul 2
Într-o urnă avem 5 bile albe şi 6 bile negre. Din cele 5 albe două sunt numerotate
cu 1 şi restul de trei cu 2. Din cele 6 bile negre două sunt numerotate cu 1 şi patru cu 2.
Se extrage la întâmplare o bilă. Dacă se cunoaşte că bila extrasă este albă, care este
probabilitatea ca ea să fie notată cu 1?
Rezolvare
Notăm evenimentele: A – bila este albă.
B – bila are numărul 1 .
P( A  B)
Probabilitatea căutată este P( B / A)  .
P( A)
În total avem : 5 + 6 = 11 bile (cazuri în total).
5
Probabilitatea evenimentului A este: P( A)  .
11
2
Probabilitatea intersecţiei evenimentelor A şi B este: P( A  B)  .
11

21
TEORIA PROBABILITĂŢILOR

P( A  B) 2 / 11 2
În final obţinem: P( B / A)    .
P( A) 5 / 11 5
Putem gândi şi astfel: Dacă s-a extras o bilă albă, înseamnă că nu poate fi decât
una din cele 5 . Dacă numărul este 1, atunci nu sunt decât 2 cazuri din cele 5 albe.
Astfel probabilitatea căutată este P=2/5.
Probabilitatea intersecţiei a n evenimente
Folosind formula de calcul a probabilităţilor condiţionate se poate deduce regula
de calcul a probabilităţilor intersecţiei a n evenimente, sau regula de înmulţire a
probabilităţilor.
Presupunem că avem n evenimente notate Ai cu i={1,2,…,n}. Vom demonstra
formula:

P( A1  A2  ...  An )  P( A1 )  P( A2 / A1 )  P( A3 / A1  A2 )  .....
(1)
.....  P( An / A1  A2  ...  An 1 ).
Avem formula probabilităţii condiţionate:
P( X  Y )
P( X / Y )   P( X  Y )  P( X / Y )  P(Y ) . (2)
P(Y )
Putem inversa ordinea termenilor în intersecţia din formula 1.
P( A1  A2  ...  An )  P( An  An1  ...  A1 ) . (3)
Notăm B  An1  ...  A1 şi formula 3 devine:
P( An  B)  P( An / B)  P( B) . (4)
În formula 4 s-a aplicat şi regula din formula 2. Formula 4 este de fapt:
P( An  An 1  ...  A1 )  P( An / An 1  ...  A1 ) 
(1’)
 P( An 1  ...  A1 ).
Ultimul termen din această formulă poate fi exprimat în continuare astfel:
P( An 1  ...  A1 )  P( An 1 / An  2  ...  A1 ) 
(2’)
 P( An  2  ...  A1 ).
………………………………….
P( A2  A1 )  P( A2 / A1 )  P( A1 ) . (n’-1)
În final, înlocuind ultimul termen din formula k-1 cu cel din formula k se obţine
formula de înmulţire a probabilităţilor (k de la formula 1’ până la formula n’-1).
Formula probabilităţii totale
Considerăm un sistem complet de evenimente notate A1, A2, …, An. Avem
A1  A2  ...  An   şi Ai  A j   ,  i, j  1, n , i  j . Presupunem că
avem un eveniment X care se realizează numai împreună cu evenimente oarecare Ai.
Atunci, probabilitatea realizării evenimentului X se calculează prin:

22
TEORIA PROBABILITĂŢILOR

n
P( X )   P( Ai )  P( X / Ai ) - Formula probabilităţii totale.
i 1
Demonstraţie
Exprimăm evenimentul X funcţie de evenimentele Ai:
n
X   X  A1    X  A2   ...   X  An     X  Ai  .
i 1
Evenimentele Ai fiind incompatibile atunci şi evenimentele X  Ai vor fi tot
incompatibile. Astfel, probabilitatea reuniunii va fi suma probabilităţilor:
n
P( X )   P X  Ai  .
i 1
Folosind formula probabilităţilor condiţionate exprimăm probabilitatea intersecţiei
evenimentelor.
P( X  A j )  P( A j )  P( X / A j ) .

Obţinem formula probabilităţii totale:

P( X )  P( A1 )  P( X / A1 )  P( A2 )  P( X / A2 )  ....  P( An )  P( X / An ) 
n
P( X )   P( Ai )  P( X / Ai ).
i 1
Exemplu
Considerăm că avem trei urne. Prima conţine 2 bile albe şi 3 bile negre, a doua
conţine 4 bile albe şi 2 negre, iar a treia conţine 3 bile albe şi 3 bile negre. Din una din
urne, aleasă la întâmplare, se extrage o bilă. Care este probabilitatea ca bila extrasă să
fie albă ?
Rezolvare
Bila extrasă poate face parte din prima, a doua sau a treia urnă. Definim trei
evenimente ce formează un sistem complet:
Bila extrasă este din urna 1 (A1).
Bila extrasă este din urna 2 (A2).
Bila extrasă este din urna 3 (A3).
Evenimentul (X): bila extrasă este albă şi poate să se realizeze împreună cu unul
din cele Ai evenimente, i  1,2,3. Folosind formula probabilităţii totale avem:
P( X )  P( A1 )  P( X / A1 )  P( A2 )  P( X / A2 )  P( A3 )  P( X / A3 ) .
Cele 3 evenimente Ai au probabilităţi egale: P(A1)=P(A2)=P(A3)=1/3. Cu alte
cuvinte, şansa de a alege una din cele 3 urne este aceeaşi.

Calculăm probabilităţile condiţionate:

23
TEORIA PROBABILITĂŢILOR

nr. bile albe din urna 1 2


P( X / A1 )   .
nr. total de bile din urna 1 5
4 3 1
P( X / A2 )  , P( X / A3 )   .
6 6 2
Probabilitatea de a extrage la întâmplare o bilă albă din cele 3 urne alese aleator
este:
1 2 1 4 1 1 47
P( X )         0,52 .
3 5 3 6 3 2 90

Formula lui Bayes


n
Considerăm un sistem complet de evenimente notate A1, A2, … ,An (  Ai   ,
i 1
Ai  A j   ). Fie X un alt eveniment legat de acest sistem complet de evenimente.
i j

Se cunosc probabilităţile P(Ai) şi P(X/Ai), i{1,n}. Dacă evenimentul X s-a realizat, să


se afle P(Ai/X).

Demonstraţie
Exprimăm intersecţia a două evenimente folosind formula probabilităţilor
condiţionate în două moduri:
P( X  Ai ) P( X  Ai )
P( Ai / X )  , P( X / Ai )  .
P( X ) P( Ai )
Din aceste două formule deducem probabilitatea intersecţiei:
P( X  Ai )  P( Ai / X )  P( X )  P( X / Ai )  P( Ai ) .
Din ultima egalitate avem:
P( X / Ai )  P( Ai )
P( Ai / X )  .
P( X )
Folosind formula probabilităţii totale,
n
P( X )   P( A j )  P( X / A j ) avem:
j 1

P( X / Ai )  P( Ai )
P( Ai / X )  n
. Formula lui Bayes sau teorema ipotezelor.
 P( A )  P( X / A )
j 1
j j

Remarcă. Probabilităţile P( Ai ) , 1  i  n , se numesc probabilităţi apriori


(probabilităţi iniţiale), adică probabilităţi calculate înainte de realizarea experienţei în
care se produce evenimentul X . Probabilităţile P( Ai / X ) , 1  i  n , se numesc
24
TEORIA PROBABILITĂŢILOR

probabilităţi aposteriori (probabilităţi finale), adică probabilităţi calculate după


realizarea experienţei în care se produce evenimentul X .

Întrucât evenimentele Ai , 1  i  n , se mai numesc cauzele evenimentului X sau


ipotezele asupra evenimentului X , formula lui Bayes mai este numită formula
probabilităţilor cauzelor sau formula probabilităţilor ipotezelor.

Exemplu
Presupunem că avem un lot format din 10000 persoane de sex feminin,
participante la un test screening pentru determinarea prezenţei cancerului de sân.
Dintre acestea, la un număr de 120 de persoane a fost depistată şi confirmată prezenţa
maladiei. Prin a doua metodă - mamografie (cunoscută ca nefiind o metodă perfectă),
s-au obţinut 95 de persoane pozitive din cele 120. Dintre femeile sănătoase, deci în
număr de 9880, au avut mamografie pozitivă 880 (falşi pozitivi).
Care este probabilitatea ca o persoană la care mamografia a ieşit pozitivă să aibă
într-adevăr cancer de sân ?

Răspunsul greşit şi des întâlnit este „95/120 ce reprezintă aproximativ 80%”.


Aici trebuie atent interpretată întrebarea la care se cere rezultatul. Răspunsul dat
reflectă probabilitatea ca o persoană ce are cancer de sân să prezinte mamografie
pozitivă. Aşadar, trebuie acordată o atenţie deosebită la interpretarea corectă a condiţiei
din cadrul probabilităţii căutate.
Introducem următoarele notaţii:
T – reprezintă volumul lotului şi are valoarea de 10 000.
CS – numărul de persoane ce au cancer de sân, CS=120.
M – numărul de persoane cu mamografie pozitivă, M=95+880=975.
Putem defini probabilitatea căutată ca fiind P(CS / M ) . Răspunsul 95/120 este
pentru probabilitatea condiţionată: P(M / CS ) .
P( M / CS )  P(CS )
Conform formulei lui Bayes avem: P(CS / M )  .
P( M )
Putem acum calcula probabilităţile:
120 975
P(CS )   0,012 ; P( M )   0,0975 .
10000 10000
Dacă este să fim riguroşi putem defini evenimentele elementare CS ce arată
___
prezenţa cancerului de sân respectiv CS va însemna absenţa acestuia. Acestea două
formează un sistem complet de evenimente (necesar în formula Bayes). Probabilitatea
P(M) se va calcula cu formula (M este evenimentul mamografie pozitivă – nu se face
nici o confuzie de notaţie deoarece reflectă aceeaşi idee):
___ ___
P(M )  P(CS )  P(M / CS )  P(CS )  P(M / CS )

25
TEORIA PROBABILITĂŢILOR

120 95 9880 880 95  880 975


P( M )        0,0975
10000 120 10000 9880 10000 10000
95
P( M / CS )   0,791 .
120
Probabilitatea căutată este: P(CS / M )  9,7% .
Probabilitatea condiţionată depinde şi de procentul de mamografii pozitive din
cadrul persoanelor sănătoase.
Iniţial fără a avea rezultatul mamografiei puteam spune că pentru orice persoană
există un risc de a avea cancer de sân în proporţie de P(CS )  0,012  1,2% . După
realizarea mamografiei, pentru rezultat pozitiv obţinem P(CS / M )  9,7% , deci o
ajustare faţă de starea iniţială datorită informaţiei noi obţinute.
Formula lui Bayes ne ajută la determinarea probabilităţii evenimentului studiat în
condiţiile cunoaşterii a priori de noi factori de influenţă.

Evenimente independente stocastic


Conceptul de independenţă stocastică 3 (sau stohastică) sau independenţă în
probabilitate sau P  independenţă este specific teoriei probabilităţilor şi el a permis,
alături de alte concepte, delimitarea teoriei probabilităţilor ca disciplină matematică
independentă.
Definiţie. Spunem că evenimentele A, B asociate unei experienţe aleatoare, sunt
independente stocastic, dacă are loc P( A  B)  P( A) P( B) .
În caz contrar, evenimentele A, B sunt numite dependente stocastic. Altfel spus,
A şi B sunt evenimente dependente dacă fiecare din ele îşi modifică probabilitatea în
funcţie de realizarea sau nerealizarea celuilalt.
În continuare enunţăm fără demonstraţie câteva rezultate legate de independenţa
stocastică a evenimentelor.
Fie A şi B două evenimente asociate unei experienţe aleatoare.
1 – Dacă P(A)=0 sau P(A)=1 atunci A este independent stocastic de evenimentul
B.
2 – O condiţie necesară şi suficientă ca evenimentul A să fie independent stocastic
de el însuşi este ca P(A)=0 sau P(A)=1.
3 – În ipoteza P( B)  0 , evenimentul A este independent stocastic de
evenimentul B , dacă şi numai dacă are loc P( A | B)  P( A) .
4 – Dacă P( A) P( B)  0 şi A, B sunt independente stocastic, atunci A  B  Ø.
5 – Dacă P( A) P( B)  0 şi A  B  Ø, atunci evenimentele A, B sunt dependente.
6 – Dacă evenimentele A, B sunt independente stocastic, atunci evenimentele
perechilor ( A, B ) , ( A , B) , ( A , B ) sunt de asemenea independente stocastic.

3
Etimologic cuvântul este de origine greacă (stochos) – întâmplător, aleator.
26
TEORIA PROBABILITĂŢILOR

1.5. VARIABILE ALEATOARE

Este cunoscut faptul că în cadrul unui experiment, oricâte precauţii s-ar lua pentru
a controla diferiţi factori, rezultatele obţinute vor prezenta o anumită variabilitate.
Această variabilitate se manifestă în aproape toate domeniile de lucru, obligându-ne să
lucrăm cu intervale ale parametrilor de studiu în loc de valori fixe.
Variabila aleatoare este o noţiune fundamentală din domeniul statisticii,
reprezentând acea mărime de interes ce poate lua în cadrul realizării experimentului o
valoare oarecare, necunoscută aprioric.
Există două tipuri de variabile aleatoare, anume discrete şi continue. Variabilele
discrete iau valori izolate, cum ar fi numărul de băieţi dintr-o şcoală sau numărul de
studenţi care au nota 10 la biostatistică. Variabilele continue pot lua orice valoare
într-un interval finit sau infinit. Spre exemplu, temperatura corpului uman poate lua
orice valoare dintr-un anumit interval (chiar dacă sunt mici, aceste variaţii există).
De obicei, variabilele aleatoare se notează cu litere mari A, B, C…X, Y. Valorile
corespunzătoare se notează cu litere mici: a1, a2, …an sau x1, x2, …xn, iar probabilităţile
acestora se notează cu pa1, pa2,…pan.

Variabile aleatoare discrete

Considerăm o variabilă aleatoare notată cu A. În urma realizării experimentului se


obţin valorile a1, a2, …an, cu probabilităţile p(A=a1)=p1, …., p(A=an)=pn. Menţionăm
că numărul valorilor a1, …, an poate fi finit sau infinit. Se defineşte repartiţia ca fiind
enumerarea tuturor valorilor posibile împreună cu probabilităţile de obţinere
corespunzătoare. Repartiţia poate fi reprezentată sub formă de tabel (tabelul de
repartiţie), sau sub formă grafică. În acest fel, se face primul pas în stabilirea legii de
repartiţie a variabilei aleatoare respective.

Putem stabili legea de repartiţie cu ajutorul relaţiei:

f (ai )  P( A  ai )  P(ai )  pi .

Aceasta expresie analitică se numeşte funcţie de probabilitate.

Există situaţii în care de interes este cunoaşterea probabilităţii ca valoarea


variabilei aleatoare să fie mai mică decât un prag cunoscut (notat a): P(A  a). Aceasta
reprezintă valoarea funcţiei de repartiţie a variabilei aleatoare în a, notată:
F(a) = P( A  a).
Considerând reprezentarea grafică pentru o variabilă discretă, avem:

27
TEORIA PROBABILITĂŢILOR

7
f(x)=P(a)
6 f ( x)  P( a ) .
5
4
3
2
1
0
x
Figura 1.5 1 - Funcţia de probabilitate.

60
F(x)=P(A  a)
150

40
F ( x )  P( A  a ) .
30

20

10

0
X
Figura 1.5 2 - Funcţia de repartiţie.

k k
Este demonstrată relaţia: F (a k )  P( A  a k )   P( A  ai )   pi .
i 1 i 1

Variabile aleatoare continue

Acestea sunt caracterizate prin faptul că valorile atribuite se află într-un interval
continuu şi nu discret. Rezultă că reprezentarea prin tabelare a tuturor valorilor este
imposibilă, deoarece ar însemna realizarea unui tabel infinit ca dimensiune. Aşadar, se
impune utilizarea probabilităţii evenimentului A < a şi în concluzie, se va lucra pe
intervale de valori şi nu cu valori fixe. Funcţia de probabilitate este înlocuită la
variabile aleatoare continue cu funcţia densitate de probabilitate. Graficul densităţii de
probabilitate este prezentat mai jos pe un exemplu generic. S-a utilizat notaţia:
f(a) – funcţie densitate de probabilitate, a2 – a1 = a.
Funcţia de repartiţie se notează cu F(a) şi se calculează cu formula:

28
TEORIA PROBABILITĂŢILOR

a a
F (a)  P( A  a)   f (a) da  F
'
(a) da .
 
Suprafaţa totală cuprinsă între curbă şi axa xx’ este egală cu 1 şi reprezintă
probabilitatea ca x să se afle în intervalul ( ,  ) .

P ( A  )   f (a) da  1 .


f(a)
Densitatea de probabilitate

Suprafaţa totală are


Element de dimensiunea 1 (probabilitatea
probabilitate evenimentului sigur este 1)

a

a1 a2
1 a

Figura 1.5 3 – Descrierea densităţii de probabilitate.

Elementul de probabilitate reprezintă probabilitatea ca variabila aleatoare să ia


valori în intervalul infinitezimal a, P=f(a) a.
Probabilitatea ca variabila aleatoare să ia valori în intervalul (a1, a2) este egală cu
suprafaţa cuprinsă între cele două valori ale intervalului. Avem formula:

P(a1, a2 )  P(a1  a  a2 )  P(a  a2  a  a1 )  P(a  a2 )  P(a  a1 ) 


a2 a1 a2
P(a1 , a2 )   f (a) da   f (a) da   f (a) da .
  a1

Dacă a1 coincide cu a2, atunci avem un singur element şi probabilitatea sa este 0.


Această valoare nu trebuie confundată cu probabilitatea evenimentului imposibil, ci
indică faptul că şansa de a avea chiar elementul a1 este foarte mică în cazul intervalului
continuu (ce conţine o infinitate de valori).

Reprezentarea grafică a funcţiei de repartiţie continuă.

29
TEORIA PROBABILITĂŢILOR

Funcţia de repartiţie
20 F(a)
1
15

10

0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45
a
Figura 1.5 4.

Valorile funcţiei de repartiţie reprezintă în esenţă, valori ale ariilor delimitate de


axa absciselor şi graficul funcţiei densitate de probabilitate pe domeniul (, a) .
Dreptele asimptote sunt de ecuaţii: F(a) = 0, respectiv F(a) = 1.
Se observă că sunt respectate relaţiile:

F ()  0 , F ()   f (a) da  1 .

Daca a1  a2 atunci F (a1 )  F (a2 ) . Prin urmare, F(a) este o funcţie
crescătoare.

Valori tipice pentru variabile aleatoare continue

Dacă nu se cunoaşte expresia analitică a funcţiei de repartiţie, atunci se pot deduce


informaţii despre datele de studiu calculând valorile tipice. Aceste valori tipice
reprezintă practic, estimări sau aproximări ale valorilor reale calculate cunoscând
funcţia densitate de repartiţie.

Valori tipice de localizare

Media (, x )
Este cel mai reprezentativ indicator şi se mai numeşte şi speranţă matematică,
valoare adevărată sau medie teoretică.
Dacă avem un şir discret de date, formula de calcul a valorii medii va fi:
x1  f1  x2  f 2  ....  xn  f n n
M [ x]    xi  f i .
f1  f 2  ...  f n i 1
Numitorul este suma tuturor frecvenţelor relative şi este egal cu 1.
30
TEORIA PROBABILITĂŢILOR

Dacă numărul de experienţe creşte, atunci frecvenţa relativă tinde către


probabilitatea evenimentului i notată pi.
Pentru variabile aleatoare continue formula de calcul a mediei este:
 
  M [ X ]   x  dF ( x)   x  f ( x) dx , unde f(x) este densitatea de
 
probabilitate a variabilei aleatoare X.

Mediana (Me)
Reprezintă valoarea tipică ce împarte densitatea de probabilitate în două suprafeţe
egale. Putem spune cu alte cuvinte că probabilitatea ca X < Me este egală cu
probabilitatea ca X > Me şi are valoarea 0,5 sau altfel spus 50 %.
1
P( X  Me)  P( X  Me)   0,5 .
2
Ştiind că valoarea acestei probabilităţi reprezintă valoarea integralei definite din
funcţia densitate de probabilitate putem scrie:
Me 
1
 f ( x) dx   f ( x) dx 
2
.
 Me

Cuantile sau fractile


Reprezintă valorile abscisei care împart în suprafeţe egale densitatea de
probabilitate.
Considerăm că avem Xi (i=1…n-1) cuantile. Acestea respectă condiţia:
x1 x2 
1


f ( x) dx  
x1
f ( x) dx  ........   f ( x) dx
xn 1

n
.

Dacă avem patru suprafeţe, deci n=4, avem trei cuantile care, în acest caz, se
numesc cuartile. În figura 1.5 5 este realizată reprezentarea grafică a cuartilelor.
Reprezentarea cuartilelor

f(x)

1 Q1 Q2 Q3 x

Figura 1.5 5.

31
TEORIA PROBABILITĂŢILOR

Observaţie
Mediana este cuartila a doua sau cuantila de ordin 2 (adică împarte în două
părţi egale suprafaţa densităţii de probabilitate). Me = Q2.

Modul (Mo)
Modul reprezintă valoarea de pe abscisă corespunzătoare probabilităţii maxime
(valoare dominantă). Modul se calculează impunând condiţia ca derivata funcţiei
densitate de repartiţie în punctul x să fie zero: f ( x)  0 .

Valori tipice de variaţie


Tendinţa de variaţie poate fi măsurată cu ajutorul dispersiei şi abaterii standard.
Aceşti doi indicatori se va vedea, se pot exprima dintr-o formă generală pe baza
momentelor.

Momentul iniţial de ordin k (k>1)


Momentul iniţial de ordin k se exprimă cu ajutorul formulelor următoare:

  x
n
Pentru variabilă discretă:  ''k  M x k  k
i  pi .
i 1

Pentru variabilă continuă:  '
'k  x
k
 f ( x) dx  M x k . 


 
M x k - reprezintă media variabilei aleatoare xk.
Observaţie
Pentru k=1 momentul iniţial de ordin 1 este tocmai media variabilei aleatoare.

Momentul centrat de ordin k (k>1)


Momentele centrate se exprimă în raport cu o valoare de referinţă ce poate fi chiar
media variabilei aleatoare studiate.
Pentru variabila aleatoare discretă avem formula de calcul:

 
n
 k  M  x  M [ x]k   ( xi   ) k  pi , unde s-a folosit ca referinţă
i 1
media  a populaţiei.

Pentru variabila aleatoare continuă, avem formula de calcul:

 

 k  M x  M [ x]k   ( x   ) k  f ( x) dx .

Observaţie
Dispersia este tocmai momentul centrat de ordin 2.

32
TEORIA PROBABILITĂŢILOR

Pentru cazul discret avem :

 
n
D[ x]   2  M  x       xi     pi .
2 2

i 1
Pentru cazul continuu avem:

   x     f ( x) dx .

D[ x]    M x    
2 2 2


Abaterea standard
Prin definiţie este rădăcina pătrată din dispersie,   D[x] .
n n
   xi     p i  x  pi   2 .
2 2
Cazul discret: i
i 1 i 1
 
  x     f ( x) dx   x  f ( x) dx   .
2 2 2
Cazul continuu:
 

33
TEORIA PROBABILITĂŢILOR

1.6. REPARTIŢII DISCRETE


Repartiţia hipergeometrică (schema bilei neîntoarse)
Considerăm o urnă ce conţine a bile albe, respectiv b bile negre. Se extrag n bile
simultan sau una câte una fără întoarcere. Astfel, la fiecare extragere compoziţia urnei
se modifică. Probabilitatea ca din n bile extrase,  să fie albe, respectiv n- să fie de
culoare neagră este:
C a  Cbn
P .
C anb

Demonstraţie
n
Dacă avem a+b bile în total, numărul combinaţiilor de câte n bile este Ca  b .
Acesta este numărul total al posibilităţilor de a alege n bile, indiferent de culoare şi de
ordinea lor de apariţie.
Din a bile albe,  pot fi combinate în C a variante.

Din b bile negre,  bile pot fi combinate în C b variante.

Numărul total de variante a câte  bile albe şi  bile negre este C a  Cb .
Acum putem calcula probabilitatea ca la extragerea simultană a n bile, să obţinem
Ca  Cb Ca  Cbn 
 bile albe şi  bile negre (unde +=n): P   .
Canb Canb
În cazul general, presupunem că avem m culori şi dorim să extragem 1, 2, 3,
… , m bile, corespunzătoare celor m culori (1 + 2 + 3 + … + m = n numărul de
extrageri). Avem în total a1 bile de culoare 1, ... , am bile de culoare m.

Prin urmare, probabilitatea va fi:

Ca11  Ca22  ... .Cam


m
P .
Ca11a22......am
m

Formula de calcul a probabilităţii în cadrul repartiţiei hipergeometrice.

34
TEORIA PROBABILITĂŢILOR

Repartiţia binomială (Bernoulli)


Se consideră un model probabilistic ce respectă următoarele două condiţii:
1) Fiecare experiment are doar două rezultate posibile (notăm evenimentele
asociate cu A si A ).
2) Probabilităţile evenimentului A , şi respectiv al opusului său A , rămân
constante pe parcursul experienţelor (acest model probabilistic este
echivalent cu tipul extragerii cu întoarcere).
Notăm P( A ) =p, respectiv P( A ) = 1 – p = q.
Probabilitatea ca efectuând de n ori experienţa să se obţină de k ori evenimentul A
este:
P  C nk  p k  q nk , deci funcţia de distribuţie f (k )  Cnk  p k  q nk .
Această formulă reprezintă tocmai coeficientul termenului ce conţine pe xk din
dezvoltarea binomului lui Newton:
n
 p  x  q n   Cnk  p k  q n  k  x k .
k 0
Media şi dispersia sunt: m  n  p , respectiv  2  n  p  q .
Demonstraţie
Din n experienţe avem k realizări ale evenimentului A. Putem scrie:
A, A, ....... , A, A , A , A , ......., A .


 
de k ori de n  k ori

Probabilitatea căutată va fi calculată astfel: P( A  A  ....  A  A  ...  A )


 p k  q nk - evenimentele sunt independente. Pentru a demonstra formula vom
calcula numărul de variante posibile şi îl vom înmulţi cu această probabilitate.
Numărul de variante în care putem aranja cele k evenimente de tip A, respectiv
cele n-k de tip A este n! (practic avem n elemente), dacă pe fiecare poziţie avem
elemente distincte.
Pentru cele k evenimente de tip A avem k! variante, respectiv (n-k)! variante
pentru cele n-k evenimente de tip A .
Numărul total de variante de câte n elemente, din care k de tip A, respectiv n-k de
tip A este produsul k!  (n-k)!.
Numărul total de variante, fără a ne interesa poziţia, de k elemente A, respectiv n-k
n!
elemente A este , adică C nk .
k!n  k !
Probabilitatea cerută este : P  Cnk  p k  q n  k  .

35
TEORIA PROBABILITĂŢILOR

Repartiţia Poisson
Considerăm că avem n experienţe caracterizate de evenimentele independente A1,
A2, … , An cu probabilităţile cunoscute: P(A1)=p1, …, P(An)=pn. Oricare eveniment se
poate produce cu probabilitatea pi, iar evenimentul contrar A se realizează cu
probabilitatea qi = 1-pi. Probabilitatea ca din cele n evenimente să se producă k la
realizarea celor n experienţe, este egală cu valoarea coeficientului lui xk din
dezvoltarea polinomului:
 p1  x  q1    p2  x  q2   .....   pn  x  qn  .
Exemplu
Presupunem că avem 3 urne cu bile albe şi roşii. Prima urnă conţine 3 bile albe şi
două roşii, a doua urnă conţine 4 bile albe şi 6 roşii, iar urna a treia conţine 2 bile albe
şi 3 roşii. Se extrage câte o bilă din fiecare urnă. Care este probabilitatea de a se obţine
2 bile albe din cele 3 extrase ?
Rezolvare
Definim evenimentele independente:
A1 - bila extrasă din urna 1 este albă;
A2 - bila extrasă din urna 2 este albă;
A3 - bila extrasă din urna 3 este albă.
Calculăm probabilităţile evenimentelor Ai şi ale evenimentelor contrare Ai :
3 3 2
P( A1 )  , P( A1 )  1   .
5 5 5
4 4 6
P( A2 )  , P( A2 )  1   .
10 10 10
2 2 3
P( A3 )  , P( A3 )  1   .
5 5 5
Pentru a determina probabilitatea de obţinere a 2 bile albe din cele 3 extrase,
calculăm coeficientul lui x2 din cadrul polinomului:
3 2  4 6  2 3
  x    x    x  .
5 5   10 10   5 5

Efectuând calculele prin dezvoltarea polinomului şi ordonând termenii după


puterile lui x se obţine P=0,352.

36
TEORIA PROBABILITĂŢILOR

1.7. REPARTIŢII CONTINUE

În continuare se vor descrie câteva repartiţii continue considerate ca fiind de bază


în statistică.
Repartiţia uniformă
Repartiţia uniformă este caracterizată de faptul că toate valorile din domeniul de
definiţie sunt echiprobabile. Astfel, densitatea de probabilitate are valoare constantă.
De asemenea, suprafaţa cuprinsă în intervalul (a,b), conform figurii 1.7 2, trebuie să
aibă valoarea 1.

Funcţia de repartiţie :
F(x).

Figura 1.7 1.

Densitatea de probabilitate:
f(x).

Figura 1.7 2.

Notăm cu S suprafaţa cuprinsă de dreapta f(x) şi axa xx’ pe intervalul (a,b).


Aceasta are valoarea 1, deoarece reprezintă probabilitatea evenimentului sigur. Putem
deduce în continuare valoarea constantei c:
1
S  (b  a)  c  1  c  .
ba

37
TEORIA PROBABILITĂŢILOR

Expresia funcţiei densitate de probabilitate f(x) este:


 1
 , pentru x  (a, b),
f ( x)   b  a

 0 , pentru x  (a, b).
Expresia funcţiei de repartiţie F(x) este:

 0 , pentru x  a,
x  a
F ( x)   , pentru a  x  b,
 b  a
 1 , pentru x  b.
Funcţia F(x) se poate determina după cum urmează.
Ecuaţia dreptei este : y=F(x)=mx+n. Trebuie determinaţi m, respectiv n. Pentru
aceasta cunoaştem două puncte prin care trece dreapta. Acestea sunt:
x=a cu valoarea F(a)=0, de unde deducem prima ecuaţie: ma+n=0.
x=b cu valoarea F(b)=1, de unde avem a doua ecuaţie : mb+n=1.
Rezolvăm sistemul de ecuaţii:
m  a  n  0,
 Scădem cele două ecuaţii şi aflăm valoarea lui m.
 m  b  n  1.
1
m  (b  a)  1  m  .
ba
a
Înlocuim în una din ecuaţii pe m şi aflăm valoarea lui n: n  .
ba
Funcţia F(x) este astfel determinată.

Media repartiţiei uniforme


Aceasta se deduce din formula de calcul înlocuind funcţia densitate de
probabilitate cu expresia corespunzătoare.
 b b
x 1 x2
  M [ x]   x  f ( x) dx   dx   
 a
ba ba 2 a


1 

b a
2 2
 
b  a   b  a   b  a .
ba 2 2  b  a  2
ab
Media repartiţiei uniforme pe intervalul (a,b) este :   .
2
Dispersia repartiţiei uniforme
Conform definiţiei avem formula de calcul a dispersiei:
 b

 f ( x)  x    dx   b  a  x    dx 
1
  D[ x] 
2 2 2

 a

38
TEORIA PROBABILITĂŢILOR

b b b
1 y3
 x   2 dx 
1 1
   y 2 dy   .
b  a b  a a
b  a 3
a a

Folosind şi valoarea mediei, se obţine în final:

 2  D[ x] 
b  a 2 .
12
Repartiţia exponenţială
Densitatea de probabilitate pentru o variabilă aleatoare X repartizată exponenţial
cu coeficient negativ este definită de funcţia:
  e   x , pentru   0 si x  0,

f ( x)  

 0 , pentru x  0.

Funcţia de repartiţie se calculează cu formula:


 1
 e    
x x
F ( x)     e   y
dy     y
dy 
 
 y x
 e   e x  1 .
0
Astfel avem funcţia de repartiţie:
1  e   x , pentru   0 si x  0,

F ( x)  

 0 , pentru x  0.

Graficele funcţiei densitate de probabilitate şi al funcţiei de repartiţie sunt


prezentate în figurile 1.7 3, respectiv 1.7 4.

Figura 1.7 3 – Densitatea de probabilitate f(x).

39
TEORIA PROBABILITĂŢILOR

Figura 1.7 4 - Funcţia de repartiţie F(x).

Pe grafice sunt indicate câteva puncte de referinţă. Dacă x=0, atunci f(x)= (din
figura 1.7 3).
Panta funcţiei densitate de repartiţie în punctul x=0 este :

f ( x) x 0  2  e  x x 0
 2 .

Deducem în continuare ecuaţia dreptei tangente curbei y=f(x) în punctul x=0.


Ecuaţia oricărei drepte este: y=ax+b. Avem valoarea cunoscută x=0, y(0)=. De
aici deducem b=. De asemenea, cunoaştem şi panta a= -2.
Astfel, avem ecuaţia dreptei tangente y  2  x   (figura 1.7 3).

Pentru a afla punctul de intersecţie al dreptei cu axa xx’, punem condiţia ca y=0 şi
obţinem x=1/. Această valoare 1/, vom vedea că este tocmai media repartiţiei
exponenţiale.

Proprietatea 1
Tangenta la curba densităţii de probabilitate a repartiţiei exponenţiale în punctul
x=0, f(0)=  (punctul de intersecţie cu axa yy’) intersectează axa xx’ în punctul de
abscisă egală cu media, adică cu 1/ (figura 2.7 3).
Corespunzător valorii x=1/ avem f(1/)=e-1=0,368.
Analog se poate deduce şi proprietatea următoare.

Proprietatea 2
Tangenta la curba funcţiei de repartiţie exponenţiale în origine intersectează
dreapta paralelă cu xx’ de ordonată 1, în punctul de abscisă 1/, egală cu media
repartiţiei (figura 1.7 4).

40
TEORIA PROBABILITĂŢILOR

Media
Conform formulei de calcul obţinem:
 

 x  f ( x) dx   x    e dx .
  x
M [ x] 
 0
Dar ( f  g )'  f 'g  f  g ' 

x  e 
  x 
e   x
  xe   x
 xe   x


e   x  x  e   x  .

Aceasta o înlocuim în prima formulă, deci avem:

M [ x]    


e   x  x  e   x  dx  
1
 e   x


 x  e   x  

0
  0 0

1
M [ x]  1 /   0  .

Dispersia
Calculând valoarea dispersiei se ajunge la :


 x   
2
D[ x]   f ( x) dx 
2
.


Ca observaţie finală menţionăm că repartiţia exponenţială reprezintă un caz
particular al repartiţiilor Poisson şi Weibull.

Repartiţia normală (Gauss-Laplace)

Bazele matematice ale acestei repartiţii au fost dezvoltate de matematicianul de


origine franceză Abraham de Moivre (1730). Mai este cunoscută şi sub denumirea de
legea Gauss-Laplace, datorită contribuţiilor importante aduse de matematicianul
francez Pierre Simon de Laplace şi de către matematicianul de origine germană
Carl Friedrich Gauss la începutul secolului 19.
Repartiţia normală reprezintă forma continuă limită a distribuţiei discrete
binomiale pentru n (numărul de experimente) tinzând la infinit. Ea constituie una din
cele mai importante legi de repartiţie, ocupând un loc central în cadrul teoriei şi
practicii statistice.
Funcţia Gauss-Laplace este caracterizată de următorii parametri: media (notată ),
şi dispersia (notată 2). Expresia densităţii de probabilitate este dată de formula:
 x   2
, pentru x   ,   .
1 2 2
f ( x)  e
  2 
Se notează simbolic N(, 2) sau N(x, , 2).

41
TEORIA PROBABILITĂŢILOR

Funcţia de repartiţie se calculează cu formula:


x  x   
2
x
1
 e 2 dx .
2
F ( x)  f ( x) dx  
   2  
Prezentăm în continuare graficele funcţiei densitate de probabilitate şi al funcţiei
de repartiţie în cadrul distribuţiei normale.

0.45 f(x)
0.4
0.35
0.3
0.25 0,682
0.2
0.15
0.1 0,954
0.05
0 0,997
3 2    2 3

Figura 1.7 5 - Funcţia densitate de probabilitate f(x).

Figura 1.7 6 - Funcţia de probabilitate F(x).

Valoarea 0,682 din figura 1.7 5 reprezintă suprafaţa cuprinsă între curba densităţii
de probabilitate şi axa xx’ pentru intervalul x     ,     . Aceasta este de
importanţă majoră, deoarece semnifică probabilitatea de apartenenţă la intervalul
specificat pe axa xx’ al valorilor variabilei aleatoare studiate - va fi discutat pe larg
într-un subcapitol următor.

42
TEORIA PROBABILITĂŢILOR

Proprietăţile repartiţiei normale

P1. Distribuţia admite un singur maxim, fiind astfel unimodală. Maximul se atinge
1
în punctul x= şi are valoarea f (  )  (în acest punct x= derivata este
  2 
zero df/dx=0).
P2. Distribuţia este simetrică în raport cu dreapta x=. În orice repartiţie normală
media, mediana şi modul coincid. Datorită simetriei, suprafaţa cuprinsă între curba
densităţii de probabilitate şi axa xx’ pe intervalul  ,   este egală cu cea din
intervalul  , şi are valoarea 1/2. Evident, suprafaţa totală are valoarea 1,
reprezentând probabilitatea evenimentului sigur.
P3. În cazul oricărei curbe de distribuţie, mărimea suprafeţei corespunzătoare unui
anumit interval are semnificaţie de valoare a probabilităţii de apartenenţă a variabilei X
la acel interval.
Specific curbei Gauss, suprafaţa cuprinsă între dreptele x=-, x=+, y=0 şi
curba densităţii de probabilitate este egală cu 0,682 (sau 68,2%). Adică, 68,2% din
suprafaţa totală este cuprinsă în acest interval. Altfel spus, intervalul [    ,    ] se
numeşte interval de încredere cu o probabilitate de 68,2% - în sensul că există o
probabilitate de 68,2% ca o valoare observată dintr-o distribuţie normală să aparţină
acestui interval.
Conform calculelor şi reprezentării grafice, majoritatea cazurilor în proporţie de
peste 95% (0,954) se află în intervalul (-2 , +2 ), iar 99,7% în intervalul (-3 ,
+3 ).
Figura 2.7 5 reprezintă valorile probabilităţilor corespunzătoare domeniului pe
axa xx’.
P4. Punctele de pe abscisă de valoare +, respectiv de valoare -, sunt puncte
de inflexiune. În aceste puncte, curba densităţii de probabilitate îşi modifică
d 2 f ( x)
convexitatea. Aşadar, derivata de ordinul doi este zero:  0.
d 2x x   
P5. În punctele x   şi x   funcţia f(x) tinde la zero.
P6. Densitatea de probabilitate are formă de clopot, de unde şi denumirea sa de
clopotul lui Gauss.
P7. Coeficienţii de asimetrie şi aplatizare pentru o repartiţie normală au valoarea
0. De asemenea, momentele centrate de ordin impar sunt nule pentru o astfel de
repartiţie.
P8. Modificarea mediei duce la o translare a curbei pe direcţia axei xx’. Iată un
exemplu realizat în graficul următor.

43
TEORIA PROBABILITĂŢILOR

Avem relaţia între medii: 1   2   3 . Dispersiile sunt egale:


1   2   3   .

Figura 1.7 7 - Densităţile de probabilitate pentru medii diferite dar aceleaşi


dispersii.

1.8
f1
1.6 1
1.4
1.2 f2
1 2
f(x)

0.8
0.6
0.4
f3 3
0.2
0
1  X
Figura 1.7 8 - Densităţile de probabilitate pentru medii egale dar dispersii
diferite.

P9. Curba densităţii de probabilitate este cu atât mai ascuţită cu cât valoarea
dispersiei este mai mică. Modificarea parametrului dispersie duce la variaţii invers
proporţionale ale valorii punctului de maxim (formula prezentată la P1) al funcţiei
densitate de probabilitate.
Iată mai jos un exemplu grafic ce respectă relaţia:
 1   2   3  f1  f 2  f 3 .

44
TEORIA PROBABILITĂŢILOR

Repartiţia normală redusă


Datorită variaţiei parametrilor  şi  există practic o infinitate de repartiţii
normale. Pentru a compara funcţiile densitate de probabilitate între ele, trebuie să avem
o curbă unică de referinţă cu ajutorul căreia să putem face diferite evaluări.
Pentru aceasta vom transla curba normală în origine prin schimbarea de variabilă
z=x-. În continuare, vom normaliza funcţia printr-o nouă schimbare de variabilă
y=z/.
În acest fel se obţin valorile curbei normale reduse de medie =0 şi dispersie =1.
x
Practic realizăm o schimbare de variabilă după formula: z  .

Densitatea de probabilitate normală este:
  x   2
1 2  2
f ( x)  e .
  2 
Funcţia de repartiţie normală este:
y x   
2

1
e 2
2
F ( y )  P( x  y )  dx .
  2  
x
Notăm z   dx    dz .

Facem schimbarea de variabilă xz în funcţia de repartiţie:
y
 z2
1
F ( y)   e 2   dz .
  2  

În final, funcţia de repartiţie normală redusă (centrată şi normalizată) sau funcţia


de repartiţie Laplace va avea expresia:
z  x2
1
F ( z) 
2 
 e 2 dx .


Densitatea de probabilitate este astfel:


 x2
1
f ( x)  e 2 .
2 

De obicei, valorile funcţiei Laplace sunt tabelate, acestea reprezentând valori de


referinţă în calculele statistice.
45
TEORIA PROBABILITĂŢILOR

Functia Laplace

1/2  z 
f(z)

1 3 5 7 9 11 13 15 17 019 21 23 25 27z 29 31 33 35 37 39

Figura 1.7 9 - Densitatea de probabilitate Laplace.

Calculul funcţiei F în punctul z este descris în continuare.


z 0 z
1
F ( z)   f ( z ) dz   f ( z ) dz   f ( z ) dz  2
 ( z ) .
  0
2
z z z
1
( z )   f ( z ) dz  2 

 e 2 dz . Aceasta se numeşte funcţia integrală
0 0
Laplace.

Cărţile de specialitate conţin tabele cu valorile funcţiilor F(z) sau (z). Se va


acorda atenţia cuvenită pentru a nu confunda valorile celor două funcţii (vezi în anexă).
Probabilitatea ca o anumită variabilă de interes să ia valori într-un interval (a,b),
va putea fi astfel calculată cu formula:
b   1 a
Px  a, b   Px  b   Px  a  
1
      
2    2   
b  a
      (în termenii funcţiei integrale Laplace).
     
Aceeaşi probabilitate se poate determina şi cu relaţia :

b  a
P x  a, b   F    F  .
     

46
TEORIA PROBABILITĂŢILOR

x
Facem normalizarea prin schimbarea de variabilă z  pentru a folosi

valorile tabelate ale funcţiei Laplace.

Exemplu de calcul
Să presupunem că ne interesează să caracterizăm calitatea studenţilor din anul 3
de studiu la facultatea de medicină, prin determinarea probabilităţii pe grupele de
calificative folosite. Probabilitatea va reflecta practic frecvenţa de apariţie a unei grupe
din cadrul calificativelor. Tabelul următor defineşte legătura între aprecierea calitativă
şi notele obţinute în sistem zecimal:
Tabelul 1.7 1 – Echivalare notă calificativ.
Notă obţinută Calificativ
8,5 - 10 A
6,5 – 8,4 B
5,5 – 6,4 C
5 – 5,4 D
Sub 5 E

Se cunoaşte media pe lotul de studiu   7,8 şi de asemenea, deviaţia standard


  0,8 . Se presupune că distribuţia respectă legea Gauss – Laplace.
Pentru determinare ne vom folosi de forma tabelată a distribuţiei normalizate de
tip Gauss-Laplace (Aceste valori se află în anexele cărţii – distribuţia normală sau Z de
medie 0, respectiv dispersie 1).
Avem în total 5 clase şi patru praguri numerice, materializate prin valorile: X1=8,5
X 
; X2=6,5 ; X3=5,5 şi X4=5. Vom face schimbarea de variabilă: Z  . Astfel,

8,5  7,8
noile valori vor fi: Z1 =  0,875 ; Z2 = -1,625 ; Z3 = -2,875 ; Z4 = -3,5.
0,8
Studiind tabelul distribuţiei normale din anexă, găsim corespunzător valorii Z1,
probabilitatea  (0,875)  0,81 (probabilitatea de a obţine o valoare mai mică decât
0,875 pentru o distribuţie Gauss normalizată). Cu alte cuvinte, 81% din studenţi au
obţinut un calificativ diferit de A. Aşadar restul de 1-0,81, deci 19% au obţinut
calificativul A.
În continuare, vom determina procentul de studenţi care obţin calificativul B. Din
tabelul distribuţiei Z trebuie să citim pentru Z2= -1,625 valoarea  ( Z 2 ) . Pentru valori
negative ne folosim de proprietăţile curbei normalizate. Astfel,  (Z 2 )  1   (Z 2 ) ,
rezultând pentru cazul nostru valoarea  (1,625)  1  0,948  0,052 . Aceasta
înseamnă că 5,2% din studenţi vor obţine un calificativ sub B (dar fără B). Dacă ne
întoarcem la primul procent dedus de 81% pentru cei ce obţin calificativ de la B
47
TEORIA PROBABILITĂŢILOR

inclusiv în jos, rezultă că diferenţa, adică 81-5,2=75,8% din studenţi, vor obţine
calificativul B.
Se continuă în acest fel pentru celelalte praguri, iar rezultatele obţinute pas cu pas
sunt prezentate în tabelul următor.
Tabelul 1.7 2.
Calificativ Prag Z(echivalent)  (Z ) Probabilitatea sau
procentul
A 8,5 0,875 0,81 1-0,81=19%
B 6,5 -1,625 0,052 0,81-0,052=75,8%
C 5,5 -2,875 0,003 0,052-0,003=4,9%
D 5 -3,5 0,0002 0,003-0,0002=0,28%
E Sub 5 0,02%

Este util să se repete exemplul pentru o medie mai mică, de exemplu   7,2 iar
dispersia la o valoare mai mare,   0,9 .
Se poate anticipa rezultatul ?
Cum se vor modifica procentele din ultima coloană a tabelului ?

Repartiţia Chi pătrat (  2 )


O variabilă aleatoare se spune că este repartizată 2 cu n grade de libertate, dacă
funcţia densitate de probabilitate urmează o lege de forma :

 0 , pentru x  0,
 n x
f ( x)   1 1 
 n/2  x 2  e , pentru x  0.
2
2   n / 2

Numărul de grade de libertate, notat cu n, reprezintă numărul de variabile


independente care sunt necesare pentru a determina valoarea funcţiei. Funcţia Gama
() folosită în cadrul funcţiei de repartiţie are expresia:

( p)   x p 1  e  x dx .
0
Proprietăţile funcţiei Gama sunt următoarele:

P1.  p  1  p   p  (se demonstrează prin integrare prin părţi).


P2. 1  1 , 1 / 2   .
P3. Din proprietăţile P1 şi P2 putem deduce:  p  1  p!.

48
TEORIA PROBABILITĂŢILOR

Teoremă
Dacă avem k variabile independente, notate z1, z2, z3, …zk care sunt repartizate
k
normal N(0,1), atunci suma pătratelor variabilelor  zi2 formează o variabilă
i 1
aleatoare repartizată 2 cu n=k-1 grade de libertate.

Proprietatea de aditivitate
Dacă avem două variabile aleatoare independente repartizate 2 cu n1, respectiv n2
grade de libertate atunci prin însumare se obţine o variabilă aleatoare repartizată de
asemenea 2 cu n=n1+n2 grade de libertate.

Figura 1.7 10 - Reprezentarea grafică a funcţiei densitate de probabilitate.

Cazul n=1
1 x 
1  x
n  1  f1 ( x)   x 2 e 2  1
2  1 / 2   f1 ( x)  e 2 , cu x  0.
 2  x 
Dar 1 / 2   
Cazul n=4
x
x
Prin calcul se obţine: f 4 ( x)  e 2
, x  0.
8
Cazul n=12
x
x5
Se deduce formula : f12  x   6 e 2
, x  0.
2  6!
În cărţile de specialitate valorile funcţiei de probabilitate de distribuţie 2 sunt
tabelate în funcţie de gradele de libertate şi evident în funcţie de valoarea probabilităţii.
49
TEORIA PROBABILITĂŢILOR

Repartiţia Student (,,t”)


Numele acestei repartiţii este practic un pseudonim al statisticianul englez
William Sealy Gosset, care a pus bazele matematice ale acestei distribuţii.
William Sealy Gosset (1876-1937) fiind angajat al firmei Guinness (producătoare
de bere) din Dublin Irlanda a fost obligat de patron să nu publice lucrările cu numele
său ci să folosească un pseudonim pentru a proteja interesele firmei. Se considera un
secret economic studiul statistic şi biochimic al produselor realizate. În anul 1908
Gosset a publicat in revista Biometrika prima lucrare ce descria testul t (Student).
Densitatea de probabilitate este definită de formula:
 n 1 n 1
   2 2
 
1 2   x 
f ( x)   1 ,   x  .
2  n  n 
  
2
Repartiţia Student se obţine folosind două variabile aleatoare, una urmând o lege
de repartiţie normală N(0,1) iar cealaltă urmând o lege de repartiţie 2 cu n grade de
z
libertate, după formula: t  .
 /n
2

Proprietăţi
Această repartiţie este simetrică (f(t) = f(-t)), are media 0 (M[t]=0) şi dispersia
n
D[t ]  , pentru numărul de grade de libertate n>2. (Deoarece prescurtat se
n2
numeşte şi repartiţia ,,t”, se obişnuieşte ca variabila x să se noteze cu t).
Pentru valori mari ale lui n (n>30), repartiţia Student tinde către repartiţia normală
redusă N(0,1). În cazurile practice, pentru n>30 diferenţele dintre repartiţia ,,t” şi cea
normală sunt neglijabile.
Reprezentarea grafică a densităţii de probabilitate este indicată mai jos.

Figura 1.7 11 - Densităţile de probabilitate pentru repartiţia Student şi cea


normală (Gauss-Laplace).
50
TEORIA PROBABILITĂŢILOR

Valorile repartiţiei Student sunt tabelate funcţie de numărul gradelor de libertate şi


funcţie de valoarea probabilităţii dorite.

Repartiţia Fisher-Snedecor (F)


O variabilă aleatoare repartizată Fisher-Snedecor cu n1, respectiv n2 grade de
libertate are funcţia densitate de probabilitate de forma:
 0 , x  0,
  n  n   n n 

n1
 1 2  n1  1 2 

f ( x)   1    
      x 2  1  1  x   2  , x  0.
n 2 2 1 n
 n2   n1   n2   n 
  
      2 
 2  2 
Acest tip de repartiţie se poate obţine din două variabile aleatoare y1 şi y2
independente, urmând o lege de repartiţie 2 cu n1, respectiv n2 grade de libertate,
astfel:
Y1 / n1 Y1  n2
F   .
Y2 / n2 Y2  n1
De obicei, această repartiţie se notează prescurtat F(1,2) sau F(n1,n2).
n2
Valoarea mediei va fi: M [F ]  , pentru n2  2 .
n1  1
Valoarea dispersiei se calculează cu formula:
2  n22  n1  n2  2
D[ F ]  , pentru n2  4 .
n1  n1  2  n2  4
2

Valorile tabelate ale repartiţiei F depind de n1, n2 şi de nivelul de semnificaţie 


sau nivelul de încredere 1-. Se tabelează valoarea F, n1, n2 corespunzătoare
probabilităţii P(F>F, n1, n2).

Observaţie
Dacă avem o variabilă F(1,2), atunci variabila aleatoare obţinută de forma
1/F este tot de tip Fisher-Snedecor cu 2, respectiv 1 grade de libertate F(2,1).

51
BIOSTATISTICA

2. BIOSTATISTICA

2.1. INTRODUCERE

Statistica matematică rămâne cea mai adecvată şi exactă metodă de interpretare a


fenomenelor de masă, cu posibile legături cauzale, multifactoriale, unde legitatea se
manifestă şi se poate observa prin rezultanta unui număr mare de fapte luate în studiu.
Ca ştiinţă matematică, statistica îşi desăvârşeşte sensul şi prin biostatistică cu
aplicaţii în domenii ca: Medicină, Biologie, Farmacie, Agricultură, Ecologie.
Biostatistica poate fi definită ca fiind formată din metodele probabilistice utilizate
pentru culegerea, descrierea, analiza, interpretarea şi prezentarea datelor medicale sau
biologice în general. Aceasta este cunoscută şi cu numele de biometrie şi s-a desprins
ca subramură a statisticii, odată cu dezvoltarea tehnicilor de studiu a datelor de natură
biologică. Există chiar domeniul biostatisticii medicale, unde analizele deci metodele
folosite sunt exclusiv dedicate domeniului medical sau al sănătății. După cum era de
așteptat multe din metodele de calcul folosite în statistică au aplicabilitate în domenii
diferite precum economie, inginerie sau biologie.
Biostatistica poate fi considerată o ramură a informaticii medicale sau a
bioinformaticii, integrându-se perfect zonei ştiinţifice de prelucrare a informaţiei.
Din punct de vedere al medicului sau farmacistului, această ştiinţă trebuie
înţeleasă nu ca un aparat matematic greoi plin de proprietăţi, teoreme şi demonstraţii,
ci trebuie văzută partea sa practică, utilă pentru realizarea şi interpretarea rezultatelor
obţinute în urma analizelor. În acest sens, computerul ne ajută din plin prin programele
existente (unele chiar oferite gratuit: R, Open Epi, EpiInfo etc.), astfel încât calculul
formulelor matematice utilizate în biostatistică devine uşor de realizat, problema reală
a utilizatorului fiind doar alegerea protocolului corect de studiu şi interpretarea
pertinentă a rezultatelor obţinute.

2.2. TIPURI DE VARIABILE

Informaţia existentă este materializată prin caracteristici definite şi utilizate în


studiile statistice.
Variabila este o caracteristică sau un atribut măsurabil, care diferă de la subiect la
subiect printr-o variaţie intrinsecă, putându-şi modifica valoarea în timp şi/sau spaţiu
sub influenţa diferiţilor factori. Dacă nu ar exista această dispersie sau variaţie a
datelor, atunci şi rezultatul experienţelor, fenomenelor sau proceselor ar fi determinist
fiind exprimat într-o formă punctuală iar aplicaţia statistică nu ar avea sens.

52
BIOSTATISTICA

Există două tipuri de variabile (date) ce definesc natura informaţiei: cantitative şi


respectiv, calitative.
Datele de tip calitativ mai sunt cunoscute şi cu numele de variabile categoriale
sau atributive. Valorile acestora variază ca sortiment, categorie sau clasă, nu după
magnitudine sau mărime. Practic, nu putem realiza o ordonare între valorile existente.
De exemplu, putem cere fiecărui om dintr-un grup, să-şi exprime părerea asupra
celei mai frumoase culori dintr-o paletă dată. Evident, nu putem găsi o relaţie de genul
roşu este mai mic decât albastru (rugăm a nu se face apel aici la lungimea de undă sau
frecvenţa specifică culorii respective). Poate un exemplu mai grăitor ar fi genul unui
nou născut sau tipurile de religii existente, sau de ce nu, partidele politice.
Pentru a măsura o variabilă de tip categorial se folosesc scale nominale. Acestea
vor defini grupurile sau categoriile existente prin asignarea unor nume. Nefiind
informaţie de tip cantitativ este imposibil de realizat ordonarea acestora. De interes
practic şi posibil de studiat sunt frecvenţele de apariţie a categoriilor definite
(anticipăm aici şi menţionăm că modul4 sau indicatorul statistic valoare modală poate
prezenta interes în acest caz).
Exemple: afilierea politică, preferinţa religioasă, culoarea ochilor, starea civilă etc.

Datele sau variabilele de tip cantitativ se caracterizează prin variaţie în


magnitudine, de la element la element. Astfel, acestea pot fi ordonate, încât relaţii de
genul mai mic sau mai mare au sens în acest context. După fineţea pasului de evaluare
a relaţiei mai mare sau mai mic, putem împărţi variabilele cantitative în discrete şi
continue.
O variabilă discretă poate lua valori numărabile sau izolate, cum ar fi: numărul de
note de 10 la examenul de admitere, sau numărul de nou născuţi într-o zi la o
maternitate sau numărul de recidive în cadrul unei afecțiuni.
O variabilă de tip continuu poate lua orice valoare dintr-un interval definit. Spre
exemplu temperatura, valoarea presiunii arteriale, sau înălţimea unei persoane au valori
de tip continuu. Evident, precizia de măsurare depinde de utilitatea informaţiei, astfel
încât putem afirma că valoarea măsurată cu o exactitate de o zecimală este suficientă în
exprimarea temperaturii, folosind scara Celsius de măsură.
Variabilele de tip cantitativ folosesc trei scale (scări) de măsură: ordinală, interval
şi raport.
Scala de tip ordinal prezintă în plus faţă de scala nominală caracteristica de
ordonare a claselor de grupare a datelor. Cu toate acestea, este greu sau imposibil de
specificat dimensiunea distanţei sau diferenţei dintre clase. De exemplu, este imposibil
de cuantificat diferenţa dintre clasele (depinde de cel ce apreciază): foarte frumos,
frumos, acceptabil, neplăcut. Dar logic ordinea lor este clară.
Scala de tip interval conţine trăsăturile unei scale ordinale şi în plus, diferenţele
dintre clasele scalei pot fi specificate. O unitate a intervalului scalei are aceeaşi
interpretare, indiferent de clasa căreia îi aparţine. Cu toate acestea, raportul este
imposibil de interpretat. Nu există punctul de referinţă 0 în cadrul acestei scale de

4
Modul este valoarea din şir de frecvenţă maximă (sau valoarea întâlnită cel mai des).
53
BIOSTATISTICA

măsură. Acesta a fost ales doar arbitrar, după o anumită logică empirică. De exemplu,
în scala Celsius de temperatură, nivelul de 0 a fost definit empiric, ca punctul de îngheţ
al apei pure. Şi scala Fahrenheit de măsură este un bun exemplu. Dacă temperaturile
măsurate sunt 300C, respectiv 600C nu putem afirma că temperatura de 60 este dublul
celei de 30. Raportul nu poate fi corect interpretat. Iată, 300C înseamnă 860F, iar 600C
înseamnă 1400F. Raportul de 1 2 nu se menţine şi în scara Fahrenheit, cu toate că
temperaturile sunt aceleaşi (amintim formula: Fahrenheit=Celsius*9/5+32).
Scala de tip raport are în plus faţă de scala interval, definirea concretă a originii
sistemului de măsură, astfel încât raportul are sens şi se poate interpreta. Scara Kelvin
este un exemplu corect în acest sens (Kelvin=273.15+Celsius).
Dacă este să reprezentăm grafic tipurile de scale de măsură, acestea ar arăta ca în
figura 2.2 1.

Scala raport Scala Scala


interval ordinală Scala
nominală

Figura 2.2 1 - Scale de măsură pentru variabile.


Interpretarea este în sensul următor: oricând o variabilă ce poate fi măsurată pe o
scară ordinală poate fi tratată ca o variabilă de scală nominală, dar o parte din
informaţie va fi pierdută şi astfel avem şanse să fim deficitari în concluziile obţinute.
După legătura existentă între variabile, acestea se împart în dependente, respectiv
independente.
Variabile independente (sau factori) sunt de obicei în cadrul experimentului
manipulate de cercetător. Prin modificarea valorilor acestora, ca urmare a legăturilor
existente, se modifică şi variabilele dependente.
De exemplu doza folosită pentru aplicarea unui anumit tratament este variabila
independentă iar efectul severităţii maladiei este cea dependentă. Ca observaţie finală
în acest exemplu, variabila independentă este aceea ce se poate modifica de specialist,
doctor, farmacist, iar variabila dependentă este efectul sau rezultatul urmărit.

2.3. VARIABILITATEA DATELOR MEDICALE

Prin natura lor datele medicale prezintă o variaţie intrinsecă, biologică ce implică
pentru analiză un studiu specific care face apel la teoria probabilităţilor. Pe lângă
această variaţie există şi modificări ale valorilor reale măsurate, datorate erorilor
generate de metoda metrologică aplicată, cât şi a impreciziei observatorilor.

54
BIOSTATISTICA

Variaţia biologică prezintă interes şi este studiată, iar celelalte variaţii sunt erori ce
trebuie minimizate.
Datorită legăturilor interne şi externe, există în continuare variaţii de tip intra-
respectiv inter- grupuri.

Variabilitate
totală

Analitică sau Biologică


metrologică

Instrumentală De observator Individuală

Intra- Inter- Intra- Inter- Intra- Inter-

Figura 2.3 1 - Surse de variaţie a datelor medicale.

Variaţiile datorate erorilor de măsură sunt caracterizate de inexactitate şi de


precizie. Întâlnite şi ca sinonime, acestea diferă semnificativ în teoria metrologică.
Inexactitatea este datorată incapacităţii de a măsura perfect o anumită mărime.
Aceasta nu se datorează erorii aparatului de măsură, ci depinde de factori perturbatori,
cum ar fi: modificări de temperatură, ale câmpului electric sau ale câmpului magnetic
de exemplu.
Precizia se referă la fidelitatea măsurătorii. Aceasta depinde de sensibilitatea
(fidelitatea) aparatului de măsură. Prin repetarea măsurătorii se va obţine (de dorit)
aceeaşi valoare. Precizia se măsoară în numărul de zecimale corecte pe care le obţinem
printr-o anumită măsurătoare.

2.4. REPREZENTAREA DATELOR STATISTICE

Datele culese experimental urmează a fi analizate conform metodelor statisticii.


Datele se culeg în general dintr-o populaţie statistică sau colectivitate statistică.
Elementele populaţiei sunt numite unităţi statistice sau indivizi. La un anumit moment
ne interesează o trăsătură comună a indivizilor, numită variabilă sau caracteristică.
În general, informaţiile ce se culeg sunt numai de la o parte din indivizi, nu din
întreaga populaţie. Aceasta este o cercetare selectivă. Astfel de indivizi formează
eşantionul sau selecţia de lucru.
O formă simplă de a obţine informaţii referitoare la populaţie din datele de pe
eşantioane este oferită de metodele statisticii descriptive. Aceasta implică culegerea
55
BIOSTATISTICA

datelor, prezentarea lor sub formă de tabele, întocmirea unor reprezentări grafice şi
calculul indicatorilor statistici (astfel se extrag primele informaţii). Crearea tabelelor şi
a graficelor ajută la o interpretare mai uşoară a datelor.
Presupunem că avem şirul de date notat: x1, x2, …, xn. Acestea sunt culese în
ordinea realizării experimentale. Tabelul datelor primare reprezintă aceste date în
ordinea culegerii lor.

Tabelul 2.4 1 - Tabelul datelor primare


x1 x2 x3 x4 x5
x6 x7 x8 x9 x10
x11 x12 x13 x14 x15
x16 x17 x18 x19 x20

Este evident că acest tabel conţine o masă dezordonată de valori. Interpretarea lor
este greoaie, de aceea se creează al doilea tip de tabel, anume, tabelul datelor ordonate.
Acesta din urmă oferă mai multă informaţie, mai ales prin ordonarea datelor, dar este
încă greu de interpretat, în special la cantităţi mari de date. O nouă îmbunătăţire este
necesară.
Pentru a evidenţia caracteristicile variabilelor de studiu, se creează un alt tip de
tabel, cu datele grupate în intervale de clasă.
Gruparea termenilor
Pentru a reprezenta datele sub o formă mai restrânsă se foloseşte gruparea
acestora. Aceasta înseamnă crearea unui tabel cu două coloane pentru fiecare variabilă
de interes. În prima coloană se trece intervalul variabilei de studiu, iar în a doua se
trece numărul de apariţii în acel interval.
Intervalele trebuie să fie disjuncte şi consecutive, astfel încât de la valoarea
minimă până la valoarea maximă să fie acoperită toată plaja de valori.
Numărul indivizilor ce aparţin unui anumit interval (sau clasă) formează frecvenţa
absolută a intervalului, notată a1, a2, …, am (unde m este numărul de clase care nu
poate fi decât mai mic sau egal cu n, numărul de indivizi).
m
Avem relaţia: a j  n , unde :
j 1
aj – frecvenţa absolută a clasei j.
m – numărul de clase.
n – numărul de indivizi.

Frecvenţa relativă fi se obţine raportând frecvenţa absolută ai la numărul de


indivizi, notat cu n.
aj m m aj n
fj 
n
şi avem relaţia:  fj   n

n
 1.
j 1 j 1

56
BIOSTATISTICA

Frecvenţa cumulată este numărul de indivizi cumulaţi până la o anumită valoare


a variabilei de studiu.
La rândul ei frecvenţa cumulată poate fi absolută şi relativă. Pentru frecvenţele
cumulate se folosesc de obicei la notaţie litere mari.

Tabelul 2.4 2 – Exemplu generic de grupare a pacienţilor după vârstă.


Vârsta Frecvenţa Frecvenţa Frecvenţa Frecvenţa
absolută (ai) relativă (fi) relativă absolută
cumulată (Ai) cumulată (Fi)
0–4 15 0,138 0,138 15
5–9 17 0,157 0,295 32
10 – 14 20 0,185 0,48 52
15 – 19 16 0,148 0,628 68
20 – 24 19 0,175 0,803 87
25 + 21 0,194 1 108
suma 108 1

Numărul intervalelor de grupare se poate calcula cu relaţia lui H.A. Sturgers :


k  1  3,322  ln(n) , unde:
k – numărul de intervale (se ia partea întreagă).
n – numărul datelor de studiu.
Se poate folosi şi relaţia H.B. Mann şi A. Wald pentru n > 100 :
1
1 5
k  4    n  1 (se ia partea întreagă).
4 
Intervalele de grupare au dimensiuni egale cu excepţia eventuală a celor extreme,
care de obicei au dimensiuni mai mari pentru a acoperi plaja de valori.
Dacă dimensiunea eşantionului este mai mică decât 25, atunci nu se aplică
împărţirea pe clase.
Reprezentarea datelor prin diagrame
Graficele se creează prin reprezentarea proporţională cu valorile numerice, a
formelor de bare, linii, sectoare de cerc sau chiar puncte aflate în anumite sisteme de
coordonate. Forma graficelor scoate în evidenţă proprietăţi care se observă greu din
prezentarea tabelară. Diagramele nu dovedesc o legitate sau o relaţie, dar scot în
evidenţă posibile trăsături sau sugerează caracteristici ce trebuie apoi verificate.

Histograma
Este reprezentarea sub formă grafică, a unor dreptunghiuri cu înălţimea
proporţională cu frecvenţa, iar cu baza egală cu dimensiunea intervalului de grupare.
Există histograme ale frecvenţelor absolute, relative şi cumulate.

57
BIOSTATISTICA

Exemplu

Figura 2.4 1 – Histograma frecvenţelor absolute.

Figura 2.4 2 – Histograma frecvenţelor absolute cumulate.

Diagrama cu linii
În locul barelor folosite la histogramă se pot trasa linii verticale ce trec prin
punctele definite de valoarea frecvenţelor reprezentate.

Poligonul frecvenţelor
Este asemănător histogramei. Se trasează punctele corespunzătoare centrului
intervalului şi frecvenţei dorite, apoi se unesc prin linii aceste puncte.

58
BIOSTATISTICA

Exemple

Diagrama cu linii Poligonul frecventelor


30
25 30
25 25 25
20 19
20
17 18 20
15 15 20
15 15 19
17 18
10 10
15 15
5 5
0 0
Interval varsta Interval varsta

Figura 2.4. 3. Figura 2.4. 4.

Diagrama Tukey (cunoscută şi sub numele de „stem and leaf” – tulpină şi


frunză)

Histograma prezintă grafic distribuţia de frecvenţă. Prin gruparea datelor şi


crearea de clase se are în vedere o caracterizare totală a datelor pe categorii. Astfel, se
pierde o parte din informaţie şi reconstrucţia datelor după histogramă este imposibilă
(este posibilă doar dacă s-ar reprezenta element cu element).
Diagrama de tip Tukey prezintă în plus faţă de o histogramă, posibilitatea de a
reconstitui datele şi de a vedea componenţa (densitatea) elementelor în cadrul unei
clase. Din punct de vedere al prezentării, această diagramă este mai puţin aspectuoasă,
căci reprezintă numere suprapuse pentru fiecare categorie în parte.

Exemplu
Presupunem că avem de reprezentat diagrama Tukey pentru setul de date grupate
pe clase:
Tabelul 2.4 3 - Diagrama Tukey
Clasa Valori Frecvenţă Diagrama Tukey
1 10; 10; 10,6 3 10. 006
2 11; 11,3; 11,3; 11,5 4 11. 0335
3 12; 12,2; 12,3; 12,3; 12,8; 12,8 6 12. 023388
4 13,3; 13,7 2 13. 37
5 14,5 1 14. 5

Construcţia diagramei porneşte de la a scrie numărul întreg ce defineşte limita


inferioară a clasei. Astfel avem: 5 clase de la 10 la 10,9, apoi de la 11 la 11,9 etc.
Primul număr din ultima coloană este aşadar 10 pentru prima clasă, 11 pentru a doua şi
aşa mai departe până la ultima clasă.
59
BIOSTATISTICA

Urmează apoi un punct despărţitor şi pentru fiecare valoare prezentă se trece


partea zecimală. Astfel, pentru prima clasă avem de două ori valoarea 10 şi vom trece
doi de zero. Avem în ordine crescătoare valoarea 10,6, vom trece astfel valoarea finală
6.
Se observă clar influenţa fiecărui element în diagramă cu posibilitatea reconstruirii
datelor eşantionului de studiu.

Graficul de tip Box-and-Whiskers

Este o metodă ce prezintă în mod compact forma distribuţiei unui set de date. Se
foloseşte cu succes în compararea şi determinarea simetriei repartiţiei definite de un lot
de date (box – cutie, whiskers – mustăţi).

Variabila
studiată 1

2
3
4
5

Lot 1 Lot 2 Lot 3

Figura 2.4 5.
Pentru realizarea graficului se calculează anumiţi indicatori statistici ce reprezintă
cele 5 limite ale figurii din dreapta (folosim noţiunile de mediană, cuartile şi cuantile
definite pentru cazul discret în capitolul următor).
Mediana este valoarea din cadrul şirului ordonat care se află la jumătatea acestuia.
Aceasta împarte setul de date in două grupe egale şi este reprezentată în grafic de linia
notată cu 3.
Limitele 2, respectiv 4 reprezintă valorile cuartilelor. Acestea împart distribuţia
de frecvenţă în patru părţi egale. Astfel în total sunt 3 ca număr. Cuartila a doua este
chiar mediana. Intervalul intercuartilic este definit de distanţa dintre limitele 2 şi 4.
Între acestea se află 50% din setul de date.
Extremele 1, respectiv 5 sunt determinate de  - cuantile. De obicei se alege
  10% (decile). Astfel, nivelul 5 din grafic va prezenta cuantila  pentru care 10%
din date sunt sub această valoare, iar nivelul 1 din grafic va reprezenta valoarea pentru
care 90% din date sunt sub acesta.
Graficul este relevant prin faptul că scoate în evidenţă nivelul de simetrie al
distribuţiei. Dacă distribuţia nu este simetrică, mediana nu se va afla la mijlocul
dreptunghiului (în cele mai multe cazuri). Mai mult, laturile din afara dreptunghiului
nu vor fi de dimensiuni egale.
60
BIOSTATISTICA

Această simetrie este bine să fie verificată, chiar prin teste specifice, deoarece
dacă setul de date este provenit dintr-o distribuţie normală (Gauss-Laplace), atunci
proprietăţi şi metode statistice proprii pot fi utilizate în analiza datelor.

Diagrame de structură
Reprezintă forme grafice construite cu ajutorul dreptunghiurilor sau al sectoarelor
de cerc, care arată proporţia în cadrul eşantionului a anumitor variabile.

100%
Dreptunghi de structura Cerc de structura
90% 15
80% 18 15 13
70%
19 18 17
60%
50% 25
40%
30% 20 20
20% 19
17
10% 25
15
0%

Figura 2.4 6. Figura 2.4 7.

Sunt situaţii în care se doreşte reprezentarea grafică a unui eşantion după mai
multe caracteristici. Se poate apela la spaţiul tridimensional (dacă avem doar trei
dimensiuni) şi prin proiecţia în spaţiul bidimensional se obţine graficul dorit.
Iată un exemplu în care în spaţiul bidimensional se reprezintă mai mult de două
informaţii pe acelaşi grafic. Piramida vârstelor este reprezentarea grafică a distribuţiei
populaţiei pe vârstă, sex şi de asemenea se reprezintă şi proporţia populaţiei active.
Piramida varstelor
populatie
activa
1924
1936
An nastere

1948
1960
1972
1984
-30 -20 -10 0 10 20 30
Femei Barbati mii persoane

Figura 2.4 8 - Reprezentarea pe acelaşi grafic a mai multor caracteristici.


Axa XX` se împarte prin origine în două subgrupe reprezentând sexul persoanelor.
Valorile negative se interpretează în modul, deci valoare absolută, sensul axei
reprezentând sexul.

61
BIOSTATISTICA

Axa YY` reprezintă anul de naştere sau anul de studiu.


Populaţia activă este şi ea reprezentată prin suprafaţa semitransparentă, suprapusă
peste populaţia totală la un anumit moment.

2.5. INDICATORI STATISTICI

Extragerea de informaţii dintr-un set de date se realizează în prima etapă prin


calculul indicatorilor statistici, realizând o formă descriptivă a cunoştinţelor. Tot în
această fază de lucru, reprezentarea repartiţiei de frecvenţe poate aduce informaţii
suplimentare asupra tipului de distribuţie urmat de datele de examinare.
În studiul distribuţiei de frecvenţe a caracteristicii unei populaţii se observă o
tendinţă de variaţie cu două aspecte: 1 – de localizare (de poziţie), 2 – de împrăştiere
(de variaţie).
Analiza cantitativă care să permită evaluări şi comparaţii din punct de vedere al
localizării sau al împrăştierii datelor se poate efectua numai cu ajutorul indicatorilor
statistici. Aceştia exprimă numeric pe baza valorilor de studiu, fie localizarea, fie
variaţia datelor.

Indicatori de localizare sau de poziţie


Prin determinarea acestora, se indică valoarea spre care tind să se grupeze datele
reale. Sunt mai multe tipuri de indicatori de poziţie, care diferă ca mod de calcul şi de
asemenea, funcţie de caz şi în valoare.

Media aritmetică (simplă)


Este indicatorul de bază al tendinţei de localizare. Considerăm şirul de date x1, x2,
…,xn. Media aritmetică se notează cu X sau M(x).
n

x  x 2  ...  x n
 xi
i 1
Formula de calcul: x  1  .
n n
Media aritmetică ponderată
Dacă avem frecvenţele absolute a1, a2, … , am corespunzătoare valorilor x1, x2,
…., xm), atunci media se poate calcula conform formulei:
m
a j  x j
a  x  a 2  x2  .....  a m  xm j 1
x 1 1  ,
a1  a 2  ...  a m n
sau, folosind frecvenţele relative fj,
m
aj  xj m aj m
j 1
x
n
  n
 xj   f j  xj.
j 1 j 1
62
BIOSTATISTICA

Media aritmetică ponderată şi media aritmetică simplă reprezintă acelaşi indicator.


Evident pentru un şir de date valoarea mediei aritmetice este aceeaşi indiferent de
metoda de calcul. Totuşi în practică se poate greşi dacă se calculează media folosind
numai valorile unice din cadrul şirului. Trebuie acordată o atenţie deosebită în
exprimarea frecvenţei de apariţie a valorilor unice.
Exemplu
Dacă avem şirul format din elementele {x1, x2, x3, x3, x4, x5} se poate greşi dacă
x1  x2  x3  x4  x5
media se calculează cu formula: X  (deoarece x3 apare de
5
două ori).
Media armonică
Se utilizează în calculul valorii medii pentru mai multe mărimi relative (este mai
potrivită decât valoarea medie simplă).
Valoarea reciprocă (inversă) a mediei armonice este media reciprocelor valorilor
din lot. Pentru şirul de valori x1, x2, x3, … , xn se notează cu MH media armonică.
Formula de calcul este :
1 1 n 1 1 n
  , MH   n , cu condiţia xi  0 .
M H n i 1 xi 1 1 1 1
  ... 
x1 x2 xn i
1 xi
n
Considerând frecvenţele absolute ai obţinem următoarea formulă de calcul a
n n
mediei armonice ponderate: M H  n  m .
1 aj
 x
i 1 xi j 1 j
n 1 1
Notând cu fi frecvenţele relative obţinem: M H    .
m a aj m fj
x x
j
m
j 1 j  n
xj
j 1 j
j 1
n
 Xi
i 1
O formulă echivalentă este: M H  .
n 1
 '
 Xi
i 1 xi
Xi reprezintă valorile absolute, x i' sunt valorile relative, n volumul eşantionului.

Exemplu
Mortalitatea în 5 localităţi este de 8‰, 9‰, 9,5‰, 10‰, respectiv 7‰. Numărul
de locuitori este 4000, 6000, 4300, 5000, respectiv 6340.

63
BIOSTATISTICA

4000  6000  ...


NH   8,47 0 00 .
1 1
 4000   6000  ...
8 9
Este un indicator de localizare mai bun decât media aritmetică pentru acest caz.
Se foloseşte rar, fiind util în special în cadrul distribuţiilor în formă de J.

Media cronologică
Este utilizată pentru seriile care au variaţii în timp (lunare, semestriale sau anuale).
X1 Xn
 X 2  ...  X n 1 
Formula de calcul: M C  2 2 .
n 1
Exemplu Numărul de gravide aflate în evidenţă la început de an a fost de 106. La
sfârşitul celor 4 trimestre au fost 111, 125, 131 şi 84. O aproximare mai bună a mediei
106  111  125  131  84
pe trimestre este: M C  2 2  115 .
5 1

Media geometrică
Se utilizează în calculul coeficienţilor de creştere medie a valorilor unei serii
cronologice logaritmice, sau a seriilor cu creştere progresivă cu raţie crescătoare. De
exemplu, se foloseşte în calculul ritmului mediu de creştere anuală sau în dinamica
sporului natural al populaţiei.
Media geometrică a unui şir de valori x1, x2, … , xn se notează de obicei cu MG şi
se calculează cu formula:
n
M G  n x1  x2  x3 ...  xn  n  xi .
i 1
Prin înmulţirea numerelor se poate ajunge uşor la valori foarte mari. Pentru a nu
depăşi valoarea maximă admisă de computer, se poate folosi următorul artificiu
matematic:
lg x1  lg x2  ......  lg xn 1 n
lg M G     lg xi  lg xi se calculează media
n n i 1
logaritmului de xi.
Reamintim şi formula de trecere dintr-o bază a logaritmului în alta:
log bc
log ba  (ce este utilă în astfel de calcule).
log ca

Media pătratică
Fie şirul de valori x1, x2, x3, …, xn. Media pătratică se notează MP şi se calculează
cu formula:

64
BIOSTATISTICA

n
 xi 2
i 1
MP   x 2 , radicalul din media pătratelor valorilor.
n

Mediana
Notăm valorile unui şir cu x1, x2, x3, …, xn. Suplimentar, acest şir trebuie să fie
ordonat. Valoarea ce ocupă locul central (independentă de tipul de ordonare
crescătoare sau descrescătoare) se numeşte mediană şi se notează cu Me. Dacă şirul are
un număr impar de valori, adică n = 2k+1, avem :
Me  xk 1  x n1 .
2
Dacă şirul are un număr par de valori, deci n=2k, calculăm mediana cu formula:
xk  xk 1 xn / 2  xn / 2 1
Me   .
2 2
Mediana (indicator robust) este mai puţin influenţată de valorile extreme decât
media şi este mai stabilă la fluctuaţiile de selecţie.
Se utilizează în serii de date de volum mare cu valori apropiate, deci colectivităţi
omogene.

Modul (modulul sau dominanta)


Fie şirul format din elementele x1, x2, x3, … , xn. Valoarea xi corespunzătoare
frecvenţei celei mai mari poartă numele de mod. Repartiţia poate avea mai multe
maxime, dar de obicei doar unul este global, celelalte fiind locale. Dacă există un
singur maxim repartiţia se numeşte unimodală, cu două maxime se va numi bimodală,
iar cu mai multe maxime este numită polimodală sau multimodală.

Bimodală Multimodală
Unimodală

Figura 2.5 1 – Tipuri de repartiţii (x-valoare variabilă, y-densitatea de


probabilitate).
Sunt situaţii în care datele sunt grupate pe clase. În acest caz intervalul
corespunzător frecvenţei maxime se numeşte interval modal sau clasă modală. Modul
se notează cu Mo.

Metoda de determinare a modului pentru un set de date împărţite pe clase se va


descrie în continuare. În figura de mai jos, sunt reprezentate trei intervale de grupare ce
cuprind frecvenţa maximă.
65
BIOSTATISTICA

a b

f B F C
f1 f2
A E
D

L
0
L1 L2 M0 L3 L4 X
Figura 2.5 2 - Metoda deducerii modului.

Deoarece frecvenţa intervalului determinat de L1, L2 este mai mare decât frecvenţa
intervalului determinat de L3, L4 este normal ca poziţia modului să fie mai apropiată de
primul interval. Evident, intervalul modal este L2, L3. M0 se află la intersecţia dreptelor
BD şi AC.
Triunghiul CEF este asemenea cu triunghiul CAB (deoarece FE este paralelă
cu BA şi vârful C este comun). Avem raportul de asemănare:
f1 a  b f  b
  ab  1 . (1)
FE b FE

BEF este asemenea cu triunghiul BDC 


f 2 a  b f  a
  ab  2 . (2)
FE a FE
Din relaţiile (1) şi (2) scoatem valoarea a+b şi egalăm rezultatele:
f1  b f 2  a
ab    f1  b  f 2  a . (3)
FE FE
Dar a  b  L3  L2  L . (4)
( L reprezintă lungimea intervalului de clasă).
f 2
Din (3) rezultă b  a şi înlocuind în (4) avem:
f1
f 2 L  f1
a  a  L  a . (5)
f1 f1  f 2
Valoarea modală este:
L  f1
M o  L2  a  L2  . (6)
f1  f 2
66
BIOSTATISTICA

Valoarea centrală

Reprezintă media extremelor şirului de date studiat.


X max  X min
Xc  .
2
Dacă valorile din şirul de date sunt grupate pe clase, formula de calcul devine:
X clasa inf .  X clasa sup.
Xc  .
2
Este uşor de observat că valoarea centrală este puternic dependentă de extreme şi
nu de valorile tuturor datelor.

Proprietăţile caracteristicilor de localizare


Putem enumera următoarele proprietăţi specifice caracteristicilor de localizare:
 Mediile aritmetică şi pătratică sunt influenţate de valorile mari ale şirului.
 Mediile geometrică şi armonică sunt mai puternic influenţate de valorile mici
ale şirului.
 Mediana nu este influenţată de valorile extreme.
 Valoarea centrală nu depinde de toate valorile şirului de date, ci numai de cele
extreme.
 Relaţie existentă între medii este: M H  M G  X  M P .
 Cel mai des indicator de localizare folosit este media aritmetică.

Indicatori de variaţie
Valorile medii descriu informaţia într-o formă integrată, exprimând tendinţa de
localizare a datelor prin neprezentarea cunoştinţelor înglobate în lot despre variaţia
existentă. Indicatorii de localizare redau doar o singură trăsătură comună întregii
colectivităţi. Se simte nevoia definirii unor noi indicatori statistici care să evidenţieze şi
alte aspecte ale populaţiei studiate.
Categoria de indicatori de dispersie (variaţie) reprezintă o evaluare numerică a
împrăştierii datelor. Variaţia luată în considerare se poate raporta chiar la valoarea
medie calculată.

Dispersia (varianţa)
Dispersia sau varianţa reprezintă o mediere a pătratelor distanţelor faţă de
valoarea medie a şirului de date. Se notează cu  2 sau D[x]. Are următoarea formulă
de calcul (pentru volumul n al eşantionului de valori mari, n>30):
n

x1  x 2
 x2  x   .....  xn  x 
2 2  xi  x 2
i 1
2   .
n n
67
BIOSTATISTICA

Dacă avem valorile x1, x2, x3, …, xn cu frecvenţele absolute a1, a2, …, am, atunci
formula de calcul devine:
a1  x1  x 2  a2  x2  x 2  .....  am  xm  x 2
2  
a1  a2  ....  am
m m
 ai  xi  x 2  ai  xi  x 2
 i 1 m
 i 1 .
n
 ai
i 1
Considerând frecvenţele relative fi, obţinem:
m
 ai  xi  x 2 m m
 xi  x 2   f i  xi  x 2 .
ai
 2  i 1 
n i 1 n i 1
Sunt cazuri în care dispersia trebuie estimată dintr-un eşantion de date. Dacă
volumul eşantionului este mai mic decât 30, atunci se aplică o corecţie formulei de
calcul. În acest caz ajustarea este în sensul că nu se împarte la n ci la n-1 (numit şi
numărul gradelor de libertate).
n n
 xi  x 2  xi  x 2 n n
 2 estimat  i 1  i 1   2  .
n 1 n n 1 n 1

Abaterea pătratică medie (deviaţia standard)


Prin extragerea rădăcinii pătrate din dispersie se obţine abaterea pătratică medie.
Astfel, deviaţia standard şi indicatorii de localizare se exprimă cu aceleaşi unităţi de
măsură.

n
 xi  x 2
i 1
D[ x]    .
n
Ţinând cont de frecvenţele absolute şi relative pe intervale avem:
m
 ai  xi  x 2 m m
 ni  xi  x 2   f i  xi  x 2 .
i 1 a
 
n i 1 i 1

Putem dezvolta expresia dispersiei în continuare:

68
BIOSTATISTICA

n n n n
 xi  x 2  xi 2 2   xi  x x2
i 1 i 1 i 1
    i 1 
n n n n
n n

1 n 2
 xi x2
   xi  2  i 1  x  i 1 .
n i 1 n n
n n
 xi x2
1 n 2 i 1 i 1 1
Ştiind că   xi  M P2 , x ,  n x2  x2,
n i 1 n n n
dispersia devine:
  M P2  2  x 2  x 2  M P2  x 2 .
Abaterea pătratică este rădăcina pătratică din diferenţa dintre pătratul mediei
pătratice şi pătratul mediei aritmetice.

Amplitudinea
Este definită ca diferenţa valorilor extreme ale şirului de date studiat şi se notează
cu W sau A (în majoritatea cazurilor): W = A = Xmax - Xmin .
În cazul grupării datelor pe clase se defineşte şi noţiunea de amplitudine a clasei,
notată cu wi (corespunzător clasei i). Această mărime este egală cu diferenţa dintre
valorile extreme ale clasei respective. Cu cât este mai mică valoarea sa cu atât lotul
este mai omogen.
Aspecte negative ale amplitudinii :
- depinde de eşantion, având variaţii pentru fiecare eşantion în parte ,
- nu ţine seama de tipul repartiţie.

Intervalul intercuartilic
Cuartilele (sau cvartilele) împart datele în 4 clase de frecvenţe egale cu 25%.
Astfel, sunt necesare 3 valori Q1, Q2, Q3 care reprezintă cuartilele. Presupunem că
avem o distribuţie a frecvenţelor parametrului x (discret), conform graficului din figura
2.5 3.
Suma frecvenţelor până la limita determinată de Q1 este egală cu suma
frecvenţelor dintre Q1 şi Q2, de asemenea egală cu suma frecvenţelor dintre Q2 şi Q3 şi
în final, egală cu suma frecvenţelor de după Q3. Dacă repartiţia ar fi fost de tip
continuu, această sumă ar fi integrala determinată de limitele notate Qi.

Intervalul cuartilic se defineşte ca fiind diferenţa dintre Q3 şi Q1 (ultima şi prima


cuartilă). Q1 se numeşte cuartilă inferioară sau mică, Q3 se numeşte cuartila
superioară sau mare. Prin urmare, intervalul intercuartilic va fi:
Iq = Q3 – Q1.
69
BIOSTATISTICA

Observaţie
Cuartila Q2 este tocmai mediana Me.

Se defineşte coeficientul de variaţie intercuartilică ca fiind raportul :


Q3  Q1 I q
q  .
Q2 Me

Figura 2.5 3 - Cuartilele.

Coeficientul de variaţie
Abaterea pătratică medie se interpretează prin compararea cu media valorilor
studiate. Dacă avem o medie de 100 şi o abatere pătratică standard   5 , atunci avem
mici variaţii, dar dacă avem aceeaşi abatere la o medie de 10, atunci variaţia este foarte
mare. În concluzie, este necesară raportarea abaterii pătratice la valoarea mediei, pentru
a exprima corect împrăştierea datelor. Se defineşte coeficientul de variaţie:


Cx  .
x

Acest coeficient este o măsură relativă a variaţiei datelor faţă de medie. Astfel,
indiferent de medie, seturile de date, chiar de natură diferită, pot fi comparate folosind
coeficientul de variaţie.

70
BIOSTATISTICA

Momente
Momentele ajută la determinarea anumitor caracteristici legate de forma (alură)
repartiţiilor, care nu pot fi determinate doar cu indicatorii statistici de localizare sau
variaţie.
Momentele centrate de ordin k (k1):
Se definesc momentele centrate de ordin k în raport cu originea arbitrară A, ca
1 n
mkA     x i  A .
k
fiind exprimate prin formula:
n i 1
Exprimăm formula în funcţie de frecvenţele absolute ai, respectiv frecvenţele
relative fi şi obţinem:
m m
 a j  xi  Ak  a j  xi  Ak m
 f j  xi  Ak .
j 1 j 1
mkA  m
 
n
a j j 1
j 1
Dacă originea aleasă este tocmai media aritmetică, atunci momentul centrat de
ordin k se va calcula cu formula :
1 n
mk    xi  x k - momentul centrat de ordin k în raport cu media
n i 1
aritmetică.
În cazul notaţiei momentelor centrate în raport cu media aritmetică nu se mai
afişează în partea superioară a lui m originea de centrare.
Momentul centrat de ordin 2 în raport cu media aritmetică este tocmai dispersia:
1 n
m2    xi  x 2   2 .
n i 1
Momentul absolut de ordin k (k1):
Din formula momentului centrat de ordin k în raport cu referinţa A se poate
deduce momentul absolut. Dacă A=0 se obţine momentul absolut:
1 n k 1 m m
mk`    xi    a j  x kj   f j  x kj , unde:
n i 1 n j 1 j 1

ai – frecvenţa absolută; fi – frecvenţa relativă; m – numărul de clase;


n – numărul de elemente.
1 n
Pentru k=1 se obţine: m1 
`
  xi  x , adică momentul absolut de ordin 1, care
n i 1
este egal cu media aritmetică.

71
BIOSTATISTICA

Proprietăţi ale momentelor:

1. Momentul centrat de ordin 1 cu originea în media aritmetică este 0 (suma


algebrică a abaterilor individuale faţă de medie este egală cu 0).

Demonstraţie
Metoda 1:
1 n 1 n 1 n 1
m1    ( xi  x )    xi    x  x   n  x  x  x  0 .
n i 1 n i 1 n i 1 n

2. Momentul minim centrat de ordin 2 are originea în media aritmetică (media


abaterilor pătratice are valoare minimă când aceasta este calculată în raport cu media
aritmetică).

Demonstraţie
1 n
Momentul centrat de ordin doi este : m2A    ( xi  A) 2 .
n i 1
Facem un artificiu de calcul, adăugând şi scăzând valoarea medie.
1 n 1 n 
m2A   [( xi  x )  ( A  x )]2     ( xi  x ) 2  
n i 1  n i 1 
 2  ( A  x) n  1 n 
    ( xi  x )      ( A  x ) 2  .
 n i 1   n i 1 
1 n
Conform proprietăţii (1) avem:     ( xi  x )  m1  0 . Astfel, paranteza a
n i 1
doua are valoarea 0. În continuare obţinem:
1 n  1 n  1 n 
m2A     ( xi  x ) 2      ( A  x ) 2   m2     ( A  x ) 2  
 n i 1   n i 1   n i 1 
 m2  (termen pozitiv ) .
Din ultima formulă tragem concluzia că oricare ar fi A, momentul centrat de ordin
2 cu originea în A este egal cu momentul centrat cu originea în media aritmetică, la
care se adaugă un termen pozitiv. De aici deducem că momentul centrat de ordin 2 cu
originea în media aritmetică este minimul momentului centrat de ordin 2.
Se pot stabili diferite relaţii între momentele absolute şi cele centrate în raport cu
media aritmetică. Iată un exemplu:
m m m m
m2   f i  ( xi  x ) 2   f i  xi 2  2  x   f i  xi   f i  x 2 
i 1 i 1 i 1 i 1

72
BIOSTATISTICA

  2 n 
 m2`  2  m1`  m1`  m1`   f i 

n
i 1 

2
 
 m2  m2`  m1` .
Dar  f i  1 

i 1 

Asimetrie (skewness)
O distribuţie este considerată simetrică, dacă de o parte şi de alta a mediei,
frecvenţele au aceleaşi valori.
Notăm cu f(xi) – frecvenţa; m – media
Simetria în raport cu media există, dacă pentru oricare R avem
relaţia: f (m  )  f (m  ) .
În continuare, putem caracteriza asimetria în funcţie de poziţionarea mediei faţă
de modul:
1 – Avem asimetrie la dreapta, dacă x  Mo (figura 2.5 4).
2 – Avem asimetrie la stânga, dacă x  Mo (figura 2.5 5).

Asimetrie la dreapta

Mo M(x)

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52

Figura 2.5 4.
Pentru a obţine o măsură a asimetriei, statisticianul englez Karl Pearson a definit
indicatorul relativ de asimetrie (acest indicator este adimensional, fiind astfel util
x  Mo
pentru a compara distribuţiile între ele): Sk  .

 xi  x 
n 2

 
i 1   

O altă formulă echivalentă de calcul este: S k  pentru n mare.
n

2
n
x x
  i 
 
Dacă n are valori mici se corectează formula astfel: S k  i 1 .
n 1

73
BIOSTATISTICA

Asimetrie la stânga

M(x) Mo

1 4 7 10 13 16 19 22 25 28 31 34 37 40

Figura 2.5 5.

Cazuri posibile:
1 – Dacă Sk>0, avem asimetrie pozitivă sau asimetrie la dreapta.
2 – Dacă Sk<0, avem asimetrie negativă sau asimetrie la stânga.
3 – Dacă Sk=0, avem simetrie (distribuţia normală are asimetria 0).
În general, o distribuţie care are valoarea Sk diferită de 0 cu mai mult de ±1,
denotă o diferenţă semnificativă faţă de distribuţia normală.
În limba engleză cuvântul consacrat este skewness, folosit în programele de
statistică medicală.

Boltirea (excesul, kurtosis)


Acest indicator compară distribuţia dată cu cea normală sau gausiană (descrisă în
capitolul Repartiţii continue). Statisticianul englez Karl Pearson a definit de asemenea
coeficientul de boltire:
m4 m4
2   .
m2 2  4
Pentru o distribuţie normală  2normal  3 .
Din punct de vedere al boltirii avem următoarea clasificare, reprezentată grafic
mai jos:

Repartiţie aplatizată sau platicurtică

2  3 .
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

Figura 2.5 6.
74
BIOSTATISTICA

Repartiţie medie sau mezocurtică

2  3 .

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

Figura 2.5 7.

Repartiţie ascuţită sau leptocurtică

2  3 .

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

Figura 2.5 8.

Pentru descrierea boltirii se poate folosi şi coeficientul Fisher, ce măsoară excesul


faţă de distribuţia normală. Acesta se calculează cu formula:
n

m 4  xi  x 2
 2  2  3   3 , echivalentă cu:  2  i 1  3 . Pentru valori
 4
n  4
mici ale volumului eşantionului se împarte la n-1 în loc de n.
Avem următoarele modalităţi de caracterizare a distribuţiilor:
Mezocurtică  2  3 ,  2  0.
Leptocurtică  2  3 ,  2  0 .
Platicurtică  2  3 ,  2  0 .

(Forma distribuţiilor este sugerată de etimologia cuvintelor: ,,platus” în limba


greacă semnifică ,,lat”, ,,leptos” – ,,subţire”, ,,mesos” - ,,mijlociu”, ,,kurtosis” –
,,cocoaşă”).

75
BIOSTATISTICA

2.6. INTERVALE DE ÎNCREDERE (CONFIDENŢĂ)


Introducere
În cazul realizării experimentelor de un număr repetat de ori se obţine un număr
finit de evenimente. Observaţiile ce se fac asupra populaţiei pot fi totale (dacă se
studiază toate evenimentele, sau toţi indivizii - exhaustiv) sau parţiale (dacă se
studiază doar un eşantion din total).
Cercetarea unitară a întregii populaţii în multe situaţii este greu de realizat, poate
chiar impracticabilă. O situaţie complementară este aceea în care numărul datelor
experimentale este mic. Bazându-ne pe aceste informaţii trebuie deduse caracteristici
generale asupra fenomenului sau obiectivului de studiu.
Eşantionul este considerat mic dacă volumul său are un număr de elemente până
în 30 şi mare dacă numărul de elemente depăşeşte valoarea 30. Acest prag este necesar
pentru a aproxima cât mai bine modificările ce apar în tipul distribuţiei datelor şi ca
urmare un volum mare al eşantionului va avea implicaţii pozitive în rezultatele finale.
Astfel, funcţie de numărul de valori disponibile, se aplică diferite teste, iar precizia
estimărilor este cu atât mai bună cu cât avem mai multe date de studiu.
Scopul principal în cadrul culegerii datelor constă în a obţine cu un efort minim
(volum minim de date) un volum maxim de informaţii.
Estimarea constă în operaţia de determinare a parametrilor populaţiei pe baza
eşantionului studiat. Datorită lipsei de informaţie generată de cercetarea uneori
neunitară cât şi datorită dispersiei parametrilor doriţi, se poate deduce cu o anumită
probabilitate (de obicei acceptată la valoarea de 95% în domeniul medical), un anumit
interval de încredere în care se află parametrul studiat.
Obiectivul final al unui experiment constă, în majoritatea cazurilor, în a măsura
valoarea unui parametru. Valoarea măsurată (izolată de altfel) nu poate fi considerată
satisfăcătoare sau valoare de referinţă dacă nu se fac şi precizări referitoare la domeniul
de variaţie precum şi la probabilitatea corespunzătoare.
În cadrul estimării parametrilor unei populaţii, valoarea calculată este de fapt o
variabilă aleatoare legată de eşantionul studiat. Cu cât avem mai multe eşantioane, cu
atât avem mai multe valori ale parametrului care urmează a fi calculat.
Rolul inferenţelor statistice constă în a determina din informaţiile din eşantion
concluzii pertinente asupra întregii populaţii. Chiar dacă teoretic putem imagina un
număr mare de eşantioane extrase, aplicând metodele statisticii, se pot afla limitele de
variaţie ale mediei (ca exemplu de indicator analizat) doar dintr-un singur eşantion de
studiu.
Media, acest indicator statistic de importanţă majoră, este în centrul temei de
estimare sau evaluare. Această estimare ajută nu numai la caracterizarea unei populaţii,
ci şi la compararea diferitelor loturi analizate (este important de menţionat că media
poate reprezenta şi frecvenţa de apariţie a unui eveniment – conform legi numerelor
mari).
Intervalul de estimare a parametrului respectiv se deduce din formula de calcul a
probabilităţii:

76
BIOSTATISTICA

x2
P  Probabilit atea ( x1  X  x2 )   f ( x) dx , unde f(x) - este densitatea
x1
de probabilitate (cazul continuu).
x1 , x2 - sunt limitele intervalului ca variabila aleatoare X să ia valori în
intervalul astfel definit, cu o anumită probabilitate.
Reprezentând grafic funcţia densitate de probabilitate obţinem intervalul de
încredere cu nivelul de semnificaţie , desenat în figura 2.6 1.

f(x)

0.45
0.4
0.35
0.3
0.25
0.2
1 0.15 2
0.1
Intervalul
0.05
de încredere
0
-4 -3 x1
-2 -1 0 1 x2
2 3 4
Figura 2.6 1 - Interval de încredere.

Intervalul de variaţie pentru variabila aleatoare studiată şi pentru o anumită


probabilitate (95% standard) se numeşte şi interval de confidenţă sau de încredere.
1- - este nivelul de încredere (se mai notează cu ).
 - este riscul sau nivelul de semnificaţie (=1+2). În general putem avea un
risc stânga 1, respectiv dreapta 2, cu suma egală cu . Pentru un interval simetric
bilateral avem  = /2 + /2, deci riscul se împarte simetric.
În concluzie, riscul poate fi plasat simetric sau asimetric faţă de media dorită spre
a fi estimată.
Intervalul de încredere pentru media unei variabile aleatoare de tip
continuu repartizată normal
Metoda de lucru pleacă generic de la ideea de a studia variabila aleatoare creată
din media eşantioanelor extrase din populaţia ţintă. Teoretic, putem extrage un număr
enorm de eşantioane dintr-o populaţie. Aceste eşantioane pot avea dimensiuni diferite,
iar media lor respectă un anumit tip de distribuţie.
Există în statistică teorema limită centrală (rezultat fundamental), care afirmă că
independent de tipul de distribuţie al datelor din populaţie, media eşantioanelor
extrase creează un lot de date care urmează o repartiţie de tip Gauss-Laplace (cu
condiţia să avem selecţie aleatoare simplă).

77
BIOSTATISTICA

Graficul de mai jos exprimă vizual ideea demonstrată prin teorema limită centrală.

Populaţia de
studiu
Lot Medie
Li 1 M1 Distribuţia mediilor este
2 M2 de tip (Gauss Laplace)
Ln
L1 3 M3
…. …
L7 L2 45 M45
46 M46
….. ….
Eşantion (lot) 
extras
n Mn

Figura 2.6 2 - Crearea distribuţiei mediilor eşantioanelor.

Vom da un exemplu de determinare a distribuţiei mediilor eşantioanelor dintr-o


populaţie care nu este repartizată normal, tocmai pentru a observa forma gausiană
urmată de eşantionul mediilor.
Presupunem că avem o populaţie repartizată liniar constant pe intervalul [0, 1].
Vom extrage 100 eşantioane de dimensiune 5, apoi 15 şi în final, de dimensiune 30.
Pentru fiecare din cele 100 de eşantioane se calculează media, apoi se realizează
histograma frecvenţelor absolute.
Acestea sunt reprezentate grafic în figurile următoare.

Histograma datelor din populaţia ţintă

160 140
147
130 128
140 121 117 121 121 124
113
120
100
80
60
40
20
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 More

Figura 2.6 3. Repartiţia liniară a datelor studiate.


78
BIOSTATISTICA

S-a folosit pentru exemplificare un eşantion de 1264 de date liniar distribuite. Se


observă conturarea unei drepte aproximativ paralelă cu axa abscisei (figura 2.6 3).
Histograma mediilor
(eşantion din 5 elemente)
40
30
20
10
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 More

Figura 2.6 4 - Forma repartiţiei este asemănătoare tipului Gauss-Laplace


(dispersia datelor este mare).
Histograma mediilor
(eşantion din 15 elemente)
50
40
30
20
10
0
1

e
0.

0.

0.

0.

0.

0.

0.

0.

0.

or
M

Figura 2.6 5 – Forma (alură) repartiţiei este apropiată de tipul


Gauss-Laplace cu dispersie medie.
Histograma mediilor
(eşantion din 30 elemente)
30
25
20
15
10
5
0
35

65

95
2

8
5

5
0.

0.

0.
12

27

42

57

72

87
0.

0.

0.
0.

0.

0.

0.

0.

0.

Figura 2.6 6 - Repartiţie este normală cu dispersie mică.


Din ultimele trei grafice se poate observa forma normală a distribuţiei mediei
eşantioanelor. De asemenea, se conturează o scădere a dispersiei mediilor odată cu
creşterea volumului eşantionului.

Teorema limită centrală


Indiferent de tipul distribuţiei populaţiei, media eşantioanelor tinde către
distribuţia Gauss Laplace şi este cu atât mai apropiată de aceasta, cu cât volumul
eşantionului creşte (un volum mai mare decât 30 implică erori mici).
79
BIOSTATISTICA

Observaţii
1 – Dacă distribuţia populaţiei este normală, atunci în mod sigur distribuţia
mediilor eşantioanelor este normală şi pentru valori mici ale eşantionului.
2 – Media valorilor medii ale eşantioanelor este media populaţie. Aceasta arată că
nu există eroare de deplasare. Matematic putem scrie: M ( X 1 , X 2 ,... X n )   .
3 – Deviaţia standard a mediilor eşantioanelor este de radical din n ori mai mică
decât deviaţia standard a întregii populaţii. Avem astfel:  X   , n reprezintă
n
volumul eşantionului.
Funcţie de ipoteza pe care o avem de verificat, metoda de calcul se modifică,
fiind dedicată naturii experimentului. Din acest motiv, intervalul de încredere pentru
medie este tratat pe cazuri diferite, în funcţie de informaţia deţinută. Pentru valori mici
ale eşantionului cât şi pentru situaţia în care nu se cunoaşte dispersia, o aproximare de
tip Student a distribuţiei este mai bună.
Cazul 1 – Valoarea dispersiei este cunoscută.
Considerăm o variabilă aleatoare repartizată normal N(,2) pentru care dorim să
estimăm intervalul de încredere pentru valoarea mediei. Avem un set de date de volum
n şi notăm media calculată din datele eşantionului cu X , iar media populaţiei (de
obicei necunoscută) cu .
Evident, dacă am putea analiza întreaga populaţie, atunci media calculată ar avea
valoarea de încredere 100% iar calculul intervalului de variaţie nu ar avea sens,
X .
Vom considera ca eficientă probabilitatea de estimare de 95%, ceea ce înseamnă
pentru o repartiţie normală redusă un interval simetric cuprins între Z1  1,96 ,
respectiv Z 2  1,96 (conform figurii 2.6 7 şi a valorilor tabelate în anexa A ).
Din formula de calcul a probabilităţii avem:
P 1,96  Z 1,96  0,95   1   . (1)
Se poate demonstra (după cum am amintit deja) că dacă avem mai multe
eşantioane dintr-o populaţie normală, media de selecţie este o variabilă aleatoare
repartizată normal N(, 2/n). Pentru a o centra şi normaliza vom aplica formula (se
scade media şi se raportează la dispersie):
x
z . (2)
/ n
Din prima şi a doua formulă putem scrie:
x
 1,96   1,96 . (3)
/ n
Dezvoltând în continuare formula 3 obţinem:
 
x  1,96     x  1,96  
n n
80
BIOSTATISTICA


  x  1,96  . (4)
n

- se numeşte eroare standard (de eşantion de volum n).
n

În cazul general, pentru un risc  simetric formula (4) devine:



  x  z / 2  . (5)
n
Z/2 este abscisa densităţii de probabilitate f(x) pentru un nivel de semnificaţie /2
(valori tabelate în anexe). Dacă riscul este bilateral dar nu simetric avem următoarea
formulă dedusă din (1):

 
P  Z1  Z  Z 2   1     Z 1 
x
 Z 2 
 n
 
x  Z 1     x  Z 2  . (6)
n n

Graficul intervalului de încredere pentru repartiţie normală este prezentat mai jos.

Figura 2.6 7 - Interval de încredere pentru repartiţie normală.

În cazul folosirii unui interval de încredere unilateral formulele de calcul pentru


estimare de tip mai mică, respectiv mai mare decât o anumită valoare sunt:

81
BIOSTATISTICA

Interval unilateral la dreapta:

  
P   x  Z    1     .
 n

Figura 2.6 8 - Interval de încredere unilateral dreapta.

f(z) Interval unilateral la stânga:


1
  
 P   x  Z     1   .
 n
interval de incredere

Z M[z]=0

Figura 2.6 9 - Interval de încredere unilateral stânga.

Cazul 2 – Valoarea dispersiei este necunoscută.


Considerăm variabila aleatoare X repartizată normal N(,2) cu media şi dispersia
necunoscute. Dacă avem un eşantion de volum n atunci, cu parametrii deduşi din
eşantion (media şi dispersia), se poate crea o repartiţie Student (sau ,,t”) cu formula:

t
  X  , cu   n  1 grade de libertate.
S2
n
S - reprezintă dispersia corectată şi se calculează cu formula:

 x 
n
2
i x
S2  i 1
.
n 1
Asemănător cazului anterior, pentru risc bilateral simetric avem formula de calcul:
 x 
P  t , / 2   t , / 2    1   
 S n 
S S
x  t , / 2     x  t , / 2  . (7)
n n
S
O scriere compactă a formulei (7) este următoarea :   x  t , / 2  .
n
82
BIOSTATISTICA

Pentru risc unilateral avem:


S
1 – Risc unilateral stânga:   X  t ,  .
n
S
2 – Risc unilateral dreapta:   X  t ,  .
n
Intervalul de încredere determinat prin metoda neparametrică „bootstrap”
Tehnica bootstrap este descrisă detaliat în capitolul ce prezintă eşantionarea. Este
explicată metoda de generare de eşantioane chiar din lotul sursă, folosind alegeri de tip
aleator (metoda Monte Carlo). Reamintim cele două trăsături ale acestei tehnici:
- Eşantioanele bootstrap sunt generate din lotul de studiu.
- Eşantionarea este realizată cu înlocuire şi drept urmare, poate apare acelaşi
element de mai multe ori în noile selecţii.
Metoda bootstrap aplicată pentru determinarea intervalului de confidenţă pentru
medie poate fi prezentată prin următorii paşi:
1 – se generează conform tehnicii cunoscute n eşantioane.
2 – se calculează media pentru fiecare eşantion generat.
3 – se ordonează crescător mediile calculate.
4 – se determină ordinea din şir a mediilor ce reprezintă limitele intervalului
pentru nivelul de confidenţă stabilit.

Exemplu
Presupunem ca generăm 120 eşantioane şi ne interesează intervalul de confidenţă
90% pentru medie. Primii trei paşi prezentaţi se realizează relativ uşor, după care
determinăm ordinea din cadrul şirului pentru limitele minimă, respectiv maximă a
intervalului.
Pentru 90% confidenţă rezultă elementele de pe poziţia 5%, respectiv 95%. Pentru
un volum de dimensiune n, calculăm n*5/100, respectiv n*95/100.
În cazul nostru avem: 120*5/100=6, respectiv 120*95/100=114.
Astfel, din şirul ordonat crescător se citesc limita inferioară de pe poziţia 6,
respectiv limita superioară de pe poziţia 114.

Intervalul de încredere pentru diferenţa a două medii


Presupunem că avem două variabile aleatoare independente notate X1, respectiv
   
X2, repartizate normal N1 1 ,  12 şi N 2  2 ,  22 . În cazul general se pot sau nu
cunoaşte dispersiile populaţiilor, dar sigur se pot afla estimările lor, după datele din
eşantion. Pentru a determina intervalul de încredere pentru diferenţa mediilor se ştie că
X 1  X2  are o repartiţie normală cu media   1   2 şi dispersia
 
2 2
1 n1   2
2 n2 , unde n1 respectiv n2 reprezintă volumele eşantioanelor.
Dacă lucrăm cu un interval de încredere bilateral simetric şi cunoaştem dispersiile
populaţiilor construim statistica repartizată normal:
83
BIOSTATISTICA

Z 
 1   2   x 1  x2  cu repartiţia N(0,1).
 12  22

n1 n2
Din formula de calcul a probabilităţii obţinem:
1   2    x1  x 2 
P Z  / 2  Z  Z  / 2  1       Z  / 2    Z
 /2.
 12  22

n1 n2
Sub formă compactă, putem scrie:


1   2  x 1  x 2   Z / 2 
 12
n1

 22
n2
.

Dacă nu se cunosc dispersiile, acestea se vor estima din datele eşantioanelor. Se


poate calcula statistica repartizată Student:

t
 1   2   x 1  x2  , cu S i2   i2 
ni
şi   n1  n2  2 grade
S12 S 22 ni  1

n1 n2
de libertate. În final diferenţa mediilor estimată este :


1   2  x 1  x 2   t , / 2 
S12 S 22

n1 n2
.

Intervalul de încredere pentru proporţia unei variabile aleatoare


Suntem în situaţia estimării intervalul de confidenţă pentru o proporţie. Proporţia
poate fi asemănată cu o medie, iar metodele de lucru pot fi transpuse în acest context.
Evident, ca în cazurile deja prezentate, nu putem studia în totalitate populaţia şi apelăm
la informaţia cuprinsă într-un eşantion. Calculăm proporţia dedusă din lot şi aflăm
limitele intervalului de variaţie a mediei.
Problema se repetă şi asemănător determinării intervalului de variaţie a mediei,
putem considera generic, un set format din mai multe eşantioane pentru care calculăm
şi studiem proporţia de realizare a unui anumit eveniment de interes.
În situaţia în care loturile sunt consistente în informaţie, deci conţin date în număr
suficient de mare pentru a păstra proprietăţile populaţiei, distribuţia mediilor este de tip
Gauss-Laplace şi putem calcula relativ uşor limitele de confidenţă.
Se pleacă de la formula generală ce exprimă probabilitatea pentru o distribuţie
normală.
Notăm: P – probabilitatea, p – proporţia din eşantion,  – proporţia reală a
populaţiei,  -nivelul semnificaţiei ce este de obicei 5%.

84
BIOSTATISTICA

Pentru o repartiţie normală şi pentru o semnificaţie  definită, limitele notate z1


respectiv z2 se determină din formula:
Pz1  Z  z 2   1   . Pentru un interval simetric z2 = –z1.
Media proporţiilor este repartizată normal si are abaterea standard  . Aceasta
p  1  p 
poate fi aproximată cu formula:   .
n
Trebuie să normalizăm variabila aleatoare proporţie, deci trebuie să scădem
valoarea p măsurată din eşantion şi să împărţim la dispersie. Obţinem astfel variabila
p
normalizată: Z  .

Aceasta trebuie sa fie cuprinsă între limitele z1   z / 2 respectiv
z1   z / 2 , pentru nivel de semnificaţie simetric.
p
Calculăm astfel intervalul: z1  Z  z 2   z  / 2    z  / 2  .

Obţinem : p  z / 2      p  z / 2   .
p  1  p 
Introducând detaliat valoarea dispersiei avem limitele: p  z  / 2  
n
Aceste limite creează un interval cunoscut cu numele de intervalul Wald – după
numele matematicianului care a propus metoda de calcul.
În acest domeniu, determinat cu datele eşantionului cât şi cu semnificaţia cerută,
se plasează cu încrederea 1-  proporţia reală a populaţiei.

Observaţie
Determinarea intervalului prin metoda Wald este acceptabilă doar în situaţia în
care este îndeplinită condiţia: n  p  1  p   10 .
Dacă ţinem cont de faptul că produsul p  1  p  , pentru p reprezentând un
număr pozitiv subunitar, este maxim dacă p=0,5, deducem volumul minim al
eşantionului de lucru.
Avem astfel: n  0,25  10  n  40 .

Făcând un studiu amănunţit asupra estimării intervalului de confidenţă, se observă


că pentru valori ale proporţiei mai mici decât 0,2, respectiv mai mari ca 0,8 eroarea se
măreşte considerabil. Astfel s-au propus şi determinat noi metode de calcul ale
limitelor intervalului de confidenţă care funcţionează corect pentru eşantioane mici de
până la 20 de cazuri. Rezultate mai bune pentru astfel de situaţii s-au obţinut folosind
formulele de calcul: Wilson, Agresti-Coull, sau verosimilitatea maximă a raportului.

85
BIOSTATISTICA

Exemple de calcul al intervalului de confidenţă


I. Avem un set de date numerice de tip continuu reprezentând o variabilă medicală
de interes ce caracterizează populaţia de studiu. Variabila o notăm generic cu V1 şi este
definită prin 78 de valori prezentate în tabelul de mai jos.

Tabelul 2.6 1. Nr. V1 Nr. V1


26 0.976916 53 1.083396
Nr. V1 27 0.962322 54 1.021107
1 0.928626 28 0.847623 55 1.182237
2 0.878364 29 0.814895 56 0.948003
3 1.006266 30 0.929521 57 1.183972
4 0.737067 31 1.195523 58 0.738703
5 0.799914 32 0.713596 59 0.938837
6 1.025222 33 0.799071 60 0.801798
7 1.11228 34 0.933964 61 0.860834
8 1.183562 35 0.774646 62 1.084881
9 0.992134 36 0.745445 63 0.869538
10 1.190212 37 1.120335 64 1.032752
11 0.93315 38 0.83318 65 0.848528
12 1.047967 39 1.197931 66 1.191977
13 1.172089 40 0.717301 67 0.953991
14 0.767089 41 1.023533 68 0.830131
15 0.742273 42 0.782082 69 1.136325
16 0.887589 43 1.104498 70 0.86874
17 0.981723 44 1.167804 71 1.002508
18 1.191605 45 0.794933 72 1.194674
19 0.762734 46 1.028825 73 0.772806
20 1.023852 47 1.094623 74 0.831307
21 0.97842 48 0.790835 75 0.892934
22 1.106804 49 0.893292 76 0.744088
23 1.178241 50 1.106492 77 1.140246
24 0.890063 51 1.020255 78 0.925785
25 0.860885 52 1.096813
Dorim să determinăm intervalul de variaţie a mediei cu încredere de 95%.
Folosind Microsoft Excel
După introducerea datelor, lansăm modulul Data Analysis din grupul de meniu
Tools.
Observaţie Pentru a exista subrutina de analiză a datelor, aceasta trebuie mai întâi
activată urmând paşii: Tools+Add-Ins…+Analysis Toolpack.

Din analiza datelor se alege opţiunea Statistică Descriptivă (Descriptive Statistics)


şi se obţine fereastra prezentată mai jos.

86
BIOSTATISTICA

Figura 2.6 10 - Fereastra de definire a datelor pentru obţinerea statisticii


descriptive.

Se definesc: domeniul de lucru (selecţia datelor introduse spre analiză – Input


Range), celula de start pentru afişarea calculelor realizate – Output Range, se bifează
căsuţa de determinare a limitelor de confidenţă pentru medie şi se introduce numeric
valoarea nivelului de încredere – Confidence Level for Mean.
Rezultatele obţinute sunt prezentate în tabelul următor.

Tabelul 2.6 2 – Indicatorii calculaţi în MsExcel.


V1
Mean 0.96057
Standard Error 0.016977
Median 0.950997
Standard Deviation 0.14994
Sample Variance 0.022482
Kurtosis -1.23668
Skewness 0.086202
Range 0.484335
Minimum 0.713596
Maximum 1.197931
Sum 74.92448
Count 78
Confidence Level(95.0%) 0.033806

87
BIOSTATISTICA

 0,14994
Eroarea standard este tocmai   0,016977 .
n 78
Căutând în tabelul distribuţiei de tip t, pentru un număr de grade de libertate de
78-1=77 şi pentru 95% încredere simetrică avem: t (77;0,05/ 2)  1,9912 .

Avem astfel: t (77;0,05 / 2)   0,033806 .
78

Formula de calcul a limitelor este: X  t (77;0,05 / 2)  .
n
Obţinem în final: Xmin= 0,926764 respectiv Xmax= 0,994376.

Nivelul de confidenţă, deci valoarea t  (ce este x ), poate fi calculat şi
n
folosind funcţia: CONFIDENCE(alfa, deviaţia standard, volum eşantion).

Pentru cazul nostru avem: CONFIDENCE(0.05, 0.14994, 78 ) = 0.033.


În concluzie, putem afirma că media populaţiei se află cu încredere de 95% în
acest interval (0,9267 – 0,9943).

Folosind programul SPSS


Există mai multe variante de a determina limitele intervalului de confidenţă pentru
medie.
a) – Se urmează paşii: Analyze + Descriptive Statistics + Explore…

Figura 2.6 11 – Calculul indicatorilor statistici în SPSS.

Se introduce parametrul de interes in lista variabilelor dependente, iar in grupul


Statistics se marchează Descriptive pentru a avea şi intervalul de confidenţă pentru
88
BIOSTATISTICA

medie. Se obţine astfel intervalul de variaţie pentru medie – prezentat în tabelul


următor.

Tabelul 2.6 3 – Indicatorii statistici calculaţi folosind SPSS


Std.
Statistic Error
V1 Mean .96057 .016977
95% Confidence Lower Bound
.92676
Interval for Mean
Upper Bound
.99438
5% Trimmed Mean .96055
Median .95100
Variance .022
Std. Deviation .149940
Minimum .714
Maximum 1.198
Range .484
Interquartile Range .268
Skewness .086 .272
Kurtosis -1.237 .538

b) – Se alege din meniu Analyses + Compare means + One-Sample t Test…

Figura 2.6 12 - SPSS determinarea intervalului de confidenţă pentru medie.

89
BIOSTATISTICA

Se setează variabila de analizat şi implicit în grupul Options avem activat


intervalul de confidenţă pentru 95% nivel de încredere (această probabilitate poate fi
modificată după caz).
Tabelul 2.6 4 - Rezultatul obţinut utilizând SPSS

Test Value = 0
Mean 95% Confidence Interval
t df Sig. (2-tailed) Difference of the Difference

Lower Upper
V1 56.579 77 .000 .960570 .92676 .99438

Tabelele prezintă cu claritate limitele intervalului de confidenţă. SPSS realizează


de asemenea testul de comparare a mediei cu valoarea 0 implicită.

90
BIOSTATISTICA

2.7. METODE DE DETERMINARE A EŞANTIOANELOR DE STUDIU

Studiile din domeniul medical (şi nu numai) se referă la populaţii de pacienţi sau
cazuri care au anumite caracteristici comune. De obicei elementul colectiv este
determinat de maladia de care suferă persoanele în studiu. Ne interesează să aflăm
valoarea anumitor indicatori statistici cum ar fi media, dispersia sau proporţia
existentă.
Pentru a extrage informaţii despre cazurile cercetate, avem la îndemână
posibilitatea de a trata exhaustiv problema şi a măsura pentru toţi pacienţii parametrii
de interes, sau varianta a doua, să determinăm un lot format dintr-un număr cât mai
mic de cazuri, care să prezinte trăsăturile populaţiei. Lotul astfel definit se numeşte
eşantion de studiu şi trebuie să respecte condiţia de a fi reprezentativ statistic prin
reflectarea proprietăţilor populaţiei sursă.
De obicei, utilizarea întregului volum al populaţiei pentru cercetare este greu sau
chiar imposibil de realizat. Tehnica exhaustivă este mare consumatoare de timp, bani şi
energie. Astfel, necesitatea determinării de metode statistice ce să definească mărimea
cât şi tehnica de alegere a elementelor unui eşantion reprezentativ a devenit de
importanţă capitală.
În statistică sunt dezvoltate metode eficiente de determinare a volumului
eşantionului (numărul de elemente componente) în moduri specifice pentru a obţine
rezultate cât mai reale, de fidelitate cât mai mare.
Iată un exemplu în care putem greşi prin alegerea neatentă a unui eşantion.

Presupunem că avem de realizat un studiu asupra unei populaţii


de copii dintr-o regiune geografică, cu vârsta cuprinsă între 5 şi 10
ani. Trebuie selectat un eşantion şi trimise părinţilor chestionarele de
interes. Prin metoda de alegere se selectează primul copil din cele 120
de liste ale comunităţilor existente. Dacă listele ar fi întocmite în mod
aleator, eroarea ar fi minimă. În multe din cazuri, listele sunt în
ordinea vârstei copiilor. Astfel primii de pe listă vor fi copii de vârste
mici, ducând la o pondere mare a acestora în eşantionul final, evident
cu repercusiuni nedorite. Eşantionul ar avea o eroare de deplasare
(bias error) care ar denatura valorile medii reale existente pe întreaga
populaţie.
Alt exemplu ar consta în alegerea greşită a numărului de cazuri
de examinat, dintr-o populaţie formată din mai multe subgrupuri, fără
a ţine cont de proporţia reală a fiecărui grup din total. Astfel, alegerea
unui număr constant de elemente din fiecare fracţiune, ar duce la o
distorsionare a ponderii fiecărui colectiv, evident cu posibile erori
majore.

91
BIOSTATISTICA

Eşantionarea simplă aleatorie (random)


Una dintre metodele cele mai simple de alegere a unui eşantion din cadrul unei
populaţii face apel la tehnica aleatorie.
Dacă avem o populaţie de volum N şi dorim un eşantion de volum n, atunci vom
genera n numere aleatoare distincte ce să reprezinte poziţia elementului în cadrul listei.
Această metodă de determinare nu prezintă eroare de deplasare.
Numărul total de variante de n elemente din N este combinări de N luate câte n şi
N!
se calculează cu formula: nr. variante  C Nn  (factorialul este
n!  ( N  n)!
produsul: N!1  2 ... N ). Media tuturor variantelor posibile este media populaţiei de
studiu (se poate demonstra matematic). Faptul că nu există diferenţă între media reală
şi media acestor combinaţii determină lipsa erorii de deplasare.
Prin acest procedeu, fiecare caz are aceleaşi şanse de a fi selectat, probabilitatea
fiind egală cu 1/N.

Exemplu
Un exemplu practic poate fi realizat folosind Microsoft Excel. În cadrul acestui
soft avem funcţia RAND(). Aceasta returnează un număr de tip aleator, cuprins între 0
şi 1. Distribuţia este de tip liniar, deci păstrează o probabilitate egală de apariţie pentru
orice valoare din domeniu.
Folosim această funcţie pentru a genera numere aleatoare în domeniul 1,…,N.
Pentru aceasta vom înmulţi funcţia RAND() cu N şi vom alege doar partea întreagă a
rezultatului. Tot în MS Excel avem funcţia INT() care extrage partea întreagă a unui
număr pozitiv prin pierderea zecimalei. Astfel, vom fi nevoiţi să înmulţim cu N+1
pentru a genera numere între 1 şi N.
În figura de mai jos este exemplificată metoda de generare a numărului de ordine
pentru un eşantion de 123 de elemente.

Figura 2.7 1 – Generarea aleatorie în MS Excel.

92
BIOSTATISTICA

Menţionăm că prin folosirea funcţiei prezentate, se pot genera evident aleator şi


numere care se repetă. Acestea le vom ignora şi cazurile corespunzătoare care deja au
fost incluse în eşantion vor rămâne în continuare, iar ponderea lor va fi aceeaşi cu cea a
celorlalte date, deci cu valoarea 1.
O altă variantă posibilă de aplicat, este de a ordona datele după numărul aleator
generat. Acesta nu va trebui neapărat să fie transpus în domeniul 1,…,N. Se poate
utiliza de exemplu funcţia RANDBETWEEN(nr. start, nr. stop) de generare a
numerelor aleatoare. După ordonare, primele N elemente vor defini eşantionul ales.
Eşantionarea sistematică
Dacă avem o listă completă a elementelor populaţiei, un alt mod de a selecta un
eşantion constă în aplicarea metodei sistematice.
Metoda pleacă de la un punct de start, ce poate fi chiar primul element al listei şi
prin adunarea la acesta a unui număr constant se determină poziţia următorului element
ce va fi inclus în lot. Se repetă procedeul până la ultimul termen al listei sau până când
s-a completat întregul volum de analiză.
Se observă o anumită periodicitate în alegerea eşantionului. Astfel, se poate
deduce un dezavantaj al metodei, prin faptul că dacă lista iniţială la rândul ei prezintă o
ciclicitate asemănătoare cu cea aplicată în selecţie, se pot genera eşantioane care
prezintă eroare mare de deplasare.
Eşantionarea sistematică prezintă mai multe variante, cum ar fi :
1 – Se porneşte cu elementul iniţial (I0), la care se adaugă o cantitate constantă (k)
şi se alege elementul de pe poziţia I0+k, apoi I0+2k, … , I0+(n-1)k.
2 – Se pleacă de la elementul iniţial (I0), se sar k elemente şi se alege elementul de
pe poziţia I0+k+1, apoi I0+2(k+1), … , I0+(n-1)(k+1).
Principiul de lucru pentru cele două variante este acelaşi, elementele fiind alese la
distanţe egale după o origine stabilită (punctul de start).

Exemplu
Folosind programul MS Excel, alegem funcţia MOD(N1, N2). Numărul N1 este
deîmparţitul iar N2 este împărţitorul. Funcţia modulo determină restul împărţirii lui N1
la N2. Dacă N2 este multiplu de N1 atunci restul este 0. Prin urmare, se aleg elementele
pentru care funcţia modulo returnează valoarea 0.
Astfel dacă alegem perioada de 35, atunci N2=35 iar N1 este numărul de ordine din
cadrul listei totale. Elementele din coloana funcţiei modulo de valoare 0 vor fi cele
alese. Acestea pot fi uşor determinate prin ordonare.

Eşantionarea stratificată aleatoare


După numele acesteia putem deduce existenţa unei legături între această metodă şi
eşantionarea simplă aleatoare. Metoda stratificată este o modificare a eşantionării
simple în sensul păstrării unei proporţii reale între subgrupurile ce alcătuiesc întreaga
populaţie ţintă. Este utilă în situaţii în care subgrupurile componente prezintă variaţii
diferite.
93
BIOSTATISTICA

Presupunem că avem m subgrupuri componente, fiecare având ni elemente.


m
Volumul n eşantionului va fi suma tuturor elementelor n1+n2+…+nm , n  n
i 1
i .

Fiecare eşantion al unui subgrup este determinat prin metoda de eşantionare aleatoare
simplă. Volumul fiecărui subgrup este stabilit prin tehnici ce vor fi prezentate în
capitolele următoare.
Şi în această situaţie statistica matematică poate demonstra lipsa erorii de
deplasare în eşantionarea stratificată aleatorie. Chiar mai mult, precizia în determinarea
valorii medie este mai bună decât cea din metoda aleatorie simplă. Tocmai păstrarea
proporţiei aduce această îmbunătăţire a preciziei.
Eşantionarea în ciorchine (cluster – grup, ciorchine)
Elementul selectat în acest caz este un grup. Pentru a realiza un astfel de studiu, de
exemplu într-un oraş, se pot alege prin tehnici aleatorii diferite, blocuri de persoane,
pentru ca apoi pe familii să se completeze chestionarele în cauză.
Avantajul acestei metode rezidă în partea materială, studiul de acest fel fiind
economic. Metoda dă rezultate bune dacă se aplică corect alegerea aleatorie a
ciorchinelor ce definesc eşantionul.
Eşantionarea convenabilă (convenience – avantaj, comoditate)
Eşantionul este ales în acest caz după o metodă arbitrată, uşoară de aplicat,
accesibilă, convenabilă şi rapidă. Se doreşte ca lotul determinat să păstreze proprietatea
de reprezentativitate dar însăşi metoda în sine nu ne garantează acest lucru.
În majoritatea cazurilor aceste loturi ajută doar la crearea unei prime imagini
asupra problemei analizate. Estimările făcute pot prezenta erori mari de deplasare, de
aceea datele astfel culese sunt folosite doar ca studii pilot ce ajută apoi la schiţarea de
noi direcţii de cercetare.

Exemplu
Dacă dorim să intervievăm turiştii dintr-o anumită zonă geografică, vom aplica
chestionare în diferite puncte de atracţie. Dacă limba de comunicare este engleza,
atunci din start am ales doar pe cei anglofoni. Deja o eroare este inclusă în eşantion.
Un alt punct de vedere prezintă problema ţinând cont de puterea financiară a
turiştilor. Dacă punctele de atracţie sunt foarte scumpe, evident doar persoanele cu
putere financiară vor avea acces. Astfel, numărul de chestionare trebuie să fie în
echilibru cu proporţia pe subgrupe a populaţiei.
Chiar şi momentul ales din timpul zilei este important. Ziua anumite centre de
atracţie au căutare iar spre seară, evident, apar alte priorităţi în programul turiştilor.
Eşantionarea prin autogenerare (bootstrap – autogenerator)
Permite crearea de eşantioane din elementele unui lot de studiu. Mai mult chiar,
elementele se pot repeta în cadrul eşantionului. Cerinţa de bază este ca eşantionul sursă
utilizat să fie reprezentativ pentru populaţia analizată.
94
BIOSTATISTICA

Este o metodă neparametrică pentru a estima indicatorii statistici (media este de


obicei de interes) prin interval de încredere. Cu alte cuvinte, nu se cere ca tipul
distribuţiei să fie cunoscut (de obicei de tip Gauss-Laplace).
Paşii de urmat în aplicarea metodei:
1 – Se pleacă iniţial de la elementele eşantionului sursă de volum notat N.
2 – Se defineşte volumul n al fiecărui nou eşantion generat.
3 – Se realizează prima extragere de tip aleatoriu de n elemente din cele N. Primul
eşantion este astfel generat.
4 – Se întorc elementele n la loc în sursă. Din această cauză metoda se numeşte
„cu întoarcere” , „cu înlocuire” sau „cu revenire”.
5 – Se realizează a doua extragere în acelaşi mod şi procedeul se repetă până la
completarea numărului de eşantioane dorite.

Eşantioanele astfel create pot forma o bază de date de studiu, iar tehnicile aplicate
trebuie să fie de tip neparametric, deoarece nu se cunoaşte tipul de distribuţie din care
sunt culese datele.

Exemplu
Presupunem că dorim să producem prin metoda de eşantionare cu autogenerare un
număr de 100 eşantioane de 10 elemente dintr-un lot de 30 de date.
Vom lucra tot în MS Excel, deoarece este un program ce prezintă multiple
facilităţi şi este foarte popular.

Figura 2.7 2 – Metoda bootstrap în generarea eşantioanelor.

95
BIOSTATISTICA

Lotul iniţial cuprinde 30 de date în domeniul B3:K5. Prin INSERT + NAME +


DEFINE denumim acest bloc de date şi îl numim ESANTION. Folosim funcţia
INDEX() care citeşte valoarea unei celule determinate de numărul rândului, respectiv
al coloanei blocului de date definit. Pentru a alege într-o formă aleatorie folosim
funcţia RAND() deja prezentată în exemplele anterioare.
Astfel, în fiecare din celulele de la B7 până la K106 (deci o sută de eşantioane),
avem funcţia:
=INDEX(ESANTION,ROWS(ESANTION)*RAND()+1,COLUMNS(ESANTIO
N)*RAND()+1)”.

Dimensiunea eşantionului de studiu


În cadrul efectuării unei analize statistice, într-o primă etapă, o problemă crucială
constă în determinarea eşantionului de studiu. Ne interesează în mod imperativ
numărul de date necesare pentru ca lotul de studiu să fie reprezentativ statistic, ceea ce
înseamnă să avem încredere în rezultatele obţinute prin aplicarea analizei statistice.
Statistica matematică ne ajută pentru indicatorul studiat, cu formule determinate
pe baza intervalului de variaţie cu o încredere prestabilită. Astfel, intervalul de variaţie
admis trebuie să fie mai mic decât o valoare definită ca satisfăcătoare pentru a accepta
rezultatele finale.
Prezentăm mai multe situaţii în care metodele de determinare a volumului
eşantionului sunt descrise ca formule de calcul matematic şi apoi completate, pentru o
buna înţelegere, cu exemple practice.
În teoria statistică, în situaţia în care parametrul de interes (notat X) respectă o
distribuţie de tip normal, se pot estima limitele intervalului de variaţie a valorii medii
după formula:
 
X min  X  Z    , respectiv X max  X  Z     . (1)
1  n 1  n
 2  2
X – reprezintă valoarea medie calculată din eşantion.
n – este volumul lotului de studiu.
 – este nivelul de semnificaţie ales (pentru   95% avem   5%  0,05 ).
 – deviaţia standard.
Z  – abscisa densităţii de probabilitate Gauss normalizate (sau simplu Z  ).
 1 
 2 2
Aceste limite rezultă din condiţia ca probabilitatea de estimare să fie de valoare
 1   . Avem astfel: P(Z1  Z  Z 2 )   . Variabila aleatore Z este determinată
de mediile eşantioanelor extrase din populaţia de studiu. Făcând apel la capitolul
„INTERVALE DE ÎNCREDERE” pentru interval simetric avem Z1   Z 1   ,
2

respectiv Z 2   Z 1   .
2

96
BIOSTATISTICA

Variabila aleatoare Z reprezintă distribuţia mediilor eşantioanelor extrase generic


din populaţia de studiu. Pentru ca media eşantioanelor să respecte o distribuţie Gauss
normalizată se va scădea din media populaţiei media eşantionului şi se va împărţi la
X
deviaţia echivalentă. Obţinem Z  . Din formula probabilităţii prezentată mai

n
sus avem P(Z1  Z  Z 2 )   . De aici putem extrage limitele variabilei aleatoare Z:
X
 Z    Z    (2). Astfel se deduc valorile minimă, respectiv
1   1 
 2  2
n
maximă ale intervalului de confidenţă conform cu formula 1.

Raportul se numeşte eroare standard.
n
Încrederea în determinarea limitelor de variaţie este afectată de valoarea Z ce
depinde de  . Nivelul standard de încredere este de 95%, ceea ce corespunde unui
grad de semnificaţie   1  0,95  0,05 . Această încredere arată că dintr-un lot de
date ales aleator, există o probabilitate de 95% ca variabila studiată să se afle în
domeniul stabilit.
Valorile variabilei aleatoare Z sunt tabelate în anexele cărţilor de statistică.

1 – Determinarea volumului eşantionului de studiu pentru o variabilă de tip


continuu
Pentru o variabilă de tip continuu, în majoritatea cazurilor de interes, focalizarea
problemei se face asupra valorii medii.
Pentru ca evaluarea să fie corectă se stabileşte nivelul de încredere la 95% (de
obicei acesta este standardul).
Se stabileşte de către echipa de cercetare care este eroarea admisă. Aceasta
exprimă valoarea maximă a intervalului Xmax-Xmed sau Xmed-Xmin sau chiar amplitudinea
Xmax-Xmin. De fapt, această eroare admisă joacă rolul unei precizii asupra măsurătorilor
realizate. Se poate prezice o relaţie de genul: cu cât eroarea cerută este mai mică cu
atât numărul de elemente ale eşantionului va trebui să fie mai mare.
Această eroare poate fi reprezentată grafic astfel:

0 Xmin Xmed Xmax


Figura 2.7 3.

97
BIOSTATISTICA

Se observă că, faţă de valoarea medie eroarea este simetrică, ducând la atingerea
valorii Xmax, respectiv valorii Xmin, ca limite ale variaţiei posibile.

Din formulele prezentate anterior (formula 1), deducem că valoarea Z    
1  n
 2
trebuie să fie mai mică decât d (valoare maximă admisă a erorii).
Din această condiţie se poate afla numărul minim n ce defineşte volumul
eşantionului semnificativ statistic:
2
 
   
2
Z     d , rezultă n   Z      2 .
1  n  1 2   d
 2   
Avem astfel o metodă de calcul al volumului minim necesar eşantionului de
studiu.
Valoarea Z o citim din tabelele statistice, funcţie de nivelul de semnificaţie.
Aceasta este uşor de determinat. Valoarea erorii admise d poate fi decisă de
investigatori în funcţie de cerinţele problemei.
Pentru valoarea dispersiei apar situaţii când aceasta nu se cunoaşte. Dacă avem
studii realizate sau informaţii din tabele medicale putem afla valoarea dispersiei. În
situaţii contrare se realizează mai întâi un studiu pilot pentru determinarea indicatorilor
statistici elementari necesari.
Pentru a avea o imagine asupra numărului de date necesare în cadrul unui eşantion
putem analiza tabelul de mai jos:

Tabelul 2.7 1–Volumul eşantionului pentru estimarea mediei, cu încredere


de 95%.
Volum lot Deviaţia standard, 
(n)
0.25 0.5 0.75 1 1.5 2 2.5 3 3.5 4 4.5 5
0.25 3.842 15.37 34.57 61.47 138.3 245.9 384.2 553.2 753 983.4 1245 1537
0.5 0.96 3.842 8.644 15.37 34.57 61.47 96.04 138.3 188.2 245.9 311.2 384.2
0.75 0.427 1.707 3.842 6.83 15.37 27.32 42.68 61.47 83.66 109.3 138.3 170.7
1 0.24 0.96 2.161 3.842 8.644 15.37 24.01 34.57 47.06 61.47 77.79 96.04
Eroarea admisă, d

1.5 0.107 0.427 0.96 1.707 3.842 6.83 10.67 15.37 20.92 27.32 34.57 42.68
2 0.06 0.24 0.54 0.96 2.161 3.842 6.003 8.644 11.76 15.37 19.45 24.01
2.5 0.038 0.154 0.346 0.615 1.383 2.459 3.842 5.532 7.53 9.834 12.45 15.37
3 0.027 0.107 0.24 0.427 0.96 1.707 2.668 3.842 5.229 6.83 8.644 10.67
3.5 0.02 0.078 0.176 0.314 0.706 1.254 1.96 2.822 3.842 5.018 6.35 7.84
4 0.015 0.06 0.135 0.24 0.54 0.96 1.501 2.161 2.941 3.842 4.862 6.003
4.5 0.012 0.047 0.107 0.19 0.427 0.759 1.186 1.707 2.324 3.035 3.842 4.743
5 0.01 0.038 0.086 0.154 0.346 0.615 0.96 1.383 1.882 2.459 3.112 3.842

98
BIOSTATISTICA

Se poate observa că odată cu creşterea erorii admise d scade valoarea lui n. Cu alte
cuvinte, privind pe coloane de sus în jos volumul scade.

Dacă eroarea admisă este de două ori mai mare decât deviaţia standard, atunci
eşantionul este de volum 1 (0,96). Este si normal, deoarece în intervalul medie
plus/minus de două ori deviaţia standard, se găsesc peste 95% din date pentru
distribuţia de tip Gauss-Laplace. Practic, datele din tabel pentru peste două deviaţii
standard eroare admisă nu-şi au sensul pentru un nivel de încredere de 95%.
Exemplu
Presupunem că dorim să determinăm greutatea la naştere a copiilor dintr-o
anumită comunitate ce prezintă caracteristici specifice (tradiţii, zonă geografică).
Se cunoaşte deviaţia standard dintr-un studiu pilot ca fiind   0,7 . Nivelul de
semnificaţie acceptat este 95%, iar eroarea admisă pentru a putea compara cu valoarea
normală este dedusă de investigatori d  0,2 Kg (ceea ce înseamnă că amplitudinea
Xmax-Xmin=0,4Kg admis).

Pentru 95% încredere, avem   1  0,95  0,05 . Astfel 1   0,975 şi
2
deducem Z (0.975)  1,96 (din tabelul distribuţiei Gauss normalizate).
0,7 2
Putem calcula acum valoarea minimă n 1,96 2  . Obţinem n  47,059 şi
0,2 2
alegem nminim=48.

2 – Determinarea volumului eşantionului de studiu pentru estimarea unei


proporţii
În cazul studiului de prevalenţă scopul este de a determina proporţia de bolnavi
dintr-o anumită populaţie. Pentru această situaţie eroarea standard are formula de
 p  1  p 
calcul: Er .std .   .
n n
Aici p este proporţia ce trebuie verificată.
Asemănător metodei 1 de determinare a volumului eşantionului, putem pune
condiţia ca limitele maximă, respectiv minimă să nu depăşească o anumită distanţă d
definită de cercetători ca acceptabilă studiului. Cerinţa aceasta poate fi exprimată
p  1  p 
matematic: Z      d . Se determină în final volumul eşantionului:
1  n
 2
2
 
  p  1  p 
n   Z     . Formula pare puţin ciudată! Dorim să estimăm
 1 2   d2
  
proporţia p cu o eroare mică notată d şi determinăm volumul eşantionului, funcţie tot
99
BIOSTATISTICA

de proporţia p. Dacă nu cunoaştem această proporţie, atunci ar trebui mai întâi estimată
într-o formă, poate aplicând un studiu pilot pentru a avea o informaţie minimă asupra
ei.
Această formulă de calcul este valabilă pentru o populaţie infinită sau de volum
foarte mare (pentru estimarea corectă a proporţiilor). În realitate, populaţiile au volum
finit. Este normal să se aplice o corecţie matematică în situaţiile finite.
n
Formula corectată a determinării volumului eşantionului: ncorectat  ,
n 1
1
pop
unde pop reprezintă volumul populaţiei de studiu (atenţie: populaţie şi nu eşantion).
Putem gândi de exemplu, problema pentru estimarea unei proporţii de bolnavi în
populaţia judeţului Iaşi (care evident este finită). Va trebui să aplicăm corecţia
prezentată pentru volumul eşantionului (se cunoaşte populaţia judeţului Iaşi ca fiind
814 mii de locuitori la 1 iunie 2005).
Ca observaţie, valoarea proporţiei p poate să nu fie cunoscută. S-a menţionat deja
posibilitatea efectuării unui studiu pilot pentru determinarea valorii p. Totuşi p variază
între 0 şi 1, iar produsul p(1-p) are o proprietate remarcabilă.

Figura alăturată prezintă variaţia produsului p(1-p) pe intervalul [0, 1]. Maximul
este pentru p=0,5 şi are valoarea 0,25. Iată o proprietate ce ne ajută foarte mult. Chiar
dacă nu cunoaştem valoarea proporţiei noi putem impune condiţia ca volumul
eşantionului să fie de o anumită dimensiune. Chiar dacă această dimensiune nu este
optimizată, ea este foarte utilă deoarece numărul de date fiind mărit şi încrederea la
rândul ei va fi mai mare.

p(1-p)
0.3

0.25

0.2

0.15

0.1

0.05

0
0 0.125 0.25 0.375 0.5 0.625 0.75 0.875 1
p

Figura 2.7 4 – Maximul produsului p(1-p).

Pentru a avea o imagine asupra numărului de date necesare pentru un studiu


consistent în informaţie şi util în determinarea unei proporţii, analizăm tabelul de mai
jos.

100
BIOSTATISTICA

Tabelul 2.7 2 – Volumul eşantionului pentru estimarea proporţiei p cu


încredere de 95%.
Volum Proporţia p
eşantion 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.1 34.57 61.47 80.67 92.20 96.04 92.20 80.67 61.47 34.57 0
Eroarea maximă admisă d

0.2 8.64 15.37 20.17 23.05 24.01 23.05 20.17 15.37 8.64 0
0.3 3.84 6.83 8.96 10.24 10.67 10.24 8.96 6.83 3.84 0
0.4 2.16 3.84 5.04 5.76 6.00 5.76 5.04 3.84 2.16 0
0.5 1.38 2.46 3.23 3.69 3.84 3.69 3.23 2.46 1.38 0
0.6 0.96 1.71 2.24 2.56 2.67 2.56 2.24 1.71 0.96 0
0.7 0.71 1.25 1.65 1.88 1.96 1.88 1.65 1.25 0.71 0
0.8 0.54 0.96 1.26 1.44 1.50 1.44 1.26 0.96 0.54 0
0.9 0.43 0.76 1.00 1.14 1.19 1.14 1.00 0.76 0.43 0
1 0.35 0.61 0.81 0.92 0.96 0.92 0.81 0.61 0.35 0

Exemplu
Presupunem că avem de determinat o proporţie a cărei valori este aproximativ
cunoscută p  0,80 . Cu încredere de 95% să se deducă numărul de date necesare
pentru a nu se efectua o eroare mai mare de 10% în estimarea proporţiei.

Pentru 95% încredere, avem   1  0,95  0,05 . Astfel 1   0,975 şi
2
deducem Z (0,975)  1,96 (din tabelul distribuţiei Gauss normalizate).
Dacă eroarea este de maxim 10% avem d= 0,8  0,1  0,08 (atenţie în definirea
erorii).
2
 
  p  1  p 
Calculăm volumul minim al eşantionului de studiu: n   Z      ,
 1 2   d2
  
2 0,8  1  0,8
n  1,96  , obţinem n=96,04. Alegem astfel n=97 pacienţi.
0,082
Menţionăm că şi softul EpiInfo 3.3.2 2005, poate determina volumul eşantionului
urmând paşii: Utility + StatCalc + Sample Size &Power + Population Survey.
Dacă în studiu am fi avut informaţii despre volumul populaţiei, de exemplu
pop=7600 persoane, atunci valoarea n ar fi trebuit corectată cu formula:
n 96,04
ncorectat    90,13 . Prin aproximare cu majorare la prima
n 1 96,04  1
1 1
pop 1450
valoare întreagă se deduce n=91.
101
BIOSTATISTICA

Observaţie
Dacă nu cunoşteam valoarea aproximativă a proporţiei atunci aproximăm
prin adaos p(1-p)=0,25 şi obţineam n=150,06 ce ajustat ar fi n=151. Astfel, numărul
de pacienţi ar fi fost crescut.

3 – Determinarea volumului eşantionului de studiu pentru estimarea unei


corelaţii.
În această situaţie pentru determinarea volumului eşantionului necesar estimării
valorii coeficientului de corelaţie într-un mod consistent, se va apela la testele
ipotezelor statistice. Este greu să se determine o eroare acceptată a coeficientului de
corelaţie, aşa cum s-a făcut de exemplu pentru estimarea proporţiei.
Se vor impune condiţii atât asupra nivelului de semnificaţie  cât şi asupra
puterii testului, 1   .
Ipoteza statistică nulă este : H0 – coeficientul de corelaţie este 0,   0 .
Ipoteza alternativă este: H1 – coeficientul de corelaţie are valoarea cunoscută
c ,    c .
Valoarea cunoscută a coeficientului se ştie din studii anterioare, publicaţii recente
sau studiu pilot efectuat special cu acest scop.
2
 Z 1   Z 1   
Formula de calcul dedusă în acest caz este : n  3    .

 F  c  
1 1  c
F (  c )   ln , este transformata Fisher utilizată şi la formarea
2 1  c
intervalelor de confidenţă.

Exemplu
Dorim să determinăm volumul necesar eşantionului pentru a verifica dacă
corelaţia cunoscută  c are valoarea 0,7. Se va face apel la valorile standard pentru
nivelul de semnificaţie, respectiv puterea testului.

Avem aşadar   0,05 şi   0,1. Citim din tabelul statistic Z 1  1,65 ,
respectiv Z 1  1,28 .
1 1  0,7
Calculăm F (  c )   ln  0,602 şi în continuare:
2 1  0,7
2
 1,65  1,28 
n  3   26,68 .
 0,602 
Aproximăm la primul întreg mai mare şi avem astfel n=27 de date (pentru
corelaţie sunt utilizate perechi de date).
102
BIOSTATISTICA

4 – Determinarea volumului eşantionului de studiu pentru verificarea unei


diferenţe impuse.

În cadrul unei cercetări se poate impune condiţia ca diferenţa existentă între


parametrii de interes (medie sau proporţie) să depăşească o anumită valoare critică
pentru a fi decisivă.
Faptul că există teste de detectare a diferenţei semnificative nu este suficient.
Noutatea constă în dimensiunea impusă diferenţei căutate.
Iată un exemplu: În cercetările pentru validarea unui nou tratament împotriva
cancerului, se doreşte ca proporţia celor vindecaţi să fie cu cel puţin 10% mai mare
decât procentul obţinut prin metoda clasică de terapie.
Dacă indicatorul de interes este media, deci măsura se realizează pe o scară de tip
continuu, atunci importantă este diferenţa 1   2  d . Valoarea d este decisă de
specialiştii în domeniul de studiu. Indicatorii 1 , respectiv  2 , reprezintă mediile
populaţiilor de studiu (deci fără eroare), iar notaţia pentru media din eşantion este
X 1 (aceasta poate fi estimată cu o anumită încredere).
Menţionăm că în cazurile reale se defineşte mai întâi noţiunea de tratament mai
bun (în cazul nostru 1   2 ).
Pentru determinarea volumului eşantionului se pleacă de la condiţia
P( X 1  X 2 1   2  d )  1   . Este probabilitatea condiţionată ca media să fie
mai mare în eşantionul studiat pentru diferenţa mediilor populaţiilor de valoare d.
2
 
 
2

Se află prin calcul valoarea volumului eşantionului: n  4   Z      .
 1 2   d 2
  
Ca şi în cazurile precedente, valoarea dispersiei este greu de cunoscut, mai ales în
studii noi de cercetare. Problema trebuie rezolvată prin estimare din studii pilot.
Dacă indicatorul de interes este proporţia, atunci formula de calcul se deduce în
2
 
  p  1  p 
mod asemănător şi rezultă: n  4   Z      . În acest caz d = p1 - p2.
 1 2   d2
  
n
Pentru situaţia în care volumele eşantioanelor sunt egale n1  n2  , avem
2
p1  p 2
p .
2
Observaţie
Dimensiunea eşantionului în situaţia prezentată (ce conţine condiţii
suplimentare) este de aproximativ 4 ori mai mare decât dimensiunea necesară în cazul
estimării mediei sau proporţiei într-un studiu cu o eroare maximă admisă notată d.

103
BIOSTATISTICA

2.8. TESTE DE IPOTEZĂ

Concepte de bază în evidenţa (siguranţa) statistică


În statistică obiectivul fundamental constă în luarea unei decizii, chiar în cazul
existenţei unei incertitudini. Decizia luată trebuie să fie corectă şi independentă (pe cât
posibil) de lipsa de cunoştinţă - materializată prin incertitudine.
În cazul testelor de ipoteză problema de bază constă în elaborarea regulilor de
decizie în aşa fel încât, dintre variantele posibile să se aleagă concluzia corectă cu o
probabilitate acceptată ca satisfăcătoare.
Se emit mai multe ipoteze şi prin decizie se acceptă doar o ipoteză care se
încadrează în probabilitatea stabilită.
Ipoteza statistică reprezintă o presupunere asupra parametrilor uneia sau unor
repartiţii sau chiar asupra repartiţiei în sine (spre exemplu, egalitatea mediilor a două
populaţii, a dispersiilor, a proporţiilor, verificarea formei normale a unei repartiţii,
etc.).
Testele statistice reprezintă metode matematice de verificare a ipotezelor
statistice. Prin acestea se doreşte examinarea unei ipoteze care apoi se aplică populaţiei
de date dacă este confirmată a fi adevărată. Testarea se face pe baza eşantionului de
date. Astfel, orice decizie comportă un anumit risc. Decizia se ia asupra întregii
populaţii, deci constituirea eşantionului este de importanţă majoră.
În enunţarea unei ipoteze există două posibilităţi:
– Ipoteza nulă notată H0, în care parametrii de comparat se consideră egali. Spre
exemplu, media populaţiei 1 având date în eşantionul 1 este egală cu media populaţiei
2 caracterizată de eşantionul 2.
H0 : 1   2 .
Aceasta arată lipsa diferenţelor parametrilor examinaţi sau a existenţei unei relaţii.
– Ipoteza alternativă în care se consideră cei doi parametri diferiţi.
H1 : 1   2 .
Această ipoteză este contrară ipotezei nule şi arată existenţa diferenţelor sau a
relaţiilor posibile între parametri.

Se creează apoi funcţia discriminantă statistică (forma matematică a testului), a


cărei valoare calculată se compară cu valori tabelate corespunzătoare tipului de
repartiţie în care se încadrează.

Pe scurt, etapele de urmat în verificarea prin test statistic vor fi:


1. Enunţarea ipotezei. Se definesc ipotezele: nulă, respectiv alternativă. Acestea
urmăresc scopul cercetării, exprimând ceea ce avem de verificat.

104
BIOSTATISTICA

2. Alegerea parametrului de studiu (poate să fie conţinut implicit în enunţarea


ipotezei). Ca exemple avem: media, varianţa, relaţia exprimată prin corelaţie,
parametrii de regresie, proporţii în cadrul populaţiilor, etc.
3. Deducerea şi calculul statisticii discriminante dorite aplicând regula de decizie.
De exemplu, la compararea mediilor se poate lua în calcul o nouă variabilă
aleatoare definită ca diferenţa între indicatori. În acest caz aceasta poate urma
o distribuţie de tip t (Student) sau Z, deci normală.
4. Acceptarea sau respingerea ipotezei prin calculul semnificaţiei p. Se calculează
statistica (t, Z sau Fisher spre exemplu) din datele eşantioanelor de lucru.
Corespunzător se deduce valoarea p, care reprezintă probabilitatea de a avea o
eroare de tip I. Aceasta este o integrală în cadrul distribuţiei de frecvenţă
determinate şi reprezintă semnificaţia testului.

Ca idee de bază, trăsătura populaţiei studiate care este cuprinsă în eşantionul


analizat (tehnica de determinare a volumului eşantionului şi a elementelor sale este
crucială) poate reprezenta o caracteristică majoritară, care dacă este observată în
proporţie de 95% (definită ca standard), atunci este acceptată. În situaţia în care nu este
întâlnită în această proporţie (de exemplu avem doar 90% din cazuri ce respectă
regula), vom accepta mai degrabă ipoteza alternativă, deoarece variaţia întâlnită (chiar
dacă este în proporţie de numai 10%) implică existenţa unui factor ce a modificat
trăsătura.
Semnificaţia statistică este nivelul de probabilitate la care acceptăm eroarea de
tip I (este eroarea de a decide greşit că H1 este adevărată, deci există diferenţă falsă).
Aceasta este considerată puternică dacă are valoarea p=5% (deci 95% din cazuri nu
s-au modificat), este definită ca medie pentru valori între 5-10% (deci peste 90% de
cazuri nemodificate) şi nu este acceptată pentru p>10% (deci sub 90% din cazuri
nemodificate).
Dacă nu acceptăm ipoteza nulă, înseamnă că alternativa a fost dovedită, dar nu cu
95% încredere. Aici nu trebuie gândit complementar. În figura 2.8 1 se observă că în
funcţie de pragul ales suprafeţele  , respectiv  ce reprezintă erori, nu sunt egale.
Faptul că testul a ieşit semnificativ implică existenţa datelor modificate peste o limită
admisă ca normală, deci acceptăm schimbarea ca fiind datorată probabil unor elemente
care şi-au impus efectul (acceptăm ipoteza H1).
Există o variaţie intrinsecă a datelor care motivează practic obiectul de analiză al
statisticii. Această variaţie impune limitele definite de valoarea semnificaţiei de 5%.
Pentru valori diferite ale varianţei vom avea de exemplu, valori diferite
corespunzătoare abscisei de tip Z sau t.
Lucrând cu o probabilitate de 95% avem deja anumite riscuri. Chiar dacă un
procent destul de mare de date au o anumită caracteristică, aceasta nu înseamnă că
toate elementele populaţiei vor păstra proprietatea. Evident şi normal de anticipat,
aşteptăm ca o proporţie de 5% din date să fie „anormale”. Trebuie să fim pregătiţi să
tratăm problema exhaustiv şi să ţinem cont de această posibilitate – cazurile limită.
Metoda de lucru constă în determinarea distribuţiei, urmată de statistica creată
prin scopul nostru. Spre exemplu, dacă dorim să studiem diferenţa mediilor a două
105
BIOSTATISTICA

populaţii, atunci în mod generic, putem produce un număr mare de eşantioane iar
diferenţa mediilor acestora va defini statistica de lucru. Avem practic un nou set de
date care respectă o anumită lege de distribuţie ce ne ajută în determinarea
semnificaţiei statistice căutate.
Testele de ipoteză sunt foarte importante deoarece reprezintă o metodă statistică
de decizie bazată pe „cântărirea” cunoştinţelor obiective, prin estimări probabilistice
asupra setului de valori determinate practic.
Erori posibile
După cum s-a prezentat deja, există două ipoteze în testele statistice şi anume
ipoteza nulă notată H0, respectiv cea alternativă notată H1.
Se pot comite în această situaţie două erori :
Eroare de tip I – să se accepte în mod greşit ipoteza alternativă H1, când în
realitate H0 este adevărată.
Eroare de tip II – să se accepte în mod greşit ipoteza nulă H0, când în realitate
H1 este adevărată.
Situaţiile posibile sunt prezentate în tabelul de mai jos.
Tabelul 2.8 1.
Situaţie adevărată
Sistem decizional cu prag Ipoteza H0 este Ipoteza H0 este
adevărată falsă
Acceptare Eroare tip II
Nu există eroare
prin test


Decizie

ipoteză H0
Respingere Eroare tip I
Nu există eroare
ipoteză H0 
Este de dorit ca aceste erori să fie cât mai mici posibil. Se cunoaşte că există o
legătură invers proporţională între ele. Putem micşora eroarea  dar drept consecinţă,
eroarea de tip II se va mări într-o anumită măsură (fig. 2.8 1). Încercând să scădem
valoarea  obţinem o creştere a erorii de tip I. Este clar că efectele sunt contradictorii
şi un compromis trebuie acceptat, funcţie de scopul urmărit.
Parametrii distribuţiilor estimate depind de volumul eşantioanelor cercetate. În
concluzie, pentru a micşora ambele erori şi a elimina pe cât posibil efectul nedorit al
lipsei de informaţie vom folosi volume mari de date care vor duce la scăderea în
special a erorii de tip II. Astfel, vom putea modifica pragul notat d pentru a micşora şi
eroarea de tip I.
Grafic, putem reprezenta problema prin două curbe Gauss-Laplace care se
suprapun pe o anumită porţiune (fig. 2.8 1).
Avem două distribuţii conform celor două ipoteze posibile. Pragul decizional (d)
poate fi ales funcţie de dorinţe. Se observă cu claritate dependenţa invers proporţională
între cele două erori materializate prin suprafeţele  respectiv  ce reprezintă în fapt
probabilităţi. Dacă deplasăm dreapta de decizie d în stânga, atunci micşorăm suprafaţa
notată  , dar mărim suprafaţa  ce defineşte eroarea de tip I.
106
BIOSTATISTICA

Cu cât cele două distribuţii se suprapun mai puţin cu atât erorile de decizie sunt
mai mici.

0.45 H0 este adevărată H1 este adevărată


0.4
0.35 d
0.3 A
0.25
0.2 B
0.15
0.1

 
0.05
0
0

9
0.5

1.5

2.5

3.5

4.5

5.5

6.5

7.5

8.5

9.5
10
Figura 2.8 1 – Distribuţiile pentru cele două ipoteze. A este distribuţia ce
susţine H0, B este distribuţia ce susţine H1.

Regiunea de acceptare / respingere a ipotezei nule


În cadrul testelor statistice o temă importantă constă în formarea regulilor de
decizie. Se definesc astfel două regiuni, numite de acceptare, respectiv de respingere a
ipotezei nule.
În continuare ne interesează dacă în cazul ipotezei contează doar existenţa
diferenţei dintre indicatori sau, varianta a doua, ne interesează şi direcţia diferenţei
adică ipoteza alternativă prezintă semnul „mai mare” sau doar „mai mic”.
Dacă suntem în primul caz şi doar existenţa diferenţei este importantă, avem în
lucru un test cu semnificaţie bilaterală. Acesta se aplică în situaţiile în care ipoteza
alternativă conţine variantele posibil mai mare şi posibil mai mic. De exemplu, pentru
compararea mediilor, ipoteza susceptibilă H1 poate avea formele m1>m2, respectiv
m1<m2.
Funcţia densitate de
probabilitate

Regiunea de
Regiunea de Regiunea de
acceptare a H0
respingere a H0 respingere a H0
 Z
 Z
2 Statistica calculată
Praguri corespunzătoare a 2 (t, Z, F, etc.)
95% încredere
Figura 2.8 2 - Regiunea de acceptare/respingere pentru încredere bilaterală

107
BIOSTATISTICA

Pentru situaţia în care avem un singur prag de decizie, ne interesează dacă


variabila studiată are valori mai mici (sau mai mari) decât o valoare cunoscută sau
variabila din lotul 1 are valori mai mici (sau mai mari) faţă de cea din lotul 2. Figura
anterioară se simplifică având doar un singur prag corespunzător semnificaţiei dorite.

Funcţia densitate
de probabilitate

Regiunea de
acceptare a H0 Regiunea de
respingere a H0

m1  Z
Statistica calculată
Pragul corespunzător a (t, Z, F, etc.)
95% încredere

Figura 2.8 3 - Regiunea de acceptare/respingere pentru încredere unilaterală


(H0: media m1 < m2)
Observaţie
Nivelul de semnificaţie de 5% defineşte pragul (în situaţia unui test unilateral) sau
pragurile (pentru un test bilateral) corespunzătoare. Este de aşteptat ca aceste limite să
fie diferite, deoarece probabilitatea de 5% reprezintă suprafaţa cuprinsă în regiunea de
respingere. În testul bilateral avem două suprafeţe simetrice iar în cazul unilateral avem
doar o singură regiune de respingere. Astfel, pentru 5% semnificaţie unilaterală avem
valoarea Z tabelata (p=0,05) = 1,65 iar pentru semnificaţie bilaterală avem
Z tabelată(p=0,025) = 1,96.

Testul ipotezei simple – compararea mediei unui eşantion cu o valoare de


referinţă
Acest test constă în specificarea valorile parametrilor necunoscuţi din cadrul unei
repartiţii. Este vorba de seturi de date de tip continuu.
Ca exemple putem prezenta verificarea egalităţii mediei glicemiei unui subgrup cu
valoarea standard cunoscută, sau media presiunii arteriale, sau greutatea la naştere etc.
Algoritmul de determinare constă în generarea de eşantioane din populaţia ţintă.
Se calculează media acestora şi se studiază noul eşantion astfel format. Conform
teoremei limită centrală, eşantionul mediilor urmează o distribuţie de tip t, care
converge către distribuţia Z (normală) pentru nu număr suficient de mare de date. Acest
rezultat este foarte important, deoarece indiferent de tipul densităţii de probabilitate a
populaţiei studiate, media eşantioanelor are o distribuţie de tip cunoscut.
Vom testa în continuare egalitatea mediei unei populaţii repartizate normal, cu o
anumită valoare de referinţă.
108
BIOSTATISTICA

Cazul 1 – Valoarea dispersiei este cunoscută


Presupunem că avem de verificat egalitatea mediei unui parametru medical (spre
exemplu uricemie, glicemie) cu o anumită valoare dată 0. Notăm media populaţiei cu
 şi o considerăm necunoscută. Notăm dispersia cu 2 şi presupunem că i se cunoaşte
valoarea.
Definim ipoteza nulă H0: Mediile sunt egale,  = 0 .
Definim ipoteza alternativă H1: Mediile diferă,   0 .

Considerăm de asemenea că lucrăm cu un nivel de semnificaţie  bilateral


simetric. Dimensiunea eşantionului este n, iar media calculată din eşantion este X
(aceasta este apropiată de media populaţiei notată  ). Distribuţia mediilor este de tip

Gauss-Laplace de medie  şi abatere standard de n ori mai mică, (numită şi
n
eroare standard). Scăzând valoarea constantă 0 din mediile eşantioanelor distribuţia nu
se modifică decât prin translare. Împărţind în continuare la eroarea standard (dispersia
eşantioanelor) obţinem forma normalizată (medie 0 dispersie 1).
Avem astfel funcţia statistică discriminantă de forma:

Zc  X  0  
(statistica calculată din eşantion).
n
Aceasta este repartizată normal cu media 0 şi dispersia 1, N(0,1).
Pentru nivelul de semnificaţie bilateral se alege un interval  Z / 2 ,  Z / 2 
astfel: P Z / 2  Zc   Z / 2   1   .
Dacă Zc respectă condiţia  Z / 2  Z c   Z / 2  , cu Z / 2 valori tabelate ale
repartiţiei normale, atunci ipoteza H0 se acceptă cu încredere 1-, sau cu riscul .
Această condiţie mai poate fi scrisă restrâns sub forma: Z c  Z  .
2

În caz contrar, dacă este îndeplinită relaţia Z c  Z  , ipoteza H0 se respinge în


2
favoarea acceptării ipotezei H1.
Se poate aplica şi un test unilateral. În acest caz se definesc ipotezele următoare :

1 – Ipoteza H0: media populaţiei este mai mică decât valoarea 0,    0 .
2 – Ipoteza H1: media populaţiei este mai mare decât valoarea 0,    0 .
 X  0 
Conform formulei probabilităţii avem de verificat: P  Z   1   .
 n 

109
BIOSTATISTICA

X  0
Dacă Z c   ( ,  Z ] , atunci ipoteza H0 se acceptă cu nivel de
 n
semnificaţie , sau risc , sau încredere 1-.
În caz contrar, se acceptă ipoteza H1 în defavoarea ipotezei H0.

Tot în cadrul testului unilateral putem avea ipotezele de forma:


H0:    0 , cu alternativa H1:    0 .
Intervalul de acceptare este definit de relaţia:
 X  0 
P  Z   1   .
 n 
Observaţie
În unele cărţi de specialitate, cât şi în unele programe de statistică nivelul de
semnificaţie se notează cu p în loc de .

Cazul 2 – Valoarea dispersiei este necunoscută


Considerăm că avem de verificat ipoteza H0:    0 , adică media unui parametru
medical este egală cu valoarea 0 dată. Ipoteza alternativă este H1 :    0 , media
parametrului respectiv este diferită de valoarea 0 dată.
Valoarea dispersiei populaţiei, notată 2, nu este cunoscută, iar volumul
eşantionului îl notăm cu n.
Pentru verificarea ipotezei H0 se va calcula funcţia discriminantă:
 
tc  X  0  n S (1), unde S reprezintă aproximarea dispersiei
2
cu formula: S 2   n ,  0 este valoarea de comparaţie, iar X este valoarea
n 1
medie a eşantionului.
Variabila aleatoare creată cu formula (1) respectă o repartiţie Student cu
  n  1 grade de libertate (notată cu t).
Notăm nivelul de semnificaţie cu  (sau riscul), respectiv încrederea cu =1- (a
nu se confunda cu eroarea de tip II, este doar o coincidenţă de notaţie!). Valoarea
=0,05 (sau 5%) este acceptată în majoritatea cazurilor medicale.
Conform formulei de calcul a probabilităţii avem:
P t / 2  t c   t / 2   1   .
Comparaţia se face cu t/2, deoarece folosim un risc bilateral simetric (valorile
sunt tabelate în anexe).
Dacă relaţia t c  t , este respectată, atunci acceptăm ipoteza H0 cu nivel de
2
semnificaţie .

110
BIOSTATISTICA

Dacă avem respectată relaţia tc  t  , atunci respingem ipoteza H0 şi nu


, 2
putem afirma cu încredere P=1- că mediile sunt egale.
Interpretarea trebuie făcută cu atenţie, deoarece a respinge ipoteza H0 nu înseamnă
că se acceptă ipoteza H1 cu încredere P=1-. Ipoteza alternativă a fost acceptată ca
urmare a depăşirii unui prag definit ca decident. Ne aflăm pe suprafaţa erorii de tip I şi
astfel ipoteza alternativă este de preferat.

Exemplu
Vom folosi un set de date create cu ajutorul computerului şi rezolvăm problema la
modul generic. Considerăm că în cadrul experimentului realizat am obţinut următorul
set de valori:
Tabelul 2.8 2. 12 1,43
Parametrul 13 1,87
analizat (X) 14 1,57
1 1,83 15 1,64
2 1,60 16 1,44
3 1,74 17 1,57
4 1,84 18 1,44
5 1,26 19 1,74
6 1,44 20 1,42
7 1,43 21 1,24
8 1,43 22 1,32
9 1,50 23 1,22
10 1,72
11 1,33

Se doreşte să se verifice dacă datele diferă sau nu semnificativ faţă de valoarea


standard normală X0=1,2. Pentru aceasta se va afla media lotului se va deduce statistica
t sau Z calculată şi în final se va decide acceptarea sau respingerea ipotezei H0.

Folosind Microsoft Excel:


În situaţia dată nu avem cunoştinţe despre valoarea dispersiei, deci statistica

calculată este de tip t cu formula t c 


X  X 0  , unde S 
2 2
n .
S n n 1
Ne interesează doar verificarea semnificaţiei statistice pentru diferenţa între valori
nu şi sensul acesteia (mai mare sau mai mic). Lucrăm astfel cu un test bilateral.
Distribuţia t (Student) este caracterizată de numărul gradelor de libertate df=23-1
(volumul eşantionului minus 1, în cazul nostru) şi de semnificaţia statistică 0,05
standard. În concluzie, citim valoarea de comparaţie existentă în tabele
t df 22, / 20,025  2,074 (din anexele cărţii).
Putem calcula pas cu pas fiecare element din formula prezentată mai sus.
111
BIOSTATISTICA

Pentru medie: =AVERAGE(D4:D26), obţinem X  1,523 .


Pentru dispersia corectată: =STDEV(D4:D26), obţinem S  0,196 .
În final obţinem : tcalculat = 7,90.

Valoarea calculată 7,90 este mai mare faţă de cea tabelată 2,074 şi decidem că
ipoteza H0 nu este acceptabilă. În concluzie, decidem că există diferenţă semnificativă
statistic între datele experimentale şi valoarea standard normală cunoscută.

Problema prezentată se putea rezolva şi prin determinarea intervalului de


confidenţă – metodă discutată în capitolul corespunzător. Dacă intervalul determinat
pentru media eşantionului cuprinde valoarea de comparaţie, atunci nu există diferenţă
semnificativă statistic.

Folosind softul SPSS


Pentru această verificare există special o subrutină dezvoltată. Aceasta se lansează
urmând din meniu paşii: Analyze + Compare means + One-Sample T Test…

Figura 2.8 4 - SPSS compararea mediei unui eşantion cu o valoare de


referinţă.

Se defineşte conform figurii alăturate variabila ce defineşte eşantionul cât şi


valoarea de referinţă.
Se obţin două tabele cu datele statistice calculate.

112
BIOSTATISTICA

Tabelul 2.8 3. One-Sample Statistics


Std. Error
N Mean Std. Deviation Mean
X 23 1.5234 .19675 .04103

Tabelul 2.8 4 . One-Sample Test


Parametrul

Test Value = 1.2


95% Confidence Interval
X

Mean of the Difference


t df Sig. (2-tailed) Difference
Lower Upper
X 7.883 22 .000 .32339 .2383 .4085

În primul tabel sunt determinate valorile mediei, deviaţiei standard şi a erorii


standard. Acestea pot fi determinate şi în Ms Excel.
În tabelul al doilea găsim valoarea statisticii t calculate 7,883 (cu o precizie mai
bună faţă de cea calculată de noi, 7,90), nivelul de semnificaţie ce este sub 1 0 00 , iar în
final limitele intervalului de confidenţă a diferenţei faţă de referinţa 1,2.
Interpretare
Conform nivelului de semnificaţie calculat (sub 1 0 00 ) deducem că există
diferenţă semnificativă statistic, deoarece valoarea de 0,001 este mai mică decât 0,05
sau 5%.
Altă metodă de interpretare constă în studiul intervalului de confidenţă a
diferenţei. Dacă acesta nu cuprinde valoarea 0, atunci există semnificaţie statistică. În
cazul nostru evident ajungem la acelaşi rezultat. Valoarea 0 nu este cuprinsă în
domeniul 0,2383 ÷ 0,4085, deci media eşantionului diferă faţă de valoarea normală 1,2.

Testul ipotezei duble – compararea mediilor a două eşantioane (t, Student)


Foarte frecvent în aplicaţiile de tip medical (şi nu numai) apare problema
comparării unor parametri dintr-un eşantion cu parametrii altui eşantion (pot fi chiar
din aceeaşi populaţie, dar la momente diferite).
Presupunem că avem două eşantioane notate X, cu valorile x1, x2, …, xnx, respectiv
Y, cu valorile y1, y2, …, yny. Considerăm că cele două populaţii sunt repartizate normal,
 
şi anume X : N  x ,  x2 , respectiv Y : N  y ,  y2 .  
Dorim să testăm ipoteza H0: x = y, mediile sunt egale, cu alternativa
H1: x  y, mediile sunt diferite (se aplică testul „t” sau testul Z). Pentru aceasta se
defineşte o variabilă aleatoare V = X – Y, care funcţie de cunoştinţele despre dispersiile
 x2 ,  y2 , va respecta o anumită funcţie de distribuţie.
Din teorema limită centrală rezultă că distribuţia diferenţei mediilor poate fi de tip
t (Student) sau Z (Gauss-Laplace). Se respectă acelaşi procedeu de determinare a unui

113
BIOSTATISTICA

număr mare de eşantioane şi se analizează diferenţa mediilor ca fiind o nouă variabilă


de studiu V.
Cazul 1 – Datele sunt perechi
O metodă des întâlnită în practica medicală constă în măsurarea datelor înainte de
tratament şi după tratament. Se doreşte verificarea existenţei diferenţei semnificative,
deci eficienţa tratamentului este analizată.
Marele avantaj al folosirii datelor pereche constă în eliminarea efectului factorilor
de confuzie: vârstă, sex, rasă, etc. Chiar în acest sens se proiectează studii perechi
caz-martor în care persoanele care au aceleaşi valori ale factorilor de confuzie sunt
trataţi ca perechi.
Datele astfel culese conţin o anumită legătură a cuplului şi nu vor putea fi
analizate ca aparţinând a două eşantioane independente.
Se defineşte o nouă variabilă aleatoare formată din diferenţa pe fiecare pereche de
date d. Această variabilă va fi comparată cu valoarea 0. Distribuţia urmată va fi de tip
Student (t) de medie d respectiv dispersie  d2 . Studiind distribuţia mediilor
eşantioanelor obţinem aceeaşi medie (ce poate fi 0) dar dispersia este micşorată
(conform demonstraţiilor matematice) de n ori (n este volumul eşantioanelor),
 d2
 d2  .
n
În concluzie, distribuţia normalizată a mediilor eşantioanelor este de tip Student
d 0
de forma: t c  , unde Sd este aproximarea deviaţiei standard (împărţire la n-1).
Sd
n
Ipoteza H0 afirmă că mediile sunt egale deci d=0, diferenţa este 0.
Ipoteza alternativă H1: mediile nu sunt egale deci d este diferit de 0.
Valoarea statisticii tabelate pentru test bilateral este determinată de semnificaţia
standard de 5% iar numărul gradelor de libertate df=n-1. În tabelele distribuţiei t se
citeşte valoarea t df n1,  / 20,025 .
Interpretarea respectă aceeaşi regulă generală, dacă t calculat este mai mare ca t
tabelat (ambele în modul) atunci există semnificaţie statistică, deci cele două seturi de
date diferă semnificativ. În caz contrar dacă t tabelat este mai mare ca t calculat se
acceptă ipoteza H0, deci mediile sunt egale.
Cazul 2 – Dispersiile  x2 ,  y2 sunt cunoscute
În această situaţie variabila V urmează o distribuţie normală şi va avea dispersia
 x2  y2
echivalentă  2
V   .
nx ny
Funcţia discriminantă se va calcula cu formula:

114
BIOSTATISTICA

Z
V  V

X  Y    x  y 
.Variabila Z este repartizată normal
V  x2  y2

nx ny
N(0,1). Pentru specificaţie bilaterală simetrică regiunea de acceptare va fi:
 
P  Z 2  Zc  Z 2  1   , cu  nivelul de semnificaţie.
X Y
Pentru medii egale se determină: Zc  .
 x2  y2

nx ny
Atunci când se calculează Zc şi se respectă relaţia Zc  Z 2 , se va accepta
ipoteza H0 cu încrederea P = 1 - . Astfel, putem considera că mediile sunt egale.
Dacă relaţia: Zc  Z  2 este respectată, atunci nu putem accepta ipoteza H0 şi în
schimb vom considera mediile ca fiind diferite.
Cazul 3 – Dispersiile  x2 ,  y2 sunt egale de valori necunoscute.
În această situaţie statistica discriminantă urmează o repartiţie Student de forma:

tc 
X  Y  , S x2 
 x2
 nx , S y2 
 y2
n.
n x  1  S x2 n  1  S y2 1 1 nx  1 ny  1
  
y

nx ny nx n y
Valoarea calculată se compară cu valoarea tabelată t , 2 , unde:
  1   2  n1  n2  2 .

Dacă se respectă relaţia t c  t , 2 , vom accepta ipoteza H0, deci mediile se pot
considera a fi egale.

Dacă t c  t , 2 , nu putem accepta ipoteza H0 şi concluzionăm că mediile sunt


diferite.
Cazul 4 – Dispersiile sunt necunoscute (pot fi sau nu egale)
În acest caz se calculează funcţia discriminantă:

tc 
X  Y  . Această variabilă aleatoare aproximează o lege de distribuţie
S2
S y2
x

nx ny
de tip Student.

115
BIOSTATISTICA

Valoarea calculată se va compara cu valoarea tabelată t , 2 .Numărul gradelor de


libertate se calculează cu formula:
 x  y Sx 1
 , unde constanta C este C   2
 y  C  1  C   x
.
2 2
n x S x n x  S y2 n y
De asemenea, s-au folosit formulele de calcul:
 x2  y2
 x  n x  1 ,  y  n y  1 , S x2   n x , S y2   ny .
nx  1 ny 1
La fel ca şi în celelalte cazuri, dacă t c  t , 2 acceptăm ipoteza H0 şi mediile
sunt egale, altfel considerăm mediile ca fiind inegale.

Observaţie
Metodele prezentate reprezintă tehnici statistice matematice optime pentru a
obţine un rezultat cât mai corect. Nu este greşit dacă se aplică cazul general pentru
compararea datelor, de exemplu nu se cunoaşte nimic despre aceste valori (sunt sau nu
perechi, au varianţele egale, sunt normal distribuite). Rezultatul însă va fi determinat
într-o formă aproximativă prezentând lipsă de semnificaţie în anumite situaţii limită,
tocmai prin lipsa de informaţie cuprinsă.

Exemplu
Presupunem că avem două seturi de date înainte şi după tratament iar parametrul
de studiu este glicemia. Dorim să analizăm dacă există diferenţă semnificativă statistic,
ceea ce ar confirma sau infirma eficienţa tratamentului.

Tabelul 2.8 5.
înainte după 12 1.43 1.35
1 1.83 1.34 13 1.87 1.13
2 1.60 1.63 14 1.57 1.27
3 1.74 1.00 15 1.64 1.01
4 1.84 1.45 16 1.44 1.46
5 1.26 1.13 17 1.57 1.01
6 1.44 1.28 18 1.44 1.04
7 1.43 1.08 19 1.74 1.31
8 1.43 1.48 20 1.42 1.11
9 1.50 1.12 21 1.24 1.57
10 1.72 1.53 22 1.32 1.15
11 1.33 1.42 23 1.22 1.30

Este uşor de observat că datele sunt perechi, deci vom aplica testul specific acestei
situaţii.

116
BIOSTATISTICA

Folosind MsExcel
Pentru lansarea testului urmăm paşii : Tools + Data Analysis + t-Test: Paired Two
Sample for Means.
Se completează interactiv datele din figura alăturată.

Figura 2.8 5 - Compararea mediilor testul t MsExcel.

Se definesc domeniile eşantioanelor, numite variabila 1 respectiv 2, nivelul de


semnificaţie (standard 5%) şi domeniul sau celula de start a afişării rezultatelor.
În final se obţin următoarele valori:

Tabelul 2.8 6 - Rezultatele testului t sau Student.


t-Test: Paired Two Sample for Means
înainte după
Mean 1.523389088 1.267697646
Variance 0.038711492 0.037625235
Observations 23 23
Pearson Correlation -0.040121114
Hypothesized Mean
Difference 0
df 22
t Stat 4.351833135
P(T<=t) one-tail 0.000127727
t Critical one-tail 1.717144335
P(T<=t) two-tail 0.000255454
t Critical two-tail 2.073873058

117
BIOSTATISTICA

Tabelul rezultatelor ne oferă toate informaţiile necesare pentru o interpretare


corectă a analizei.
Statistica t calculată are valoarea 4,351 şi se compară cu valoarea tabelată ce este
prezentă în tabel pentru test bilateral având valoarea 2,07 (numită valoare critică).
Valoarea calculată depăşind valoarea tabelată rezultă că există diferenţă semnificativă
statistic.
Acelaşi rezultat se obţine comparând valoarea semnificaţiei p calculate în cazul
bilateral al testului cu 5% valoare standard erorii de tip I. Valoarea semnificaţiei (P two
tailed=0,00025) este mult mai mică ca 0,05 deci şi prin această metodă (era de
aşteptat!) se obţine semnificaţie statistică.

Folosind SPSS
Şi în acest program avem posibilitatea de a alege dintre mai multe variante ale
testului t pentru compararea mediilor pe cea convenabilă studiului. În situaţia în care
datele sunt perechi, acestea se introduc pe două coloane conform figurii alăturate.
Pentru lansare se urmează calea: Analyze + Compare Means + Paired Samples T-
Test

Figura 2.8 6 - Compararea mediilor, testul t pentru date perechi în SPSS.

Se definesc în continuare cele două variabile ce conţin datele perechi şi se


realizează analiza.

118
BIOSTATISTICA

În final, se obţin două tabele cu datele calculate.

Tabelul 2.8 7 - Paired Samples Statistics


Std. Error
Mean N Std. Deviation Mean
Pair 1 Înainte 1.5226 23 .19650 .04097
După 1.2683 23 .19481 .04062

Tabelul 2.8 8 - Paired Samples Test

Paired Differences
95%
Confidence
Std. Interval of the Sig. (2-
Pair 1 Std. Error Difference t df tailed)
Mean Deviation Mean
Lower Upper
Înainte -
.25435 .28195 .05879 .13242 .37627 4.326 22 .000
După

Ca şi în cazul utilizării softului Ms Excel este determinată valoarea statisticii


t=4,326 şi corespunzător, nivelul semnificaţiei dedus. Diferenţa este semnificativă,
pcalculat este sub 1 la mie. Sunt determinate de asemenea şi limitele intervalului de
confidenţă a diferenţei studiate pentru 95% probabilitate. În această situaţie valoarea 0
nu este cuprinsă în acest interval şi astfel se justifică (metoda a doua) existenţa
semnificaţiei statistice.

Observaţie
Testele de comparaţie au valoare practică în situaţia în care se specifică în mod
direct, diferenţa necesară pentru a accepta ca util procesul de modificare a valorilor
datelor. De exemplu, tratamentul este considerat eficient dacă mediile celor două
populaţii diferă cu cel puţin 0,4 în valoare absolută. Iată Ms Excel are această
posibilitate de a impune verificarea diferenţei minime necesare în calcul.
Verificarea semnificaţiei statistice în cadrul impunerii unei anumite diferenţe între
mediile populaţiilor studiate se poate realiza şi prin studiul intervalului de confidenţă a
diferenţei. Dacă valoarea impusă este cuprinsă în interiorul intervalului, atunci nu
există diferenţă semnificativă statistic.

Testul ipotezei multiple – compararea mediilor mai multor eşantioane


(ANOVA)
Presupunem că avem de determinat semnificaţia diferenţelor dintre m grupe
independente de date. Făcând apel la cunoştinţele deja prezentate, un posibil răspuns ar
fi să comparăm două câte două, grupuri în toate combinaţiile posibile (se va aplica

119
BIOSTATISTICA

testul t). Dacă am avea 10 loturi atunci numărul de teste ar fi combinări de 10 luate câte
10  10!
2, adică C10 2
     45 . Un număr destul de mare de variante.
 2  (10  2)!2!
Ţinând cont de performanţele actuale ale sistemelor informatice, nu aceasta ar fi
problema. Dacă privim tema în discuţie, în termeni ai probabilităţii de a avea o eroare,
atunci iată că procentul de 5% ar însemna în cazul nostru aproximativ 2 teste greşite
din cele 45 (aşa zisa eroare de tip I este prezentă aici şi constă în a accepta greşit
existenţa diferenţei semnificative între două grupe, când în realitate aceasta nu există).
Ideea de a elimina această posibilă eroare se bazează pe crearea unui singur test
pentru a compara cele m grupe de date simultan.
Prin analiza varianţei numită ANOVA (analysis of variances) se aplică un singur
test, ce respectă o statistică de tip Fisher pentru determinarea semnificaţiei diferenţei
dintre mediile eşantioanelor.
Presupunem că avem m grupe de date, fiecare grup j având nj elemente. Notăm un
element din întregul set de valori cu xij, unde i reprezintă poziţia elementului din grupul
j. Astfel i variază de la 1 la nj, iar j de la 1 la m.
Ipoteza H0 este: 1   2 ...   j  ...   m , iar alternativa,
H1: Există cel puţin două grupe de medii diferite.  k, l pentru care  k  l .
În figura alăturată este prezentată componenţa loturilor de studiu.

x1 x1 x1
x2 x2 x2
… … …
xn1 xnj xnm

Lotul 1 Lotul j Lotul m


Medie x1 Medie x j Medie x m

Figura 2.8 7 – Grupele de date de comparat.

Ca ipoteză de lucru, se presupune că fiecare grup de date este distribuit normal iar
dispersiile sunt egale între grupuri. Aceste presupuneri trebuie verificate, altfel testul
ANOVA nu poate fi aplicat.
Numărul total de elemente n poate fi calculat cu formula următoare ţinând cont de
m
cele m grupe : n   n j (j este numărul de grupe).
j 1

 xij
i, j
Media totală a tuturor valorilor este : x  , deci suma tuturor elementelor
n
raportată la numărul total de elemente.
120
BIOSTATISTICA

Putem calcula media totală şi ţinem cont de valoarea mediei fiecărui grup astfel:
Notăm media grupului j cu x j . Acest grup are nj elemente.
nj  xj
j
Avem în final media totală: x  .
n
Variaţia variabilei aleatoare X de interes este măsurată convenţial în termeni ai
deviaţiei faţă de valoarea medie ( xij  x ).
Suma totală a pătratelor deviaţiilor este (total sum of square):

SST   xij  x 2 . 
i, j
Putem scrie suma deviaţiei astfel (adăugăm şi scădem x j ):

xij  x  xij  x j  x j  x .   
Folosind teorema lui Cochran se poate demonstra că prin sumare şi ridicare la
pătrat se păstrează egalitatea:  xij  x 2    xij  x j 2   x j  x 2 .
i, j i, j i, j
Ţinând cont că ultima sumă depinde numai de numărul de grupe de comparat (j):
 xij  x 2    xij  x j 2   n j  x j  x 2 .
i, j i, j j

Aceste variaţii reprezintă:

 Suma totală a pătratelor deviaţiilor:


SST   xij  x 2 .  
i, j
 Suma pătratelor deviaţiilor între grupuri (sum of square between):
SSB   n j  x j  x 2 .  
j
 Suma pătratelor deviaţiilor în grupuri (sum of square within):
SSW   xij  x j  2 .
i, j
Avem egalitatea: SST = SSW + SSB.

Deducem astfel, că există două surse de variaţie, între grupuri şi în cadrul


grupurilor. Raportul mediilor acestor două surse de variaţie respectă (în cazul
presupunerilor de repartiţii normale şi dispersii egale) o distribuţie de tip Fisher.
Aceasta este statistica de analizat în studiul de tip ANOVA.
SSB – reprezintă o distribuţie de tip Chi pătrat, cu m-1 grade de libertate.
SSW – reprezintă o distribuţie de tip Chi pătrat, cu n-m grade de libertate.

121
BIOSTATISTICA

SSB SSW
Putem calcula mediile: MSSB  , respectiv MSSW  .
m 1 nm
MSSB
Statistica Fisher se obţine prin raportul F  . Aceasta va avea m-1
MSSW
respectiv n-m grade de libertate.
Pentru interpretare se calculează valoarea F prin raportul prezentat şi se compară
cu valoarea tabelată corespunzătoare gradelor de libertate determinate şi unui nivel de
semnificaţie standard de 5% (0,05). Dacă valoarea calculată este mai mare decât cea
tabelată, rezultă că mediile nu sunt egale şi există cel puţin două grupe cu diferenţă
semnificativă statistic.

Dacă se calculează valoarea semnificaţiei, aceasta se va compara cu valoarea 5%.


În situaţia în care este mai mică atunci există diferenţă semnificativă statistic.
Menţionăm că testul ANOVA în cazul existenţei diferenţei semnificative are
dezavantajul de a nu putea prezenta care sunt grupurile care diferă.
Această metodă este optimă în situaţia în care nu avem diferenţă semnificativă
între grupe deoarece am realizat un singur test pentru m grupe de comparaţie.

Exemplu numeric de calcul


Pentru a minimiza calculele necesare realizării testului ANOVA vom considera că
avem trei grupuri cu câte 4 date fiecare. Valorile sunt cuprinse în tabelul următor.

Tabelul 2.8 9 – Valorile grupelor de comparat.


Grupul A Grupul B Grupul C
2 2,9 2
2,5 3,2 2,1
3 3 2,6
2,7 3,1 2,3

Calculând mediile celor 3 grupe de date obţinem: x1  2,55 ; x1  3,05 ;


x1  2,25 . Media pe toate grupurile este x  2,616 .

Valoarea SSW este: SSW = (2-2,55)2 + (2,5-2,55)2 + (3-2,55)2 + (2,7-2,55)2 +


(2,9-3,05)2 + (3,2-3,05)2 + (3-3,05)2 + (3,1-3,05)2 + (2-2,25)2 + (2,1-2,25)2 + (2,6-
2,25)2 + (2,3-2,25)2 ; SSW = 0,79.

Valoarea SST este: SST = (2-2,616)2 + (2,5-2,616)2 + (3-2,616)2 + (2,7-2,616)2 +


(2,9-2,616)2 + (3,2-2,616)2 + (3-2,616)2 + (3,1-2,616)2 + (2-2,616)2 + (2,1-2,616)2 +
(2,6-2,616)2 + (2,3-2,616)2 ; SST = 2,09.

Valoarea SSB o calculăm ca diferenţa celor două şi obţinem SSB = 1,30.

122
BIOSTATISTICA

Se vor calcula mediile prin raportarea sumelor pătratelor diferenţelor la gradele de


libertate şi în final se va determina valoarea statisticii Fisher.
Pentru continuarea calculului putem realiza tabelul de mai jos (tabelul de mai jos
este cuprins în toate programele de analiză a varianţei ANOVA, acestea calculează de
asemenea şi nivelul de semnificaţie p).

Tabelul 2.8 10 - Tabelul de calcul pentru testul ANOVA.


Grade de Statistica
Suma pătratelor Media SS
Sursa de variaţie libertate Fisher
SS MS
df F
Between Groups 1.306666667 3-1 = 2 0.653333333 7.443037975
Within Groups 0.79 12-3 = 9 0.087777778

Total 2.096666667 11

Valoarea statisticii Fisher corespunzătoare tabelată este F(2; 9; p=5%)=4,256

Valoarea calculată fiind mai mare decât cea tabelată, deducem că mediile diferă
semnificativ, dar nu cunoaştem efectiv care dintre acestea sunt diferite.
Programele de calcul şi analiză statistică determină şi valoarea semnificaţiei,
notată cu p. Dacă valoarea acesteia este mai mică de 0,05, atunci mediile diferă
semnificativ.
Pentru studiu este indicat a se analiza şi exemplul din capitolul EpiInfo 3.3.2.

123
BIOSTATISTICA

2.9. TABELE DE CONTINGENŢĂ – TESTUL CHI PĂTRAT (  2 ), RISC,


COTĂ
Noţiuni
Compararea frecvenţelor de apariţie a anumitor evenimente se poate realiza fie
determinând intervalul de confidenţă, fie aplicând testul Chi pătrat. Este una dintre
metodele cele mai des întâlnite in practica medicală şi prezente în lucrările ştiinţifice
din domeniu.
Evenimentele studiate fac parte din grupa variabilelor de tip calitativ şi suntem
interesaţi de frecvenţa de apariţie a acestora. Pentru un număr mare de experimente,
aceste frecvenţe tind către valorile probabilităţilor. Acestea pot fi comparate prin
cunoştinţele extrase din eşantioane folosind testul Chi pătrat (  2 ). Datele culese
experimental se adună în tabele numite de contingenţă şi cuprind toate combinaţiile
variantelor categoriale ale variabilelor de studiu.
Cea mai simplă formă de aplicare a statisticii de tip  2 este compararea
frecvenţei experimentale de apariţie a unui eveniment cu cea teoretică.
nr. de ev.
O  E 2
Formula de calcul generală este:  calculat
2
  E
(1)
i 1
 calculat
2
- este valoarea statisticii Chi pătrat calculată din datele experimentale.
O – valorile observate ale frecvenţelor absolute (observed).
E – valorile determinate teoretic, dacă nu ar exista legătură între variabile
(expected – aşteptate).
Valorile observate sunt tocmai frecvenţele absolute, deci numărul de cazuri din
eşantion ce respectă o anumită condiţie. Acestea sunt obţinute în urma studiului
realizat.
Valorile aşteptate sau teoretice se cunosc fie din literatura de specialitate, fie din
studii pilot, sau se determină din cele experimentale presupunând lipsa dependenţei
între variabile, sau sunt pure valori teoretice pentru comparaţie.
Prezentăm un exemplu de verificare a egalităţii frecvenţei de apariţie a unui
eveniment raportat la o regiune geografică specifică, comparativ cu procentul cunoscut
pe întreaga zonă de studiu.
Din cele 120 de cazuri din regiunea R1, avem 40 de evenimente realizate. Vom
compara procentul rezultat cu valoarea cunoscută de 50% a evenimentelor pe întreaga
populaţie. Putem crea tabelul:
Tabelul 2.9 1.
R1 Rtotal R1 – regiunea 1 geografică (prezintă un
Eveniment 40 50 specific).
Non eveniment 80 50 Rtotal – regiunea totală studiată.
Total 120 100

124
BIOSTATISTICA

Valorile determinate pentru zona R1 reprezintă în fapt valorile experimentale, deci


sunt cele observate.
Procentul de 50% cunoscut pe zona geografică totală studiată reprezintă valoarea
aşteptată.

Tabelul poate fi refăcut şi completat astfel:


Tabelul 2.9 2. Etapele de calcul pentru determinarea valorii  2 .
Observat Aşteptat
(O-E) (O-E)2 (O-E)2/E
(O) (E)
Ev. 40 50 -10 100 2
Non ev. 80 50 30 900 18
Total 120 100 20 1000 χ 2
 20
calculat

Deoarece se cunoaşte din start valoarea de 50% a frecvenţei de comparaţie, acest


test se numeşte cu „ipoteză teoretică apriorică”.
Valoarea statisticii calculate se compară cu cea tabelată corespunzătoare nivelului
de semnificaţie stabilit şi de asemenea, corespunzătoare gradelor de libertate (df -
degree of freedom) specifice distribuţiei Chi pătrat determinate.

Gradele de libertate reprezintă un parametru specific aşa cum media respectiv


dispersia reprezintă parametrii distribuţiei de tip Gauss-Laplace. Acestea sunt egale cu
numărul de elemente necesare a fi cunoscute pentru ca problema sa prezinte un caz
determinat. De exemplu, în situaţia în care experimentul constă în aruncarea unei
monede, avem două evenimente posibile de realizat: marca sau banul. Dacă ştim
frecvenţa de apariţie a mărcii, putem determina frecvenţa de apariţie a banului. Astfel,
avem un singur grad de libertate în cadrul acestei experienţe.

Şi în situaţia noastră avem două evenimente posibile (eveniment, non eveniment)


deci deducem gradele de libertate df=1.
Căutând în tabelele statistice valorile distribuţiei  2 pentru df=1, respectiv
p=0,05, găsim valoarea  2 (1 ; 0,05)  3,84 .
2
Valoarea Chi pătrat calculată ( χ calculat  20 , conform formulei 1 detaliat
calculată în tabelul 2.9 2) este mai mare ca valoarea tabelată, de unde deducem că
ipoteza nulă „proporţiile sunt egale”, nu este acceptabilă şi conchidem că există
diferenţă semnificativă statistic între proporţii.

Acesta este un mod de aplicare a statisticii Chi pătrat. Există şi alte metode de
comparare a frecvenţelor, folosind chiar toate variantele posibile de a combina funcţie
de categorii, variabilele de interes.

125
BIOSTATISTICA

Testarea dependenţei dintre două variabile categoriale

În această situaţie nu se cunoaşte a priori frecvenţa de apariţie a categoriilor


variabilelor de comparat.
O formă simplă este exprimată de tipul dicotomic având doar variantele Yes/No,
True/False sau forma binară 1 / 0.
Cele două variabile de studiat pot fi aranjate într-un tabel de contingenţă, ce
prezintă toate frecvenţele absolute ale combinaţiilor posibile de tipul (V1,V2), variabilă
1, respectiv variabilă 2.
Presupunem că aplicăm codificarea (0,1) pentru ambele variabile. Astfel,
combinaţiile posibile (V1,V2) pot avea următoarele variante: (1,1); (1,0); (0,1); (0,0).
Iată mai jos tabelul de contingenţă realizat:
Tabelul 2.9 3.
V2
1 0 Total
1 (1,1) = a (1,0) = b a+b
V1
0 (0,1) = c (0,0) = d c+d
Total a+c b+d a+b+c+d=n

Pentru a nu rămâne în partea aridă, teoretică, putem considera V1 ca reprezentând


sexul persoanei, iar V2 să reprezinte prin codificarea 1 fumătorii, iar prin 0 nefumătorii.
Pentru a verifica existenţa dependenţei între V1 şi V2, trebuie să ţinem cont de toate
frecvenţele variantelor posibile (V1,V2). Nu este corect să gândim compararea doar a
frecvenţelor a/(a+b), respectiv c/(c+d) – asemănător comparării cu o frecvenţă
cunoscută.
Amintim că valorile a, b, c, d sunt determinate experimental, deci sunt cele
observate.
Trebuie să găsim o metodă de a calcula valorile frecvenţelor teoretice sau
aşteptate (expected). În situaţia în care cele două variabile ar fi independente, putem
determina frecvenţele aşteptate folosindu-ne de suma pe linii, respectiv pe coloane a
frecvenţelor observate.
De exemplu, frecvenţa absolută teoretică (sau aşteptată) pentru varianta (1,1)
poate fi calculată cu formula (a+b)(a+c)/n. Aceasta se justifică astfel: Avem a+c
cazuri cu V2=1 din totalul de n. Frecvenţa relativă este (a+c)/n, indiferent din ce grup
categorial definit de V1 provin, deci gândim pe ansamblu. Din totalul de n cazuri, avem
(a+b) cu V1=1. Putem deduce frecvenţa absolută teoretică, în sensul variabile
independente pentru situaţia V1=1 şi V2=1 cu formula (a+b)(a+c)/n. Observăm că este
produsul dintre total linie, total coloană raportat la numărul total de date.
Avem astfel formulele de calcul ale frecvenţelor aşteptate pentru toate celulele
tabelului de contingenţă:
E(1,1) = (a+b)(a+c)/n ; E(1,0) = (a+b)(b+d)/n ;
E(0,1) = (c+d)(a+c)/n ; E(0,0) = (c+d)(b+d)/n .

126
BIOSTATISTICA

Forma generală: Frecvenţa aşteptată = total_coloană• total_linie / total_general.

O  E 2
Astfel, valoarea statisticii Chi pătrat devine:  calculat
2
  E

  calculat
2

a  E (1,1)2  b  E (1,0)2 
c  E (0,1)2  d  E (0,0)2 .
E (1,1) E (1,0) E (0,1) E (0,0)

Numărul de grade de libertate se calculează cu formula:


df = (nr. coloane – 1)• (nr. rânduri – 1).

Din tabelele distribuţiilor statistice se citeşte valoarea  (2df ; p ) (df – gradele de


libertate; p – nivelul de semnificaţie ce este 0,05 standard).
Algoritmul de decizie este acelaşi în forma generală exprimat astfel:
Dacă valoarea  calculat
2
  (2df ; p) , echivalent cu pcalculat < 0,05, deducem că
frecvenţele comparate diferă semnificativ, deci există asociere între variabila V1,
respectiv V2, în sensul că pentru grupa V1=1 frecvenţele pentru V2=1, respectiv V2=0
diferă de aceleaşi frecvenţe pentru grupul V1=0. Cu alte cuvinte, proporţiile formate de
categoriile variabilei V2 diferă semnificativ pentru populaţiile formate de categoriile
variabilei V1.
Dacă V1 reprezintă sexul, interpretarea constă în existenţa proporţiilor diferite între
fumători şi nefumători la populaţia de bărbaţi faţă de femei.
În situaţia particulară a tabelelor de contingenţă 2x2, o metodă de calcul ce
conduce la o aproximare mai bună a valorii statisticii este materializată prin formula
Yates. Aceasta aplică o corecţie concretizată prin scăderea valorii ½ sub forma:
 O  E  12 2
 calculat
2
 .
E
Ţinând cont de prelucrările matematice, forma finală devine:

 a  d  b  c  N 2 2  N
 calculat
2
 .
a  b  c  d   a  c   b  d 
Această corecţie duce la o estimare mai apropiată faţă de valoarea corectă a
statisticii calculate pentru cazul particular al tabelului cu două rânduri şi două coloane.
Menţionăm că pentru df=1 şi semnificaţie standard p=0,05 avem
 2 (1 ; 0,05)  3,84 (standard pentru tabele 2x2).
În situaţia în care numărul de date este mic, altfel spus volumul eşantionul este
mic, putem avea valori sub 5 a frecvenţelor aşteptate. Acesta este un prag care arată că
eroarea introdusă în calcul creşte simţitor. În astfel de situaţii se poate aplica testul

127
BIOSTATISTICA

exact Fisher pentru a obţine un rezultat util. Acesta aplică o formulă recurentă care
determină şi valoarea semnificaţiei corespunzătoare, deci pcalculat. În final, comparaţia
se face tot cu 0,05, acceptând sau nu ipoteza testată.
Se pune evident problema dimensiunii eşantionului de studiu. Aceasta se poate
deduce conform metodelor prezentate în capitolul dedicat calculului volumului
necesar. Totuşi în anumite situaţii, pe care noi nu le putem anticipa, se întâmplă ca şi
valorile aşteptate (expected) să se apropie de 0. Studii laborioase au arătat că atât timp
cât valorile frecvenţelor aşteptate sunt mai mari ca 1, testele exacte dau rezultate
corecte (Larntz K, Small-sample comparisons of exact levels for chi-squared goodness-
of-fit statistics. Journal of the American Statistical Association 73, 253-263, 1978.)

Formula generală de calcul pentru statistica  2


Este uşor de determinat această formulă de calcul deoarece generalizarea este
intuitivă, plecând deja de la formulele prezente.
Calculul frecvenţelor aşteptate cât şi a statisticii Chi pătrat au deja o formă
generală ce se poate aplica şi pentru cazul tabelelor cu p rânduri şi q coloane.
Trebuie menţionat că eşantionul trebuie să fie aleator ales din cadrul populaţiei de
studiu, să fie consistent deci dimensiunea lui să determine prezenţa în limita acceptată
a informaţiei necesare. Categoriile ce definesc variabilele de comparat trebuie să se
excludă reciproc – de exemplu, să nu existe elemente comune care să poată avea
valoarea V1=1 şi V1=0 în acelaşi timp.

Formula generală de calcul pentru statistica Chi pătrat:  calculat


2

O  E 2 .
E
Creăm tabelul de contingenţă pentru două variabile cu mai mult de două categorii.

Tabelul 2.9 4 - Tabelul de contingenţă pentru cazul general.

V2
categorii 1 2 … q Total
q
1 O(1,1) O(1,2)  O(1, j )
j 1
2
V1
… O(i,1) O(i,j)
q
P O(p,q)  O ( p, j )
j 1
p p p

Total  O(i,1)  O(i, j )  O(i, q) n


i 1 i 1 i 1

128
BIOSTATISTICA

Valoarea aşteptată (teoretică) pentru elementul de pe rândul i şi coloana j este:


p q
 O(i, j )   O(i, j )
i 1 j 1
E (i, j )  . Reprezintă produsul dintre total rând şi total coloană
n
raportat la totalul general.
Numărul gradelor de libertate este : df = (p-1) (q-1).
Semnificaţia standard este p=0,05 (5%).

Evident, calculul este anevoios, dar există un mare număr de programe


informatice (SPSS, Statistica, EpiInfo, SAS) care au implementate aceste formule de
determinare. Sunt prezentate chiar în diferite aproximări ale statisticii şi de asemenea,
valoarea semnificaţiei calculate pcalculat este determinată. Aceasta este corespunzătoare
valorii Chi deduse şi matematic este o integrală din densitatea de probabilitate.
Paradoxul Simpson – în tabele 2x2
Vom prezenta un exemplu de verificare a independenţei variabilelor de studiu,
care prin forma sa, va determina o eroare de calcul, evident cu efecte nedorite.
Pentru a compara două tratamente se poate crea tabelul de contingenţă, în care pe
linii avem tratamentul iar pe coloane supravieţuirea, respectiv decesul.
Dacă avem mai multe stadii ale maladiei, o metodă globală este să adunăm datele
din tabelele componente şi să creăm un tabel global final.
Vrem prin exemplul generic imaginat, să arătăm că există situaţii în care această
metodă de compunere a tabelelor într-un tabel global nu este întotdeauna benefică.
Caracteristicile tabelului compus pot intra în contradicţie cu tabelele componente ca
trăsătură a datelor analizate.
Inspiraţi din exemplul prezentat de Lloyd, C.J.(1999) Statistical Analysis of
Categorical Data, Willey New York, pag 153-154, am generat tabelul:
Tabelul 2.9 5.
Supravieţuire Deces Total
T1 175 110 285
Tratament
T2 210 65 275
Total 385 175 560
Valorile calculate:  calculat
2
 14,58 , corectat are valoarea Yates
2
 13,89 cu
nivelul de semnificaţie corespunzător p=0,0001.
Conchidem astfel că cele două tratamente diferă semnificativ statistic din punct de
vedere al procentului de supravieţuire.
Avem pentru tratamentul T1 proporţia de supravieţuire P1=175/285 = 61,4% ;
respectiv pentru T2, P2 = 210/275 = 76,3%. Deducem că tratamentul 2 este mai bun
faţă de 1, prin faptul că proporţia de supravieţuire este superioară.
Totuşi să încercăm să privim problema mai în profunzime şi să descompunem
datele în două noi tabele corespunzătoare stadiului de evoluţie al bolii.
129
BIOSTATISTICA

Tot în mod generic creăm tabelele următoare:

Tabelul 2.9 6. Tabelul 2.9 7.


Stadiul 2 S D Total Stadiul 1 S D Total
T1 20 105 125 T1 155 5 160
T2 3 40 43 T2 207 25 232
Total 23 145 168 Total 362 40 392
Niv. de semnificaţie p=0,21 Niv. de semnificaţie p=0,01
P1 = 16% ; P2 = 7,5% P1 = 96,8% ; P2 = 89,2%

În ambele tabele procentul de supravieţuire este mai bun pentru tratamentul T1,
comparativ cu T2. Mai mult chiar, în stadiul 1 testul este şi semnificativ.
Se observă totuşi că proporţiile de supravieţuire diferă puternic între cele două
stadii. În stadiul 1 proporţia de supravieţuire este peste 50%, iar în stadiul 2 mult sub
50%.
S-a obţinut astfel un rezultat contrar celui obţinut prin compunerea tabelelor.
Situaţia prezintă un caz extrem, rar întâlnit în practică.
Concluzia este clară: Tabelele pot fi sumate într-o formă globală dacă
caracteristicile individuale sunt aceleaşi şi în proporţii asemănătoare.
Trebuie să reţinem că sumarea datelor din tabele individuale pentru o analiză
globală poate anula sau chiar modifica caracteristicile prezente ale populaţiilor.
Riscul, Cota şi Valorile relative
În cadrul studiilor epidemiologice este nevoie să se determine influenţa factorilor
de risc în cadrul anumitor maladii. Testul Chi pătrat prezintă rezultatul verificării
prezenţei dependenţei sau independenţei între două variabile. Acesta nu ne dă
informaţie asupra puterii legăturii, într-o măsură numerică.
Riscul se defineşte ca fiind numărul de cazuri raportate la numărul total de
elemente studiate. Dacă avem un eşantion de 250 de pacienţi, din care 64 s-au
îmbolnăvit pe perioada studiată, putem determina riscul ca fiind 64/250=25,6% (este o
noţiune similară incidenţei dacă sunt implicate cazuri noi).
Putem crea două populaţii, în sensul grupării după criteriul factor de risc prezent,
respectiv factor de risc absent. Avem astfel posibilitatea de a determina frecvenţele
absolute prezentate în tabelul următor.
Tabelul 2.9 8.
Maladie
Prezentă Absentă Total
Prezent a b a+b
Factor
Absent c d c+d
Total a+c b+d n
Riscul relativ este utilizat în studii de cohortă, în care persoanele care sunt expuse
sau nu unui factor de risc sunt urmărite în timp (studiu prospectiv) pentru a vedea care
este legătura cu maladia studiată. Acest indicator reprezintă o măsură a asocierii dintre
factorul de risc şi afecţiunea analizată.
130
BIOSTATISTICA

Riscul relativ, notat de obicei cu RR, este raportul între frecvenţa de apariţie a
cazurilor în cadrul populaţiei supusă factorului şi frecvenţa de apariţie a maladiei în
populaţia în care factorul de risc nu este prezent.
a
( a  b)
RR  . După formula de calcul, observăm că domeniul de variaţie este
c
c  d 
cuprins între 0 şi valori pozitive foarte mari (acceptăm că valorile a,b,c,d sunt diferite
de 0).
În situaţia în care riscul relativ este 1, putem afirma că factorul luat în considerare
nu are efect asupra frecvenţei de apariţie a maladiei. Deci nu există legătură între
variabilele studiate.
Valori mai mari ca 1 indică o creştere a frecvenţei pentru cazurile cu factor
prezent, ceea ce generează un efect negativ. Factorul implicat conduce la creşterea
frecvenţei de îmbolnăvire.
Valori mai mici decât 1 arată că factorul are efect pozitiv, benefic, ducând la
scăderea frecvenţei de apariţie a maladiei.
Fiind determinat din eşantioane de analiză, riscul relativ prezintă o incertitudine în
măsurarea punctuală. Pentru a avea o anumită încredere în studiu, este nevoie să se
lucreze cu o anumită probabilitate. În forma standard de 95% încredere (deci
semnificaţie de 5%), se poate determina intervalul de variaţie al riscului. Semnificaţia
legăturii posibile între factor şi maladie este legată de prezenţa în intervalul calculat a
valorii 1, valoare ce arată că factorul nu are efect asupra frecvenţei de apariţie a
maladiei.
În concluzie, factorul are influenţă asupra prezenţei maladiei doar dacă intervalul
de confidenţă a riscului relativ nu cuprinde valoarea 1. Astfel, testul este considerat
semnificativ statistic. Menţionăm că valoarea riscului relativ poate fi sau nu mai mare
ca 1. Valoarea 1 este considerată de referinţă, deoarece funcţie de aceasta se deduce
semnificaţia statistică a legăturii posibile între variabile.
Iată avem un exemplu generic de determinare a riscului relativ, în situaţia
îmbolnăvirilor de cancer de plămân, raportat la factorul de risc, cunoscut ca fiind
fumatul.
Tabelul 2.9 9.
Cancer plămân
Prezent Absent Total
Da 121 243 364
Fumător
Nu 41 727 768
Total 162 970 1132
121
(121  243)
Conform formulei de calcul avem: RR  , RR=6,23.
41
41  727 
Calculând şi intervalul de confidenţă obţinem: 4,47 <RR< 8,67.

131
BIOSTATISTICA

Valoarea 1 nu este cuprinsă în domeniul de variaţie. Astfel, există diferenţă


statistică semnificativă şi decidem că riscul de a te îmbolnăvi de cancer la plămâni este
de aproximativ 6 ori mai mare pentru fumători comparativ cu nefumătorii.
În situaţia studiilor de tip caz-martor (case-control), pentru a exprima legătura
existentă, se foloseşte indicatorul raportul cotelor (odd ratio), sau raportul şanselor.
Studiul de acest tip este retrospectiv, având ca scop compararea între persoanele care
prezintă maladia (cazuri), respectiv cele ce nu sunt bolnave (martori sau control)
grupate după prezenţa sau nu a factorului de risc.
Cota se defineşte ca raportul dintre probabilitatea de apariţie a evenimentului
studiat şi probabilitatea evenimentului complementar.
P(e) P(e)
Cota   .
P(e ) 1  P(e)

Cota - pentru diferite valori ale


probabilităţii

20

15

10

0
0 0.2 0.4 0.6 0.8 1
Probabilitatea P(e)

Figura 2.9 1.
Putem reprezenta grafic cota şi observăm o variaţie de la 0 până la valori foarte
mari, funcţie de probabilitatea P(e).
Pentru tabelul iniţial avem formulele de calcul:
Cota 1 (factor prezent) = a/b ; Cota 2 (factor absent) = c/d (folosind tabelul 2.9 8).
ad
Raportul cotelor (odd ratio) OR  . Ca şi riscul relativ, acest raport poate
bc
varia între 0 şi valori foarte mari.
Asemănător cazului precedent, intervalul de confidenţă pentru raportul cotelor
este caracterizat de prezenţa sau nu a valorii 1. Există semnificaţie statistică şi prin
urmare, legătură între proporţiile determinate de factorul de risc, dacă acest interval de
confidenţă nu conţine valoarea 1. În caz contrar, înseamnă că proporţiile sunt egale şi
factorul studiat nu are efect asupra proporţiilor îmbolnăvirilor.
Dacă tabelul precedent cu valori numerice ar reprezenta date culese dintr-un
studiu caz-martor, atunci raportul cotelor ar fi util de determinat.

132
BIOSTATISTICA

a  d 121  727
OR    8,82 .
bc 243  41
Interpretarea este formulată astfel: şansele de a se îmbolnăvi de cancer la plămâni
sunt de 8,82 ori mai mari la fumători faţă de nefumători.
Ca observaţie generală, atât riscul relativ cât şi raportul cotelor exprimă în esenţă
aceeaşi caracteristică a datelor. Dacă riscul relativ prezintă semnificaţie statistică este
de aşteptat ca şi raportul cotelor să respecte aceeaşi regulă. Dacă riscul relativ este
supraunitar (sau subunitar), la fel va fi si raportul cotelor. Practic sunt două forme ce
prin calcul aduc în atenţia noastră valori numerice ce arată proporţional intensitatea
asocierii existente.
Exemplu de calcul folosind programul SPSS
Presupunem că dorim să realizăm un studiu de verificare a existenţei diferenţei
semnificative între două tratamente (T1, T2) din punct de vedere a frecvenţei de deces.
Creăm două variabile numite Tratament, respectiv Deces. Codificăm cu 1,
respectiv cu 2 cele două tratamente, apoi cu 1 decesul iar cu 2 supravieţuirea.
Codificarea este la liberă alegere, totuşi datele în tabelul de contingenţă sunt ordonate
după valoarea numerică utilizată. Astfel, este bine să codificăm evenimentele în
ordinea în care dorim să fie afişate.
După introducerea datelor, alegem pentru analiză Analyze + Descriptive Statistics
+ Crosstabs….

Figura 2.9 2 – SPSS tabele de contingenţă

Pe rânduri vom trece tratamentele, iar pe coloane decesul sau supravieţuirea.


Avem mai multe opţiuni care pot fi setate astfel încât informaţia să satisfacă
cerinţele analizei.

133
BIOSTATISTICA

Pentru a realiza calculul semnificaţiei prin metoda Fisher vom bifa opţiunea Exact
+ Monte Carlo. Aceasta este utilă în situaţia în care o valoare aşteptată calculată este
mai mică decât 5. Metoda Fisher calculează exact valoarea nivelului de semnificaţie.
Putem impune atât afişarea valorilor aşteptate cât şi a procentelor pe linii sau
coloane.
SPSS este un program de statistică performant, permiţând setarea din grupul
Statistics… a diferite teste suplimentare care evaluează şi puterea legăturii dintre cele
două variabile.
Obţinem astfel tabelul de contingenţă prezentat mai jos, cât şi tabelul cu valorile
statisticilor calculate.

Tabelul 2.9 10 – Tratament * Deces Crosstabulation


Deces Total
Deces Supravietuire
Tratament Trat. 1 Count 105 20 125
Expected Count 107.9 17.1 125.0
Trat. 2 Count 40 3 43
Expected Count 37.1 5.9 43.0
Total Count 145 23 168
Expected Count 145.0 23.0 168.0

Tabelul 2.9 11 – Chi-Square Tests(d)


Asymp. Sig. Exact Sig. Exact Sig.
Value df (2-sided) (2-sided) (1-sided)
Pearson Chi-Square 2.205 1 .138 .198 .106
Continuity Correction 1.507 1 .220
Fisher's Exact Test .198 .106
N of Valid Cases 168

Valoarea Pearson este determinată cu formula standard generală fără corecţii,


aceasta fiind 2,205.

În rândul al doilea al tabelului precedent este prezentată valoarea Yates, prin


corecţia de continuitate. Aceasta este specifică tabelelor de tip 2x2.

Valoarea Fisher este valoarea exactă a nivelului de semnificaţie, p=0,198.

În cazul nostru, toate valorile de semnificaţie sunt mai mari ca 0,05, de unde
deducem că ipoteza nulă este adevărată, deci nu există legătură sau relaţie între
frecvenţele de deces şi tratamente. Putem spune că tratamentele nu diferă semnificativ
din punct de vedere al decesului.

134
BIOSTATISTICA

În situaţia în care am studia riscul sau cota, în cadrul programului SPSS s-ar fi
calculat atât riscul relativ, cota relativă, cât şi intervalele de confidenţă pentru corecta
interpretare şi comparare faţă de valoarea 1.

Exemplu de calcul folosind programul EpiInfo


Vom utiliza aceeaşi bază de date cu cele două coloane: Tratament, Deces.
Deschidem fişierul folosind comanda Read(Import). Intrăm în grupul de analiză
(Analyze Data) şi alegem Statistics + Tables.

Figura 2.9 3 – EpiInfo tabele de contingenţă

Completăm conform figurii alăturate variabilele din tabelul de contingenţă.


Rezultatele obţinute sunt prezentate în următoarele două tabele.

Tabelul 2.9 12 – Chi-Square Tests(d)


Tratament 1 2 TOTAL
1 105 20 125
Row % 84.0 16.0 100.0
Col % 72.4 87.0 74.4
2 40 3 43
Row % 93.0 7.0 100.0
Col % 27.6 13.0 25.6
TOTAL 145 23 168
Row % 86.3 13.7 100.0
Col % 100.0 100.0 100.0

Tabelul 2.9 12 este asemănător tabelului 2.9 10 realizat în SPSS şi reprezintă


frecvenţele observate cât şi procentele pe rânduri, respectiv coloane.

135
BIOSTATISTICA

Analiza datelor este prezentată în tabelul 2.9 13. EpiInfo calculează raportul
cotelor (Odds Ratio) cât şi limitele de confidenţă (cu 95% încredere), riscul relativ
(Risk Ratio) şi limitele de confidenţă ale acestuia iar în final, valoarea statisticii Chi
pătrat prin diferite metode şi corespunzător nivelul de semnificaţie.

Tabelul 2.9 13– Single Table Analysis


Point 95% Confidence Interval
Estimate Lower Upper
PARAMETERS: Odds-based
Odds Ratio (cross product) 0.3938 0.1109 1.3979 (T)
Odds Ratio (MLE) 0.3956 0.0893 1.2983 (M)
0.0714 1.4437 (F)
PARAMETERS: Risk-based
Risk Ratio (RR) 0.9030 0.8073 1.0101 (T)
Risk Difference (RD%) -9.0233 -18.9875 0.9410 (T)
(T=Taylor series; C=Cornfield; M=Mid-P; F=Fisher Exact)
STATISTICAL TESTS Chi-square 1-tailed p 2-tailed p
Chi square - uncorrected 2.2045 0.1376057317
Chi square - Mantel-Haenszel 2.1914 0.1387823163
Chi square - corrected (Yates) 1.5070 0.2195927872
Mid-p exact 0.0695927534
Fisher exact 0.1059606825

Limitele intervalului de confidenţă ale raportului cotelor cât şi ale riscului relativ
cuprind valoarea 1 (acestea sunt calculate prin diferite metode cum ar fi seriile Taylor
sau metoda Fisher). Putem astfel decide că nu există asociere între tratament şi numărul
de decese. Tratamentele pot fi considerate asemănătoare.

Acelaşi rezultat îl obţinem prin calculul statisticii Chi pătrat şi al nivelului de


semnificaţie. Acesta are valoarea p=0,13 sau 0,219 prin metoda Yates. Valoarea este
mult mai mare decât 0,05 ceea ce ne permite să afirmăm că tratamentele nu diferă
semnificativ.

Era şi de aşteptat, atât prin analiza riscului relativ a raportului cotelor cât şi prin
utilizarea statisticii Chi pătrat se obţine acelaşi rezultat.

136
BIOSTATISTICA

2.10. REGRESIA LINIARĂ ŞI CORELAŢIA

S-au prezentat până acum metode de estimare a indicatorilor statistici (media ca


indicator de bază), determinare a volumului eşantionului, tehnici de comparare a
variabilelor de tip continuu (testul t, ANOVA) sau categorial (Chi pătrat), calculul
intervalului de variaţie cu încredere de 95%.
Sunt situaţii în care ne interesează să estimăm intensitatea legăturii dintre două sau
mai multe variabile, sau să găsim o relaţie deci o formă analitică matematică care să
exprime o variabilă funcţie de altele implicate în procesul studiat.
Iată ca exemplu, am putea fi interesaţi în a verifica existenţa unei relaţii între
înălţimea tatălui (nu a tatălui adoptiv) şi cea a copilului. Am putea căuta o legătură
între indicele de masă corporală şi presiunea arterială (pentru persoane de vârsta a
treia), căutăm să estimăm dependenţa între efortul fizic şi frecvenţa cardiacă, poate
acestea depind şi de vârstă, etc.
Regresia reprezintă expresia matematică ce permite estimarea unei variabile
funcţie de cel puţin o altă variabilă. Regresia ajută în determinarea relaţiei şi este
folosită în special în studii de predicţie.
Corelaţia exprimă puterea legăturii dintre două variabile (intensitatea relaţiei).
Atât prin regresie cât şi prin corelaţie putem determina dacă relaţia este direct
proporţională (creşterea variabilei 1 implică creşterea variabilei 2 ; scăderea variabilei
1 implică scăderea variabilei 2), sau invers proporţională (creşterea variabilei 1 duce la
scăderea variabilei 2).

Regresia liniară

Termenul de regresie a fost introdus de matematicianul Galton. Metoda constă în


determinarea unei funcţii liniare (este cea mai simplă formă de dependenţă)
f(x) = y = a + bx, care să aproximeze calculul valorilor y prin valorile x (y – este
variabila dependentă, x – variabila independentă sau predictor). Atât x cât şi y sunt
variabile de tip continuu.
Metoda de calcul pentru parametrii dreptei de regresie constă în definirea unei
erori şi minimizarea acesteia.
Considerăm că avem două şiruri de date corespunzător variabilelor aleatoare de
interes X şi respectiv Y (caracterizate ca fiind distribuite normal sau gausian).
În tabelul următor sunt prezentate cele două şiruri:

Tabelul 2.10 1.
X: x1 x2 …. xn
Y: y1 y2 … yn

137
BIOSTATISTICA

Figura 2.10 1 – Dreapta de regresie.

Dorim să determinăm parametrii a, b ce definesc dreapta de regresie:


f(x) = y = a + bx.
Pentru aceasta se foloseşte metoda celor mai mici pătrate, care constă în a
minimiza suma pătratelor erorilor dintre valorile yi (extrase din experiment) şi valorile
f(xi) calculate cu ajutorul formulei dreptei de regresie.
Se defineşte eroarea:  i  f ( xi )  yi  a  b  xi  yi .
Unele valori ale erorii i sunt pozitive, altele sunt negative, dar eroare există în
toate cazurile când i  0. Pentru a nu pierde această informaţie se va folosi pătratul
erorii. Eroarea totală va fi formată din suma tuturor erorilor determinate de cele n
valori experimentale:
n n
    i2   a  b  xi  yi 2 .
i 1 i 1
Această sumă a pătratelor diferenţelor este pozitivă. Astfel privind problema cu
necunoscutele a respectiv b, funcţia de gradul doi va admite un minim (fiind suma
pătratelor va fi numai pozitivă). Eroarea totală trebuie minimizată pentru a obţine o
aproximare cât mai corectă a valorilor lui y funcţie de x. Condiţia este ca derivata
funcţie de fiecare variabilă în parte să fie zero. Obţinem astfel sistemul de ecuaţii:
 n
  a  b  xi  yi 
2
  n

 0  i 1  0  2   a  b  xi  yi   0,
a  a 
  n   ni 1 
 0   a  b  x  y 2 2   a  b  x  y x  0.
b  i 1 i i
 i 1 i i i
  0
 b

138
BIOSTATISTICA

 n
 n   yi  b  xi 
 n  a   b  x  y   0  a  i 1
 Y  b  X , (1)
 i 1
i i
n
n
 (a  xi  b  xi2  xi  yi )  0. (2)
i 1
Înlocuim valoarea lui a din prima ecuaţie în a doua şi aflăm parametrul b.

Y  b  X   xi  b   xi2   xi  yi
n n n
0 . (3)
i 1 i 1 i 1
n
n  xi
i 1
Ne folosim de formula:  xi 
n
n  X n. (4)
i 1
Înlocuim (4) în (3) şi avem:
n n
Y  n  X  b  n  X 2  b   xi2   xi  yi  0 .
i 1 i 1
n
n  X  Y   xi  y i
i 1
Extrăgând pe b obţinem: b  . (5)
n
n X  2
xi2
i 1
Valoarea lui a se calculează conform celor demonstrate cu formula:
a  Y b X . (6)
În concluzie s-au dedus parametrii dreptei: y = a + bx.

Coeficienţii (parametrii) dreptei de regresie

Parametrul a reprezintă intersecţia dreptei de regresie cu axa YY’. Dacă x=0


atunci y = a.
Dacă avem mai multe cazuri cu x=0, atunci valoarea lui a va fi egală cu media
tuturor valorilor pentru care x este 0.
Trebuie avut în vedere că nu în orice situaţie este posibilă şi are sens această
intersecţie cu axa YY’. De exemplu pentru predictor X reprezentând presiunea sistolică
sau temperatura corpului, valoarea 0 nu are interpretare în cazuri normale (studiem
pacienţii deci persoane în viaţă).

Parametrul b este panta dreptei (tangenta unghiului dintre dreaptă şi linia


orizontală).

139
BIOSTATISTICA

Dacă valoarea lui b este pozitivă atunci dependenţa între cele două variabile
aleatoare este direct proporţională. Astfel, o creştere a variabilei x va duce la o creştere
a variabilei y, respectiv o scădere a variabilei x va duce la o scădere a variabilei y.
Dacă valoarea parametrului b este negativă atunci dependenţa între cele două
variabile aleatoare este invers proporţională. Variaţia într-un anume sens a variabilei x
va duce la o variaţie în sens contrar a variabilei y.
Cazul în care nu există dependenţă între cele două variabile x, respectiv y se
obţine pentru b=0. Oricât am modifica variabila x, atunci y va rămâne constant y = a.
Panta dreptei reprezintă variaţia variabilei dependente y, pentru o creştere sau
descreştere a predictorului (x) cu o unitate.
Avem formula dreptei de regresie: y = a + bx.
Creştem valoarea lui x cu o unitate, x  x  1 .
Noul y va fi y1 = a + b (x+1) = a + bx + b.
Se observă că diferenţa dintre y şi y1 este egală cu b.

Testarea modelului prin metoda analizei varianţei (ANOVA)


Determinarea coeficienţilor dreptei de regresie a permis crearea unui model
matematic ce exprimă legătura între cele două variabile.
Este important să putem verifica dacă modelul creat este bun în sensul aproximării
cât mai corecte a datelor.
Analiza varianţei este o metodă statistică ce permite evaluarea performanţei
modelului determinat. Variaţia unei variabile aleatoare Y este măsurată prin abaterea
standard, dar poate fi folosită şi deviaţia faţă de valoarea medie Yi  Y .  
Variaţia totală poate fi exprimată folosind suma pătratelor deviaţiilor astfel:
SST   Yi  Y  (SST – Total Sum of Square).
2
(7)
i
Facem apel la valorile estimate prin modelul regresional propus, notate
Yˆi  a  b  X i .

Exprimăm astfel: Yi  Y  Yi  Yˆi  Yˆi  Y .   
Ridicând la pătrat expresia alăturată se poate arăta că

SST   Yi  Yˆi    Yˆ  Y  .
2
i
2

i i

 Y  Yˆ  reprezintă
2
Primul termen: i i variaţia datelor în jurul dreptei de
i
regresie. Această variaţie nu este dorită fiind considerată o eroare. Este notată SSE
(Error Sum of Square).
 Yˆ  Y 
2
Al doilea termen, i exprimă deviaţiile faţă de medie ale valorilor
i
estimate. Este suma diferenţelor faţă de medie ale valorilor determinate prin regresie.

140
BIOSTATISTICA

Acestea sunt exprimate de modelul creat. Este notat prescurtat SSR (Regression Sum of
Square).
Obţinem astfel: SST = SSE + SSR.
SSR
Raportul notat r 2  se numeşte coeficient de determinare şi reprezintă
SST
pătratul coeficientului de corelaţie ce va fi discutat într-un capitol următor.
Definirea mediilor sumelor pătratelor diferenţelor ce exprimă eroarea şi regresia
se realizează prin determinarea gradelor de libertate.
Gradele de libertate notate df (degree of freedom) exprimă dimensiunea necesară
unui spaţiu de lucru. Este numărul de date independente. De exemplu, daca avem o
condiţie de minimizare a erorii, atunci din numărul total de date n, condiţia de minim
va scădea gradele de libertate cu 1. Gradele de libertate definesc un parametru
aparţinând unei statistici (statistica Fisher de exemplu).
Avem astfel: SSR este caracterizată de df=1, SSE de df=n-2 şi SST de df=n-1.
Putem calcula mediile:
SSR SSE
MSR  , MSE  . (8)
1 n2
MSR
Raportul notat F  este o statistică de tip Fisher care prin nivelul de
MSE
semnificaţie determinat (notat p), ne dă informaţia cheie asupra modelului regresional
determinat. Dacă valoarea semnificaţiei este p<0,05 deci sub 5%, atunci modelul liniar
dezvoltat este util in predicţie.
Iată un exemplu în care tabelul de analiză a varianţei în situaţia regresiei liniare
este realizat prin softul de statistică (poate fi SPSS, Statistica sau în Ms Excel).

Tabelul 2.10 2 – Analiza varianţei ANOVA pentru modelul regresional liniar.


ANOVA
df SS MS F Significance F
Regression 1 130.5375 130.5375 3.381801 0.087223337
Residual (Error) 14 540.4 38.6
Total 15 670.9375

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 69.1333333 10.4099 6.641117 1.11E-05 46.80632795 91.46034
Birthweigh 0.15733333 0.085555 1.838967 0.087223 -0.02616446 0.340831

Eroarea sau reziduul au în acest context aceeaşi semnificaţie.


În linia corespunzătoare regresiei avem calculate valorile SSR, MSR şi gradele de
libertate. Cu cât această valoare SSR va fi mai mare cu atât modelul nostru va explica
mai bine variaţiile prezente.

141
BIOSTATISTICA

Pe rândul următor sunt datele cu privire la suma erorilor (reziduu), SSE, MSE. Cu
cât acestea sunt mai mici cu atât şi erorile sistemului sunt mai mici iar modelul prezintă
un grad mai mare de încredere.
În continuare se prezintă valoarea statisticii Fisher şi corespunzător nivelul de
semnificaţie. Dacă avem p sub 0,05 deducem că dreapta de regresie aproximează bine
datele noastre. Dacă avem p calculat peste 0,05 dar sub 0,1 (10%), putem deduce că
variabila independentă are o anumită influenţă asupra celei dependente dar nu în
totalitate. Putem adăuga date noi sau cerceta şi influenţa altor variabile în sistem.
În final avem datele necesare modelului deci constanta a = Yintercept şi panta b, ce
are valoarea 0,157 pentru datele prezente studiate.
Aşa cum am calculat şi utilizat statistica F şi nivelul de semnificaţie corespunzător
întregului sistem, putem calcula pentru coeficienţii dreptei de regresie a şi b statistica t
şi nivelul de semnificaţie. Acestea ne ajută la verificarea diferenţei faţă de valoarea
nulă. De asemenea, sunt prezente limitele minimă şi maximă de variaţie a acestor
coeficienţi cu încredere de 95%. Dacă aceste limite cuprind valoarea 0 (zero), atunci nu
există semnificaţie statistică şi ipoteza nulă este acceptată.

Observaţii
1 – În cazurile practice variabilele x şi y pot să nu fie distribuite normal. Acest
neajuns poate fi corectat prin aplicarea unor transformări cum ar fi logaritmarea pentru
a transforma distribuţia în forma gausiană. Evident, vom avea grijă la interpretarea
corectă a rezultatelor (deci a pantei şi a termenului liber).
2 – Atât a cât şi b sunt deduse din eşantioane. Aceşti parametri aşadar, reprezintă
variabile aleatoare. Astfel se poate construi un interval de încredere pentru cele două
necunoscute a şi b.

Prin estimarea parametrilor a şi b se vor obţine pentru intervale simetrice valorile


limită: a  a0  a , respectiv b  b0  b .
Reprezentând grafic dreapta de regresie pentru cele 4 cazuri limită obţinem o
suprafaţă de regresie.
amin  a  a , amax  a  a .
bmin  tg 1   b  b , bmax  tg  2   b  b .

Y y=a+bx
amax
1
amin

2 X
Figura 2.10 2 - Reprezentarea grafică a suprafeţei de regresie.

142
BIOSTATISTICA

În acest caz unei valori xi îi va corespunde un interval de valori


yi  Ymin , Ymax  . Pentru x=0 intervalul coincide cu (amin, amax). Acest interval este
datorat tocmai estimărilor parametrilor dreptei de regresie.
Corelaţia
Noţiuni
Legătura dintre două variabile aleatoare în care una dintre ele variază constant
(sau controlat), iar cealaltă variază aleator a fost descrisă de forma liniară a dreptei de
regresie.
Corelaţia caracterizează legătura dintre două variabile aleatoare X şi Y cu repartiţii
   
normale N  x ,  x2 , respectiv N  y ,  y2 . Densitatea de probabilitate a funcţiei de
repartiţie normală bivariată (având doi parametri) are expresia:
1 
 1  x   x  2
f ( x, y )   exp     
2   x  y 1    2  1     x 

2 
 x   x   y   y   y   y   
 2       
 
. (9)
    
x    y    y  

În această formulă  reprezintă coeficientul de corelaţie. Domeniul de variaţie este
cuprins între –1 şi 1,    1,  1 . Practic, gradul de dependenţă dintre cele două
variabile aleatoare este definit de acest coeficient de corelaţie (se notează cu ,,r” când
este determinat din datele reale – conţine o anumită eroare).
Dacă =0, atunci nu există dependenţă între cele două variabile aleatoare, acestea
fiind considerate independente.
Calculând densitatea de probabilitate obţinem:
 x   x 2 
 y  y 2
1 2 x2 1 2 y2
  0  f ( x, y )  e  e ,
 x  2   y  2 
f ( x, y)  f ( x)  f ( y) .
Interpretare
 Dacă   0 , atunci cele două variabile aleatoare sunt dependente stocastic
(aleator).
 Pentru >0 spunem că cele două variabile aleatoare sunt dependente direct
proporţional. Cu cât  se apropie de valoarea 1 cu atât dependenţa este mai
puternică.
 Dacă <0, atunci cele două variabile aleatoare variază invers proporţional şi
legătura este cu atât mai puternică cu cât coeficientul de corelaţie este mai
apropiat de valoarea –1.

143
BIOSTATISTICA

 Practic, valoarea la pătrat a corelaţiei calculate r2 (amintim că se notează cu r


deoarece este determinat din datele reale, deci reprezintă o aproximare)
exprimă procentul din variaţia variabilei Y ce poate fi explicată de variaţia
variabilei X. În analiza regresiei şi corelaţiei se prezintă această valoarea a
coeficientului de determinare. Amintim formula de calcul din analiza
SSR
varianţei: r 2  .
SST
Graficele de mai jos indică o legătură puternică, respectiv slabă, între două
variabile aleatoare.

Y Y

X X

Legătură puternică Legătură slabă

Figura 2.10 3 - Tipuri de legături între seturi de date.

Calculul coeficientului de corelaţie se realizează prin deducerea mediei produselor


abaterilor normate:
 x   x   y   y 
  M      .
  
 x   y 
Prelucrând formula precedentă se ajunge la:
n

 x i  x    yi  y 
r i 1
.
n n

 x  x    yi  y 
2 2
i
i 1 i 1
Această formulă de calcul poate fi aplicată doar în cazul a două variabile aleatoare
repartizate normal.
Testarea coeficientului de corelaţie
Este important să putem afla dacă variaţia cu încredere de 95% a acestui
coeficient cuprinde sau nu valoarea nulă. Cu alte cuvinte trebuie să răspundem la
întrebarea privind diferenţa semnificativă a coeficientului de corelaţie faţă de valoarea
nulă.
Ştim că în orice experiment sau proces intervine factorul de tip aleator ce implică
existenţa unei variaţii în valoarea indicatorilor statistici. Dorim să vedem dacă această

144
BIOSTATISTICA

variaţie implicită este depăşită în cazul nostru, ceea ce ar indica existenţa reală a unui
efect pe care de fapt îl căutăm şi îl studiem.
Se demonstrează că următoarea funcţie respectă o distribuţie de tip t (Student):
n2
t r  . (10)
1 r2
Verificăm ipoteza nulă H0:   0 prin distribuţia menţionată ştiind că este
caracterizată de n-2 grade de libertate (n este numărul de date din eşantion – volumul
eşantionului).
Dacă valoarea calculată pcalculat este mai mică decât 5%, avem semnificaţie
statistică, deci coeficientul de corelaţie este diferit de 0 antrenând existenţa unei
anumite relaţii între variabile.
A doua metodă de interpretare face apel efectiv la valoarea statisticii t calculate cu
formula 10. Dacă această valoare este mai mare ca cea tabelată corespunzătoare unui
număr de grade de libertate n-1 şi unei încrederi bilaterale de 95%, atunci avem
semnificaţie statistică.

Exemplu
Pentru datele a căror analiză ANOVA a fost prezentată anterior se obţine
r = 0,441 iar volumul eşantionului este n=16 valori.
16  2
Calculăm valoarea statisticii t , t  0,441   1,838 .
1  0,1945
Din datele tabelate ale statisticii t, pentru încredere bilaterală 95%, deci risc
  5% şi n-2=14 grade de libertate obţinem valoarea t 0,05   2,145 .
 , 14 
 2 
Valoarea calculată 1,838 este mai mică decât cea tabelată 2,145 ceea ce denotă că
variaţia întâlnită se încadrează în domeniul acceptat, deci nu există diferenţă
semnificativă statistic. Cu alte cuvinte putem afirma cu încredere de 95% că valoarea
coeficientului de corelaţie poate fi nulă. Aceasta înseamnă că relaţia exprimată prin
valoarea punctuală r = 0,441 este rezultatul hazardului.

Observaţii asupra regresiei liniare şi corelaţiei


Presupunem că avem două seturi de date X: x1, x2, … , xn respectiv Y: y1, y2, …yn.
Calculând regresia y = f(x) = a + bx obţinem anumite valori pentru coeficienţii a
a 1
şi b. Dacă extragem pe x funcţie de y avem: x   y. (11)
b b
Calculând regresia x = g(y) = a’ +b’y (12) şi comparând cu relaţia (11) cele două
drepte pot sau nu coincide.
Deducerea coeficienţilor a,b, respectiv a’, b’ diferă substanţial deoarece în primul
caz s-a pus condiţia ca suma pătratelor erorilor pe direcţia OY să fie minimă iar în al
doilea caz condiţia a fost ca suma pătratelor erorilor pe OX să fie minimă.
Corelaţia exprimă tocmai această asemănare dintre cele două drepte de regresie.

145
BIOSTATISTICA

Notăm cu A dreapta y=f(x), respectiv cu B dreapta x=g(y).


Dacă dreptele se suprapun atunci =1, iar dependenţa aleatoare devine
deterministă (unui punct pe x îi corespunde un singur punct pe y) şi dreptele de regresie
au alura primei bisectoare. Astfel, cunoscând pe x, putem determina pe y cu o precizie
bună în funcţie de datele din eşantion.
Dacă  = -1 atunci dreptele se suprapun dar au forma bisectoarei a doua iar
dependenţa este invers proporţională. Şi în acest caz legătura este de tip determinist.
În general dreptele pot sau nu să se apropie mai mult sau mai puţin demonstrând
dependenţa datelor. Prezentăm mai jos în patru grafice succesive cele relatate.

A,B
A B

1 

Dependenţă deterministă Dependenţă stohastică


direct proporţională direct proporţională

A,B
A B
1 

Dependenţă deterministă Dependenţă stohastică


invers proporţională invers proporţională

Figura 2.10 4 – Tipuri de dependenţe între regresie şi corelaţie.

Dacă valoarea coeficientului de corelaţie este 0, atunci cele două drepte fac un
unghi de 900 (sunt perpendiculare).

Este normal ca legătura dintre cele două drepte să determine şi semnul


coeficientului de corelaţie. Dacă din y=f(x) obţinem o pantă negativă atunci tot
negativă va fi şi panta obţinută din calculul x=g(y) şi tot negativ va fi şi coeficientul de
corelaţie (evident legătura rămâne valabilă şi pentru cazul pantei pozitive).

146
BIOSTATISTICA

2.11. MODELE NELINIARE DE REGRESIE

În practica de zi cu zi se întâlnesc des cazuri în care legătura de tip liniar dintre


două variabile nu este respectată şi reprezintă doar un aspect particular al realităţii. Se
impune astfel dezvoltarea de metode de deducere a legăturilor de tip neliniar existente
între variabila de intrare notată x (numită şi variabilă independentă sau factor) şi
variabila y (numită şi variabilă dependentă).
Prezentăm în continuare câteva modele neliniare de interes pentru determinarea
regresiei.

Modele parabolice
Parabola este exprimarea variabilei dependente faţă de variabila x la puterea a
doua, conţinând eventual un termen liber şi eventual un termen x la puterea întâi.
Expresia matematică este: y = a + b  x + c  x2 .
Folosind forma logaritmică putem avea următoarele exprimări :
y = a + b  lg(x) + c  (lg(x))2,
lg(y) = a + b  x + c  x2,
lg(y) = a + b  lg(x) + c  (lg(x))2.
Forma grafică a parabolei y = a + b  x + c  x2 este prezentată în figura următoare.
Y
M
C>0

m C<0
X
0
Figura 2.11 1 - Regresii parabolice

Funcţie de semnul parametrului de regresie c parabola prezintă un punct de


extrem. Dacă c > 0 parabola prezintă un punct de minim notat cu ,,m” iar în cazul în
care c < 0, punctul de extrem este un maxim notat cu ,,M”.
Calculul punctului de extrem este realizat din punct de vedere matematic prin
condiţia ca derivata întâi în raport cu variabila x să fie egală cu zero.
Interpretarea practică este importantă deoarece acest punct reprezintă minimul sau
maximul atins de curba parabolică.
Determinarea coeficienţilor a, b, c, de regresie se face asemănător regresiei liniare
şi există multe programe soft realizate pentru deducerea acestora (de exemplu,
produsul Microsoft Excel - de mare popularitate).
Menţionăm că parabola este un caz particular al polinomului de ordin n.

147
BIOSTATISTICA

Modele hiperbolice
Există modele în cadrul fenomenelor reale biologice care pot lua o formă
b
hiperbolică. Exprimarea matematică este: y  a  , pentru x > 0.
x
Graficul funcţiei depinde de semnul coeficientului b (ca şi în celelalte cazuri).
Pentru b < 0 avem dependenţă crescătoare, curba tinzând asimptotic la valoarea a
(y = a ) pentru x tinzând la infinit. Pentru b > 0 avem dependenţă descrescătoare şi
curba tinde asimptotic tot la valoarea a pentru x tinzând la infinit.
Reprezentarea grafică a hiperbolei este realizată în figura următoare:
Y
b>0

b<0
X
0
Figura 2.11 2 – Regresii hiperbolice
Există mai multe modele hiperbolice, dintre care menţionăm:
1 1 ax b
y , y , y .
a b x b x
a
x
Model exponenţial
Funcţia de tip exponenţial are forma matematică următoare:
y  a  e bx , cu x  , .
Pentru x = 0 se obţine y = a, iar toate curbele au un punct comun anume A (0, a).
Pentru coeficient b > 0 se obţine o curbă crescătoare iar pentru coeficientul b < 0
se obţine o curbă descrescătoare.
Y

b<0 b>0

A(0,a)
X
0

Figura 2.11 3 – Regresii de tip exponenţial


148
BIOSTATISTICA

Analiza de regresie multiplă (analiza multivariată)


Legătura multiplă reprezintă o relaţie matematică în care există mai multe
variabile factoriale sau independente (independent, explanatory variable or
covariates). Astfel, variabila dependentă (sau răspuns) poate fi exprimată matematic cu
formula: y  f ( xi )   , cu i având valori de la 1 la n (n reprezintă numărul de
variabile).
Sunt situaţii în care nu se cunosc care variabile să se ia în consideraţie în cadrul
regresiei multiple. Pentru a determina variabilele independente care au efect important
asupra variabilei rezultative (y) se calculează spre exemplu coeficientul de corelaţie şi
se aleg apoi acele variabile ce corespund valorilor maxime ale acestui coeficient.
Există şi alte metode de analiză discriminantă pentru alegerea variabilelor factoriale de
interes. Această alegere are un efect important asupra erorii sistemului, căci eliminând
o parte din variabile, aproximarea sistemului este mai ,,grosolană” .
Funcţia f(xi) poate fi liniară, ceea ce reprezintă cazul cel mai simplu sau
dimpotrivă, poate depinde neliniar de variabilele de interes.
În cadrul unei legături multiple liniare ecuaţia este de forma:
n
y = a0 + a1  x1 + a2  x2 + … + an  xn  y  a0   a i  xi .
i 1
Fiecare coeficient ,,ai” reprezintă influenţa variabilei corespunzătoare xi, iar a0
(termenul liber) reprezintă influenţa celorlalţi factori, care sunt consideraţi ca o acţiune
constantă.
Dacă în coordonate bidimensionale regresia liniară este o dreaptă, în coordonate
n-dimensionale regresia liniară va reprezenta o suprafaţă multidimensională ce trece
prin punctul valorilor medii ale variabilelor.

Şi în acest caz pentru aflarea coeficienţilor ,,ai” se aplică metoda celor mai mici
pătrate (descrisă la regresia liniară cu o singură variabilă).

Pentru aceasta se calculează valoarea aşteptată prin regresie


n
yˆ j  a0   a i  xi j , unde i reprezintă numărul de variabile
i 1
independente (i variază de la 1 la n), iar j reprezintă numărul de date
cunoscute deci volumul eşantionului sau lotului (j variază de la 1 la m).
Se defineşte eroarea  j  y j  yˆ j , unde yj este valoarea reală
măsurată sau cea din eşantion.
Se pune condiţia ca suma pătratelor erorilor să fie minimă prin
egalarea cu zero a derivatei de ordinul întâi pentru fiecare coeficient
în parte.

149
BIOSTATISTICA

Parametrii de regresie a0, ai au aceeaşi interpretare dacă variabilele sunt


independente. Primul parametru a0 arată influenţa celorlalţi factori care nu sunt
cuprinşi în ecuaţie.
Ceilalţi parametri ai descriu variaţia ieşirii pentru creşterea cu o uniate a variabilei
xi şi păstrarea constantă a celorlalţi factori.

Exemplu
Se prezentă în continuare o metodă liniară de estimare (predicţie) a indicelui de
rezistenţă a muşchiului respirator PEmax (cm H2O) în funcţie de variabilele
independente (predictoare), înălţime (cm, notată H) şi greutate (kg, notată G).
PE max = a0 + a1  H + a2  G.
Prin calculul coeficienţilor ,,ai” se obţine:
PE max = 47,36 + 0,146  H + 1,025  G.
Având această relaţie prin măsurarea înălţimii şi greutăţii unei persoane putem
estima valoarea PE max cu o eroare acceptabilă.

Interacţiuni între variabile

Acestea pot fi puse în evidenţă prin introducerea de termeni ce sunt egali cu


produsul a două variabile. Iată un exemplu:
y  a0  a1  x1  a2  x2  a3  x1  x2 .

Astfel, efectul pe care îl are variabila x1 depinde de prezenţa variabilei x2. Evident,
interpretarea coeficienţilor de regresie este diferită tocmai datorită modificărilor
existente (cunoscută în literatură cu numele de effect modifications – un factor
influenţează efectul altora).

De multe ori pentru a optimiza un model de regresie se pot introduce aceşti


termeni ce exprimă interacţiunea dintre variabile.

Analiza ANOVA pentru validarea modelului multivariabil

Ca şi în cazul liniar univariat se definesc următoarele deviaţii:



Suma totală a pătratelor deviaţiilor: SST   y j  y 
2
.
j

Suma pătratelor erorilor (sau reziduurile): SSE   y j  yˆ j 2


.
j

Suma pătratelor deviaţiilor de regresie: SSR   yˆ j  y  


2
, unde j variază de la
j
1 la m (m este volumul eşantionului).
Programele speciale de statistică vor produce tabelul următor:
150
BIOSTATISTICA

Tabelul 2.11 1.
Sursa de Suma Gradele de Media Statistica Valoarea
variaţie pătratelor libertate (df) pătratelor Fisher semnificaţiei
SS p
Regresie SSR n (nr. de variabile MSR = SSR / n F = MSR/MSE p
independente)
Eroare SSE m–n–1 MSE = SSE /
(reziduu) ( m – n – 1)
Total SST m – 1 (m volumul
eşantionului)

SSR
Se poate calcula de asemenea coeficientul de determinate R 2  . Acesta
SST
înmulţit cu 100 arată procentul din variaţia variabilei dependente explicat de factorii ce
au fost incluşi în calcul.

Cu cât valoarea SSR este mai mare cu atât modelul „explică” mai bine variaţiile
ieşirii.
Cu cât SSE este mai mic cu atât erorile sunt mai mici şi modelul propus este cu
atât mai bun.

Se calculează statistica Fisher şi nivelul de semnificaţie p.


Dacă p este mai mic decât 0,05 (5%), deducem atunci că variaţia explicată de
model este mai mult decât întâmplătoare, deci modelul este considerat drept unul bun
iar nivelul de determinare este diferit de 0. Cu alte cuvinte, setul de factori reuşesc să
facă o predicţie semnificativă asupra variabilei dependente.
Dacă valoarea p este mai mare decât 5%, putem afirma că modelul nu este
satisfăcător şi poate sunt necesare şi alte variabile ca factori de influenţă asupra ieşirii.

Testarea semnificaţiei unui singur factor dintre predictori

Se pune problema verificării influenţei asupra întregului model a unui nou factor
adăugat. Dacă efectul este semnificativ statistic în predicţia variabilei dependente, acest
nou element va fi acceptat în formula de calcul.
Ipoteza nulă este: Noul factor xi , nu are efect asupra variabilei dependente faţă
de modelul fără xi.
Astfel, coeficientul ai poate fi considerat nul, deci ipoteza nulă devine Ho: ai = 0.
aˆ i
Pentru aceasta se foloseşte statistica t  . Aceasta este de tip Student iar
SE aˆ i 
prin SE înţelegem eroarea standard (notarea â i se foloseşte pentru a specifica că
variabila sau parametrul este dedus din datele experimentale deci conţine o eroare).
Numărul de grade de libertate este df = m – n – 1 (m – volumul eşantionului, n –
numărul de variabile din model).
151
BIOSTATISTICA

Corespunzător valorii t calculate se poate determina nivelul de semnificaţie p.


Practic, factorul testat drept variabilă nouă introdusă în model este acceptat dacă
pcalculat este mai mic decât 5% (0,05). Aceasta înseamnă că noul model este diferit
semnificativ statistic faţă de cel precedent ce nu conţinea noua variabilă.

Testarea semnificaţiei unui grup de variabile introduse în model

Datorită posibilităţilor de interacţiune dintre variabile şi a legăturilor probabile


existente este necesară verificarea utilităţii setului de mai mult de 2 variabile în noul
model. Aceasta se testează prin calculul unei statistici de tip Fisher descrise în
continuare.

Dacă notăm numărul variabilelor de testat cu „k”, atunci ipoteza Ho devine a1 = a2


= … = ak = 0 (coeficienţii sunt nuli).
Avem de comparat două modele, primul cu toate cele n variabile xi iar al doilea cu
n-k variabile.

Calculăm astfel suma pătratelor deviaţiilor de regresie SSR1, respectiv SSR2 pentru
modelul 2.
Media diferenţei va fi : MDR = (SSR1-SSR2)/k.

Statistica Fisher se calculează prin: F = MDR / MSE, unde MSE este media
sumelor pătratelor deviaţiilor pentru sistemul 1 (sistemul „mare”, cu toate variabilele).
Numărul de grade de libertate este n respectiv m – k – 1, F (k , m  n  1).
S-a respectat notaţia: n este numărul total de variabile, k este numărul de variabile
din grupul de test, m este volumul eşantionului.
Interpretarea se face la fel ca în exemplele precedente, ţinând cont de nivelul de
semnificaţie calculat, p.
Dacă p < 0,05, atunci setul de k variabile testate este util în sistem.

Determinarea variabilelor din model pas cu pas

De interes major în crearea unui model de regresie este determinarea variabilelor


ce au efect în predicţia comportării sistemului analizat. Practic, care din factorii
presupuşi a fi implicaţi în regresie au într-adevăr efect semnificativ?
Se poate greşi prin alegerea de elemente ce nu au influenţă în regresie şi se
produce astfel o eroare de tip I – fals pozitiv. Aceasta va duce la mari confuzii şi în
mod evident este de dorit ca eroarea să fie minimizată.
O metodă ce permite atingerea acestui scop constă în introducerea pas cu pas a
unei noi variabile predictoare şi testarea semnificaţiei acesteia. În mod asemănător, dar
judecând complementar, din totalul de variabile putem să eliminăm pe rând pe cele
care nu au rol în determinarea ieşirii dorite.
Avem astfel două metode numite cu înlănţuire înainte (forward selection) pentru
selecţie, respectiv cu înlănţuire înapoi (backward elimination) pentru eliminare.
152
BIOSTATISTICA

Pentru a alege din totalul variabilelor pe cele semnificative, se poate aplica testul t
(sau Student - descris anterior) de verificare a diferenţei faţă de 0 a coeficientului de
regresie corespunzător. Se calculează pentru fiecare factor implicat în studiu nivelul de
semnificaţie şi se selectează variabila cu cea mai mare influenţă.
În continuare se verifică întregul model cu noua variabilă, comparativ cu modelul
precedent prin analiza varianţei (testul Fisher – deja prezentat).
Mai există şi procedeul regresiei folosind paşii inteligenţi (stepwise regression
procedure), ce permite reevaluarea modelului la fiecare pas şi adăugarea sau
eliminarea factorilor ce devin nesemnificativi.
Programele dedicate de statistică au aceşti algoritmi implementaţi (SPSS, SAS,
STATISTICA).

153
BIOSTATISTICA

Regresia logistică
Până în acest moment regresia a fost aplicată variabilelor cantitative care puteau
lua valori reale într-un anumit interval (de exemplu, înălţimea poate fi cuprinsă între
1,55 m şi 1,95 m în majoritatea cazurilor).
Există multe situaţii în medicină, farmacie în care variabila de interes nu mai este
continuă şi prezintă doar două valori atributive (este deci binară sau dicotomică).
Acestea sunt de obicei răspunsuri de genul ,,da” sau ,,nu”; ,,adevărat” sau ,,fals”.
Pentru a lucra cu variabile de acest fel se foloseşte o metodă matematică specifică
numită regresie logistică. Aceasta ne ajută în estimarea proporţiei indivizilor cu o
anumită caracteristică dintr-o anumită populaţie. Astfel, vom căuta să determinăm
probabilitatea de a avea evenimentul notat ,,da” sau evenimentul notat ,,nu”.
Raportul dintre probabilitatea de a observa un fapt şi cea de a nu-l observa se
p
numeşte cotă (odds), cota  . Logaritmul natural din această cotă defineşte
1 p
funcţia numită logit, folosită în regresie logistică.
În regresia multiplă liniară rezultatul final este o mărime continuă pe un anumit
interval, funcţie de domeniile de definiţie ale variabilelor ,,xi”. Proporţia subiecţilor cu
o anumită caracteristică este o valoare cuprinsă între 0 şi 1. În concluzie ne trebuie o
funcţie matematică care să realizeze conversia din domeniul [0,1], într-un interval de
lungime maximă, în general de la (-, +). Aceasta este motivaţia folosirii funcţiei
logit.
 p 
Formula de calcul este următoarea: logit(p)  ln   , unde:
1 p 
p  reprezintă probabilitatea realizării evenimentului de interes.
1-p  reprezintă probabilitatea realizării evenimentului opus.
Probabilitatea p, variază între 0 şi 1 iar funcţia logit are codomeniul (- , +  ).
Regresia logistică se bazează pe formula:
 p 
logit ( p)  ln   a0  a1  x1  ....  a n  xn .
1 p 
Coeficienţii ao,…,an se deduc prin metode matematice specifice folosind un calcul
laborios care se realizează doar cu ajutorul computerului.
Dacă exprimăm probabilitatea p funcţie de factorii xi, atunci avem:
1
p  f(x 0 , x1 ,...x n ) , aceasta este numită funcţia logistică
 
1  exp  -  ai  xi 
 i 
şi este diferită în mod evident de funcţia logit.
Funcţia logistică face conversia din domeniul (- ,+), ca posibil de variaţie
pentru variabilele xi, în domeniul probabilităţii unui eveniment, deci [0,1].

154
BIOSTATISTICA

Dacă reprezentăm grafic variabila dependentă în funcţie de cea independentă, în


situaţia în care avem doar două variante pentru y, atunci aceasta ar fi o reprezentare de
puncte doar pe două linii paralele pentru cele două valori posibile, 0 respectiv 1 ale lui
Y. Valoarea 1 înseamnă că evenimentul a avut loc, iar 0 evident opusul. În această
situaţie probabilitatea lui Y după experiment poate avea doar valorile 0 sau 1.

Prob(Y)= 
1

0 X

Figura 2.11 4 – Funcţia logistică comparativ cu regresia liniară.

Se observă conform figurii alăturate că dreapta de regresie (linia pe diagonală


trasată punctat) prezintă mari dezavantaje. În primul rând, conţine puncte ale căror
ordonate au valori mai mari ca 1 şi mai mici decât 0. Deci, în cazul estimării unor
probabilităţi ar conţine erori fatale. Un alt mare dezavantaj constă în faptul că eroarea
nu este distribuită normal şi nici variabila dependentă (y) nu se încadrează în această
clasă de repartiţie. Condiţia este necesară pentru determinarea coeficienţilor de regresie
– deci metoda celor mai mici pătrate nu se aplică aici.
Funcţia logistică este reprezentată prin linia curbă în formă de S. Aceasta
aproximează mult mai bine probabilitatea evenimentului studiat.
Probabilitatea lui Y depinde de variabila independentă X. Matematic putem scrie:
 ( x)  P(Y  1 X  x) . Aceasta reprezintă probabilitatea condiţionată a lui Y (de a se
îndeplini evenimentul Y, deci Y=1) pentru diferite valori (deci şi în domeniul continuu)
ale variabilei X.

Determinarea coeficienţilor de regresie logistică

Variabila Y poate avea numai două valori acceptate, „Adevărat” sau „Fals”, „Da”
sau „Nu”, „Prezent” sau „Absent”, „Sănătos” sau „Bolnav”, „Pozitiv” sau „Negativ”.
Aceasta este caracterizată de probabilitatea de realizare a unor asemenea evenimente
modelate matematic prin funcţia logistică.

Y este distribuită binomial (Bernoulli). Astfel, dacă avem m încercări ale


experimentului, atunci probabilitatea ca evenimentul să se realizeze de j ori este :

155
BIOSTATISTICA

 m  m
Pr(Y  j )     p j  1  p m  j , unde    Cmj sunt combinări de m luate
 j  j
 m m!
câte j:    ; p este probabilitatea de realizare a evenimentului (este  ).
 j  j!m  j !
Aceasta se numeşte funcţia probabilitate de masă (probability mass function).
Variabila Y este caracterizată de medie şi varianţă. Pentru cazul binomial avem:
media= E (Y )  m  iar varianţa este Var (Y )  m   1    .
Pentru determinarea coeficienţilor se aplică metoda verosimilităţii maxime
(prezentată detaliat în anexă).
Funcţia de verosimilitate (notată L) este produsul probabilităţilor pentru toate
elementele din eşantion.
n
L   Pr( yi ) . Probabilitatea se calculează cu funcţia probabilitate de masă în
i 1
care p este funcţia logistică. Se pune condiţia de maxim (derivata de ordinul întâi egală
cu 0) pentru verosimilitate maximă şi se ajunge la un sistem având ca necunoscute
coeficienţii de regresie a0, a1, …,an.
Programele actuale de statistică deduc aceşti coeficienţi ce exprimă legătura
căutată.

Interpretarea coeficienţilor în cazul regresiei logistice


Ţinând cont de formula de calcul:
 p 
logit ( p)  ln   a0  a1  x1  ....  an  xn putem interpreta în prima
1 p 
formă coeficienţii de regresie ai.
Vom presupune că modificăm doar valoarea x1 cu o unitate, deci x1,  x1  1 .
Pentru valoarea x1 avem probabilitatea p1 iar pentru x1, vom determina probabilitatea
p1, .
Se poate calcula logit ( p1, )  logit ( p1 )  a1 , ceea ce înseamnă că diferenţa
logaritmilor cotelor pentru o creştere cu 1 a variabilei xi reprezintă coeficientul ai –
evident o interpretare greoaie !
Putem prelucra totuşi ultima formulă prin exponenţiere. Notăm cota cu C1
p
respectiv C1` pentru x1 respectiv x1, ( C  ).
1 p
 p,   p1 
Vom aplica exponenţiala pentru ln  1 
 ln    a1 .
1  p,   1  p 
 1 1

156
BIOSTATISTICA

'
C
Obţinem: 1  exp( a1 ) . Interpretarea este evidentă. Exponenţiala unui coeficient
C1
al regresiei logistice reprezintă raportul cotelor pentru creştere cu o unitate a valorii
variabilei independente.

Exemplu
Se studiază influenţa fumatului, a obezităţii şi a sforăitului asupra hipertensiunii.
Practic, problema se rezumă la a estima în prima etapă prin regresie multiplă logistică
influenţa asupra cotei logaritmate (ln(C)) realizată de factorii fumat, obezitate şi
sforăit.
Se deduc coeficienţii de regresie conform formulei:
 p 
Logit (p) = ln   = – 2,379 + 0,685  F + 0,694  O + 0,871  S , unde:
1 p 
F - reprezintă faptul că persoana fumează sau nu (poate fi 0 sau 1).
O - indică prezenţa obezităţii (este variabilă binară, poate fi 0 sau 1).
S - reprezintă prezenţa sforăitului (variabilă binară, poate avea valorile 0 sau 1).

Dacă comparăm persoanele care fumează cu cele care nu fumează se ajunge la


două ecuaţii. Una dintre ecuaţii se obţine pentru F=1 iar cealaltă pentru F=0.
Diferenţa: logit(pfumător) – logit(pnefumător) = 0,685. Aplicând funcţia exponenţială se
obţine:
C fumator Pfumator (1  Pnefumator)
  1,98 .
Cnefumator Pnefumator (1  Pfumator)
Acest rezultat reprezintă numeric riscul de hipertensiune printre fumători în raport
cu nefumătorii (riscul de a avea hipertensiune este de 1,98 ori mai mare la fumători faţă
de nefumători).

În final menţionăm că există metode de verificare statistică a semnificaţiei


coeficienţilor (metoda Wald) cât şi a întregului model propus (metoda Chi pătrat). De
asemenea, modelul de regresie poate fi pas cu pas optimizat prin verificarea
variabilelor independente introduse (cu înlănţuire înainte sau înapoi conform
procedurii prezentate la regresia multiplă).

157
BIOSTATISTICA

2.12. ANALIZA SUPRAVIEŢUIRII

Introducere

Analiza supravieţuirii a fost iniţial folosită în domeniul medical, biologic dar în


timp utilitatea sa a fost materializată şi prin aplicaţii în domeniile economice şi tehnice.
Supravieţuirea se referă la analiza în timp a probabilităţii de apariţie a unui anumit
eveniment. Decesul a fost iniţial urmărit iar variabila ce caracterizează perioada de
viaţă este timpul scurs până la „realizarea” acestuia.
Putem da câteva exemple cu efecte atât pozitive cât şi negative, care au făcut tema
unor studii în cadrul cercetărilor:
- timpul scurs de la îmbolnăvire până la deces.
- timpul scurs până la apariţia recidivelor.
- timpul de utilizare a unui cateter.
- timpul scurs până la însănătoşire în cazul aplicării unui anumit tratament.
- timpul scurs până la apariţia sarcinii în cadrul cuplurilor sterile (sub
tratament).
- timpul de utilizare a unui produs.

Dacă avem de studiat eficienţa unui tratament asupra unei maladii în fază
terminală, variabila de interes este perioada de supravieţuire a pacientului. În principiu
se pot folosi metodele statistice standard de calcul şi estimare a mediei de
supravieţuire, a medianei sau se pot realiza comparaţii între aceşti indicatori pentru
diferite loturi studiate.
Apar totuşi unele aspecte specifice procesului de analiză în timp a datelor.
1 – O parte din pacienţii care iniţial au fost incluşi în studiu vor fi pierduţi pe
parcurs datorită cauzelor obiective (pierderea contactului cu persoana prin diferite
forme: schimbarea adresei, abandon; deces din alte cauze sau terminarea studiului şi
neapariţia evenimentului analizat). Acestea sunt cunoscute drept date cenzurate (sau
eliminate) şi sunt utile până în momentul înlăturării din studiu.
2 – Putem înrola în cercetare noi pacienţi ce apar pe perioada definită de analiză.
Aceştia la rândul lor aduc un aport de informaţie care ajută la eliminarea indeciziilor
existente.
Metodă
Analiza supravieţuirii trebuie interpretată în mod corect ca o analiză în timp a
realizării evenimentului. Funcţia de supravieţuire este descrisă de probabilitatea ca la
momentul ti pacienţii să se afle în viaţă. Vom vedea cum se poate deduce această
probabilitate cunoscând numărul de decese şi numărul de cazuri cenzurate în fiecare
interval de studiu.

158
BIOSTATISTICA

Interpretarea generală a funcţiei de supravieţuire este realizată însăşi prin


probabilitatea ca la momentul ti evenimentul sa nu se fi produs (probabilitatea de
supravieţuire este complementară probabilităţii decesului). Este clar că în timp această
probabilitate variază, scade şi astfel forma sa capătă o tendinţă descrescătoare. Cu cât
timpul trece, cu atât mai puţini pacienţi vor fi în viaţă şi astfel probabilitatea de
supravieţuire va scădea.
La diferite momente de timp ti se produc evenimente ce reprezintă decesul sau
cenzura. Acestea definesc punctele în care probabilitatea de supravieţuire îşi schimbă
valoarea.
Dacă am schiţa o expunere în timp a apariţiei evenimentelor ce caracterizează
starea pacienţilor (cenzură sau deces) cât şi a înrolării de noi cazuri, acestea ar putea fi
reprezentate grafic asemănător celor din figura 2.12 1. Observăm că există un
eveniment de start (marcat cu romb negru) şi apoi evenimentul ce defineşte sfârşitul
(marcat prin cerc).
Pentru studiu ne interesează intervalul de timp cuprins între cele două evenimente,
de start respectiv de stop.

Eveniment de studiu
realizat
Pacienţi

P1
Cenzură

P2

Sfârşit studiu

timp (calendaristic)

Figura 2.12 1 – Monitorizarea pacienţilor pe perioada de studiu.

Pentru interpretarea corectă trebuie să realizăm o translaţie în sensul aducerii


tuturor punctelor de start la un moment de referinţă comun, considerat reper zero al
axei timpului. Graficul cu transformarea realizată este prezentat în figura 2.12 2.

159
BIOSTATISTICA

Pacienţi

P1

P2

Sfârşit studiu

T0 T1 T2 T3 Ti
Timp (ca dimensiune)
Reperul T0 este determinat

Figura 2.12 2 – Aducerea la reper zero în timp a pacienţilor din studiu.

Evenimentele au loc la momentele notate: T1, T2, … Ti, … Tn. Între acestea se
respectă relaţia: T1 < T2 < … < Ti < … < Tn. Momentul de start este T0 definit de
scopul studiului. Aici trebuie să se acorde o atenţie deosebită, deoarece poate exista o
mare relativitate în stabilirea momentului de start (de exemplu în cancerul de sân, care
este momentul de determinare a prezenţei neoplaziei?). Toate cazurile luate în studiu
trebuie să fie tratate unitar pentru a nu introduce erori.

Funcţii ce descriu distribuţia timpului de supravieţuire


Timpul de supravieţuire este măsurat din momentul începerii analizei şi până la
realizarea evenimentului studiat (deces, recidivă, apariţie simptome, căsătorie, divorţ,
concepţie, etc.). Există posibilitatea pierderii subiecţilor analizaţi, aceştia reprezentând
datele cenzurate.
Timpul este variabila de studiu şi se manifestă aleator, având de cele mai multe ori
o distribuţie necunoscută. Dacă am reuşi în anumite situaţii să demonstrăm că această
variabilă respectă o distribuţie normală (caz aproape neîntâlnit în practică), atunci am
avem tehnica de analiză cunoscută (distribuţia Gauss-Laplace este studiată în
amănunt). Totuşi datele cenzurate pot ajuta parţial cu informaţia introdusă. Acestea
necesită un tratament aparte.
Există trei funcţii care descriu distribuţia de supravieţuire:
A) Funcţia de supravieţuire notată S(t).
B) Funcţia densitate de probabilitate f(t) şi integrala acesteia F(t) – funcţia de
probabilitate cumulată.
C) Funcţia Hazard, h(t) şi H(t) – funcţia hazard cumulată (integrala h(t)).
160
BIOSTATISTICA

Notăm cu T variabila aleatoare ce defineşte timpul de supravieţuire.

Funcţia de supravieţuire (survival function)


Aceasta exprimă probabilitatea ca un individ să supravieţuiască mai mult de
momentul te timp notat t.
Avem astfel S(t) = P(T>t), S(t) este funcţia de supravieţuire, P este probabilitatea.
Dacă nu avem elemente cenzurate, atunci putem calcula funcţia de supravieţuire
cu formula:
S(t) = (număr pacienţi în viaţă la momentul t) / (nr. total pacienţi luaţi în studiu).

Această formulă este corectă pentru un volum foarte mare al eşantionului.

La momentul iniţial toţi pacienţii luaţi în studiu sunt în viaţă, deci pentru t=0,
S(0)=1.

Dacă facem ca variabila timp să tindă către infinit, atunci ne aşteptăm ca


evenimentul deces să se realizeze pentru toate cazurile studiate deci S(t=maxim)=0.
Cu cât înaintăm în timp pierdem pacienţi prin deces, deci funcţia de supravieţuire
este de aşteptat să fie descrescătoare.
Pentru caracterizarea corectă a funcţiei de supravieţuire se foloseşte mediana în
locul mediei. Aceasta exprimă corect valoarea centrală deoarece distribuţia în general
nu este de tip normal iar cazurile extreme pot influenţa în mod eronat valoarea mediei.
Sunt foarte utile şi cuartilele, deci cele 3 valori ce împart distribuţia în 4 grupe de
probabilităţi egale cu 25% (cuartila 2 este tocmai mediana).
Forma grafică a funcţiei de supravieţuire este prezentată alăturat.

S(t)

50%

Q1 Me Q3 Timp

Figura 2.12 3 – Funcţia de supravieţuire

Mediana reprezintă timpul (luni, ani, săptămâni) pentru care probabilitatea de


supravieţuire a scăzut la jumătate, 50%.

161
BIOSTATISTICA

Funcţia densitate de probabilitate (probability density function)


Orice variabilă aleatoare are o funcţie densitate de probabilitate (notată f(t)) cât şi
o funcţie de repartiţie (notată F(t)).
Densitatea de probabilitate exprimă probabilitatea ca pentru un individ să aibă loc
evenimentul studiat în următorul interval de timp t foarte mic (infinitezimal).
Aceasta se defineşte printr-un proces de trecere la limită de forma:
P(evenimentul este realizat in intervalul t , t  t )
f (t )  lim .
t 0 t
Fiind o limită a probabilităţii valoarea nu poate fi negativă, deci f(t) ≥ 0, pentru
orice t. Pentru timp negativ densitatea de probabilitate este 0. Noţiunea de timp
negativ trebuie definită. Practic valori ale timpului negativ t<0, sunt scoase din calcul.
De exemplu, înaintea începerii studiului nu avem informaţie deci este impropriu să
calculăm şi să determinăm probabilităţi.
Ca şi în cazul funcţiei de supravieţuire, valoarea f(t) se poate aproxima prin calcul
direct doar în situaţia inexistenţei cenzurilor.
f(t) = (numărul de evenimente realizate începând cu t) / [(nr. total pacienţi luaţi în
studiu) • ( t )].
Se mai numeşte şi rata necondiţionată de realizare a evenimentului studiat
(unconditional failure rate).
Ca forme grafice posibile există variante multiple:
2 1
f(t)

Timp (t)
Figura 2.12 4 – Funcţia densitate de probabilitate.

Funcţia hazard (hazard function)


Se defineşte ca fiind probabilitatea realizării evenimentului studiat într-un interval
de timp foarte scurt ( t ) cunoscând că până la momentul t evenimentul nu s-a realizat.
Se aseamănă cu definirea densităţii de probabilitate dar conţine o informaţie
suplimentară. Aceasta este condiţia ca evenimentul să nu se fi realizat până la
momentul t.
 evenimentu l este realizat in intervalul t,t  Δt 
P 
h(t )  lim  .
conditiona ta de nerealizar ea ev. pana la t
t 0 t
Funcţia hazard exprimă riscul de a deceda în unitatea de timp la o anumită vârstă,
sau riscul în general, de a se realiza evenimentul la un moment t.

162
BIOSTATISTICA

Se mai întâlneşte şi sub numele de rata condiţionată a mortalităţii, forţa


mortalităţii sau rata instantanee a producerii evenimentului.
Dacă nu avem evenimente cenzurate atunci metoda de calcul aproximativ este
bazată pe formula:
h(t) = (numărul de evenimente realizate începând cu t) / [(nr. de pacienţi ajunşi în
studiu la momentul t)•( t )].
Faţă de expresia densităţii de probabilitate, h(t) diferă tocmai prin numărul de
pacienţi plasat în formulă la numitorul fracţiei.
Funcţia hazard poate fi constantă în timp, poate creşte sau descreşte, deci are
diferite forme posibile.

3
1
h(t) 4

Timp (t)
Figura 2.12 5 – Funcţia hazard – posibile forme.

Există relaţii de legătură între cele trei funcţii astfel încât având una din ele, putem
să le deducem pe celelalte două. Aşadar este suficient doar una din aceste trei funcţii să
o cunoaştem sau să o deducem din date experimentale.

Prezentăm fără a demonstra relaţiile existente între aceste funcţii.


T – variabila aleatoare ce este analizată.
S(t) = P(T>t) este funcţia de supravieţuire.
f(t) este funcţia densitate de probabilitate; F(t) funcţia de probabilitate cumulată.
h(t) este funcţia hazard; H(t) funcţia hazard cumulată.
1. F (t )  1  S (t ) .

F (t )  1  S (t )    S (t )
d d
2. f (t )  - densitate de probabilitate şi
dt dt
supravieţuire.
f (t ) f (t )
3. h(t )  sau h(t )  - legătura dintre hazard şi probabilitate.
S (t ) 1  F (t )
f (t )  S (t )
  logS (t )  - legătura dintre hazard şi supravieţuire.
d
4. h(t )  
S (t ) S (t ) dt
5. f (t )  h(t )  exp  H (t ) - densitatea de probabilitate funcţie de hazard.
Pentru amănunte în demonstraţie se poate studia „Statistical Methods for Survival
Data Analysis” – Elisa T. Lee, John Wenyu Wang ; A John Wiley &Sons. Inc.,
Publication 2003.
163
BIOSTATISTICA

Analiza supravieţuirii utilizând metoda Kaplan Meier


Analiza în timp a evenimentului (time to event analysis; product limit estimate)

Metoda Kaplan Meier este o tehnică statistică neparametrică ce determină


probabilităţile de supravieţuire în timp, acceptă lucrul cu date cenzurate şi permite
introducerea de noi cazuri în perioada de cercetare.

Funcţia de supravieţuire sau rata de supravieţuire este definită prin probabilitatea


ca o persoană (sau caz de studiu) să supravieţuiască mai mult de n unităţi de timp
Ps (T  Ti ) . Aceste unităţi de timp sunt tocmai valorile discrete T1, T2, …Tn.
Se poate calcula uşor probabilitatea pe fiecare interval [Ti-1, Ti]. Aceasta este însă
o probabilitate condiţionată. Practic în intervalul Ti-1–Ti , avem o anumită structură a
lotului de studiu. La momentul Ti-1 avem în viaţă Ni-1 pacienţi. Aceştia sunt supuşi
riscului de a deceda. În intervalul precizat o parte din pacienţi vor fi eliminaţi din
studiu (cenzuraţi), notaţi cu Ci, iar o altă parte vor deceda, notaţi Di.
Putem calcula numărul de pacienţi supuşi riscului la momentul Ti. Vom scădea pe
cei decedaţi şi pe cei cenzuraţi. N i  N i 1  Di  Ci .
Probabilitatea de deces pe acest interval, condiţionată de faptul că pacienţii au
Di
supravieţuit până la începutul intervalului de timp este Pd (T  Ti T  Ti 1 )  .
N i 1
T reprezintă timpul de supravieţuire ce caracterizează studiul. Astfel,
probabilitatea de supravieţuire condiţionată se exprimă prin:
Di
Ps (T  Ti T  Ti 1 )  1  Pd (T  Ti T  Ti 1 )  1  .
N i 1
Această probabilitate se poate evalua pe fiecare interval ce prezintă evenimente de
tip deces sau cenzură. Menţionăm că ea nu reprezintă probabilitatea de supravieţuire.
Pentru determinarea funcţiei de supravieţuire trebuie să calculăm probabilitatea
necondiţionată Ps (T  Ti ) în fiecare punct din domeniul variabilei T.

Făcând apel la teoria probabilităţilor avem:


P( A  B )
P( A B )  - formula de calcul a probabilităţii condiţionate.
P( B )

Evenimentul A poate fi de exemplu, timpul de supravieţuire mai mare decât Ti


(T>Ti), iar evenimentul B poate reprezenta T>Ti-1. Observăm că probabilitatea de
intersecţie a evenimentelor P( A  B)  P(T  Ti  T  Ti 1 ) este tocmai P(A)
deoarece evenimentul A este mai restrictiv decât B (dacă persoana a ajuns la momentul
Ti sigur a fost în viaţă la momentul anterior).

164
BIOSTATISTICA

P(T  Ti )
În acest caz avem: P(T  Ti T  Ti 1 )  . Obţinem probabilitatea de
P(T  Ti 1 )
supravieţuire pentru intervalul de rang i ca un produs de forma:
Ps (T  Ti )  Ps (T  Ti T  Ti 1 )  Ps (T  Ti 1 ) .
Înlocuind în continuare probabilitatea de supravieţuire de la momentul Ti-1 cu o
formulă asemănătoare celei de sus, obţinem un produs al probabilităţilor condiţionate.
În final, ultima valoare va fi probabilitatea de supravieţuire la momentul 0 (aceasta este
considerata iniţial de valoare egală cu 1, Ps (T  T0 )  1 ).
Este justificat astfel şi pseudonimul: „product limit estimate”.
Ps (T  Ti )  Ps (T  Ti T  Ti 1 )  .....  Ps (T  T2 T  T1 )  Ps (T  T0 ) .
Fiind un produs de probabilităţi putem uşor observa că în timp forma grafică va fi
descrescătoare.
Practic, vom determina pe fiecare interval numărul de pacienţi la risc (Ni),
numărul de decese (Di) şi numărul de pacienţi eliminaţi (sau cenzuraţi, Ci). Se poate
calcula apoi probabilitatea condiţionată şi în final prin produsul acestora se exprimă
funcţia de supravieţuire în fiecare moment de timp în care se produc evenimente.

Exemplu de calcul

Presupunem că avem în cadrul unui studiu tabelul 2.12 1 cu datele pe zile despre
evenimentele cenzurate şi cele urmărite. Examinările sunt desfăşurate pe o durată de 14
zile iar datele culese sunt prezentate mai jos.

Tabelul 2.12 1 – Date generice - Studiu supravieţuire


Ziua Cenzuri Eveniment urmărit
1 7 2
2 4 1
3 2 2
4 3 3
6 1 2
8 3 4
10 2 1
11 2 2
13 1 2
14 0 1
Total 25 20

165
BIOSTATISTICA

Numărul total de pacienţi din studiu este suma celor două coloane şi are valoarea
45 pentru exemplul prezent.
Tabelul 2.12 2 – Etape de calcul – Funcţia de supravieţuire
Probabilitatea de

Eveniment
Probabilitatea
Pacienţi la supravieţuire
Cenzuri

urmărit
condiţionată pe
risc (produsul prob.
Ziua

interval
condiţionale)
1 7 2 45 1-2/45=0.955 0.955
2 4 1 45-7-2=36 1-1/36=0.972 0.955*0,972=0.929
3 2 2 36-4-1=31 1-2/31=0.935 0,929*0,935=0.869
4 3 3 31-2-2=27 1-3/27=0.888 0.869*0.888=0.772
6 1 2 27-3-3=21 1-2/21=0.904 0.772*0.904=0.698
8 3 4 21-1-2=18 1-4/18=0.777 0.698*0.777=0.543
10 2 1 18-3-4=11 1-1/11=0.909 0.543*0.90=0.494
11 2 2 11-2-1=8 1-2/8=0.75 0.494*0.75=0.370
13 1 2 8-2-2=4 1-2/4=0.5 0.370*0.5=0.185
14 0 1 4-1-2=1 0 0
total 25 20

Etapele de calcul sunt detaliate în tabelul 2.12 2. Se vor determina mai întâi pentru
fiecare interval pacienţii la risc. Pentru primul interval numărul pacienţilor la risc este
egal cu suma tuturor pacienţilor luaţi în calcul. Pentru celelalte intervale se scade în
mod repetat atât numărul de cenzuri cât şi numărul de evenimente urmărite realizate.

În etapa următoare se poate calcula probabilitatea condiţionată de supravieţuire.


Aceasta are valoarea egală cu 1 din care se scade raportul dintre numărul de
evenimente urmărite şi numărul de pacienţi la risc. Se observă că această probabilitate
poate creşte sau descreşte pe fiecare interval în funcţie de numărul de evenimente care
s-au consumat.

În final, prin înmulţirea cumulată a probabilităţilor condiţionate se obţine


probabilitatea de supravieţuire. Aceasta are o tendinţă descrescătoare putând atinge la
sfârşit valoarea 0.

Forma grafică este reprezentată în figura 2.12 6. Alura este în formă de scară cu
trepte de diferite lungimi şi înălţimi. Aceste caracteristici sunt date de numărul de
evenimente consumate în fiecare interval de timp.

166
BIOSTATISTICA

Figura 2.12 6 – Funcţia de supravieţuire.

O formă descriptivă de interpretare a supravieţuirii constă în calculul mediei, a


medianei, a cuartilelor şi a intervalelor de confidenţă al acestora. Programul SPSS ne
permite aceste calcule, pe care le prezentăm în continuare, împreună cu verificarea
existenţei semnificaţiei statistice între două curbe de supravieţuire.

Comparaţii între funcţiile de supravieţuire


Funcţia de supravieţuire ne creează o imagine asupra descreşterii în timp a
probabilităţii. O descriere a valorilor indicatorilor de supravieţuire poate fi realizată
prin calculul mediei, a medianei, a valorilor cuartilelor dar şi prin estimarea
intervalului de confidenţă a acestor indicatori.
Dacă sunt mai multe grupuri de date care reprezintă funcţii diferite de
supravieţuire, atunci acestea pot fi comparate prin teste statistice ca: Log Rank
(Mantel-Cox), Breslow (Generalized Wilcoxon) sau Tarone-Ware. Aceste teste
reprezintă statistici de tip Chi pătrat (  2 ) pentru care se poate calcula valoarea p a
nivelului de semnificaţie.
Una dintre cele mai populare metode de comparare este testul logrank (sau Log
Rank). Acesta ia în calcul întreaga durată de urmărire a cazurilor şi are marele avantaj
că nu necesită anumite condiţii impuse asupra formei sau distribuţiei timpilor de
supravieţuire. Se foloseşte pentru a testa ipoteza nulă definită prin lipa diferenţei
semnificative între probabilităţile de apariţie a evenimentului studiat între grupurile
comparate.
Pentru fiecare grup se determină valorile observate ale frecvenţelor absolute
(valorile determinate experimental, notate cu O) şi se calculează de asemenea valorile
aşteptate (expected values, notate cu E).

167
BIOSTATISTICA

De exemplu, pentru două loturi de 30, respectiv de 40 pacienţi în care avem în


prima săptămână un singur deces, putem calcula aceste valori ale frecvenţelor:
- frecvenţa absolută observată O=O1+O2=1, respectiv cea relativă este
1/(30+40)=0,0142.
- frecvenţa absolută aşteptată în grupul 1 este E1
grup1
 30  0,0142  0,428 .
- frecvenţa absolută aşteptată în grupul 2 este E1  40  0,0142  0,572 .
grup2

Se calculează pentru fiecare grup frecvenţele absolute aşteptate în fiecare moment


în care avem evenimente prezente. Evident, vor fi recalculate volumele eşantioanelor
(valorile 30, respectiv 40) eliminând cenzurile şi decesele prezente pe interval. În final
se face suma frecvenţelor observate totale şi aşteptate pentru grupul 1, respectiv grupul
2.
Se poate aplica testul Chi pătrat folosind formula:

 calculat
2

O
total  Etotal
grup1
  O
2
total  Etotal
grup2

2

   
. Valorile total sunt
grup1 2 grup2 2
Etotal Etotal
calculate ca sume ale valorilor parţiale.

În mod corespunzător se poate determina valoarea  2 tabelată cu 95% încredere


pentru un număr de grade de libertate egal cu numărul de grupuri de comparat minus 1.
Dacă valoarea calculată este mai mare decât cea tabelată, atunci există diferenţă
semnificativă statistic.
Acelaşi rezultat se poate obţine calculând nivelul de semnificaţie p determinat din
valoarea  2 calculat. Dacă p este mai mic decât 0,05 atunci va exista semnificaţie
statistică, aşadar diferenţele dintre grupuri nu sunt întâmplătoare.

Observaţii

Menţionăm că în cazul studiului decesului, panta echivalentă a curbei de


supravieţuire este de dorit să fie cât mai mică, implicând ca graficul să fie cât mai
aproape de o paralelă cu axa XX’. Aceasta ar determina o scădere lentă a valorilor
probabilităţilor de supravieţuire în timp. Efectul ar fi un timp de viaţă îndelungat,
evident sperat poate de mulţi dintre noi.
Dacă intenţionăm să studiem timpul necesar pentru ca un medicament să aibă
efect în însănătoşirea pacientului, atunci de dorit este ca panta să fie cât mai mare,
adică efectul să fie cât mai rapid.

În concluzie depinzând de situaţia în care ne aflăm, forma grafică a funcţiei va fi


diferită, având caracteristici chiar opuse, tocmai datorită scopului optim de atins ce
poate să aibă cerinţe opuse.

168
BIOSTATISTICA

Exemplu de realizare a analizei de supravieţuire folosind metoda Kaplan


Meier în SPSS
Programul de analiză statistică SPSS permite analiza supravieţuirii prin mai multe
tehnici printre care şi metoda Kaplan Meier.
Lansarea în execuţie se realizează apelând meniul şi urmând calea: Analyze 
Survival  Kaplan Meier (conform cu figura 2.12 7).

Figura 2.12 7 – SPSS - lansarea în execuţie a analizei Kaplan Meier.


Pentru a putea analiza supravieţuirea se încarcă mai întâi fişierul de date cu cel
puţin două coloane ce reprezintă timpul dintre evenimentul de start şi cel de stop,
respectiv tipul evenimentului (cenzură sau deces).
Codificările pentru evenimente pot fi numerice în majoritatea cazurilor: 0
reprezintă cenzură iar 1 reprezintă deces (fig.2.12 7).
Fiecare rând din tabel defineşte practic un pacient inclus în eşantionul de studiu.
Astfel, numărul total de rânduri va fi egal cu volumul eşantionului (număr total
pacienţi).

Figura 2.12 8 – Definirea variabilelor utilizate în analiză.


169
BIOSTATISTICA

În etapa următoare se definesc variabilele de lucru: variabila ce determină timpul


scurs între evenimente (pentru cazul nostru coloana notată „Zi”), respectiv variabila ce
precizează tipul evenimentului (pentru cazul nostru coloana „Cenz_Deces”).

Pentru a preciza tipul de codificare utilizat se foloseşte butonul „Define Event” în


care se specifică valoarea din coloană pentru evenimentul deces (sau evenimentul
studiat). În situaţia noastră setarea se realizează cu valoarea 1 (figura nr. 2.12 9).

Figura 2.12 9 – Specificarea codificării.

Dacă se doreşte o comparare între diferite curbe de supravieţuire se poate


specifica coloana factor ce defineşte subgrupurile pentru analiză. Se specifică de
asemenea şi testele statistice de verificare a diferenţelor presupuse (figura 2.12 10).

Figura 2.12 10 – Definirea testelor de verificare a semnificaţiei statistice


pentru comparaţii.

Coloana factor poate fi spre exemplu, o variabilă de tip dicotomic ce defineşte


tratamentul aplicat. Se doreşte o comparaţie între două tratamente pentru a vedea care
dintre ele prezintă un timp de supravieţuire mai îndelungat.

Amintim că testele de comparare funcţionează şi pentru un număr de grupe mai


mare ca 2 (de exemplu 4 tratamente).

170
BIOSTATISTICA

Figura 2.12 11 – Definirea opţiunilor.

În final, cu ajutorul butonului Options (figura 2.12 11) se definesc indicatorii


statistici ce se vor calcula cât şi graficele ce pot fi realizate. Cel puţin funcţia de
supravieţuire trebuie reprezentată grafic cât şi calculele necesare realizării tabelei de
supravieţuire.

Interpretarea rezultatelor

În SPSS rezultatele analizelor sunt salvate într-un fişier de ieşire (extensia „spo”).
Pentru analiza cerută va fi prezentat un tabel de supravieţuire conţinând pentru fiecare
caz în parte momentul de timp al evenimentului realizat, valorile funcţiei de
supravieţuire şi a erorii standard, numărul de evenimente cumulative şi cele rămase.
Dacă s-a cerut calculul anumitor indicatori statistici (medie, mediană, cuartile)
aceştia sunt prezentaţi într-un tabel separat, fiind calculat şi intervalul de confidenţă.
Acestea pot fi folosite pentru verificarea într-o primă formă a suprapunerii intervalelor
de confidenţă pentru compararea diferitelor curbe. Dacă există o suprapunere a
intervalelor atunci şansa de a diferi semnificativ este minimă.

Tabelul 2.12 3.
Means and Medians for Survival Time
Mean(a) Median
95% Confidence 95% Confidence
Tratament Std. Interval Std. Interval
Estimate Error Lower Upper Estimate Error Lower Upper
Bound Bound Bound Bound
1 9.205 .779 7.677 10.732 10.000 1.480 7.099 12.901
2 8.377 .645 7.114 9.641 8.000 1.063 5.917 10.083
Overall 8.717 .494 7.749 9.685 8.000 1.019 6.003 9.997
(1 – tratament clasic , 2 – tratament nou)

171
BIOSTATISTICA

Tabelul 2.12 4.
Percentiles
Tratament 25.0% 50.0% 75.0%
Estimate Std. Error Estimate Std. Error Estimate Std. Error
1 13.000 1.149 10.000 1.480 6.000 1.442
2 13.000 1.045 8.000 1.063 4.000 .696
Overall 13.000 .818 8.000 1.019 5.000 .727

Iată în exemplul nostru intervalele pentru medii cât şi pentru mediane se suprapun,
chiar mai mult, intervalul de confidenţă pentru grupul format de tratamentul 1 cuprinde
valoarea punctuală calculată a indicatorului studiat (medie, respectiv mediană) pentru
celălalt grup.

Testele de comparare au valorile prezentate în tabelul următor. Se acceptă un prag


de 10% (iată şi o valoare standard peste 5%) sau o semnificaţie de 0,1. Dacă valoarea
nivelului de semnificaţie calculat este sub 0,1 atunci se poate decide că diferenţa este
semnificativă statistic şi nu întâmplător cele două curbe diferă. Astfel tratamentul 1
este diferit faţă de tratamentul 2 în ceea ce priveşte evenimentul studiat.

Tabelul 2.12 5 – Testarea diferenţei dintre cele două curbe de supravieţuire.


Chi-Square df Sig.
Log Rank (Mantel-Cox) .608 1 .436
Breslow (Generalized Wilcoxon) .427 1 .514
Tarone-Ware .545 1 .460

Pentru cazul nostru valoarea Sig. reprezintă nivelul de semnificaţie p şi este cu


mult peste pragul de 10% în toate cele trei teste aplicate. În concluzie, nu există
diferenţă semnificativă statistic, aşadar cele două tratamente au efecte asemănătoare.
În încheiere se reprezintă grafic cele două curbe de supravieţuire (figura 2.12 12).

172
BIOSTATISTICA

Figura 2.12 12 – Curbele de supravieţuire Kaplan Meier.

Folosind softul EpiInfo versiunea 3.3.2 din februarie 2005 se pot reprezenta grafic
datele şi se efectuează testul Log Rank pentru comparaţie. Evident, rezultatele sunt
aceleaşi atât timp cât datele de intrare coincid.
La sfârşitul capitolului EpiInfo este prezentat acelaşi exemplu de supravieţuire.

Datele utilizate pentru supravieţuire se află în tabelul din anexa F.

173
BIOSTATISTICA

Analiza supravieţuirii utilizând metoda Cox

Analiza timpului de supravieţuire poate fi realizată şi prin precizarea unei funcţii


(deci o formă analitică) care să modeleze datele. Este de fapt o metodă de regresie iar
coeficienţii necunoscuţi trebuie determinaţi.
Dacă în cadrul evoluţiei participă covariabile (variabile independente) ce au efect
asupra determinării timpului de supravieţuire (variabila dependentă), atunci metoda
Kaplan Meier este improprie pentru analiză. Ar trebui pentru fiecare covariabilă o
analiză separată dar şi pentru combinaţiile posibile ale valorilor acestora. Dacă avem 2
covariabile cu câte 3 grade lingvistice (ex: stadiu1, stadiu2 şi stadiu3) numărul de
combinaţii posibile s-ar ridica la 9 (3 la puterea a doua). Ar fi nepotrivit să comparăm
cele 9 variante găsite. Dar dacă am avea 5 posibile covariabile implicate în analiză ?
Uşor s-ar atinge valori de ordinul zecilor sau chiar sutelor de variante de comparat.
Evident calculele devin extrem de laborioase iar metoda de studiu este nepotrivită.

Metoda Cox este avantajoasă în modelarea corectă a timpilor de supravieţuire


atunci când în studiu apar covariabile sau se propun anumiţi parametri care
influenţează evoluţia în timp a evenimentului. Funcţia hazard este cea implicată în
modelare. Aceasta se presupune a avea o formă proporţională (proportional hazards
model). Se respectă astfel următorul model matematic:
h(t x1 , x2 ...xn )  h0 (t )  g ( x1 , x2 ,...xn ) ,
unde:
h(t x1 , x2 ...xn )  este funcţia hazard ce caracterizează evenimentul studiat, ea
depinde de timp şi de covariabile x1, x2, …xn.
h0 (t )  funcţia hazard de bază depinde doar de timp.
g ( x1 , x2 ,...xn )  funcţia ce exprimă efectul covariabilelor nu depinde de timp.
Funcţia g poate avea diferite forme de exemplu: liniară, exponenţială etc.

Modelul Cox defineşte funcţia g ca fiind de tip exponenţial:


 n 
g ( x)  exp   b j  x j  , unde bj sunt coeficienţii ce trebuie determinaţi iar xj
 j 0 
 
covariabilele implicate în model.
Funcţia hazard de bază (h0(t)) determină forma în timp a evoluţiei hazardului iar
funcţia g(x1,…xn) determină doar amplitudinea şi depinde doar de valorile iniţiale
incluse în variabilele xi. Timpul este inclus doar în funcţia hazard de bază.

Ce înseamnă de fapt această formă proporţională a hazardului ?


Presupunem că avem două cazuri: A cu valorile x1a, x2a ….xna, respectiv B cu
valorile x1b, x2b ….xnb.
174
BIOSTATISTICA

Un posibil exemplu medical ar fi studiul comparativ a două metode de


imunoterapie împotriva unei tumori maligne a pielii. Se foloseşte o anumita modalitate
pentru mărirea duratei de remisiune ceea ce are efect pozitiv asupra timpului de
supravieţuire. Se observă că vârsta, sexul, stadiul iniţial al bolii, durata de remisiune şi
evident, tratamentul aplicat pot fi considerate covariabile în studiul timpului de
supravieţuire.
În cele ce urmează utilizăm următoarele notaţii: vârsta cu x1, sexul cu x2, stadiul
bolii cu x3 şi durata de remisiune cu x4. Vom avea două grupuri, presupuse a fi diferite,
de comparat, funcţie de tratamentul aplicat.
Pentru pacientul A funcţia hazard este de forma:
 n 
hA (t )  h(t x1a , x2a ...xna )  h0 (t )  g ( x1a , x2a ,...xna )  h0 (t )  exp   b j  x ja  .
 j 0 
 
Prin x1a se înţelege vârsta pacientului A, x2a sexul şi aşa mai departe. În concluzie,
funcţia g pentru pacientul A este o constantă în timp, la fel pentru pacientul C, D, etc.
Pentru pacientul B (care are altă vârstă, stadiu iniţial, … etc.):
 n 
hB (t )  h(t x1b , x2b ...xnb )  h0 (t )  g ( x1b , x2b ,...xnb )  h0 (t )  exp   b j  x jb  .
 j 0 
 

Dacă facem raportul celor două funcţii hazard obţinem o valoare constantă ce
depinde doar de starea iniţială a pacienţilor. În concluzie, pentru două cazuri, raportul
funcţiilor hazard este constant în timp – modelul hazardului proporţional.
 n 
exp   b j  x ja 
 j 0 
h A (t )
    raport ce este constant în timp.
hB (t )  n 
exp   b j  x jb 
 j 0 
 
Determinarea coeficienţilor bj reprezintă o problemă de analiză matematică şi se
bazează pe estimarea acestora prin metoda verosimilităţii maxime (maximum
likelihood estimator).
Variabilele x1,….xn pot fi de tip continuu, discret sau categorial. Acesta reprezintă
un avantaj ce dă generalitate maximă modelului regresional utilizat.
Metoda Cox este extinsă şi pentru covariabile xj ce depind de timp – acestea se
introduc într-o manieră specială ca o funcţie de timp. De exemplu, în loc de x4 putem
scrie t x4 sau exp(t+2)x4. Trebuie însă să avem cunoştinţe despre presupusa relaţie
între timp şi covariabila implicată.

Există legătură între hazard şi funcţia de supravieţuire după cum a fost prezentată
anterior:

175
BIOSTATISTICA

 t  n  
S A (t )  exp    ho (t )  exp   b j  x ja dt  este deci o legătură exponenţială
 
 o  j 0  
negativă.
Nu pare foarte intuitivă acesta formulă însă exponentul negativ arată că legătura
este invers proporţională (dependenţă care era aşteptată între supravieţuire şi rata
condiţionată de deces).

Dacă condiţia de proporţionalitate a hazardului nu este îndeplinită, atunci se poate


defini acea variabilă ca fiind de stratificare şi astfel se calculează alte funcţii hazard de
bază pentru categoriile prezente. Coeficienţii bj vor rămâne aceeaşi în formula
hazardului, modificându-se doar h0(t).
Cazurile cenzurate ajută doar la determinarea funcţiei hazard de bază nu şi la
aflarea coeficienţilor bj.
Pentru coeficienţii de regresie bj, este important să se calculeze semnificaţia lor
statistică, deci influenţa covariabilei în model trebuie verificată. Dacă semnificaţia
calculată nu este sub 0,05, atunci acea covariabilă are efect întâmplător, deci poate fi
eliminată din analiză.

Interpretarea coeficienţilor de regresie se face într-un mod intuitiv prin valoarea


lor exponenţială, exp(bj). Aceasta arată valoarea prezisă a modificării valorii funcţiei
hazard pentru o creştere cu o unitate a covariabilei.
Variabile:
a) – Pentru variabila de tip dicotomic (de exemplu sexul, notat cu 1-masculin,
respectiv 0-feminin). Dacă obţinem valoarea exp(bsex)=1,72, atunci funcţia
hazard pentru cei de sex masculin (codificaţi cu 1) este de 1,72 ori mai mare
faţă de cei de sex feminin (codificaţi cu 0). Astfel, interpretăm că bărbaţii sunt
mai expuşi riscului de a deceda faţă de femei. Interpretarea raportată la riscul
relativ este corectă. Putem deci afirma că riscul estimat de deces este de 1,72
ori mai mare la bărbaţi faţă de femei.
b) – Pentru variabila de tip discret. Putem avea o covariabilă ce măsoară timpul
în luni de aplicare a terapiei. Valoarea exponenţială exp(bterapie) obţinută este
0,94. Aceasta arată că funcţia hazard este redusă cu 100%-100*0,94 = 6%
pentru prima lună de terapie susţinută de pacient. Astfel, pentru un pacient ce
a făcut terapie 3 luni avem o reducere cu 100% - 100  0,94  16,94% a
3

valorii funcţiei hazard. În concluzie, funcţia hazard este redusă cu un procent


ce poate fi determinat din valoarea coeficientului de regresie pentru o anumită
schimbare a covariabilei implicate.

Modelul Cox este foarte important în practică, deoarece ajută la identificarea


factorilor de pronostic în studiul supravieţuirii. Pentru compararea evoluţiei procesului
studiat, funcţie de diferite tratamente sau mai general, funcţie de diferite criterii de
grupare, există teste speciale (ce apelează distribuţia Chi pătrat).

176
BIOSTATISTICA

Exemplu SPSS – studiu de supravieţuire


În cadrul unui studiu asupra funcţiei renale ne interesează analiza timpului de
declanşare a insuficienţei renale terminale. Acest stadiu este caracterizat de atingerea
unei valori a cleareance’ului de creatinină sub 15 ml/min/1,73 m2 (notat ClCr). Sunt
luate în calcul doar cazurile în care evoluţia a fost negativă în sensul scăderii valorii
ClCr.
Evenimentul studiat reprezintă scăderea valorii ClCr sub nivelul de 15. Acesta va
fi notat cu 1. Cazurile cenzurate vor fi codificate cu 0 şi reprezintă pacienţii pierduţi
din studiu sau cei a căror valoare ClCr nu a scăzut sub 15 pe perioada studiului.
Se propun următoarele covariabile ce pot afecta evoluţia timpului:
1 – diagnosticul bolii de bază (DG1).
2 – durata HTA în intervalul studiat, măsurată în luni.
3 – afectarea cardiacă la debut.
4 – vârsta la debut (ani).
Diagnosticul bolii de bază este de tip dicotomic : notat 1 – GNC
(glomerulonefrită), 2 – malf R (malformaţii renale).
Afectarea cardiacă este tot de tip dicotomic, marcată prin Da, respectiv Nu.
Pentru lansarea analizei de supravieţuire se urmează paşii : Analyze + Survival +
Cox Regression…
Se obţine fereastra din figura de mai jos ce trebuie încărcată cu informaţie.

Figura 2.12 13 – Metoda Cox – SPSS


aceste exemple sunt preluate din studiul doctoral “Hipertensiunea arterială secundară la
copil” cu permisiunea autoarei Dr. Cristina Gavrilovici.
177
BIOSTATISTICA

Timpul este măsurat în luni şi reprezintă durata din momentul diagnosticării până
la atingerea insuficienţei renale terminate.
Statusul este exprimat (după cum s-a menţionat deja) de variabila ce defineşte
evenimentul cenzură, respectiv evenimentul studiat. Codificarea este 0 pentru cenzură,
respectiv 1 pentru evenimentul ClCr≤15.
Covariabilele propuse şi utilizate în acest fişier sunt: Vârsta (de tip numeric
discret), Diag_c (diagnosticul codificat 0,1), Afect_card (afectarea cardiacă de tip
dicotomic) şi Durata_HTA (discretă exprimată în luni).

Figura 2.12 14 – Metoda Cox – SPSS. Definirea variabilelor categoriale.


Deoarece variabilele de tip categorial sunt tratate separat este nevoie să le definim
aşa cum se prezintă în figura de mai sus.
Pentru reprezentarea grafică programul propune mai multe variante dar cele de
bază, obligatorii sunt funcţia de supravieţuire şi funcţia hazard.

Figura 2.12 15 – Metoda Cox – SPSS. Definirea reprezentărilor grafice.


Opţiunile sunt de un real folos iar intervalul de confidenţă al coeficienţilor bj
calculaţi prin funcţia exponenţială sunt strict necesari.
178
BIOSTATISTICA

Figura 2.12 16 – Metoda Cox – SPSS. Definirea opţiunilor

Interpretarea rezultatelor.
Primul tabel prezintă informaţii despre componenţa lotului sau eşantionului de
studiu.
Tabelul 2.12 6 – Case Processing Summary
N Percent
Cases available in Event(a) 300 57.1%
analysis Censored 225 42.9%
Total 525 100.0%
Cases dropped Cases with missing values 0 .0%
Cases with negative time 0 .0%
Censored cases before the
0 .0%
earliest event in a stratum
Total 0 .0%
Total 525 100.0%
În total avem 525 de cazuri, din care 225 sunt cenzuri iar restul de 300 sunt
pacienţi ce au evenimentul studiat realizat. Cazurile cenzurate nu au ajuns în
insuficienţă renală terminală în perioada de timp cât au fost studiate. Nu există
elemente eliminate din studiu. Dorim să amintim, cazurile cenzurate se folosesc doar la
determinarea funcţiei hazard de bază.
Tabelul 2.12 7 – Categorical Variable Codings(b,c)
Frequency (1)
Afect_Card(a) da 285 1
nu 240 0
Diag_c(a) 1=GNC 330 1
2=malf R 195 0
a Indicator Parameter Coding
b Category variable: Afect_Card (Afectare Cardiaca)
c Category variable: Diag_c (Diagnostic codificat)
Variabilele categoriale sunt codificate iar corespondenţa codurilor este prezentată
în tabelul alăturat. Este foarte importantă această codificare deoarece reprezintă baza
179
BIOSTATISTICA

de interpretare a rezultatelor. Implicit, referinţa este considerată ultima categorie. În


cazul nostru aceasta este cea notată cu 0, iar pentru afectarea cardiacă este cea
corespunzătoare valorii lingvistice „nu”, respectiv „malf R” pentru diagnostic.

Tabelul 2.12 8 – Variables not in the Equation(a)


Score df Sig.
Varsta 108.805 1 .000
Diag_c 7.504 1 .006
Afect_Card 10.761 1 .001
Durata_HTA 22.517 1 .000
a Residual Chi Square = 164.134 with 4 df Sig. = .000

Iniţial se calculează efectul fiecărei covariabile în cadrul modelului. Este blocul de


start în calcul. Dacă există semnificaţie statistică se decide că acele date (Varsta,
Afect_Card,..) sunt utile şi sunt introduse în calcul. Pentru semnificaţii egale se începe
cu acel element ce are valoarea scorului maximă.
În cazul nostru prima covariabilă introdusă în model este „Vârsta” conform
tabelului de mai sus (are semnificaţie statistică şi scor maxim).
Crearea modelului este un proces iterativ prin care se introduc una câte una
covariabilele ce au influenţă în determinarea timpului de supravieţuire analizat.

Tabelul 2.12 9 – Omnibus Tests of Model Coefficients(e,f)


Change From Change From
-2 Log Overall (score) Previous Step Previous Block
Step Likelihood Chi- Chi- Chi-
square df Sig. square df Sig. square df Sig.
1(a) 3252.118 108.805 1 .000 132.373 1 .000 132.373 1 .000
2(b) 3233.921 133.857 2 .000 18.198 1 .000 150.571 2 .000
3(c) 3218.216 156.793 3 .000 15.704 1 .000 166.275 3 .000
4(d) 3212.586 164.134 4 .000 5.630 1 .018 171.906 4 .000
a Variable(s) Entered at Step Number 1: Varsta
b Variable(s) Entered at Step Number 2: Durata_HTA
c Variable(s) Entered at Step Number 3: Afect_Card
d Variable(s) Entered at Step Number 4: Diag_c
e Beginning Block Number 0, initial Log Likelihood function: -2 Log likelihood: 3384.492
f Beginning Block Number 1. Method = Forward Stepwise (Likelihood Ratio)

Următorul bloc de calcul prezintă înlănţuirea înainte prin introducerea variabilelor


şi calculul semnificaţiei modelului creat pas cu pas. Ordinea de introducere este
conform scorului obţinut şi este prezentată în tabelul 2.12 9: Vârsta, Durata_HTA,
Afect_Card şi Diag_c. Se observă că semnificaţia statistică există atât pentru scorul
total cât şi pentru schimbarea secvenţială, pas cu pas.
Astfel putem afirma că respectivele covariabile alese au influenţă asupra
modelului căutat.

180
BIOSTATISTICA

Tabelul 2.12 10 – Variables in the Equation


95.0% CI for
B SE Wald df Sig. Exp(B) Exp(B)
Lower Upper
Step 1 Varsta .222 .022 99.886 1 .000 1.249 1.196 1.305
Step 2 Varsta .207 .022 92.278 1 .000 1.229 1.179 1.282
Durata_HTA
-.020 .005 16.120 1 .000 .980 .971 .990

Step 3 Varsta .204 .020 101.175 1 .000 1.227 1.179 1.276


Afect_Card -.530 .133 15.946 1 .000 .588 .453 .763
Durata_HTA -.019 .005 16.435 1 .000 .981 .972 .990
Step 4 Varsta .201 .020 99.484 1 .000 1.223 1.176 1.272
Diag_c -.308 .129 5.683 1 .017 .735 .571 .947
Afect_Card -.443 .138 10.254 1 .001 .642 .490 .842
Durata_HTA -.021 .005 17.524 1 .000 .979 .970 .989
În continuare se prezintă valorile coeficienţilor bi, eroarea standard (SE), statistica
Wald, semnificaţia statistică, valorile exponenţiale ale coeficienţilor şi intervalul de
variaţie cu 95% confidenţă.
Dacă statistica Wald este semnificativă atunci rezultă că acel element este util
modelului. Observăm că toate valorile sunt semnificative statistic.

Interpretarea coeficienţilor B (notaţi cu bj în formulele matematice)


Pentru variabile de tip continuu valoare exp(b)<1 indică faptul că o creştere a
valorilor covariabilei respective duce la o creştere a timpilor de supravieţuire. Dacă
exp(b)>1, atunci creşteri ale covariabilei duc la descreşteri ale timpilor de
supravieţuire.
Iată pentru vârstă (valoarea exponenţială este 1,223) deducem că odată cu mărirea
acesteia scad timpii de supravieţuire renală, deci se ajunge mai repede la insuficientă
renală totală (IRT). De asemenea prin faptul că valoarea coeficientului b corespunzător
(0,201) este pozitivă decidem că riscul de a ajunge in IRT creşte odată cu vârsta.
Pentru un an de creştere în vârstă hazardul cumulat creşte cu valoarea absolută din
100%-(100*1,223)=22,3%. Pentru 3 ani creştere în vârstă mărirea hazardului este

100%  100 * 1,2233  = 82,9%. Aşadar şi riscul creşte.
Pentru durata HTA, variabilă discretă, efectul este contrar. Valoarea coeficientului
este negativă (-0,021). Riscul de a ajunge în IRT scade odată cu creşterea duratei HTA.
Această legătură din punct de vedere medical nu era previzibilă. Trebuie să ţinem cont
că aceşti pacienţi au fost trataţi atât pentru hipertensiune cât şi pentru recuperarea
funcţiei renale, poate de aceea rezultatele nu sunt cele aşteptate.
Pentru variabile dicotomice diagnosticul este codificat cu 1 pentru GNC, respectiv
0 pentru malformaţii renale. Riscul de a intra în IRT este de 0,735 (valoarea
exponenţială) ori mai mic în GNC decât in malf R. Altfel spus, de 1/0,735 = 1,36 ori
mai mare pentru cazurile malf R.
181
BIOSTATISTICA

În concluzie, fiecare coeficient are o valoare ce descrie relaţia dintre hazard sau
supravieţuire şi covariabila respectivă.
Se prezintă de asemenea intervalele de confidenţă. Dacă aceste au limitele
apropiate de valoarea 1, atunci influenţa lor în model este mică. Poate un număr mai
mare de date ar aduce informaţie suplimentară utilă în dezvoltarea cât mai performantă
a sistemului de regresie pentru supravieţuire.
În final se prezintă atât graficele funcţiei de supravieţuire cât şi a hazardului.

Figura 2.12 17 – Funcţia de supravieţuire.

Figura 2.12 18 – Funcţia hazard.

182
BIOSTATISTICA

2.13. CALITATEA EXAMENULUI DIAGNOSTIC

Introducere
Un examen diagnostic are drept scop determinarea stării de sănătate a unui pacient
prin indicarea cu o probabilitate cât mai mare a prezenţei sau absenţei unei anumite
maladii. Se calculează astfel probabilitatea post-test de existenţă a bolii, care depinde
de anumiţi parametri ce definesc calitatea examenului diagnostic.
Sensibilitatea şi specificitatea caracterizează calitatea examenului diagnostic.
Legătura prezentă între sensibilitate şi specificitate este materializată prin curba ROC,
ce permite compararea testelor dar şi determinarea optimului examenului diagnostic.
Funcţie de pragul ales în sistemul de decizie se deduc valorile sensibilităţii şi
specificităţii. Acest prag poate fi modificat şi se acceptă un compromis între cei doi
indicatori, datorită legăturii invers proporţionale existente.
Valorile predictive pozitive şi negative ne dau informaţii despre eficienţa
semnului ca element de decizie. Sunt descrise legăturile existente între aceşti
indicatori, avantajele, dezavantajele cât şi compromisul acceptat în alegerea pragului
testului.
Sensibilitate, Specificitate
Pentru estimarea calităţii unui test diagnostic, acesta se compară de obicei cu un
etalon sau standard de aur în vederea determinării prezenţei maladiei. Se realizează
astfel tabelul de contingenţă cu cele 4 situaţii posibile ale examenului diagnostic.
Tabelul 2.13 1 – Tabelul de contingenţă : test diagnostic/maladie prezentă
Maladie
Prezentă ( M ) Absentă ( M ) Total
Pozitiv Adevărat Pozitiv Fals Pozitiv a+b
diagnostic

S (a) (b)
Test

Negativ Fals Negativ Adevărat Negativ c+d


S (c) (d)
Total a+c b+d a+b+c+d

Se foloseşte notaţia: AP – adevărat pozitiv, AN – adevărat negativ, FP – fals


pozitiv, FN – fals negativ. Valorile a, b, c şi d reprezintă frecvenţe absolute.
Pe diagonala principală a tabelului 2.13 1 avem valorile detectate ca adevărate,
pozitive şi negative iar pe diagonala secundară avem valorile false pozitive şi negative.

Sensibilitatea testului este raportul dintre determinările adevărat pozitive şi


numărul total de bolnavi existenţi în studiu. În situaţia în care volumul eşantionului
este destul de mare, valoarea raportului tinde către probabilitatea de a avea un test
pozitiv din grupul de bolnavi.
183
BIOSTATISTICA

a
Formula de calcul este : Se  . Aceasta este o estimare punctuală a
ac
indicatorului de sensibilitate (se mai numeşte şi rata de pozitivi adevăraţi, True
Positive Rate - TPR).
Există situaţii în care testul diagnostic se rezumă doar la existenţa sau nu a unui
semn (notat S). Putem face apel la teoria probabilităţii pentru a exprima sensibilitatea.
Avem astfel: Se  TPR  PS / M  - probabilitatea de a avea semnul S în condiţia
existenţei maladiei M, sau probabilitatea lui S condiţională de M. Sensibilitatea arată
capacitatea testului de a identifica prezenţa maladiei.
Rata de falşi negativi (False Negative Rate) se calculează cu formula:
 
FNR  P S / M . Aceasta exprimă probabilitatea de a nu avea semnul S (deci
existenţa negaţiei notată S ) în condiţia existenţei maladiei M. Raportul c/(a+c) va
 
tinde către P S / M pentru un număr de bolnavi suficient de mare.
Se respectă condiţia TPR+FNR=1. Acestea au fost deduse făcând analiza pe
coloana 1 a tabelului.
Specificitatea testului tinde către probabilitatea de a avea testul negativ atunci
d
când maladia este absentă. Formula de calcul este: Sp  .
bd
Sp reprezintă o estimare a probabilităţii ce exprimă absenţa semnului S la
populaţia sănătoasă. Se mai numeşte şi rata de negativi adevăraţi (True Negative Rate
- TNR). Este probabilitatea lui S condiţionată de M . Avem astfel:

Sp  TNR  P S / M . 
Specificitatea măsoară capacitatea testului de a determina lipsa maladiei.
Rata de falşi pozitivi (False Positive Rate) este FPR=b/(b+d). Astfel suma
Sp+FPR este egală cu 1.
Sensibilitatea cât şi specificitatea depind de calitatea testului şi îl caracterizează.
Se şi Sp depind de puterea de discriminare a acestuia. Cu toate că în formula de calcul
apare condiţia de existenţă (M) sau de inexistenţă a bolii ( M ), Se şi Sp nu depind de
prevalenţa maladiei P(M).
De dorit este ca aceşti indicatori (Se, Sp) să atingă valori cât mai mari, ideal ar fi
valoarea 1. Dacă Sp=1, semnul (testul în forma cea mai simplă) este denumit
patognomonic. În această situaţie nu există falşi pozitivi, deci semnul nu este observat
la persoanele sănătoase sau mai bine zis la persoanele ce nu suferă de maladia studiată.

Estimarea intervalului de încredere pentru Se şi Sp


În cazurile reale de studiu lucrăm cu un eşantion, deci un subgrup din cadrul
populaţiei. Informaţia astfel obţinută este parţială şi cuprinde şi o deviaţie datorată
hazardului existent. Aşadar este impropriu să lucrăm cu valori punctuale ale
parametrilor. În concluzie, este necesară o estimare cu o anumită încredere a valorilor

184
BIOSTATISTICA

calculate pe un interval. Nivelul de încredere definit ca suficient în majoritatea


cazurilor este de probabilitate 95% şi în mod corespunzător, riscul sau nivelul de
semnificaţie este de 5%, anume p=0,05 (în unele lucrări notat şi cu α).
Se  (1  Se)
Intervalul de încredere pentru sensibilitate: Se  Z ( / 2)  .
ac
Pentru specificitate, limitele intervalului de încredere se calculează astfel:
Sp  (1  Sp)
Sp  Z ( / 2)  .
bd
Valoarea tabelată Z ( / 2) este abscisa distribuţiei Gauss─Laplace pentru care
riscul este simetric, de valoare totală α. Pentru o încredere în test de 95%, deci un nivel
de semnificaţie de 5% valoarea Z(0,05/2) este 1,96. Conform cu tabelul 2.13 1, a+c
reprezintă numărul de bolnavi iar b+d numărul de non-bolnavi.
Aceste formule sunt valabile doar în situaţia în care volumul eşantionului de
studiu este suficient de mare. Aceasta se poate verifica testând condiţiile:
1 – produsul dintre sensibilitate şi numărul de bolnavi să fie mai mare decât 5
2 – produsul dintre specificitate şi numărul de non-bolnavi să fie mai mare decât 5.

Intervalul de încredere ajută la compararea a două examene de diagnostic. Un test


este mai performant faţă de altul, dacă atât sensibilitatea cât şi specificitatea sunt mai
mari. Evident, comparaţia nu se poate realiza punctual. Trebuie ţinut cont de variaţia
datorată hazardului existent în fenomenele şi experienţele reale. Diferenţa prin valorile
punctuale deduse se poate datora hazardului şi nu faptului că cei doi indicatori sunt
inegali. Prin calculul şi compararea intervalului de variaţie a sensibilităţii şi a
specificităţii cu încredere de 95% se poate deduce dacă există diferenţă statistic
semnificativă.
Pentru cele două teste vom deduce astfel două intervale de variaţie a sensibilităţii.
Dacă unul dintre intervale conţine valoarea punctuală a celuilalt test, atunci diferenţa
punctuală măsurată este datorată hazardului şi acceptăm ipoteza nulă, aşadar
sensibilităţile sunt egale.
În caz contrar, dacă unul dintre intervale nu conţine valoarea punctuală a celuilalt
test sau dacă intervalele sunt disjuncte, atunci există diferenţă statistic semnificativă şi
astfel putem considera indicatorii ca fiind diferiţi.
Verificarea egalităţii specificităţilor se face în acelaşi mod.

Legătura dintre sensibilitate şi specificitate – curba ROC

În determinarea diagnosticului unei persoane, tehnica deciziei medicale se


foloseşte de semne, simptome, valorile diferitelor măsurători pentru a defini în final
starea de sănătate a pacientului. Dacă există un singur semn într-una din etapele
deciziei medicale avem de realizat o analiză discriminantă după un singur factor.

185
BIOSTATISTICA

Funcţie de valorile factorului discriminant se pot realiza distribuţiile populaţiilor de


oameni sănătoşi şi ale celor bolnavi.
În figura 2.13 1 sunt prezentate două distribuţii generice notate cu A pentru
oamenii consideraţi sănătoşi respectiv cu B pentru cei bolnavi. Funcţie de pragul ales în
tehnica de decizie (notat cu P) se vor obţine diferite valori ale sensibilităţii şi
specificităţii.
f(x) reprezintă densitatea de probabilitate a celor două populaţii.
S este semnul considerat ca factor discriminant.
A, B sunt cele două distribuţii considerate de tip Gauss-Laplace.
Folosind metoda deductivă, dacă valoarea semnului S va fi mai mare ca cea a
pragului P se va considera că pacientul este bolnav, iar dacă S<P conchidem că
persoana este sănătoasă.
0.6
f(x) A
0.5

0.4 B
0.3

0.2

0.1

0
0 P2 P P1

Figura 2.13 1 – Pragul de decizie pentru cele două distribuţii de tip Gauss.

Datorită suprapunerii celor două distribuţii se vor efectua anumite erori în


determinarea diagnosticului, din cauza tocmai a intervalului comun. În această situaţie
pentru aceeaşi valoare a semnului S vor exista persoane sănătoase dar şi bolnave.
Sensibilitatea sau rata de pozitivi adevăraţi va fi egală cu suprafaţa cuprinsă sub
curba B şi limitată de dreapta determinată de pragul P (amintim că suprafaţa cuprinsă
sub curba densităţii de probabilitate reprezintă tocmai probabilitatea). Notăm această
suprafaţă cu SB.
Analog, specificitatea în interpretare geometrică, este egală cu suprafaţa de sub
curba A (persoane sănătoase) şi delimitată de pragul ales notat cu P. Notăm această
suprafaţă cu SA.
Modificând valoarea pragului de la P la P1 deci prin creştere, se observă o mărire
corespunzătoare a suprafeţei SA în defavoarea suprafeţei SB care se va micşora.
Altfel spus, creşterea specificităţii unui test prin modificarea pragului are ca efect
o scădere a sensibilităţii. În aceste condiţii nu se poate realiza o creştere a celor doi
indicatori, fiind nevoiţi în final să acceptăm un anumit compromis funcţie de situaţie
(ori mărim Sp ori mărim Se).
186
BIOSTATISTICA

Curba ROC (Receiver Operating Characteristic Curve) reprezintă legătura dintre


Se şi 1-Sp, pentru diferite valori a pragului P (prezentată în figura 2.13 2).

Figura 2.13 2 – Curba ROC.


Se Pentru Se=1, dacă şi Sp ar putea fi egală
(0;1) (1;1)
cu 1, atunci cele două densităţi de probabilitate
nu s-ar suprapune şi astfel, factorul S ar avea
X putere discriminantă maximă. Practic, nu ar
exista erori în determinarea diagnosticului.
Pentru curba prezentată, un optim este
(1;0) marcat cu X şi este caracterizat de o
(0;0) sensibilitate cât şi de o specificitate cât mai
1-Sp
mari, dar mai mici ca 1. Punctul X este cel mai
apropiat de valorile ideale ce se realizează în punctul de coordonate (0;1).
Puterea de discriminare este cu atât mai mare cu cât punctul X se apropie de
optimul global (0;1).
Cu cât graficele celor două densităţi de probabilitate se apropie mai mult şi se
suprapun mai mult (avem mai multe erori fig 2.13 1), cu atât curba ROC se apropie de
bisectoarea din cadranul 1 iar punctul X se depărtează de punctul optim absolut de
coordonate (0;1).
Compararea calitativă a celor două sau mai multe teste de diagnostic se poate
realiza şi prin studierea curbelor ROC corespunzătoare. Dacă acestea nu au puncte de
intersecţie, atunci testul diagnostic a cărui curbă le înfăşoară pe celelalte este cel mai
performant. Suprafaţa cuprinsă sub curba ROC a testului cu putere de discriminare
maximă este cea mai mare.

Valoare predictivă
Odată cunoscut rezultatul testului, este util să se calculeze probabilitatea
aposterioară (post-test) a maladiei. Prin realizarea testului se câştigă informaţie ce are
influenţă asupra detecţiei bolii respective.
Probabilitatea ca un individ care prezintă semnul S să fie afectat de maladie este
a
valoarea diagnostică sau valoarea predictivă pozitivă (VPP), VPP  (estimare
ab
P( M  S )
punctuală). VPP  P( M / S )  . (1)
P( S )
Conform teoremei probabilităţii totale putem exprima probabilitatea semnului S
funcţie de prezenţa evenimentului M astfel:
P(S )  P(M )  P(S / M )  P(M )  P(S / M ) . (2)
Probabilitatea intersecţiei evenimentelor S şi M poate fi exprimată prin:
P( S  M )
P( S / M )   P( S  M )  P( S / M )  P( M ) . (3)
P( M )
187
BIOSTATISTICA

Ţinând cont de acestea valoarea predictivă pozitivă devine:


P( M )  P( S / M )
VPP  . (4)
P( M )  P( S / M )  P( M )  P( S / M )
Folosind formulele sensibilităţii şi specificităţii valoarea diagnostică se va calcula
P( M )  Se
cu formula (5): VPP  . (5)
P( M )  Se  1  P( M )   1  Sp 
Valoarea predictivă negativă (VPN) reprezintă probabilitatea ca un individ care nu
prezintă semnul să nu prezinte nici boala. Asemănător putem deduce formula de calcul
ce arată legătura între VPN, Se şi Sp: VPN 
1  P(M )  Sp . (6)
1  P(M )  Sp  P(M )  1  Se
d
Estimarea punctuală fiind: VPN  .
cd
Observaţii
 Sensibilitatea şi specificitatea sunt indicatori ce caracterizează testul diagnostic.
Acestea se exprimă matematic ca probabilităţi condiţionate de existenţa (M) sau
inexistenţa ( M ) maladiei.
 Cu toate acestea Se cât şi Sp nu depind de prevalenţa bolii, deci de probabilitatea
P(M).
 Valorile maxime Se=1 şi Sp=1 se pot obţine în situaţia în care cele două distribuţii
nu se suprapun şi astfel puterea discriminantă a factorului este maximă.
 Legătura dintre Se şi Sp depinde de alegerea pragului de decizie. Această
dependenţă este reprezentată grafic de curba ROC. Creşterea simultană a celor
doi indicatori nu este posibilă datorită dependenţei invers proporţionale
existente. Se impune astfel acceptarea unui compromis în alegerea unei
sensibilităţi, respectiv a unei specificităţi crescute.
 Dacă avem specificitate maximă (Sp=1), rezultă că nu există falşi pozitivi astfel
încât valoarea diagnostică devine maximă (VPP=1, aceasta se observă din
înlocuirea Sp=1 în ultima formulă a VPP). Cu alte cuvinte, dacă testul este
pozitiv atunci persoana este sigur bolnavă.
 În situaţia în care Se=1-Sp valoarea diagnostică VPP devine egală cu prevalenţa
P(M). In concluzie, P(M / S )  P(M ) . Condiţia impusă de existenţa semnului
S nu are efect şi probabilitatea post-test este egală cu prevalenţa bolii. Se decide
astfel că semnul S nu are influenţă asupra bolii respective, aşadar nu este un
factor discriminant.
 Evaluarea semnului în testul diagnostic se realizează cu ajutorul valorilor
predictive. Semnul S1 este mai potrivit decât semnul S2 dacă VPP(S1) > VPP(S2)
şi VPN(S1) > VPN(S2).
 Dacă avem două teste diagnostice, unul caracterizat de sensibilitate mare iar
celălalt de specificitate mare, atunci o utilizare în serie (cascadă) a acestora va
duce la creşterea calităţii diagnostice pe ansamblu.

188
BIOSTATISTICA

Realizarea curbei ROC , calculul Se şi Sp în SPSS


Pentru analiza calităţii unui test de diagnostic trebuie să avem creat un tabel de
date ce să cuprindă două coloane cu următoarele informaţii:
1 – valoarea ideală a testului (exprimă prezenţa maladiei, codificată de obicei cu 1
respectiv 0)
2 – valorile de tip continuu (sau chiar discret) ce reprezintă evaluarea testului.
Presupunem că avem un set de date ce conţine informaţii despre prezenţa sau nu a
unei maladii pentru cazurile studiate. Avem coloana maladie (codificarea 1 – prezentă
respectiv 0 - absentă) determinată printr-o procedură gen standard de aur. A doua
coloană reprezintă scorul testului nostru şi este de tip discret între 1 şi 10.
Se pune problema aflării pragului decizional optim, calcularea sensibilităţii,
specificităţii şi determinarea semnificaţiei statistice. Semnificaţia statistică ne va arăta
dacă testul folosit este util prin compararea rezultatelor obţinute cu un sistem de
decizie aleatoriu bazat doar pe factorul întâmplător.
În SPSS vom urma paşii de lansare în execuţie a analizei: Analyse+ROC Curve...
Se va prezenta grafic curba ROC şi tabelele cu valorile calculate.
Tabelul 2.13 2
Area Under the Curve
Test Result Variable(s): Scor Test
Area Std. Error Asymptotic Sig. Asymptotic 95% Confidence Interval
Lower Bound Upper Bound Lower Bound Upper Bound Lower Bound
.996 .001 .000 .994 .999
Tabelul 2.13 2 prezintă valoarea semnificaţiei prin compararea suprafeţei de sub
curbă cu valoarea de 0,5 sau 50% pentru situaţie aleatorie. Suprafaţa pentru exemplul
dat are valoarea 0,996 foarte apropiată de valoarea ideală 1. Semnificaţia este de sub 1
la mie ceea ce arată că testul este util în determinarea diagnosticului.
Menţionăm că suprafaţa maximă cuprinsă sub curba ROC este de valoare 1
deoarece este un dreptunghi de latură 1 în cazul ideal (figura 2.13 2).

Tabelul 2.13 3 Se calculează de asemenea


Test Result Variable(s): Scor Test sensibilitatea şi 1-specificitatea
Positive if pentru diferite valori ale pragului de
Greater Than decizie (parţial prezentat în tabelul
or Equal To(a) Sensitivity 1 - Specificity 2.13 3).
3.50 .993 .024
4.50 .988 .017 Pentru datele analizate se
5.50 .973 .015 deduce o valoare optimă a pragului
6.50 .968 .012 ca fiind 6,5. Sensibilitatea cât şi
7.50 .952 .003 specificitatea au valori mari:
8.50 .066 .000
Se=0,968
Sp=1-0,012=0,988

189
EPIINFO 3.3.2 - 2005

3. EPIINFO 3.3.2 – 2005


Este unul dintre programele de statistică cel mai utilizat în domeniul medical. Sunt
cunoscute versiunile EpiInfo 5.00 lansată în aprilie 1990, EpiInfo 6 actualizată în
forma 6.04b în ianuarie 1997 şi versiunea EpiInfo 2000 lansată în iunie 2000, fiind
dedicată mediilor de operare Windows 95, 98, NT şi Windows 2000. Actualmente s-au
adus îmbunătăţiri şi s-a ajuns la versiunea 3.3.2 din februarie 2005, evident cu
funcţionare sub Windows XP.
Acest soft a fost creat de Departamentul de Supraveghere a Sănătăţii Publice şi
Informatică al Oficiului de Epidemiologie şi Centrele de Prevenire şi Control ale
Bolilor din SUA.
Este prezentat pe internet la adresa: http://www.cdc.gov/epiinfo/, fiind tradus în
diferite limbi şi poate fi utilizat, copiat şi chiar distribuit gratuit.
Cu acest produs se pot realiza investigaţii profesionale în cadrul sănătăţii publice,
se pot gestiona baze de date, se pot analiza statistic şi reprezenta grafic datele.
Nu ne propunem să realizăm o descriere exhaustivă a acestui program, ci vom
prezenta elementele principale de interes, un studiu amănunţit putând fi realizat de
utilizator după însuşirea cunoştinţelor de bază.

3.1. Crearea unui chestionar


Pentru a putea introduce şi salva date în computer este necesar să creăm un proiect
ce să conţină o bază de date. Acesta este un fişier cu extensia MDB – Microsoft
Database. Proiectul poate memora şi programele de calcul dezvoltate de utilizator cu
scopuri predefinite. În conceptul relaţional de utilizare şi structurare a informaţiei, o
bază de date este formată din mai multe tabele în care informaţia se regăseşte după
anumite coloane (sau câmpuri) de legătură.
În cadrul folosirii acestui soft, tabelele sunt chestionare sau vizualizări (view- în
engleză). Astfel, prin crearea de chestionare de fapt se ataşează tabele unei baze de date
(sau proiect). Crearea unui chestionar constă în definirea coloanelor tabelului
corespunzător.

Lansarea în execuţie se poate face fie prin butonul Make View sau din meniul
principal urmând calea:
Programs + Make View (Questionnaire), ce este prezentată în figura de mai jos.

Prin această comandă se poate crea o nouă bază de date sau se poate deschide o
bază deja existentă. În cadrul acesteia se pot face modificări asupra chestionarelor
existente sau se pot crea noi tabele. Astfel, comanda MakeView este privită ca o
metodă de a defini sau edita baza de date dar şi de a crea sau edita fereastra de

190
EPIINFO 3.3.2 - 2005

interacţiune cu utilizatorul. Aceasta se aplică tuturor fişierelor ataşate proiectului


existent sau în curs de definire.

Numărul maxim admis de tabele în cadrul unui


proiect este de 1000. Totuşi, pentru buna gestionare a
datelor nu este indicat să se lucreze cu un număr mare
de tabele, ci se preferă crearea de proiecte separate.
Prin lansarea în execuţie a acestei comenzi se
deschide o nouă fereastră dedicată definirii
caracteristicilor coloanelor tabelelor în studiu.

Figura 3.1 1 - Lansarea în execuţie a definirii unui chestionar folosind


meniul.
Definirea coloanelor unui tabel constă în determinarea tipului de informaţie
necesară care să se potrivească cel mai bine cu scopul propus. De exemplu, pentru
numele persoanei se va defini un câmp identificat prin Nume, ce va fi de tip caracter şi
va avea lungimea de maxim 45 de caractere (am presupus că lungimea numelui nu
depăşeşte 45 de caractere).

Pentru crearea unui câmp se va apăsa butonul dreapta al mouse-ului în poziţia


dorită din cadrul chestionarului. În figura 3.1 2 este prezentată fereastra de definire a
câmpului.

Figura 3.1 2 – Definirea câmpului (coloanei) unui tabel.


191
EPIINFO 3.3.2 - 2005

În chestionar va apărea o întrebare la care utilizatorul trebuie să răspundă în


legătură cu informaţia cerută. Această întrebare se introduce în căsuţa de text multilinie
Question or Prompt şi va preceda informaţia ce va trebui introdusă. Pentru a crea un
aspect cât mai elegant se poate seta tipul de caracter folosit (font), stilul şi
dimensiunea, prin apăsarea butonului Font for Prompt.
Orice coloană a tabelului trebuie să fie identificată printr-un nume ce este ataşat
de program în mod automat, odată cu definirea întrebării, dar poate fi modificat de
utilizator după dorinţă prin căsuţa de text Field Name. Acest nume nu are voie să
înceapă cu un număr. Astfel, dacă întrebarea totuşi porneşte cu un număr, numele
câmpului automat va începe cu litera „N”.
Opţiunea Repeat Last încarcă automat ultima valoare a câmpului respectiv.
Aceasta se foloseşte de obicei în cazul în care datele se introduc ordonat după anumite
criterii (câmpul criteriu fiind repetat automat). De exemplu, numele unei ţări sau oraş
pentru introducerea pacienţilor ar fi util să se repete automat la o nouă înregistrare.
Evident, se poate modifica conţinutul căsuţei în orice moment.
Opţiunea Required implică necesitatea de a introduce informaţia în cadrul
câmpului creat, fiind marcată de un anunţ de tip MustEnter (ce se afişează în colţul
stânga jos atunci când suntem poziţionaţi pe câmpul respectiv). Dacă nu introducem
date în câmpul respectiv, atunci suntem atenţionaţi de următorul mesaj: Please enter
data; this field cannot be blank. Este foarte utilă această opţiune în situaţia în care
studiem de exemplu glicemia, este normal şi obligatoriu să introducem valoarea
numerică măsurată.
Opţiunea Read Only permite doar citirea datei nu şi modificarea ei. Aceasta ar fi
necesară în situaţia când se fac modificări într-o bază de date şi anumite câmpuri
trebuie protejate fiind introduse şi verificate anterior. Opţiunea nu poate fi folosită
simultan cu Required, deoarece acestea se exclud reciproc.
Opţiunea Soundex este specifică limbii engleze şi reprezintă o codificare specială
a coloanei de tip text astfel încât la căutarea de nume proprii care se citesc la fel, să se
ignore diferenţele de scriere. În acest fel numele "Smith" şi "Smyth" vor fi afişate în
eventuala căutării lui ,,Smith” sau ,,Smyth”.
În cadrul folosirii câmpurilor de tip numeric sau dată calendaristică este posibilă
specificarea domeniului acceptabil de valori prin activarea opţiunii Range şi definirea
limitelor minimă, respectiv maximă. Prin aceasta se elimină o parte din erorile posibile.
Dacă am introdus imagini în baza de date, opţiunea Retain image size impune
menţinerea dimensiunii originale a imaginii. Dacă există diferenţe între dimensiunea
cutiei imaginii şi imaginea in sine, acestea se vor observa în clar. Dacă imaginea este
mai mare atunci se va afişa doar o parte a acesteia în cutia de imagine.
Butonul de comandă Legal Values oferă posibilitatea definirii de valori legale
deci valori permise. De exemplu, mediul de provenienţă poate fi urban, rural sau
necunoscut. Ne-ar interesa să se afişeze în clar aceste variante. Pentru aceasta câmpul
trebuie să fie de tip text. Se activează butonul Legal Values se alege apoi Create New şi
în final, în tabelul apărut se introduc informaţiile dorite. Astfel, câmpul mediul de
provenienţă, va reprezenta o listă cu valorile definite.
192
EPIINFO 3.3.2 - 2005

Dacă dorim să prescurtăm anumite nume, să lucrăm folosind un anumit cod ce


trebuie făcut cunoscut utilizatorului atunci apelăm la butonul de comandă Comment
Legal. Acesta are o funcţie asemănătoare celui precedent permiţând introducerea de
valori legale urmate de comentariul necesar. Valoarea legală poate fi un număr sau un
caracter şi se desparte de comentariu prin semnul ,,-”. Astfel, sexul poate fi codificat
prin M-Masculin, F-Feminin şi N-Necunoscut.
Opţiunea Codes permite alegerea unei valori dintr-o listă şi umplerea automată a
unui alt câmp cu o valoare predeterminată. Se lucrează astfel cu două câmpuri sau
coloane ale tabelului. Primul primeşte codul principal iar al doilea este read only, deci
poate fi doar citit.
În situaţia în care se impune introducerea unui număr diferit de informaţii, spre
exemplu numele copiilor dintr-o familie, se va folosi
butonul Grid. Astfel se poate defini un tabel ce să
conţină numele şi vârsta copiilor din familie. Este de
remarcat că numărul de linii din cadrul tabelului este
diferit de la o înregistrare la alta, aşa cum numărul de
copii este diferit de la o familie la alta (asemănător
bazelor de date relaţionale). Acesta este sensul în care a
fost creată această comandă, tocmai pentru a putea lucra
cu elemente de informaţie ce diferă ca număr de la o
înregistrare (sau pacient) la alta.
Butonul Related View permite deschiderea unui alt
chestionar ce are legătură cu cel deschis iniţial. Se
foloseşte în baze de date relaţionale pentru completarea
informaţiei introduse.
Figura 3.1 3 – Fereastra de definire a paginilor unui chestionar.

Butonul Delete permite (aşa cum indică şi numele) ştergerea unei coloane din
cadrul tabelului creat.

În partea stângă a ferestrei de definire a chestionarului se află opţiuni de definire


de noi pagini şi de creare de programe specifice pentru calculul şi controlul datelor. În
figura 3.1 3 se află reprezentate aceste comenzi.
Dacă datele necesare de descriere a pacientului sunt în număr foarte mare şi nu
încap pe un ecran (sau pagină), atunci este necesar să definim o nouă foaie de lucru
folosind butonul Add Page.
Putem să înserăm o pagină nouă între altele deja existente sau putem să renunţăm,
prin ştergere, apelând la butonul Delete Page.

O facilitate deosebită se pune la dispoziţia utilizatorului prin butonul Program


care ne ajută la crearea de programe într-un mod interactiv. Aceasta presupune deja
cunoaşterea logicii de programare şi se adresează informaticienilor. Un exemplu util ar
fi ca la introducerea datei de naştere programul să calculeze automat vârsta pacientului.

193
EPIINFO 3.3.2 - 2005

3.2. Tipuri de câmpuri utilizate în definirea structurii unui tabel


Coloanele de lucru în cadrul tabelului trebuie definite ca tip, dimensiune şi de
asemenea trebuie specificate proprietăţi care deja au fost prezentate. Tipul unei
variabile (coloanele sau câmpurile sunt de fapt variabile) defineşte forma de memorare,
permite folosirea anumitor operatorii iar afişarea se realizează într-un stil specific.
Sunt permise următoarele tipuri de câmpuri de definire în cadrul unui tabel:
Text sau Text-majuscule (Text-Uppercase)
Permite folosirea a maxim 255 caractere alfabetice şi numerice. Opţiunea
Uppercase implică afişarea cu majuscule a textului respectiv, chiar dacă tastatura este
setată pe litere mici. Se utilizează de obicei pentru introducerea numelui, adresei etc.
Titlu/Etichetă (Label/Title)
Este folosit pentru a defini titlul chestionarului sau a introduce anumite etichete.
Este o constantă pe tot parcursul introducerii datelor.
Multilinie (Multiline)
Se utilizează pentru introducerea unei cantităţi mari de text (zeci, sute de pagini).
Este echivalentul tipului memo din limbajul de programare Visual FoxPro. Este
necesar în situaţia descrierii istoricului bolnavului sau a tratamentului aplicat.
Cantitatea maximă admisă se ridică la 2Gb de memorie.
Numeric (Number)
Permite folosirea valorilor numerice. Se poate defini chiar forma de afişare a
valorilor. Spre exemplu, folosind masca: ###.# se va afişa valoarea maximă 999.9 şi se
acceptă folosirea unei singure zecimale (amintim că în sistemul american punctul este
echivalent virgulei din sistemul numeric românesc).
Număr de telefon (Phone Number)
Specific introducerii numerelor de telefon. Există două tipuri predefinite care
necesită şi introducerea prefixului spre exemplu (###-###-####).
Data; Timp; Dată/Timp (Date; Time; Date/Time)
Aceste trei tipuri de câmpuri permit folosirea datei calendaristice, a orei cât şi a
celor două împreună. Există evident mai multe tipuri de afişare predefinite. Convenţia
este ca numărul de poziţii folosite să fie egal cu numărul de apariţii a codului specific.
Exemplu
Data codificată: MM-DD-YYYY va impune introducerea lunii pe două poziţii
(M-month), ziua tot pe două poziţii (D-day) şi anul pe patru (Y-year).
Pentru timp, forma: HH:MM:SS va permite introducerea orei, minutului şi a
secundei.
Căsuţă de marcaj (Check Box)
Prezintă doar două opţiuni materializate prin marcarea sau nu a obiectului grafic
afişat. Poate fi folosit în aceleaşi situaţii în care se foloseşte şi tipul logic. Exemplu de
buton de căsuţă de marcaj:

Figura 3.2 1.
194
EPIINFO 3.3.2 - 2005

Logic (Yes/No)
Este câmpul de tip logic ce acceptă doar două valori, după cum este şi
definit(Yes/No). Un exemplu clasic de utilizare constă în a marca dacă persoana
respectivă este sau nu căsătorită. Valoarea Yes este memorată cu 1 iar No cu 0. Atunci
când se creează coduri de control (check codes) se foloseşte codificarea „+” pentru Yes
respectiv „ – ” pentru No. Dacă nu se introduce un răspuns din cele două atunci se
interpretează ca valoare lipsă (missing).
Buton Opţiune (Option)
Prezintă mai multe opţiuni ce pot fi selectate de utilizator. Acestea se exclud
reciproc, astfel încât în orice moment poate fi marcată doar o singură opţiune dintr-un
grup definit. Exemplu de butoane opţiune:

Figura 3.2 2.

Buton de comandă (Command Button)


Permite lansarea în execuţie a unui program creat de utilizator cu un anumit scop.
Poate fi o legătură cu un fişier extern.
Imagine (Image)
Este o facilitate nouă a acestui program şi permite înserarea de imagini în cadrul
bazei de date. Necesitatea este evidentă în domeniul medical, putând memora imagini
radiografice, tomografice, cardiografice şi nu numai, ci orice fişier grafic de interes.
Este un câmp din baza de date. Tipuri de fişiere imagine recunoscute: GIF (graphics
interchange format), JPG (joint photographic expert group)sau JPEG, BMP (Windows
bitmap format), ICO (Windows icon file format), WMF (Windows metafile format),
EMF (Windows enhanced metafile format).
Oglindă (Mirror)
Este o variabilă ce poate fi prezentată pe mai multe pagini „ca un ecou”. De
exemplu, numărul personal de identificare poate apare pe mai multe pagini ale
aceluiaşi pacient, dar are valoare doar de citire (read only).
Grilă (Grid)
Acest tip de câmp acceptă definirea unui nou tabel ce se află în legătură cu tabelul
în lucru. Avantajul constă în posibilitatea introducerii pentru fiecare înregistrare
(pacient, sau element) a mai multor linii în grila nou ataşată. Exemplul în care s-a
realizat definirea familiei cu mai mulţi copii a fost discutat în unul din paragrafele
precedente.
Relaţie (Relate)
Se creează un buton ce prin acţionare permite activarea unui alt chestionar.
Aceasta este echivalent cu a activa o relaţie dintre două tabele.

195
EPIINFO 3.3.2 - 2005

După definirea şi salvarea chestionarelor se vor introduce datele specifice fiecărui


pacient în studiu. Pentru aceasta se va aplica comanda Enter, urmată de deschiderea
bazei de date (a proiectului) şi apoi a chestionarului dorit.

Exemplu de creare a unui chestionar


Presupunem că dorim să introducem datele personale ale pacienţilor în următoarea
formă cerută de serviciul de internare: Nume-prenume, cod numeric personal (CNP),
sexul, data naşterii, starea civilă şi informaţia legată de recidiva bolii, dacă pacientul a
mai fost sau nu internat pentru această maladie.
Vom defini prin Make View un nou proiect ce să conţină un chestionar în
legătură cu un tabel ce cuprinde câmpurile sau coloanele următoare.

Figura 3.2 3 – Fereastra de introducere a datelor în chestionarul creat.

NUME, PRENUME – variabilă de tip text, de preferat majuscule. Vom deschide


prin clic dreapta mouse o fereastră de definire a coloanei ca cea prezentată în figura
3.1 2. Vom alege tipul Text (Uppercase), majuscule iar dimensiunea de 50 caractere ar
fi suficientă. Vom denumi câmpul NUME, PRENUME şi din setarea fontului vom
alege forma îngroşată (bold).
CNP – codul numeric personal este de tip număr şi are dimensiunea de 13. Poate
începe cu 1 pentru masculin, respectiv 2 pentru sex feminin. Pentru a defini
dimensiunea vom introduce caracterul „#” în căsuţa patterns de 13 ori. De asemenea
vom activa domeniul (range) şi vom introduce valoarea minimă 1000…. respectiv
29999… Astfel, am cerut ca valorile introduse sa aibă un domeniu restrictiv, deci să
înceapă cu 1 sau cu 2 şi să aibă în total 13 numere. În acest fel am eliminat o parte din
posibilele erori de introducere a datelor.

196
EPIINFO 3.3.2 - 2005

SEX – este variabilă de tip caracter sau text. Are o caracteristică specială şi anume
poate lua doar două valori: Masculin (M), respectiv Feminin (F). Pentru a restrânge
numărul de variante posibile vom activa butonul Legal Values şi vom defini prescurtat
M pentru masculin, respectiv F pentru feminin.
DATA NAŞTERII – este clar variabilă de tip dată calendaristică. Aici menţionăm
formatul american de afişare care începe cu luna, ziua şi apoi anul.
STAREA CIVILĂ – este tot variabilă de tip text, este de tip categorial având
valorile: căsătorit, divorţat, necăsătorit. Pentru a elimina din erori se va introduce în
aceeaşi manieră ca variabila SEX.
RECIDIVĂ – acest câmp sau variabilă este de tip dicotomic, având valorile
DA/NU. Pentru acesta este util a se folosi tipul căsuţă de marcaj (checkbox).

După definirea chestionarului datele se pot introduce în forma prezentată în figura


3.2 3.

3.3. Analiza datelor


O mare parte a tehnicilor statistice necesare prelucrării datelor sunt cuprinse în
grupul de analiză (Analyze Data). Lansarea în execuţie se poate realiza fie din meniu
(Program+Analyze Data) sau apelând la butonul Analyze Data din fereastra
principală.
Prin lansare în execuţie apar trei noi ferestre:
1- Fereastra de comenzi afişată în stânga ca o coloană verticală. Ea cuprinde
funcţii şi comenzi necesare analizei datelor.
2- Fereastra de prezentare a rezultatelor ce se află poziţionată în partea din
dreapta în semiecranul superior.
3- Fereastra de afişare a sintaxei comenzilor, poziţionată în semiecranul din
dreapta jos (are rol şi de editare).
Comenzi pentru lucru cu tabele sau chestionare
Read
Pentru a începe lucrul, trebuie mai întâi să deschidem o bază de date iar în cadrul
ei un tabel de studiu. Aceasta se realizează cu ajutorul comenzii Read. Din căsuţa de
dialog afişată se aleg baza de date, tipul corespunzător (permite lucrul cu baze de date:
Access, FoxPro, Excel, Paradox, ODBC) şi în final se defineşte chestionarul sau tabela
(view) de studiu.

Write (Export)
Putem salva o parte sau toată baza de date într-un nou fişier diferit ca tip de
fişierul EpiInfo. Formatul fişierului salvat poate fi : Access 97 sau Epi2000; dBase III,
IV, V; Paradox3,4; FoxPro2.6; Excel 3,4; Epi 6 sau Text. Este de dorit să avem această
facilitate de export deoarece datele pot fi prelucrate pentru alte scopuri prin programe
diferite ce au facilităţi superioare programului EpiInfo.

197
EPIINFO 3.3.2 - 2005

Ca ajutor incontestabil adus de către această comandă, menţionăm posibilitatea de


a preciza coloanele sau variabilele de salvare ce pot fi definite de utilizator. Astfel,
putem crea prin diferite calcule noi variabile ce se salvează prin export în noua bază de
date.
Opţiunea de înlocuire (replace) sau de adăugare (append) ne permite
suprapunerea informaţiei peste fişierul deja existent sau adăugarea noilor înregistrări la
cele deja existente.
Delete Records
Permite ştergerea permanentă sau doar marcajul pentru ştergere a anumitor
înregistrări (rânduri, deseori în aplicaţiile medicale cu semnificaţia de pacienţi) din
baza de date. Pentru aceasta se folosesc expresii logice ce fac apel la operatori
aritmetici, relaţionali şi logici. Se pot utiliza şi o serie de funcţii (ca un bogat arsenal de
calcul) cum ar fi: funcţia exponenţială, logaritmică, funcţii trigonometrice, funcţiile
pentru date calendaristice sau cele pentru transformări de text.

Figura 3.3 1 – Marcarea pentru ştergere.


În figura alăturată reprezintă un exemplu de marcaj pentru ştergere a articolelor ce
respectă condiţia logică: sunt de sex masculin (GENDER=1), coloana variabilă de tip
text ENGG este „2” iar variabila OLMAT nu a fost introdusă de utilizator (se notează
cu „(.)” pentru Missing).
Opusă ca efect este comanda Undelete Records ce prezintă acelaşi model de
lucru.
Lucrul cu variabile
Coloanele tabelului deschis cât şi noile variabile create de către utilizator pot fi
vizualizate ca tip şi conţinut. După deschiderea bazei de date şi alegerea chestionarului
de lucru suntem poate interesaţi în a realiza noi calcule sau a face anumite transformări
asupra datelor deja introduse. Avem astfel nevoie să cunoaştem tipul variabilelor
existente pentru a putea aplica corect operatorii specifici, sau pentru noi transformări
avem nevoie de noi variabile. Aceste operaţii pot fi realizate folosind comenzile din
grupul Variables.
198
EPIINFO 3.3.2 - 2005

Define
Putem defini trei tipuri de variabile: standard, globale şi permanente. Acestea vor
fi ataşate bazei de date ca noi coloane. Perioada lor de valabilitate depinde de tipul
ales.
Tipul standard există şi îşi menţine valoarea atât timp cât baza de date a fost
deschisă. Cu alte cuvinte, putem spune că deschidem tabelul, definim variabilele, le
încărcăm cu valorile necesare calculate după diferite formule, facem analiza statistică
şi apoi după închiderea bazei de date pierdem conţinutul variabilelor standard definite.
Acestea au avut valori temporare care ne-au ajutat în studiul realizat.
Variabilele de tip permanent sunt memorate în fişierul EpiInfo.ini şi îşi menţin
conţinutul atât timp cât nu sunt şterse prin comanda undefine. În concluzie, acestea pot
fi folosite între baze de date pentru transmiterea informaţiei şi există chiar dacă
programul EpiInfo a fost închis.
Tipul global este valabil doar atât timp cât programul EpiInfo este deschis. Aceste
variabile pot fi folosite atât la modulul de analiză între mai multe tabele dar odată
închis programul sau computerul acestea îşi pierd conţinutul şi practic definiţia.
Undefine este comanda care şterge variabila din memorie, evident şi conţinutul ei
va fi şters.
Assign permite calculul unei coloane întregi a unui tabel după o anume formulă.
Iată în figura următoare avem calculat pentru variabila definită IMC, indicele de
greutatea
masă corporală pentru pacienţii de studiu. Formula de calcul este IMC 
inaltimea 2
(greutatea exprimată în Kg iar înălţimea în metri).

Figura 3.3 2 – Încărcarea prin calcul a unei variabile definite.

Recode este comanda cu ajutorul căreia putem să modificăm conţinutul unei


variabile (noi sau coloană deja existentă a tabelului) cu valori categoriale de tip
numeric sau caracter. Un exemplu este transformarea notei din sistemul zecimal de
evaluare în sistemul categorial având calificativele A, B, C, D şi E . În domeniul
medical de exemplu putem menţiona clasificarea după stadiul maladiei, folosind
anumite variabile de tip continuu.
199
EPIINFO 3.3.2 - 2005

În figura 3.3 3 se prezintă încărcarea variabilei new1 cu valori categoriale


reprezentând 7 clase. Pentru a înţelege uşor metoda s-a preferat prezentarea în clar a
domeniului de cuprindere a fiecărei clase în parte (clasa 2 este formată din valori ale
coloanei score4 peste 10 şi până la 20 inclusiv). În cazuri practice se preferă
codificarea clasei de exemplu Cl1, Cl2 etc. şi nu descrierea intervalului în clar aşa cum
este în exemplul alăturat.

Figura 3.3 3 – Definirea valorilor categoriale folosind comanda RECODE.


Selectarea datelor
Sunt dese situaţiile în care se doreşte să se analizeze doar o anumită parte din
datele cuprinse în chestionarul deschis. Pentru aceasta este necesară o selecţie a
înregistrărilor de interes.
Select
Este comanda ce permite selectarea rândurilor sau a înregistrărilor după anumite
condiţii logice.

Figura 3.3 4 – Selectarea anumitor înregistrări din baza de date.

200
EPIINFO 3.3.2 - 2005

În exemplul prezentat în figura 3.3 4 se selectează doar persoanele de sex


masculin (GENDER=1) ce au valoarea IQ mai mare ca 100.
Se observă forma interactivă, prietenoasă de lucru, având opţiuni de utilizare a
funcţiilor şi operatorilor.
Revenirea la întregul conţinut al tabelului se realizează prin comanda Cancel
Select.

If
Funcţia este folosită tot pentru modificarea valorii unei variabile în situaţia în care
anumite condiţii sunt îndeplinite.

Figura 3.3 5 – Utilizarea funcţiei IF.

În exemplul din figură se înlocuieşte variabila new1 cu valoarea „Missing”


(codificată „(.)”) dacă variabila IQ este lipsă, deci tot „Missing”.
Se pot folosi condiţii logice complexe iar dacă problema constă în efectuarea a
mai mult de un calcul se pot folosi funcţii IF consecutiv sau în cascadă.
Efectul funcţiei Recode poate fi realizat şi prin funcţii IF (numărul de funcţii IF
folosite este egal cu numărul de clase dorite minus 1, deoarece avem opţiunea Else).

Sort
Permite prezentarea ordonată a datelor după mai multe criterii (variabile sau
coloane ale tabelului) în formă descendentă sau ascendentă.

Elemente de analiză statistică


Afişarea datelor (List)
Comanda este folosită pentru afişarea informaţiilor conţinute în tabelul deschis. Se
pot alege toate variabilele definite sau doar o parte dintre ele. Acestea vor fi selectate
din lista de text Variables şi reprezintă coloane din cadrul bazei de date deschise.
201
EPIINFO 3.3.2 - 2005

Forma de prezentare Display Mode permite afişarea rezultatelor sub formă de


pagină HTML specifică internetului (pentru a putea fi setată eventual pe internet), sub
formă de tabel (GRID) şi pentru a accepta chiar modificarea datelor există si forma de
tabel pentru actualizare (Allow Updates).
Pentru setarea paginii sunt prezente opţiuni de definire a numărului de câmpuri de
afişare pe pagină şi separat numărul de câmpuri de tip multilinie sau imagine afişate pe
pagină. Se pot numerota liniile şi chiar afişa numele fişierelor imagine conţinute. Toate
aceste opţiuni ajută la personalizarea prezentării rezultatelor prin modificări de aspect.

Frecvenţe (Frequencies)
Comanda produce tabele cu frecvenţele absolute, procentuale şi cumulate
procentual pentru coloanele selectate. De asemenea, se reprezintă grafic în partea
dreaptă a tabelului sub formă de bare orizontale de culoare galbenă, frecvenţa
procentuală a variabilei de interes. In figura 3.3 6 este reprezentată fereastra de setare a
comenzii FREQuencies.

Figura 3.3 6 – Fereastra comenzii de realizare a tabelului de frecvenţă.

Se calculează şi se afişează şi limitele frecvenţelor relative procentuale cu


încredere de 95%.
Această comandă permite aplicarea unor opţiuni complexe prin folosirea
ponderării (Weight) şi a stratificării (Stratify by).

Dacă activăm o variabilă de ponderare, atunci aceasta va fi interpretată ca având


valoarea frecvenţei absolute a variabilei de studiu. Aceasta este utilă în situaţia în care
avem de centralizat mai multe tabele de frecvenţă primite de la mai multe spitale
pentru un anumit studiu.

202
EPIINFO 3.3.2 - 2005

Stratificarea impune împărţirea datelor după numărul de valori ale variabilei de


stratificare. În cazul prezentat în figura 3.3 6 se vor realiza două tabele de frecvenţe
funcţie de sexul persoanei (gender).
Acest lucru se putea realiza şi separat prin două comenzi de genul SELECT
GENDER=1 apoi crearea tabelului de frecvenţe FREQ IQ urmat de SELECT
GENDER=2 şi FREQ IQ.

Exemplu
Dorim să realizăm tabelul de frecvenţă a variabilei vârsta ponderată de variabila
cazuri. Pentru realizarea tabelului final se vor suma toate valorile din coloana cazuri
pentru valori egale ale vârstei.
Tabelul 3.3 1. Tabelul 3.3 2.
Vârsta Cazuri Vârsta Cazuri
5 2 Tabel obţinut după 5 6
7 3 aplicarea comenzii 6 11
5 4 7 3
6 11

Variabila de stratificare va avea ca efect producerea unui tabel de frecvenţe


separat pentru fiecare categorie a variabilei de stratificare.
Trebuie menţionat faptul că se pot seta în acelaşi timp ambele opţiuni, atât de
stratificare cât şi de ponderare.

Testul Chi pătrat – compararea frecvenţelor eşantioanelor (Tables)

Această comandă permite realizarea tabelelor de contingenţă sau clasificare în


cruce (cross classification). Rolul lor este de a măsura legătura dintre două variabile
calitative în care este permisă folosirea a cel puţin două valori de adevăr (răspunsul
este Da sau Nu, echivalent cu: Yes, No; True, False). Un exemplu clasic este
verificarea legăturii între îmbolnăvirea sau nu a persoanelor expuse la un anumit factor
de risc.

Se testează ipoteza nulă ce constă în a afirma că nu există o relaţie sau legătură


între cele două variabile: expunere şi îmbolnăvire. Rezolvarea matematică a acestei
probleme impune calcularea unei valori ce respectă o distribuţie de tip 2 (Chi pătrat).
Funcţie de această valoare şi funcţie de semnificaţia adoptată (ce de obicei este 5%) se
poate decide dacă există sau nu o legătură între cele două variabile.

Pentru a putea introduce uşor două valori de adevăr este indicat să se realizeze o
bază de date ce să conţină coloane de tip logic (Yes/No). Chestionarul va conţine două
coloane numite Expunere, respectiv Maladie în care datele pot fi şi de tip numeric şi
chiar de tip text. În exemplul realizat am preferat folosirea tipului logic (ce poate fi
creat şi prin valori numerice 0 şi 1).

203
EPIINFO 3.3.2 - 2005

Tabelul 3.3 3 – Conţinutul bazei de date.


Expunere Maladie
Valoarea 0 reprezintă lipsa
1 0 1
îmbolnăvirii, respectiv expunerii;
2 1 0
valoarea 1 marchează expunerea,
3 1 1
respectiv îmbolnăvirea subiectului.
4 0 1
5 0 0

Sintaxa comenzii este următoarea:

TABLES <col.expunere> <col. maladie> {<col. stratificare>}

Coloana de stratificare este opţională reprezentând un nou test de verificare a


legăturilor existente pentru categoriile definite de o a treia variabilă. Lansarea în
execuţie poate fi realizată şi în forma interactivă completând opţiunile prezentate în
figura 3.3 7.
Variabila de expunere (Exposure Variable) reprezintă factorul de risc implicat în
studiu.
Variabila ce reprezintă maladia sau boala de care suferă pacienţii (Outcome
Variable) este marcată ca variabilă de ieşire.
Dacă se folosesc tabele cu frecvenţe absolute, acestea sunt conţinute în coloana de
ponderare (Weight).
Stratificarea va produce un număr de teste de contingenţă egal cu numărul de
valori distincte ale variabilei de stratificare (Stratify by). Se vor crea grupuri diferite
funcţie de această variabilă.
Rezultatele testului pot fi memorate într-o tabelă creată în prealabil (Output to
Table).

MALADIE

EXPUNERE

Figura 3.3 7 - Comanda Tables.


204
EPIINFO 3.3.2 - 2005

Se pot defini de asemenea setări opţionale asupra formei de afişare a paginii


(numărul de coloane afişate pe pagină şi ruperea textului pentru afişare pe liniile
următoare).

Tabelul 3.3 4 – Rezultatul comenzii Tables.


EXPUNERE : MALADIE
Expunere Yes No TOTAL
Yes 4 14 18
Row% 22.2 77.8 100.0
Col % 26.7 46.7 40.0
No 11 16 27
Row% 40.7 59.3 100.0
Col % 73.3 53.3 60.0
TOTAL 15 30 45
Row% 33.3 66.7 100.0
Col % 100.0 100.0 100.0

În acest tabel sunt prezentate frecvenţele absolute, relative pe rând şi relative pe


coloană.
Valoarea 4 aflată la intersecţia rândului de Expunere marcat cu Yes şi a coloanei
de Maladie marcată tot cu Yes reprezintă numărul de cazuri expuse şi bolnave
(frecvenţa absolută).
Valoarea de 22.2 reprezintă procentul obţinut raportând 4 la valoarea totală pe
rândul 1, adică 18. Astfel, 22.2% dintre cei expuşi s-au îmbolnăvit (respectiv 77.8% nu
s-au îmbolnăvit).
Valoarea de 26.7 reprezintă raportul pe coloana 1 dintre frecvenţa absolută 4 şi
suma de valoare 15. Interpretarea constă în faptul că 26.7% dintre cei bolnavi au fost
expuşi riscului studiat.
Analog se calculează şi se interpretează celelalte frecvenţe din cadrul tabelului.
Se observă în partea dreaptă reprezentarea a patru dreptunghiuri de suprafeţe
proporţionale cu valorile frecvenţelor absolute din cadrul tabelului de contingenţă.

Valorile parametrilor de interes sunt calculate şi afişate în cadrul tabelului de


contingenţă după lansarea comenzii Tables.

Tabelul 3.3 5 – Rezultatele analizei statistice.


Single Table Analysis
Point 95% Confidence Interval
Estimate Lower Upper
PARAMETERS: Odds-based
Odds Ratio (cross product) 0.4156 0.1077 1.6041 (T)
Odds Ratio (MLE) 0.4236 0.0969 1.6168 (M)
0.0797 1.8643 (F)
205
EPIINFO 3.3.2 - 2005

PARAMETERS: Risk-based
Risk Ratio (RR) 0.5455 0.2054 1.4485 (T)
Risk Difference (RD) -18.5185 -45.2090 8.1720 (T)
(T=Taylor series; C=Cornfield; M=Mid-P; F=Fisher
Exact)

STATISTICAL TESTS Chi-square 1-tailed p 2-tailed p


Chi square – uncorrected 1.6667 0.1967065417
Chi square – Mantel-Haenszel 1.6296 0.2017552173
Chi square – corrected (Yates) 0.9375 0.3329223880
Mid-p exact 0.89100000
Fisher exact 0.94890000

Pentru a înţelege şi generaliza formulele de calcul vom considera tabelul realizat


şi prezentat mai jos:

Tabelul 3.3 6 – Forma generală a unu tabel de Avem formulele de


contingenţă cu 2 linii şi 2 coloane. totalizare pe linii respectiv
Maladie Maladie coloane:
TOTAL
DA NU
Expunere a + b = n1.
a b n1 c + d = n0.
DA
Expunere a + c = m1.
c d n0 b + d = m0.
NU
n1 + n0 = m1 + m0 = n.
TOTAL
m1 m0 n

Cota (odd) se defineşte ca fiind raportul dintre probabilitatea evenimentului


studiat A şi probabilitatea evenimentului contrar notat A . Din grupul celor expuşi
P( A) P( A) a / n1 a
avem: COTA = ODD =    .
P( A ) 1  P( A) b / n1 b
Raportul cotelor (Odds Ratio) se calculează cu formula:
ad
OR  (raportul produselor pe diagonală).
cb
Pentru a interpreta acest raport îl vom scrie sub forma:
a
cota de imbolnavir i printre cei expusi
OR  b  .
c cota de imbolnavir i printre cei neexpusi
d

206
EPIINFO 3.3.2 - 2005

Interpretare: Şansele celor expuşi de a se îmbolnăvi sunt de OR ori mai mari


decât şansele de îmbolnăvire a celor neexpuşi.

În cazul studiat OR=0.41 cu limitele pentru încredere de 95% (0.107, 1.6041) prin
metoda seriilor Taylor. Există mai multe metode de calcul, rezultatele fiind apropiate.
Raportul de risc (Risk Ratio) se calculează cu formula:
a
a  n0 n R
RR   1  e , unde:
n1  c c Ru
n0
RR – raportul de risc, Re – riscul celor expuşi, Ru – riscul celor neexpuşi.

Interpretare: Riscul celor expuşi este de RR ori mai mare faţă de cei neexpuşi.

Diferenţa riscurilor este RD = Re – Ru şi reprezintă procentul cu care este mai


mare riscul celor expuşi comparativ cu riscul celor neexpuşi. Diferenţa în cazul generic
studiat este negativă, ceea ce denotă că expunerea este de fapt benefică.
În final, se calculează valoarea statisticii Chi pătrat şi nivelul de semnificaţie al
testului notat cu p.
Datorită faptului că p > 0.05 se deduce că nu există asociere între cele două
variabile. În concluzie, expunerea nu produce schimbări de cazuri. Eventualele mici
diferenţe se datorează factorului aleator întâlnit în realitate.

Aceeaşi interpretare poate fi realizată şi prin compararea valorii Chi calculate cu


cea tabelată. În tabelele testului Chi pătrat corespunzător unei încrederi de 95% şi unui
singur grad de libertate se citeşte valoarea 3.84. Aceasta este mai mare decât valoarea
1.6 calculată pentru cazul studiat. Aceasta înseamnă că nu există asociere şi expunerea
nu are influenţă asupra maladiei studiate.

Tabelul 3.3 7 – Metodă de calcul a frecvenţelor Formula de calcul Yates


aşteptate (elemente deduse din tabelul 6). este o aproximare a statisticii
Maladie Maladie Chi pătrat ce se aplicată pentru
DA NU valori mici ale frecvenţelor
deduse (calculate sau aşteptate)
Expunere
m1*n1/n m0*n1/n folosind tabelul 3.3 7.
DA
Dacă dintre valorile
Expunere calculate se găseşte măcar una
m1*n0/n m0*n0/n
NU mai mică ca 5 este indicată
folosirea formulei Yates.

Observaţie: Gradele de libertate se calculează cu formula:


(nr. rânduri-1)  (nr. coloane-1).

207
EPIINFO 3.3.2 - 2005

Testul ANOVA – compararea mediilor eşantioanelor (Means)


Este una dintre comenzile cele mai complexe şi des utilizate, deoarece permite
compararea mediilor a mai multor loturi de date numerice (cantitative).
Pentru comparare se va crea o bază de date ce va conţine un tabel cu două
coloane. Una dintre acestea va conţine valorile numerice ale parametrului de studiu, iar
cealaltă coloană va conţine informaţia despre lotul căreia îi aparţine valoarea din prima
coloană. Pentru exemplu am creat generic un tabel cu prima coloană numită Glicemie,
iar a doua numită Lot. Am considerat că avem de comparat glicemia a două seturi de
persoane netratate (valoarea din lot fiind 0), respectiv tratate (valoarea din lot fiind 1).
După crearea bazei de date pentru a aplica această comandă se intră în grupul
Analyze Data, se deschide baza de date şi tabelul (chestionarul) de lucru cu ajutorul
comenzii Read şi apoi se aplică comanda Means.
Sintaxa comenzii este :

MEANS <Variablă1> [<Variablă2>] {STRATAVAR= <variablă3>}


{WEIGHTVAR= <variablă4>} {OUTTABLE = <Tabel>}.

Comanda poate fi introdusă de la tastatură în fereastra de comenzi (poziţionată în


dreapta jos) sau se pot completa interactiv opţiunile prezentate în figura 3.3 8.

Lot

Glicemie

Figura 3.3 8 - Comanda Means.

Variabila 1 (Means of) reprezintă numele coloanei numerice a variabilei de


interes, care în cazul nostru este denumită Glicemie.
Variabila 2 este variabila de grupare pentru a defini cărei clase îi aparţine valoarea
corespunzătoare din coloana glicemie (pentru exemplul nostru este Lot).
Variabila 3 este folosită pentru stratificare având rol de a produce o analiză
statistică pe fiecare astfel de strat definit. În acest caz nu se produce o comparare între
valorile celor două straturi. Acestea sunt tratate ca grupuri independente.
Variabila 4 are rol de a înmagazina valorile frecvenţelor absolute, dacă baza de
date a fost creată în acest mod.

208
EPIINFO 3.3.2 - 2005

Valorile obţinute în urma lansării comenzii pot fi memorate într-un tabel creat şi
identificat prin variabila tabel (Output to table).

Menţionăm că informaţiile cuprinse între paranteze pătrate sau acolade nu sunt


obligatorii ci opţionale, funcţie de interesul utilizatorului. Astfel, forma cea mai simplă
a comenzii este: Means variabilă1.

Aplicând comanda în această formă: MEANS Glicemie se obţin frecvenţele din


tabelul 3.3 8 şi statistica descriptivă prezentată în continuare.
Coloanele conţin valorile numerice distincte ale glicemiei, frecvenţele absolute,
frecvenţele relative şi frecvenţele relative cumulate.

Tabelul 3.3 8 – Frecvenţele obţinute cu ajutorul comenzii Means.


Glicemie Frequency Percent Cum Percent
1.2 1 3.3% 3.3%
1.3 1 3.3% 6.7%
1.4 3 10.0% 16.7%
1.5 3 10.0% 26.7%
1.7 1 3.3% 30.0%
1.8 3 10.0% 40.0%
1.9 4 13.3% 53.3%
2 8 26.7% 80.0%
2.1 3 10.0% 90.0%
2.2 2 6.7% 96.7%
2.5 1 3.3% 100.0%
TOTAL 30 100.0% 100.0%

Valorile indicatorilor statistici şi ale testului t obţinute după lansarea comenzii


Means

Total Sum Mean Variance Std Dev Std Err


30 55.1 1.8367 0.0955 0.3090 0.0564

Student t, testing whether mean differs from zero

T statistic=32.5519 df=29 p-value=0.0000

Minimum 25% Median 75% Maximum Mode


1.2000 1.5000 1.9000 2.0000 2.5000 2.0000

209
EPIINFO 3.3.2 - 2005

În cazurile studiate avem 30 de persoane având suma produselor dintre frecvenţele


absolute si glicemie egală cu 55,1 conform indicatorilor calculaţi.
Media se obţine prin raportarea sumei la totalul frecvenţelor absolute conform
formulei: Mean = Sum / Total = 55,1 / 30 = 1,8367 (totalul se notează de obicei cu n).
Deviaţia standard este rădăcina pătrată din varianţă şi arată cât de depărtate sunt
datele faţă de medie.
Eroarea standard se calculează cu formula: Std Err 
Std Dev . Aceasta
Total
ajută la determinarea intervalului de variaţie a mediei pentru o anumită încredere.
Limitele se calculează conform formulei:
Limita (min / max)  Mean  t ( ; n  1)  Std Err .
Valoarea lui t se citeşte din tabelele de specialitate (de obicei ataşate ca anexe).
Nivelul de încredere 1-p (notat uneori cu ), în multe cazuri are valoarea 95% iar
numărul gradelor de libertate este n-1.
Pentru cazul nostru, la încredere de 95% (deci nivel de semnificaţie de 5%),
pentru 29 (n-1=30-1=29) grade de libertate avem t(95%;29)=2,045. Putem calcula
acum limitele de variaţie ale mediei glicemiei:
Limita(minimă) = Mean - t(95%;29)Std Err= 1,8367-2,0450,0564 = 1,72.
Limita(maximă) = Mean + t(95%;29)Std Err= 1,8367+2,0450,0564 = 1,95.

În continuare este prezentată valoarea statisticii Student (t) obţinută pentru a


compara valoarea mediei cu zero. Evident, valoarea calculată t=32,5 este mult mai
mare decât valoarea 2,045 din tabel şi astfel se deduce că există diferenţă semnificativă
faţă de 0 (cu alte cuvinte, media este diferită de 0).
Aceasta se putea deduce şi din valoarea lui p, afişată ca având primele 4 zecimale
zero. Dacă p<0,05 (în general) se deduce că există diferenţă semnificativă între valorile
comparate. Valoarea de 0,05 poate diferi funcţie de situaţie, dar în multe cazuri este
suficientă o încredere de 95% (deci risc de 5%).

În final se calculează valorile minimă, maximă, mediana (valoarea de mijloc a


seriei de date ordonate), cuartilele şi modul.
Modul este primul maxim din cadrul distribuţiei de frecvenţă.
Cuartilele sunt valorile variabilei de interes pentru care frecvenţele relative
cumulate ating valorile de 25%, 50%(mediană), respectiv 75%.

În cazul în care dorim să comparăm două loturi din punct de vedere cantitativ
(valori numerice), vom verifica dacă mediile lor diferă sau nu semnificativ. Astfel,
pentru cazul nostru vom aplica comanda: MEANS Glicemie Lot (Means <variabila se
studiu> <variabilă de grupare>).
Media glicemiei din lotul 0 (netratat) va fi comparată cu cea a lotului 1(după
aplicarea unui tratament). Se va obţine un tabel cu frecvenţele absolute grupate după
variabila lot, valorile descriptive (medie, dispersie, deviaţie standard, etc.) deja
prezentate şi apoi testul ANOVA.

210
EPIINFO 3.3.2 - 2005

Compararea mediilor se poate realiza pentru cazul general (a n loturi) prin analiza
varianţei ANOVA (ANalisys Of VAriance). În tabelul următor sunt prezentate valorile
obţinute în cadrul testului de analiză.

Tabelul 3.3 9 – Testul ANOVA.


ANOVA, a Parametric Test for Inequality of Population Means
(For normally distributed data only)
Variation SS Df MS F statistic
Between 0.8460 1 0.8460 12.3141
Within 1.9237 28 0.0687
Total 2.7697 29
P-value = 0.0015
Se calculează variaţia între grupuri şi în cadrul grupului prin suma pătratelor
diferenţelor faţă de medie după formulele prezentate în continuare.

SS – suma pătratelor (Sums of Squares) .


BSS – suma pătratelor între grupuri (Between SS, Among groups SS).
WSS – suma pătratelor în cadrul grupurilor (Within SS).

 2 .
k ni k ni
BSS    yi  y  . WSS   yij  yi
2

i 1 j 1 i 1 j 1
k – reprezintă numărul de loturi sau grupuri.
ni – reprezintă numărul de cazuri în grupul i.
yij – este elementul j din grupul i.
yi – reprezintă media pe grupul i.
y – este media pe toate grupurile.

Gradele de libertate notate în tabel cu Df, au formulele de calcul:


Pentru media BSS avem Df=k-1, media fiind MBSS=BSS/Df.
k
Pentru media WSS avem Df= n
i 1
i  k , media fiind MWSS=WSS/Df.
Pentru calculul intervalului de variaţie al mediilor se aplică formula:
LimitaLot (i)(min/ max)  MeanLot (i)  t ( , ni  1)  MWSS / ni .

În final se calculează raportul mediilor MBSS/MWSS ce respectă o repartiţie de tip


Fisher. Este afişată şi valoarea nivelului de semnificaţie notat cu p.
Dacă valoarea p calculat este mai mică decât 0,05 (sau altă valoare de semnificaţie
acceptată ca suficientă), atunci se consideră că există diferenţă semnificativă între cele
două medii.

211
EPIINFO 3.3.2 - 2005

Dacă valoarea lui p este mai mare ca 0,05 atunci se consideră ipoteza nulă
adevărată, deci nu există diferenţă semnificativă între medii, acestea putându-se
considera egale.
Testul nu este terminat în acest moment, deoarece în crearea statisticii F s-a făcut
presupunerea că dispersiile celor două loturi sunt identice. Această afirmaţie trebuie
verificată prin testul Bartlett a cărui rezultat este prezentat în tabelul 3.3 10.
Ca observaţie testul ANOVA atrage din start verificarea egalităţii dispersiilor,
adică executarea a două teste în cascadă.

Tabelul 3.3 10.


Bartlett's Test for Inequality of Population Variances
Bartlett's chi square = 0.5953 df=1 P value=0.4404
A small p-value (e.g., less than 0.05) suggests that the variances
are not homogeneous and that the ANOVA may not be appropriate.

Statistica creată prin testul Bartlett respectă o distribuţie de tip Chi pătrat.
Interpretarea este asemănătoare testului precedent. Dacă valoarea de semnificaţie
p este mai mare ca 0,05, atunci dispersiile se pot considera ca fiind egale, deci ipoteza
nulă se acceptă cu încredere de 95%.
În cazul nostru p=0,44 ce este mai mare ca 0,05, astfel putem considera egale
dispersiile şi în concluzie se acceptă rezultatul testului ANOVA realizat. Valoarea
p=0,0015 din testul ANOVA este mai mică ca 0,05 şi decidem că mediile glicemiilor
diferă semnificativ. Astfel lotul tratat are o glicemie mai mică decât lotul netratat
(concluzie aşteptată !).
În cazul în care testul Bartlett ne arată o diferenţă semnificativă între dispersiile
celor două loturi se aplică testul cunoscut şi cu numele Kruskal-Wallis. În această
situaţie nu putem accepta ca adevărat rezultatul dedus cu testul ANOVA, deoarece
ipoteza de lucru nu este satisfăcută (dispersiile sunt egale).

Tabelul 3.3 11.


Mann-Whitney/Wilcoxon Two-Sample Test (Kruskal-Wallis test for two
groups)
Kruskal-Wallis H (equivalent to Chi square) = 8.3140
Degrees of freedom = 1
P value = 0.0039

Testul Kruskal-Wallis verifică ipoteza nulă ce constă în presupunerea că


distribuţiile de probabilitate ale populaţiilor din care fac parte loturile sunt identice.
Acesta creează o distribuţie de tip Chi pătrat bazată pe rangul valorilor numerice
(glicemia în cazul studiat) prin ordonare crescătoare. Acesta este un test neparametric
(ANOVA este de tip parametric – lucrează cu valorile numerice efective ale variabilei
de interes şi presupune că distribuţiile sunt normale).
212
EPIINFO 3.3.2 - 2005

Dacă valoarea calculată p este mai mică ca nivelul de semnificaţie acceptat (poate
fi 0.05), atunci există diferenţă semnificativă între mediile celor două populaţii.
Pentru cazul nostru p=0,0039 ce este mai mic ca 0,05 deci şi prin testul Bartlett se
verifică diferenţa semnificativă existentă între cele două loturi.

Observaţie 1
Dacă avem de comparat mai multe loturi atât testul ANOVA cât şi testul Bartlett
ne dau diferenţă semnificativă dacă doar unul dintre loturi diferă semnificativ, în ciuda
faptului că toate celelalte pot fi considerate egale. Nu ni se indică însă care este acest
lot.
Observaţie 2
În cazul comparării a două loturi, valoarea F dedusă prin testul ANOVA este
pătratul valorii statisticii t pentru n1+n2-2 grade de libertate. Nivelul de semnificaţie p
prezentat în cadrul testului ANOVA este acelaşi atât pentru F cât şi pentru t. Evident,
interpretarea este identică şi răspunsurile finale coincid.

Regresie şi corelaţie (Regress)

Atât regresia cât şi corelaţia pot fi deduse prin lansarea comenzii Regress. Se pot
calcula coeficienţii dreptei de regresie liniară simplă, multiplă şi coeficientul de
corelaţie.
Formula regresiei multiple liniare este:
Y  a0  a1  x1  a2  x2  ......  an  xn .
Pentru regresia liniară simplă:
Y  a0  a1  x1 .

Y – se numeşte variabila dependentă.


Xi – variabilele independente.
a1- panta dreptei (pentru cazul regresiei simple) sau coeficientul de regresie.
a0 – reprezintă intersecţia cu axa YY’ (în cazul regresiei liniare simple în origine
dacă avem x1=0 atunci Y=a0).

Pentru aflarea coeficienţilor se defineşte eroarea ca fiind egală cu suma pătratelor


diferenţelor dintre valoarea dedusă prin ecuaţia dreptei şi valoarea reală dedusă sau
măsurată. Se impune condiţia ca eroarea să fie minimă, astfel se creează un sistem de
n+1 ecuaţii prin derivarea funcţie criteriu în raport cu fiecare ai (i=1,…,n). Condiţia de
minim este ca derivata de ordinul întâi să fie 0 (pentru o funcţie pătratică). Prin
rezolvarea sistemului computerul prezintă valorile acestor coeficienţi de interes.
Regresia este folosită pentru a prezice valoarea lui Y într-un caz nou, adică pentru
un anumit x sau anumiţi xi în cazul regresiei multiple.

213
EPIINFO 3.3.2 - 2005

Coeficientul de corelaţie (notat de obicei cu r) reprezintă o măsură a intensităţii


legăturii dintre două sau mai multe variabile aleatoare. Acesta variază între –1 şi +1. O
valoare pozitivă indică o variaţie direct proporţională (creşterea/scăderea lui x duce la
creşterea/scăderea lui y), iar o valoare negativă indică o dependenţă invers
proporţională (scăderea/creşterea lui x duce la creşterea/scăderea lui y). Dacă avem r
apropiat de zero, atunci cele două variabile pot fi considerate practic independente.

Presupunem că avem un tabel cu două coloane denumite greutate-naştere


(birthweight) respectiv estriol. Dorim să deducem dependenţa greutăţii la naştere,
funcţie de valoarea estriol.
Matematic regresia este :
Birthweight = a0 + a1  Estriol.
Se va lansa comanda: REGRESS Birthweight = Estriol .
Datele obţinute sunt conţinute în tabelele 3.3 12 şi 3.3 13.

Tabel 3.3 12.


Correlation Coefficient: r^2=0.37
Source df Sum of Squares Mean Square F-statistic
Regression 1 248.421 248.421 16.811
Residuals 29 428.547 14.777
Total 30 676.968

Tabelul 3.3 13.


Variable Coefficient Std Error F-test P-Value
Intercept 21.536 2.636 66.7390 0.000000
Estriol 0.606 0.148 16.8108 0.000321

Coeficientul de corelaţie r (al lui Pearson) are valoarea la pătrat egală cu 0,37 deci
r=0,608. Această valoare indică o legătură medie ca putere între cele două variabile
aleatoare. Este prezentată valoarea la pătrat deoarece calculul este reprezentat de
raportul dintre suma pătratelor de regresie şi totalul sumei pătratelor.
248,421
În cazul prezentat avem: r   0,37 .
2
676,968
Interpretarea constă în faptul că 37% din variaţiile în greutate la naştere a copiilor
este determinată de variaţia nivelului de estriol al mamelor.

Se prezintă statistica F care pentru cazul nostru are valoarea 16,881. Aceasta ajută
la determinarea diferenţei semnificative faţă de zero a pantei dreptei de regresie. În
tabel se va căuta valoarea statisticii F corespunzătoare, adică F(1;29;p=0,05) ce are
valoarea 4,18 (amintim că statistica F are două grade de libertate în cazul nostru 1 şi
29). Dacă valoarea este mai mică decât cea calculată (16,881) atunci cele două
variabile depind semnificativ una de alta, adică panta diferă semnificativ faţă de 0, a1 
0.
214
EPIINFO 3.3.2 - 2005

În tabelul 3.3 13 se prezintă coeficienţii dreptei de regresie:

a0=21,536 , a1=0,606 (a1 se numeşte şi panta dreptei).

Putem scrie dependenţa prin regresie liniară astfel (atenţie la unitatea de măsură !):

Greutatea la naştere = 21,536 + 0,606  Estriol .

Având şi eroarea standard putem calcula intervalul de încredere al pantei dreptei


de regresie (şi intervalul termenului liber a0).

Panta a1=0,606.
Limita minimă este: a1(min) = a1 – t(0,05;29)StdErr = 0,606 – 2,0450,148= 0,303.
Limita maximă este: a1(max) = a1 + t(0,05;29)StdErr = 0,606 + 2,0450,148= 0,908.
Deoarece în intervalul dedus de limitele de variaţie a pantei nu este cuprinsă
valoarea 0, deducem existenţa semnificaţiei statistice (o altă metodă de a confirma
existenţa diferenţelor statistice).
Analog se deduce intervalul de variaţie cu încredere de 95% a coeficientului a 0.

În final se decide că estriolul are o influenţă majoră direct proporţională asupra


greutăţii copilului la naştere, putând prezice greutatea acestuia conform formulei
prezentate mai sus.

Sensul regresiei şi al corelaţiei constă în a determina atât tipul legăturii cât şi


formula matematică de dependenţă între variabilele de interes. Astfel, în situaţii noi se
pot deduce (estima) valorile posibile ale variabilei dependente.

Analiza supravieţuirii – metoda Kaplan Meier

În acest soft de analiză statistică a datelor este prezent şi studiul supravieţuirii prin
metoda Kaplan Meier (K-M). Ar fi fost de aşteptat ca pentru un singur set de date să se
prezinte măcar indicatorii de tip cuartile deci şi mediana pentru a avea o estimare a
timpilor de supravieţuire. Nu este posibilă o astfel de prezentare a supravieţuirii prin
metoda K-M în EpiInfo pentru un singur set de date. Poate versiunile următoare vor fi
îmbunătăţite vor aduce şi această facilitate.
Tehnica K-M este folosită pentru a reprezenta grafic datele din loturi diferite şi
pentru a realiza comparaţii prin testele Log-Rank şi Wilcoxon.
Am folosit pentru exemplificare datele prezente în Anexa F iar teoria este
dezvoltată în capitolul Analiza Supravieţuirii.
Iată mai jos un fragment din tabelul cu date pentru a înţelege regula de introducere
a acestora.

215
EPIINFO 3.3.2 - 2005

Tabelul 3.3 14.


Tratament
Pacient Zi Cenzura(0) / Deces(1)
(1,2)
1. 1 0 1
2. 1 0 1
… … …. ….

Avem coloana cu informaţia despre timp (denumită Zi) în care unitatea de măsură
este ziua. În anumite zile avem pacienţi pentru care evenimentul studiat se realizează,
deci dacă studiem decesul acesta trebuie marcat. Al doilea eveniment posibil este
cenzura, deci pierderea din studiu a anumitor persoane. Avem astfel o coloană specială
în care este introdusă informaţia despre deces, respectiv cenzură (codificate conform
tabelului).
Pentru a realiza compararea mai avem nevoie de o informaţie care în cazul nostru
este tratamentul urmat. Acesta este codificat cu 1, respectiv 2. Se vor crea grafic
curbele de supravieţuire şi se vor aplica testele de comparaţie.
Se va deschide baza de date cu tabelul introdus (sau se va importa din diferite
formate – Excel de exemplu) şi se va lansa în execuţie din grupul Analyze Data
comanda Kaplan Meier Survival.

Figura 3.3 9 – Definirea variabilelor în cadrul analizei supravieţuirii K-M.

Se vor defini conform figurii alăturate variabilele şi codificarea folosită pentru a


putea finaliza comanda.
În figura 3.3 10 se prezintă graficul curbelor de supravieţuire ce are formă de
scară. Se observă că există porţiuni de suprapunere a celor două curbe iar diferenţe
majore nu se sesizează.
216
EPIINFO 3.3.2 - 2005

Figura 3.3 10 – Graficul supravieţuirii prin metoda K-M pentru cele două
loturi.

În final, pentru comparare se aplică testele Log-Rank şi Wilcoxon. Valoarea


semnificaţiei calculate în ambele cazuri este mult mai mare decât 0,05. Decidem astfel
că nu există diferenţe semnificative statistic între cele două loturi din punct de vedere a
analizei timpului de supravieţuire.
În concluzie, cele două tratamente sunt asemănătoare iar supravieţuirea poate fi
considerată independentă de tratament.

Tabelul 3.3 15.


Test Statistic D.F. P-Value
Log-Rank 0.608 1 0.4355
Wilcoxon 0.4266 1 0.5136

217
ANEXE
ANEXA A - Distribuţia Normală redusă
Valorile tabelate reprezintă valoarea
probabilităţii notată F z  . Astfel, în Z=0 avem
datorită simetriei probabilitatea 0,5.
Valoarea Z se citeşte mai întâi pe coloana 1
iar precizia se completează de pe rândul 1.
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.20 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.30 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.40 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.50 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.60 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.70 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.80 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.90 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.00 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.10 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.20 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.30 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.40 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.50 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.60 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.80 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.00 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.10 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.20 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.30 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.40 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.50 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.60 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.70 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.80 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.90 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.00 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990

218
ANEXE

ANEXA B - Distribuţia Student


normalizată
Valorile tabelate reprezintă valoarea
abscisei t corespunzătoare probabilităţii notată
F t  şi numărului gradelor de libertate df.
Astfel, pentru 9 df şi 95% încredere simetrică
avem t=2,262 (se citeşte pe rândul 9 şi
coloana 0,975 – eroarea de 5% se împarte
bilateral).
.
Probabilitate
0.75 0.8 0.85 0.9 0.95 0.975 0.99 0.995
Grade de libertate (df)

1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657


2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169
11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845
21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831
22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787
26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779
27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750
219
ANEXE

Probabilitate
0.75 0.8 0.85 0.9 0.95 0.975 0.99 0.995
40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704
50 0.679 0.849 1.047 1.299 1.676 2.009 2.403 2.678
60 0.679 0.848 1.045 1.296 1.671 2.000 2.390 2.660
70 0.678 0.847 1.044 1.294 1.667 1.994 2.381 2.648
80 0.678 0.846 1.043 1.292 1.664 1.990 2.374 2.639
90 0.677 0.846 1.042 1.291 1.662 1.987 2.368 2.632
100 0.677 0.845 1.042 1.290 1.660 1.984 2.364 2.626
110 0.677 0.845 1.041 1.289 1.659 1.982 2.361 2.621
120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617
300 0.675 0.843 1.038 1.284 1.650 1.968 2.339 2.592

220
ANEXE

ANEXA C - Distribuţia Chi pătrat 


2

p , nivelul de semnificaţie (standard 0.05)


0.99 0.95 0.9 0.1 0.05 0.01 0.001
Grade de libertate (df - degree of freedom)

1 0.000157 0.00 0.02 2.71 3.84 6.63 10.83


2 0.02 0.10 0.21 4.61 5.99 9.21 13.82
3 0.11 0.35 0.58 6.25 7.81 11.34 16.27
4 0.30 0.71 1.06 7.78 9.49 13.28 18.47
5 0.55 1.15 1.61 9.24 11.07 15.09 20.52
6 0.87 1.64 2.20 10.64 12.59 16.81 22.46
7 1.24 2.17 2.83 12.02 14.07 18.48 24.32
8 1.65 2.73 3.49 13.36 15.51 20.09 26.12
9 2.09 3.33 4.17 14.68 16.92 21.67 27.88
10 2.56 3.94 4.87 15.99 18.31 23.21 29.59
11 3.05 4.57 5.58 17.28 19.68 24.72 31.26
12 3.57 5.23 6.30 18.55 21.03 26.22 32.91
13 4.11 5.89 7.04 19.81 22.36 27.69 34.53
14 4.66 6.57 7.79 21.06 23.68 29.14 36.12
15 5.23 7.26 8.55 22.31 25.00 30.58 37.70
16 5.81 7.96 9.31 23.54 26.30 32.00 39.25
17 6.41 8.67 10.09 24.77 27.59 33.41 40.79
18 7.01 9.39 10.86 25.99 28.87 34.81 42.31
19 7.63 10.12 11.65 27.20 30.14 36.19 43.82
20 8.26 10.85 12.44 28.41 31.41 37.57 45.31
21 8.90 11.59 13.24 29.62 32.67 38.93 46.80
22 9.54 12.34 14.04 30.81 33.92 40.29 48.27
23 10.20 13.09 14.85 32.01 35.17 41.64 49.73
24 10.86 13.85 15.66 33.20 36.42 42.98 51.18
25 11.52 14.61 16.47 34.38 37.65 44.31 52.62
26 12.20 15.38 17.29 35.56 38.89 45.64 54.05
27 12.88 16.15 18.11 36.74 40.11 46.96 55.48
28 13.56 16.93 18.94 37.92 41.34 48.28 56.89
29 14.26 17.71 19.77 39.09 42.56 49.59 58.30
30 14.95 18.49 20.60 40.26 43.77 50.89 59.70
31 15.66 19.28 21.43 41.42 44.99 52.19 61.10
32 16.36 20.07 22.27 42.58 46.19 53.49 62.49
33 17.07 20.87 23.11 43.75 47.40 54.78 63.87
34 17.79 21.66 23.95 44.90 48.60 56.06 65.25
35 18.51 22.47 24.80 46.06 49.80 57.34 66.62
36 19.23 23.27 25.64 47.21 51.00 58.62 67.99

221
ANEXE

p , nivelul de semnificaţie (standard 0.05)


0.99 0.95 0.9 0.1 0.05 0.01 0.001
Grade de libertate

37 19.96 24.07 26.49 48.36 52.19 59.89 69.35


38 20.69 24.88 27.34 49.51 53.38 61.16 70.70
39 21.43 25.70 28.20 50.66 54.57 62.43 72.05
40 22.16 26.51 29.05 51.81 55.76 63.69 73.40
41 22.91 27.33 29.91 52.95 56.94 64.95 74.74
42 23.65 28.14 30.77 54.09 58.12 66.21 76.08
43 24.40 28.96 31.63 55.23 59.30 67.46 77.42
44 25.15 29.79 32.49 56.37 60.48 68.71 78.75
45 25.90 30.61 33.35 57.51 61.66 69.96 80.08
46 26.66 31.44 34.22 58.64 62.83 71.20 81.40
47 27.42 32.27 35.08 59.77 64.00 72.44 82.72
48 28.18 33.10 35.95 60.91 65.17 73.68 84.04
49 28.94 33.93 36.82 62.04 66.34 74.92 85.35
50 29.71 34.76 37.69 63.17 67.50 76.15 86.66

222
ANEXE

ANEXA D - Distribuţia Fisher


Valorile abscisei pentru semnificaţie p, n1 şi n2 grade de libertate.
p=5% n1=1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
n2=1 161.44 199.50 215.70 224.58230.162 233.98 236.76 238.88 240.54 241.88 242.98 243.90 244.69 245.36 245.95
2 18.51 19.00 19.16 19.24 19.29 19.33 19.35 19.37 19.38 19.39 19.40 19.41 19.419 19.42 19.42
3 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845 8.812 8.786 8.763 8.745 8.729 8.715 8.703
4 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 5.999 5.964 5.936 5.912 5.891 5.873 5.858
5 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 4.772 4.735 4.704 4.678 4.655 4.636 4.619
6 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 4.099 4.060 4.027 4.000 3.976 3.956 3.938
7 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 3.677 3.637 3.603 3.575 3.550 3.529 3.511
8 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438 3.388 3.347 3.313 3.284 3.259 3.237 3.218
9 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 3.179 3.137 3.102 3.073 3.048 3.025 3.006
10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 3.020 2.978 2.943 2.913 2.887 2.865 2.845
11 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 2.896 2.854 2.818 2.788 2.761 2.739 2.719
12 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 2.796 2.753 2.717 2.687 2.660 2.637 2.617
13 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 2.714 2.671 2.635 2.604 2.577 2.554 2.533
14 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 2.646 2.602 2.565 2.534 2.507 2.484 2.463
15 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 2.588 2.544 2.507 2.475 2.448 2.424 2.403
16 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 2.538 2.494 2.456 2.425 2.397 2.373 2.352
17 4.451 3.592 3.197 2.965 2.810 2.699 2.614 2.548 2.494 2.450 2.413 2.381 2.353 2.329 2.308
18 4.414 3.555 3.160 2.928 2.773 2.661 2.577 2.510 2.456 2.412 2.374 2.342 2.314 2.290 2.269
19 4.381 3.522 3.127 2.895 2.740 2.628 2.544 2.477 2.423 2.378 2.340 2.308 2.280 2.256 2.234
20 4.351 3.493 3.098 2.866 2.711 2.599 2.514 2.447 2.393 2.348 2.310 2.278 2.250 2.225 2.203
21 4.325 3.467 3.072 2.840 2.685 2.573 2.488 2.420 2.366 2.321 2.283 2.250 2.222 2.197 2.176
22 4.301 3.443 3.049 2.817 2.661 2.549 2.464 2.397 2.342 2.297 2.259 2.226 2.198 2.173 2.151
23 4.279 3.422 3.028 2.796 2.640 2.528 2.442 2.375 2.320 2.275 2.236 2.204 2.175 2.150 2.128
24 4.260 3.403 3.009 2.776 2.621 2.508 2.423 2.355 2.300 2.255 2.216 2.183 2.155 2.130 2.108
25 4.242 3.385 2.991 2.759 2.603 2.490 2.405 2.337 2.282 2.236 2.198 2.165 2.136 2.111 2.089
26 4.225 3.369 2.975 2.743 2.587 2.474 2.388 2.321 2.265 2.220 2.181 2.148 2.119 2.094 2.072
27 4.210 3.354 2.960 2.728 2.572 2.459 2.373 2.305 2.250 2.204 2.166 2.132 2.103 2.078 2.056
28 4.196 3.340 2.947 2.714 2.558 2.445 2.359 2.291 2.236 2.190 2.151 2.118 2.089 2.064 2.041
29 4.183 3.328 2.934 2.701 2.545 2.432 2.346 2.278 2.223 2.177 2.138 2.104 2.075 2.050 2.027
30 4.171 3.316 2.922 2.690 2.534 2.421 2.334 2.266 2.211 2.165 2.126 2.092 2.063 2.037 2.015
31 4.160 3.305 2.911 2.679 2.523 2.409 2.323 2.255 2.199 2.153 2.114 2.080 2.051 2.026 2.003
32 4.149 3.295 2.901 2.668 2.512 2.399 2.313 2.244 2.189 2.142 2.103 2.070 2.040 2.015 1.992
33 4.139 3.285 2.892 2.659 2.503 2.389 2.303 2.235 2.179 2.133 2.093 2.060 2.030 2.004 1.982
34 4.130 3.276 2.883 2.650 2.494 2.380 2.294 2.225 2.170 2.123 2.084 2.050 2.021 1.995 1.972
35 4.121 3.267 2.874 2.641 2.485 2.372 2.285 2.217 2.161 2.114 2.075 2.041 2.012 1.986 1.963
36 4.113 3.259 2.866 2.634 2.477 2.364 2.277 2.209 2.153 2.106 2.067 2.033 2.003 1.977 1.954
37 4.105 3.252 2.859 2.626 2.470 2.356 2.270 2.201 2.145 2.098 2.059 2.025 1.995 1.969 1.946
38 4.098 3.245 2.852 2.619 2.463 2.349 2.262 2.194 2.138 2.091 2.051 2.017 1.988 1.962 1.939
39 4.091 3.238 2.845 2.612 2.456 2.342 2.255 2.187 2.131 2.084 2.044 2.010 1.981 1.954 1.931
40 4.085 3.232 2.839 2.606 2.449 2.336 2.249 2.180 2.124 2.077 2.038 2.003 1.974 1.948 1.924

223
ANEXE

Distribuţia Fisher –continuare, p=10%.


p=10% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 39.863 49.500 53.593 55.833 57.240 58.204 58.906 59.439 59.858 60.195 60.473 60.705 60.903 61.073 61.220
2 8.526 9.000 9.162 9.243 9.293 9.326 9.349 9.367 9.381 9.392 9.401 9.408 9.415 9.420 9.425
3 5.538 5.462 5.391 5.343 5.309 5.285 5.266 5.252 5.240 5.230 5.222 5.216 5.210 5.205 5.200
4 4.545 4.325 4.191 4.107 4.051 4.010 3.979 3.955 3.936 3.920 3.907 3.896 3.886 3.878 3.870
5 4.060 3.780 3.619 3.520 3.453 3.405 3.368 3.339 3.316 3.297 3.282 3.268 3.257 3.247 3.238
6 3.776 3.463 3.289 3.181 3.108 3.055 3.014 2.983 2.958 2.937 2.920 2.905 2.892 2.881 2.871
7 3.589 3.257 3.074 2.961 2.883 2.827 2.785 2.752 2.725 2.703 2.684 2.668 2.654 2.643 2.632
8 3.458 3.113 2.924 2.806 2.726 2.668 2.624 2.589 2.561 2.538 2.519 2.502 2.488 2.475 2.464
9 3.360 3.006 2.813 2.693 2.611 2.551 2.505 2.469 2.440 2.416 2.396 2.379 2.364 2.351 2.340
10 3.285 2.924 2.728 2.605 2.522 2.461 2.414 2.377 2.347 2.323 2.302 2.284 2.269 2.255 2.244
11 3.225 2.860 2.660 2.536 2.451 2.389 2.342 2.304 2.274 2.248 2.227 2.209 2.193 2.179 2.167
12 3.177 2.807 2.606 2.480 2.394 2.331 2.283 2.245 2.214 2.188 2.166 2.147 2.131 2.117 2.105
13 3.136 2.763 2.560 2.434 2.347 2.283 2.234 2.195 2.164 2.138 2.116 2.097 2.080 2.066 2.053
14 3.102 2.726 2.522 2.395 2.307 2.243 2.193 2.154 2.122 2.095 2.073 2.054 2.037 2.022 2.010
15 3.073 2.695 2.490 2.361 2.273 2.208 2.158 2.119 2.086 2.059 2.037 2.017 2.000 1.985 1.972
16 3.048 2.668 2.462 2.333 2.244 2.178 2.128 2.088 2.055 2.028 2.005 1.985 1.968 1.953 1.940
17 3.026 2.645 2.437 2.308 2.218 2.152 2.102 2.061 2.028 2.001 1.978 1.958 1.940 1.925 1.912
18 3.007 2.624 2.416 2.286 2.196 2.130 2.079 2.038 2.005 1.977 1.954 1.933 1.916 1.900 1.887
19 2.990 2.606 2.397 2.266 2.176 2.109 2.058 2.017 1.984 1.956 1.932 1.912 1.894 1.878 1.865
20 2.975 2.589 2.380 2.249 2.158 2.091 2.040 1.999 1.965 1.937 1.913 1.892 1.875 1.859 1.845
21 2.961 2.575 2.365 2.233 2.142 2.075 2.023 1.982 1.948 1.920 1.896 1.875 1.857 1.841 1.827
22 2.949 2.561 2.351 2.219 2.128 2.060 2.008 1.967 1.933 1.904 1.880 1.859 1.841 1.825 1.811
23 2.937 2.549 2.339 2.207 2.115 2.047 1.995 1.953 1.919 1.890 1.866 1.845 1.827 1.811 1.796
24 2.927 2.538 2.327 2.195 2.103 2.035 1.983 1.941 1.906 1.877 1.853 1.832 1.814 1.797 1.783
25 2.918 2.528 2.317 2.184 2.092 2.024 1.971 1.929 1.895 1.866 1.841 1.820 1.802 1.785 1.771
26 2.909 2.519 2.307 2.174 2.082 2.014 1.961 1.919 1.884 1.855 1.830 1.809 1.790 1.774 1.760
27 2.901 2.511 2.299 2.165 2.073 2.005 1.952 1.909 1.874 1.845 1.820 1.799 1.780 1.764 1.749
28 2.894 2.503 2.291 2.157 2.064 1.996 1.943 1.900 1.865 1.836 1.811 1.790 1.771 1.754 1.740
29 2.887 2.495 2.283 2.149 2.057 1.988 1.935 1.892 1.857 1.827 1.802 1.781 1.762 1.745 1.731
30 2.881 2.489 2.276 2.142 2.049 1.980 1.927 1.884 1.849 1.819 1.794 1.773 1.754 1.737 1.722
31 2.875 2.482 2.270 2.136 2.042 1.973 1.920 1.877 1.842 1.812 1.787 1.765 1.746 1.729 1.714
32 2.869 2.477 2.263 2.129 2.036 1.967 1.913 1.870 1.835 1.805 1.780 1.758 1.739 1.722 1.707
33 2.864 2.471 2.258 2.123 2.030 1.961 1.907 1.864 1.828 1.799 1.773 1.751 1.732 1.715 1.700
34 2.859 2.466 2.252 2.118 2.024 1.955 1.901 1.858 1.822 1.793 1.767 1.745 1.726 1.709 1.694
35 2.855 2.461 2.247 2.113 2.019 1.950 1.896 1.852 1.817 1.787 1.761 1.739 1.720 1.703 1.688
36 2.850 2.456 2.243 2.108 2.014 1.945 1.891 1.847 1.811 1.781 1.756 1.734 1.715 1.697 1.682
37 2.846 2.452 2.238 2.103 2.009 1.940 1.886 1.842 1.806 1.776 1.751 1.729 1.709 1.692 1.677
38 2.842 2.448 2.234 2.099 2.005 1.935 1.881 1.838 1.802 1.772 1.746 1.724 1.704 1.687 1.672
39 2.839 2.444 2.230 2.095 2.001 1.931 1.877 1.833 1.797 1.767 1.741 1.719 1.700 1.682 1.667
40 2.835 2.440 2.226 2.091 1.997 1.927 1.873 1.829 1.793 1.763 1.737 1.715 1.695 1.678 1.662

224
ANEXE

ANEXA E - Metoda verosimilităţii maxime


(Maximum Likelihood Method - MLE)

Această metodă este considerată ca fiind una dintre tehnicile cele mai robuste de
estimare a parametrilor unei distribuţii.
Ideea de bază constă în a obţine valorile cele mai probabile pentru parametrii unei
distribuţii prin maximizarea unei funcţii numită funcţie de verosimilitate.
Notăm densitatea de probabilitate (PDF) f ( x, p1 , p2 ,... pk ). Aici x este variabila
aleatoare iar p1, p2, …pk sunt parametrii ce trebuie determinaţi. Presupunem că avem un
eşantion de n valori x1, x2, … xn.
Funcţia de verosimilitate este egală cu produsul tuturor valorilor individuale ale
densităţii de probabilitate calculate în punctele xi:
n
L( p1 , p2 ,... p k , x1 , x2 ,...xn )   f ( xi ; p1 , p 2 ,... p k ) .
i 1
Această funcţie măsoară probabilitatea de a observa un set de date dependente
care sunt cuprinse în eşantion.
Funcţia logaritmică y=ln(x) este o funcţie crescătoare, deci putem să o aplicăm
asupra funcţiei de verosimilitate căci valorile optime ale parametrilor vor rămâne
neschimbate.
n
Obţinem astfel:   ln L    ln  f ( xi ; p1 , p 2 ,... p k )  .
i 1
Valorile parametrilor se obţin prin maximizarea funcţiei  . Astfel, derivata de

ordinul întâi în raport cu p1,…pk se egalează cu zero:  0 , j  1,2,...k . Se obţine
p j
un sistem de j ecuaţii cu j necunoscute.
Proprietăţi ale metodei verosimilităţii maxime
 Este asimptotic consistentă: cu cât eşantionul conţine mai multe date cu atât
parametrii converg spre valoarea adevărată.
 Este asimptotic eficientă: cu cât eşantionul conţine mai multe date cu atât
parametrii sunt estimaţi mai precis.
 Este asimptotic nedeplasată: valorile medii nu sunt deplasate.
 Distribuţia estimatorilor este normală pentru volum mare al eşantionului.

Exemplu de aplicare a metodei MLE pentru distribuţia normală


Distribuţia normală este caracterizată de parametrii medie  şi dispersie  .
2
1  x 
  
1 2   
Funcţia densitate de probabilitate este : f ( x)  e .
  2 
Presupunem că avem şirul de valori : x1, x2, ….xn.

225
ANEXE

1  xi   
2
n    
1  
Funcţia de verosimilitate este: L(  , , xi )   e 2  ,
i 1   2 
 xi   
n 2

  2 
n 1
 1 
  

L(  , , xi )     e i1 .
  2  
Logaritmând obţinem:
1 n x 
2

  ln L(  , , xi )  n  ln     ln 2     i
n
 .
2 2 i 1  
Derivăm funcţie de medie şi apoi funcţie de dispersie:
  1 2 n
       xi     0,
2  2 i 1
 Sistem de două ecuaţii cu două necunoscute
    n  13   xi     0.
n

    i 1
de unde se obţin:

 1 n
 X    xi .
 n i1
 n
, aceste valori estimate tind către valorile  , respectiv
   xi    .
ˆ  1 2

 n i1
 , pentru valori mari ale lui n.

226
ANEXE

ANEXA F - Tabelul datelor utilizate pentru analiza de supravieţuire


(Kaplan-Meier)

35. 8 1 1 72. 6 0 2
Cenzura(0) /

Tratament 8 1 1 6 1 2
Deces(1)

36. 73.
Pacient

37. 10 0 1 74. 6 1 2
Zi

38. 10 0 1 75. 8 0 2
39. 10 1 1 76. 8 0 2
40. 11 0 1 77. 8 0 2
3. 1 0 1
41. 11 0 1 78. 8 1 2
4. 1 0 1
42. 11 1 1 79. 8 0 2
5. 1 0 1
43. 11 1 1 80. 8 1 2
6. 1 0 1
44. 13 0 1 81. 8 1 2
7. 1 0 1
45. 13 1 1 82. 10 0 2
8. 1 0 1
46. 13 1 1 83. 10 0 2
9. 1 0 1
47. 14 1 1 84. 10 1 2
10. 1 1 1
48. 1 0 2 85. 11 0 2
11. 1 1 1
49. 1 1 2 86. 11 0 2
12. 2 0 1
50. 1 0 2 87. 11 1 2
13. 2 0 1
51. 1 0 2 88. 11 1 2
14. 2 0 1
52. 1 0 2 89. 13 0 2
15. 2 0 1
53. 1 0 2 90. 13 1 2
16. 2 1 1
54. 1 0 2 91. 13 1 2
17. 3 0 1
55. 1 1 2 92. 14 1 2
18. 3 0 1
56. 1 1 2 93. 5 1 2
19. 3 1 1
57. 2 0 2 94. 9 0 2
20. 3 1 1
58. 2 0 2 95. 9 1 2
21. 4 0 1
59. 2 1 2 96. 4 0 2
22. 4 0 1
60. 2 0 2 97. 4 0 2
23. 4 0 1
61. 2 1 2 98. 4 1 2
24. 4 1 1
62. 3 0 2 99. 4 1 2
25. 4 1 1
63. 3 0 2 100. 4 1 2
26. 4 1 1
64. 3 1 2 101. 5 1 2
27. 6 0 1
65. 3 1 2 102. 8 1 2
28. 6 1 1
66. 4 0 2 103. 8 1 2
29. 6 1 1
67. 4 0 2 104. 8 1 2
30. 8 0 1
68. 4 0 2 105. 8 1 2
31. 8 0 1
69. 4 1 2
32. 8 0 1
70. 4 1 2
33. 8 1 1
71. 4 1 2
34. 8 1 1

227
ANEXE

ANEXA G - Exemplu de test grilă la biostatistică.

1. Pentru datele care nu urmează o lege de distribuţie normală, media acestora


este întotdeauna egală cu mediana?
a) adevărat
b) fals

2. Care este cea mai bună estimare a preciziei unei măsurători?


a) eroarea
b) deviaţia standard 
c) testul statistic t
d) eroarea standard a mediei de selecţie s x
e) media eşantionului x

3. Care din următoarele variante sunt estimaţii ale variabilităţii sau ``împrăştierii''
unei distribuţii de frecvenţe?
a) media
b) mediana
c) modul
d) toate variantele de mai sus sunt corecte
e) nici una din variantele de mai sus nu este corectă

4. Pentru datele care sunt descrise printr-o distribuţie de frecvenţe normală,


media = mediana = modulul?
a) adevărat
b) fals

5. Aria totală de sub graficul curbei normale are o probabilitate egală cu:
a) Z
b) n
c) 1
d) t
e) 0

6. Care dintre următoarele distribuţii este utilizată pentru a construi intervale de


încredere pentru n  20 ?
a) distribuţia normală
b) distribuţia t
c) distribuţia binomială

228
ANEXE

7. Pentru datele care urmează o distribuţie de frecvenţe normală, probabilitatea ca


o valoare, x , să fie observată între două limite prescrise x1 şi x2 poate fi
calculată:
a) utilizând distribuţia binomială
b) cu ajutorul diferenţei x2  x1
c) utilizând transformarea Z şi calculând diferenţa Z 2  Z1
d) cu ajutorul ariei de sub curba distribuţiei normale între valorile
corespunzătoare lui Z , z1 şi z 2 .

8. Care dintre următoarele statistici este utilizată pentru a construi intervale de


încredere şi pentru a compara mediile
a) dispersia de selecţie, s 2
b) abaterea standard de selecţie, s
c) abaterea standard relativă (coeficientul de variaţie)
d) eroarea standard a mediei de selecţie, s x
e) amplitudinea variaţiei

Datele din tabelul de mai jos ( x reprezintă greutatea tabletei de ibuprofen


exprimată în mg) sunt pentru următoarele 5 întrebări (de la 9 la 13, inclusiv).

x x2
98,9 9781,21
95,7 9158,49
99,1 9820,81
98,9 9781,21

9. Care este greutatea medie a tabletei?


a) 82,57 mg
b) 123,62 mg
c) 98,15 mg
d) 99,02 mg
e) 98,83 mg

10. Care este deviaţia standard a valorilor de greutate a tabletelor de ibuprofen?


a) 2,423 mg
b) 2,090 mg
c) 1,911 mg
d) 1,636 mg
e) 2,140mg

229
ANEXE

11. Care este precizia măsurătorilor exprimată procentual prin coeficientul de


variaţie?
a) 2,12 %
b) 2,09 %
c) 2,14 %
d) 1,66 %
e) 2,16 %

12. Care este eroarea standard a mediei, s x , pentru valorile de greutate ale
tabletelor de ibuprofen?
a) 1,070
b) 0,957
c) 0,818
d) 1,047
e) 1,447

13. Care este intervalul de încredere (cu pragul de semnificaţie  =95%) pentru
media de greutate a tabletei de ibuprofen? (pentru p  0,05 , df  4 ,
t  2,776 )
a) (96, 104) mg
b) (95,87 , 100,42) mg
c) (87,4 , 92,7) mg
d) (96,4 , 101,7) mg
e) (96,2 ,101,4) mg

(Pentru grupul de întrebări de la 14 la 18, inclusiv) În tratamentul pacienţilor


epileptici s-au obţinut într-un experiment următoarele concentraţii ale dozelor de
diazepam injectabil: 4,998; 5,01; 4,989 şi 5,111 mg/mL.

14. Care este valoarea medie a concentraţiilor dozelor de diazepam injectabil?


a) 5,112
b) 4,989
c) 5,027
d) 4,899
e) 5,032

15. Care este deviaţia standard a concentraţiilor pentru dozele de diazepam


injectabil?
a) 0,142
b) 0,0449
c) 0,222
d) 0,0566
e) 0,0251
230
ANEXE

16. Care este eroarea standard a mediei de selecţie, s x , pentru concentraţiile de


diazepam?
a) 0,0635
b) 0,0201
c) 0,0993
d) 0,0225
e) 0,0283

17. Care este intervalul de încredere pentru media concentraţiei de diazepam,


corespunzător unui prag de semnificaţie de 90% ( p  0,10 , df  4,
t  2,132)?
a) 5,027  0,135 mg/ml
b) 4,899  0,0429 mg/ml
c) 5,032  0,0480 mg/ml
d) 4,989  0,0535 mg/ml
e) 5,027  0,0603 mg/ml

18. Care este precizia de determinare a concentraţiei, exprimată procentual prin


calculul coeficientului de variaţie?
a) 0,447 %
b) 2,25 %
c) 1,127 %
d) 0,954 %
e) 0,982 %

231
Bibliografie

 Altman D.G., [1991], Practical Statistics for Medical Research. Chapman and
Hall, London.
 Andrei T., Stelian Stancu [1995], Statistica – teorie şi aplicaţii, Ed. All.
 Azoicăi D., Boiculese L, Pisică-Donose G.[2001], Analiza statistică a datelor
medicale. In: Noţiuni de Metodologie Epidemiologică şi Statistică Medicală.
Iaşi: Edit Dan.
 Beaglehole R., Bonita R., Kjellstrom T. [1993], Basic Epidemiology, World
Health Organisation.
 Bemmel JH., Musen MA. [2000], Methods for decision support. In Bemmel JH,
Musen MA, editori Handbook of Medical Informatics. Heidelberg: Springer,
233-260.
 Bland M. [1996], Medical Statistics, Oxford University Press Inc.
 Bland M. [2000], An Introduction to Medical Statistics, Third Edition. Oxford
University Press.
 Boiculese V.L., Dascălu C. [2001], Informatică Medicală. Casa de Editură
Venus, Iaşi.
 Box G.E.P., Hunter W.G., Hunter J.S. [1978]. Statistics for Experiments. Wiley,
New York.
 Chernick M.R. [1999], Bootstrap Methods: A Practitioner’s Guide. Wiley, New
York.
 Chernick M.R., Friis R.H. [2003], Introductory Biostatistics for Health Sciences,
John Wiley & Sons, Inc.
 Degoulet P, Fieschi M.[1999], Date medicale şi semiologie. În: Informatică
Medicală. Bucureşti: Editura Medicală, 1999,57-72.
 Dimitriu G., Adrian Doloca [2004], Informatica – Teorie şi aplicaţii, Ed.
CERMI, Iaşi.
 Dugaciu N., Gh. Moise, S. Doroftei [1997], Elemente de Biostatistică, Ed.
Vasile Golgiş , Arad.
 Echochard R., Landrivon G (traducere Carmen Vulpoi, Teodor D).[1995]
Studiile de strategii diagnostice. In: Landrivon G, Delahaye F (coordonarea
ediţiei în limba română Doina Azoicăi, Carmen Dinescu) editori. Cercetare
Clinică de la Idee la Publicare. Paris: Masson, 101-116.
 Feinstein A.R., [2002], Principle of Medical Statistics. Chapman & Hall / CRC
Boca Raton, London, New York, Washington D.C.
 Friis R.H., Sellers T.A. [1999], Epidemiology for Public Health Practice.
Second Edition. Aspen Publishers, Inc. Gaithersburg, Maryland.

232
BIBLIOGRAFIE

 Geoffrey R. Loftus, Elizabeth F. Loftus [1988], Essence of Statistics Alfred A.


Knopf, New York.
 Georgescu G., Zegan Georgeta, Costin Hariton [1998], Medical Informatics, Ed.
Cantes.
 Good P.I. [2005], Introduction to Statistics through Resampling Methods and
Microsoft Office Excel, John Wiley & Sons, Inc.
 Gower, J.C. [1990] Fisher’s optimal scores and multiple correspondence
analysis in Biometrics, 46, 947-961.
 Gower, J.C., Hand, D.J. [1996] Biplots. Chapman and Hall, London.
 Gupta V. [2002] Statistical Analysis with Exce. VJ Books Inc, Canada.
 Jaba E. [1996], Statistica, Ed. SEDCOM Libris, Iaşi.
 Jewell N.P. [2004], Statistics for Epidemiology, Chapman & Hall / CRC.
 Johnson R.A., Wichern D.W. [1992], Applied Multivariate Statistical Analysis,
3rd Edition, Prentice Hall, Inc.
 Kanellakis P. [1990], Elements of Relational Theory, Handbook of Theoretical
Computer Science, vol. B., 1073 – 1156, Elsevier Science Publishers,
Amsterdam.
 Kuzma J.W [1998], Basic Statistics for the Health Sciences,Third Edition.
Mayfield Publishing Company, MountainView, California.
 Le C.T. [2003], Introductory Biostatistics, John Wiley & Sons, Inc.
 Lee E.T. [1992], Statistical Methods for Survival Data AnalysisI, Second
Edition. Wiley, New York.
 Lee E.T., Wang J.W. [2003], Statistical Methods for Survival Data Analysis,
John Wiley & Sons, Inc.
 Leech N.L., Barrett K.C., Morgan G.A. [2005], SPSS for Intermediate Statistics:
Use and Interpretation. Second Edition. Lawrence Erlbaum Associates, Inc.,
Publishers.
 Mihoc Gh., N. Micu [1980], Teoria Probabilităţilor şi Statistică Matematică,
Ed. Didactică şi Pedagogică Bucureşti.
 Mureşan P. [1989], Manual de Metode Matematica în Analiza Stării de
Sănătate, Ed. Medicală Bucureşti.
 Nenciu Elena [1986], Teoria probabilităţilor şi statistica matematică, Litografia
Universităţii “Al. I. Cuza”, Iaşi.
 Newmann S.C. [2001], Biostatistical Methods in Epidemiology, John Wiley &
Sons, Inc.
 Norman G.R., Streiner D. [1998], Biostatistics, B.C. Decker, Hamilton London.
 Ostle B., Linda C. Manole [1988], Statistics in Research: Inferences concerning
a single population, Inferences concerning more than two populations, Iowa
State University Press / Ames.
 Panaite V., R. Munteanu [1982], Control Statistic şi Fiabilitate, Ed. Didactică şi
Pedagogică, Bucureşti.

233
BIBLIOGRAFIE

 Panţiru M. [1996], Informatică Economică, Baze de Date, Ed. Petrion Bucureşti.


Pepe SM. The Statistical Evaluation of Medical Tests for Classification and
Prediction. Oxford: University Press, 2003.
 Petrie A., Sabin C [2000], Medical Statistics at a Glance, Blackwell Science.
 Popescu O. (redactor) [1988], Informatică Medicală,Ed. Medicală.
 Porojan D. [1993], Statistica şi Teoria Sondajului, Casa de Editură Şansa,
Bucureşti.
 Reisner T. [1995], Excel 5 pentru Windows, Ed. Teora
 Remington R. D., M. Anthony Schork [1985], Statistics with Application to the
Biological and Health Sciences, Prentice Hall Inc., Englewood Cliffs, New
Jersey.
 Saporta G., Viorica Ştefănescu [1996], Analiza Datelor & Informatică, Editura
Economică.
 Spircu T. [1997], Informatică Medicală – Partea I, II Ed. Universitară Carol
Davila, Bucureşti .
 Spircu T., Ştefan Ţigan [1995], Informatica în Mediciă, Ed. Teora.
 Tărâţă M. [1997], Informatică Medicală, Repografia Universităţii din Craiova.
 Toutenburg H. [2002], Statistical Analysis of Design Experiments. Springer,
New York.
 Trosset M. W. [2001], An Introduction to Statistical Inference and Data
Analysis. College of William & Mary, Williamsburg VA 23187-8795.
 Ţarcă M. [1997], Tratat de Statistică Aplicată, Ed. Didactică şi Pedagogică R.A.
Bucureşti.
 Zhou XH, McClish DK, Obuchowski NA.[2002] Statistical Methods in
Diagnostic Medicine. Wiley Europe Publisher.

234
INDEX

INDEX
Eroare de tip I, 106
Eroare de tip II, 106
A Eroarea standard, 88, 210
Abaterea pătratică medie, 68, 70 Eşantionarea, 83, 92, 93, 94
Abaterea standard, 33 Estimarea, 76, 184, 188
Amplitudinea, 69 Evenimentul, 9, 10, 11, 18, 23, 164, 177
Analiza supravieţuirii, 158, 164, 174, 215 Excesul, 74
ANOVA, 119, 137, 140, 141, 145, 150, 208, Experimentul, 9
210, 211, 212, 213
Aranjamente, 15 F
Asimetrie, 73
Formula lui Bayes, 24
Formula probabilităţii totale, 22, 23
B Fractile, 31
Bartlett, 212, 213 Frecvenţa absolută, 57, 58
Biostatistica, 52 Frecvenţa cumulată, 57
Boltirea, 74 Frecvenţa relativă, 56, 57, 126
Bootstrap, 83, 94 Funcţia de supravieţuire, 158, 160, 161, 164,
166, 167, 182
Funcţia hazard, 162, 163, 174, 182
C
Calitatea examenului diagnostic, 183 G
Câmpul de evenimente, 10
Câmpul de probabilitate, 10 Graficul de tip Box-and-Whiskers, 60
Chi pătrat, 124, 168, 203, 212, 221 Gruparea termenilor, 56
Cochran, 121
Coeficientul de variaţie, 70 H
Combinări, 15
Corelaţie, 213 Hazard. Vezi Funcţia hazard
Cota, 124, 130, 132, 154, 206 Histograma, 57, 58, 59
Cox, 167, 172, 174, 175, 176, 177, 178, 179
Cuantile, 31
Cuartilele, 69, 70, 210
I
Curba ROC, 187 Indicatori de localizare, 62
Indicatori de variaţie, 67
D Indicatori statistici, 62
Interacţiuni între variabile, 150
Date cenzurate, 158 Intervale de încredere, 76
Deviaţia standard, 80, 98, 210 Intervalul intercuartilic, 69
Diagrama cu linii, 58 Ipoteza alternativă, 102, 104, 110, 114
Diagrama Tukey, 59 Ipoteza nulă, 104, 151
Diagrame de structură, 61 Ipoteza statistică, 102, 104
Dimensiunea eşantionului, 103, 109
Dispersia, 32, 38, 41, 67, 82
K
E Kaplan Meier, 164, 169, 173, 174, 215, 216,
227
EpiInfo, 6, 52, 101, 129, 173, 190, 197, 199, Kruskal-Wallis, 212
215
235
INDEX

L Repartiţia normală redusă, 45


Repartiţia Poisson, 36
Legea numerelor mari, 15 Repartiţia Student, 50
Log-Rank, 215, 217 Repartiţii discrete, 34
Reprezentarea datelor statistice, 55
Risc, 83
M Riscul relativ, 130, 131
Mann-Whitney, 212
Media aritmetică, 41, 62, 76 S
Media aritmetică ponderată, 62
Media armonică, 63 Scale (scări) de măsură, 53
Media cronologică, 64 Semnificaţie, 131
Media geometrică, 64 Sensibilitate, 183
Media pătratică, 64 Specificitate, 183
Mediana, 31, 32, 60, 65, 67, 161 Statistica, 52, 96, 118, 129, 141, 151, 152, 212,
Metoda celor mai mici pătrate, 138, 149, 155 232, 233, 234
Model exponenţial, 148
Modele hiperbolice, 148
Modele parabolice, 147
T
Modul, 32, 65, 210 Tabele de contingenţă, 124
Momente, 71 Teorema Limită Centrală, 77, 113
Momentele centrate de ordin k, 71 Testarea modelului, 140
Momentul absolut de ordin k, 71 Testarea semnificaţiei, 152
Momentul iniţial de ordin k, 32 Teste de ipoteză, 104
Testul "t" sau Student, 113
P Testul Chi pătrat, 130
Testul ipotezei duble, 113
Paradoxul Simpson, 129 Testul ipotezei multiple. Vezi ANOVA
Permutări, 15 Testul ipotezei simple, 108
Poligonul frecvenţelor, 58 Tipuri de variabile, 27, 52, 199
Principiul certitudinii practice, 15
Probabilitatea, 10, 13, 14, 15, 17, 18, 19, 21, 22,
24, 29, 34, 35, 36, 46, 47, 48, 154, 155, 156,
V
164, 166, 187 Valoarea centrală, 67
Probabilităţi condiţionate, 20 Valoarea medie, 51
Proprietăţile probabilităţilor, 13 Valoarea predictivă, 188
Valori tipice de variaţie, 32
R Variabila aleatoare, 27, 110
Variabile aleatoare continue, 28
Raportul cotelor, 132, 206 Variabile aleatoare discrete, 27
Rata de falşi negativi, 184 Variabilitatea datelor medicale, 54
Rata de falşi pozitivi, 184 Verosimilitatea, 85, 156, 225
Regresia liniară, 137, 213
Regresia logistică, 154
Regresia multiplă, 149
W
Repartiţia binomială (Bernoulli), 35 Wald, 57, 85, 157, 181
Repartiţia Chi pătrat, 48 Wilcoxon, 167, 172, 212, 215, 217
Repartiţia exponenţială, 39
Repartiţia Fisher-Snedecor, 51
Repartiţia hipergeometrică, 34 Y
Repartiţia normală, 41 Yates, 127, 134, 206, 207

236