Sunteți pe pagina 1din 7

Prelucrarea statistico-matematică

Pentru prelucrarea datelor s-au folosit pachetele software EPI2000, distribuit de OMS,
SPSS, specializat în calcule statistice ştiinţifice, produs de firma SPSS şi modulul Data Analysis al
programului MICROSOFT EXCEL, impreuna cu suita XLSTAT pentru MS Excel.
Înregistrarea cu ajutorul programului EXCEL a datelor despre pacienţi a produs baza de date
iniţială din care s-au extras aspectele semnificative ale acestui studiu.
Prelucrarea propriu-zisă s-a făcut cu ajutorul:
• comenzilor CrossTab, BasicTables, General Tables, Correlate, Regression şi Factor
Analisys, ale programului SPSS,
• modulului ANALYSIS al programului EPI2000 specializat în executarea de grafice, tabele
şi teste statistice,
• comenzilor Pivot Tables, Functions-Statistical şi Chart din MS Excel, si comenzile din
modulul XLSTAT pentru realizarea de curbe ROC

Interpretarea datelor (si cunostintelor) medicale trebuie sa se bazeze pe o întelegere exacta a


termenilor folositi. Din acest punct de vedere, notiunea de prevalenta a unei maladii M este clara,
fiind legata de frecventa indivizilor bolnavi. Mai precis, prevalenta maladiei M este numarul de
indivizi bolnavi dintr-un esantion de 1000 de indivizi ai populatiei, alesi aleator.
Sa ne imaginam ca un test biologic S – care ar putea sa dea rezultat pozitiv sau negativ –
produce informatii asupra maladiei M. Ne intereseaza felul în care informatia privind rezultatul
testului asupra unui individ va modifica probabilitatea ca acel individ sa aiba maladia M; cu alte
cuvinte, cum se schimba probabilitatea apriorica P(M) în probabilitatea a posteriori P(M | S).

Numar indivizi: care au maladia M nu au maladia M


pentru care
Testul S da rezultat pozitiv TP FP
Testul S da rezultat negativ FN TN

Apar notiunile de senzitivitate si de specificitate a testului. Definirea lor este usoara daca
vom considera urmatorul tabel de contingenta:
Evident, un individ oarecare ar putea cadea în una dintre cele patru categorii:
– TP (true positive), care au maladia M iar testul da rezultat pozitiv,
– TN (true negative), care nu au maladia M iar testul da rezultat negativ,
– FP (false positive), care nu au maladia M iar testul da rezultat pozitiv,
– FN (false negative), care au maladia M iar testul da rezultat negativ.
Cunoscând repartizarea indivizilor, putem defini cu usurinta senzitivitatea testului S prin
proportia celor cu rezultat pozitiv în cadrul celor ce au maladia M:

Sz =TP/(TP+FN)

Analog, specificitatea testului S este proportia indivizilor care testeaza negativ în cadrul
celor ce nu au maladia M:
Sp=TN/(TN+FP)

Testului Chi pătrat a fost folosit pentru a interpreta tabelele de incidenţă; datele au fost apreciate
din punctul de vedere al dependenţei între cei doi factori de clasificare, reţinând doar rezultatele sub
5%, considerat un prag de semnificaţie suficient.
La testul chi patrat de testare a dependentei intre doi factori s-a calculat rezultatul testului pentru
datele din tabelele de incidenta, rezultat care a fost comparat cu valoarea prag care indica o
dependenta semnificativa (prag de 95% sau 99%) sau o dependenta inalt semnificativa (prag de
99.9%) intre cei doi factori de clasificare.
n
(| Oi − Ei |) 2
χ2 = ∑ ,
i =1 Ei
O - frecventa observata, E - frecventa teoretica

Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate
frecventele probabile depasesc 1. Pentru esantioane mici se poate folosi testul aplicand corectia
Yates, cunoscuta si sub denumirea de corectie de continuitate, ce implica micsorarea cu 0,5 unitati a
diferentei dintre frecventa observata si cea probabila in cadrul numaratorului lui Chi patrat (din
formula) inainte de ridicarea la patrat; astfel, valoarea lui Chi patrat scade. Scazand valoarea lui Chi
patrat, sansele ca ipoteza nula sa fie respinsa scad, astfel ca si riscul de a face o greseala de tipul I
(respingerea ipotezei nule atunci cand aceasta este in fapt veridica) scade semnificativ. Creste insa
riscul unei erori de tipul II (acceptarea unei false ipoteze atunci cand ea este in fapt falsa). Unii
statisticieni recomanda utilizarea corectiei de continuitate in cazul unui tabel de contingenta 2x2.
Altii se impotrivesc corectiei. In literatura medicala, testul Chi patrat se aplica atat cu, cat si in lipsa
corectiei.

Conditia de validitate limiteaza semnificativ utilizarea testului Chi patrat. In cazul in care o
frecventa probabila este sub valoarea 2, sau daca mai mult de 20% din frecventele probabile sunt
sub valoarea 5, se recomanda utilizarea testului exact al lui Fisher. (Atentie: frecvente probabile
calculate in cadrul testului, nu frecvente observate)
Testul exact al lui Fisher reprezinta deci o alternativa a testului Chi patrat in examinarea asociatiilor
in cadrul unui tabel de contingenta 2 x 2, atunci cand frecventele probabile sunt mici. Conditia de
aplicare a acestui test este ca totalurile pe randuri si pe coloane sa fie fixe, cunoscute dinainte.
Testul exact al lui Fisher se regaseste in majoritatea pachetelor statistice existente si returneaza, ca
si alte teste, o valoare a lui p.
Am folosit următoarea interpretare a valorilor lui p, furnizate direct de programul cu care se
realizeaza prelucrarea statistica a datelor, prin aplicarea testului de mai sus.
• p < 0.05, diferenţa între cele două medii este semnificativă (S).
• p < 0.01, diferenţa între cele două medii este înalt semnificativă(HS).
• p < 0.001, diferenţa între cele două medii este foarte înalt semnificativă(VHS).
• p > 0.05, diferenţa între cele două medii este nesemnificativă(NS).

Testul Chi pătrat arata daca exista vreo legatura (influenta reciproca) intre doi factori.

Testul Cramer verifica puterea de asociere dintre doi factori nominali si se foloseste pentru tabele
cu mai multe randuri si coloane ( pt. tabele 2x2 este preferat coeficientul phi), mai precis masoara
daca fiecare categorie a unuia dintre factori se asociaza in mod preferential cu una dintre categoriile
celuilalt factori. Rezultatul acestui test se noteaza cu V.

V = χ2 / min( r −1, c −1)

unde r si c sunt nr. de randuri si coloane din tabelul de incidenta studiat.

Testul lambda al lui Goodman şi Kruskal (λ) este o măsură de reducere proporţională a erorii.
Pentru tabele de incidenta care inregistreaza distributia unor factori nominali, valoarea
coeficientului lambda arata cu cat se reduce erorea facuta la incadrarea unui subiect (pacient) intr-o
categorie a unuia dintre factori daca stim din ce categorie a celuilalt factor face parte, decat daca il
incadram fara sa stim ce rezultat s-a inregistrat la primul factor. Atentie, este vorba de scadere
exprimata in procente din valoarea initiala a erorii, care este si ea un procent. De exemplu, o
reducere cu 40% a unei erori de 50% inseamna ca eroarea la final va fi 50% x (100%-40%)=50% x
60%=30%, si nu 50%-40%=10%.
Tot pentru testarea dependentei intre doi factori am mai folosit riscul relatv si odds ratio.

Riscul relativ
Este o măsură a legăturii între o boală şi prezenţa unui factor de risc, presupus a influenţa apariţia
bolii. Deoarece se măsoară în funcţie de riscul la cei expuşi şi riscul la cei neexpuşi, trebuie ştiut
ce înseamnă aceste două riscuri.
Riscul la cei expuşi este probabilitatea ca un individ expus, sa facă boala (indiferent din ce motiv).
Se calculează pe un lot cum este cel din exemplul din tabel, ca raportul dintre numărul celor care au
făcut boala fiind expuşi (a), şi numărul tuturor celor expuşi (a+b).
Riscul la cei neexpuşi este probabilitatea ca un individ neexpus, sa facă boala (indiferent din ce
motiv). Se calculează pe un lot cum este cel din exemplul din tabel, ca raportul dintre numărul celor
care au făcut boala fiind neexpuşi (c), şi numărul tuturor celor neexpuşi (c+d).
Riscul Relativ, este raportul dintre riscul la cei expuşi, şi riscul la cei neexpuşi.
Boala
"+" prezentă "-"absentă Total
Factor Expuşi"+" a b a+b
de risc Neexpuşi"-" c d c+d
Total a+c b+d N=a+b+c+d
Formulele sunt:
• Riscul la cei expuşi: Re = a/(a+b)
• Riscul la cei neexpuşi: Rn = c/(c+d)
• Riscul relativ RR=Re/Rn, sau RR=(a*(c+d))/(c*(a+b))
Interpretare: Riscul relativ ne spune de câte ori este mai mare probabilitatea de a face boala când
eşti expus decât atunci când eşti neexpus. În general, valori ale riscului relativ apropiate de 1
arată aproximativ aceeaşi probabilitate de a face boala, atât la expuşi, cât şi la neexpuşi, şi trebuie
considerat că factorul de risc respectiv nu are o influenţă reală asupra apariţiei bolii.
Dacă riscul relativ are valori mult mai mari ca 1, este o indicaţie că între factorul de risc şi
boală este o legătură de corelaţie care, de obicei este interpretată ca fiind CAUZALĂ, deşi nu
este chiar obligatoriu ca factorul de risc să fie CAUZĂ pentru apariţia bolii.
Există cazuri în care riscul relativ are valori subunitare (mai mici ca 1), caz în care este asimilat cu
un factor PROTECTOR. Aceasta deoarece, în aceste cazuri, este mai MIC riscul de a face boala la
cei expuşi, decît la cei neexpuşi.
În toate cazurile, valoarea obţinută este numai o aproximare a valorii reale care s-ar obţine dacă ar fi
consideraţi toţi indivizii populaţiei de referinţă (atât cei expuşi cât şi cei neexpuşi). O întrebare
pertinentă este dacă valoarea obţinută prin calcule ca cele de mai sus, referitoare la un lot anume, se
apropie suficient de mult de acea valoarea reală, corespunzătoare întregii populaţii, pe care nu o
cunoaştem. Aceasta este o problemă separată, şi se poate explica cum se determină cât de bună, sau
de precisă este valoarea calculată a riscului relativ. De obicei riscul calculat ca mai sus, se apropie
cu atât mai mult de cel real, cu cât numărul total de pacienţi din tabel este mai mare.
Riscul atribuabil este diferenţa dintre riscul la cei expuşi şi riscul la cei neexpuşi. Deşi pare la
prima vedere destul de util ca informaţie pe care o poartă, este mai puţin utilizat în practică. Are
avantajul că se exprimă în procente. Ca interpretare, se interpretează de la caz la caz, şi este mai
subiectiv decât riscul relativ, care are un grad de obiectivitate mai mare.

Odds Ratio
Nu are traducere consacrată în limba română. Se foloseşte termenul de “Raportul cotelor”, sau mai
puţin inspirat, “Raportul şanselor”.
Deoarece este raportul a două “cote”, trebuie întâi înţeles ce înseamnă cotă. În engleză, cotele se
folosesc la casele de pariuri. O cotă de 3 la 2 pentru un eveniment, înseamnă că la acea casă de
pariuri se consideră că sunt 3 şanse pentru şi 2 şanse contra ca evenimentul să se întâmpe. Sau,
două şanse să nu se întâmple, şi trei să se întâmple. De exemplu, cota echipei României la CM de
fotbal a fost într-un an de 1 la 32, adică o şansă pentru, şi 32 contra. Atenţie, nu e corect să se spună
“o şansă din 32…..”. Corect este 1 pentru şi 32 contra.
În studiile clinice, în special în studiile Caz-Martor sau, mai rar, în studiile de cohortă, se foloseşte
Odds Ratio, ca raportul între cota de îmbolnăviri la cei expuşi şi cota de îmbolnăviri la cei
neexpuşi.
• Cota de îmbolnăviri la cei expuşi este raportul dintre numărul celor expuşi la care boala este
prezentă şi numărul celor expuşi la care boala este absentă
• Cota de îmbolnăviri la cei neexpuşi este raportul dintre numărul celor neexpuşi la care boala
este prezentă şi numărul celor neexpuşi la care boala este absentă

Boala
"+" prezentă "-"absentă Total
Factor Expuşi"+" a b a+b
de risc Neexpuşi"-" c d c+d
Total a+c b+d N=a+b+c+d

Formulele sunt:
• Cota de îmbolnăviri la expuşi a/b
• Cota de îmbolnăviri la neexpuşi c/d
• Odds Ratio (a*d)/(b*c)
Ca şi interpretare, valori apropiate de 1, arată cote asemănătoare, cea ce înseamnă că expunerea nu
influenţrază prezenţa bolii. Valori mult peste 1, arată o tendinţă de corelaţie între prezenţa expunerii
şi a bolii la pacienţi, corelaţie care este considerată de obicei ca fiind CAUZALĂ, deşi nu totdeauna
este cazul.
Valori mult sub 1 arată tot o corelaţie, dar în acest caz, expunerea este considerată un factor de
PROTECŢIE.

Estimarea indicelui OR
Valoarea obţinută pentru OR folosind un lot extras dintr-o populaţie, este doar o aproximare a
valorii reale a lui OR. Calitatea aproximării este dată de intervalul de încredere de 95% (sau de
99%).
În cazul indicatorilor RR şi OR, intervalul de încredere sre următoarea interpretare:
• Dacă intervalul de încredere conţine numărul 1, valoarea indicatorului RR (sau OR), este
nesemnificativă, nu indică o corelaţie reală între factorul de risc şi boală
• Dacă intervalul de încredere nu conţine numărul 1, valoarea indicatorului RR (sau OR), este
semnificativă, indică o corelaţie reală între factorul de risc şi boală
Pentru a calcula un interval de încredere al lui OR, avem nevoie de deviaţia standard a sa, sau de
dispersie. Dispersia coeficientului OR este dată de formula:
2 1 1 1 1 
σ OR = OR 2  + + + 
a b c d 
unde a, b, c, d sunt cele patru numere înscrise în cele patru celule ale tabelului de incidenţă.
Formula de calcul a intervalului de încredere de 95% este:
I 95 % = [ OR −1,96 ⋅σ OR , OR +1,96 ⋅σ OR ]
Deci, din cele patru numere ale unui tabel de incidenţă (numerele a, b, c, d) se poate calcula OR aşa
cum s-a vazut mai sus, apoi σ , apoi intervalul de încredere.
Testul t al lui Student de comparare a mediilor pentru 2 loturi propune doua ipoteze statistice:
-ipoteza H0 (sau ipoteza de nul): diferenta intre medii este intamplatoare
-ipoteza H1: diferenta intre medii este semnificativa statistic
Rezultatul p al testului reprezinta probabilitate de a face o eroare dacă se respinge ipoteza H0 a
testului, rezultat furnizat ca un număr între 0 şi 1. Daca p este mai mic decat 0.05 respingem ipoteza
H0, de nul, si admitem ca este adevarata ipoteza H1.

La testul „t” de comparare a mediilor (testul Student), am folosit următoarea interpretare a


valorilor lui p, furnizate direct de programul cu care se realizeaza prelucrarea statistica a datelor,
prin aplicarea testului de mai sus.
• p < 0.05, diferenţa între cele două medii este semnificativă (S).
• p < 0.01, diferenţa între cele două medii este înalt semnificativă(HS).
• p < 0.001, diferenţa între cele două medii este foarte înalt semnificativă(VHS).
• p > 0.05, diferenţa între cele două medii este nesemnificativă(NS).

Testul ANOVA (Analysis of Variance) este un procedeu de analiză a varianţei unei variabile
numerice sub influienţa unei variabile de grupare. Prin ANOVA se compară medii pentru trei şi mai
multe subpopulaţii definite de variabila de grupare (variabila independentă).
Aceasta metodă permite extensia analizei realizate prin testul t, aplicabil asupra a două medii, la
situaţii în care variabila independentă (variabila de grupare) prezintă trei şi mai multe categorii
(niveluri) pentru a verifica dacă sunt diferenţe semnificative între populaţiile din care s-au extras
eşantionanele observate.
De asemenea, ANOVA poate fi folosită în analiza unor situaţii în care asupra variabilei numerice
(variabila dependentă) acţionează simultan mai multe variabile independente. În astfel de cazuri,
prin ANOVA se poate prezenta modul în care aceste variabile independente interacţionează una cu
alta şi ce efecte au aceste interacţiuni asupra variabilei dependente.
ANOVA unifactorială (One Way ANOVA) este unul din procedeele de analiză a varianţei pentru o
variabilă cantitativă dependentă de o singură variabilă factor (de grupare). Variabila factor, numită
şi variabila independentă, trebuie să fie calitativă şi trebuie să aibă un număr redus de categorii
(modalităţi).
În analiza variaţiei considerând un singur factor cauză se formulează următoarele 2 ipoteze:
-Ipoteza nulă H0: 1= 1=..... k unde x – parametrul considerat
-Ipoteza alternativă H1: cel puţin valorile a doi parametri sunt diferite între ele
Pentru verificarea ipotezei H0, în Anova se foloseşte testul statistic F – raportul Fisher. Raportul F
este calculat ca raport între doi estimatori ai varianţei, şi anume, raportul dintre estimatorul varianţei
intergrupe (between groups) şi estimatorul varianţei intragrupe (within groups). Rezultatul acestui
test poate fi exprimat ca o probabilitate p, care se interpreteaza ca si la testul Student.

S-au folosit în toate calculele, următorii indicatori statistici:


Media aritmetică a unei serii de valori. Este un indicator simplu şi în acelaşi timp foarte sintetic,
fiind un foarte bun indiciu al valorii în jurul căreia se grupează datele. Se notează cu litera m sau,
dacă seria de valori este notată cu o majusculă ca X sau Y, media se notează cu X sau Y .
Formula este cea cunoscută:
x1 + x2 +......... xn
X = =m
n
Media este indicatorul care arată tendinţa centrală a seriei de valori, şi de obicei arată unde
tind datele să se aglomereze. De cele mai multe ori, valorile din serie sunt situate în majoritate în
apropierea mediei, iar o mai mică parte din ele sunt situate mult în stânga sau în dreapta mediei.
Împrăştiere. Valorile dintr-o serie de valori pot fi mai aglomerate în jurul mediei sau mai
dispersate, adică la distanţe mari de medie. Un mod de a măsura aceste abateri de la medie este să
se facă diferenţa între toate aceste valori şi media lor. Unele abateri vor fi pozitive, altele negative.
Ele nu pot fi adunate, deoarece, prin adunare dau suma apropiata de 0.

Dispersia. Un mod de a ocoli faptul că suma abaterilor absolute este 0, este ridicarea la pătrat a
acestora înainte de a fi adunate, pentru a face să dispară diferentele. Suma obţinută ar trebui
împărţită la numărul de abateri pentru a se obţine o medie. În realitate, din motive teoretice,
împărţirea se face la n-1. Valoarea care se obţine astfel se numeşte dispersie şi este un indicator al
gradului de împrăştiere al seriei. Dispersia se notează cu D şi are formula:
( x1 − X ) 2 + ( x2 − X ) 2 + ....... + ( xn − X ) 2
D=
n −1
După cum se observă, numărătorul fracţiei din definiţia dispersiei este cu atât mai mare cu cât
abaterile individuale de la medie sunt mai mari şi deci este natural să considerăm că o valoare mare
a dispersiei arată o împrăştiere mare a valorilor din serie.
Dispersia are dezavantajul că se exprimă cu unităţile de măsură ale valorilor din serie, ridicate la
pătrat, şi are în general valori foarte mari.

Abaterea standard. Se notează cu σ şi are formula:

( x1 − X ) 2 + ( x2 − X ) 2 + ....... + ( xn − X ) 2
σ = D sau σ =
n −1
Acest indicator se exprimă cu aceeaşi unitate de măsură ca şi valorile din seria considerată şi este un
indicator foarte fidel al împrăştierii seriei. Abaterea standard nu are dezavantajele dispersiei, adică
unitatea de măsură este aceeaşi cu a valorilor din serie şi are o valoare comparabilă cu abaterile
individuale de la medie.
De reţinut :
• La medii aproximativ egale, este mai împrăştiată seria cu deviaţia standard mai mare.
• La deviaţii standard aproximativ egale, este mai împrăştiată seria cu media mai mică.

Coeficientul de variaţie. Este raportul dintre deviaţia standard şi medie, atunci când media este
diferită de 0. C.V. se exprimă în procente:
σ
C.V . =
X
Aprecierea cu ajutorul coeficientului de variaţie se face mai ales atunci când două serii de valori au
medii mult diferite şi deviaţiile standard pot să nu ne dea o indicaţie suficient de utilă.
Coeficientul de variaţie este cel mai fidel indicator al împrăştierii unei serii statistice, dar are şi el un
inconvenient, este cu atât mai fidel cu cât mediile sunt mai depărtate de 0.
La medii foarte apropiate de 0 îşi pierde din fidelitate şi nu este indicat să fie folosit. Acest lucru se
întâmplă mai ales atunci când valorile din serie sunt şi negative şi pozitive, şi când, din acest motiv,
media poate fi aproape de 0.

Daca se iau esantioane repetate din aceeasi populatie, masurile statistice de tendinta centrala si
variabilitate (media, deviatia standard) pot sa varieze de la un esantion la altul. Gradul de variatie
depinde atat de variatia care exista in populatie, cat si de dimensiunea esantionului. Mediile
esantioanelor pot fi distribuie aproximativ normal daca dimensiunea esantionului este suficient de
mare. Deviatia standard a MEDIILOR esantioanelor este numita eroare standard a mediei si are
formula:
σ D
S .E. = =
n n( n −1)

Eroarea standard a mediei este uneori folosita incorect pentru a rezuma datele. Spre deosebire de
deviatia standard, ea nu arata variabilitatea care apare in cadrul unui esantion (lot).

Cuartilele 1, 2 şi 3 (Q1, Mediana şi Q3) .


Cuartila Q1 este valoarea dintr-o serie de valori, pentru care un sfert din valorile seriei sunt mai mici
decât Q1 şi trei sferturi mai mari. Mediana este valoarea dintr-o serie de valori, pentru care jumătate
din valorile seriei sunt mai mici decât mediana şi jumătate mai mari. Cuartila Q3 este valoarea dintr-
o serie de valori, pentru care trei sferturi din valorile seriei sunt mai mici decât Q3 şi un sfert mai
mari.

Coeficientul de corelaţie.
Pentru două serii de date, coeficientul de corelaţie folosit este coeficientul lui Pearson. Deşi
distribuţiile datelor nu sunt intotdeauna de aşa natură ca rezultatele obţinute folosind acest
coeficient sa fie cele mai bune, totuşi am considerat ca este cel mai sintetic indicator al corelaţiei.
Formula folosită pentru calculul coeficientului de corelaţie Pearson este:

∑(x − X ) ⋅( y
i i −Y )
r= i =1
n n

∑(x − X ) ∑(y −Y )
2 2
i ⋅ i
i =1 i =1

unde , X ÷x1 , x2 ,....... xn şi Y ÷y1 , y 2 ,....... y n , sunt valorile măsurate pentru cei doi parametri
a căror corelaţie o calculăm şi X , Y , mediile de eşantionare respective, calculate cu formula dată
mai sus. Pătratul coeficientului de corelaţie, notat r2 a fost considerat coeficient de determinare între
cei doi parametri.

Pentru a vedea daca valoarea lui r este semnificativa sau nu, se poate calcula paametrul t, care se
poate transforma intr-o valoare p la fel ca rezultatul t al testului Student cu N-2 grade de libertate.

r
t=
(1 − r 2 ) /( N − 2)