Sunteți pe pagina 1din 54

BIOSTATISTICĂ

INFERENȚIALĂ
TESTE DE SEMNIFICAŢIE
STATISTICĂ
Etape ale studiilor de cercetare

1. Identificarea problemei
2. Formularea scopului şi a temei de cercetat
3. Stabilirea metodelor statistice ce vor fi utilizate
4. Alegerea soft-ului statistic
5. Culegerea datelor Formularea obiectivelor
6. Prelucrarea statistică a datelor
7. Interpretarea rezultatelor

3
Paşi de urmat în studii de cercetare

1. descrierea statistică a datelor colectate


2.testarea ipotezei
3.estimarea pentru aprecierea acurateţei unui
parametru

4
Teste de semnificație statistică
 Statistica inferenţială cuprinde două laturi:
 estimarea parametrilor şi
 testarea ipotezelor.

 Unul dintre principalele aspecte ale cercetării ştiinţifice


este formularea de noi ipoteze. Întotdeauna o ipoteză nouă
trebuie testată pentru a vedea dacă este în concordanţă cu
observaţiile făcute şi pentru a arăta că este mai bună decât
alte ipoteze alternative.

 Aceste două modele se numesc ipoteza nulă şi ipoteza


alternativă. Ipoteza nulă notată H0, reprezintă modelul pe care
experimentatorul ar dori să-l înlocuiască. Ipoteza alternativă
Ha este modelul care reprezintă o negaţie a ipotezei nule.
 Ipoteza nulă (H0 ) este ipoteza care postulează faptul că
eşantioanele sau populaţiile pe care le avem de comparat în
cadrul unui studiu, experiment sau test sunt similare, între
ele nu există diferenţe semnificative statistic, sau altfel spus,
orice diferenţă este atribuită şansei, întâmplării, şi nu unui
anumit factor

 Ea se foloseşte pentru a defini semnificaţia statistică


(semnificaţia diferenţei) adică se spune că există semnificaţie
statistică între eşantioane, populaţii sau ambele datorată
altor factori decât şansa, dacă ipoteza nulă este falsă.

7
 Pentru verificarea ipotezei statistice se utilizează diferite teste
statistice parametrice şi neparametrice, constând din
calcularea unor statistici şi din stabilirea unor reguli clare de
acceptare sau de respingere a ipotezei nule H0 , cu o anumită
probabilitate.

 Valoarea probabilităţii sub care se respinge ipoteza nulă se


numeşte prag de semnificaţie sau risc, pentru un anumit test
statistic.
 Pragul de semnificaţie este ales de cercetător şi se notează cu
 sau p-value. În general în medicină  = 0,05.

 Dacă el este maximum 5 % se respinge ipoteza nulă, care


spune că nu există diferenţă semnificativă statistic între cele
două populaţii, iar una dintre ipotezele alternative este
acceptată.

8
ETAPE ALE TESTĂRII IPOTEZELOR STATISTICE

1. Formulează ipoteza cu privire la un parametru


necunoscut al populaţiei de interes.

2. Culege datele.

3. În asumpţia că ipoteza nulă este adevărată, care este


probabilitatea de a obţine rezultate ca şi ale noastre?
(aceasta este valoarea “p”).

4. Dacă probabilitatea este mică nivelul de semnificație (<


0,05) atunci respinge ipoteza nulă.
INTERPRETAREA REZULTATELOR

Pentru analiza rezultatului obţinut se foloseste p-value:

 Dacă p-value > 0.05 nu există diferenţă statistic semnificativă


între mediile comparate
 Dacă p-value <0.05 atunci exista diferenţă statistic semnificativă
între mediile comparate (adică diferenţa între medii nu poate să
fie atribuită şansei, întamplării sau erorii de eşantionaj);
 Dacă p-value <0.01 atunci exista mare diferenţă statistic
semnificativă între mediile comparate
 Dacă p-value <0.001 atunci exista foarte mare diferenţă statistic
semnificativă între mediile comparate
EXEMPLU ALGORITM DE TESTARE A IPOTEZELOR STATISTICE
TESTE STATISTICE
CÂND LE FOLOSIM
Testarea ipotezei

 Ce fel de test alegem ?

 Alegerea corectă a testului depinde de:


 Tipul de variabilă (nominală, ordinală, discretă,
continuă)
 Numărul factorilor de evaluat şi numărul nivelelor
fiecărui factor
 Dacă şi când sau repetat determinările şi dacă studiul
s-a oprit (momentul efectuării măsurătorilor,
repetarea acestora)
 Numărul unităţilor experimentale incluse în eşantion
(volumul eşantionului)

13
Tip de Date
Scop
Variabile Cantitative Variabile Ordinale Variabile Calitative Timp de
Ranguri, Scoruri Binomiale Supravieţuire
Dihotomice
Descrierea unui grup Media, Deviaţia Mediana, cuartilele Proporţii Curba de supravieţuire
standard Kaplan Meier
Compararea unui grup cu Test t Test Wilcoxon Test Chi-pătrat
o valoare ipotetică sau
Test Binomial
Compararea a două Test T Test Mann-Whitney Test Fisher Test Mantel-Haenszel
grupuri neperechi

Compararea a două Test t pe perechi Test Wilcoxon Test McNemar Regresie


grupuri perechi

Compararea a trei sau Anova Test Kruskal-Wallis Test Chi-pătrat Cox


mai multe grupuri Regresie
independente

Compararea a trei sau Anova-măsurători Test Friedman Test Cochrane Regresie


mai multe grupuri repetate
dependente

Cuantificarea asocierii Corelaţia Pearson Corelaţia Spearman Coeficient de


între două variabile contingenţă

Prezicerea valorii unei Regresie liniară Regresie Regresie logistică Cox


variabile pe baza unei simplă neparametrică simplă Regresie
alte variabile măsurate sau
Regresie neliniară
Prezicerea valorii unei Regresie multiplă Regresie logistică Cox
variabile pe baza a mai sau multiplă Regresie
multe variabile Regresie multiplă
măsurabile sau neliniară
binomiale.
PRELUCRAREA STATISTICĂ A DATELOR
– NOŢIUNI PRACTICE DE STATISTICĂ
INFERENȚIALĂ UNIVARIATĂ
Pentru variabilele calitative

 a. Calculaţi distribuţia de frecvenţe a variantelor sale;

 b. Reprezentaţi grafic distribuţia de frecvenţe a


variantelor sale cu o diagramă circulară;

 c. Observaţi eventualele frecvenţe dominante şi


variantele cele mai rare, şi căutaţi explicaţia în funcţie de
ipoteza de investigat;

 d. Pentru variantele de interes calculaţi intervalele de


încredere 95% ale frecvenţelor acestora, dacă eşantionul
este aleator;
Pentru variabilele ordinale

 a. Calculaţi distribuţia de frecvenţe ale rangurilor sale;

 b. Reprezentaţi grafic distribuţia de frecvenţe a


rangurilor ca diagrame în batoane;

 c. Observaţi eventualele frecvenţe dominante şi


variantele cele mai rare, şi căutaţi explicaţia în funcţie de
ipoteza de investigat;

 d. Pentru variantele de interes calculaţi intervalele de


încredere 95% ale frecvenţelor acestora, dacă eşantionul
este aleator;
Pentru variabilele cantitative
 a. Calculaţi parametrii/indicatorii de împrăştiere: amplitudinea,
dispersia, abaterea standard, coeficientul de variabilitate CV%;
 b. Reprezentaţi grafic distribuţia de frecvenţe a variantelor sale
prin diagrama în batoane sau histograme pentru a stabili,
coroborat cu diagnosticul de la CV% dacă distribuţia este
unimodală (omogenă), bimodală, multimodală sau omnimodală
(eterogenă);
 c. În caz de omogenitate, calculaţi media şi mediana;
interpretaţi media ţinînd cont că ea este reprezentativă pentru
eşantion cu cât CV% este mai mic;
 d. În caz de eterogenitate căutaţi să decelaţi cât mai bine câte
subeşantioane omogene sunt amestecate şi căutaţi o explicaţie
de specialitate. Dacă există, spargeţi eşantionul în
subeşantioanele respective şi trataţi-le ca mai sus. Dacă nu le
decelaţi, atunci se impun studii mai aprofundate;
Exemplu

 Ipoteza alternativă: Există o diferenţă semnificativă


între media înălţimilor bărbaţilor şi media înălţimilor
femeilor.

 Ipoteza nulă: Nu există o diferenţă semnificativă între


media înălţimilor bărbaţilor şi media înălţimilor femeilor.
 Variabila Sex are, aşa cum am observat, două valori.

 Vom verifica mai întâi dacă dispersiile sunt omogene


pentru cele două grupuri: bărbaţi (valoarea 1?) şi femei
(valoarea 2?), cu ajutorul testului Bartlett.
 Se va observa că varianţele pentru înălţimea bărbaţilor
(2481.7762) şi pentru înălţimea femeilor (2509.2829) nu
diferă foarte mult între ele.
 Valoarea p dată de testul Bartlett este 0.9455 (foarte
apropiată de 1), ceea ce indică faptul că cele două
varianţe sunt aproximativ egale, prin urmare putem să
folosim rezultatele de la testele parametrice (fie ANOVA,
fie t).
 În cazul nostru vom folosi rezultatul dat de testul t.
 Valoarea p dată de testul t (Student) este afişată ca
0.0000, deci este foarte mică.
 Se poate respinge deci ipoteza nulă!

 Afirmaţia conform căreia există o diferenţă semnificativă


între înălţimea medie a bărbaţilor şi înălţimea medie a
femeilor este confirmată de datele din eşantionul folosit.
 Această diferenţă nu poate să fie atribuită şansei,
întâmplării sau erorii de eşantionare!
Testarea unei ipoteze pentru variabilele
cantitative discrete sau continue

 Testele “t” şi “z” pentru situaţiile:


 Compararea mediei unui eşantion cu media
teoretică
 Compararea a două eşantioane independente
 Compararea perechilor
 Testul ”t” pentru n<30
 Testul “z” pentru n>30

27
Precauţii

 Dacă aplicăm testul “t” unui eşantion:

 se consideră că distribuţia acestuia este normală


 Pentru 2 eşantioane, se consideră că repartiţia în
cadrul acestora este normală (varianţa celor 2
eşantioane este egală)
 Pentru diferenţele perechilor, se admite că
diferenţele obţinute între cele două măsurători au
o distribuţie normală

28
 Testul “z” este cazul general pentru testul t,
recomandat pt. populatii numeroase (n>30)
este indicat spre a fi folosit, fiind considerat
robust.

29
PRELUCRAREA STATISTICĂ A DATELOR
– NOŢIUNI PRACTICE DE STATISTICĂ
INFERENȚIALĂ BIVARIATĂ
Pentru o pereche de variabile
calitative
 Construiţi tabelul de contingenţă corespunzător;

 Calculaţi coeficientul de contingenţă şi, dacă este cazul,


analizaţi prin testul χ2 sau testul Fisher corespunzător
asocierea versus independenţa. Testul χ2 pentru independenţă
în tabele de contingenţă este considerat valid dacă frecvenţele
aşteptate (teoretice) în ipoteza de independenţă sunt mai mari
ca 5. În practică, acest lucru se poate observa, de regulă, după
o primă prelucrare după care se trece la fuzionarea unor
variante şi reluarea calculelor cu numere mai mici de variante;

 În caz de asociere puternică (T2 apropiat de 1) şi cât mai


semnificativă (p cât mai mic) căutaţi, prin argumente de
specialitate, care ar fi cauza acestei asocieri. Atenţie
semnificaţia statistică şi semnificaţia clinică!
Pentru o pereche de variabile
calitative

 Dacă testul nu este valid din cauza a prea puţine cazuri în unele
perechi de variante, repetaţi-l după ce fuzionaţi unele clase,
obţinând noi clase cu sens pentru specialist (de ex. cu sens
clinic);

 Dacă problema invalidităţii testului se menţine, înseamnă că


aveţi prea puţine date (volum prea mic al eşantionului). Atenţie
la modul în care se stabileşte volumul eşantionului de lucru în
protocolul de cercetare iniţial !
Pentru o pereche de variabile
ordinale

 a. Calculaţi coeficientul de corelaţie a rangurilor al


lui Spearman, iar dacă este cazul, şi testul de
semnificaţie statistică corespunzător;

 Dacă acest coeficient nu diferă semnificativ de zero,


înseamnă fie că nu există o corelaţie a seriei de ranguri, fie
eşantionul este prea mic;

 Dacă acest coeficient diferă semnificativ de zero, puteţi


afirma, cu un risc mai mic decât nivelul de semnificaţie p
oferit de test, că există o corelaţie a rangurilor în populaţia
statistică. Dacă rs este pozitiv, spuneţi că există o corelaţie a
rangurilor directă, iar dacă este negativ, o corelaţie a
rangurilor inversă;
Pentru o pereche de variabile
cantitative

 a. În primul rând desenaţi o diagramă de


împrăştiere pentru a observa intuitiv dacă există o
corelaţie şi, mai ales, forma acesteia: liniară sau una
din multiplele forme de corelaţie neliniară;
Pentru o pereche de variabile
cantitative

 b. Dacă diagrama sugerează o grupare a norului de


puncte în jurul unei linii drepte ascendente ori
descendente, atunci calculaţi coeficientul de corelaţie
liniară al lui Pearson, r;

 Dacă este cazul, stabiliţi semnificaţia statistică a lui r. Dacă


acest coeficient nu diferă semnificativ de zero, înseamnă fie
că nu există o corelaţie liniară, fie eşantionul este prea mic;

 Dacă acest coeficient diferă semnificativ de zero, puteţi


afirma, cu un risc mai mic decât nivelul de semnificaţie p
oferit de test, că există o corelaţie a rangurilor în populaţia
statistică. Dacă rs este pozitiv, spuneţi că există o corelaţie
liniară directă, iar dacă este negativ, o corelaţie liniară
inversă;
BIOSTATISTICA ÎN EPIDEMIOLOGIE
- PRELUCRAREA STATISTICĂ A
DATELOR CALITATIVE
TIPURI DE STUDII STATISTICE
Abordare Structurare Tipul studiului
• Serie de cazuri
 Diagnostic comunitar sau
Descriptive evaluarea nevoii de
tratament

Observaţionale
 Studii transversale(de
prevalenţă)
 Ancheta epidemiologică
Analitice  Studii caz-control
(retrospective)
 Studii de cohortă
(prospective)

 Experimente clinice sau în


Experimentale teren
 Experimente de laborator
 Studii transversale : studiu care presupune culegerea datelor de la o
subpopulaţie sau eşantion reprezentativ, la un moment dat de timp;
 Studii longitudinale: studiul legăturilor de cauzalitate (corelaţionale),
care presupune culegerea aceloraşi variabile, în mod repetat, pe
perioade mari de timp;
 A.Studii de cohortă, prospectiv: un tip particular de studiu
longitudinal, în care un grup de pacienţi este monitorizat
îndeaproape pe termen lung; în epidemiologie, demersul se face de
la factorul de expunere la boală
 B.Studii caz-control, retrospectiv : studiu dezvoltat prin compararea a
două grupuri diferite pe baza unor factori de cauzalitate; în
epidemiologie, demersul se face de la boală la factorul de expunere
PARAMETRII DE MĂSURARE A FRECVENȚEI BOLII
ÎN EPIDEMIOLOGIE

(Prelucrare din High-Yield Biostatistics, Anthony N. Glaser)


MĂSURAREA RISCURILOR – TABELUL DE
CONTINGENȚĂ

Boală
Yes No Total

Expunere Yes a b a+b


Factor Risc No c d c+d

Total a+c b+d a+b+c+d


MĂSURAREA RISCURILOR – TABELUL DE
CONTINGENȚĂ

unde:

a = persoanele care au boala dintre cei expusi


b = persoanele care nu au boala dintre cei expusi
c = persoanele care au boala dintre cei neexpusi
d = persoanele care nu au boala dintre cei neexpusi

a+b = totalul expusilor


c+d = totalul neexpusilor
a+c = totalul bolnavilor
b+d = totalul nebolnavilor
RISCUL RELATIV
 Măsură a asociaţiei dintre incidenţa bolii și
factorul de risc investigat
 Raportul dintre rata incidenţei la expuși si
rata incidenţei la neexpuși

Incidence rate among exposed a / (a + b)


RR = RR =
c / (c+ d)
Incidence rate among unexposed

 Estimează mărimea asocierii dintre fatorul de


risc și boală
TABEL DE CONTINGENȚĂ ÎN EPI INFO
CALCULUL RISCURILOR ÎN EPI INFO
INTERPRETAREA REZULTATELOR

Risc relativ Risc atribuibil Concluzie


RR>1 RA>0 factor de risc
RR=1 RA=0 factor indiferent
RR<1 RA<0 factor de protectie
 Dacă se analizează un factor calitativ, cu
determinare unică se poate utiliza testul chi2
validat printr-un tabel de contingenţă 2x2.

 Dacă
 fiecare valoare >5 se foloseşte chi2
 fiecare valoare <5 se foloseşte testul exact a lui
Fischer

46
 Pt tabele 2x2 se foloseşte corecţia lui Yates de
continuitate

 Testul chi pătrat corectat este cel mai robust test


pentru validarea ipotezei nule.

 Pentru ca să fie adecvat trebuie ca toate


compartimentele să aibă valori de cel puţin 1, iar cel
puţin 80% dintre acestea valoarea aşteptată de 5
sau mai mult.

47
Teste neparametrice
 Testele neparametrice testează ipoteza nulă sau
determină “limitele de încredere” pentru eşantioane şi
populaţii fără a se ţine cont de distribuţia populaţiei.
 Tipuri de teste neparametrice:
 -Testul Wilcoxon al sumei rangurilor, este un test pentru date
neperechi sau împerechiate şi este o alternativă a testului “t” al
lui Student pentru eşantioane perechi.
 -Testul Wilcoxon pentru două eşantioane este un test pentru
date neîmperecheate şi este o alternativă a testului “t” al lui
Student pentru eşantioane independente.
 -Testul “U”Mann-Whitney, duce la rezultate echivalente cu
testul Wilcoxon pentru două eşantioane.
 -Testul exact Fisher, se aplică pentru tabele de contingenţă
“2x2”, în aceleaşi condiţii ca testul “c2” dar când frecvenţele
aşteptate sunt mai mici decât 5. 48
Testarea ipotezei în legătură cu un răspuns
variabil ordinal între două nivele ale unui
factor calitativ pentru care s-a făcut o
măsurătoare

 Ex determinarea discriminării pe sexe a angajării


profesionale într-un centru medical
 Formularea ipotezelor
 teste recomandate:
 Testul U (Mann Whithney) – cel mai robust
 Testul Wilcoxon
 Testul medianei
 Testul Kolmogorov-Smirnov

49
Analiza unui factor calitativ cu mai mult
de două nivel
 Ex. Felul în care nivelul durerii în artrite este modificat de patru categorii
de medicamente

 Testul recomandat Krusckal Wallis (tip de varianţă Anova) – nu necesită


loturi egale

 Ipotezele formulate:
 Ho nu există diferenţă în distribuţia nivelului durerii înregistrate între
droguri
 H1 distribuţia nivelului durerii nu este aceeaşi pentru cele 4
medicamente

 Ia forma lui chi pătrat, nr. gr de liberatate se calculează cu formula m-1,


unde m=nr. factorilor de analizat (3)

 Restricţii:
 nr. factorilor să nu fie mai mare de 3
 Nr max al variabilelor este de 15 50
De reținut:
 Identificarea corectă a variabilelor investigate permite
analiza statistică corectă
 Întotdeauna cînd este posibil colectăm date cantitative
 Transformarea datelor cantitative în calitative se face cu
pierdere de informaţie
 Scopul statisticii descriptive este de a prezenta realitatea
statistică
 Scopul statisticii inferenţiale este de a concluziona
existenţa sau nu a diferenţei semnificative statistic
De reținut:
 În cercetarea medicală evaluăm eșantionul pentru a
identifica ce se întâmplă în populaţie
 Doar eșantionul corect selectat din populaţie (eșantion
reprezentativ) permite extrapolarea, generalizarea
rezultatelor obţinute pe eșantion la nivelul întregii
populaţii
 Evaluarea întregii populaţii nu se realizează deoarece
este costisitoare, consumatoare de timp, și de cele mai
multe ori imposibilă
 Există mai multe tipuri de teste de semnificaţie dar
pentru toate se urmează același model de lucru
Multumesc pentru atenţia acordată!

S-ar putea să vă placă și