Sunteți pe pagina 1din 81

BIOSTATISTICĂ

INFERENȚIALĂ
CADRUL CONCEPTUAL
Biostatistica - Cercetarea

 De ce cercetăm ..?
 Există multe întrebări la care medicina încă nu are
un raspuns mulțumitor
 Căutăm soluții, emitem ipoteze noi a căror veridicitate
vrem să o verificăm
 Apar fenomene noi de sănătate
 Noi întrebări, noi ipoteze de testat
Cum procedăm cănd facem
cercetare ..?

 Căutăm răspunsul pentru un pacient și


aplicăm rezultatul la toți pacienții cu aceeași
patologie..?
 NU ..!!
 De Ce ..?
 Variabilitatea biologică
Atunci cum procedăm..?

 Observațiile multiple reuşesc să depăşească


individualitatea cazurilor luate în studiu
 Permit extrapolarea rezultatelor la o
populaţie ţintă
 rezultatele se exprimă în cadrul unor intervale de
încredere
STATISTICĂ
INFERENȚIALĂ

Inferenţa statistică – obţinerea de concluzii asupra unei


populaţii pornind de la o fracţiune a ei

Testare Statistică
Estimare Statistică
Etapele unui studiu

1. Pregătirea studiului
2. Elaborarea planului de studiu
3. Culegerea şi prelucrarea datelor
4. Prezentarea primelor rezultate (rezultate
preliminare)
5. Analiza şi interpretarea rezultatelor
6. Redactarea studiului
Protocolul şi efectuarea studiului
cuprinde următoarele etape
 Definirea ipotezei de lucru
 Stabilirea populației țintă (a categoriilor de subiecți
luați în studiu)
 Alegerea factorilor care vor fi studiați, a variabilelor,
a scalelor de măsură, a standardelor utilizate
 Calculul indicatorilor epidemiologici şi eventuala
exprimare grafică adecvată
 Compararea cu indicatori deja cunoscuți
 Asigurarea că studiul nu a deviat de la populația
generală prestabilită.
Pregătirea studiului

 Fondul problemei rezidă în formularea unei


ipoteze ştiinţifice a temei de cercetat.
 Abordarea ei presupune o cunoaştere
prealabilă a domeniului atât privind
rezultatele aşteptate cît şi noțiunile
controversate.
 În cadrul strict al specialității, documentarea
bibliografică poate justifica pertinenţa
temei propuse.
Studiul bibliografic

 reprezintă verificarea şi studiul cunoştinţelor


existente în literatura mondială de profil.
 constituie o componentă obligatorie în fiecare
din etapele de realizare ale unui studiu
 cunoştințele acumulate vor servi la elaborarea
unei ipoteze de lucru precise, alegerea temei şi
precizarea subiectuluicercetării, la definirea
unor obiective ale studiului pertinente,
novatoare
Pregătirea studiului

 Ipoteza de studiu se formulează la începutul


cercetării în urma observațiilor personale şi a
documentării prealabile.
 Formularea temei de studiu, a scopului şi
obiectivelor sale; alegerea tipului de studiu.
Protocolul şi efectuarea studiului
cuprinde următoarele etape
 Definirea ipotezei de lucru
 Stabilirea populaţiei ţintă (a categoriilor de subiecți
luați în studiu)
 Alegerea factorilor care vor fi studiați - a variabilelor,
a scalelor de măsură, a standardelor utilizate
 Calculul indicatorilor epidemiologici şi eventuala
exprimare grafică adecvată
 Compararea cu indicatori deja cunoscuți
 Asigurarea că studiul nu a deviat de la populația
generală prestabilită.
Elaborarea planului de studiu

 Stabilirea populaţiei ţintă a studiului,


reprezentând populația la care se aplică
rezultatele cercetării (sau populația vizată
pentru o anumită intervenție de exemplu
vaccinare).
Elaborarea planului de studiu

 Documentare pentru a preciza cu exactitate:

 factorii care vor fi studiaţi


 modul de studiu al acestor factori
 modul de eliminare a activităţilor inutile şi a
omisiunilor regretabile
Inceputul – Definirea Variabilelor

 Variabile = Caracteristici ale subiecților


studiati, care fluctuează de la un individ la
altul
 trebuie definite de la începutul studiului
 Codificare Date
Etapa de Planificare Culegere și Codificare
a Datelor
Tema 1: Codificați baza de date creată în urma aplicării chestionarului
online: Test de determinare a vârstei biologice si a speranței potențiale
de viață
 Definirea strictă a tipului de variabilă
aleasă într-o cercetare, condiţionează:

 metodologia aplicată
 tipul studiului ales
 tipul de culegere a datelor
TIPURI DE STUDII STATISTICE
Abordare Structurare Tipul studiului
• Serie de cazuri
 Diagnostic comunitar sau
Descriptive evaluarea nevoii de
tratament

Observaţionale
 Studii transversale(de
prevalenţă)
 Ancheta epidemiologică
Analitice  Studii caz-control
(retrospective)
 Studii de cohortă
(prospective)

 Experimente clinice sau în


Experimentale teren
 Experimente de laborator
Protocolul şi efectuarea studiului
cuprinde următoarele etape
 Stabilirea populației țintă (a categoriilor de
subiecți luați în studiu)
 Definirea ipotezei de lucru
 Alegerea variabilelor, a scalelor de măsură, a
standardelor utilizate
 Calculul indicatorilor epidemiologici şi
eventuala exprimare grafică adecvată
 Compararea cu indicatori deja cunoscuți
 Asigurarea că studiul nu a deviat de la populația
generală prestabilită.
Etapa de Planificare Culegere și Codificare
a Datelor
Tema 1: Codificați baza de date creată în urma aplicării chestionarului
online: Test de determinare a vârstei biologice si a speranței potențiale
de viață
Etapa de prezentare a primelor rezultate
(rezultate preliminare)
Descrierea unui fenomen de sănătate -
Cercetare pur descriptivă

 Reprezintă prima etapă a oricărui studiu


 Permite descrierea în termeni de timp, loc,
persoană
 Permite elaborarea de ipoteze care vor trebui
testate
 Cercetare pur descriptivă – ca singur
obiectiv al studiului
 Nu descoperim cauze, ci facem un portret fidel al
patologiei studiate.
Descrierea unui fenomen de sănătate se
face în termeni de

 Timp – calendarul cronologic sau


epidemiologic al evenimentelor
 Loc – domiciliu, zonă de rezidență (exemplu:
țară, zonă endemică pentru anumite
îmbolnăviri) caracteristici geografice.
 Persoane – vârstă, sex, factori socio-
economici, caracteristici ereditare,
antecedente personale, condiții de viață.
Se răspunde astfel la întrebările:
când?, unde?, cine?
Răspunsurile se exprimă în rezultate de tip:
 Prevalență: totalitatea cazurilor de boală în populația
studiată fie la un moment dat (prevalență instantanee)
fie în cursul unei perioade date (prevalență de perioadă)
 Incidență: cazuri noi de boală apărute în populație în
decursul unei perioade determinate
 Rate de: Morbiditate, Mortalitate (numărul de decese
înregistrate într-o perioadă de timp dată raportat la
efectivul total al populației studiate), Letalitate:
proporția de deces în cadrul cazurilor de boală.
PARAMETRII DE MĂSURARE A FRECVENȚEI BOLII
ÎN EPIDEMIOLOGIE

(Prelucrare din High-Yield Biostatistics, Anthony N. Glaser)


Media
 Suma tuturor valorilor dintr-o distribuţie de frecvenţă
divizată cu numărul acestor valori
 Ex.: 5 persoane de sex masculin incluse într-un studiu privind
medicamentele antihipertensive au vârstele: 52, 55, 56. 58, 59 ;
suma acestora este 280; prin divizarea cu 5 obţinem media de vîrstă
a grupului de 56 de ani.

 Este foarte sensibilă la valorile extreme, deci nu este un


parametru care să poată caracteriza distribuţiile asimetrice
 Ex.: dacă în exemplul de mai sus ar exista un al şaselea pacient cu
vârsta de 92 de ani, atunci media de vârstă ar fi de 62 de ani, deşi un
singur bărbat are peste 60 de ani;
 o valoare mult mai mare sau mult mai mică induce o asimetri
datelor, care nu se mai distribuie normal- în aceste condiţii mediana
ar fi de preferat ca „punct de mijloc”.
Distribuţie asimetrică pozitivă

Mod Mediană Medie

28
Distribuţie asimetrică negativă

Medie Mediană Mod

29
Relaţia dintre măsurile tendinţei
centrale depinde de forma distribuţiei

 Dacă modul = mediana = media atunci distribuția


este unimodală şi simetrică, deci normală
 Dacă modul < mediana < media atunci distribuția
este uşor asimetrică spre stânga
 Dacă modul > mediana > media atunci distribuția
este uşor asimetrică spre dreapta
 Dacă modul > media > mediana atunci distribuția
este puternic asimetrică spre dreapta
 Dacă modul < media < mediana atunci distribuția
este puternic asimetrică spre stânga
Distribuţie Bimodală – Ce sugerează ?

Mod Medie Mod


Mediană
31
 Poate sugera faptul că două populații țintă
sunt amestecate, așa încât media s-ar putea
să nu fie un bun parametru de sinteză
numerică a datelor.
Etapele unui studiu

1. Pregătirea studiului
2. Elaborarea planului de studiu
3. Culegerea şi prelucrarea datelor
4. Prezentarea primelor rezultate (rezultate
preliminare)
5. Analiza şi interpretarea rezultatelor
6. Redactarea studiului
TIPURI DE STUDII STATISTICE
Abordare Structurare Tipul studiului
• Serie de cazuri
 Diagnostic comunitar sau
Descriptive evaluarea nevoii de
tratament

Observaţionale
 Studii transversale(de
prevalenţă)
 Ancheta epidemiologică
Analitice  Studii caz-control
(retrospective)
 Studii de cohortă
(prospective)

 Experimente clinice sau în


Experimentale teren
 Experimente de laborator
Etapa de culegere a datelor
Tip de studiu

 Culegerea datelor de tip eşantion reprezentativ


 Culegerea datelor de tip expus-neexpus
 Culegerea datelor de tip caz - martor
EȘANTIONAJ
MULȚIMI STATISTICE

 Populaţia statistică - o mulţime de elemente care au anumite


însuşiri comune ce fac obiectul analizei statistice
 Numărul elementelor populaţiei se numeşte volumul sau talia
populaţiei

 Eşantionul – o colecție (submulţime) finită de elemente din


populaţie selectate pe baza unor criterii
 Numărul elementelor eșantionului se numeşte volumul sau
talia eșantionului
 Eșantioane perechi (dependente):
 2 eșantioane în care elementele sunt perechi
 ex.: determinarea TAS la aceeași pacienți la includerea în
studiu și respectiv la 6 luni de la inițierea tratamentului
 elementele unui eșantion sunt selectate pentru a se
potrivi cu elementele celui de al doilea eșantion

 Eșantioane independente: probabilitatea ca un element


să fie inclus în eșantion nu depinde de selecția unui alt
element în cel de al doilea eșantion
 Parametrul (media aritmetică,
deviația standard, mediana, etc.)
 este o sinteză numerică obținută
pentru populație
 este simbolizat cu litere grecești
(ex.: µ=media populației,
σ=deviația standard a populației)
 Statistica este o sinteză numerică
obținută prin investigarea unui
eșantion.
 este simbolizată cel mai frecvent
cu litere latine (ex.: s= deviația
standard a eșantionului)
 Ex.: Hepatita B este o patologie infecțioasă cauzată de virusul
hepatitic B, având o prevalență de 5=7% în populația lumii
 Valoarea prevalenței este un parametru pentru că sintetizează
numeric ceea ce se întâmplă la nivelul populației

 Ex.: Se investighează un eșantion format din 200 de persoane din


corpul medical care lucrează în spitalele de boli infecțioase din
Albania; 2,9% dntre aceștia au prezentat virusul hepatitic B
 Această valoare reprezintă o statistică pentru că este o sinteză
obținută pe un eșantion
POPULAȚIE vs EȘANTION

 În practică, în studiile statistice se folosesc eşantioane

 Motive:
 De cele mai multe ori volumul populației nu permite investigarea
exhaustivă a acesteia
 Uneori nu putem obţine informaţii decât pentru o parte a
populaţiei, avem acces doar la o parte a populației
 Resurse limitate – timp, bani, personal
N-ar fi mai bine totuşi să pot măsura
un număr mai mic de copii, iar
rezultatele să le pot generaliza la
întreaga populaţie de copii ? Acest
lucru se cheamă eşantionaj statistic.

Eşantionul pe baza căruia reuşim să


generalizăm rezultatele la nivelul
întregii populaţii (facem inferențe
statistice), poartă numele de eşantion
reprezentativ.
EȘANTION REPREZENTATIV

 Selectarea subiecților din populație și includerea lor în


studiu
 Există criterii de includere / excludere în eșantion
 Eșantionul format trebuie să reprezinte cît mai fidel
populația țintă (reprezentativ)
 Selecția subiecților trebuie să fie aleatoare-toți membrii
populației trebuie să aibă șanse egale pentru a fi selectați
în studiu
Extragere aleatoare

 https://www.graphpad.com/quickcalcs/rando
mN1.cfm
 Excel – funcția RAND
VOLUMUL EȘANTIONULUI

 Volumul eşantionului se poate calcula în prezent cu ajutorul


programelor de calculator (de exemplu Epi Info – Stat Calc).

 Factorii ce pot influența determinarea volumului eşantionului:


 Acurateţea: valoarea reală + eroarea (cu cât volumul eșantionului
este mai mare cu atât probabilitatea de eroare este mai mică
 Costul: cu cât volumul eșantionului este mai mare cu atât costul
cercetării este mai mare
 Omogenitatea populaţiei: cu cât variabilitatea în populație este
mai mare cu atît volumul eșantionului trebuie să fie mai mare
CALCULUL VOLUMULUI EȘANTIONULUI
EPI INFO - STATCALC
CALCULUL VOLUMULUI EȘANTIONULUI
EXEMPLU în EPI INFO - STATCALC
 Din meniul programului Epi Info intrați în Utilities şi apoi în subprogramul
de calcul al volumului eşantionului numit StatCalc.
 Vom folosi un exemplu din Help-ul programului EpiInfo (selecție simplă,
fără repetiție, pentru o populație finită): Să se determine cu 95% încredere
volumul unui eşantion, calculat aleator dintr-o populaţia totală (sau ţintă) de
5000 de persoane, cunoscând că prevalenţa bolii urmărite în populaţia
studiată este de 10%, cu o eroare maximă acceptată de 3%.
 Completați câmpurile în felul următor:
 Population Size : 5,000
 Expected Frequency : 10.00%
 Worst Acceptable : 3.00%
 Confidence Level Sample Size
 Cu ce interval de încredere lucrați şi de ce ?
 Care este volumul eşantionului reprezentativ pe care trebuie să îl folosiți
pentru a vă asigura validitatea rezultatelor?
 De cine depinde mărimea eşantionului care ar determina volumul muncii
dvs. de teren în această cercetare ?
Etapele unui studiu

1. Pregătirea studiului
2. Elaborarea planului de studiu
3. Culegerea şi prelucrarea datelor
4. Prezentarea primelor rezultate (rezultate
preliminare)
5. Analiza şi interpretarea rezultatelor
6. Redactarea studiului
TESTE DE SEMNIFICAŢIE
STATISTICĂ
Ipoteze

 Formularea de noi ipoteze (sau modele sau teorii) este


una dintre cele mai importante aspecte ale cercetării
ştiințifice. Aceste ipoteze încercă să descrie sau să explice
anumite fenomene reale. In multe cazuri există ipoteze
anterioare (descrieri sau explicații) pe care oamenii de
ştiință doresc să le înlocuiască cu altele noi

 Pentru a fi valabile, ipotezele trebuie, în primul rând să


fie corecte, deci să fie testate
Metode pentru testarea ipotezelor

 Compararea a două ipoteze sau teorii


concurente
 Aceste două teorii trebuie prima dată
formulate ca modele.
 Aceste două modele în continuare vor fi
denumite prin ipoteza nulă şi ipoteza
alternativă.
Metode pentru testarea ipotezelor

 Ipoteza nulă H0 , reprezintă modelul pe care


experimentatorul ar dori să-l înlocuiască.
 Ipoteza alternativă H1 este noul model care de
regulă reprezintă o negație a ipotezei nule.
 Indiferent cum este formulat protocolul
experimentului scopul cercetătorului este de a testa
ipoteza nulă (de cele mai multe ori pentru a o
rejecta)
 Ipoteza nulă nu trebuie probată ci anulată, o
putem nega sau nu o putem nega – Inferenţa
negativă
Metode pentru testarea ipotezelor

 Prin respingerea ipotezei nule cercetătorul


afirmă că rezultatele observate nu sunt
datorate întâmplării = efect semnificativ
 Când ipoteza nulă nu este respinsă
cercetătorul afirmă că diferenţele observate
sunt datorate întâmplării şi rezultatele nu
sunt semnificative
Paşii unui test statistic-1

Formularea problemei în termenii ipotezelor statistice.


 Pentru aceasta se stabilesc: ipoteza nulă H0 şi respectiv
ipoteza alternativă H1, reprezentând o negare a ipotezei
nule.
 Ipoteza alternativă H1, este acea ipoteză care într-un
sens sau altul contrazice ipoteza nulă. Această ipoteză se
mai numeşte şi ipoteza de lucru.
 Ipoteza nulă H0, este ipoteza care trebuie testată, testul
efectuându-se sub prezumția că ipoteza nulă ar fi
adevărată
Paşii unui test statistic-2

Alegerea şi calcularea parametrului statistic al testului.


 Parametrul statistic al testului exprimă întro anumită
formă, diferența dintre elementele comparate, dintre
care cel puțin unul intervine sub forma unei statistici a
unui eşantion.
 Ţinând seama de faptul că eşantionul sau eşantioanele
utilizate sunt aleator extrase din populațiile care fac
obiectul testului, parametrul statistic este o
variabilăaleatoare de selecție, care urmează o anumită
lege de probabilitate.
Paşii unui test statistic-3

Alegerea regiunii critice.


 Trebuie să fim capabili să decidem în funcție de valoarea
parametrului statistic calculat care dintre ipoteze, cea
nulă sau cea alternativă, este adevărată.
 Dacă valoarea parametrului statistic aparține regiunii
critice, ipoteza nulă H0 va fi respinsă şi va fi acceptată
ipoteza alternativă H1.
 Dacă valoarea parametrului statistic nu aparține regiunii
critice, ipoteza nulă H0 va fi acceptată.
Paşii unui test statistic-4

Alegerea dimensiunii regiunii critice.


 Pentru aceasta trebuie să specificăm mărimea riscului de
eroare pe care îl acceptăm.
 Pe scurt, definim nivelul de semnificație, notat cu α , sau
mărimea riscului pe care suntem dispuşi să ni-l asumăm
în respingerea ipotezei nule H0 în cazul în care aceasta
este adevărată.
 De obicei se alege un nivel de semnificație între 1% şi 5%.
Paşii unui test statistic-5

Concluzia testului.
 Ipoteza nulă H0 este respinsă dacă valoarea
parametrului statistic aparține regiunii critice.
 P este o măsură a semnificației statistice
 Pragul teoretic ≠ Pragul asumat
Decizia

 Valoarea probabilității sub care se respinge ipoteza nulă


se numeşte prag de semnificaţie sau risc, pentru un
anumit test statistic.
 Pragul de semnificație este ales de cercetător şi se
notează cu  sau p-value. În general în medicină  = 0,05.

 Dacă el este maximum 5 % se respinge ipoteza nulă,


care spune că nu există diferență semnificativă statistic
între cele două populații, iar una dintre ipotezele
alternative este acceptată.
Cercetătorul:

1. Formulează ipoteza cu privire la un parametru


necunoscut al populaţiei de interes.

2. Culege datele.

3. În asumpţia că ipoteza nulă este adevărată, care este


probabilitatea de a obţine rezultate ca şi ale noastre?
(aceasta este valoarea “p”).

4. Dacă probabilitatea este mică nivelul de semnificație (<


0,05) atunci respinge ipoteza nulă.
DECIZIA - INTERPRETAREA REZULTATELOR

Pentru analiza rezultatului obținut se foloseste p-value:

 Dacă p-value > 0.05 nu există diferență statistic semnificativă


între mediile comparate
 Dacă p-value <0.05 atunci exista diferenţă statistic semnificativă
între mediile comparate (adică diferența între medii nu poate să
fie atribuită şansei, întamplării sau erorii de eşantionaj);
 Dacă p-value <0.01 atunci exista mare diferenţă statistic
semnificativă între mediile comparate
 Dacă p-value <0.001 atunci exista foarte mare diferenţă statistic
semnificativă între mediile comparate
EXEMPLU ALGORITM DE TESTARE A IPOTEZELOR STATISTICE
TESTE STATISTICE
CÂND LE FOLOSIM
Testarea ipotezei

 Ce fel de test alegem ?

 Alegerea corectă a testului depinde de:


 Tipul de variabilă (nominală, ordinală, discretă,
continuă)
 Numărul factorilor de evaluat şi numărul nivelelor
fiecărui factor
 Dacă şi când sau repetat determinările şi dacă
studiul s-a oprit (momentul efectuării măsurătorilor,
repetarea acestora)
 Numărul unităților experimentale incluse în eşantion
(volumul eşantionului)

64
Tip de Date
Scop
Variabile Cantitative Variabile Ordinale Variabile Calitative Timp de
Ranguri, Scoruri Binomiale Supravieţuire
Dihotomice
Descrierea unui grup Media, Deviaţia Mediana, cuartilele Proporţii Curba de supravieţuire
standard Kaplan Meier
Compararea unui grup cu Test t Test Wilcoxon Test Chi-pătrat
o valoare ipotetică sau
Test Binomial
Compararea a două Test T Test Mann-Whitney Test Fisher Test Mantel-Haenszel
grupuri neperechi

Compararea a două Test t pe perechi Test Wilcoxon Test McNemar Regresie


grupuri perechi

Compararea a trei sau Anova Test Kruskal-Wallis Test Chi-pătrat Cox


mai multe grupuri Regresie
independente

Compararea a trei sau Anova-măsurători Test Friedman Test Cochrane Regresie


mai multe grupuri repetate
dependente

Cuantificarea asocierii Corelaţia Pearson Corelaţia Spearman Coeficient de


între două variabile contingenţă

Prezicerea valorii unei Regresie liniară Regresie Regresie logistică Cox


variabile pe baza unei simplă neparametrică simplă Regresie
alte variabile măsurate sau
Regresie neliniară
Prezicerea valorii unei Regresie multiplă Regresie logistică Cox
variabile pe baza a mai sau multiplă Regresie
multe variabile Regresie multiplă
măsurabile sau neliniară
binomiale.
ALEGEREA METODEI
Exemplu

 Ipoteza alternativă: Există o diferență semnificativă


între media înălțimilor bărbaților şi media înălțimilor
femeilor.

 Ipoteza nulă: Nu există o diferență semnificativă între


media înălțimilor bărbaților şi media înălțimilor femeilor.
 Variabila Sex are, aşa cum am observat, două valori.

 Vom verifica mai întâi dacă dispersiile sunt omogene


pentru cele două grupuri: bărbați (valoarea 1?) şi femei
(valoarea 2?), cu ajutorul testului Bartlett.
 Se va observa că varianțele pentru înălțimea bărbaților
(2481.7762) şi pentru înălțimea femeilor (2509.2829) nu
diferă foarte mult între ele.
 Valoarea p dată de testul Bartlett este 0.9455 (foarte
apropiată de 1), ceea ce indică faptul că cele două
varianțe sunt aproximativ egale, prin urmare putem să
folosim rezultatele de la testele parametrice (fie ANOVA,
fie t).
 În cazul nostru vom folosi rezultatul dat de testul t.
 Valoarea p dată de testul t (Student) este afişată ca
0.0000, deci este foarte mică.
 Se poate respinge deci ipoteza nulă!

 Afirmația conform căreia există o diferență semnificativă


între înălțimea medie a bărbaților şi înălțimea medie a
femeilor este confirmată de datele din eşantionul folosit.
 Această diferență nu poate să fie atribuită şansei,
întâmplării sau erorii de eşantionare!
TABEL DE CONTINGENȚĂ ÎN EPI INFO
CALCULUL RISCURILOR ÎN EPI INFO
Multumesc pentru atenţia acordată!

S-ar putea să vă placă și