Sunteți pe pagina 1din 27

Curs 1

BIOSTATISTICĂ PENTRU
CERCETAREA MEDICALĂ
Conținutul acestui curs:
• Tipuri de date
• Sintetizarea datelor
• Reprezentari grafice
• Distribuția normală
• Eșantionare
• Eroarea standard si intervale de încredere
• Teste de semnificație: principii, interpretarea valorii p,
erori, legatura cu intervalele de incredere, teste de
semnificatie multipla
• Metode de inferență pentru medii
• Tabele de contingență, testul hi-patrat, testul Fisher
• Corelatia si regresia
Tipuri de date
• Datele calitative (variabilă categorială,
variabilă de clasificare sau atribut) apar
atunci când indivizii pot aparține unor (fi
clasificați în) clase separate.
• Datele cantitative sunt numerice și sunt
obținute fie prin numărare (întregi - discrete)
fie sunt rezultatul unei măsurători (valori din
interval – continue).
Tipuri de date
• Populație - nr mare de indivizi
- caracter dinamic
- este bine definită la un moment de timp dat
• Eșantion-ul este parte “mică” din populaţie (se poate
extrage suficientă informaţie pentru a se face inferenţe
asupra caracteristicilor studiate la nivelul populaţiei)
• Variabilele sunt calități sau cantități care pot să aibă
valori diferite de la un membru al unui grup (eșantion) la
altul.
• O statistică este o formulă a cărei valoare se obține cu
ajutorul datelor dintr-un eșantion.
Sintetizarea datelor
Numărul de persoane care aparțin unei anumite categorii se numeşte frecvenţă.
Proporţia persoanelor care aparțin unei anumite categorii se numește frecvență
relativă.
Muțimea valorilor frecvenţelor pentru toate categoriile posibile se numeşte
distribuţie de frecvenţă a variabilei.
Frecvenţa cumulată pentru o valoare a unei variabile reprezintă numărul de
indivizi cu valori mai mici sau egale cu această valoare.
Frecvenţa cumulată relativă pentru o valoare este proporţia de indivizi din
eşantion cu valori mai mici sau egale cu această valoare.
Mediana este valoarea centrală a distribuţiei astfel încât jumătate dintre
observaţii sunt mai mici sau egale decât valoarea ei şi jumătate sunt mai mari sau
egale cu aceasta (cuartile).
Media artimetică, de obicei întâlnită sub denumirea simplă de medie, se obține
prin însumarea valorilor tuturor observațiilor și apoi prin împărțirea sumei la
numărul lor.
Amplitudinea este diferenţa dintre cea mai mare şi cea mai mică valoare.
Varianța sau dispersia este media aritmetică a pătratelor diferențelor dintre
observații și media lor.
Abaterea standard (SD = standard deviation) este rădăcina pătrată din varianță
sau dispersie.
Reprezentari grafice
Oy: Sănătoși

Frecvența relativă
Pacienți cu
Frecvența

accident vascular

Colesterolul seric (mmol/L)


Ox: Colesterolul seric (mmol/L)
Distribuția normală
Multe metode statistice sunt valabile numai dacă se poate
presupune că datele urmează o distribuţie de un anumit tip și
anume distribuţia normală. Aceasta este o distribuție continuă,
simetrică și unimodală descrisă printr-o ecuație matematică
complexă.

Densitate de frecvență relativă


Valori importante din tabela distribuției
normale:
1. Estimăm că 68% din observaţii se află
în intervalul de o abatere standard de
o parte și de alta a mediei
2. Estimăm că 95% din observații să află
în intervalul de 1.96 abateri standard
de o parte și de alta a mediei
3. Estimăm că 99.7% din observații să Înălțimea (g)
află în intervalul de 3 abateri standard
de o parte și de alta a mediei
Regula celor 3 ! Aceste afirmații sunt adevărate pentru orice distribuție normală
indiferent de medie, varianță sau abatere standard.
Distribuția normală
Distribuţia normală este importantă din două motive:
1. Multe variabile naturale sunt foarte apropiate sau
destul de apropiate de această distribuție ceea ce
ne permite utilizarea în analiza lor a metodelor
statistice care cer distribuția normală.
2. Chiar şi atunci când avem o variabilă care nu
urmează o distribuţie normală, dacă am extrage mai
multe eşantioane de observaţii, mediile calculate în
aceste eșantioane urmează o distribuţie normală
(teorema limită centrală).
Eșantionare
Eșantioanele ne spun ceva referitor la populația din care
sunt extrase.
Estimările care se pot obţine din toate eșantioanele posibile
extrase în acelaşi mod dintr-o populație au o distribuţie
numită distribuţie de eşantionare.
Indiferent de distribuția populației din care a fost extras eșantionul:
1. Mediile acestor eșantioane au o distribuție care are aceeași
medie ca media populației din care au fost extrase.
2. Distribuţia mediilor acestor eșantioane are o abatere standard mai
mică decât abaterea standard a populației din care au fost extrase,
și cu cât eșantioanele au dimensiune mai mare cu atât abaterea
standard ale mediilor eșantioanelor va fi mai mică.
3. Forma distribuției mediilor eșantioanelor se apropie de forma
distribuţiei normale când dimensiunea eșantioanelor crește.
Orice statistică calculată pentru un eșantion, precum media,
proporția, mediana sau abaterea standard, are o distribuție de
eșantionare.
Eroarea standard si intervale de încredere
Eroarea standard se folosește pentru a
descrie cât de bună este o anumită
estimație (abaterea standard a distribuţiei
de eşantionare).
Intervale de încredere sunt un alt mod de a
vedea cât de apropiate sunt estimările din 95%
eșantioane față de la cantitatea care se
dorește a se estima.
Intervale de încredere sunt numite de
”estimări de tip interval”, deoarece se
estimează o limită inferioară și una
superioară între care sperăm să se afle
valoarea reală.
Intervalul de 95% încredere se află între
valoarea observată în eșantion minus 1.96
x eroarea standard şi valoarea observată în
eșantion plus 1.96 x eroarea standard
Teste de semnificație
Pentru a face un test de semnificație vom presupune că, în
populație, nu există nici o diferenţă înainte şi după ...
Ipoteza referitoare la "nici o diferenţă" sau "nici un efect" în
populaţie se numeşte ipoteza nulă.
Vom compara această cu altă ipoteza numită alternativă
referitoare la faptul că există o diferenţă.
Vom determina cât de probabilă ar fi apariția unor date precum
cele observate, dacă ipoteza nulă ar fi adevărată.
Dacă această probabilitate este mare atunci datele sunt în
concordanţă cu ipoteza nulă; în cazul în care acesta este mică
atunci este puţin probabil ca astfel de date să fi apărut dacă
ipoteza nulă era adevărată şi dovezile sunt în favoarea ipotezei
alternative.
Principii generale în testele de
semnificație
Procedura generală pentru un test de semnificație:
1. Stabilirea ipotezei nule şi a ipotezei alternative.
2. Verificarea ipotezelor de testare.
3. Calculul valorii statisticii testului.
4. Compararea valorii statisticii testului cu o valoarea
cunoscută a distribuţiei care ar fi urmate în cazul în care
ipoteza nulă este adevărată.
5. Determinarea probabilității unei valori a statisticii
testului în care în care una sau mai multe valori extreme
sunt observate, în cazul în care ipoteza nulă este
adevărată.
6. Concluzionarea că datele sunt în concordanță sau în
contradicţie cu ipoteza nulă.
Semnificație statistică
În cazul în care datele nu sunt în concordanţă cu ipoteza
nulă, diferenţa este declarată a fi statistic semnificativă.
În cazul în care datele sunt în concordanţă cu ipoteza nulă,
diferenţa se spune că nu este semnificativă statistic.
Putem vedea probabilitatea testului de semnificaţie ca un
index de putere a dovezii împotriva ipotezei nule.
Probabilitatea unei valori extreme a statisticii testului care
apare în cazul în care ipoteza nulă este adevărată este
adesea numită valoare p.
Valoarea p nu este probabilitatea ca ipoteza nulă să fie
adevărată.
Ipoteza nulă poate să fie adevărată sau nu, ea este
aleatoare şi nu are probabilitate.
Interpretarea valorii p
Valoarea p = puterea evidenței (dovada) pentru a respinge
ipoteza nulă, pragurile fiind:
Valoarea p Evidență pentru diferență sau relație
(nivel de semnificație) existentă
Mai mare ca 0.1 Evidență aproape inexistentă (lipsa ei)
Între 0.05 și 0.1 Evidență slabă
Între 0.01 și 0.05 Evidență
Mai mică de 0.01 Evidență puternică
Mai mică de 0.001 Evidență foarte puternică
Nivele de semnificație și tipuri de erori
Decizia de a respinge ipoteza nulă când ea este adevărată se numeşte
eroare de primul tip, eroare de tipul I, eroare  (alfa) sau nivel de
semnificaţie.
Există și o eroare de al doilea tip sau eroare de tipul al II-lea, sau
eroare  (beta) dacă vom decide în favoarea ipotezei nule care este
de fapt falsă.

Compromisul convenţional este de a spune că diferenţele sunt semnificative


dacă probabilitatea este mai mică de 0.05.
Teste de semnificație și intervale
de încredere
De multe ori implică calcule similare.
Dacă intervalul de 95% încredere (95% CI) nu include valoarea la care
se referă ipoteza nulă atunci diferenţa este semnificativă.
De exemplu, pentru diferenţa între două proporţii, valoarea ipotezei
nule este zero.
Dacă intervalul de 95% încredere conține zero, diferența nu este
semnificativă.
Dacă intervalul de 95% încredere nu conține zero, diferența este
semnificativă.
Teste de semnificație multiplă
Dacă se testează o ipoteză nulă care este de fapt adevărată, folosind
0.05 ca nivel de semnificaţie critic, probabilitatea de a obține concluzia
că "nu este semnificativă" (adică corect), este 0.95. Probabilitatea de a
obține concluzia că "este semnificativă" (adică fals) este de 0.05.
Dacă vom testa două ipoteze nule adevărate, independente una de
cealaltă, probabilitatea ca testul să nu fie semnificativ este de (0.95)2 =
0.90. Probabilitatea ca cel puţin una dintre acestea să fi semnificative
este 1.00 - 0.90 = 0.10.
Dacă vom testa de douăzeci de ipoteze nule, probabilitatea ca nici una
dintre ele să nu fie semnificativă este de (0.95)20 = 0.36. Probabilitatea
de a obţine cel puţin un rezultat semnificativ este 1.00 - 0.36 = 0.64.
Deci avem o probabilitate aproape egală de a obține un rezultat
semnificativ sau nu!
Numărul estimat de rezultate false semnificative este 20  0.05 = 1.
Metode de inferență pentru medii
• Eșantioane mari
– O singură medie: Metoda normală (metoda z)
– Date în perechi: Metoda normală (metoda z)
– Două eșantioane: Metoda normală (metoda z)
• Eșantioane mici
– O singură medie: Metoda t pentru un eșantion
– Date în perechi: Metoda t pentru eșantioane perechi
– Două eșantioane: Metoda t pentru două eșantioane
(metoda t pentru eșantioane independente, metoda t
pentru două grupuri)
• Mai mult de două eșantioane
– Analiza de varianță unidirecțională (ANOVA)
O singură medie
Interval de 95% încredere care folosește distribuția normală
(eșantion mare) sau distributia t (esantion mic):
media – 1.96  eroarea , media + 1.96  eroarea
standard a mediei standard a mediei
media – t0.05  eroarea , media + t0.05  eroarea
standard a mediei standard a mediei

Presupuneri:
Observaţiile din grup sunt independente între ele (eșantion mare
şi mic)
Observațiile provin dintr-o distribuție normală (esantion mic)
Date în perechi
Interval de încredere (CI) pentru media diferențelor bazat pe
distribuția normală (eșantion mare) sau distributia t (esantion
mic).
Test de semnificație:
- Ipoteza nulă: Media schimbărilor în populație este 0.
- Ipoteza alternativă: Există o schimbare (în orice direcție).
Diferența dintre media observată în eşantionul și media
populației (aici 0) împărţită prin eroarea standard (statistica
testului) va urma distribuţia normală standard (eșantion mare)
sau distributia t (esantion mic) cu n – 1 grade de libertate.
Presupuneri:
Observațiile din fiecare grup sunt independente între ele
(diferenţele intre observaţiile corespondente sunt
independente) (eșantion mare şi mic)
Diferențele urmează o distribuție normală (eșantion mic)
 Studierea efectului marimii esantionului (eșantion mare şi
mic)
Date independente
Intervalul de încredere pentru diferența mediilor bazat pe
distribuția normală (eșantion mare) sau distributia t (esantion
mic).
Ipoteza nulă pentru testarea egalitatății cu 0 a diferenţei mediilor.
Diferența dintre media observată în primul eşantion și cel de-al
doilea împărţită prin eroarea standard va urma distribuţia
normală standard (eșantioane mari) sau distributia t (esantioane
mici) cu n1 + n2 – 2 grade de libertate.
Presupuneri:
 Observațiile din fiecare grup si grupurile sunt
independente între ele (eșantion mare şi mic)
 Distribuția observatiilor este normală pentru fiecare grup
(eșantion mic)
 Varianțele sunt aceleași în fiecare populație (eșantion
mic)
Atentie la calculul erorii standard!
Tabele de contingență
Tabel încrucișat pentru două variabile categoriale sau calitative
(tabel de contingenţă).

Se dorește testarea ipotezei nule care stabilește că nu există nici o


relaţie (asociere) între două variabile (de tip categorial).
Dacă eșantionul este mare putem să folosim testul hi-pătrat.
Dacă eșantionul este mic, vom folosim testul Fisher exact.
Testul hi-patrat
Testul se bazează pe calculul frecvenţelor așteptate (estimate)
presupunând că ipoteza nulă este adevărată:
total liniex totalcoloana
totalgeneral
Se compară frecvenţele observate cu cele estimate.
Se adună (observat - aşteptat)2/aşteptat pentru fiecare celulă din
tabel (statistica testului).
Dacă ipoteza nulă este adevărată și dimensiunea eșantioanelor
este suficient de mare, atunci această statistică urmează distribuția
hi-pătrat, adesea notată cu 2 cu (r - 1) × (c - 1) grade de libertate.
Test care se folosește pentru eșantioane care sunt destul de mari.
Criteriul convențional pentru ca testul să fie valid este următorul:
cel puţin 80% din frecvenţele estimate depăşesc valoarea 5 şi toate
frecvenţele estimate depăşesc valoarea 1.
Testul exact Fisher
Este cunoscut și sub numele de testul exact Fisher-Irwin.
Aceasta se poate aplica pentru orice tip de eşantion.
Este folosit în general numai pentru eșantioane mici în tabele
de tip 2 x 2 din cauza problemelor de calcul.
Se calculează probabilitățile (distribuţia hiper-geometrică)
tuturor tabelelor posibile care au date totalurile pe rînduri și
coloane.
Se însumează apoi probabilităţile pentru toate tabelele pentru
care am obținut probabilități mai mici decât cea observată.
Există şi o variantă corectată a testului hi-pătrat cunoscut sub
denumirea de corecția de continuitate (corecția Yates)
Coeficient de corelație
Coeficientul de corelație (notat cu r sau R) măsoară forţa de asociere
sau puterea de asociere a 2 variabile cantitative de tip continuu.
Valoarea minimă = -1.00. Valoarea maximă = 1.00.
Este cunoscut și sub numele de coeficient de corelaţie Pearson.
Regresia liniară simplă
Regresia: Putem prezice y cu ajutorul x?
Care este valoarea medie a lui y pentru orice valoare
observată a lui x?
Relația liniară simpla: y = intercept + panta × x
Relaţia estimată se numeşte liniară deoarece reprezentarea
sa grafică este o linie sau mai bine-zis o dreaptă.
Panta si interceptul se calculeaza cu ajutorul principiului
celor mai mici pătrate (se minimizeaza diferenţele între
valorile observate şi valorile prezise de linie).
Se pot determina intervale de încredere şi valorile p
pentru coeficienţii obținuți.
Presupuneri: Abaterile de la linia de regresie trebuie să
aibă o distribuție normală cu varianță uniformă.
Regresia liniară multiplă
Regresia: Putem prezice y cu ajutorul x1, x2,… ?
Care este valoarea medie a lui y pentru orice valoare
observată a lui x1, x2 …?
Relația liniară multipla:
y = intercept + panta × x1 + panta × x2 + …
Panta si interceptul se calculeaza cu ajutorul regresia
obişnuită a celor mai mici pătrate sau OLS (ordinary
least squares) (se minimizeaza diferenţele între valorile
observate şi valorile prezise de ecuatie).
Presupuneri:
Abaterile de la linia de regresie trebuie să aibă o distribuție normală
 Varianța să fie uniformă
 Observațiile trebuie să fie independente

S-ar putea să vă placă și