Sunteți pe pagina 1din 50

CURSUL 5

Inferen referitoare la
medii

Metode de inferen pentru medii


CE ESTE INFERENA STATISTIC?
fundamentarea unor concluzii generale pe baza utilizrii unor date
empirice limitate
n virtutea unor raionamente logico-probabilistice

presupune existena unui eantion


servete drept baz pentru descrierea populaiei din care a fost extras

CONCEPTE AJUTTOARE
Distribuia de eantionare
Eroarea standard
Distribuia normal
Intervalul de ncredere

Distribuia de eantionare
Toate eantioanele au o msur numeric folosit pentru a spune ceva (a
face inferene) despre aceeai msur n populaie.
Facem inferene despre parametrul din populaie, folosind statistica din
eantion.
Parametrul este ntotdeauna o constant.
Statistica din eantion variaz ntotdeauna, deci constituie o variabil
aleatoare - posed o distribuie de probabilitate.
Pentru media din eantion, avem distribuia de eantionare a mediilor.
Pentru abaterea standard din eantion, avem distribuia de eantionare a
abaterilor standard.

Distribuia de eantionare
Cte eantioane posibile exist?
R: o infinitate

Cte medii posibile de eantioane exist?


R: o infinitate

Eroarea de eantionare:
distana de la statistica din eantion la parametrul din populaie. Este datorat
ntmplrii

Eroarea de non-eantionare:
erori datorate altor factori, nealeatori (operatori de teren, operatori de introducere,
de prelucrare, etc.)

Observaii:
deviaia standard a distribuiei de eantionare este mai mic dect cea din
populaie
deviaia standard a distribuiei de eantionare scade din ce n ce mai mult, pe
msur ce cretem mrimea eantionului

Teorema Limit Central


Pentru un eantion de mrime mare, forma distribuiei de eantionare este normal, indiferent
de forma distribuiei n populaie.
Concluzii:
Dac vom calcula mediile tuturor eantioanelor de aceeai mrime (mare), vom constata c:
aproximativ 68% dintre acestea se afl la o distan de 1 E.S. fa de media din populaie
aproximativ 95% dintre acestea se afl la o distan de 2 E.S. fa de media din populaie

Rezult c distribuia de eantionare este o distribuie de


probabilitate continu, care arat statisticile din eantion i
probabilitile asociate acestora.
Media acestei distribuii x este media tuturor mediilor de eantioane
posibile i este chiar media din populaie.
Abaterea standard a acestei distribuii (a acestei variabile aleatoare)
se numete Eroare Standard i este egal cu:

Principii Generale
n studiul ntr-o populaie P a parametrilor a unei caracteristici oarecare (cantitative sau
calitative) este necesar n mod frecvent s se urmeze procedeul:
1. Se extrage un eantion reprezentativ al acestei populaii.
2. Prin mijloacele statisticii descriptive se descrie distribuia caracteristicii pe eantionul
extras. Astfel se poate determina frecvena observat, dac este vorba de o caracteristic
calitativ, sau se calculeaz media i variaia, n cazul unei caracteristici cantitative.
3. Prin mijloacele statisticii infereniale sau inductive se extind la ntreaga populaie
rezultatele observate pe eantion. Pornind de la parametrii observai (frecvena, media,
variaia, etc) pe eantion se ncearc s se estimeze parametrii teoretici ai ntregii
populaii.

Metode de inferen pentru medii

O SINGUR MEDIE-METODA PENTRU


EANTIOANE MARI
Pentru a calcula intervale de ncredere i pentru a aplica testarea
statistic de semnificaie n cazul mediilor eantioanelor mari vom
folosi distribuia normal
Proprieti aplicabile doar n cazul eantioanelor mari:
mediile eantioanelor mari extrase n acelai mod urmeaz o
distribuie normal
abaterea standard estimat ntr-un eantion mare va fi aproape de
aceea a ntregii populaii - eroarea standard estimat n eantion
este o bun estimaie

O SINGUR MEDIE-METODA PENTRU


EANTIOANE MARI
vom determina intervale de ncredere pentru mediile eantioanelor
mari folosind distribuia normal.
estimm eroarea standard a mediei - se obine cu ajutorul abaterii
standard calculat pentru observaiile din eantion (eroarea standard
a mediei fiind abaterea standard mprit la rdcina ptrat a
numrului de observaii din eantion)
Intervalul de 95% ncredere este de la media minus 1.96 x eroarea
standard la media plus 1.96 x eroarea standard

O SINGUR MEDIE-METODA PENTRU


EANTIOANE MARI

Condiii care trebuie ndeplinite:


Observaiile sunt independente ntre ele
Nu putem folosi, de exemplu, un eantion de 100 de observaii n
care avem 10 subieci cu cte 10 observaii fiecare

Eantionul este suficient de mare pentru ca erorile standard s fie


bine estimate.
Ca regul empiric: ar trebui s avem cel puin 100 observaii
pentru un grup.

DIFERENE NTRE MEDIILE


EANTIOANELOR PERECHI
n cercetarea medical se dorete adesea, mai degrab s se compare
grupuri de subieci dect s se estimeze media unei populaii, pe baza
datelor provenite dintr-un eantion
Studiu - Christensen et al. (2004) - se compar modificrile strii de
depresie cu ajutorul unui chestionar aflat pe internet.
Au fost recrutate 525 persoane cu simptome de depresie identificate printr-un sondaj. Ei
au fost alocai aleatoriu la site-ul web BluePages care ofer informaii despre depresie (N
= 166), la site-ul web MoodGYM prin se realizeaz o terapie cognitiv comportament (N =
182) sau la un grup de control care folosete placebo (N = 178). Principalele rezultate a
fost msurate la Centrul pentru Studii epidemiologice cu ajutorul unei scale pentru
depresie

DIFERENE NTRE MEDIILE


EANTIOANELOR PERECHI
Scorul iniial i dup ase sptmni de tratament pentru un grup de 525 pacieni cu depresie

Deoarece cele trei grupuri de tratament sunt toate eantioane destul de mari, se poate estima un interval de ncredere pentru media
fiecruia dintre ele

BluePages - 165 de subieci


- o medie diferenelor n scoruri de 3.9
- abatere standard de 9.1.
- Eroarea standard a mediei este 0.71
- astfel, intervalul de 95% ncredere pentru media diferenelor este de 3.9 - 1.96 x 0.71 la 3.9
+ 1.96 x 0.71, adic de la 2.5 la 5.3 puncte pe scala depresiei. !Atenie: 0 nu se afl n interval
- Aceasta reprezint o estimare pentru intervalul de diferene ale mediilor punctajelor,
presupunnd ca rspunsul nonrespondenilor este acelai.

DIFERENE NTRE MEDIILE


EANTIOANELOR PERECHI
Putem testa
ipoteza nul - stabilete c media diferenelor este zero
ipoteza alternativ - stabilete c exist o schimbare, n orice direcie
Deoarece eantionul este mare, media va avea o distribuie normal
cu o abatere standard egal cu eroarea standard a mediei (0.71)
Diferena dintre media observat n eantion i media necunoscut a
populaiei (0) mprit prin eroarea standard (statistica testului) va
urma distribuia normal standard

DIFERENE NTRE MEDIILE


EANTIOANELOR PERECHI
Ipoteza nul: media schimbrilor n populaie este zero
dac acest lucru este adevrat, media observat n eantion mprit
prin eroarea standard va urma o distribuie normal standard
Pentru grupul BluePages aceasta este z = 3.9/0.71 = 5.49.
Probabilitatea de a obine o astfel de o valoare extrem la distribuia
normal standard este foarte mic, de 0.00000004. Nu putem fi siguri
c aproximarea distribuiei normale este suficient de bun pentru
probabiliti foarte mici, aa c vom cita rezultatul n forma: p<0.0001
Acesta este testul pentru o singur medie n cazul eantioanelor mari
care au distribuie normal, test cunoscut, de asemenea, i sub
denumirea de testul z pentru o singur medie.

Condiiile care trebuiesc ndeplinite pentru


aplicarea acestei metode sunt:
Observaiile trebuie s fie independente;
Eantionul trebuie s fie suficient de mare. Regula empiric spune c
trebuie s avem cel puin 100 observaii pentru un grup;
Media i abaterea standard a diferenelor sunt constante, adic nu au
legtur cu dimensiunea variabilelor.

COMPARAREA MEDIILOR A DOU


EANTIOANE MARI INDEPENDENTE

COMPARAREA MEDIILOR A DOU


EANTIOANE MARI INDEPENDENTE

COMPARAREA MEDIILOR A DOU


EANTIOANE MARI INDEPENDENTE
Putem efectua aceleai calcule pentru a compara fiecare grup cu intervenie
activ cu grupul de control.
Pentru BluePages comparat cu grupul de control
diferena mediilor este 3.9 - 1.0 = 2.9
eroarea standard a diferenei este de 0.95
intervalul de 95% ncredere este de la 2.9 - 1.96 x 0.95 la - 2.9 + 1.96 x 0.95, adic de la 1.0
la 4.8. 0 nu se afl n interval
Testul de semnificaie d z = 2.9/0.95 = 3.05, p = 0.002.

Pentru MoodGYM comparat cu grupul de control

diferena mediilor este de 3.2


eroarea standard de 0.92
intervalul de 95% ncredere este de la 1.4 la 5.0 0 nu se afl n interval
z = 3.48, p = 0.0005

COMPARAREA MEDIILOR A DOU


EANTIOANE MARI INDEPENDENTE
Dac se dorete testarea ipotezei nule de ansamblu care stabilete c
cele trei tratamente produc aceeai scdere medie n populaie,
aceasta se poate face prin aplicarea coreciei Bonferroni pentru cele
trei valori p

Multiplicarea cu 3 ar da cea mai mic valoare p = 0.0005 x 3 = 0.0015,


care rmne nc extrem de important

COMPARAREA MEDIILOR A DOU


EANTIOANE MARI INDEPENDENTE
Metoda pentru compararea a dou medii n cazul eantioanelor mari,
normal distribuite, necesit ndeplinirea a dou condiii:
Observaiile i grupurile trebuie s fie independente ntre ele.
Nu trebuie s existe legturi ntre observaiile dintre cele dou grupuri
Ex: un studiu n care fiecare subiect dintr-un grup este relaionat, de exemplu,
prin vrst i sex, cu un subiect din cellalt grup.

Eantioanele trebuie s suficient de mari pentru ca erorile standard


s fie bine estimate iar mediile s aib o distribuie normal.
Regula empiric spune c pentru un singur eantion ar trebui s avem cel
puin 100 de observaii, iar pentru dou eantioane de cel puin 50 de
observaii n fiecare dintre ele.

DISTRIBUIA T
n cazul eantioanelor mici nu se pot aplica metodele pentru eantioane mari care sunt normal
distribuite - problem abordat de un statistician care i-a publicat rezultatele sub pseudonimul
de Student - distribuia t sau Student
Condiii de utilizare pentru testul z:
cunoatem media populaiei de referin
eantion mare (N 30)
pentru eantioane cu N<30
testul t
se bazeaz pe aceeai logic ca i z
distribuia t (Student)
subspecie a distribuiei normale a crei form este n funcie de gradele de libertate
(degree of freedom)
df=N-1
Student ... William Gosset, 1908

DISTRIBUIA T
La fel ca i distribuia normal, distribuia Student t este o familie de
distribuii.
Aceasta familie are un singur parametru, numrul care ne spune cu ce
membru al familiei de distribuii t ne confruntm. Acesta este
cunoscut sub numele de grade de libertate.
NB: Am folosit deja acest termen n calcul varianelor i abaterilor
standard. Numrul gradelor de libertate al distribuiei t este egal cu
numrul gradelor de libertate de la abaterea standard folosit n
calculul erorii standard.

DISTRIBUIA T
Cnd numrul gradelor de libertate este mic
(eantioane de mici dimensiuni) distribuia t
are cozile mult mai mult lungi dect
distribuia normal. Acest lucru reflect o
mai mare incertitudine la eroarea standard a
mediei.
Cnd numrul gradelor de libertate i, prin
urmare dimensiunea eantionului ncepe s
creasc, distribuia t tinde s se apropie de
distribuia normal standard.
Distribuiile t se identific cu distribuia
normal n teorie, atunci cnd eantionul
este infinit de mare.
n practic, este greu de spus dac avem o
distribuie normal sau t la aproximativ 30
de grade de libertate

La fel ca la distribuia
normal, distribuia t nu are
o formul simpl pentru
calculul
probabilitilor
sale.
S-au folosit aproximri
numerice pentru a calcula
numrul care este nlocuit
de 1.96 n calculele
intervalelor de ncredere i
a valorile p n testele de
semnificaie

DISTRIBUIA T

Puncte critice pentru pragurile de 1%, 5%, 0.1% i 0.01%


pentru distribuia t

Puncte critice la pragul de 5% pentru distribuia t cu 4 grade


de libertate

METODA T PENTRU UN EANTION


Vom folosi distribuia t pentru a face analiza mediilor n eantioanele
de mici dimensiuni, analiz pe care am fcut-o mai sus pentru
eantioane mari folosind distribuia normal
Rareori se ntmpl s fie necesar estimarea mediei unei populaii
pe baza mediei unui eantion mic, dar vom ncepe cu aceasta
deoarece este cel mai simplu caz
Pentru nelegerea metodei vom folosi datele a 9 pacieni cu rni
cronice nevindecate (Shukla et al., 2004). Biopsiile au fost evaluate
folosind scorul obinut de la un sistem care gradeaz angiogeneza
microscopic (MAGS) i care furnizeaz un indice ce evalueaz ct de
bine vasele mici de snge sunt n curs de dezvoltare, evalund astfel
regenerarea epitelial.
Scorurile mari sunt cele mai bune

METODA T PENTRU UN EANTION


Cele nou observaii au fost: 20, 31, 34, 39, 43, 45, 49, 51 i 63 df=8

Dac am avea un eantion mare am putea estima un interval de 95%


ncredere prin scderea/adunarea la medie a 1.96 x eroarea standard:
de la 41.7 - 1.96 x 4.2 la 41.7 + 1.96 x 4.2

METODA T PENTRU UN EANTION


avem numai 9 observaii - acest interval nu
este valid. Vom folosi o distribuie t cu 8 grade
de libertate
punctul critic la pragul de 5% pentru
distribuia t cu 8 grade de libertate este 2.31
(to.o5) , astfel c intervalul de ncredere pentru
media scorurilor MAGS este de la 41.7 - 2.31 x
4.2 la 41.7 + 2.31 x 4.2, adic de la 32.0 la
51.4
Calculele sunt valabile numai dac observaiile
provin dintr-o distribuie normal

VERIFICAREA PRESUPUNERILOR REFERITOARE


LA NORMALITATE
Cnd am vorbit despre distribuia normal am prezentat histograme pentru mai
multe eantioane mari i am suprapus curbe normale pe acestea, pentru a vedea
dac distribuia normal se potrivete acestor date. Pentru eantioane de
dimensiuni mici este foarte dificil, pornind de la o histogram, s se trag o
concluzie referitoare la normalitatea distribuiei
Exist o metod grafic bun prin care se poate examina compatibilitatea dintre o
distribuie normal i un set de date, anume reprezentarea grafic a cuantilelor
normalei (Normal quantile plot) sau pe scurt reprezentarea grafic a normalitii
(Normal plot)
O reprezentarea grafic a normalitii este o reprezentare grafic a perechilor de
date observate i a valorilor pe care ne ateptm s le obinem (valori teoretice),
n cazul n care datele urmeaz o distribuie normal

VERIFICAREA PRESUPUNERILOR
REFERITOARE LA NORMALITATE
Mai nti se ordoneaz observaiile
ascendent
Se calculeaz valoarea estimat pentru
observaia cu cea mai mic valoare din
eantion pentru distribuia normal. n
cazul distribuiei normale standard
aceasta este
-1.28 o face programul
de analiz statistic
Vom transforma acum aceste valori ntr-o
distribuie normal cu aceeai medie i
varian precum datele observate prin
nmulirea valorilor distribuiei normale
standard cu abaterea standard calculat
n eantion i adugarea apoi a mediei
eantionului

-1.28 x 12 0.5 + 41.7 = 25.6


Vom compara aceast valoare cu cea mai mic valoare observat care este de 20

VERIFICAREA PRESUPUNERILOR
REFERITOARE LA NORMALITATE
Estimm cele 9 observaii (valorile medii pentru cele 9 observaii dintr-o
distribuie normal standard):

Pentru un eantion extras dintr-o distribuie normal cu media i abaterea


standard precum eantionul MAGS, vom nmuli cu abaterea standard (x12.5) i
vom aduna cu media (41.7). Valorile obinute:

VERIFICAREA PRESUPUNERILOR
REFERITOARE LA NORMALITATE

Reprezentare grafic perechi formate din


scorurile MAGS observate i scorurile
MAGS calculate pentru cazul n care datele
ar urma o distribuie normal.
n cazul n care valorile observate i cele
calculate sunt similare atunci perechile de
puncte se aliniaz sau sunt foarte aproape
de linia de egalitate (prima bisectoare)
format din puncte pentru care valorile
observate i cele calculate sunt egale
Cele mai multe dintre observaii sunt
aproape de linie, ceea ce sugereaz c
observaiile sunt destul de aproape de
ceea ce am calculat pornind de la o
distribuie normal (adic de ceea ce neam fi ateptat dac presupunerea de
normalitate a datelor era adevrat)

Distribuiile
asimetrice
produc n jurul liniei de
egalitate o curb
Distribuia este negativ
asimetric (asimetric la
stnga) i punctele se abat
mult de la linie ncadrnduse sub ea spre capete (mai
mult spre cel inferior) i
depind-o spre mijloc

Reprezentarea grafic a normalitii pentru datele referitoare de greutatea la


natere

Distribuiile asimetrice produc n jurul


liniei de egalitate o curb

Distribuie
pozitiv
asimetric
(asimetric la dreapta) i este vizibil o
curbur n sens opus celei care
corespunde
distribuiei
negativ
asimetrice

Reprezentarea grafic a normalitii pentru colesterol la


pacienii cu accident vascular cerebral

Distribuie aproximativ simetric


Se poate observa c aceste date se
potrivesc cu distribuia normal
destul de bine

Reprezentarea grafic a normalitii pentru greutatea la


natere pentru vrsta gestaional de 37 sptmni

Exist i teste de semnificaie precum:


teste Shapiro-Wilk
Shapiro-Francia
Kolmogorov-Smirnov
care pot fi folosite pentru a testa ipoteza nul ce stabilete c datele provin dintr-o
distribuie normal. Metodele grafice sunt ns, mult mai utile n practic
Dac eantionul este mic, plecnd de la distribuia normal, acestea nu pot fi
semnificative deoarece nu exist date suficiente pentru a detecta normalitatea
Dac eantionul este mare, pot exista abateri foarte mici de la normalitate care
pot fi semnificative, dar astfel de abateri nu afecteaz rezultatele analizelor

Metoda t pentru eantioane perechi


lucrm cu observaii care sunt perechi (observaiile care provin de la acelai
subiect nainte i dup o intervenie i observaiile care provin de la acelai
subiect pentru care se fac dou intervenii diferite, de exemplu ntr-un studiu
dublu-ncruciat numit i studiu cross-over sau ntr-un studiu de tip caz-control)

Metoda t pentru eantioane perechi

Media diferenelor=9.33
Abaterea standard pentru diferene=4.03
Eroarea std a mediei diferenelor=1.34

Dorim s tim dac media scorurilor MAGS sa modificat semnificativ i care este media
scorurilor.
Calculm diferena dintre scorul MAGS dup
tratament i scorul MAGS nainte de
tratament, adic creterea n scor pentru
MAGS
Avem 9 observaii, astfel c numrul
gradelor de libertate folosite n calculul
abaterii standard este de 9 - 1 = 8
Pentru a estima intervalul de 95% ncredere
pentru media calculat n acest eantion mic,
vom folosi punctul critic pentru pragul de 5%
din distribuia t cu 8 grade de libertate.
(Pentru 8 grade de libertate valoarea din
tabel este 2.31)

Metoda t pentru eantioane perechi


Pentru eantioane mici presupunem c diferenele urmeaz o distribuie normal
Intervalul de 95% ncredere:
Media-t0.05xeroarea standard a mediei , Media+t0.05xeroarea standard a mediei
t0.05 reprezint valoarea critic pentru pragul de 5% al distribuiei t cu un nr de
grade de libertate=n-1
De la 9.33 - 2.31 1.34 la 9.33 + 2.31 1.34 (de la 6.2 la 12.4)
Testul de semnificaie se refer la:
Media diferenelor/Eroarea standard (Statistica testului) urmeaz o distribuie t
cu n-1 grade de libertate
=9.33/1.34=6.96
Din tabelul t, p<0.001 - p = 0.0001. Diferena este (foarte) semnificativ

Metoda t pentru eantioane perechi


Condiii care trebuiesc ndeplinite de datele testate, pentru ca metoda t
pentru eantioane perechi s fie valid:
1. observaiile trebuie s fie independente, cu excepia asocierii
2. diferenele trebuie s urmeze o distribuie normal
3. media i abaterea standard a diferenelor trebuie s nu depind de
mrimea (magnitudinea) msurtorilor.

Metoda t pentru eantioane perechi


1. observaiile trebuie s fie independente,
cu excepia asocierii
- depinde de modul de proiectare al
studiului. Acest condiie este ndeplinit
pentru datele MAGS, deoarece perechile
de date provin de la nou subieci diferii
2. folosim reprezentarea grafic a
normalitii - Datele par a fi apropiate de
linia de egalitate i nu exist nici un motiv s
presupunem c diferenele nu urmeaz o
distribuie normal

Metoda t pentru eantioane perechi


3. media i abaterea standard a diferenelor trebuie s nu depind de
mrimea (magnitudinea) msurtorilor.
media
diferenelor
sau
variabilitatea diferenelelor nu
este influenat sau este foarte
puin
influenat
de
magnitudinea scorilor MAGS

Diferenele n comparaie cu mediile creterilor n scorul MAGS


reprezentare grafic de tip scatter plot

METODA T PENTRU DOU EANTIOANE


INDEPENDENTE
este cunoscut sub mai multe denumiri: metoda t pentru
eantioane neperechi, testul t nepereche, metoda t pentru dou
grupuri sau testul Student t pentru dou eantioane

ne permite s estimm diferena dintre medii sau s testm


ipoteza nul, care stabilete c nu exist nici o diferen n
populaie, chiar i n cazul n care eantioanele sunt mici

METODA T PENTRU DOU EANTIOANE


INDEPENDENTE
vom face o comparaie a densitii capilare (msurat pe mm2) pentru
dou grupuri de pacieni: un grup de pacienii cu ulcer diabetic la
picior i un grup de control fr ulcer (Marc Lamah)

Eantioanele sunt prea mici - nu se poate


folosi metoda pentru eantioane mari bazat
pe distribuia normal
Nu se poate estima suficient de bine eroarea
standard
Distribuia erorilor standard estimate depinde
de distribuia observaiilor