Sunteți pe pagina 1din 29

ESTIMARE PRIN

INTERVALE DE CONFIDEN
Conf. Dr. Lucian V. Boiculese

Introducere
n cazul realizrii experimentelor de un numr repetat de ori se obine un numr
finit de evenimente. Observaiile ce se fac asupra populaiei pot fi totale (dac se
studiaz toate evenimentele, sau toi indivizii - exhaustiv) sau pariale (dac se studiaz
doar un eantion din total).
Cercetarea unitar a ntregii populaii n multe situaii este greu de realizat, poate
chiar impracticabil. O situaie complementar este aceea n care numrul datelor
experimentale este mic. Bazndu-ne pe aceste informaii trebuie deduse caracteristici
generale asupra fenomenului sau obiectivului de studiu.
Eantionul este considerat mic dac volumul su are un numr de elemente pn n
30 i mare dac numrul de elemente depete valoarea 30. Acest prag este necesar
pentru a aproxima ct mai bine modificrile ce apar n tipul distribuiei datelor i ca
urmare un volum mare al eantionului va avea implicaii pozitive n rezultatele finale.
Astfel, funcie de numrul de valori disponibile, se aplic diferite teste, iar precizia
estimrilor este cu att mai bun cu ct avem mai multe date de studiu.
Scopul principal n cadrul culegerii datelor const n a obine cu un efort minim
(volum minim de date) un volum maxim de informaii.

Estimarea const n operaia de determinare a parametrilor populaiei pe baza


eantionului studiat. Datorit lipsei de informaie generat de cercetarea uneori neunitar
ct i datorit dispersiei parametrilor dorii, se poate deduce cu o anumit probabilitate (de
obicei acceptat la valoarea de 95% n domeniul medical), un anumit interval de ncredere n
care se afl parametrul studiat.
Obiectivul final al unui experiment const, n majoritatea cazurilor, n a msura valoarea
unui parametru. Valoarea msurat (izolat de altfel) nu poate fi considerat satisfctoare
sau valoare de referin dac nu se fac i precizri referitoare la domeniul de variaie precum
i la probabilitatea corespunztoare.
n cadrul estimrii parametrilor unei populaii, valoarea calculat este de fapt o variabil
aleatoare legat de eantionul studiat. Cu ct avem mai multe eantioane, cu att avem mai
multe valori ale parametrului care urmeaz a fi calculat.
Rolul inferenelor statistice const n a determina din informaiile din eantion concluzii
pertinente asupra ntregii populaii. Chiar dac teoretic putem imagina un numr mare de
eantioane extrase, aplicnd metodele statisticii, se pot afla limitele de variaie ale mediei (ca
exemplu de indicator analizat) doar dintr-un singur eantion de studiu.
Media, acest indicator statistic de importan major, este n centrul temei de estimare
sau evaluare. Aceast estimare ajut nu numai la caracterizarea unei populaii, ci i la
compararea diferitelor loturi analizate (este important de menionat c media poate
reprezenta i frecvena de apariie a unui eveniment conform legi numerelor mari).

Intervalul de ncredere pentru media unei variabile aleatoare de tip continuu


repartizat normal
Metoda de lucru pleac generic de la ideea de a studia variabila aleatoare creat
din media eantioanelor extrase din populaia int. Teoretic, putem extrage un numr
enorm de eantioane dintr-o populaie. Aceste eantioane pot avea dimensiuni diferite,
iar media lor respect un anumit tip de distribuie.

Exist n statistic teorema limit central (rezultat fundamental), care afirm c


independent de tipul de distribuie al datelor din populaie, media eantioanelor
extrase creeaz un lot de date care urmeaz o repartiie de tip Gauss-Laplace (cu
condiia s avem selecie aleatoare simpl).

Graficul urmtor exprim vizual ideea demonstrat prin teorema limit central.

Populaia de
studiu

Lot

Medie

Li
Ln
L1
L7

L2
Eantion (lot)
extras

M1

M2

M3

45

M45

Distribuia mediilor este


de tip (Gauss Laplace)

Populaia este caracterizat de media i deviaia standard . Din populaia de studiu


extragem aleator eantioane.

Calculm media fiecrui eantion i crem astfel o nou populaie definit de aceste
medii.
Aceast nou populaie definete distribuia statistic a mediilor cu ajutorul creia
putem estima intervalul de confiden. Va avea media i deviaia standard /sqrt(n),
unde n este volumul eantionului.

Vom da un exemplu de determinare a distribuiei mediilor eantioanelor dintr-o


populaie care nu este repartizat normal, tocmai pentru a observa forma gaussian
urmat de eantionul mediilor.
Presupunem c avem o populaie repartizat liniar constant pe intervalul [0, 1]. Vom
extrage 100 eantioane de dimensiune 30. Pentru fiecare din cele 100 de eantioane se
calculeaz media, apoi se realizeaz histograma frecvenelor absolute.
Acestea sunt reprezentate grafic n figurile urmtoare.

Histograma datelor din populaia int

Histograma mediilor
(eantion din 30 elem ente)

200
150

121

130
117

113

121

128

140

30

147
121

124

20

100

10
50

Repartiie uniform

0.9

More

0.8

0.5

0.95

0.8

0.88

0.7

0.73

0.6

0.65

0.5

0.58

0.4

0.43

0.3

0.35

0.2

0.28

0.1

0.2

0.13

Repartiie normal Gauss Laplace

Teorema limit central


Indiferent de tipul distribuiei populaiei, media eantioanelor tinde ctre
distribuia Gauss Laplace i este cu att mai apropiat de aceasta, cu ct volumul
eantionului crete (un volum mai mare dect 30 implic erori mici).
Observaii
1 Dac distribuia populaiei este normal, atunci n mod sigur distribuia mediilor
eantioanelor este normal i pentru valori mici ale eantionului (aici trebuie discutat ce
nseamn n statistic set de date mic ca volum).
2 Media valorilor medii ale eantioanelor este media populaie. Aceasta arat c nu
exist eroare de deplasare. Matematic putem scrie: M ( X 1 , X 2 ,... X n ) .

3 Deviaia standard a mediilor eantioanelor este de radical din n ori mai mic dect
deviaia standard a ntregii populaii. Avem astfel: X
, unde n reprezint
n
volumul eantionului
DAC CUNOATEM TIPUL DISTRIBUIEI MEDIILOR I PARAMETRII ACESTEIA, ATUNCI
PUTEM CALCULA INTERVALUL DE CONFIDEN !

Exemplu de calcul
Cazul 1 Valoarea dispersiei este cunoscut.
Considerm o variabil aleatoare repartizat normal N(,2) pentru care dorim s
estimm intervalul de ncredere pentru valoarea mediei. Avem un set de date de volum n i
notm media calculat din datele eantionului cu X , iar media populaiei (de obicei
necunoscut) cu .
Evident, dac am putea analiza ntreaga populaie, atunci media calculat ar avea
valoarea de ncredere 100% iar calculul intervalului de variaie nu ar avea sens, am avea
astfel X .
Se poate demonstra (dup cum am amintit deja) c dac avem mai multe
eantioane dintr-o populaie normal, media de selecie este o variabil aleatoare
repartizat normal N(,2/n). Pentru a o centra i normaliza vom aplica formula
X
z

(se scade media i se raporteaz la dispersie):


/ n

Cu alte cuvinte prin aceast transformare de variabil obinem o distribuie


normal standardizat caracterizat de medie =0 i deviaie standard =1

Punem condiia ca aceast variabil Z s fie cuprins ntr-un interval simetric fa de


medie cu probabilitatea standard de 95% (deci acceptm o eroare de 5%):

PZ1 Z Z 2 0,95 1
f(x) densitatea de probabilitate

Pentru o curba gaussian standardizat


intervalul simetric fa de medie cu 95%
ncredere este determinat de valorile:
Z2=-Z1=1,96 (se pot calcula).

0.45
0.4
0.35
0.3
0.25
0.2
0.15

0.1
Intervalul
de ncredere
0.05
0

-4

-3

-2
Z1

-1

2
Z2

Pentru interval simetric se folosete


notaia: Z2=Z(1-/2) respectiv Z1=-Z(1-/2)

- este nivelul de semnificaie i pentru interval simetric avem: 1= 2= /2.


Nivelul de ncredere este 1- (notat i ).
Putem scrie n continuare:
Z (1 / 2)

/ n

Z (1 / 2)

X Z (1 / 2)

X Z (1 / 2)

- se numete eroare standard, este deviaia standard a distribuiei mediilor eantioanelor.


n AVEM ASTFEL METODA DE CALCUL A INTERVALULUI DE CONFIDEN !!!

Microsoft Excel - funcii pentru determinarea intervalului de ncredere


Avem funciile urmtoare pentru determinarea valorilor distribuiei Gauss Laplace:
NORM.S.INV(probability) calculeaz valoarea abscisei corespunztor probabilitii
cerute pentru o repartiie Gauss standardizat (medie=0, dispersie=1).
Exemplu:
NORM.S.INV(0.3) = -0.524
Pentru standardul de 95% i pentru interval simetric (deci /2) avem :
Z(1-0.05/2)=NORM.S.INV(0.975)=1.9599 ce se poate aproxima cu 1.96
Ordonata densitatea
de probabilitate
Suprafaa reprezint
probabilitatea.

Abscisa corespunztoare :
NORM.S.INV(0.3) = -0.524

4.00

3.60

3.20

2.80

2.40

2.00

1.60

Abscisa notat Z
(este variabila de
interes)
1.20

0.80

0.40

0.00

-0.40

-0.80

-1.20

-1.60

-2.00

-2.40

-2.80

-3.20

-3.60

Probabilitate: 0.30

-4.00

0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0

Cazul 2 Valoarea dispersiei este necunoscut / volum mic.


Dac eantioanele au volum mic (sub 30) sau dac repartiia datelor nu este de tip
Gauss-Laplace sau dac nu se cunoate valoarea dispersiei populaiei, atunci folosirea
distribuiei Z n estimarea intervalului de confiden a mediei va genera erori mari.
Se folosete pentru aceste situaii distribuia t sau student, ce d rezultate bune n
situaiile critice prezentate mai sus. Dac volumul eantionului crete distribuia student
tinde ctre cea normal deci nu este nici o greeal folosirea acesteia n situaia n care
forma normal este aplicabil.
Distribuia t (student) depinde de parametrul numit grade de libertate ce depinde de
volumul eantionului. Pentru estimarea intervalului de confiden a mediei unei variabile
continue acest parametru este egal cu numrul de cazuri minus 1.
Excel
T.INV(probability, deg_freedom) calculeaz abscisa (deci valoarea t)
corespunztoare probabilitii cerute i a gradelor de libertate ce definesc distribuia).
Formula de calcul a intervalului de confiden se pstreaz aproximativ , n sensul c
n loc de Z folosim t.
Comparativ t vs Z
prob=0.975
X t (1 / 2)

S
n

X t (1 / 2)

S
n

Iat n tabelul din dreapta pentru comparare


Cele dou distribuii Z i t calculate n paralel:

volum
10
30
50
150
300

invers-t invers-Z
2.262157 1.959964
2.04523 1.959964
2.009575 1.959964
1.976013 1.959964
1.96793 1.959964

Excel
Funcii pentru calculul intervalului de confiden al mediei variabil continu:
Pentru calculul intervalului de confiden n Excel avem funciile dedicate :
CONFIDENCE.T(alpha,standard_dev,size) care folosete distribuia t pentru determinarea
intervalului de confiden.
Aceasta calculeaz precizia deci valoarea :
- n este volumul eantionului

t (1 / 2)

, n Excel :

n
T.INV(1- / 2,n-1) S/sqrt(n)

Pentru aproximare normal avem:


CONFIDENCE.NORM(alpha,standard_dev,size) care folosete distribuia normalizat
(standardizat) de tip Gauss.

Se calculeaz precizia cu formula:


Z (1 / 2)
, n Excel :
n
NORM.S.INV(1- / 2) S/sqrt(n)

Data + Data Analysis + Descriptive statistics

Eroarea standard (Standard Error) este :


Precizia (Confidence level*Std. error) este :

Z (1 / 2) .
n

Pentru eantioane mici se folosete distribuia t(student) n loc de Z.

, Precizia = Interval de confiden

Exemplu de calcul cu formule detaliat:

Exemplu de calcul cu rezultate comparative:

Observaie
Calculul intervalului de confiden este util i n compararea seturilor de date.
Dac intervalele de confiden nu se suprapun, atunci sigur avem diferene
semnificative ntre seturile de date dac nivelul de confiden de estimare este standard
de 95% atunci semnificaie statistic n compararea datelor este mai mic ca 5% adic
probabilitatea p calculat este p<0.05 ceea ce este dese ori de dorit (de exemplu putem
compara seturile de date nainte i dup tratament)

SPSS
Metod de determinare a intervalului de confiden n SPSS
Se lanseaz: Analyze+Descriptive Statistics+Explore

3. Intervalul de ncredere determinat prin metoda neparametric bootstrap

Tehnica bootstrap const n generarea de subseturi de date chiar din lotul surs,
folosind alegeri de tip aleatoriu (metoda Monte Carlo). Noile seturi sunt formate din
elementele eantionului surs, iar dac selecia este cu nlocuire (elementul ales este
reintrodus n surs) atunci apare posibilitatea ca un element s se gseasc de mai multe
ori ntr-un set nou.

Metoda bootstrap aplicat pentru determinarea intervalului de confiden pentru


medie poate fi prezentat prin urmtorii pai:
1 se genereaz conform tehnicii cunoscute n eantioane.
2 se calculeaz media pentru fiecare eantion generat.
3 se ordoneaz mediile calculate cresctor.
4 se determin ordinea din ir a mediilor ce reprezint limitele intervalului pentru
nivelul de confiden stabilit.

Exemplu
Presupunem ca generm 100 eantioane i ne intereseaz intervalul de confiden
90% pentru medie. Primii trei pai prezentai se realizeaz relativ uor dup care
determinm ordinea din cadrul irului pentru limitele minim respectiv maxim a
intervalului.
Pentru 90% confiden rezult elementele de pe poziia 5% respectiv 95%. Pentru un
volum de dimensiune n, calculm n*5/100 respectiv n*95/100.
n cazul nostru avem chiar poziiile 5 respectiv 95, astfel din irul ordonat cresctor
se citesc limita inferioar adic a 5-a respectiv limita superioar aadar poziia a 95-a.
Excel
Metod:
1 Se definete setul surs cu un nume (variabil): Formulas+Define Name. n acest
fel lucrm optim (ex. numim sursa esantion).
2 Se aplic funcia INDEX(array, row_num, [column_num]) pentru a alege aleatoriu
valori din setul denumit mai devreme.
Numrul rndului respectiv a coloanei sunt valori ntregi. Pentru a avea o alegere
aleatoare avem funcia rand() care genereaz aleatoriu un numr zecimal n domeniul
[0,1).
Ca urmare funcia ce alege aleator se poate scrie astfel:
=INDEX(esantion,ROWS(esantion)*RAND()+1,COLUMNS(esantion)*RAND()+1)
Obs. Se adaug 1 deoarece rand() poate genera valoarea 0 rnd sau coloan 0 nu
exist.

Realizare practic

n final se ordoneaz datele dup media calculat i se aleg valorile de pe poziiile 5%


respectiv 95%. Acestea reprezint limitele intervalului de confiden 90%.

Intervalul de ncredere pentru proporia unei variabile aleatoare.


Suntem n situaia estimrii intervalul de confiden pentru o proporie. Proporia
poate fi asemnat cu o medie, iar metodele de lucru pot fi transpuse n acest context.
Evident, ca n cazurile deja prezentate, nu putem studia n totalitate populaia i apelm la
informaia cuprins ntr-un eantion. Calculm proporia dedus din lot i aflm limitele
intervalului de variaie a mediei.
Problema se repet i generic putem considera un set format din mai multe
eantioane pentru care calculm i studiem proporia de realizare a unui anumit
eveniment de interes.
n situaia n care loturile sunt consistente n informaie, deci conin date n numr
suficient pentru a pstra proprietile populaiei, distribuia mediilor este de tip normal i
putem calcula relativ uor limitele de confiden.
Se pleac de la formula general ce exprim probabilitatea pentru o distribuie
normal.
Notm: P - probabilitatea, p - proporia din eantion, - proporia real a populaiei,
- nivelul semnificaiei ce este de 5% de obicei.

Intervalul de confiden se determin punnd condiia: Pz1 Z z 2 1


Media proporiilor este repartizat normal si are dispersia ce poate fi aproximat cu
formula:
p 1 p

Trebuie s normalizm variabila aleatoare proporie, deci trebuie s scdem valoarea p


msurat din eantion i s mprim la dispersie.
p
Z
Obinem astfel variabila normalizat:

nlocuind n prima formul avem:


n final deducem:

p z1 / 2

z / 2

p
z / 2

p 1 p
- metoda Wald.
n

Observaie
Determinarea intervalului prin metoda Wald este acceptabil doar n situaia n care este
ndeplinit condiia: np (1-p) 10.
Dac inem cont de faptul c produsul p (1-p), pentru p reprezentnd un numr pozitiv
subunitar, este maxim dac p=0.5, deducem volumul minim al eantionului de lucru.
Avem astfel : n 0.25 10 => n 40.

Fcnd un studiu amnunit asupra estimrii intervalului de confiden, se observ c


pentru valori ale proporiei mai mici dect 0.2 respectiv mai mari ca 0.8 eroarea se mrete
considerabil. Astfel s-au propus i determinat noi metode de calcul a limitelor intervalului de
confiden care funcioneaz corect pentru eantioane mici de pn la 20 de cazuri.
Rezultate mai bune pentru astfel de situaii s-au obinut folosind formulele de calcul: Wilson,
Agresti-Coull, sau verosimilitatea maxim a raportului.
Intervalul proporiei p=n1/n poate fi astfel calculat:

Wilson:

~
~

p
~
Agresti-Coull: p z1 / 2
n z 21 / 2

, unde

1
n1 z 21 / 2
~
2
p
n z 21 / 2

Interval de confiden pentru raportul cotelor (ODD RATIO)


Cota este raportul dintre probabilitatea ca un eveniment s se realizeze i probabilitatea ca

P( A)
P( A)

acel eveniment s nu se realizeze:


P( A ) 1 P( A)
Este un numr mai mare ca 0 ! C A [0, )
C A pentru grupul 1
Raportul cotelor =
C A pentru grupul 2
CA

Cota pentru grupul expui factorului:

C AF

a /(a b) a

b /(a b) b

+
FACTOR total

Cota pentru grupul neexpui factorului:

C AF

c /(c d ) c

d /(c d ) d

Astfel raportul cotelor (ODD RATIO):

ad
OR
bc

AFECIUNE
+
total
a
b
a+b
c
d
c+d
a+c
b+d a+c+b+d

Trebuie s cunoatem tipul de distribuie a raportului cotelor pentru a putea


determina intervalul de confiden.
Formula de calcul este standard:
VALUARE PUNCTUAL NIVEL DE CONFIDEN * EROARE STANDARD
Este demonstrat c logaritmul natural din raportul cotelor are o distribuie normal.
Ca urmare se va logaritma , se va calcula intervalul de confiden apoi se va
exponenia pentru a reveni la raportul cotelor.

Eroarea standard pentru LN(OR) este :

ES LN (OR )

Pentru LN(OR) avem intervalul de confiden:

1 1 1 1

a b c d

LN (OR) z1 / 2

n final:
OR(limita inf.) este:

1 1 1 1
exp LN (OR) z1 / 2

a b c d

OR(limita sup.) este:

1 1 1 1
exp LN (OR) z1 / 2

a b c d

1 1 1 1

a b c d

Interval de confiden pentru riscul relativ (RISK RATIO)


Riscul este probabilitatea ca un eveniment s se realizeze.

Este un numr mai mare ca 0 i mai mic ca 1:

Raportul riscurilor =

RA [0,1]

RA pentru grupul 1
RA pentru grupul 2

Riscul pentru grupul expui factorului:

RAF

+
FACTOR total

a
ab

Riscul pentru grupul neexpui factorului:

RAF

RA P( A)

c
cd

Astfel raportul cotelor (RISK RATIO):

RR

a (c d )
c ( a b)

AFECIUNE
+
total
a
b
a+b
c
d
c+d
a+c
b+d a+c+b+d

Este demonstrat c logaritmul natural din raportul riscurilor are o distribuie normal.
Ca urmare se va logaritma , se va calcula intervalul de confiden apoi se va
exponenia pentru a reveni la raportul riscurilor.
Eroarea standard pentru LN(RR) este : ES LN ( RR )

b
d

a ( a b ) c (c b )

Se aplic acelai algoritm de estimare ca n cazul OR doar eroarea standard difer.


n final obinem:

b
d

RR(limita inf.) este: exp LN ( RR) z1 / 2


a (a b) c (c b)

b
d

RR(limita sup.) este: exp LN ( RR) z1 / 2

a (a b) c (c b)

Observaie
Intervalul de confiden att pentru RR ct i pentru OR este simetric n forma
logaritmic !
n forma normal acest interval nu este simetric.

Interpretare
Dac intervalul de confiden pentru RR sau OR cuprinde valoarea 1 nseamn c
nu exist asociere ntre cele dou variabile (afeciune i factor risc).
Dac limita inferioar a RR sau OR pentru interval de confiden (cu 0.95
ncredere) este mai mare ca 1 atunci efectul expunerii este negativ ducnd la o cretere
a probabilitii de mbolnvire.
Dac limita superioar a RR sau OR pentru interval de confiden (cu 0.95
ncredere) este mai mic ca 1 atunci efectul expunerii este pozitiv (benefic) ducnd la o
scdere a probabilitii de mbolnvire.

S-ar putea să vă placă și