Documente Academic
Documente Profesional
Documente Cultură
Intervale de Confidenta
Intervale de Confidenta
INTERVALE DE CONFIDEN
Conf. Dr. Lucian V. Boiculese
Introducere
n cazul realizrii experimentelor de un numr repetat de ori se obine un numr
finit de evenimente. Observaiile ce se fac asupra populaiei pot fi totale (dac se
studiaz toate evenimentele, sau toi indivizii - exhaustiv) sau pariale (dac se studiaz
doar un eantion din total).
Cercetarea unitar a ntregii populaii n multe situaii este greu de realizat, poate
chiar impracticabil. O situaie complementar este aceea n care numrul datelor
experimentale este mic. Bazndu-ne pe aceste informaii trebuie deduse caracteristici
generale asupra fenomenului sau obiectivului de studiu.
Eantionul este considerat mic dac volumul su are un numr de elemente pn n
30 i mare dac numrul de elemente depete valoarea 30. Acest prag este necesar
pentru a aproxima ct mai bine modificrile ce apar n tipul distribuiei datelor i ca
urmare un volum mare al eantionului va avea implicaii pozitive n rezultatele finale.
Astfel, funcie de numrul de valori disponibile, se aplic diferite teste, iar precizia
estimrilor este cu att mai bun cu ct avem mai multe date de studiu.
Scopul principal n cadrul culegerii datelor const n a obine cu un efort minim
(volum minim de date) un volum maxim de informaii.
Graficul urmtor exprim vizual ideea demonstrat prin teorema limit central.
Populaia de
studiu
Lot
Medie
Li
Ln
L1
L7
L2
Eantion (lot)
extras
M1
M2
M3
45
M45
Calculm media fiecrui eantion i crem astfel o nou populaie definit de aceste
medii.
Aceast nou populaie definete distribuia statistic a mediilor cu ajutorul creia
putem estima intervalul de confiden. Va avea media i deviaia standard /sqrt(n),
unde n este volumul eantionului.
Histograma mediilor
(eantion din 30 elem ente)
200
150
121
130
117
113
121
128
140
30
147
121
124
20
100
10
50
Repartiie uniform
0.9
More
0.8
0.5
0.95
0.8
0.88
0.7
0.73
0.6
0.65
0.5
0.58
0.4
0.43
0.3
0.35
0.2
0.28
0.1
0.2
0.13
3 Deviaia standard a mediilor eantioanelor este de radical din n ori mai mic dect
deviaia standard a ntregii populaii. Avem astfel: X
, unde n reprezint
n
volumul eantionului
DAC CUNOATEM TIPUL DISTRIBUIEI MEDIILOR I PARAMETRII ACESTEIA, ATUNCI
PUTEM CALCULA INTERVALUL DE CONFIDEN !
Exemplu de calcul
Cazul 1 Valoarea dispersiei este cunoscut.
Considerm o variabil aleatoare repartizat normal N(,2) pentru care dorim s
estimm intervalul de ncredere pentru valoarea mediei. Avem un set de date de volum n i
notm media calculat din datele eantionului cu X , iar media populaiei (de obicei
necunoscut) cu .
Evident, dac am putea analiza ntreaga populaie, atunci media calculat ar avea
valoarea de ncredere 100% iar calculul intervalului de variaie nu ar avea sens, am avea
astfel X .
Se poate demonstra (dup cum am amintit deja) c dac avem mai multe
eantioane dintr-o populaie normal, media de selecie este o variabil aleatoare
repartizat normal N(,2/n). Pentru a o centra i normaliza vom aplica formula
X
z
PZ1 Z Z 2 0,95 1
f(x) densitatea de probabilitate
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
Intervalul
de ncredere
0.05
0
-4
-3
-2
Z1
-1
2
Z2
/ n
Z (1 / 2)
X Z (1 / 2)
X Z (1 / 2)
Abscisa corespunztoare :
NORM.S.INV(0.3) = -0.524
4.00
3.60
3.20
2.80
2.40
2.00
1.60
Abscisa notat Z
(este variabila de
interes)
1.20
0.80
0.40
0.00
-0.40
-0.80
-1.20
-1.60
-2.00
-2.40
-2.80
-3.20
-3.60
Probabilitate: 0.30
-4.00
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
S
n
X t (1 / 2)
S
n
volum
10
30
50
150
300
invers-t invers-Z
2.262157 1.959964
2.04523 1.959964
2.009575 1.959964
1.976013 1.959964
1.96793 1.959964
Excel
Funcii pentru calculul intervalului de confiden al mediei variabil continu:
Pentru calculul intervalului de confiden n Excel avem funciile dedicate :
CONFIDENCE.T(alpha,standard_dev,size) care folosete distribuia t pentru determinarea
intervalului de confiden.
Aceasta calculeaz precizia deci valoarea :
- n este volumul eantionului
t (1 / 2)
, n Excel :
n
T.INV(1- / 2,n-1) S/sqrt(n)
Z (1 / 2) .
n
Observaie
Calculul intervalului de confiden este util i n compararea seturilor de date.
Dac intervalele de confiden nu se suprapun, atunci sigur avem diferene
semnificative ntre seturile de date dac nivelul de confiden de estimare este standard
de 95% atunci semnificaie statistic n compararea datelor este mai mic ca 5% adic
probabilitatea p calculat este p<0.05 ceea ce este dese ori de dorit (de exemplu putem
compara seturile de date nainte i dup tratament)
SPSS
Metod de determinare a intervalului de confiden n SPSS
Se lanseaz: Analyze+Descriptive Statistics+Explore
Tehnica bootstrap const n generarea de subseturi de date chiar din lotul surs,
folosind alegeri de tip aleatoriu (metoda Monte Carlo). Noile seturi sunt formate din
elementele eantionului surs, iar dac selecia este cu nlocuire (elementul ales este
reintrodus n surs) atunci apare posibilitatea ca un element s se gseasc de mai multe
ori ntr-un set nou.
Exemplu
Presupunem ca generm 100 eantioane i ne intereseaz intervalul de confiden
90% pentru medie. Primii trei pai prezentai se realizeaz relativ uor dup care
determinm ordinea din cadrul irului pentru limitele minim respectiv maxim a
intervalului.
Pentru 90% confiden rezult elementele de pe poziia 5% respectiv 95%. Pentru un
volum de dimensiune n, calculm n*5/100 respectiv n*95/100.
n cazul nostru avem chiar poziiile 5 respectiv 95, astfel din irul ordonat cresctor
se citesc limita inferioar adic a 5-a respectiv limita superioar aadar poziia a 95-a.
Excel
Metod:
1 Se definete setul surs cu un nume (variabil): Formulas+Define Name. n acest
fel lucrm optim (ex. numim sursa esantion).
2 Se aplic funcia INDEX(array, row_num, [column_num]) pentru a alege aleatoriu
valori din setul denumit mai devreme.
Numrul rndului respectiv a coloanei sunt valori ntregi. Pentru a avea o alegere
aleatoare avem funcia rand() care genereaz aleatoriu un numr zecimal n domeniul
[0,1).
Ca urmare funcia ce alege aleator se poate scrie astfel:
=INDEX(esantion,ROWS(esantion)*RAND()+1,COLUMNS(esantion)*RAND()+1)
Obs. Se adaug 1 deoarece rand() poate genera valoarea 0 rnd sau coloan 0 nu
exist.
Realizare practic
p z1 / 2
z / 2
p
z / 2
p 1 p
- metoda Wald.
n
Observaie
Determinarea intervalului prin metoda Wald este acceptabil doar n situaia n care este
ndeplinit condiia: np (1-p) 10.
Dac inem cont de faptul c produsul p (1-p), pentru p reprezentnd un numr pozitiv
subunitar, este maxim dac p=0.5, deducem volumul minim al eantionului de lucru.
Avem astfel : n 0.25 10 => n 40.
Wilson:
~
~
p
~
Agresti-Coull: p z1 / 2
n z 21 / 2
, unde
1
n1 z 21 / 2
~
2
p
n z 21 / 2
P( A)
P( A)
C AF
a /(a b) a
b /(a b) b
+
FACTOR total
C AF
c /(c d ) c
d /(c d ) d
ad
OR
bc
AFECIUNE
+
total
a
b
a+b
c
d
c+d
a+c
b+d a+c+b+d
ES LN (OR )
1 1 1 1
a b c d
LN (OR) z1 / 2
n final:
OR(limita inf.) este:
1 1 1 1
exp LN (OR) z1 / 2
a b c d
1 1 1 1
exp LN (OR) z1 / 2
a b c d
1 1 1 1
a b c d
Raportul riscurilor =
RA [0,1]
RA pentru grupul 1
RA pentru grupul 2
RAF
+
FACTOR total
a
ab
RAF
RA P( A)
c
cd
RR
a (c d )
c ( a b)
AFECIUNE
+
total
a
b
a+b
c
d
c+d
a+c
b+d a+c+b+d
Este demonstrat c logaritmul natural din raportul riscurilor are o distribuie normal.
Ca urmare se va logaritma , se va calcula intervalul de confiden apoi se va
exponenia pentru a reveni la raportul riscurilor.
Eroarea standard pentru LN(RR) este : ES LN ( RR )
b
d
a ( a b ) c (c b )
b
d
b
d
a (a b) c (c b)
Observaie
Intervalul de confiden att pentru RR ct i pentru OR este simetric n forma
logaritmic !
n forma normal acest interval nu este simetric.
Interpretare
Dac intervalul de confiden pentru RR sau OR cuprinde valoarea 1 nseamn c
nu exist asociere ntre cele dou variabile (afeciune i factor risc).
Dac limita inferioar a RR sau OR pentru interval de confiden (cu 0.95
ncredere) este mai mare ca 1 atunci efectul expunerii este negativ ducnd la o cretere
a probabilitii de mbolnvire.
Dac limita superioar a RR sau OR pentru interval de confiden (cu 0.95
ncredere) este mai mic ca 1 atunci efectul expunerii este pozitiv (benefic) ducnd la o
scdere a probabilitii de mbolnvire.