Sunteți pe pagina 1din 51

INFERENA STATISTIC

- ESTIMAREA PARAMETRILOR -
M. Popa
ORGANIZARE DE CURS
Suportul de curs
Statistici multivariate aplicate n psihologie,
Polirom, 2010
Prezentrile de curs:
www.mpopa.ro/Statistic - Master
Notarea
3 evaluri pariale (trei cursuri) (30% din not)
Proiect de curs (30% din not)
analiza unei baze de date (document)
cerinele proiectului sunt descrise pe www.mpopa.ro
Examen teoretic (40% din not)
Prezena
eviden separata pentru curs i seminar
o prezen sub 50% la seminar+curs conduce la neacceptarea
la examenul din var
Tema de seminar permanent
Prezentarea sub forma scrisa, rezumativa, a unui articol n
care este tratat tema statistic a sptmnii.
AZI VORBIM DESPRE:
1. Ce este inferena statistic
2. Indicatori statistici i parametri
3. Distribuia de eantionare
4. Eroarea standard
5. Curba normal (Gauss) i teorema limitei centrale
6. Teorema limitei centrale
7. Intervalul de ncredere pentru media populaiei
8. Intervalul de ncredere pentru proporia unui
eantion
9. Intervalul de ncredere pentru diferena dintre
proporiile a dou eantioane independente
10. Calcularea intervalului de ncredere prin metoda
re-eantionrii (bootstrap)
CE ESTE INFERENA STATISTIC?
n limbajul curent
raionament prin care se trage o concluzie al crui
adevr nu este verificat n mod direct
n virtutea unei legturi cu alte raionamente considerate
drept adevrate
n statistic
fundamentarea unor concluzii mai generale pe baza
utilizrii unor date empirice limitate
n virtutea unor raionamente logico-probabilistice
presupune cu necesitate existena unui eantion
servete drept baz pentru descrierea populaiei din care a
fost extras
CE ESTE INFERENA STATISTIC?
Definiie:
modalitate incert i nesigur de cunoatere a
adevrului, necunoscut i inabordabil n mod direct
bazat pe reguli i raionamente care ncearc s
limiteze impactul subiectivismului asupra
concluziilor
Forme principale:
estimarea parametrilor unei populaii
testarea ipotezelor de cercetare
2. INDICATORI I PARAMETRI
Indicatori Parametri
Media m
Dispersia s
2

2
Abaterea standard s
Coeficientul de corelaie Pearson r
Coeficientul de corelaie Spearman r
s

s
.a.
CONCEPTE AJUTTOARE
Distribuia de eantionare
Eroarea standard
Distribuia normal
Intervalul de ncredere
CT DE MOTIVAI SUNT ANGAJAII UNEI ORGANIZAII?
=?
Populaia angajailor
eantion
n
i
Scor
motivaie
(v1)
1 10
2 12
3 8
4 15
5 20
6 16
7 7
8 5
9 11
10 13
N=10 m=11.7
s=4.52
N=10
m=11.7
s=4.52
DISTRIBUIA DE EANTIONARE
=?
m=11.7
Putem afirma c =m?
=m+e
rror
=11.7+? e
rror
Surse posibile ale erorii
=?
Populaia angajailor
N=10
m=11.7
s=4.52
N=10
m=
N=10
m=
N=10
m=
N=10
m=
Distribuie de eantionare a mediei
(are un caracter virtual)
4. EROAREA STANDARD
Mediile care compun distribuia de eantionare
sunt inevitabil diferite ntre ele
nici un eantion nu este perfect reprezentativ
distribuia de eantionare = distribuie de abateri ale
fiecrei medii poteniale de la media populaiei:
(m
1
- ), (m
2
- ), (m
3
- ) (m
k
- )
distribuie a erorilor de estimare a mediei populaiei
() de ctre fiecare medie potenial (m
1
, m
2
, m
3

m
k
)
ca orice distribuie de valori, distribuia de
eantionare are:
o medie
o abatere standard
m2
m1
m4
m5
m
m3
Media
distribuiei
de
eantionare
Eroarea de
estimare
Cu ct mediile fiecrui eantion s-ar abate mai mult de la media de
eantionare, cu att estimarea pe baza unui singur eantion este
mai imprecis
Eroarea de estimare este n legtur cu mprtierea distribuiei de
eantionare
DECI
EROAREA STANDARD
Abaterea standard a distribuiei de
eantionare se numete eroare standard
descrie imprecizia estimrii parametrului
ataabil oricrui indicator calculat la nivel de
eantion (medie, indice de simetrie, indice de boltire,
diferen dintre medii, coeficient de corelaie etc.)
n continuare o vom exemplifica doar pentru medie
EROAREA STANDARD A MEDIEI
Este expresia direct a variabilitii
(mprtierii) valorilor eantionului
Este ntotdeauna mai mic dect abaterea
standard a valorilor populaiei:
s
m
: mprtierea distribuiei de eantionare (SEm)
: abaterea standard a valorilor individuale la
nivelul populaiei
n : volumul eantionului (n exemplul nostru, 10)
n
s
m
o
= 43 . 1
10
52 . 4
= =
m
S
EROAREA STANDARD A MEDIEI
s
m
ne spune:
ct de mult ar fluctua media dac am
calcula-o pentru eantioane diferite, de
aceeai mrime, extrase din aceeai
populaie
ct de precis/imprecis este estimat media
populaiei de ctre media eantionului
s
m
cu att mai mare cu ct s este mai
mare
scade precizia estimrii parametrilor
s
m
cu att mai mic cu ct n este mai
mare
De ex., pentru n=20 nivelul erorii standard
scade de la 1.43 la 0.98
n
s
s
m
=
EROAREA STANDARD A MEDIEI
De unde provine variabilitatea distribuiei
eantionului?
Variabilitate bun
primar: provine din variabilitatea caracteristicii msurate
Variabilitate rea
secundar: influene ale covariantelor (de ex. frustrarea,
competena)
erori de msurare
Eroare aleatorie (variaii individuale necontrolabile)
Eroare sistematic (instrument, procedur, ambian etc.)
variabilitatea total=v.primar+v.secundar+v.erorii
principiul lui Kerlinger
maximizarea variabilitii primare
controlul variabilitii secundare
minimalizarea erorii
4. EROAREA STANDARD A MEDIEI - SPSS
RAPORTAREA ERORII STANDARD A MEDIEI
sub form grafic, aa ca n figura anterioar
sub form numeric, astfel:
v1 (m=11.7, 1.43);
v2 (m=11.7, 0.98);
v3 (m=12.8, 1.1)
Atunci cnd valorile precedate de semnul sunt
prezentate fr nici o precizare suplimentar,
nseamn c ele se refer la eroarea standard a
mediei
DISTRIBUIA NORMAL
(GAUSS)
distribuie teoretic,
caracteristic
populaiilor mari
form de clopot
perfect simetric
linia curbei se apropie
la infinit de axa X,
fr a o atinge
vreodat
de fiecare parte a
mediei se afl exact
jumtate dintre
valorile distribuiei
media
modul
mediana
Karl Friedrich Gauss 1777-1855
DISTRIBUIA NORMAL Z
Applet
file:///C:/Users/marian/AppData/Roaming/Mozilla/Firefox/Profiles/msotlelf.default/ScrapBook/data/20090214200906/inde
x.html
Valorile critice ale
lui t pentru p=0.05
(bilateral)
df31...
df=6
df=3
+1.96
+2.45
+3.18
-1.96
-2.45
-3.18
Distribuia t (Student)
TEOREMA LIMITEI CENTRALE
1. Media de eantionare se apropie de media
populaiei pe msur ce numrul de eantioane
extrase crete (la infinit)
2. Distribuia mediei de eantionare se supune legilor
curbei normale, aproape indiferent de forma
distribuiei valorilor populaiei, dac:
a) volumul eantionului este suficient de mare (N30).
b) distribuia populaiei nu se abate grav de la normalitate
c) se respect condiiile eantionrii:
eantioane aleatoare
volum egal
Applet:
file:///C:/Users/marian/AppData/Roaming/Mozilla/Firefox/Profiles/msotlelf.default/ScrapBook/data/20090214200906/index.html
Teorema limitei centrale nu funcioneaz conform
ateptrilor n condiiile distribuiilor numite normal-
amestecate, sau contaminate.
De exemplu
n acelai eantion pe care am evaluat nivelul anxietii, femei i
brbai, ori alcoolici i non-alcoolici
dac ne propunem compararea celor dou grupuri sub aspectul
anxietii, nu avem nici o problem
Dac utilizm variabila anxietate nedifereniat, pe ntregul eantion,
presupunerea c distribuia se supune modelului teoremei limitei
centrale este discutabil.
INTERVALUL DE NCREDERE PENTRU MEDIA POPULAIEI
estimare a plajei de valori n care se poate afla
valoarea (adevrat) a parametrului
General vorbind, se utilizeaz:
Indicatorul (punct de stimare)
Eroarea standard a indicatorului
Limitele nivelului de ncredere (convenional, 90,%,
95%) pe distribuia normal
Pentru medie, CI 95%, se utilizeaz:
media
eroarea standard a mediei
un nivel de ncredere convenional (0.95) pe curba
normal
delimitat de anumite valori z sau t specificate n tabele
EXEMPLU:
t critic (pentru df=9)=2.262
m critic
s t m * =
46 . 8 43 . 1 * 262 . 2 7 . 11
inf
= =
93 . 14 43 . 1 * 262 . 2 7 . 11
sup
= + =
limitele intervalului de ncredere sunt mai apropiate una de alta dac:
nivelul de ncredere este mai mic (dar, prin convenie acesta nu poate
fi mai mic de 95%)
distribuia este mai omogen (ne intereseaz mai ales limitarea
variabilitii secundare i a erorii)
volumul eantionului este mai mare
Raportarea limitelor intervalului de
ncredere:
menionarea ca atare a limitei inferioare i superioare
(m=11.7, lim. inf 95%=8.46; lim. sup. 95%=14.93)
prin valoarea care se adaug/se scade din punctul de
estimare: m=11.7, 3.23 95% CI
INTERPRETAREA INTERVALULUI DE NCREDERE
Varianta incorect, dei uzual
intervalul n care, cu o probabilitate asumat (de
regul, 0.95) se afl valoarea adevrat a
parametrului (n exemplul nostru, media)
Varianta corect teoretic
pe slide-ul urmtor
Dac am extrage un
numr mare de
eantioane, intervalul
obinut are 95% anse s
fac parte dintre
intervalele care capteaz
parametrul (media)
Pentru ca aceast
ateptare s fie corect,
eantioanele trebuie s
fie reprezentative (s fie
aleatoare, sau cel puin
s nu fie afectate de
erori sistematice - bias).
SEMNIFICAIA INTERVALULUI DE NCREDERE
Mrimea intervalului:
Nu exist un criteriu obiectiv pentru a spune c un interval este mare
sau mic
Cu ct limitele sunt mai apropiate de punctul de estimare, cu att
estimarea este mai precis
Avantajele CI fa de estimarea erorii standard?
Probabilitatea asociat CI
?...
Probabilitatea asociat intervalului definit de eroarea standard:
?...
ESTIMAREA PRIN PUNCTUL DE ESTIMARE
Punct de estimare=valoarea indicatorului
statistic (eantion)
Uneori, acesta este luat drept valoare a
parametrului
surs de imprecizie (nu ine cont de eroarea
standard)
Exemple:
Coeficientul de corelaie r
Indicele de consisten intern alfa Cronbach
Orice indicator calculat pe eantion este afectat de
eroare
estimarea intervalului de ncredere ofer o informaie cu
privire la precizia acestuia
cu condiia s fie calculat
8. INTERVALUL DE NCREDERE PENTRU
PROPORIA UNUI EANTION
sondaj cu privire la introducerea unui curs
extracuricular de muzic clasic
20 studeni (selecionai aleatoriu pe baza listelor
de eviden) au fost ntrebai dac s-ar nscrie la
un astfel de program
14 studeni (70% din totalul eantionului) au
declarat c ar dori s se nscrie
Este acesta procentul real la nivelul populaiei?
Desigur, NU
8. INTERVALUL DE NCREDERE PENTRU
PROPORIA UNUI EANTION
Abaterea standard a
distribuiei binomiale:
Eroarea standard:
Calculul erorii standard
pentru exemplu:
70% 10%.
Limitele de ncredere
limita superioar: 70+10*2.093=90.93%
limita inferioar: 70-10*2.093=40.93%
Pentru n=100
q p s
p
* =
n
q p
s
ep
*
=
n
pq
s
ep
=
10 . 0
20
21 . 0
20
3 . 0 * 7 . 0
= = = =
n
pq
s
ep
04 . 0
100
21 . 0
100
3 . 0 * 7 . 0
= = = =
n
pq
s
ep
limita superioar: 70+4*1.96=77.8%
limita inferioar: 70-4*1.96=62.1%
9. INTERVALUL DE NCREDERE PENTRU DIFERENA DINTRE
PROPORIILE A DOU EANTIOANE INDEPENDENTE
eantionul sondajului a cuprins
26 de studeni (din care 50% i-au
exprimat preferina)
60 de studente (din care 80% i-au
exprimat preferina)
Diferena=30%
Este aceast diferen corect la
nivelul populaiei?
Distribuia binomial
Eroarea standard a diferenei:
30%, 14%
Intervalul de ncredere:
( )
2
2 2
1
1 1
* *
2 1
n
q p
n
q p
p p
+ =

o
limita inferioar=30-1.96*14=57.4%
limita superioar=30+1.96*14=2.5%
14 . 0
60
2 . 0 * 8 . 0
26
5 . 0 * 5 . 0
) 2 1 (
= + =
p p
o
METODA BOOTSTRAPP
Metoda clasic de calcul al CI:
Punctul de estimare al unui eantion
Distribuia de eantionare
Un model teoretic (de ex., curba normal)
Teorema limitei centrale
Practic, avem un singur eantion, iar
valoarea parametrului este estimat
Corectitudinea estimrii este dat de msura
n care toate presupunerile anterioare sunt
corecte
Dar dac nu sunt?
Dac n este mic?
Dac distribuia este puternic asimetric?
Dac valorile populaiei nu se supun legilor
curbei normale?
METODA BOOTSTRAP
Bootstrap
Metoda bootstrap presupune trei
etape critice:
a) generarea eantioanelor multiple,
similare cu eantionul cercetrii;
b) calcularea indicatorilor pentru toate
eantioanele astfel generate;
c) identificarea intervalului de ncredere
Baronul Munchausen
=?
Populaia angajailor
N=10
m=11.7
s=4.52
Reeantionare boostrap
(distribuie de eantionare real)
N=10
m1
N=10
m2
N=10
m3
N=10
m4
N=10
m5
N=10
m6
N=10
m7
N=10
m1000
CUM SUNT GENERATE EANTIOANELE?
Intuitiv:
multiplicarea eantionului cercetrii
Selectarea repetat a unui foarte mare numr de eantioane de acelai volum
din aceast pseudo-populaie de valori
Valorile originare se pot repeta, dar acest fapt nu afecteaz negativ rezultatul
Practic
Se selecteaz aleatoriu, n mod repetat, eantioane de valori din eantionul
originar
Numrul eantioanelor astfel generate trebuie s fie foarte mare (minim 1000)
n loc s presupunem distribuia de eantionare, o construim
pur si simplu
nu trebuie s mai presupunem c eantionul se supune
unei distribuii teoretice
Psudo-populaia are forma distribuiei reale a
eantionului (este constituit din chiar valorile lui)
Metoda solicit mult putere de calcul
Eantion original
10 12 8 15 20 16 7 5 11 13
alpha 0.05
confidence level 95
lower bound 8.9
upper bound 14
Bootstrap Statistics
Media Mediana Ab. Std.
12,80 13 4,32
13,20 12,5 3,39
11,80 12 4,64
12,10 11 4,95
12,60 12 3,66
10,30 11,5 4,24
8,90 7,5 4,70
11,20 11,5 3,39
11,90 12,5 3,51
10,90 11,5 2,18
10,50 11 2,84
10,50 10,5 3,41
Bootstrap samples
7 16 13 13 13 20 5 12 13 16
11 20 16 11 11 12 15 13 15 8
20 16 12 8 12 8 13 16 5 8
12 7 10 15 7 10 20 7 13 20
16 11 13 11 12 8 15 12 8 20
5 5 15 15 12 12 8 11 5 15
8 5 20 5 5 11 8 13 7 7
11 16 10 7 15 13 5 13 12 10
8 16 12 15 7 11 13 7 15 15
7 12 12 7 11 11 11 13 12 13
8 13 15 7 7 12 11 11 13 8
7 7 11 15 13 12 15 10 10 5
(b) calcularea indicatorilor pentru toate
eantioanele astfel generate
Pentru fiecare eantion generat se calculeaz
indicatorul/indicatorii vizai
Se constituie o distribuie de indicatori de volum egal
cu numrul eantioanelor generate
8.3 .5
8.6 1.5
8.8 2.0
8.9 2.5
9 3.5
9.2 4.0
9.3 4.5
9.4 5.5
9.5 6.0
13.40 91.5
13.50 92.5
13.60 94.0
13.70 95.0
13.80 96.5
13.90 97.0
14.00 97.5
14.7 98.5
15 99.5
15.1 100.0
95% CI
2.5%
2.5%
Exist mai multe metode
Cea mai uzual este
utilizarea percentilelor 2.5
i 97.5 drept limite pentru
intervalul de ncredere
(b) identificarea
intervalului de
ncredere
CONDIII PENTRU METODA BOOTSTRAP
eantionul cercetrii este reprezentativ n raport
cu populaia
garanteaz faptul c i eantioanele succesive
selectate vor fi reprezentative
rezultatul va putea fi generalizat la nivelul populaiei
de valori;
fiecare eantion selectat este extras din mulimea
de valori, dar independent de celelalte eantioane
extrase
EXEMPLU DE CALCUL CU IBM SPSS
/Explore
/Explore/Bootstrap
Avantaje
Poate fi utilizat pentru calcularea intervalelor de ncredere
pentru o varietate de indicatori statistici, pentru care n mod
obinuit aceste intervale nu pot fi calculate.
Fundamentarea procedurii este simpl, transparent i poate fi
uor de neles
nu se bazeaz pe concepte statistice sofisticate
Permite estimarea n situaii n care avem motive s ne ndoim de
ndeplinirea condiiilor impuse de estimarea care se bazeaz pe
modelele distribuiilor teoretice
utilizabil n situaii n care este dificil de gsit sau de aplicat o
metod convenional
Dezavantaje
limitele intervalului de ncredere depind practic de numrul re-
eantionrilor sau de metoda de calcul a limitelor
vor fi diferite pentru 1000 de eantioane fa de 1500, 2000 sau 10000
rezultatul va depinde ntotdeauna de decizia analistului.
alfa=0.10 alfa=0.05 alfa=0.025 alfa=0.01 alfa=0.005 alfa=0.0005
1 3.078 6.314 12.706 31.821 63.657 636.620
2 1.886 2.920 4.303 6.965 9.925 31.598
3 1.638 2.353 3.182 4.541 5.841 12.924
4 1.533 2.132 2.776 3.747 4.604 8.610
5 1.476 2.015 2.571 3.365 4.032 6.869
6 1.440 1.943 2.447 3.143 3.707 5.959
7 1.415 1.895 2.365 2.998 3.499 5.408
8 1.397 1.860 2.306 2.896 3.355 5.041
9 1.383 1.833 2.262 2.821 3.250 4.781
10 1.372 1.812 2.228 2.764 3.169 4.587
11 1.363 1.796 2.201 2.718 3.106 4.437
12 1.356 1.782 2.179 2.681 3.055 4.318
13 1.350 1.771 2.160 2.650 3.102 4.221
14 1.345 1.760 2.145 2.624 2.977 4.140
15 1.341 1.753 2.131 2.602 2.947 4.073
16 1.337 1.746 2.120 2.583 2.921 4.015
17 1.333 1.740 2.110 2.567 2.898 3.965
18 1.330 1.734 2.101 2.552 2.878 3.922
19 1.328 1.729 2.093 2.539 2.861 3.883
20 1.325 1.725 2.086 2.528 2.845 3.850
21 1.323 1.721 2.080 2.528 2.831 3.819
22 1.321 1.717 2.074 2.508 2.819 3.792
23 1.319 1.714 2.069 2.500 2.807 3.767
24 1.318 1.711 2.064 2.492 2.797 3.745
25 1.316 1.708 2.060 2.485 2.787 3.725
26 1.315 1.706 2.056 2.479 2.779 3.707
27 1.314 1.703 2.052 2.473 2.771 3.690
28 1.313 1.701 2.048 2.467 2.763 3.674
29 1.311 1.699 2.045 2.462 2.756 3.659
30 1.310 1.697 2.042 2.457 2.750 3.646
40 1.303 1.684 2.021 2.423 2.704 3.551
60 1.296 1.671 2.000 2.390 2.660 3.460
120 1.289 1.658 1.980 2.358 2.617 3.373
1.282 1.645 1.960 2.326 2.576 3.291

S-ar putea să vă placă și