Documente Academic
Documente Profesional
Documente Cultură
01 Inferenta Estimarea
01 Inferenta Estimarea
Popa
ORGANIZARE DE CURS
Suportul de curs
Statistici multivariate aplicate n psihologie, Polirom, 2010 Prezentrile de curs:
www.mpopa.ro/Statistic - Master
Notarea
3 evaluri pariale (patru cursuri) (20% din not) Proiect de curs (40% din not)
analiza unei baze de date (document) cerinele proiectului sunt descrise pe www.mpopa.ro
Prezena
eviden separata pentru curs i seminar o prezen sub 50% la seminar+curs conduce la neacceptarea la examenul din var
9.
10.
Ce este inferena statistic Indicatori statistici i parametri Distribuia de eantionare Eroarea standard Curba normal (Gauss) i teorema limitei centrale Teorema limitei centrale Intervalul de ncredere pentru media populaiei Intervalul de ncredere pentru proporia unui eantion Intervalul de ncredere pentru diferena dintre proporiile a dou eantioane independente Calcularea intervalului de ncredere prin metoda re-eantionrii (bootstrap)
DOMENIILE STATISTICII
Statistica descriptiv
procedurile de organizare, sintetizare i comunicare a datelor numerice tabelele de frecven i ilustrrile grafice, dar i diferii indicatori numerici Exemplu:
evaluarea nivelului de satisfacie al studenilor din facultate interesul fiind legat doar de analiza satisfaciei la nivelul facultii respective
Statistica inferenial
Evaluarea satisfaciei pe un eantion de studeni cu scopul de a trage concluzii cu privire la satisfacia tuturor studenilor facultii, sau pentru compararea satisfaciei unor grupuri diferite
n statistic
fundamentarea unor concluzii mai generale pe baza utilizrii unor date empirice limitate
n virtutea unor raionamente logico-probabilistice
Forme principale:
estimarea parametrilor unei populaii testarea ipotezelor de cercetare
2. INDICATORI I PARAMETRI
Indicatori Parametri Media Dispersia Abaterea standard Coeficientul de corelaie Pearson Coeficientul de corelaie Spearman m s2 s r rs 2 s
.a.
Ca urmare
indicatorul statistic nu reprezenta corect parametrul
Deci
indicatorul estimeaz parametrul cu o anumit imprecizie (eroare)
CONCLUZIE
Pentru spune ceva despre parametru, trebuie s ne facem o idee despre imprecizia (eroarea de estimare) a indicatorului
CONCEPTE AJUTTOARE
DISTRIBUIA DE EANTIONARE
CT DE MOTIVAI
SUNT ANGAJAII UNEI ORGANIZAII?
Populaia angajailor
ni
1 2 3 4 5 6 7 8 9 10 N=10
=?
=?
=m+error
m=11.7
=11.7+? error
Surse posibile ale erorii
Populaia angajailor
=?
N=10 m=
N=10 m=
N=10 m=
N=10 m=
4. EROAREA STANDARD
Mediile care compun distribuia de eantionare sunt inevitabil diferite ntre ele
nici un eantion nu este perfect reprezentativ distribuia de eantionare = distribuie de abateri ale fiecrei medii poteniale de la media populaiei: (m1- ), (m2- ), (m3- ) (mk- ) distribuie a erorilor de estimare a mediei populaiei () de ctre fiecare medie potenial (m1, m2, m3 mk)
m3 m5 m2
Eroarea de estimare
m m1 m4
Cu ct mediile fiecrui eantion s-ar abate mai mult de la media de eantionare, cu att estimarea pe baza unui singur eantion este mai imprecis DECI Eroarea de estimare este n legtur cu mprtierea distribuiei de eantionare
EROAREA STANDARD
Abaterea standard a distribuiei de eantionare se numete eroare standard
descrie imprecizia estimrii parametrului ataabil oricrui indicator calculat la nivel de eantion (medie, indice de simetrie, indice de boltire, diferen dintre medii, coeficient de corelaie etc.) n continuare o vom exemplifica doar pentru medie
sm =
4.52 sm = = 1.43 10
s sm = n
Variabilitate rea
secundar: influene ale covariantelor (de ex. frustrarea, competena) erori de msurare Eroare aleatorie (variaii individuale necontrolabile) Eroare sistematic (instrument, procedur, ambian etc.)
DISTRIBUIA NORMAL Z
Applet
file:///C:/Users/marian/AppData/Roaming/Mozilla/Firefox/Profiles/msotlelf.default/ScrapBook/data/20090214200906/inde x.html
Distribuia t (Student)
df31...
df=6 df=3
2.
Media de eantionare se apropie de media populaiei pe msur ce numrul de eantioane extrase crete (la infinit) Distribuia mediei de eantionare se supune legilor curbei normale, aproape indiferent de forma distribuiei valorilor populaiei, dac:
a) b) c)
volumul eantionului este suficient de mare (N30). distribuia populaiei nu se abate grav de la normalitate se respect condiiile eantionrii:
eantioane aleatoare volum egal
Applet: file:///C:/Users/marian/AppData/Roaming/Mozilla/Firefox/Profiles/msotlelf.default/ScrapBook/data/20090214200906/index.html
Teorema limitei centrale nu funcioneaz conform ateptrilor n condiiile distribuiilor numite normalamestecate, sau contaminate.
De exemplu
n acelai eantion pe care am evaluat nivelul anxietii, femei i brbai, ori alcoolici i non-alcoolici dac ne propunem compararea celor dou grupuri sub aspectul anxietii, nu avem nici o problem Dac utilizm variabila anxietate nedifereniat, pe ntregul eantion, presupunerea c distribuia se supune modelului teoremei limitei centrale este discutabil.
EXEMPLU:
t critic (pentru df=9)=2.262
= m tcritic * sm
inf = 11.7 2.262 *1.43 = 8.46
sup = 11.7 + 2.262 *1.43 = 14.93
limitele intervalului de ncredere sunt mai apropiate una de alta dac: nivelul de ncredere este mai mic (dar, prin convenie acesta nu poate fi mai mic de 95%) distribuia este mai omogen (ne intereseaz mai ales limitarea variabilitii secundare i a erorii) volumul eantionului este mai mare
Dac am extrage un numr mare de eantioane, intervalul obinut are 95% anse s fac parte dintre intervalele care capteaz parametrul (media) Pentru ca aceast ateptare s fie corect, eantioanele trebuie s fie reprezentative (s fie aleatoare, sau cel puin s nu fie afectate de erori sistematice - bias).
sondaj cu privire la introducerea unui curs extracuricular de muzic clasic 20 studeni (selecionai aleatoriu pe baza listelor de eviden) au fost ntrebai dac s-ar nscrie la un astfel de program 14 studeni (70% din totalul eantionului) au declarat c ar dori s se nscrie
Este acesta procentul real la nivelul populaiei? Desigur, NU
Abaterea standard a distribuiei binomiale: Eroarea standard: Calculul erorii standard pentru exemplu:
70% 10%.
sp =
sep = p*q n
p*q
sep = pq n
Limitele de ncredere
limita superioar: 70+10*2.093=90.93% limita inferioar: 70-10*2.093=40.93%
sep =
Pentru n=100
pq 0.7 * 0.3 0.21 = = = 0.04 n 100 100
sep =
Diferena=30%
Este aceast diferen corect la nivelul populaiei?
(p p ) =
1 2
p1 * q1 p 2 * q 2 + n1 n2
Intervalul de ncredere:
METODA BOOTSTRAPP
Metoda clasic de calcul al CI:
Punctul de estimare al unui eantion Distribuia de eantionare Un model teoretic (de ex., curba normal) Teorema limitei centrale
METODA BOOTSTRAP
Bootstrap Metoda bootstrap presupune trei etape critice:
a) b) c)
generarea eantioanelor multiple, Baronul Munchausen similare cu eantionul cercetrii; calcularea indicatorilor pentru toate eantioanele astfel generate; identificarea intervalului de ncredere
Populaia angajailor
=?
N=10 m1
N=10 m2
N=10 m3
N=10 m4
N=10 m5
N=10 m6
N=10 m7
N=10 m1000
Practic
Se selecteaz aleatoriu, n mod repetat, eantioane de valori din eantionul originar Numrul eantioanelor astfel generate trebuie s fie foarte mare (minim 1000)
n loc s presupunem distribuia de eantionare, o construim pur si simplu nu trebuie s mai presupunem c eantionul se supune unei distribuii teoretice Psudo-populaia are forma distribuiei reale a eantionului (este constituit din chiar valorile lui) Metoda solicit mult putere de calcul
20
16 5 12 8 13 7 13 20 12 20 13 15 12 8 5 7 5 8 10 11 ..
7 10 13 5 16 7 7 13 11 8 10 11 15 10 7 20 5 13 15 16 ..
5 5 11 5 7 13 12 15 10 15 16 11 5 10 10 7 10 15 11 13 ..
11 20 16 15 20 7 8 15 7 12 12 8 13 12 13 12 7 11 13 12 ..
13 20 8 16 13 16 8 13 12 16 11 5 5 15 15 8 11 13 20 5
Statistici booststrap Media mediana ab.std. 12.80 12.5 6.05 11.50 11.5 4.28 10.20 9 4.83 13.50 13 4.88 10.80 10 3.77 10.50 11.5 3.27 14.20 14 3.61 11.10 11 3.90 14.40 15 3.95 12.80 12 3.55 11.40 11 3.84 12.10 12.5 4.65 10.80 10.5 2.97 11.50 11 5.56 10.70 9 4.19 6.90 6 2.28 12.90 13 5.04 10.40 10 4.81 11.20 11.5 3.79
Eantioane bootstrap 16 13 12 20 7 5 10 20 12 8 7 16 5 10 15 13 20 5 16 12 8 15 15 12 8 13 13 11 15 5 11 10 10 20 15 12 5 11 11 20 10 15 16 20 12 7 12 15 12 20 7 15 11 16 15 15 20 11 10 15 7 11 7 15 13 8 20 20 12 5 8 12 8 10 15 5 8 8 5 5 20 20 5 8 16 10 5 5 10 5 15 7 11 7 15 .. .. .. .. ..
0.05 90 9.2 14
(b) calcularea indicatorilor pentru toate eantioanele astfel generate Pentru fiecare eantion generat se calculeaz indicatorul/indicatorii vizai Se constituie o distribuie de indicatori de volum egal cu numrul eantioanelor generate
2.5%
Exist mai multe metode Cea mai uzual este utilizarea percentilelor 2.5 i 97.5 drept limite pentru intervalul de ncredere
95% CI
13.40 13.50 13.60 13.70 13.80 13.90 14.00 14.10 14.20 14.30 91.5 92.5 94.0 95.0 96.5 97.0 98.0 98.5 99.5 100.0
2.5%
fiecare eantion selectat este extras din mulimea de valori, dar independent de celelalte eantioane extrase
/Explore/Bootstrap
Avantaje
Poate fi utilizat pentru calcularea intervalelor de ncredere pentru o varietate de indicatori statistici, pentru care n mod obinuit aceste intervale nu pot fi calculate. Fundamentarea procedurii este simpl, transparent i poate fi uor de neles
nu se bazeaz pe concepte statistice sofisticate
Permite estimarea n situaii n care avem motive s ne ndoim de ndeplinirea condiiilor impuse de estimarea care se bazeaz pe modelele distribuiilor teoretice
utilizabil n situaii n care este dificil de gsit sau de aplicat o metod convenional
Dezavantaje
limitele intervalului de ncredere depind practic de numrul reeantionrilor sau de metoda de calcul a limitelor
vor fi diferite pentru 1000 de eantioane fa de 1500, 2000 sau 10000 rezultatul va depinde ntotdeauna de decizia analistului.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
alfa=0.10 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.289 1.282
alfa=0.05 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.760 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.658 1.645
alfa=0.025 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.980 1.960
alfa=0.01 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.528 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.358 2.326
alfa=0.005 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.102 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.617 2.576
alfa=0.0005 636.620 31.598 12.924 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.551 3.460 3.373 3.291