Documente Academic
Documente Profesional
Documente Cultură
Popa
ORGANIZARE DE CURS
Suportul de curs
Statistici multivariate aplicate n psihologie, Polirom, 2010 Prezentrile de curs:
www.mpopa.ro/Statistic - Master
Notarea
3 evaluri pariale (patru cursuri) (20% din not) Evaluare practic (30% din not) Examen teoretic (50% din not)
Prezena
eviden separata pentru curs i seminar o prezen sub 50% la seminar+curs conduce la neacceptarea la examenul din var
SUBIECTE
1. 2. 3. 4. 5. 6. 7. 8.
9.
10.
Ce este inferena statistic? Indicatori statistici i parametri Distribuia de eantionare Eroarea standard Curba normal (Gauss) i teorema limitei centrale Teorema limitei centrale Intervalul de ncredere pentru media populaiei Intervalul de ncredere pentru proporia unui eantion Intervalul de ncredere pentru diferena dintre proporiile a dou eantioane independente Calcularea intervalului de ncredere prin metoda re-eantionrii (bootstrap)
DOMENIILE STATISTICII
Statistica descriptiv
procedurile de organizare, sintetizare i comunicare a datelor numerice tabelele de frecven i ilustrrile grafice, dar i diferii indicatori numerici Exemplu:
evaluarea nivelului de satisfacie al studenilor din facultate interesul fiind legat doar de analiza satisfaciei la nivelul facultii respective
Statistica inferenial
Evaluarea satisfaciei pe un eantion de studeni cu scopul de a trage concluzii cu privire la satisfacia tuturor studenilor facultii, sau pentru compararea satisfaciei unor grupuri diferite
n statistic
fundamentarea unor concluzii mai generale pe baza utilizrii unor date empirice limitate
n virtutea unor raionamente logico-probabilistice
TIPURI DE POPULAII
Populaie real (tangibil)
populaia din care selecionm eantionul pentru sondarea inteniei de vot la alegeri
n ambele situaii:
avem de a face cu date empirice cercettorul emite o concluzie probabilist cu privire la
preferina electoral a alegtorilor existena unui numr mai redus de incidente agresive n trafic ca urmare a programului de training
reprezentativitatea eantioanelor aleatoare particularitile distribuiei de eantionare formule de calcul diferite modele teoretice cu privire la distribuia datelor (unul dintre aceste modele este cel al distribuiei normale) reguli decizionale cu privire la rezultatul obinut
DOU EXEMPLE
Sondaj cu privire la intenia de vot a unui eantion de ceteni
Populaie real estimarea rezultatelor alegerilor la nivelul ntregii comuniti reprezint o form de inferen
Forme principale:
estimarea parametrilor unei populaii testarea ipotezelor de cercetare
.a.
eroare
de estimare
2. Distribuia de eantionare
Subieci 1 2 3 4 5 6 7 8 9 10 A B C D E F G H I J media ab.std. Scor motivaie (v1) 10 12 8 15 20 16 7 5 11 13 11.7 4.52
2. Distribuia de eantionare
Populaie
Eantion cercetare
Eantion potenial
Eantion potenial
Eantion potenial
Eantion potenial
Eantion potenial
m1 (m1- )
m2 (m2- )
m3 (m3- )
m4 (m4- )
mk (mk- )
distribuia de eantionare
4. EROAREA STANDARD
Mediile care compun distribuia de eantionare sunt inevitabil diferite ntre ele
nici un eantion nu este perfect reprezentativ distribuia de eantionare = distribuie de abateri ale fiecrei medii poteniale de la media populaiei: (m1- ), (m2- ), (m3- ) (mk- ) distribuie a erorilor de estimare a mediei populaiei ( ) de ctre fiecare medie potenial (m1, m2, m3 mk)
4. EROAREA STANDARD
Distribuia de eantionare este o distribuie de erori de estimare
Abaterea standard a distribuiei de eantionare se numete eroare standard
descrie imprecizia estimrii parametrului ataabil oricrui indicator calculat la nivel de eantion (medie, indice de simetrie, indice de boltire, diferen dintre medii, coeficient de corelaie etc.)
4. EROAREA STANDARD
Este expresia direct a variabilitii (mprtierii) valorilor eantionului Este ntotdeauna mai mic dect abaterea standard a valorilor populaiei:
sm : mprtierea distribuiei de eantionare : abaterea standard a valorilor individuale la nivelul populaiei n : volumul eantionului (n exemplul nostru, 10)
sm =
4.52 sm = = 1.43 10
4. EROAREA STANDARD
sm ne spune:
ct de mult ar fluctua media dac am calcula-o pentru eantioane diferite, de aceeai mrime, extrase din aceeai populaie ct de precis/imprecis este estimat media populaiei de ctre media eantionului
s sm = n
4. EROAREA STANDARD
De unde provine variabilitatea distribuiei eantionului?
Variabilitate bun
primar: provine din variabilitatea caracteristicii msurate
Variabilitate rea
secundar: influene ale covariantelor (de ex. frustrarea, competena) erori de msurare Eroare aleatorie (variaii individuale necontrolabile) Eroare sistematic (instrument, procedur, ambian etc.)
4. EROAREA STANDARD
Raportare
sub form grafic, aa ca n figura anterioar sub form numeric, astfel: v1 (m=11.7, 1.43); v2 (m=11.7, 0.98); v3 (m=12.80, 1.1)
Atunci cnd valorile precedate de semnul sunt prezentate fr nici o precizare suplimentar, nseamn c ele se refer la eroarea standard a mediei
26
DISTRIBUIA NORMAL Z
Applet
file:///C:/Users/marian/AppData/Roaming/Mozilla/Firefox/Profiles/msotlelf.default/ScrapBook/data/20090214200906/inde x.html
Distribuia t (Student)
df31...
df=6 df=3
2.
Media de eantionare se apropie de media populaiei pe msur ce numrul de eantioane extrase crete (la infinit) Distribuia mediei de eantionare se supune legilor curbei normale, aproape indiferent de forma distribuiei valorilor populaiei, dac:
a) b) c)
volumul eantionului este suficient de mare (N30). distribuia populaiei nu se abate grav de la normalitate se respect condiiile eantionrii:
eantioane aleatoare volum egal
Applet: file:///C:/Users/marian/AppData/Roaming/Mozilla/Firefox/Profiles/msotlelf.default/ScrapBook/data/20090214200906/index.html
EXEMPLU:
t critic (pentru df=9)=2.262
= m tcritic * sm
inf = 11.7 2.262 *1.43 = 8.46
sup = 11.7 + 2.262 *1.43 = 14.93
limitele intervalului de ncredere sunt mai apropiate una de alta dac: nivelul de ncredere este mai mic (dar, prin convenie acesta nu poate fi mai mic de 95%) distribuia este mai omogen (ne intereseaz mai ales limitarea variabilitii secundare i a erorii) volumul eantionului este mai mare
Applet: file:///C:/Users/marian/AppData/Roaming/Mozilla/Firefox/Profiles/msotlelf.default/ScrapBook/data/20090214200906/index.html
sondaj cu privire la introducerea unui curs extracuricular de muzic clasic 20 studeni (selecionai aleatoriu pe baza listelor de eviden) au fost ntrebai dac s-ar nscrie la un astfel de program 14 studeni (70% din totalul eantionului) au declarat c ar dori s se nscrie
Este acesta procentul real la nivelul populaiei? Desigur, NU
Abaterea standard a distribuiei binomiale: Eroarea standard: Calculul erorii standard pentru exemplu:
70% 10%.
sp =
sep = p*q n
p*q
sep = pq n
Limitele de ncredere
limita superioar: 70+10*2.093=90.93% limita inferioar: 70-10*2.093=40.93%
sep =
Pentru n=100
pq 0.7 * 0.3 0.21 = = = 0.04 n 100 100
sep =
Diferena=30%
Este aceast diferen corect la nivelul populaiei?
(p p ) =
1 2
p1 * q1 p 2 * q 2 + n1 n2
Intervalul de ncredere:
METODA BOOTSTRAPP
Metoda clasic de calcul al CI:
Punctul de estimare al unui eantion Distribuia de eantionare Un model teoretic (de ex., curba normal) Teorema limitei centrale
METODA BOOTSTRAP
Bootstrap Metoda bootstrap presupune trei etape critice:
a) b) c)
generarea eantioanelor multiple, Baronul Munchausen similare cu eantionul cercetrii; calcularea indicatorilor pentru toate eantioanele astfel generate; identificarea intervalului de ncredere
Practic
Se selecteaz aleatoriu, n mod repetat, eantioane de valori din eantionul originar Numrul eantioanelor astfel generate trebuie s fie foarte mare (minim 1000)
n loc s presupunem distribuia de eantionare, o construim pur si simplu nu trebuie s mai presupunem c eantionul se supune unei distribuii teoretice Psudo-populaia are forma distribuiei reale a eantionului (este constituit din chiar valorile lui) Metoda solicit mult putere de calcul
(b) calcularea indicatorilor pentru toate eantioanele astfel generate Pentru fiecare eantion generat se calculeaz indicatorul/indicatorii vizai Se constituie o distribuie de indicatori de volum egal cu numrul eantioanelor generate
Exist mai multe metode Cea mai uzual este utilizarea percentilelor 2.5 i 97.5 drept limite pentru intervalul de ncredere
Media 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98
FRC% .6 2.3 5.0 9.3 12.4 14.6 19.0 21.7 22.4 25.3 27.8 29.5 31.0 33.1 35.9 40.5 43.5 46.6 51.5 54.6 58.6 61.6 63.7 66.5 68.8 71.5 73.0 76.4 79.1 82.3 87.1 90.1 91.4 95.0 97.0 100.0
5%
95% CI
5%
fiecare eantion selectat este extras din mulimea de valori, dar independent de celelalte eantioane extrase
/Explore/Bootstrap
Avantaje
Poate fi utilizat pentru calcularea intervalelor de ncredere pentru o varietate de indicatori statistici, pentru care n mod obinuit aceste intervale nu pot fi calculate. Fundamentarea procedurii este simpl, transparent i poate fi uor de neles
nu se bazeaz pe concepte statistice sofisticate
Permite estimarea n situaii n care avem motive s ne ndoim de ndeplinirea condiiilor impuse de estimarea care se bazeaz pe modelele distribuiilor teoretice
utilizabil n situaii n care este dificil de gsit sau de aplicat o metod convenional
Dezavantaje
limitele intervalului de ncredere depind practic de numrul reeantionrilor sau de metoda de calcul a limitelor
vor fi diferite pentru 1000 de eantioane fa de 1500, 2000 sau 10000 rezultatul va depinde ntotdeauna de decizia analistului.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
alfa=0.10 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.289 1.282
alfa=0.05 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.760 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.658 1.645
alfa=0.025 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.980 1.960
alfa=0.01 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.528 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.358 2.326
alfa=0.005 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.102 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.617 2.576
alfa=0.0005 636.620 31.598 12.924 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.551 3.460 3.373 3.291