Sunteți pe pagina 1din 53

INFERENA STATISTIC - ESTIMAREA PARAMETRILOR M.

Popa

ORGANIZARE DE CURS
Suportul de curs
Statistici multivariate aplicate n psihologie, Polirom, 2010 Prezentrile de curs:
www.mpopa.ro/Statistic - Master

Notarea
3 evaluri pariale (patru cursuri) (20% din not) Proiect de curs (40% din not)
analiza unei baze de date (document) cerinele proiectului sunt descrise pe www.mpopa.ro

Examen teoretic (40% din not)

Prezena
eviden separata pentru curs i seminar o prezen sub 50% la seminar+curs conduce la neacceptarea la examenul din var

Tema de seminar permanent


Prezentarea sub forma scrisa, rezumativa, a unui articol n care este tratat tema statistic a sptmnii.

AZI VORBIM DESPRE:


1. 2. 3. 4. 5. 6. 7. 8.

9.

10.

Ce este inferena statistic Indicatori statistici i parametri Distribuia de eantionare Eroarea standard Curba normal (Gauss) i teorema limitei centrale Teorema limitei centrale Intervalul de ncredere pentru media populaiei Intervalul de ncredere pentru proporia unui eantion Intervalul de ncredere pentru diferena dintre proporiile a dou eantioane independente Calcularea intervalului de ncredere prin metoda re-eantionrii (bootstrap)

DOMENIILE STATISTICII
Statistica descriptiv
procedurile de organizare, sintetizare i comunicare a datelor numerice tabelele de frecven i ilustrrile grafice, dar i diferii indicatori numerici Exemplu:
evaluarea nivelului de satisfacie al studenilor din facultate interesul fiind legat doar de analiza satisfaciei la nivelul facultii respective

Statistica inferenial
Evaluarea satisfaciei pe un eantion de studeni cu scopul de a trage concluzii cu privire la satisfacia tuturor studenilor facultii, sau pentru compararea satisfaciei unor grupuri diferite

CE ESTE INFERENA STATISTIC?


n limbajul curent
raionament prin care se trage o concluzie al crui adevr nu este verificat n mod direct
n virtutea unei legturi cu alte raionamente considerate drept adevrate

n statistic
fundamentarea unor concluzii mai generale pe baza utilizrii unor date empirice limitate
n virtutea unor raionamente logico-probabilistice

presupune cu necesitate existena unui eantion


servete drept baz pentru descrierea populaiei din care a fost extras

CE ESTE INFERENA STATISTIC?


Definiie:
modalitate incert i nesigur de cunoatere a adevrului, necunoscut i inabordabil n mod direct bazat pe reguli i raionamente care ncearc s limiteze impactul subiectivismului asupra concluziilor

Forme principale:
estimarea parametrilor unei populaii testarea ipotezelor de cercetare

2. INDICATORI I PARAMETRI
Indicatori Parametri Media Dispersia Abaterea standard Coeficientul de corelaie Pearson Coeficientul de corelaie Spearman m s2 s r rs 2 s

.a.

indicatorul reprezint (estimeaz) parametrul Dar


nici un eantion nu este perfect reprezentativ

Ca urmare
indicatorul statistic nu reprezenta corect parametrul

Deci
indicatorul estimeaz parametrul cu o anumit imprecizie (eroare)

CONCLUZIE
Pentru spune ceva despre parametru, trebuie s ne facem o idee despre imprecizia (eroarea de estimare) a indicatorului

CONCEPTE AJUTTOARE

Distribuia de eantionare Eroarea standard Distribuia normal Intervalul de ncredere

DISTRIBUIA DE EANTIONARE
CT DE MOTIVAI
SUNT ANGAJAII UNEI ORGANIZAII?

Populaia angajailor

ni
1 2 3 4 5 6 7 8 9 10 N=10

=?

N=10 e an m=11.7 t s=4.52

Scor motivaie (v1) 10 12 8 15 20 16 7 5 11 13 m=11.7 s=4.52

Putem afirma c =m?

=?

=m+error
m=11.7

=11.7+? error
Surse posibile ale erorii

Populaia angajailor

=?

N=10 m=11.7 s=4.52

N=10 m=

N=10 m=

N=10 m=

N=10 m=

Distribuie de eantionare a mediei (are un caracter virtual)

4. EROAREA STANDARD
Mediile care compun distribuia de eantionare sunt inevitabil diferite ntre ele
nici un eantion nu este perfect reprezentativ distribuia de eantionare = distribuie de abateri ale fiecrei medii poteniale de la media populaiei: (m1- ), (m2- ), (m3- ) (mk- ) distribuie a erorilor de estimare a mediei populaiei () de ctre fiecare medie potenial (m1, m2, m3 mk)

ca orice distribuie de valori, distribuia de eantionare are:


o medie o abatere standard

m3 m5 m2

Media distribuiei de eantionare

Eroarea de estimare
m m1 m4

Cu ct mediile fiecrui eantion s-ar abate mai mult de la media de eantionare, cu att estimarea pe baza unui singur eantion este mai imprecis DECI Eroarea de estimare este n legtur cu mprtierea distribuiei de eantionare

EROAREA STANDARD
Abaterea standard a distribuiei de eantionare se numete eroare standard
descrie imprecizia estimrii parametrului ataabil oricrui indicator calculat la nivel de eantion (medie, indice de simetrie, indice de boltire, diferen dintre medii, coeficient de corelaie etc.) n continuare o vom exemplifica doar pentru medie

EROAREA STANDARD A MEDIEI


Este expresia direct a variabilitii (mprtierii) valorilor eantionului Este ntotdeauna mai mic dect abaterea standard a valorilor populaiei:
sm : mprtierea distribuiei de eantionare : abaterea standard a valorilor individuale la nivelul populaiei n : volumul eantionului (n exemplul nostru, 10)

sm =

4.52 sm = = 1.43 10

EROAREA STANDARD A MEDIEI


sm ne spune:
ct de mult ar fluctua media dac am calcula-o pentru eantioane diferite, de aceeai mrime, extrase din aceeai populaie ct de precis/imprecis este estimat media populaiei de ctre media eantionului

sm cu att mai mare cu ct s este mai mare


scade precizia estimrii parametrilor

s sm = n

sm cu att mai mic cu ct n este mai mare


De ex., pentru n=20 nivelul erorii standard scade de la 1.43 la 0.98

EROAREA STANDARD A MEDIEI


De unde provine variabilitatea distribuiei eantionului?
Variabilitate bun
primar: provine din variabilitatea caracteristicii msurate

Variabilitate rea
secundar: influene ale covariantelor (de ex. frustrarea, competena) erori de msurare Eroare aleatorie (variaii individuale necontrolabile) Eroare sistematic (instrument, procedur, ambian etc.)

variabilitatea total= variab.primar+variab. secundar+variab. erorii

principiul lui Kerlinger


maximizarea variabilitii primare controlul variabilitii secundare minimalizarea erorii

4. EROAREA STANDARD A MEDIEI - SPSS

RAPORTAREA ERORII STANDARD A MEDIEI


sub form grafic, aa ca n figura anterioar sub form numeric, astfel: v1 (m=11.7, 1.43); v2 (m=11.7, 0.98); v3 (m=12.8, 1.1) Atunci cnd valorile precedate de semnul sunt prezentate fr nici o precizare suplimentar, nseamn c ele se refer la eroarea standard a mediei

DISTRIBUIA NORMAL (GAUSS)


distribuie teoretic, caracteristic populaiilor mari form de clopot perfect simetric linia curbei se apropie la infinit de axa X, fr a o atinge vreodat de fiecare parte a mediei se afl exact jumtate dintre valorile distribuiei

Karl Friedrich Gauss 1777-1855

media modul mediana

DISTRIBUIA NORMAL Z

Applet
file:///C:/Users/marian/AppData/Roaming/Mozilla/Firefox/Profiles/msotlelf.default/ScrapBook/data/20090214200906/inde x.html

Distribuia t (Student)
df31...

df=6 df=3

-1.96 -2.45 -3.18

+1.96 +2.45 +3.18

Valorile critice ale lui t pentru p=0.05 (bilateral)

TEOREMA LIMITEI CENTRALE


1.

2.

Media de eantionare se apropie de media populaiei pe msur ce numrul de eantioane extrase crete (la infinit) Distribuia mediei de eantionare se supune legilor curbei normale, aproape indiferent de forma distribuiei valorilor populaiei, dac:
a) b) c)

volumul eantionului este suficient de mare (N30). distribuia populaiei nu se abate grav de la normalitate se respect condiiile eantionrii:
eantioane aleatoare volum egal

Applet: file:///C:/Users/marian/AppData/Roaming/Mozilla/Firefox/Profiles/msotlelf.default/ScrapBook/data/20090214200906/index.html

Teorema limitei centrale nu funcioneaz conform ateptrilor n condiiile distribuiilor numite normalamestecate, sau contaminate.
De exemplu
n acelai eantion pe care am evaluat nivelul anxietii, femei i brbai, ori alcoolici i non-alcoolici dac ne propunem compararea celor dou grupuri sub aspectul anxietii, nu avem nici o problem Dac utilizm variabila anxietate nedifereniat, pe ntregul eantion, presupunerea c distribuia se supune modelului teoremei limitei centrale este discutabil.

INTERVALUL DE NCREDERE PENTRU MEDIA POPULAIEI


estimare a plajei de valori pe care o poate lua parametrul Se utilizeaz:
media eroarea standard a mediei un nivel de ncredere convenional de 95% (0.95) pe curba normal
delimitat de anumite valori z sau t specificate n tabele

EXEMPLU:
t critic (pentru df=9)=2.262

= m tcritic * sm
inf = 11.7 2.262 *1.43 = 8.46
sup = 11.7 + 2.262 *1.43 = 14.93

limitele intervalului de ncredere sunt mai apropiate una de alta dac: nivelul de ncredere este mai mic (dar, prin convenie acesta nu poate fi mai mic de 95%) distribuia este mai omogen (ne intereseaz mai ales limitarea variabilitii secundare i a erorii) volumul eantionului este mai mare

Raportarea limitelor intervalului de ncredere:


menionarea ca atare a limitei inferioare i superioare (m=11.7, lim. inf 95%=8.46; lim. sup. 95%=14.93) prin valoarea care se adaug/se scade din punctul de estimare: m=11.7, 3.23 95% CI

INTERPRETAREA INTERVALULUI DE NCREDERE


Varianta incorect, dei uzual
intervalul n care, cu o probabilitate asumat (de regul, 0.95) se afl valoarea adevrat a parametrului (n exemplul nostru, media

Varianta corect teoretic


pe slide-ul urmtor

Dac am extrage un numr mare de eantioane, intervalul obinut are 95% anse s fac parte dintre intervalele care capteaz parametrul (media) Pentru ca aceast ateptare s fie corect, eantioanele trebuie s fie reprezentative (s fie aleatoare, sau cel puin s nu fie afectate de erori sistematice - bias).

SEMNIFICAIA INTERVALULUI DE NCREDERE


Mrimea intervalului:
Nu exist un criteriu obiectiv pentru a spune c un interval este mare sau mic Cu ct limitele sunt mai apropiate de punctul de estimare, cu att estimarea este mai precis

Avantajele CI fa de estimarea erorii standard? Probabilitatea asociat CI


?...

Probabilitatea asociat intervalului definit de eroarea standard:


?...

ESTIMAREA PRIN PUNCTUL DE ESTIMARE


Punct de estimare=valoarea indicatorului statistic (eantion) Uneori, acesta este luat drept valoare a parametrului
surs de imprecizie (nu ine cont de eroarea standard) Exemple:
Coeficientul de corelaie r Indicele de consisten intern alfa Cronbach

Orice indicator calculat pe eantion este afectat de eroare


estimarea intervalului de ncredere ofer o informaie cu privire la precizia acestuia cu condiia s fie calculat

8. INTERVALUL DE NCREDERE PENTRU


PROPORIA UNUI EANTION

sondaj cu privire la introducerea unui curs extracuricular de muzic clasic 20 studeni (selecionai aleatoriu pe baza listelor de eviden) au fost ntrebai dac s-ar nscrie la un astfel de program 14 studeni (70% din totalul eantionului) au declarat c ar dori s se nscrie
Este acesta procentul real la nivelul populaiei? Desigur, NU

8. INTERVALUL DE NCREDERE PENTRU


PROPORIA UNUI EANTION

Abaterea standard a distribuiei binomiale: Eroarea standard: Calculul erorii standard pentru exemplu:
70% 10%.

sp =
sep = p*q n

p*q
sep = pq n

Limitele de ncredere
limita superioar: 70+10*2.093=90.93% limita inferioar: 70-10*2.093=40.93%

sep =

pq 0.7 * 0.3 0.21 = = = 0.10 n 20 20

Pentru n=100
pq 0.7 * 0.3 0.21 = = = 0.04 n 100 100

sep =

limita superioar: 70+4*1.96=77.8% limita inferioar: 70-4*1.96=62.1%

9. INTERVALUL DE NCREDERE PENTRU DIFERENA DINTRE


PROPORIILE A DOU EANTIOANE INDEPENDENTE

eantionul sondajului a cuprins


26 de studeni (din care 50% i-au exprimat preferina) 60 de studente (din care 80% i-au exprimat preferina)

Diferena=30%
Este aceast diferen corect la nivelul populaiei?
(p p ) =
1 2

Distribuia binomial Eroarea standard a diferenei:


30%, 14%
( p1 p 2) =

p1 * q1 p 2 * q 2 + n1 n2

0.5 * 0.5 0.8 * 0.2 + = 0.14 26 60

Intervalul de ncredere:

limita inferioar=30-1.96*14=57.4% limita superioar=30+1.96*14=2.5%

METODA BOOTSTRAPP
Metoda clasic de calcul al CI:
Punctul de estimare al unui eantion Distribuia de eantionare Un model teoretic (de ex., curba normal) Teorema limitei centrale

Practic, avem un singur eantion, iar valoarea parametrului este estimat


Corectitudinea estimrii este dat de msura n care toate presupunerile anterioare sunt corecte Dar dac nu sunt? Dac n este mic? Dac distribuia este puternic asimetric? Dac valorile populaiei nu se supun legilor curbei normale?

METODA BOOTSTRAP
Bootstrap Metoda bootstrap presupune trei etape critice:
a) b) c)

generarea eantioanelor multiple, Baronul Munchausen similare cu eantionul cercetrii; calcularea indicatorilor pentru toate eantioanele astfel generate; identificarea intervalului de ncredere

Populaia angajailor

=?

N=10 m=11.7 s=4.52

N=10 m1

N=10 m2

N=10 m3

N=10 m4

N=10 m5

N=10 m6

N=10 m7

N=10 m1000

Reeantionare boostrap (distribuie de eantionare real)

CUM SUNT GENERATE EANTIOANELE?


Intuitiv:
multiplicarea eantionului cercetrii Selectarea repetat a unui foarte mare numr de eantioane de acelai volum din aceast pseudo-populaie de valori Valorile originare se pot repeta, dar acest fapt nu afecteaz negativ rezultatul

Practic
Se selecteaz aleatoriu, n mod repetat, eantioane de valori din eantionul originar Numrul eantioanelor astfel generate trebuie s fie foarte mare (minim 1000)

n loc s presupunem distribuia de eantionare, o construim pur si simplu nu trebuie s mai presupunem c eantionul se supune unei distribuii teoretice Psudo-populaia are forma distribuiei reale a eantionului (este constituit din chiar valorile lui) Metoda solicit mult putere de calcul

Eantion original 10 12 8 15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 201

20

16 5 12 8 13 7 13 20 12 20 13 15 12 8 5 7 5 8 10 11 ..

7 10 13 5 16 7 7 13 11 8 10 11 15 10 7 20 5 13 15 16 ..

5 5 11 5 7 13 12 15 10 15 16 11 5 10 10 7 10 15 11 13 ..

11 20 16 15 20 7 8 15 7 12 12 8 13 12 13 12 7 11 13 12 ..

13 20 8 16 13 16 8 13 12 16 11 5 5 15 15 8 11 13 20 5

Statistici booststrap Media mediana ab.std. 12.80 12.5 6.05 11.50 11.5 4.28 10.20 9 4.83 13.50 13 4.88 10.80 10 3.77 10.50 11.5 3.27 14.20 14 3.61 11.10 11 3.90 14.40 15 3.95 12.80 12 3.55 11.40 11 3.84 12.10 12.5 4.65 10.80 10.5 2.97 11.50 11 5.56 10.70 9 4.19 6.90 6 2.28 12.90 13 5.04 10.40 10 4.81 11.20 11.5 3.79

Eantioane bootstrap 16 13 12 20 7 5 10 20 12 8 7 16 5 10 15 13 20 5 16 12 8 15 15 12 8 13 13 11 15 5 11 10 10 20 15 12 5 11 11 20 10 15 16 20 12 7 12 15 12 20 7 15 11 16 15 15 20 11 10 15 7 11 7 15 13 8 20 20 12 5 8 12 8 10 15 5 8 8 5 5 20 20 5 8 16 10 5 5 10 5 15 7 11 7 15 .. .. .. .. ..

alpha confidence level lower bound upper bound

0.05 90 9.2 14

(b) calcularea indicatorilor pentru toate eantioanele astfel generate Pentru fiecare eantion generat se calculeaz indicatorul/indicatorii vizai Se constituie o distribuie de indicatori de volum egal cu numrul eantioanelor generate

(b) identificarea intervalului de ncredere

7.90 8.00 8.30 8.40 9.00 9.30 9.60 9.70 9.90

.5 1.0 1.5 2.0 2.5 3.0 4.0 5.5 6.5

2.5%

Exist mai multe metode Cea mai uzual este utilizarea percentilelor 2.5 i 97.5 drept limite pentru intervalul de ncredere

95% CI
13.40 13.50 13.60 13.70 13.80 13.90 14.00 14.10 14.20 14.30 91.5 92.5 94.0 95.0 96.5 97.0 98.0 98.5 99.5 100.0

2.5%

CONDIII PENTRU METODA BOOTSTRAP


eantionul cercetrii este reprezentativ n raport cu populaia
garanteaz faptul c i eantioanele succesive selectate vor fi reprezentative rezultatul va putea fi generalizat la nivelul populaiei de valori;

fiecare eantion selectat este extras din mulimea de valori, dar independent de celelalte eantioane extrase

EXEMPLU DE CALCUL CU IBM SPSS 18


/Explore

/Explore/Bootstrap

Avantaje
Poate fi utilizat pentru calcularea intervalelor de ncredere pentru o varietate de indicatori statistici, pentru care n mod obinuit aceste intervale nu pot fi calculate. Fundamentarea procedurii este simpl, transparent i poate fi uor de neles
nu se bazeaz pe concepte statistice sofisticate

Permite estimarea n situaii n care avem motive s ne ndoim de ndeplinirea condiiilor impuse de estimarea care se bazeaz pe modelele distribuiilor teoretice
utilizabil n situaii n care este dificil de gsit sau de aplicat o metod convenional

Dezavantaje
limitele intervalului de ncredere depind practic de numrul reeantionrilor sau de metoda de calcul a limitelor
vor fi diferite pentru 1000 de eantioane fa de 1500, 2000 sau 10000 rezultatul va depinde ntotdeauna de decizia analistului.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120

alfa=0.10 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.289 1.282

alfa=0.05 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.760 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.658 1.645

alfa=0.025 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.980 1.960

alfa=0.01 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.528 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.358 2.326

alfa=0.005 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.102 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.617 2.576

alfa=0.0005 636.620 31.598 12.924 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.551 3.460 3.373 3.291