Sunteți pe pagina 1din 51

INFERENA STATISTIC - ESTIMAREA PARAMETRILOR M.

Popa

ORGANIZARE DE CURS
Suportul de curs
Statistici multivariate aplicate n psihologie, Polirom, 2010 Prezentrile de curs:
www.mpopa.ro/Statistic - Master

Notarea
3 evaluri pariale (patru cursuri) (20% din not) Evaluare practic (30% din not) Examen teoretic (50% din not)

Prezena
eviden separata pentru curs i seminar o prezen sub 50% la seminar+curs conduce la neacceptarea la examenul din var

Tema de seminar permanent


Prezentarea sub forma scrisa, rezumativa, a unui articol n care este tratat tema statistic a sptmnii.

SUBIECTE
1. 2. 3. 4. 5. 6. 7. 8.

9.

10.

Ce este inferena statistic? Indicatori statistici i parametri Distribuia de eantionare Eroarea standard Curba normal (Gauss) i teorema limitei centrale Teorema limitei centrale Intervalul de ncredere pentru media populaiei Intervalul de ncredere pentru proporia unui eantion Intervalul de ncredere pentru diferena dintre proporiile a dou eantioane independente Calcularea intervalului de ncredere prin metoda re-eantionrii (bootstrap)

DOMENIILE STATISTICII
Statistica descriptiv
procedurile de organizare, sintetizare i comunicare a datelor numerice tabelele de frecven i ilustrrile grafice, dar i diferii indicatori numerici Exemplu:
evaluarea nivelului de satisfacie al studenilor din facultate interesul fiind legat doar de analiza satisfaciei la nivelul facultii respective

Statistica inferenial
Evaluarea satisfaciei pe un eantion de studeni cu scopul de a trage concluzii cu privire la satisfacia tuturor studenilor facultii, sau pentru compararea satisfaciei unor grupuri diferite

CE ESTE INFERENA STATISTIC?


n limbajul curent
raionament prin care se trage o concluzie al crui adevr nu este verificat n mod direct
n virtutea unei legturi cu alte raionamente considerate drept adevrate

n statistic
fundamentarea unor concluzii mai generale pe baza utilizrii unor date empirice limitate
n virtutea unor raionamente logico-probabilistice

presupune cu necesitate existena unui eantion


servete drept baz pentru descrierea populaiei din care a fost extras

DISTINCIA DINTRE DESCRIPTIV I INFERENIAL


chiar i statisticile descriptive pot avea un caracter inferenial evaluarea unui profesor de ctre studenii si media aprecierilor poate fi perceput ca o statistic descriptiv, dar
obiectivul evalurii nu este calitatea actului didactic doar n raport cu studenii participani, ci i n raport cu cei abseni Rezultatul aprecierii nu este relevant doar pentru studenii actuali, ci i pentru cei viitori

TIPURI DE POPULAII
Populaie real (tangibil)
populaia din care selecionm eantionul pentru sondarea inteniei de vot la alegeri

Populaie virtual (abstract)


program de instruire n vederea gestiunii situaiilor de stres n conducerea auto inferena statistic = generalizm rezultatul asupra tuturor subiecilor care au aceleai caracteristici ca subiecii eantionului
actuali existeni (populaie real) viitori care vor deveni oferi n viitor (populaie virtual)

n ambele situaii:
avem de a face cu date empirice cercettorul emite o concluzie probabilist cu privire la

preferina electoral a alegtorilor existena unui numr mai redus de incidente agresive n trafic ca urmare a programului de training

n nici una dintre situaii:


concluzia nu este direct, ci se sprijin pe anumite argumente logice indirecte:

reprezentativitatea eantioanelor aleatoare particularitile distribuiei de eantionare formule de calcul diferite modele teoretice cu privire la distribuia datelor (unul dintre aceste modele este cel al distribuiei normale) reguli decizionale cu privire la rezultatul obinut

DOU EXEMPLE
Sondaj cu privire la intenia de vot a unui eantion de ceteni
Populaie real estimarea rezultatelor alegerilor la nivelul ntregii comuniti reprezint o form de inferen

program de instruire n vederea gestiunii situaiilor de stres n conducerea auto


Populaie virtual inferena statistic vizeaz generalizarea rezultatului i pentru viitorii oferi

CE ESTE INFERENA STATISTIC?


Definiie:
modalitate incert i nesigur de cunoatere a adevrului, necunoscut i inabordabil n mod direct bazat pe reguli i raionamente care ncearc s limiteze impactul subiectivismului asupra concluziilor

Forme principale:
estimarea parametrilor unei populaii testarea ipotezelor de cercetare

2. INDICATORI STATISTICI I PARAMETRI


Indicatori Parametri Media Dispersia Abaterea standard Coeficientul de corelaie Pearson Coeficientul de corelaie Spearman m s2 s r rs 2 s

.a.

Fiecare indicator reprezint (estimeaz) parametrul corespunztor la nivelul populaiei


ne bazm pe modul de selecionare a eantionului (reprezentativitate)
dac componenii eantionului ar fi exponenii perfeci ai componenilor populaiei, reprezentarea ar fi perfect n realitate, ne mulumim ca eantionul s nu conin erori sistematice

nici un eantion nu este perfect reprezentativ


nici un indicator statistic nu reprezenta corect parametrul Orice indicatori estimeaz parametrul cu o anumit imprecizie (eroare)

eroare

de estimare

2. Distribuia de eantionare
Subieci 1 2 3 4 5 6 7 8 9 10 A B C D E F G H I J media ab.std. Scor motivaie (v1) 10 12 8 15 20 16 7 5 11 13 11.7 4.52

2. Distribuia de eantionare

Populaie
Eantion cercetare

Eantion potenial

Eantion potenial

Eantion potenial

Eantion potenial

Eantion potenial

m1 (m1- )

m2 (m2- )

m3 (m3- )

m4 (m4- )

mk (mk- )

distribuia de eantionare

4. EROAREA STANDARD
Mediile care compun distribuia de eantionare sunt inevitabil diferite ntre ele
nici un eantion nu este perfect reprezentativ distribuia de eantionare = distribuie de abateri ale fiecrei medii poteniale de la media populaiei: (m1- ), (m2- ), (m3- ) (mk- ) distribuie a erorilor de estimare a mediei populaiei ( ) de ctre fiecare medie potenial (m1, m2, m3 mk)

ca orice distribuie de valori, distribuia de eantionare are:


o medie o abatere standard

4. EROAREA STANDARD
Distribuia de eantionare este o distribuie de erori de estimare
Abaterea standard a distribuiei de eantionare se numete eroare standard
descrie imprecizia estimrii parametrului ataabil oricrui indicator calculat la nivel de eantion (medie, indice de simetrie, indice de boltire, diferen dintre medii, coeficient de corelaie etc.)

n continuare o vom exemplifica doar pentru medie

4. EROAREA STANDARD
Este expresia direct a variabilitii (mprtierii) valorilor eantionului Este ntotdeauna mai mic dect abaterea standard a valorilor populaiei:
sm : mprtierea distribuiei de eantionare : abaterea standard a valorilor individuale la nivelul populaiei n : volumul eantionului (n exemplul nostru, 10)

sm =

4.52 sm = = 1.43 10

4. EROAREA STANDARD
sm ne spune:
ct de mult ar fluctua media dac am calcula-o pentru eantioane diferite, de aceeai mrime, extrase din aceeai populaie ct de precis/imprecis este estimat media populaiei de ctre media eantionului

sm cu att mai mare cu ct s este mai mare


scade precizia estimrii parametrilor

s sm = n

sm cu att mai mic cu ct n este mai mare


De ex., pentru n=20 nivelul erorii standard scade de la 1.43 la 0.98

4. EROAREA STANDARD
De unde provine variabilitatea distribuiei eantionului?
Variabilitate bun
primar: provine din variabilitatea caracteristicii msurate

Variabilitate rea
secundar: influene ale covariantelor (de ex. frustrarea, competena) erori de msurare Eroare aleatorie (variaii individuale necontrolabile) Eroare sistematic (instrument, procedur, ambian etc.)

variabilitatea total= variab.primar+variab. secundar+variab. erorii

principiul lui Kerlinger


maximizarea variabilitii primare controlul variabilitii secundare minimalizarea erorii

4. EROAREA STANDARD - SPSS

4. EROAREA STANDARD
Raportare
sub form grafic, aa ca n figura anterioar sub form numeric, astfel: v1 (m=11.7, 1.43); v2 (m=11.7, 0.98); v3 (m=12.80, 1.1)

Atunci cnd valorile precedate de semnul sunt prezentate fr nici o precizare suplimentar, nseamn c ele se refer la eroarea standard a mediei

DISTRIBUIA NORMAL (GAUSS)


distribuie teoretic, caracteristic populaiilor mari form de clopot perfect simetric linia curbei se apropie la infinit de axa X, fr a o atinge vreodat de fiecare parte a mediei se afl exact jumtate dintre valorile distribuiei

Karl Friedrich Gauss 1777-1855

media modul mediana

26

DISTRIBUIA NORMAL Z

Applet
file:///C:/Users/marian/AppData/Roaming/Mozilla/Firefox/Profiles/msotlelf.default/ScrapBook/data/20090214200906/inde x.html

Distribuia t (Student)
df31...

df=6 df=3

-1.96 -2.45 -3.18

+1.96 +2.45 +3.18

Valorile critice ale lui t pentru p=0.05 (bilateral)

TEOREMA LIMITEI CENTRALE


1.

2.

Media de eantionare se apropie de media populaiei pe msur ce numrul de eantioane extrase crete (la infinit) Distribuia mediei de eantionare se supune legilor curbei normale, aproape indiferent de forma distribuiei valorilor populaiei, dac:
a) b) c)

volumul eantionului este suficient de mare (N30). distribuia populaiei nu se abate grav de la normalitate se respect condiiile eantionrii:
eantioane aleatoare volum egal

Applet: file:///C:/Users/marian/AppData/Roaming/Mozilla/Firefox/Profiles/msotlelf.default/ScrapBook/data/20090214200906/index.html

TEOREMA LIMITEI CENTRALE


Teorema limitei centrale nu funcioneaz conform ateptrilor n condiiile distribuiilor sunt denumite normal-amestecate, sau contaminate.
De exemplu
n acelai eantion pe care am evaluat nivelul anxietii, femei i brbai, ori alcoolici i non-alcoolici dac ne propunem compararea celor dou grupuri sub aspectul anxietii, nu avem nici o problem Dac utilizm variabila anxietate nedifereniat, pe ntregul eantion, presupunerea c distribuia se supune modelului teoremei limitei centrale este discutabil.

7. INTERVALUL DE NCREDERE PENTRU MEDIA


POPULAIEI

estimare a plajei de valori pe care o poate lua parametrul Se utilizeaz:


media eroarea standard a mediei un nivel de ncredere convenional de 95% (0.95) pe curba normal
delimitat de anumite valori z sau t specificate n tabele

EXEMPLU:
t critic (pentru df=9)=2.262

= m tcritic * sm
inf = 11.7 2.262 *1.43 = 8.46
sup = 11.7 + 2.262 *1.43 = 14.93

limitele intervalului de ncredere sunt mai apropiate una de alta dac: nivelul de ncredere este mai mic (dar, prin convenie acesta nu poate fi mai mic de 95%) distribuia este mai omogen (ne intereseaz mai ales limitarea variabilitii secundare i a erorii) volumul eantionului este mai mare

Raportarea limitelor intervalului de ncredere:


menionarea ca atare a limitei inferioare i superioare (m=11.7, lim. inf 95%=8.46; lim. sup. 95%=14.93) prin valoarea care se adaug/se scade din punctul de estimare: m=11.7, 3.23 95% CI

INTERPRETAREA INTERVALULUI DE NCREDERE


interpretare uzual, intuitiv
intervalul n care, cu o probabilitate asumat (de regul, 0.95) se afl valoarea adevrat a parametrului (n exemplul nostru, media

Interpretare teoretic adecvat


Dac am extrage un numr mare de eantioane, intervalul obinut are 95% anse s fac parte dintre intervalele care capteaz parametrul (media) pentru ca aceast ateptare s fie corect, eantioanele trebuie s fie reprezentative (s fie aleatoare, sau cel puin s nu fie afectate de erori sistematice - bias).

Applet: file:///C:/Users/marian/AppData/Roaming/Mozilla/Firefox/Profiles/msotlelf.default/ScrapBook/data/20090214200906/index.html

INTERPRETAREA INTERVALULUI DE NCREDERE


Mrimea intervalului:
Nu exist un criteriu obiectiv pentru a spune c un interval este mare sau mic Cu ct limitele sunt mai apropiate de punctul de estimare, cu att estimarea este mai precis

Avantajele CI fa de estimarea erorii standard? Probabilitatea asociat CI:


?...

Probabilitatea asociat intervalului definit de eroarea standard:


?...

ESTIMAREA PRIN PUNCTUL DE ESTIMARE


Punct de estimare=valoarea indicatorului statistic (eantion) Uneori, acesta este luat drept valoare a parametrului
surs de imprecizie (nu ine cont de eroarea standard) Exemple:
Coeficientul de corelaie r Indicele de consisten intern alfa Cronbach

Orice indicator calculat pe eantion este afectat de eroare


estimarea intervalului de ncredere ofer o informaie cu privire la precizia acestuia cu condiia s fie calculat

8. INTERVALUL DE NCREDERE PENTRU


PROPORIA UNUI EANTION

sondaj cu privire la introducerea unui curs extracuricular de muzic clasic 20 studeni (selecionai aleatoriu pe baza listelor de eviden) au fost ntrebai dac s-ar nscrie la un astfel de program 14 studeni (70% din totalul eantionului) au declarat c ar dori s se nscrie
Este acesta procentul real la nivelul populaiei? Desigur, NU

8. INTERVALUL DE NCREDERE PENTRU


PROPORIA UNUI EANTION

Abaterea standard a distribuiei binomiale: Eroarea standard: Calculul erorii standard pentru exemplu:
70% 10%.

sp =
sep = p*q n

p*q
sep = pq n

Limitele de ncredere
limita superioar: 70+10*2.093=90.93% limita inferioar: 70-10*2.093=40.93%

sep =

pq 0.7 * 0.3 0.21 = = = 0.10 n 20 20

Pentru n=100
pq 0.7 * 0.3 0.21 = = = 0.04 n 100 100

sep =

limita superioar: 70+4*1.96=77.8% limita inferioar: 70-4*1.96=62.1%

9. INTERVALUL DE NCREDERE PENTRU DIFERENA DINTRE


PROPORIILE A DOU EANTIOANE INDEPENDENTE

eantionul sondajului a cuprins


26 de studeni (din care 50% i-au exprimat preferina) 60 de studente (din care 80% i-au exprimat preferina)

Diferena=30%
Este aceast diferen corect la nivelul populaiei?
(p p ) =
1 2

Distribuia binomial Eroarea standard a diferenei:


30%, 14%
( p1 p 2) =

p1 * q1 p 2 * q 2 + n1 n2

0.5 * 0.5 0.8 * 0.2 + = 0.14 26 60

Intervalul de ncredere:

limita inferioar=30-1.96*14=57.4% limita superioar=30+1.96*14=2.5%

METODA BOOTSTRAPP
Metoda clasic de calcul al CI:
Punctul de estimare al unui eantion Distribuia de eantionare Un model teoretic (de ex., curba normal) Teorema limitei centrale

Practic, avem un singur eantion, iar valoarea parametrului este estimat


Corectitudinea estimrii este dat de msura n care toate presupunerile anterioare sunt corecte Dar dac nu sunt? Dac n este mic? Dac distribuia este puternic asimetric? Dac valorile populaiei nu se supun legilor curbei normale?

METODA BOOTSTRAP
Bootstrap Metoda bootstrap presupune trei etape critice:
a) b) c)

generarea eantioanelor multiple, Baronul Munchausen similare cu eantionul cercetrii; calcularea indicatorilor pentru toate eantioanele astfel generate; identificarea intervalului de ncredere

GENERAREA EANTIOANELOR MULTIPLE, SIMILARE CU EANTIONUL CERCETRII;


Intuitiv:
multiplicarea eantionului cercetrii Selectarea repetat a unui foarte mare numr de eantioane de acelai volum din aceast pseudo-populaie de valori Valorile originare se pot repeta, dar acest fapt nu afecteaz negativ rezultatul

Practic
Se selecteaz aleatoriu, n mod repetat, eantioane de valori din eantionul originar Numrul eantioanelor astfel generate trebuie s fie foarte mare (minim 1000)

n loc s presupunem distribuia de eantionare, o construim pur si simplu nu trebuie s mai presupunem c eantionul se supune unei distribuii teoretice Psudo-populaia are forma distribuiei reale a eantionului (este constituit din chiar valorile lui) Metoda solicit mult putere de calcul

(b) calcularea indicatorilor pentru toate eantioanele astfel generate Pentru fiecare eantion generat se calculeaz indicatorul/indicatorii vizai Se constituie o distribuie de indicatori de volum egal cu numrul eantioanelor generate

(b) identificarea intervalului de ncredere

Exist mai multe metode Cea mai uzual este utilizarea percentilelor 2.5 i 97.5 drept limite pentru intervalul de ncredere

Media 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98

FRC% .6 2.3 5.0 9.3 12.4 14.6 19.0 21.7 22.4 25.3 27.8 29.5 31.0 33.1 35.9 40.5 43.5 46.6 51.5 54.6 58.6 61.6 63.7 66.5 68.8 71.5 73.0 76.4 79.1 82.3 87.1 90.1 91.4 95.0 97.0 100.0

5%

95% CI

5%

CONDIII PENTRU METODA BOOTSTRAP


eantionul cercetrii este reprezentativ n raport cu populaia
garanteaz faptul c i eantioanele succesive selectate vor fi reprezentative rezultatul va putea fi generalizat la nivelul populaiei de valori;

fiecare eantion selectat este extras din mulimea de valori, dar independent de celelalte eantioane extrase

EXEMPLU DE CALCUL CU IBM SPSS 18


/Explore

/Explore/Bootstrap

Avantaje
Poate fi utilizat pentru calcularea intervalelor de ncredere pentru o varietate de indicatori statistici, pentru care n mod obinuit aceste intervale nu pot fi calculate. Fundamentarea procedurii este simpl, transparent i poate fi uor de neles
nu se bazeaz pe concepte statistice sofisticate

Permite estimarea n situaii n care avem motive s ne ndoim de ndeplinirea condiiilor impuse de estimarea care se bazeaz pe modelele distribuiilor teoretice
utilizabil n situaii n care este dificil de gsit sau de aplicat o metod convenional

Dezavantaje
limitele intervalului de ncredere depind practic de numrul reeantionrilor sau de metoda de calcul a limitelor
vor fi diferite pentru 1000 de eantioane fa de 1500, 2000 sau 10000 rezultatul va depinde ntotdeauna de decizia analistului.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120

alfa=0.10 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.289 1.282

alfa=0.05 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.760 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.658 1.645

alfa=0.025 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.980 1.960

alfa=0.01 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.528 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.358 2.326

alfa=0.005 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.102 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.617 2.576

alfa=0.0005 636.620 31.598 12.924 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.551 3.460 3.373 3.291