Sunteți pe pagina 1din 52

Statistica inferential

- noiuni fundamentale M. Popa

s
t
a
t
i

metodologia cercetrii

s
t
i
c
a

eantion

Populaie i eantion
Populaie, totalitatea unitilor de
informaie care constituie obiectivul de
interes al unei investigaii

Parametrii populatiei

Eantion, reprezint unitile de informaie


selecionate pentru a fi efectiv studiate.

Reprezentativitatea eantionului:
Calitatea unui eantion de a permite extinderea concluziilor
la ntreaga populaie din care a fost extras

Indicatorii
esantionului
estimeaza

Exemple:
ntr-un studiu asupra efectelor accesului la
internet asupra elevilor de liceu, elevii de liceu
reprezint populaia, iar elevii selecionai
pentru investigaie, eantionul.
ntr-un studiu care vizeaz influena inteligenei
asupra performanei n instruirea de zbor,
populaia este reprezentat de toi piloii, iar
eantionul, de subiecii inclui n studiu

Reprezentativitatea eantionului

POPULAIA

nereprezentativ

reprezentativ

eantion

Distribuia de eantionare
POPULAIE
1,2,3,4
eantion 1

eantion 2

=10.00
=10/4=2.5

eantion 3

eantion 4

1,2,3

1,2,4

3,4,1

2,3,4

m1=2.00

m2=2.33

m3=2.67

m4=3.00

Media distribuiei de eantionare

m1 + m2 + m3 + ... + mk 2 + 2.33 + 2.67 + 3 10


=
=
=
= 2.5
k
4
4

mprtierea distribuiei de eantionare

eroarea standard a mediei (sm)


considerm o populaie de valori: 1,2,3,4,5,6,7,8,9,10,
pentru care =5.5 i =3,02
extragem aleatoriu cinci eantioane de N=3 valori:
m1=5.00 m2=4.5
s1=5.65

sm =

cu ct N este mai
mare, cu att Sm
este mai mic

m3=4.0

m4=2.5

m5=5.5

Dac este necunoscut,


se utilizeaz s

s
5.65
sm =
=
= 3.26
N
3

sm =

3.02
=
= 1.74
N
3

Teorema limitei centrale


1. Media de eantionare se apropie de media
populaiei pe msur ce numrul de eantioane
extrase crete (la infinit)
2. Distribuia mediei de eantionare se supune legilor
curbei normale, aproape indiferent de forma
distribuiei valorilor populaiei, dac:
a) volumul eantionului este suficient de mare (N30).
b) distribuia populaiei nu se abate grav de la normalitate
c) se respect condiiile eantionrii:

eantioane aleatoare
volum egal

Efectul limitei centrale


ilustrri grafice

(a) Triangular
n=2

n=1
3
2

2
2

1
0
0.0

0.2

0.4

0.6

0.8

1.0

0
0.0

1
0.2

0.4

0.6

0.8

1.0

0
0.0

0.2

0.4

n=4
3
2
1
0.2

0.4

From Chance Encounters by C.J. Wild and G.A.F. Seber, John Wiley & Sons, 2000.

0.6

0.8

1.0

0.8

1.0

n = 10

0
0.0

0.6

0.8

1.0

5
4
3
2
1
0
0.0

0.2

0.4

0.6

(b) Uniform
n=1
2

n=2
3

2
1

1
1

0
0.0

0.2

0.4

0.6

0.8

1.0

0
0.0

0.2

0.4

0.6

0.8

1.0

0
0.0

0.2

0.4

0.6

0.8

1.0

n = 10

n=4
4

2
1
0
0.0

1
0.2

0.4

0.6

From Chance Encounters by C.J. Wild and G.A.F. Seber, John Wiley & Sons, 2000.

0.8

1.0

0
0.0

0.2

0.4

0.6

0.8

1.0

(a) Exponential

0.8
0.6

1.0

0.8

0.8

0.6

0.6

0.4

0.4

0.4

0.2
0.0

n=2

n=1

1.0

0.2

0.2
0

0.0

0.0
0

n=4

n = 10

1.0
1.2

0.8
0.6

0.8

0.4

0.4

0.2
0.0

0.0
0

From Chance Encounters by C.J. Wild and G.A.F. Seber, John Wiley & Sons, 2000.

(b) Quadratic U

n=1

n=2

3
2
1
0
0.0

0.2

0.4

0.6

0.8

1.0

0
0.0

0.2

0.4

0.6

0.8

1.0

0
0.0

0.2

1
0.2

0.4

0.6

0.8

1.0

n = 10

n=4

0
0.0

0.4

0.6

From Chance Encounters by C.J. Wild and G.A.F. Seber, John Wiley & Sons, 2000.

0.8

1.0

0
0.0

0.2

0.4

0.6

0.8

1.0

Scoruri standardizate z
pentru eantioane (grupuri)
Se pot calcula scoruri z pentru eantion (grup)
n mod similar ca i pentru valori individuale
Exemplu: populaia valorilor 1,2,3,4,5,6,7,8,9,10

=5.5 i =3,02

Extragem un eantion (N=3) avnd m=5 i s=6.36:

Pentru a calcula z pentru grup avem nevoie de:


media populaiei (=5.5)
eroarea standard a mediei (sm=1.74)

m 5 5.5
z=
=
= 0.28
sm
1.74

Scorurile z pentru grupuri se supun


acelorai raionamente n raport cu
distribuia normal ca i scorurile z
individuale
Diferena este dat de cadrul de referin
GRUPUL (eantionul) n cazul z individual
POPULAIA n cazul z pentru grup

Scorul z pentru grup permite poziionarea


rezultatului unui eantion pe distribuia de
eantionare (mediile tuturor eantioanelor
posibile)

Exemplu:
La un examen de cunotine de statistic, o grup de 45
de studeni obine un scor mediu de m=28.5 puncte.
Dac:
media pe populaia studeneasc care a mai dat acest examen
este =27.3,
... iar =8.2

...ct de bun este performana grupei respective?


Calculm eroarea standard a mediei:

sm =

8 .2
8 .2
=
=
= 1.22
N
45 6.70

Calculm scorul z pentru grup:

m 28.5 27.3 1.20


z=
=
=
= 0.98
sm
1.22
1.22

Ipoteza cercetrii
Un psiholog colar este interesat de
diferena de inteligen dintre elevii
participani la olimpiadele colare
comparativ cu inteligena tuturor elevilor.
ntrebarea cercetrii:
Elevii participani la olimpiade sunt mai
inteligeni dect toi elevii n general, fie ei
participani sau nu la olimpiade?.

Ipoteza cercetrii (H1)


Este rezultatul prefigurat, posibil, al cercetrii
QI mediu al elevilor participani la olimpiade este mai
mare dect al elevilor n general
H1 po eg

H1 presupune c exist dou populaii


distincte sub aspectul nivelului de inteligen
elevii participani la olimpiade
elevii n general

Ipoteza statistic (H0)


Denumiri alternative (echivalente):
ipoteza diferenei nule
ipoteza de nul
Se formuleaz ca opusul ipotezei cercetrii
participanii la olimpiad nu au o inteligen
mai mare dect populaia de elevi n general.
H0 presupune c nu exist dou populaii
distincte de elevi, ci doar una singur
Expresia formal: H0

mpo=meg

Distribuia ipotezei de nul


Distribuia mediei eantioanelor de valori QI,
indiferent de participarea la olimpiad
media olimpicilor nu difer de media populaiei
generale de elevi
po=eg

n conformitate cu TLC
Distribuia mediei de eantionare urmeaz legea
curbei normale

.... putem utiliza tabela distribuiei normale


pentru a aprecia poziia unei medii de eantion,
la fel ca i pentru o valoare individual

Testul z pentru un singur


eantion
Eantionul de participani la olimpiad (N=30):
m=106 i s=7
QI: =100, =15
Scorul z pentru eantion devine un test pentru
evaluarea diferenei dintre media unui grup fa
de media populaiei din care este extras
rar utilizat, deoarece presupune cunoaterea
parametrilor populaiei ( i )
util n introducerea teoretic a testelor statistice

i totui, este utilizabil n practic....

calcule
m
z=
sm

z=

m 106 100
6
6
=
=
=
= +2.18
sm
15 / 5.47 2.74
/ N

?%

50-48.54=1.46%

QI=100
z=0

QIcalculat=106
zcalculat =+2.18

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.0

0.0000

0.0040

0.0080

0.0120

0.0160

0.0199

0.0239

0.0279

0.0319

0.0359

0.1

0.0398

0.0438

0.0478

0.0517

0.0557

0.0596

0.0636

0.0675

0.0714

0.0753

0.2

0.0793

0.0832

0.0871

0.0910

0.0948

0.0987

0.1026

0.1064

0.1103

0.1141

0.3

0.1179

0.1217

0.1255

0.1293

0.1331

0.1368

0.1406

0.1443

0.1480

0.1517

0.4

0.1554

0.1591

0.1628

0.1664

0.1700

0.1736

0.1772

0.1808

0.1844

0.1879

0.5

0.1915

0.1950

0.1985

0.2019

0.2054

0.2088

0.2123

0.2157

0.2190

0.2224

0.6

0.2257

0.2291

0.2324

0.2357

0.2389

0.2422

0.2454

0.2486

0.2517

0.2549

0.7

0.2580

0.2611

0.2642

0.2673

0.2704

0.2734

0.2764

0.2794

0.2823

0.2852

0.8

0.2881

0.2910

0.2939

0.2967

0.2995

0.3023

0.3051

0.3078

0.3106

0.3133

0.9

0.3159

0.3186

0.3212

0.3238

0.3264

0.3289

0.3315

0.3340

0.3365

0.3389

1.0

0.3413

0.3438

0.3461

0.3485

0.3508

0.3531

0.3554

0.3577

0.3599

0.3621

1.1

0.3643

0.3665

0.3686

0.3708

0.3729

0.3749

0.3770

0.3790

0.3810

0.3830

1.2

0.3849

0.3869

0.3888

0.3907

0.3925

0.3944

0.3962

0.3980

0.3997

0.4015

1.3

0.4032

0.4049

0.4066

0.4082

0.4099

0.4115

0.4131

0.4147

0.4162

0.4177

1.4

0.4192

0.4207

0.4222

0.4236

0.4251

0.4265

0.4279

0.4292

0.4306

0.4319

1.5

0.4332

0.4345

0.4357

0.4370

0.4382

0.4394

0.4406

0.4418

0.4429

0.4441

1.6

0.4452

0.4463

0.4474

0.4484

0.4495

0.4505

0.4515

0.4525

0.4535

0.4545

1.7

0.4554

0.4564

0.4573

0.4582

0.4591

0.4599

0.4608

0.4616

0.4625

0.4633

1.8

0.4641

0.4649

0.4656

0.4664

0.4671

0.4678

0.4686

0.4693

0.4699

0.4706

1.9

0.4713

0.4719

0.4726

0.4732

0.4738

0.4744

0.4750

0.4756

0.4761

0.4767

2.0

0.4772

0.4778

0.4783

0.4788

0.4793

0.4798

0.4803

0.4808

0.4812

0.4817

2.1

0.4821

0.4826

0.4830

0.4834

0.4838

0.4842

0.4846

0.4850

0.4854

0.4857

2.2

0.4861

0.4864

0.4868

0.4871

0.4875

0.4878

0.4881

0.4884

0.4887

0.4890

Rezultatul eantionului
 Sunt cele dou medii
(populaie i eantion)
diferite?
 Aritmetic, da (106100)
 Dar ele pot diferi i ca
urmare a variabilitii de
eantionare
 Avem nevoie de un
mecanism decizional pentru
a decide dac diferena
poate fi atribuit faptului c
eantionul este compus din
elevi olimpici

 Media calculat (QI=106) este


corespunztoare lui z=+2.18
 Cel mult 1,4% din eantioanele
extrase aleatoriu pot avea un QI mai
mare dect media populaiei de nul

48.5%

QI=100
z=0

1,4%

QIcalculat=106
zcalculat =+2.18

Decizia statistic
ntotdeauna pe distribuia de nul putem
avea valori mai mari dect valorile
calculate pe eantion
Pragul critic alfa (nivel alfa)
corespunde probabilitii de 0.05.
probabilitii critice alfa i corespunde o
valoare critic z (1.65)
Se mai numete i valoare tabelar.

5%
0

z critic=1.65

Decizia statistic
- Dac media eantionului poate rezulta
aleatoriu n mai mult de 5% din cazuri,
atunci NU DIFER SEMNIFICATIV de
media populaiei
>5%

ipoteza de nul ESTE ADMIS


ipoteza cercetrii NU SE CONFIRM

- Dac media eantionului


poate rezulta aleatoriu n
mai puin sau cel mult 5%
din cazuri, atunci DIFER
SEMNIFICATIV de media
populaiei

ipoteza de nul ESTE RESPINS


ipoteza cercetrii SE CONFIRM

5%
0

z critic=1.65

pentru exemplul nostru


z calculat (+2.18) este mai mare dect z critic (1.65)
ansa ca o medie QI=106 s apar n mod aleator este
1.4%, mai mic dect nivelul alfa (5%)
altfel spus: p(0.014)<alfa(0.05)
Decizia statistic: se respinge ipoteza
de nul
Decizia cercetrii: ipoteza cercetrii se
confirm

1,4%
5%
QI=100
z=0

zcritic=+1.65

Elevii olimpici sunt mai


inteligeni dect populaia
de elevi

QIcalculat=106
zcalculat =+2.18

Decizia statistic unilateral

5%

5%

z=-1.65

z=+1.65

rezultatul este
SEMNIFICATIV
STATISTIC

rezultatul este
NESEMNIFICATIV
STATISTIC

rezultatul este
SEMNIFICATIV
STATISTIC

ipoteza de de nul este


respins

ipoteza de nul este


acceptat

ipoteza de de nul este


respins

ipoteza cercetrii SE
CONFIRM

ipoteza cercetrii NU
SE CONFIRM

ipoteza cercetrii SE
CONFIRM

Decizia statistic bilateral

2.5%

2.5%

z=-1.96

z=+1.96

Dac scorul eantionului se afl ntr-una din aceste arii:


- rezultatul este SEMNIFICATIV STATISTIC
- ipoteza de nul este respins
- ipoteza cercetrii este confirmat

Logica pragului p=0.05


alfa=0.05 standard convenional tiinific unanim acceptat (?!)
are rolul de a garanta faptul c orice concluzie bazat pe date statistice
rspunde aceluiai criteriu de exigen
standard decizional n studii statistice (R. Fisher - tabele statistice)

z critic bilateral =1.96


un rezultat aflat la aprox dou abateri standard de media populaiei este
considerat semnificativ statistic (improbabil s apar pe o distribuie
ntmpltoare)

praguri mai exigente: 0.01, 0.001


pragul alfa 0.05 nseamn un nivel de ncredere de 95% n rezultatul
cercetrii
99%, pentru p=0.01
99.9% pentru p=0.00

utilizarea acestor praguri vine din perioada n care nu existau


calculatoare i programe automate de prelucrare statistic.
nivelul alfa de 0.05 nu este dect pragul maxim acceptat convenional

programele statistice (SPSS - Sig.)

Interpretare corect pentru p0.05


(sau alt prag autoimpus)
probabilitatea ca hazardul s produc un
rezultat similar cu rezultatul cercetrii este
mai mic de 0.05
Atenie nu se va nelege:
probabilitatea c rezultatul cercetrii este
ntmpltor este mai mic de 0.05

Interpretri greite pentru p 0.05


efectul este probabil mare
efectul este cu att mai mare cu ct p este mai
mic de 0.05
sunt mai puin de 5% anse ca efectul s fie
zero
sunt mai puin de 2.5% anse ca efectul s fie
mai mic dect zero
este o ans mare ca efectul s fie mai mare
dect zero
efectul este publicabil

Interpretri greite pentru p > 0.05

rezultatul nu este publicabil


nu exist efect n relaia dintre variabile
efectul este probabil zero sau extrem de mic
este o ans destul de mare ca efectul s fie
mai mic dect zero

Estimarea intervalului de ncredere


pentru media populaiei
Media oricrui eantion difer de media
populaiei
este o estimare (aproximare) a acesteia
n ce interval se afl media real a populaiei,
dac tim media unui eantion?

TLC permite estimarea limitelor acestui


interval

Estimarea intervalului de ncredere


pentru media populaiei
= m z critic * s m
limita inferioar

= 106 1.96 * 2.74 = 100.62


p=0.025

p=0.95

Z=0.04

p=0.025
limita superioar

0.04

z=-1.96
z critic

0.75

100
interval de ncredere

8.3
z=+1.96

= 106 + 1.96 * 2.74 = 111.37

z critic

Cu o probabilitate de 0.95 (cu un nivel de ncredere de 95%)


media populaiei, estimat prin media eantionului cercetrii,
este cuprins ntre +1.60 i +8.39

Z=0.75

Testul t pentru un singur


eantion
condiii de utilizare pentru testul z
cunoatem media populaiei de referin
eantion mare (N 30)

pentru eantioane cu N<30


testul t
se bazeaz pe aceeai logic ca i z
distribuia t (Student)
subspecie a distribuiei normale a crei form
este n funcie de gradele de libertate (degree
of freedom)
df=N-1

Student ... William Gosset, 1908

William Gosset
(1876-1937)

Distribuia t (Student)
df31...

df=6
df=3

-1.96

+1.96

-2.45

+2.45
+3.18

-3.18
Valorile critice ale lui t
pentru p=0.05
(bilateral)

Mod de calcul identic cu testul z


media
eantionului

media
populaiei

m
t=
sm

eroarea standard
a eantionului

Tabelul t pentru probalitile din dreapta curbei

df\p

0.40

0.25

0.10

0.05

0.025

0.01

0.005

0.0005

0.324920

1.000000

3.077684

6.313752

12.70620

31.82052

63.65674

636.6192

0.288675

0.816497

1.885618

2.919986

4.30265

6.96456

9.92484

31.5991

0.276671

0.764892

1.637744

2.353363

3.18245

4.54070

5.84091

12.9240

0.270722

0.740697

1.533206

2.131847

2.77645

3.74695

4.60409

8.6103

0.267181

0.726687

1.475884

2.015048

2.57058

3.36493

4.03214

6.8688

0.264835

0.717558

1.439756

1.943180

2.44691

3.14267

3.70743

5.9588

0.263167

0.711142

1.414924

1.894579

2.36462

2.99795

3.49948

5.4079

0.261921

0.706387

1.396815

1.859548

2.30600

2.89646

3.35539

5.0413

0.260955

0.702722

1.383029

1.833113

2.26216

2.82144

3.24984

4.7809

10

0.260185

0.699812

1.372184

1.812461

2.22814

2.76377

3.16927

4.5869

30

0.255605

0.682756

1.310415

1.697261

2.04227

2.45726

2.75000

3.6460

inf

0.253347

0.674490

1.281552

1.644854

1.95996

2.32635

2.57583

3.2905

alfa=0.05 unilateral
pentru N=10
(df=9)

Tabelul t pentru probalitile din dreapta curbei


df\p

0.40

0.25

0.10

0.05

0.025

0.01

0.005

0.0005

0.324920

1.000000

3.077684

6.313752

12.70620

31.82052

63.65674

636.6192

0.288675

0.816497

1.885618

2.919986

4.30265

6.96456

9.92484

31.5991

0.276671

0.764892

1.637744

2.353363

3.18245

4.54070

5.84091

12.9240

0.270722

0.740697

1.533206

2.131847

2.77645

3.74695

4.60409

8.6103

0.267181

0.726687

1.475884

2.015048

2.57058

3.36493

4.03214

6.8688

0.264835

0.717558

1.439756

1.943180

2.44691

3.14267

3.70743

5.9588

0.263167

0.711142

1.414924

1.894579

2.36462

2.99795

3.49948

5.4079

0.261921

0.706387

1.396815

1.859548

2.30600

2.89646

3.35539

5.0413

0.260955

0.702722

1.383029

1.833113

2.26216

2.82144

3.24984

4.7809

10

0.260185

0.699812

1.372184

1.812461

2.22814

2.76377

3.16927

4.5869

11

0.259556

0.697445

1.363430

1.795885

2.20099

2.71808

3.10581

4.4370

12

0.259033

0.695483

1.356217

1.782288

2.17881

2.68100

3.05454

4.3178

13

0.258591

0.693829

1.350171

1.770933

2.16037

2.65031

3.01228

4.2208

14

0.258213

0.692417

1.345030

1.761310

2.14479

2.62449

2.97684

4.1405

alfa=0.05 bilateral
pentru N=12
(df=11)

Tabelul t pentru probalitile din dreapta curbei


df\p

0.40

0.25

0.10

0.05

0.025

0.01

0.005

0.0005

0.324920

1.000000

3.077684

6.313752

12.70620

31.82052

63.65674

636.6192

0.288675

0.816497

1.885618

2.919986

4.30265

6.96456

9.92484

31.5991

0.276671

0.764892

1.637744

2.353363

3.18245

4.54070

5.84091

12.9240

0.270722

0.740697

1.533206

2.131847

2.77645

3.74695

4.60409

8.6103

0.267181

0.726687

1.475884

2.015048

2.57058

3.36493

4.03214

6.8688

0.264835

0.717558

1.439756

1.943180

2.44691

3.14267

3.70743

5.9588

0.263167

0.711142

1.414924

1.894579

2.36462

2.99795

3.49948

5.4079

0.261921

0.706387

1.396815

1.859548

2.30600

2.89646

3.35539

5.0413

0.260955

0.702722

1.383029

1.833113

2.26216

2.82144

3.24984

4.7809

10

0.260185

0.699812

1.372184

1.812461

2.22814

2.76377

3.16927

4.5869

11

0.259556

0.697445

1.363430

1.795885

2.20099

2.71808

3.10581

4.4370

12

0.259033

0.695483

1.356217

1.782288

2.17881

2.68100

3.05454

4.3178

13

0.258591

0.693829

1.350171

1.770933

2.16037

2.65031

3.01228

4.2208

14

0.258213

0.692417

1.345030

1.761310

2.14479

2.62449

2.97684

4.1405

Concluzii
testul z sau t se utilizeaz atunci cnd dorim s
comparm media unui eantion cu media
cunoscut a populaiei
Publicarea rezultatelor
sintetic
n form tabelar dac sunt mai multe teste z(t)
se vor afia m, z, p, N i tipul de decizie (dac este unilateral)

narativ
Eantionul de elevi participani la olimpiade a
obinut un scor (QI=106; 95%CI:100.6-111.3)
peste media populaiei generale (QI=100). Testul
z, cu alfa 0.05, a demonstrat c diferena nu este
semnificativ statistic, z=+2.13, p>0.05, unilateral.

Concluzii generale
Atunci cnd media i abaterea standard ale unei populaii
sunt cunoscute:
tim c distribuia de eantionare este normal (TLC)
tim c media distribuiei de eantionare este egal cu media
populaiei
tim c abaterea standard a distribuiei de eantionare este
mai mic dect abaterea standard a populaiei de valori
individuale (sm= s/
n, unde n este volumul eantionului)
abaterea standard a distribuiei de eantionare (sm) poart
numele de eroare standard a mediei
tim probabilitatea ca media unui anumit eantion s se afle
ntr-o regiune a distribuiei de eantionare
putem testa o ipotez legat de mrimea acestei medii