Sunteți pe pagina 1din 7

Verificarea reprezentativitii eantionului

Ameliorarea estimatorilor prin post-stratificare


nainte de a trece la analiza statistic i la interpretarea rezultatelor este
important s stabilim dac eantioanele sunt sau nu reprezentative pentru populaiile din
care au fost selectate. Dac diferenele dintre parametri cunoscui din populaie fa de
valorile estimatorilor obinui pe baza datelor din sondaj sunt semnificative atunci
eantionul nu este reprezentativ.
n ciuda eforturilor de a asigura reprezentativitatea eantionului, n anchetele de
mare amploare, realizate la nivel naional, de cele mai multe ori estimatorii variabilelor
auxiliare sunt deplasai fa de parametrii populaiei. Datorit existenei corelaiei
dintre aceste variabile i variabilele de interes putem presupune c i estimatorii
acestora din urm vor avea aceeai problem. Din acest considerent se impune
ameliorarea estimatorilor.

Probleme rezolvate
Problema 1

S-a realizat un sondaj n rndul studenilor unei universiti partiulare pe un


eantion de 90 persoane. n urma centralizrii datelor pentru variabilele auxiliare SEX
i MEDIE (media ultimei sesiuni) au rezultat urmtoarele informaii: ponderea fetelor n
eantion este de 67% iar nota medie 7,2 cu o dispersie de 1.42.
Se cere s se verifice reprezentativitatea eantionului stiind c ponderea fetelor
n populaie este e 65% iar nota medie a studenilor este de 6.98 iar probabilitatea de
garantare a rezultatelor este de 95%.
Rezolvare

Pentru a vedea dac exist diferene semnificative fa de valoarea cunoscut din


populaie
a ponderii fetelor fa de cea din n eantion se utilizeaz testul z
(eantionul este de volum normal) pentru compararea proporiei din eantion cu cea din
populaie.
Ipotezele testului bilateral sunt: H0: w= p i H1: w p .
Regiunea critic n cazul testului bilateral este dat de relaia:

wp

W:

p (1 p) n

>z

iar valoarea calculat a testului este: z c =

wp

p (1 p )

=0.398
n

Pentru o probabilitate de garantare a rezultatelor de 95% cruia i corespunde un


nivel de semnificaie =0,05 n cazul efecturii unui test bilateral valoarea teoretic este
z =1,96. Deoarece valoarea calculat a testului luat n modul este mai mic dect
1

valoarea teoretic se accept ipoteza nul concluzionndu-se c eantionul este


reprezentativ.
Pornind de la variabila auxiliar MEDIA, pentru verificarea reprezentativitii se
utilizeaz testul z pentru compararea mediei unui eantion cu cea a populaiei.
Ipotezele testului bilateral sunt:
H0: x = X 0 i H1: x X 0 .

Regiunea critic n cazul testului bilateral este dat de relaia: W:

x X0

iar valoarea calculat a testului este: z c =

x X0

> z

=1.75

Valoarea calculat luat n valoare absolut se compar cu cea teoretic de 1,96


corespunztoare nivelului de semnificaie ales (=0,05) i, deoarece este mai mic dect
aceasta se accept ipoteza nul concluzionndu-se c eantionul este reprezentativ.
Problema 2

n rndul populaiei de 160000 persoane (cu vrsta peste 15 ani) dintr-o


localitate s-a realizat un sondaj pe un eantion de 800 persoane privind atitudinea fa
de. n tabelul 7.1 este prezentat structura eantionului i structura populaiei pe grupe
de vrst.
Grupe de vrst
15-24
25-34
35-44
45-54
peste 55
Total

Structura populaiei (%)


16
20
24
21
19
100

Tabel 7.1
Structura eantionului (%)
19
23
20
17
21
100

Se cere:
1. S se verifice reprezentativitatea eantionului utiliznd testul 2 pentru un
nivel de semnificaie =0,05.
2. S se verifice reprezentativitatea eantionului utiliznd testul KolmogorovSmirnov pentru un nivel de semnificaie =0,05.
Rezolvare

1. Atunci cnd se cunoate forma distribuia variabilei n populaie pentru


verificarea reprezentativitii eantionului se poate utiliza unul din testele de
concordan.
Tabelul 7.2
Grupe de
vrst
15-24
25-34
35-44
45-54
peste 55
Total

Structura
Structura Numr salariai Numr salariai
n eantion
populaiei eantionului n populaie
( Fti )
(fei)
(%)
(%)
16
19
25600
152
20
23
32000
184
24
20
38400
160
21
17
33600
136
19
21
30400
168
100
100
160000
800

fti
128
160
192
168
152
800

( fei f ti )2

f ti

4.50
3.60
5.33
6.10
1.68
21.21

Ipotezele testului 2 sunt:


H0: ft= fe i H1: ftfe unde ft reprezint frecvenele teoretice iar fe frecvenele
empirice.

Frecvenele empirice sunt cele obinute n urma centralizrii datelor din sondaj
iar cele teoretice se calculeaz dup relaia: fti = Fti N n ( Fti fiind frecvena
corespunztoare a grupei i din populaie). Calculele necesare sunt sistematizate n
tabelul 7.2.
2

Valoarea calculat a testului este: c =

i =1

(f ei f ti )2
f ti

=2.1.21 Valoarea

teoretic pentru un nivel de semnificaie =0,05 i numrul de grade de libertate df=k2


2
1=5-1=4 este de 9,49. Deoarece c > =0, 05;df = 4 se respinge ipoteza nul putnd
spune c cele dou distribuii nu concord i, deci eantionul nu este reprezentativ.
2. Testul Kolmogorov este unul dintre cele mai rspndite teste de concordan
a repartiiilor empirice i teoretice pentru variabile aleatoare continue.
Pentru efectuarea testului este necesar alctuirea claselor i stabilirea
frecvenelor absolute empirice i teoretice (n funcie de repartiia testat). Ulterior se
cumuleaz aceste frecvene cresctor i prin raportarea lor la total se obin funciile de
repartiie empirice (Fn(x)) i teoretice (F(z)).
Se calculeaz pe clase diferena lor i se ia diferena maxim n valoare absolut.
Pe baza ei se obine statistica
a testului Kolmogorov astfel:
c = n max Fn ( x ) F(z) , unde n este volumul eantionului.
Valoarea calculat c se compar cu valoarea teoretic tabelat n funcie de
nivelul de semnificaie. Unui =0,05 i corespunde =1,36. Dac < repartiia
empiric este n concordan cu cea teoretic.
Testul Kolmogorov Smirnov este o extindere a testului Kolmogorov pentru
cazul verificrii concordanei a dou repartiii empirice. Notnd cele dou variabile
aleatoare cu x i y se calculeaz o valoare
c dup relaia
n 1 n 2
.;
n1 + n 2
unde F(x) i F(y) reprezint funciile repartiiilor empirice ale celor dou
variabile.
Se compar apoi valoarea calculat cu cea teoretic. Dac c < repartiiile
sunt n concordan.
Considerm variabilele x i y vrsta n totalul populaiei i respectiv n eantion.
Calculele sunt sistematizate n tabelul 7.3

urmtoare: c = max F( x ) F( y)

Grupe de
vrst
15-24
25-34
35-44
45-54
peste 55
Total

fei

fti

fei cumulat

fti cumulat

152
184
160
136
168
800

128
160
192
168
152
800

152
336
496
632
800

128
288
480
648
800

f* ei cumulat
F(x)
0.19
0.42
0.62
0.79
1

f* ti cumulat
F(y)
0.16
0.36
0.6
0.81
1

Tabel 7.3
di

0.03
0.06
0.02
0.02
0

n relaia de calcul a valorii teoretice c considerm n1 volumul populaiei N iar


n2 volumul eantionului n. Relaia devine: c = max F( x ) F( y)

Nn
N+n

n cazul n care volumul populaiei este mare n raport cu eantionul (n<0.05N)


c se poate calcula dup relaia: c = max F( x ) F( y) n . =1.69.

=1,36. Deoarece c >

repartiia empiric nu este n concordan cu cea


teoretic iar eantionul nu este reprezentativ ceea ce va duce la obinerea unor estimatori
deplasai.

Problema 3

n urma unui sondaj pe un eantion de 600 persoane privind caracterizarea


nivelului de trai s-au obinut datele prezentate n tabelul 7.4 cu prinire la venitul mediu.
Din surse administrative se cunoate repartiia populaiei pe grupe de vrst.
Nr. Persoane n populaie
(mii)
30
70
40
140

Grupe de vrst

18-34
35-54
peste 55

Nr. persoane n eantion

180
320
100
600

Tabel 7.4
Venit mediu
(mil. Lei)
5.2
8.3
3.2

Se cere:
1. S se calculeze estimatorul venitului mediu pe baza informaiilor din
eantion.
2. S se calculeze estimatorul venitului mediu n urma aplicrii metodei poststratificrii pe baza informaiilor deinute din surse administrative.
Rezolvare

1. Calculele necesare sunt przentate n tabelul 7.5.


Grupe de vrst

Ni (mii)

ni

yi

y i ni

18-34
35-54
peste 55

30
70
40
140

180
320
100
600

5.2
8.3
3.2

936
2656
320
3912

Tabel 7.5
y i N i (mii)

156
581
128
865

Estimatorul venitului mediu se calculeaz dup relaia:

yn
n
k

y=

i =1
k

i =1

3912
=6.52 mil. Lei
600

2. mbuntirea estimatorului prin post-stratificare presupune calcularea


venitului mediu ca medie aritmetic ponderat pe baza ponderilor din
populaie dup relaia:
~ yN
y=
N
k

i =1
k

i =1

865000
=6.178 mil lei
140000

Problema 4

Un sondaj n rndul salariailor a avut drept obiectiv evaluarea atitudinii acestora


fa de evaluarea periodic i formarea profesional continu. Una din variabilele
aixiliare ale studiului este variabila SEX. n urma centralizrii datelor pentru variabila
auxiliar SEX i pentru variabila de interes ce corespunde ntrebrii: Suntei de acord
cu evaluarea periodic? s-au obinut informaiile din tabelul 7.6.
Sex
Masculin
Feminin
Total

Acord
35
31
66

Indiferent
15
9
24

Tabel 7.6
Total
60
90
150

Dezacord
10
50
60

Se cere:
1. S se calculeze estimatorul procentului salariailor care sunt de acord cu
evaluarea.
2. S se calculeze estimatorul procentului salariailor care sunt de acord cu
evaluarea n urma aplicrii metodei post-stratificrii tiind din surse
administrative procentul salariiailor de sex masculin este de 45%.
Rezolvare

1. Estimatorul procentului salariailor care sunt de acord cu evaluarea este:


66
wacord =
= 0.44 . Deci 44% din salariai sunt de acord cu evaluarea
150
periodic.
2. Deoarece n populaie sunt 45% salariai de sex masculin i nu doar 40% ct
reiese din eantion este recomandat s ameliorm estimatorul prin poststratificare.
Pentru aceasta calculm ponderile wij pentru fiecare clas din tabelul 7.6
obinnd datele din tabelul 7.7.
Sex

Acord

Indiferent

Dezacord

ni

~
ni

Masculin
Feminin
Total

0.58
0.34

0.25
0.10

0.17
0.56

60
90
150

68
82
150

Tabel 7.7

wi1 n~i
40
28
68

Practic estimatorul procentului celor ce sunt de acord cu evaluarea se poate


calcula i ca medie ponderat astfel:
wacord =

wn
n
j =1

ij

= 0.44

Estimatorul ameliorat prin post-stratificare se obine dup relaia:


w n~

68
j =1 ij i
~
wacord =
=
= 0.45 unde ~
n i sunt determinate ca frecvene
~
150
n
i
teoretice astfel nct s se respecte structura pe sexe cunoscut din surse administrative
~
n i masculin = 0.45 150 =68 persoane
~
n i feminin = 0.55 150 =82 persoane

Probleme propuse
Problema 1

Patronatul Societilor de Construcii a organizat un sondaj n rndul firmelor


participante la Construct Expo. n urma centralizrii celor 200 de chestionare s-a
constatat c 64% din societile comerciale ce au intrat n eantion au sediul n
provincie. Cunoscndu-se din fiele de nscriere la trg c doar 58% din firme au sediul
n provincie s se verifice reprezentativitatea eantionului pentru o probabilitate e 95%.
Problema 2

n rndul salariailor unei companii s-a realizat un sondaj pe un eantion de 220


persoane. Vrsta medie a salariailor din eantion este de 39 de ani cu o dispersie de 4.5.
tiind c vrsta medie a tuturor salariailor calculat pe baza informaiilor de la biroul
de resurse umane este de 42.4 ani s se precizeze pentru o probabilitate de 95% dac
eantionul este reprezentativ.
Problema 3

n tabelul 7.8 este prezentat distribuia agenilor economici dup numrul de


salariai ce a fost obinut n urma centralizrii datelor dintr-un sondaj n rndul
acestora. Din datele oficiale existente la circa financiar se cunoate distribuia tuturor
agenilor economici nregistrai.
Tabel 7.8
Grupe de ageni economici dup numrul de
salariai

Nr. ageni economici


n eantion

Nr. ageni economici


n populaie

sub 10
10-49
50-99
100 i peste
Total

25
125
40
10
200

268
1450
335
178
2230

Se cere:
1. S se verifice reprezentativitatea eantionului utiliznd testul 2 pentru un
nivel de semnificaie =0,05.
2. S se verifice reprezentativitatea eantionului utiliznd testul KolmogorovSmirnov pentru un nivel de semnificaie =0,05.
Problema 4

n chestionarul unui sondaj n rndul agenilor economici a coninut ntrebarea:


Acordai o not de la 0-10 pentru importana acordat de ctre firm fiecrui criteriu n
momentul recrutrii de for de munc
Criteriul
1. Experiena
2. Nivelul studiilor

Nota acordat

n tabelul 7.9 sunt prezentate rezultatele centralizrii datelor la aceast ntrebare


pe grupe de ageni economici.
Tabelul 7.9
Nr. ageni
Gr. ageni economici
economici n
dup nr. salariai
eantion

sub 10
10-49
50-99
100 i peste
Total

Nr. ageni
economici n
populaie

25
125
40
10
200

Nota medie acordat


criteriului experien

Nota medie acordat


criteriului nivelul
studiilor

7
8.9
8.7
9.2

7.6
8.2
8.8
9.3

201
1227
647
156
2230

Se cere:
1. S se calculeze estimatorii scorului mediu obinut de cele dou criterii pe
baza informaiilor din eantion.
2. S se calculeze estimatorul estimatorii scorului mediu obinut de cele dou
criteri n urma aplicrii metodei post-stratificrii pe baza informaiilor
deinute din surse administrative.
Problema 5

n rndul populaiei unei localiti (cu vrsta de 15 ani i peste) s-a realizat un
studiu privind amploarea i gravitatea problemelor determinate de fumatul activ i
pasiv. Una din variabilele aixiliare ale studiului este variabila SEX. n urma centralizrii
datelor pentru variabila auxiliar SEX i pentru variabila de interes ce corespunde
ntrebrii: Suntei fumtor? s-au obinut informaiile din tabelul 7.10.
Sex
Masculin
Feminin
Total

DA
72
85
157

NU
28
65
93

Tabel 7.10
Total
100
150
250

Se cere:
1. S se calculeze estimatorul procentuluide fumtori.
2. S se calculeze estimatorul procentuluide fumtori n urma aplicrii metodei
post-stratificrii tiind din surse administrative procentul locuitorilor de sex
masculin este de 49%.