Documente Academic
Documente Profesional
Documente Cultură
Sondaj PDF
Sondaj PDF
CAPITOLUL 5.
CERCETAREA SELECTIVĂ
Cuvinte cheie:
- cercetarea selectivă
- sondajul
- selecţia simplă repetată (urna cu bilă revenită).
- selecţia simplă nerepetată (urna cu bilă nerevenită),
- reprezentativitatea eşantionului
- eroare de reprezentativitate
- eroare medie de reprezentativitate
- eroarea limită admisă
colectivitate eşantion
generală
N (volumul) n (volumul)
x 0 (media) x (media)
σ2 (dispersia)
σ 02 (dispersia)
p2 = M/N (pt. car. w = m/n
alternativ) σ w2 (1 − w)
σ (1 − p)
2
p
5.1.Procedee de selecţie
Se recomandă alegerea procedeului de selecţie în funcţie de mărimea (N) a
colectivităţii generale şi în funcţie de omogenitatea sau eterogenitatea acesteia.
Dacă colectivitatea generală este omogenă putem folosi:
• procedeul loteriei
• procedeul tabelului cu numere întâmplătoare sau un program pe calculator de
generare de numere întâmplătoare;
• procedeul mecanic sau al pasului de numărare.
Dacă colectivitatea generală este eterogenă se recomandă folosirea selectţiei
dirijate pentru a asigura reprezentativitatea eşantionului (procedeul selecţiei stratificate,
selecţie tipică).
Dacă colectivitatea generală este alcătuită din unităţi complexe numite şi serii (de
ex. populaţia alcătuită pe familii, locurile de mărfuri grupate pe paleţi etc.) se recomandă
procedeul selecţiei de serie.
Procedeul loteriei.
Se aplică în cazul colectivităţii generale de volum mic, relativ omogenă.
Aplicablitatea constă în numerotarea de la 1 la N a tuturor elementelor din colectivitatea
generală (ceea ce uneori este incomod) confecţionând jetoane sau bile absolut de aceleaşi
dimensiuni, care se introduc într-o urnă şi se amestecă înainte de fiecare extragere.
Extragerea poate fi efectuată în două variante:
¾ selecţia simplă repetată (urna cu bilă revenită).
În acest caz, la fiecare extragere există o aplicabilitate de 1/N de a intra în
alcătuirea eşantionului. Folosind această variantă se pot forma foarte multe eşantioane
diferite având acelaşi volum, dar posibilitatea includerii a unui acelaşi element face ca
reprezentativitatea includerii a unui acelaşi element face ca reprezentativitatea
eşantionului să fie redusă.
¾ selecţia simplă nerepetată (urna cu bilă nerevenită), prin care probabilitatea
includerii în eşantion creşte, treptat pe măsura extragerii elementelor. La extragerea I,
probalilitatea extrageriiv este 1/N; la extragerea a II-a probalilitatea extragerii este de
1/(N-1) si asa mai departe; la ultima extragere, probalilitatea va fi: 1/[N – (n+1)].
Aceste eşantioane se bucură de o mai mare reprezentativitate, iar numărul lor este
CnN (mult mai mic decât la selecţia repetată Nn).
Pentru a evita constituirea urnelor cu bile se poate folosi fie tabele cu numere
întâmplătoare, fie un program de calculator care să genereze numere întâmplătoare.
Procedeul mecanic sau al pasului de numărare.
Acest procedeu este foarte operativ dar nu asigură o selecţie strict aleatoare, doar
primul element din eşantion se extrage la întâmplare, restul intrând în componenţa
eşantionului ca urmare a poziţiei ocupate.
Ştiind că există N elemente în colectivitatea generală şi că eşenationul trebuie să
fie de n elemente, se calculează k; k = N/n, adică pasul de numărare.
Din primele k elemente se extrage, la întâmplare, unul, acesta devenind primul
element al eşantionului. Numărul de ordine al celorlate elemente se află adunând succesiv
k.
Dacă elementele colectivităţii generale sunt eterogene, constatându-se o anumită
stratificare a colectivităţii generale se recomandă să fie folosită o selecţie dirijată
Statistică teoretică şi economică
(nealeatoare) pentru a asigura pătrunderea în eşantion a unor elemente din toate straturile
tipice. O asemenea selecţie dirijată este selecţia stratificată sau selecţia tipică: după
stabilirea volumului n al eşantionului se stabileşte componenţa pe straturi (număr de
elemente din fiecare strat), astfel încât structura eşantionului să corespundă structurii
colectivităţii generale. Pentru extragerea separată din fiecare strat a numărului
corespunzător de elemente, se utilizează unul din procedeele aleatoare de mai sus.
Selecţia de serii (sau de unităţi complexe) reprezintă un alt procedeu de selecţie.
Pentru colectivitatea organizată pe unităţi complexe (populaţia organizată pe familii) se
recomandă să nu distrugem aceste structuri pentru a extrage unităţi simple, ci să preferăm
extragerea de unităţi complexe sau extragerea de serii.
5.2.Reprezentativitatea eşantionului.
Reprezentativitatea eşantionului inseamna capacitatea acestuia de a reda
trăsăturile esenţiale ale colectivităţii generale din care s-a extras chiar dacă volumul
eşenationului este mult mai mic decât volumul colectivităţii din cade s-a extras.
Dintre metodele de exprimare a reprezentativităţii eşantionului cele mai frecvente
se referă la compararea structurii eşantionului cu structura colectivităţii generale sau la
compararea mediei eşantionului x cu media colectivităţii generale x 0, la una sau mai
multe caracteristici cunoscute, înregistrarea atât pe eşantion cât şi la colectivitatea
generală. De exemplu compararea mediei de vârstă a eşantionului cu media de vârstă a
întregii ţări.
Se întâmplă, în unele cazuri, să nu se cunoască nimic despre colectivitatea
generală. În acest caz când nu este posibilă compararea cu parametrii colectivităţii
generale, se recomandă extragerea a cel puţin două eşantioane diferite din aceeaşi
colectivitate generală şi compararea mediilor sau structurilor acestor eşantioane. Dacă ele
nu diferă semnificativ, atunci oricare dintre eşantioane poate fi folosit pentru a estima
parametrii colectivităţii generale.
µx =
∑ (x − x
i
2
0 ⋅ fi
∑f i
σ 02 = µ x2 ⋅ n
σ 02
ceea ce înseamnă că µ x = , adică eroarea medie de reprezentativitate este direct
n
proporţională cu dispersia colevtivităţii generale şi invers proporţională cu volumul
eşantionului.
Dacă nu se cunoaşte σ20 se acceptă că dispersia unicului eşantion cunoscut σ2
oferă o marjă satisfăcătoare a împrăştierii elementelor colectivităţii dacă eşantionul este
convenabil de mare. Totuşi se face o corecţie cu 1, adică:
σ2
µx = .
n −1
Dacă se foloseşte o variabilă alternativă, eroarea medie de reprezentativitate se
stabileşte potrivit aceloraşi relaţii, adică atunci când se cunoaşte dispersia colectivităţii
generale:
p (1 − p )
µw =
n
w(1 − w)
µw =
n −1
σ 02 n σ 02 n
µx = 1 − µx = 1 −
n −1 N n N
Statistică teoretică şi economică
∆x = z ⋅ µx
∆w = z ⋅ µw
Există tabele ale repartiţiei normale care ne arată relaţia dintre coeficientul de
multiplicare z sau t sau probabilitatea φ (z) sau φ (t) corespunzătoare.
Eroarea limită arată diferenţa maximă în plus sau în minus care poate surveni la o
anumită probabilitate φ (z), z fiind utilizat în calculul erorii limită.
Necunoscând parametrii colectivităţii generale, rezultă că pentru o variabilă
( )
numerică x 0 ∈ x ± ± ∆ x , iar pentru o variabilă alternativă avem p ∈ (w ± ∆ w ) cu
probabilitatea corespunzătoare.
φ (z) = funcţia de probabilitate cu care se generează rezultatele
z = coeficientul funcţiei de probabilitate.
Eroarea limită se poate mări sau micşora fie prin modificarea volumului
eşantionului (n), fie prin modificarea probabilităţii cu care se garantează rezultatele,
deoarece dispersia colectivităţii totale rămâne aceeaşi.
După modul în care se combină sistemul de organizare, felul unităţilor de selecţie
şi procedeul de selecţie folosit, în cercetarea activităţii economice şi sociale, se disting
următoarele tipuri de selecţie:
- selecţie întâmplătoare simplă;
- selecţie mecanică;
- selecţie tipică (stratificată);
- selecţia de serii.
Pentru fiecare tip de selecţie se calculează trei indicatori: eroarea de medie de
reprezentativitate, eroarea limită şi volumul eşantionului.
Selecţia întâmplătoare simplă este utilizată în special pentru colectivităţi formate
dintr-un număr de unităţi simple şi care se caracterizează printr-un anumit grad de
omogenitate. Erorile de reprezentativitate sunt mari în raport cu alte tipuri de selecţie,
Statistică teoretică şi economică
deoarece dispersia folosită măsoară variaţia totală a caracteristicii datorată cauzelor care
influenţează.
Deoarece, în practică, se lucrează cu o eroare limitată, calculul volumului
eşantionului (n) se face flosind formula erorii limită.
- selecţia întâmplătoare simplă repetată:
σ 02
∆x = z ⋅ µx = z ⋅
n
σ 2
z ⋅ σ 02 z 2 ⋅ σ i2
2
∆ =z ⋅
2
x
2 0
⇒ n= ≈
n ∆2x ∆2x
σ 02 n z 2 ⋅ σ 02 z 2 ⋅ σ i2
∆x = z ⋅ µx = z ⋅ 1 − ⇒ n = ≈
n N z 2 ⋅ σ 02 z 2 ⋅ σ i2
∆x +
2
∆2x +
N N
x − ∆ x < x0 < x + ∆ x
n
salariaţilor direct operativi ⋅ 100 = 2,5% s-a făcut prin luarea în considerare a
N
vârstei, precum şi a structurii socio-profesionale a întregului personal operativ.
În cadrul programului de observare selectivă, între alte caracteristici urmărite, se
înregistrează vârsta salariaţilor (exprimată în ani de viaţă împliniţi), precum şi interesul
(disponibilitatea) acestora de a participa la un program de formare profesională continuă.
În tabelul de mai jos se prezintă rezultatul grupării în funcţie de vârstă a celor 100
de persoane din eşantionul extras aleator şi nerepetat.
Repartiţia personalului cuprins în eşantion în funcţie de vârstă
Grupe de vârstă Număr personal
(ani împliniţi)
Sub 25*) 17
25 – 35 30
35 – 45 25
45 – 55 18
peste 55 10
Total 100
*)
Limita superioară nu este cuprinsă în interval.
x=
∑ xi ni = 3740 = 37,4 ani,
∑ ni 100
iar dispersia în jurul mediei eşantionului este:
∑ (x − x ) n
2
14924
σ
i i
2
= = = 149,24 .
∑n i 100
Observaţii:
1) Eşantionul este destul de omogen (v = 32,7%) pentru a putea considera că media
de 37,4 ani caracterizează corect vârsta tuturor celor 100 de persoane înregistrate.
2) Dacă media nu este reprezentativă la nivelul eşantionului (v>>35%), nu are sens să
se mai continue cercetarea printr-o eventuală tentativă de extindere a acestui indicator
(deja nereprezentativ la nivel restrâns) asupra colectivităţii generale.
∆x = z ⋅ µx [5.7]
∆w = z ⋅ µw [5.8]
Există tabele ale repartiţiei normale care exprimă relaţia dintre argumentul z sau t şi
funcţia de probabilitatea φ(z) sau φ(t) corespunzătoare.
În exemplul considerat, eroarea limită pentru o probabilitate Φ(z) = 0,95 (z = 1,96)
este:
y pentru caracteristica numerică, de aproximativ 2,4 ani:
∆ x = z ⋅ µ x = 1,96 ⋅ 1,21 = 2,37 ani ≅ 2,4 ani,
Statistică teoretică şi economică
Observaţii:
1. Un tabel cu valorile funcţiei Gauss – Laplace corespunzând diferitelor valori ale lui z
se găseşte în volumul Bazele statisticii pentru economişti. Aplicaţii. Bucureşti, Editura
Tribuna Economică, 2002, p. 259-260.
2. Dacă s-ar fi folosit extragerea mecanică, sau extragerea repetată, eroarea limită era
ceva mai mare: ∆x = 2,41 ani (faţă de 2,37 ani); ∆w = 7,6% (faţă de 7,4%).
Coeficientul de corecţie aplicat în cazul sondajului nerepetat este întotdeauna o
mărime subunitară care restrânge mărimea erorii medii de reprezentativitate şi,
respectiv, a erorii limită, oferind o estimare mai exactă a parametrilor colectivităţii
generale.
3. Nu este obligatoriu ca probabilitatea cu care se estimează diverşi parametrii ai
colectivităţii generale să fie aceeaşi la toate variabilele cerectate.
Statistică teoretică şi economică
Probleme şi aplicaţii.
5.1. Un echipament de ambalare este astfel reglat încât să împacheteze câte 20 de
bomboane cu o toleranţă de ±1 bucată.
Pentru a aprecia calitatea reglajului, din producţia unei zile s-a prelevat prin
extragere mecanică un eşantion de 150 pachete care conţineau în total 3015
bomboane în loc de 3000 bomboane. Din cercetarea eşantionului rezultă că în jurul
mediei de 20,1 bomboane/pachet, intensitatea împrăştierii era de 7,2%, în condiţiile
în care 129 pachete conţineau exact 20 bomboane, 12 pachete aveau 21 sau mai
multe bomboane, iar 9 pachete erau cu 19 sau mai puţine bomboane.
Se cere:
Să se estimeze cu o probabilitate Φ(z) = 0,9973 (z = 3) numărul total de
bomboane ambalate în lotul de N = 3000 pachete realizate în cursul zilei şi să se observe
dacă echipamentul se încadrează în toleranţa admisă.
Rezolvare:
Din enunţul problemei rezultă că eşantionul se caracterizează prin:
• Volumul n = 150 pachete;
• Media x = 20,1 bomboane/pachet;
• Abaterea standard σ = 1,4472 bomboane/pachet (din relaţia coeficientului de
σ
variaţie v = ⋅ 100 = 7,2% )
x
Pe baza acestor date, se poate estima eroarea medie de reprezentativitate, ştiind
că în cazul extragerii mecanice se aplică relaţia de la sondajul simplu, aleator, repetat:
σ2 2,0944
µx = = = 0,118 bucati
n 150
Întrucât intervalul de estimare (59.250, 61.350) este mult mai mic decât toleranţa
admisă (57.000, 63.000), rezultă că reglajul este corespunzător.
Răspuns: Numărul total de bomboane ambalate este situat, cu Φ(z) = 0,9973 între
59.250 şi 61.350 bucăţi. Echipamentul se încadrează în tolerenţa admisă.
Cât de mare ar trebui să fie un eşantion, dacă numărul mediu de bomboane/pachet
ar trebui estimat cu Φ(z) = 0,9545 (z = 2) în limitele unui interval de ±0,5 bucăţi?
Rezolvare:
z 2 ⋅ σ 2 4 ⋅ 2,0944
n= = = 33,5104 ≅ 34 pachete .
∆2x 0,52
m 21
w= = = 0,14 , ceea ce înseamnă că 14% din eşantion nu corespunde
n 150
standardului de ambalare.
σ w2 0,1204
µw = = = 0,0283 sau 2,83%
n 150
5.2. Dintr-o comandă de 1000 piese, se prelevă un eşantion de 65 piese prin extragere
aleatoare, simplă, nerepetată. Potrivit comenzii, fiecare piesă ar trebui să cântărească
85 grame. După examinarea eşantionului, se constată că greutatea medie a pieselor
este de 87,2g, dispersia eşantionului fiind de 70,6746, abaterea standard de 8,4g,
coeficientul de variaţie 9,6%. Între piesele eşantionului se află 26 piese cu greutatea
mai mare decât cea prevăzută de comandă.
Se cere:
Estimarea cu Φ(z) = 0,9545 (z = 2) limitele intervalului în care se înscrie
greutatea medie a celor 1000 piese din lot.
Rezolvare:
Eroarea medie de reprezentativitate în cazul sondajului aleator, simplu, nerepetat,
se estimează astfel:
σ2 n 70,6746 65
µx = 1 − = 1 − = 1,0083 g
n N 65 1000
Statistică teoretică şi economică
Eroarea limită:
σ w2 n
µw = 1 − , unde σ w = w(1 − w) = 0,4 ⋅ 0,6 = 0,24
2
n N
Răspuns:
z 2 ⋅ σ w2 4 ⋅ 0,24
n= = = 974,62 ≅ 975 piese
z ⋅ σ w 0,05 + 0,00096
2 2 2
∆w +
2
Vânzări
medii (mil lei)
Până la 3 3 --- --- 2 5
3–5 5 3 12 8 28
5–7 2 5 12 10 29
7 şi peste --- 12 6 --- 18
Total 10 20 30 20 80
Se cere:
Să se caracterizeze acest eşantion.
Rezolvare:
Vânzarea medie săptămânală realizată de cele 80 persoane este x = 5,5 mil lei.
Amplitudinea variaţiei este de 6 mil lei, adică 109,09% faţă de medie. Acest indicator
permite aprecierea că cele 80 de elemente ale eşantionului prezintă o împrăştiere relativ
mare (peste 100%).
Dispersia eşantionului: σ 2 = 3,05 .
Abaterea standard: σ = 1,7464 mil lei.
Coeficientul de variaţie: v = 31,75%.
În pofida întinderii relativ mari a împrăştierii, colectivitatea este destul de
omogenă (intensitatea împrăştierii este sub 35%).
Analiza variaţiei vânzărilor medii săptămânale în cadrul celor 4 grupe constituite
după felul mărfurilor comercializate şi elementele de calcul pentru verificarea regulii de
adunare a dispersiilor sunt prezentate în tabelul 53.2. Pe baza acestei identităţi se
stabileşte în ce măsură influenţează felul mărfurilor variaţiei volumului vânzărilor
săptămânale.
Raionul j nj xj σ 2j xj − x ( x j − x)2 ⋅ n j σ 2j ⋅ n j
Anticariat 1 10 3,8 1,96 -1,7 28,9 19,6
Jucării 2 20 6,9 2,19 +1,4 39,2 43,8
Librărie 3 30 5,6 2,24 +0,1 0,3 67,2
Papetărie 4 20 4,8 1,76 -0,7 9,8 35,2
Total --- 80 --- --- --- 78,2 165,8
Σσ 2 ⋅ n j 165,8
Dispersia reziduală: σ = 2
= = 2,0725
Σn j 80
Statistică teoretică şi economică
δ2 0,9775
D= ⋅ 100 = ⋅ 100 = 32%
σ 2
3,05
σ2 n 2,0725 80
µx = 1 − = 1 − = 0,15 mil lei
n N 80 760
Eroarea limită:
z2 ⋅σ 2 4 ⋅ 2,0725
n= = = 31,74 ≅ 32 persoane
z ⋅σ
2 2
8,28
∆2 + 0,5 +
2
N 760
N j ⋅ σ 2j
nj = n⋅
ΣN j ⋅ σ 2j
Mai sus s-au arătat valorile Nj, iar în tabelul 53.2, coloana a cincea, se află σ 2j . Cu
aceste date, pentru aflarea numărului de persoane care urmează să intre în alcătuirea
eşantionului din rândul celor care se ocupă de anticariat este:
72 ⋅ 1,96
n1 = 32 ⋅ = 2,88 ≅ 3 persoane.
1568,6
Statistică teoretică şi economică
Se cere:
1. să se reprezinte grafic repartiţia;
2. se consideră că cele 100 de persoane constituie un eşantion extras aleator, simplu,
nerepetat dintr-o colectivitate generală de 1000 persoane; să se determine intervalele de
vârstă între care se situează vârsta medie a celor 1000 persoane considerându-se
Φ( z ) = 0,9545; z = 2.
5.7. În tabelul următor sunt prezentaţi numărul de enoriaşi ai unei biserici ortodoxe
pe grupe de vârstă:
Se cere:
1. dacă se efectuează o selecţie stratificată de volum n=100, să se determine numărul de
enoriaşi care trebuie să facă parte din fiecare strat;
2. aceeaşi cerinţă în cazul în care se cunosc abaterile standard ale celor trei straturi:
σ 1 = 1,2; σ 2 = 4,8; σ 3 = 2,3.
Statistică teoretică şi economică
5.8. Care este valoarea erorii standard a mediei unui eşantion de volum n=100,
selectat simplu, aleator repetat, dacă dispersia este egală cu 25?