Documente Academic
Documente Profesional
Documente Cultură
2
/ e
2
pentru caracteristici continue (3.1)
i
n = t
2.
P
.
(100 - P) / e
2
pentru caracteristici alternative (3.2)
unde,
t: valoarea teoretic corespunztoare probabilitii cu care se
lucreaz (de regul, P = 95%, iar t = 1,96);
: abaterea medie ptratic a distribuiei caracteristicii care st la
baza elaborrii eantionului (
2
= dispersia sau variana V);
P: procentul n care populaia cercetat posed caracteristica de
eantionare;
e: eroarea limit de reprezentativitate admis.
Statistic pentru studii de marketing i administrarea afacerilor
Datorit faptului c nu se studiaz ntreaga colectivitate, estimarea
valorilor obinute (medii, procente) la nivelul eantionului pentru ntreaga
colectivitate se face cu o anumit eroare. Valoarea real se afl cuprins n
limitele determinate de mrimea obinut la nivelul eantionului e.
n determinarea volumului eantionului se accept aprioric o anumit
eroare cuprins ntre 1% (foarte rar practicat, dealtfel, deoarece necesit
eantioane foarte mari) i 5% (prag de eroare aproape general acceptat de
ctre experii n marketing).
n continuare, algoritmul de lucru este simplu. La o anumit
valoare a lui sau P i o valoare impus a lui e rezult n mod automat o
anumit valoare a lui n. Dificultatea cea mai mare const ns tocmai n
obinerea informaiilor referitoare la distribuia caracteristicilor de
eantionare, respectiv valorile sau P. La valorile = 0,5 m sau P = 50% i
e = 1% rezult un eantion de 9600 persoane necesar pentru a fi studiat, ori,
de multe ori, colectivitatea total este mic.
Volumul cerut pentru eantion scade vertiginos, dac ne reducem
dorina de rigurozitate i acceptm valori mai mari ale lui e, ceea ce se i
face de regul. Pentru un nivel al erorii e = 2%, 3%, 4% sau 5% (meninnd
constant sau P) volumul eantionului se reduce i el la: 2400, 1060, 600 i,
respectiv, 384 persoane. Dac se modific valorile sau P vor rezulta
mrimi diferite pentru n.
n evaluarea gradului de reprezentativitate a cercetrilor intervin i
alte elemente, care se refer la aplicarea corect a tuturor cerinelor de
ntocmire a eantionului, a coreciilor cerute de schema de eantionare, de
dispersia spaial a populaiei, de selectarea subiecilor i de cercetarea
efectiv a acestora.
Putem preciza o serie de principii ce trebuie respectate pentru
evaluare: aplicarea eantionrii la colectivitile de populaie reclam
asigurarea unui numr minim de persoane (n) care s permit un grad
acceptabil de reprezentativitate; mrimea colectivitii totale intervine doar
ca element de corecie, factorul de corecie fiind (N n)/(N 1), cu care se
Statistic pentru studii de marketing i administrarea afacerilor
micoreaz valoarea n a volumului eantionului, deja obinut. Valoarea
raportului se apropie de unu n cazul n care N este un numr mare.
Atunci cnd studiem colectiviti relativ mici (sub 500 persoane) nu
se pot determina eantioane reprezentative dup regulile numerelor mari i
ar trebui s se ia n considerare cerinele suplimentare ale eantioanelor
mici. Cnd suntem n imposibilitatea de a construi eantioane reprezentative
este preferabil s studiem loturi omogene sau neomogene de populaie, dar
care nu ne permit s generalizm rezultatele la ansamblul colectivitii, de
unde rezult implicit avantajele cercetrii selective, riguros realizate.
O atenie cu totul deosebit trebuie acordat modului n care se face
uz de o metod mai rapid de determinare a mrimii eantionului, care
pleac de la volumul colectivitii totale (N) fr a mai lua n considerare
caracteristicile populaiei, expresia Taro Jamane:
N = N / (1+N
.
e
2
) (3.3)
Efectuarea unor calcule simple ne indic i de aceast dat c, de
fapt, volumul eantionului obinut nu reflect variaiile mrimii colectivitii
totale. Se constituie anumite praguri peste care n (volumul eantionului) nu
mai crete orict de mult ar crete N.
Aa, de exemplu, la e = 5% pragul respectiv este 399. La valori mai
mici ale erorii limit admise pragul eantionului se fixeaz, evident, la valori
mai mari, dar ntotdeauna n jurul valorii indicate de expresia de definiie a
mrimii eantionului n care P = 50% (cnd furnizeaz cea mai mare mrime
a eantionului), iar t = 1,96 corespunde unei probabiliti de 95%.
Dup cum se observ, metoda Jamane poate conduce la eantioane
subdimensionate (cnd se dorete o siguran mai mare, deci o probabilitate
de peste 95%, sau cnd populaia este eterogen n raport cu caracteristicile
de baz) i la eantioane supradimensionate (n cazul n care populaia este
relativ omogen). i de aceast dat dorina de a lucra cu erori mici de
reprezentativitate conduce la eantioane foarte mari (tabelul 3.1).
Statistic pentru studii de marketing i administrarea afacerilor
Calculul expus ndreptete, pe de o parte, afirmaia potrivit creia
mrimea eantionului nu depinde n mod absolut de mrimea colectivitii
totale (n condiiile n care eroarea de reprezentativitate rmne constant,
variaiile mrimii colectivitii totale nu pot fi reflectate n mrimea
eantionului), iar, pe de alt parte, impune o anumit circumspecie n
utilizarea metodei simplificate pentru determinarea volumului
eantionului.
Mrimile simulate ale eantionului calculat prin expresia
Taro Jamane pentru anumite valori ale lui N i e
Tabel 3.1
Mrimea eantionului pentru diverse erori limit admise Mrimea
colectivitii
totale (N)
e = 5% e = 3% e = 1%
500
1000
5000
10000
100000
1000000
10000000
222
285
370
384
398
399
399
345
526
909
1000
1099
1109
1110
476
909
3333
5000
9090
9900
9990
Stabilirea volumului eantionului se face pe baz unui compromis
ntre opiunea pentru eantioane de volum mare, care s asigure un grad
mare de reprezentativitate i un grad mare de ncredere pentru parametrii
estimai ai populaiei de referin, i optiunea pentru eantioane de volum
mic, ce implic costuri reduse. Dimensiunea minim a eantionului trebuie
s asigure o reprezentativitate acceptabil n procesul inferenei statistice,
care s nu duc la distorsiuni.
Mrimea eantionului depinde de numeroi factori controlabili i
necontrolabili pentru cercettor: gradul de exactitate cu care se dorete s se
estimeze caracteristicile populaiei de referin, mrimea erorilor de sondaj,
legea numerelor mari i, nu n ultimul rnd, bugetul disponibil, perioada de
timp avut la dispoziie i resursele de personal de care dispune.
Statistic pentru studii de marketing i administrarea afacerilor
Gradul preciziei cerute de beneficiarul rezultatelor este principalul
factor ce determin marimea eantionului. ncrederea ce poate fi atribuit
informaiilor obinute pe baza unui eantion depinde direct de mrimea
eantionului, i nu de fracia de selecie.
n stabilirea dimensiunii eantionului, dac se stabilete aprioric un
prag de semnificatie , se impune ca abaterile dintre media populaiei de
referin, dac se cunosc, i mediile eantioanelor ce se pot genera s
respecte inegalitatea.
Gradul de variabilitate al oricrei populaii este un alt factor de
influen ce poate fi sau nu cunoscut. Dac variabilitatea este cunoscut din
cercetri anterioare sau dintr-o cercetare organizat n mod special, volumul
eantionului rezult imediat din calcule. Dac dispersia eantionului sau a
populaiei de referin nu este cunoscut n cazul cel mai nefavorabil), se ia
n calcul dispersia maxim. Calculul ei presupune stabilirea mrimii maxime
a dispersiei pentru caracteristici cantitative:
2
) x x ( ) x x (
2
max
2
min 2
max
+
= i
25 , 0 ) 5 , 0 1 ( 5 , 0 ) f 1 ( f
2
max
= = =
(3.4)
i determinarea valorii de 0,25 corespunztoare frecvenei maxime f, a
caracteristicii alternative.
n practic se opereaz cu eantioane de volum redus (pentru care se
folosete la estimarea erorilor legea repartiie Student) i eantioane de
volum normal (pentru care se folosete legea de repartiie Laplace), n
funcie de gradul de omogenitate al colectivitii. Evident, conform legii
numerelor mari cu ct crete volumul eantionului (nu fracia de selecie), cu
att precizia rezultatelor este mai mare. Mrimea eantionului se decide i n
funcie de rezultatele ce vor fi analizate, inndu-se seama de necesitatea
obinerii preciziei nu doar pe total eantion, ci i pe subgrupe.
Un alt factor de influen este faptul c sondajul, n general,
urmrete rezultatele privitoare la mai multe caracteristici. Un eantion
Statistic pentru studii de marketing i administrarea afacerilor
suficient de mare pentru estimarea intervalului de ncredere pentru o
caracteristic poate s fie insuficient pentru o alt caracteristic.
Problemele se complic n cazul sondajelor stratificate, caz n care
trebuie estimat mrimea eantionului pe fiecare strat i apoi, prin nsumare,
va rezulta eantionul pe total populaie. n cazul sondajului multistadial
trebuie facut o estimare a variantelor n interiorul i ntre unitile din
primul stadiu. Toate aceste dificulti de natur tehnic pot fi evitate printr-o
documentare prealabil corespunztoare.
Mrimea eantionului va mai fi decis i n funcie de restriciile de
resurse i bugetul disponibil, de cerinele beneficiarului i de posibilitatea
previzionrii dispersiei variabilelor nregistrate.
3.4 Probleme privind prognoza volumului de eantionare.
Dispersii marginale
Fenomenele din domeniul studiului pieei sunt, n general, fenomene
dinamice, ceea ce determin valori diferite n timp ale variabilelor ce le
caracterizeaz. Sondajul prezint o situaie static, de aceea se recomand
organizarea de sondaje periodice cu acelai set de variabile nregistrate.
Msurnd valorile unor variabile ce caracterizeaz un fenomen n
momente diferite de timp putem determina variaii statistice nu doar ntre
valorile individuale nregistrate, ci i ntre valorile medii calculate la
momente de timp diferite, pastrndu-se sau nu aceeai amplitudine a
variaiei.
Pentru proiectarea volumului unui nou eantion n sondaje periodice
este necesar conoaterea tendinei de evoluie a dispersiei i posibilitatea
previzionrii dispersiei i abaterii standard. De aici apare ca necesar
elaborarea de serii de timp de dispersii i de modificri absolute i/sau
relative ale acesteia, ca de exemplu, serii cronologice de indici ai dispersiei
Statistic pentru studii de marketing i administrarea afacerilor
sau de sporuri ale dispersiei unei variabile nregistrate n sondaje efectuate
la momente de timp diferite.
Posibilitatea previzionrii dispersiei cu ajutorul indicatorilor
marginali ar aduga o nou restricie n estimarea volumului noului
eantion, alturi de restriciile de costuri.
Cea mai frecvent metod de sondaj utilizat n studiile sociale i
economice este sondajul stratificat. De aceea, aceast form de sondaj poate
fi utilizat i pentru studiul fenomenelor n dinamic, pe baza datelor
nregistrate n sondaje realizate n perioade diferite, n vederea elaborrii de
serii cronologice care s permit, prin aplicarea de tehnici complexe de
sondaj, efectuarea de prognoze optime.
n scopul previzionrii gradului de variaie, a dispersiei i a abaterii
tip, n urma realizrii de sondaje periodice se pot construi serii cronologice
cu periodicitate constant sau variabil, de niveluri atinse de indicatori
micro sau macroeconomici, de medii i msuri ale variaiei atinse de valorile
individuale ale distribuiei marginale i chiar de indicatori marginali care
exprim modificarea mediilor i a dispersiilor.
Cunoatem c rezultatele unui sondaj stratificat conduc la verificarea
regulei de adunare a dispersiilor, conform creia dispersia total nregistrat
de variaia valorilor individuale ale distribuiei marginale este suma
dispersiilor pariale, deci:
total y x
2 2 2
= +
/
, (3.5)
unde,
total
2
= dispersia total, determinat de toi factorii de influen ai
variaiei unei variabile;
2
= media dispersiilor nregistrat n interiorul straturilor,
determinat de factorii nenregistrai;
Statistic pentru studii de marketing i administrarea afacerilor
y x /
2
= dispersia dintre straturi, determinat de factorul de formare a
straturilor, ce arat n ce msur discrimineaz sau nu criteriul de stratificare
variabila studiat.
Dac simplificm fiecare termen al ecuaiei de mai sus cu dispersia
total, calculnd deci structura dispersiei totale, obinem raportul de
determinaie i raportul de nedeterminaie, dup formula:
1
2
2
2
2
= +
total
y x
total
/
, (3.6)
unde,
2
2
total
total
y x
total
/
, (3.8)
n ecuaia de mai sus se propune c indicatorii marginali obinui s
se noteze, numeasc i intrepreteze, astfel:
a.
2
mg =
2
2
total
= dispersie medie marginal, ce arat cu ct se
va modifica media dispersiilor din interiorul straturilor dac dispersia
total sufer o modificare cu o unitate sau cu ct trebuie s se modifice
media dispersiilor din interiorul straturilor pentru a obine o modificare cu
o unitate a dispersiei totale; poate lua valori ntre 1 i 1.
b.
y xmg /
2
=
y x
total
/
2
2
= dispersie marginal dintre straturi, ce arat cu
ct se va modifica nivelul dispersiei dintre straturi la o modificare unitar a
dispersiei totale sau cu ct trebuie modificat dispersia dintre straturi
pentru a obine o modificare unitar a dispersiei totale; poate lua valori
ntre -1 i 1.
Exist posibilitatea identificrii unei funcii matematice de trend pe
termen lung, att a dispersiilor marginale, ct i a raportului acestora cu
evoluia n domeniu; fapt ce va trebui aprofundat. ntre cele trei tipuri de
dispersii exist o relaie direct sau invers, deci creterea dispersiei totale
va determina creteri/descreteri n proporii egale sau diferite ale
dispersiilor pariale, i invers.
Statistic pentru studii de marketing i administrarea afacerilor
Desigur dispersiile de eantion sunt corectate cu numrul gradelor de
libertate corespunztoare, dar pentru simplificarea modului de scriere a
formulelor nu am mai introdus i aceste notaii.
Dispersia total se corecteaz cu n - 1 grade de libertate, dispersia
dintre starturi se corecteaz cu numrul de straturi -1, deci r - 1, iar media
disersiilor din interiorul starturilor cu volumul eantionului numrul de
straturi, deci n - r.
Construind serii cronologice de dispersii marginale ce vor fi supuse
analizei statistice de previziune putem estima, cu o anumit probabilitate,
nivelul mediei dispersiei din interiorul straturilor i al dispersiei totale,
niveluri necesare programrii unui nou volum de eantionare. Dac seriile
construite sunt nestaionare vor trebui difereniate pentru a se transforma n
evoluii staionare.
n final, trebuie precizat c modificrile absolute ale dispersiilor
corectate pot fi calculate cu baz mobil sau cu baz fix. Sporurile cu baz
fix apar n cazul n care am realizat ntr-o cercetare anterioar o prob
martor sau un eantion programat n care se ajunge la o distribuie martor ce
coincide cu structura distribuiei totale i a crei reprezentativitate este
validat statistic.
Necesitatea utilizrii indicatorilor marginali ai variaiei valorilor
individuale ale unei variabile cantitative de sondaj este legat, mai ales, de
calculele de prognoz care sunt necesare pentru determinarea volumului
unui nou eantion.
Metoda se poate aplica nspecial n situaia sondajului stratificat, caz
n care, pentru estimarea intervalului de ncredere, se folosete media
dispersiilor din interiorul straturilor i necesit, pentru o mai bun
fundamentare teoretic, testarea riguroas n activitatea practic.
Statistics for Marketing and Business Administration
3.5 Summary. Sampling methods applied in Marketing
and Business Administration studies
Random Sampling
The sample is a segment of the statistical population chosen to
represent it as a whole. Its representativity ensures the accuracy of the
estimation made on the basis of calculating the research indicators and the
inferential statistics.
When it chooses the sample, the researcher must answer to different
categories of questions:
WHO is to be studied (which is the research unit?)?
HOW MANY units will the sample include (the sample size
influences the results' accuracy, but if it is well chosen, even
a sample of under 1 per cent of the total population may give
results with a high probability)
WHICH are the CRITERIAS for choosing the sampling units
(which is the sampling method used?)
Using random, probabilistic sampling, each unit of the population
has a certain probability to be included in the sample, making possible the
estimation of sampling error. In case the random methods are too expensive
or take too long, the market studies use non-probabilistic or mix sampling.
In this case the sampling errors cannot be estimated.
The random sample is made up of simple research plans
(for researches of homogenous population and also applicable for
non-homogenous population) or of multi-stage research plans
(ranking, multi-stage research, multi-phase research, serial research,
sequential research).
The sampling method is indicated to be used in the case where the
units of population are of small size and there are no significant differences
between the sizes of the units' population. For example, if we estimate the
Statistics for Marketing an Business Administration
number of employees in an area, with the purpose of planning the training
figure at a training firm, we will use data from districts' samples, randomly
chosen, for which the population of each district is known (as a result of the
last census).
If we denote by X
i
the number of firms from district comprised in
the sample, by N the number of the country's districts and by n the number
of the districts comprised in the sample, sum(X
i
) is estimating the number of
firms at national level. The districts, no matter their size, had equal chances
to be a part of the sample. But, the number of firms depends obviously on
the district's population. Thus, the estimator can be afected by a significant
error.
Starting from the hypothesis of the existence of a direct, positive
relation between the population of a district and the number of the
commercial firms, larger districts can be granted a higher chance to be part
of the sample. The probability which is assigned to which district will be
well-balanced with its population. The method of extraction will not be
repeated. The estimator becomes: (P/n)
.
sum(X
i
/pi), where P is the
population of the whole country, p
i
is
the population of district from the
sample.
Conducted and mix sampling
Conducted sampling appears in the research achieved by an expert or
an observer who is a good expert of the population's characteristics, from
which the sample will be chosen, and who will consciously include in the
sample units chosen in a subjective way. This sampling procedure is much
cheaper than the probabilistic ones and can be applied if the samples are so
small that the inferences made with the their help would represent only a
simple hypothesis that could not be tested, despite the processing method
used.
Statistics for Marketing and Business Administration
The most used method of conducted sample in the market research
and market inquire is the quotas sampling. In this case the structure of the
population is known according to sex, age, socio-vocational category, due to
some previous demographic studies. In every group it is included a number
of persons chosen by the operator. The operator is told only the
characteristics of the persons that must be interviewed, their number for
every group and the structure of the studied population. It is presumed that
the sampling is representative if it gives the structure of the total studied
population.
Another method of forming the conducted sampling is the volunteers
method, which was often used in the past in medical and psychological
researches. It started to be used more and more in the marketing research.
The enclosure in the sample is made based on the voluntary option of the
person to participate in the sample.
The itinerary method is also a conducted sample, which can be
applied in areas with a high density of population. This type may be
combined with the sampling method based on quota, which supposes that
the operator must form the groups following a pre-established itinerary. In
case of refusal, the operator will pass to the next pre-established point of the
itinerary.
The basic principle of the typical units method consists in the fact
that different characteristics of the statistical units are correlated, which
allows grouping the population in homogenous subtypes, and the control
variable represents these subtypes through its average, called type unit.
Although the methods presented above do not respect the principle
of random sampling, they are often used in the market research, being
achieved by specialists in marketing, who contribute with their knowledge
and with their accumulated experience to decrease the disadvantages of
these sampling methods.
Statistics for Marketing an Business Administration
Determining the size of the sample
Determining the size of the sample is the essential step that must be
taken before gathering the data. The size of the sample is designated by the
number of simple and complex number of units, which will be obtained
from the reference population, from which the entering data will be recorded
for the analysis.
So, the analysts must decide, according to many factors, which is the
optimal number of statistical units that must be included in the survey so
that the sample will be representative and its results will extend over the
reference population, respecting the principles of statistical inference.
The optimal size of the sample depends on obtaining the minimum
size which will ensure the representativity of the sample, size which is given
by the influencing factors situated outside the total collectivity's size, which
refer to the structure of the collectivity.
The expressions to define the sample size are:
n =t
2.
2
/ e
2
, for continous variables
and
n =t
2.
P
.
(100 - P) / e
2
, for alternative variables
where:
t: theoretical value corresponding to the probability with which it is
working (generally P=95%, and t=1.96);
square average deviation of the characteristic's distribution, which is
the base for the sample's elaboration (
2
the dispersion or variance V);
P: the percentage in which the studied population posses the
sampling characteristics;
e: the allowed representativity error.
Statistics for Marketing and Business Administration
A special attention must be given to the way of using a faster method
of determining the sample size, which starts with the total collectivity size
(N) without taking into consideration the characteristic of the population,
the Taro J amane expression:
N =N / (1+N
.
e
2
)
Also this time, some simple computation indicates, that the size of
the obtained sample does not reflect the variations of the total collectivity
size. Certain levels are constituted, over which n (the sample size) will not
rise, no matter the rise of N. For example, for e=5%, the level is 399.
The computation given as example confirms, on one hand, the
affirmation according to which the sample size does not depend entirely on
the total collectivity size given the condition in which the representatvity
error remains constant, the variations of the total collectivity size cannot be
reflected in the sample size), and on the other hand, imposes a certain
wariness in using the "simplified" method for determining the sample size.
The simulated measures of the sample computed with the Taro
J amane expression for certain values of N and e.
The sample size depends on various controllable and uncontrollable
factors for the researcher: the accuracy level with which it is wished to
estimate the characteristics of the reference population, the size of the
sampling errors, the law of large numbers, and last but not least, the
available budget, the available period of time and the available personnel
resources.
Statistics for Marketing an Business Administration
Computation choices for the ample size
Table 3.1
The total
collectivity size
(N)
The sample size for various allowed limit errors
e = 5% e = 3% e = 1%
500
1000
5000
10000
100000
1000000
10000000
222 345 476
285 526 909
370 909 3333
384 1000 5000
398 1099 9090
399 1109 9900
399 1110 9990
If the dispersion of the sample or of the reference population is not
known, the most unfavorable case may be considered, by taking into
consideration the maximum dispersion. Its computation supposes the
establishment of the maximum size of the dispersion for quantitative
characteristics.
max
min max
( ) ( )
2
2 2
2
=
+ x x x x
and
max
( ) . ( . ) .
2
1 05 1 05 0 25 = = = f f
The determination of the value is 0.25- corresponding to the
maximum frequency f, to the alternative characteristic.
In practical activity we often operate with reduced size samples
(for which the Student repartition law is used for errors estimating) and the
normal size samples (for which Laplace repartition law is used to estimate
errors), depending on the homogeneity level of the collectivity. According
Statistics for Marketing and Business Administration
to the law of large numbers, the more the sample size is increasing (not the
selection fraction), the more the accuracy of the results is higher. The
sample size is decided also according to the results, which will be finalized,
keeping in mind the necessity of the accuracy not only over the entire
sample, but also over subgroups.