Inferenta Statistica PDF

7
Analiza datelor de sondaj pentru

realizarea inferenei statistice
7.1 Principii de baz ale inferenei statistice

Principiile de baz ale inferenei statistice, efectuat n urma analizei
datelor de sondaj, implic i n studiul pieei serviciilor de consultan n
resurse umane, noiunile de experiment, rezultat, spaiul eantionului,
eveniment i probabilitate.
Ideea unui experiment include exemple precum aruncarea unei
monede, msurarea numrului de angajai sau chestionarea managerului
unei firme n legtur cu obinerea de profit sau pierdere. Asemenea
experimente au posibile rspunsuri, finite sau infinite ca numr, ce formeaz
spaiul de sondaj. De exemplu, o firm poate obine profit negativ, deci
pierdere, profit zero, sau profit pozitiv, deci beneficiu, categorii ce
reprezint rezultate. Seturile formate din aceleai categorii formeaz
evenimente. Posibilitatea ca firmele s fie solvabile, deci s obin profit
zero sau pozitiv, reprezint un eveniment.
n teoria sondajului, rezultatele unui numr mare de experimente
sunt datele primare. n anumite cazuri putem presupune c fiecare rezultat
este independent de cel precedent, aa cum un numr al zarului este
independent de celelalte aruncri. n condiiile n care cunoatem
mecanismul de probabilitate, putem calcula probabilitatea de apariie a
fiecrui rezultat. Teoria sondajului se refer la aplicarea teoriei
probabiltilor pentru seturi de date primare.
Statistic pentru studii de marketing i administrarea afacerilor
Dac n urma unei cercetri se nregistreaz doar informaii pariale,

este posibil ca datele nregistrate s fie utilizate pentru obinerea intervalelor
de ncredere, cu o anumit probabilitate dac setul de date respect
condiiile de reprezentativitate pentru populaia din care a fost extras.
Pentru a se putea estima corect parametrii colectivitii de selecie,
pe baza rezultatelor prelucrrii datelor de sondaj, estimaie garantat cu o
anumit probabilitate, este necesar ca eantionul pe baza cruia se culeg
datele primare s fie reprezentativ. Un eantion este reprezentativ dac
structura sa reproduce ct mai exact structura populaiei de referin din care
a fost prelevat.
Pentru asigurarea reprezentativitii eantionului este necesar s se
respecte anumite reguli ,dintre care amintim:
a. includerea unitilor n eantion s se realizeze n manier ct mai
obiectiv, toate unitile trebuie s aib aceai ans de a participa la
formarea eantionului extragerea unitilor s se realizeze conform
principiilor hazardului cu o probabilitate egal i diferit de zero;
b. mrimea eantionului s fie suficient pentru a reda
caracteristicile eseniale ale populaiei generale;
c. includerea fiecrei uniti n eantion trebuie s se fac
independent de cuprinderea altor uniti.
Determinarea gradului de reprezentativitate a populaiei studiate la
un moment dat ridic probleme deosebit de dificile n calea evalurii
cercetrilor, aceasta deoarece, de cele mai multe ori, nu pot fi cunoscute n
prealabil caracteristicile relevante ale populaiei ce urmeaz a fi cercetat i
se procedeaz la estimri mai mult sau mai puin corecte; se ajunge la
identificarea acestor caracteristici numai n urma studiului, cnd, de fapt, nu
se mai poate interveni pentru alegerea populaiei adecvate.
Cu excepia cazurilor, rare de altfel, n care ne pot ajuta evidenele,
numai efectuarea unor nregistrri prealabile cercetrii propriu-zise ne
permite s ne fixm, n cunotin de cauz, la o anumit populaie relevant
pentru tema i obiectivele cercetrii.
Studiile statistice exhaustive prealabile, dei necesare, sunt puin
practicate, totui, datorit mpovrrii costurilor de cercetare, a creterii
timpului afectat i a muncii depuse. Determinarea cu maxim precizie a
caracteristicilor economice, de pia, politice i de alt natur ale

colectivitii studiate, ca i dispunerea ei spaial, se nscriu drept cerine
elementare, obligatorii pentru o cercetare concret.
Evident, practica studiului exhaustiv a diferitelor colectiviti
nltur multe neajunsuri n ceea ce privete reprezentativitatea cercetrilor,
dar nu rezolv definitiv problema. Apare, de fiecare dat, ntrebarea
fireasc, de ce este studiat o anumit colectivitate (consumatorii unui
anumit produs, agenii economici dintr-o regiune, ora, angajaii dintr-o
anumit organizaie, sau domeniu de activitate etc.) i nu altele.
Apoi, se impune s consemnm faptul c n domeniul fenomenelor
de marketing, mai ales al celor la nivel microeconomic, de pia i
individual, repetabilitatea mbrac forme specifice. Ceea ce este valabil
pentru un individ sau o colectivitate ntr-un anumit moment nu este valabil
pentru alt individ sau colectivitate, dup cum poate s nu mai fie valabil
pentru acelai individ sau colectivitate ntr-un alt moment.
Numai prin studii repetate i realizarea unor colecii sistematice de
informaii se poate efectua generalizarea rezultatelor, ntemeierea acesteia
pe un Mont Blank de fapte.
Investigarea exhaustiv a colectivitilor devine foarte costisitoare
atunci cnd volumul acestora depete cteva sute de persoane sau
organizaii. De aceea, se recomand efectuarea unei cercetri selective,
ntocmirea de eantioane reprezentative, prin respectarea cerinelor legii
numerelor mari i a calculului probabilitilor, care permit ca, prin studiul
unei pri a colectivitii totale, s se obin rezultate valabile pentru
ntreaga colectivitate.
Fr a intra n detaliile elaborrii eantioanelor, vom enuna doar
cteva elemente necesare determinrii gradului de reprezentativitate a
acestora. Un bun eantion poate fi ntocmit atunci cnd se dispune de un
cadru optim de eantionare, de o eviden a colectivitii totale cu
specificarea caracteristicilor sale de baz. Lipsa cadrului de eantionare este
principala piedic n calea realizrii unor eantioane corespunztoare.
Cu ct volumul colectivitii studiate este mai amplu, apropiindu-ne
de nivelul colectivitii naionale, unde cercetrile selective sunt de o foarte
mare importan, lipsa unui cadru de eantionare se simte i mai acut, dat
fiind faptul s sociologul nu o mai poate suplini printr-un recensmnt

prealabil.
Eroarea cea mai frecvent ntlnit, n aceste condiii, se refer la
presupunerea c s-a efectuat o selecie simpl aleatoare i tratarea n
consecin a rezultatelor obinute, dei se cunoate c cele mai multe
cercetri realizate pe ansambluri mari de populaie se abat, n practic, de la
modelul seleciei simple aleatoare.
Pentru a evita, n acest caz, eventualele neajunsuri de interpretare, se
impune determinarea cu precizie a tipului de eantionare rezultat i
efectuarea coreciilor necesare n privina prelucrrii i interpretrii
informaiei recoltate.
Satisfacerea condiiilor de reprezentativitate se realizeaz prin
alegerea procedeului de eantionare potrivit, dintre urmtoarele: procedee de
eantionare aleatoare, procedee de eantionare dirijat i procedee mixte de
eantionare.
Dac n urma efecturii unui experiment de un anumit numr de ori
s-a nregistrat o secven de rezultate, diviznd frecvena de apariie a unui
eveniment A (de cte ori se nregistreaz o persoan cu venit zero sau
pozitiv, deci o persoan ce corespunde evenimentului de solvabilitate) la
numrul total de persoane cuprinse n eantion (numrul de experimente)
rezult o estimare a probabilitii de apariie a evenimentului A. Cu ct
numrul experimentelor crete, deci crete volumul eantionului format din
uniti omogene sau complexe, neomogene, crete i probabilitatea de
apariie a evenimentului A, tinznd ctre 1.
n termeni matematici, dac x1, x2, ., xn este o secven de rezultate
financiare ale firmelor i A un eveniment, notnd N (x1, x2, .., xn,, A)
frecvena de apariie a evenimentului A din primele n experimente i n tinde
la infinit, atunci N (x1, x2, .., xn,, A) / n reprezint o probabilitate ce tinde
la 1.
Cu toate c legea numerelor mari i precizeaz cercettorului c va
ajunge la un rspuns corect dup un numr mare de experimente, nu i
precizeaz i ct de aproape este de rspunsul corect dup un anumit numr
de experimente, de nregistrri. n anumite condiii, metodele statistice pot fi
utilizate pentru estimarea erorilor ce pot fi fcute prin repetarea unui

experiment de un numr finit de ori.
Un experiment este descris complet de ctre spaiul valorilor de
eantionare (setul posibilelor valori ce se pot nregistra), familia B a
evenimentelor i de ctre probabilitile de apariie a fiecrui eveniment n
parte.
Totalitatea variabilelor prin care este studiat un anumit fenomen de
pia constituie spaiul de atribute (property-space), de caracteristici ale
fenomenului respectiv. Operaiile efectuate cu ajutorul spaiului de atribute
vizeaz clarificarea mai amnunit a relaiilor dintre variabile i conceptele
teoretice. Reducerea spaiului de atribute, prin combinarea categoriilor i
eliminarea unor subdiviziuni, permite construcia tipologiilor aferente
fenomenelor de pia.
n schimb, operaia de substracie const n parcurgerea drumului n
sens invers: de la tipologie se trece la elaborarea spaiului de atribute
implicat n acea tipologie. Spaiul de atribute, pe lng rolul de a constitui
un inventar ct mai complet al variabilelor, servete la compararea
schemelor operaionale utilizate n cercetare i la gsirea unui eventual
numitor comun al acestor scheme de cercetare empiric.
Aa cum noteaz I. Iordchel i I. Cauc, necesitatea dezvoltrii unor
tipologii multidimensionale, care s in cont de multilateralitatea
dimensiunilor de pia, se nscrie ca o cerin fundamental n elaborarea
unui sistem tipologic operaional pentru cercetarea i politica de pia
economic.
Substracia i reducerea spaiilor de atribute sunt operaii
conceptuale de maxim importan, att n elaborarea schemelor descriptive,
ct i a conceptului n utilizarea datelor empirice. Separarea evenimentelor
n spaiu i timp asigur independena acestora.
Conceptul de independen statistic sau probabilistic este necesar a
fi definit pentru extinderea sa, astfel nct apariia unui eveniment s nu
influeneze probabilitatea de apariie a altui eveniment. n cazul unor
evenimente independente, probabilitatea ca acestea s apar simultan este
egal cu produsul probabilitilor.
Dac evenimentele sunt notate prin vectorul A1, A2, .,An, cu

probabilitile de apariie, (frecvenele de apariie) notate prin vectorul
P(Ai), i=1, ,n, probabilitatea de apariie a tuturor evenimentelor va fi
P(A1) . P(A2) ..P(An). Analiza independenei este aplicat investigaiilor
statistice n cadrul crora datele sunt eronate prin repetarea acelorai
operaiuni elementare, fiecare nregistrare fiind efectuat independent de
celelalte.
7.2 Erorile de sondaj

7.2.1 Tipuri de erori ntlnite n teoria i practica sondajului
Se consider eroare de sondaj abaterea dintre valorile obinute n
urma prelucrrii datelor primare i rezultatele ce s-ar fi obinut dac s-ar fi
organizat o observare total.
Orice msurare statistic conine erori. O posibil clasificare a
erorilor, din mulimea posibilitilor de grupare i clasificare existente poate
fi: erori sistematice, grosolane i aleatoare. Erorile sistematice sunt
determinate de aciunea unor factori ale cror cauze de apariie pot fi
stabilite, iar apoi eliminate. Apariia erorilor grosolane este legat de
nclcarea condiiilor de efectuare a experimentului sau a observaiei. n
teoria erorilor se dau criterii de depistare a erorilor grosolane. Obiectul
teoriei erorilor l constituie numai erorile aleatoare, care sunt determinate de
aciunea unor factori greu de depistat, din care cauz efectul aciunii lor este
inevitabil. Erorile de sondaj mai sunt clasificate n erori de nregistrare,
comune tuturor tipurilor de observare, i erori de reprezentativitate,
specifice sondajului. Erorile de reprezentativitate sunt la rndul lor:
sistematice i ntmpltoare.
n desfurarea oricrei observri statistice trebuie respectat
principiul autenticitii datelor culese, sau, cu alte cuvinte, corespondena
dintre realitatea primar studiat i valorile nregistrate. Dac nregistrarea
se face de ctre persoane specializate, erorile de nregistrare apar n numr
redus i pot fi corectate cu uurin. Erorile sistematice pot fi evitate dac se

respect principiile teoriei sondajului.
Principalele cauze ale erorilor sistematice sunt alegerea deliberat a
unor date considerate n mod greit ca fiind reprezentative, alegerea la
ntmplare, ce difer esenial de alegerea dup principiile probabilistice,
dorina voit a cercettorului de a demonstra o anumit concluzie,
substituirea unei uniti de cercetare cu alt unitate, n mod voit, i
cuprinderea incomplet n sondaj a unitilor de cercetare.
Spre deosebire, erorile aleatoare de selecie apar din procesul de
sondaj. Aceste erori se produc chiar dac se respect principiile
probabilistice, deoarece eantionul nu reproduce perfect distribuia
populaiei generale. Dac sondajul este probabilistic, aceste erori pot fi
calculate cu anticipaie. Estimarea parametrilor din populaia general se va
efectua pe baza indicatorilor de sondaj, corectai cu o eroare de
reprezentativitate ce se gsete ntr-un anumit interval probabilistic.
Analizele de perspectiv i proieciile rezultatelor sondajului asupra
populaiei de referin, fac din aceast metod un puternic instrument n
procesul lurii deciziilor n mediul economic de pia.
Dup culegerea informaiei este necesar s se determine cu exactitate
mrimea erorii de reprezentativitate, pentru a se putea evalua n ce msur
se abate de la eroarea propus iniial.
Calculul erorii este posibil prin utilizarea caracteristicilor
eantionului (acum cunoscute) n locul caracteristicilor totale, lucru
ndreptit numai dac selectarea persoanelor n eantion a urmat o
procedur care a asigurat prezena, n proporii optime, a tuturor categoriilor
de populaie specifice colectivitii totale.
Ct privete reprezentativitatea coninutului, analiza evaluativ se
refer la calitatea definirii domeniului cercetat, la elaborarea schemei
descriptive (construcia variabilelor), la formularea ntrebrilor, cercetarea
dezirabilitii de pia a unui produs, a gradului de actualitate a respectivei
mrfi i la dificultatea pe care o poate prezenta tema lansrii unui nou
produs, de exemplu. De asemenea, n aplicarea instrumentelor de cercetare
se urmrete controlul erorilor de rspuns: contaminarea rezultatelor
datorate setului de rspuns prin acord, prin negare sau prin evitarea
poziiilor extreme etc.
De aici i necesitatea abordrilor complexe (a msurtorilor

multiple) prin mai multe metode i tehnici ale unuia i aceluiai fenomen de
pia, pentru a obine cunotine ct mai veridice prin controlarea i
eliminarea erorilor datorate instrumentelor de intervievare.
n practic, erorile de reprezentativitate se pot calcula efectiv n
mrime absolut, dac s-au obinut date referitoare la aceleai caracteristici
dintr-o observare total organizat anterior, sau se pot estima ca erori
probabile. De cele mai multe ori se pot cunoate valorile adevrate, pentru a
le putea separa de erorile de msurare. Cu toate acestea, nu putem ignora
eventualele erori ce apar n cadrul msurtorilor efectuate.
Date fiind condiiile concrete de lucru, puterea instrumentelor pe
care le folosim, intervenia factorilor exteriori cercetrii, este logic s
presupunem c valorile observate sunt o combinare de date reale (concrete)
i de erori: X0 = Xa Xe, ceea ce ndreptete efortul de a izola erorile.
Compunerea valorilor observate din dou seturi de informaii
(cele reale i cele datorate erorii) conduce la exprimarea dispersiei totale
( 2t), n termenii celor dou dispersii ce o alctuiesc, respectiv dispersia
real i dispersia datorat erorilor.
Pentru a putea determina efectiv eventualele erori de msurare, o
importan deosebit se acord analizei efectului pe care un cercettor sau
altul l poate avea asupra rezultatelor obinute, inclusiv a efectului
operatorului de interviu, situaie n care posibilitatea influenrii rezultatelor
este mult mai mare. Cunoaterea ecuaiei personale de eroare a fiecrui
participant la cercetare permite un control mai riguros asupra condiiilor de
desfurare a acesteia i de prevenire a erorilor.
O serie de analize s-au ocupat de ansa diferiilor operatori
(n funcie de sex, vrst, nfiare) de a obine acordul populaiei pentru a
participa la interviu, ca i de studiul interaciunii operator-subiect n
desfurarea acestuia. Pe baza rezultatelor obinute, s-a ajuns la elaborarea
unei strategii de selecie, instruire i supraveghere n teren a operatorilor.
n legtur cu distribuia rspunsurilor subiecilor n funcie de
realizatorul interviului, s-a adunat o documentaie bogat. Aa, de exemplu,
n prezent se tie c influena investigatorului este mai mare n cazul
ntrebrilor de opinie dect n cazul celor factuale. Cel mai puternic efect se
produce n studiile care vizeaz proieciile n viitor intenii, dorine etc.
Din punctul de vedere al posibilitii controlului erorilor, n literatura
american de studiu al pieei, erorile mai sunt clasificate n dou mari grupe:
1. Erori ce pot fi previzionate: acestea sunt controlabile i au drept
cauze msurrile statistice ale datelor continue i rotunjirile efectuate pentru
a obine rezultate discrete, conform coninutului caracteristicii statistice,
deci ele sunt probabile sau de sondaj i de calcul ambele tipuri putnd fi
estimate i efectele lor controlate. Prin operaiunea matematic de rotunjire
a valorilor nregistrate se induc erori ce se amplific dac rotunjirea
continu n faza de analiz.
Drept urmare, putem afirma c datele sunt rotunjite din urmtoarele
motive:
Cnd caracteristica observat este continu, n anumite cazuri este
necesar rotunjirea pentru a putea exprima magnitudinea datei (de obicei se
pstreaz doar dou zecimale);
Pentru caracteristicle discrete, rotunjirea are drept scop respectarea
caracterului ntreg al acestora.
2. Erori ce nu pot fi previzionate: acestea sunt necontrolabile i se
datoreaz: nregistrrilor incomplete sau incorecte, definirii ambigue a
caracteristiclor sau unitilor statistice ce sunt studiate.
Controlul erorilor are drept scop aflarea erorilor de observare i
asigurarea autenticitii datelor statistice, i se refer la controlul volumului
datelor nregistrate, controlul aritmetic i logic.
O parte a erorilor se datoreaz operatorului de interviu.
Cele mai importante surse de erori de rspuns datorate operatorilor
sunt:
a) caracteristicile operatorilor, ca, de exemplu, nivelul de pregtire
prea sczut sau prea ridicat care i face s fie nclinai spre greeli
sistematice, sau pot s induc, prin opinia lor exprimat, persoanei
intervievate, o anumit influen asupra rspunsului;
b) anticipaiile operatorilor i determin s sugereze anumite
rspunsuri subiecilor;
c) frauda operatorilor apare n foarte puine cazuri i poate fi

depistat prin sondaje pilot de reintervievare.
Alte surse importante de erori care pot fi evitate sunt lungimea
chestionarului, ce poate cauza oboseal operatorilor i subiecilor
intervievai, ponderea majoritar a ntrebrilor deschise ce duce la dificulti
n operaiunea de postcodificare, coninutul ntrebrilor, mai ales cele
personale pot duce la erori de rspuns, formularea ntrebrilor, mai ales
utilizarea cuvintelor ambigue, cu mai multe sensuri, locul i timpul
interviului, i, nu n ultimul rnd, gradul de interes sau cointeresare a
persoanei intervievate.
n privina detectrii erorilor de rspuns, se disting dou modaliti
principale de abordare ce constau n verificarea n totalitate a rspunsurilor,
apreciind astfel volumul erorilor brute i aprecierea volumului erorilor nete,
innd seama de faptul ca erorile ntr-un sens sau altul se pot compensa.
Din punct de vedere metodologic, estimarea erorilor brute este,
adesea, imposibil.
Principalele mijloace de detectare amintite i anterior sunt:
1. Confruntarea rspunsurilor cu sursele de date secundare interne
sau externe, publice, mai ales n legtur cu datele demografice ce pot fi
verificate (vrsta, starea civil), sau verificarea documentelor contabile,
vamale, de la Registrul Comerului, n msura n care este posibil, n cazul
n care eantionul este format din ageni economici. Evident, operaiunea
necesit un consum ridicat de resurse de timp, umane i financiare;
2. Verificarea coerenei rspunsurilor la diferite ntrebri la care a
rspuns acelai subiect se efectueaz prin includerea n chestionar a
ntrebrilor de verificare, sau prin repetarea sondajului pe acelai eantion,
n perioade diferite;
3. Reintervievarea de control, prin sondaj, astfel nct s se
reueasc evitarea variabilitii i s se nregistreze rspunsuri valide; n
acest scop, este necesar efectuarea unui interviu calitativ superior. De fapt,
aceste sondaje reprezint studii intensive ale unor eantioane relativ mici ce
fac parte din eantionul iniial. La aceste controale de calitate se schimb
formularea ntrebrii, pentru a se evita repetarea erorii de rspuns iniiale.
Scopul acestor sondaje de calitate este evidenierea caracterului eronat al

rspunsurilor i obinerea unei mai bune activiti a operatorilor.
7.2.2 Estimarea erorilor de sondaj
Am vzut c teoria erorilor este o parte a statisticii consacrat
problemelor de determinare numeric a mrimilor msurate aproximativ, de
estimare a valorilor lor adevrate i a preciziei msurrilor ce opereaz cu
rezultatele msurrilor x1, x2, xn, obinute pe baz de experiment sau
observaie, repetate, cu respectarea unora i acelorai condiii.
Sarcinile fundamentale ale teoriei erorilor sunt definirea legilor de
repartiie a erorilor aleatoare, obinerea estimaiilor mrimilor msurabile
necunoscute, pe baza datelor unor msurri repetate, i calculul acestor
estimaii.
S admitem c, pentru determinarea unei mrimi scalare
necunoscute a, s-au efectuat n msurri, ale cror rezultate sunt reprezentate
prin mulimea de numere x1, x2, ,xn (printre x1, xn pot exista i numere
egale). Dup nlturarea erorilor grosolane i sistematice de msurare,
x1, x2, , xn vor conine numai erori aleatoare. Mrimea aleatoare z = x a
se caracterizeaz prin probabilitatea P(1<z<2), care determin
probabilitatea ca valoarea z s se afle ntr-un interval dat (1, 2).
Estimaiile preciziei msurrilor sunt: eroarea medie ptratic ,
numit, de asemenea, eroare standard i dispersia erorii 2. S admitem c
reprezint mrimea abaterii standard sau eroarea medie ptratic. Atunci,
n condiiile legii normale de repartiie a erorilor aleatoare z, probabilitatea
ca acestea s fie cuprinse ntmpltor n intervalul dat (1, 2) se calculeaz
dup formula:

P ( 1 z 2 = 2 1

unde (t) reprezint funcia de probabilitate.
(7.1)
Probabilitatea ca eroarea aleatoare s fie n afara intervalului dat,

avnd limitele t(t>0), se calculeaz pe baza formulei P(z>t)=1-1(t).
De exemplu, probabilitatea ca eroarea aleatoare s ias n afara limitei de
3, P(z>3) = 0,0027, adic depirea acestei limite este foarte puin
probabil. Ca estimaie a mrimii necunoscute a se adopt media aritmetic
din rezultatele msurrilor
1 n
x = xi .
n 1=1
(7.2)
Estimaia valorii adevrate a a mrimii msurate cuprinde

determinarea funciei g(x1,x2, ,xn), care d o bun aproximare a mrimii a
i a limitelor intervalului de ncredere (g), adic a intervalului care, cu o
probabilitate de ncredere, acoper valoarea adevrat a. Aceast estimaie
trebuie s posede proprietatea de nedeplasare, de consisten i de
eficien.
Dac toate n msurri ale mrimii a sunt la fel de precise, atunci
valoarea adevrat se determin cu ajutorul formulei (7.2). n acest caz,
estimaiile sunt nedeplasate, consitente i eficiente, dac distribuia erorilor
satisface legea normal. n cazul unei mrimi date a siguranei P i n cazul
unei precizii necunoscute a msurrilor, estimaia de ncredere are forma
(6.3.):
a x < t (p.k )
s
n
(7.3)
Unde n reprezint numrul msurrilor, k =n 1 numrul gradelor

de libertate i S eroarea standard calculat pe baza formulei
S=
1
n 1
n
x i x = S
n
1
j =1
(7.4)
Valorile funciei t (P,k) se dau n tabelul construit pe baza repartiiei

Student.
Numrul necesar de msurri n pentru obinerea estimaiei de
ncredere de o precizie dat este:
a x
Cu siguran, data P
eantionului (7.5):
se determin prin expresia volumului
n t (P ) 2 ,
(7.5)
unde t = t(P) se afl din egalitatea 2(t) = P (prin utilizarea tabelului

pentru funcia (t).
Astfel pentru obinerea estimaiei de ncredere = 0,15 cu sigurana
P = 0,99 este necesar s se efectueze n = 668 msurri. Pentru depistarea
originii nealeatoare a diferenei valorilor medii x1 si x2, obinute ca urmare a
dou serii de ncercri n1 si n2, n cazul unor dispersii necunoscute este
necesar s se calculeze mrimea (7.6):
t=
x x
S 1 / n1 + 1 / n 2
unde:
S=
(n1 1) S12 + (n 2 1) S 22
.
(n1 1) + (n2 1).
(7.6)
Estimaiile preciziei msurrilor se efectueaz pornindu-se de la

presupunerea c erorile sunt aleatoare i c ele sunt subordonate legii
normale de repartiie (7.7), unde a este o mrime cunoscut i 2 se poate
scrie conform (7.8):
2 s 2 =
2 s2 =
1 n
2
(x i a ) ,
n i =1
1
n 1
x i x
i =1
(7.7)
(7.8)
unde x este media aritmetic a msurrilor mrimii a.

Estimaia de ncredere a erorii medii ptratice (n cazul unui numr
mare de msurri) este dat de intervalul: S(1 q) < < s(1+q), unde q = q
(P, k) se calculeaz pe baza tabelului pentru estimarea lui , ale crui intrri
sunt P siguran i k numrul gradelor de libertate. n cazul unui mare
numr de msurri se adopt ca estimaie a dispersiei media aritmetic a
dispersiilor empirice, adic (7.9):
2
1
m
2
i
(7.9)
i =1
unde m este numrul seriilor de msurri.

Dispersia de rspuns, ca i dispersia de eantionare pot fi estimate pe
baza rezultatelor eantionrii. Dac erorile individuale de rspuns sunt
independente, fiind datorate doar neateniei, ele se compenseaz n medie i
sunt prevzute n formulele de estimare a variantei eantionrii. n cazul
dispersiei de rspuns datorat erorilor de nregistrare, dac fiecare operator
produce o distorsiune sistematic, chiar dac acestea se compenseaz
reciproc, va avea loc o cretere a dispersiei totale.
Apare, deci, o component a dispersiei de rspuns care va duce la
necesitatea modificrii formulelor de calcul a dispersiei de eantionare.
Astfel, dac r operatori extrai ntmpltor din totalul R al operatorilor de
interviu, acetia vor intervieva n persoane constituind un eantion aleator
simplu. Dac operatorul i produce o distorsiune net b1, vom defini totalul
distrosiunilor produse de operatori ca (7.10):
2
1 R
=
(b b ) ,
R 1 r =1 i
2
b
(7.10)
unde b este media distorsiunilor nete.

Moser noteaz dispersia estimrii unei caracterisitici oarecare x
este:
V ( x ) = x2 / n
(7.11)
La aceasta trebuie adugat dispersia de rspuns rezultat din erorile

operatorilor, formula (7.2.11) devenind (7.12):
V (x) =
x2
1
+ b2 1
r
n
(7.12)
De unde rezult c dispersia eantionrii este compus din dou

pri:
x2 / n reprezint dispersia eationrii

1
2b 1 i a doua parte (7.13):
r
exprim variabilitatea operatorului.

n privina estimaiei, situaia nu este clarificat: dispersia poate fi
estimat, dar distorsiunea nu.
7.3 Estimarea statistic

7.3.1 Estimarea punctual
Scopul calculrii indicatorilor sintetici ai datelor nregistrate, ca de

altfel ntreaga procedur de sondaj, l constituie estimarea indicatorilor de
sondaj i identificarea legturilor ce se manifest ntre variabilele populaiei
totale, cu o precizie de o anumit probabilitate fixat a priori.
Pentru a caracteriza i a identifica ceea ce este esenial pentru datele

de sondaj, se calculeaz indicatorii tendinei centrale, dintre care media
aritmetic ocup un loc central. Acest indicator poate fi utilizat ntr-o etap
urmtoare mpreun cu ceilali parametri ai eantionului pentru extinderea
rezultatelor sondajului asupra colectivitii generale i pentru comparaii cu
rezultatele obinute pentru alte eantioane, doar dac colectivitatea de
selecie este omogen i media reprezentativ.
n continuare voi trece n revist principiile estimrii statistice cu
aplicabilitate n cazul studiului pieei, n general, cu particulariti pe piaa
serviciilor de consultan, n special.
Pentru un eantion aleator cu valorile x1, x2, ..., xn extrase
independent din distribuia F cu parametrul , problema estimrii este aceea
a gsirii funciei (x), care este asemntoare cu . n acest caz adjectivul
asemntoare sau apropiat are un neles destul de vag cruia i se pot
atribui numeroase sensuri.
Dac privim eantionul ca fiind format din nregistrarea variabilelor
aleatoare X1, X2, ..., Xn i estimatorul ca o funcie a acestor variabile,
atunci este o variabil aleatoare cu urmtoarele proprieti:
eroarea medie minim, adic:
E ( ) = 0
(7.1)
i estimatorul se spune c este nedistorsionat;

eroarea medie ptratic minim:
E ( ) 2 0
(7.2)
Ceea ce combin n mod arbitrar variabilitatea estimatorului cu

distorsiunea b = E ( - ), deoarece:
E ( ) 2 = var + b 2
variaie minim, deci dispersie minim.
(7.3)
Un factor de influen n alegerea estimatorului nedistorsionat de

dispersie minim este costul minimizrii erorilor ( ) pentru eantioane
de volum diferit. Eantioanele conin informaii referitoare la parametrii
unei familii de distribuii ce folosesc funcii diferite pentru extragerea
informaiilor (datelor).
Exist numeroase metode de estimare ce ofer tehnici de gsire a
estimatorilor pentru parametrii populaiei totale, dintre care am considerat
util a prezenta pe scurt:
1. metoda momentelor;
2. metoda verosimilitii maxime;
3. metodele Bayesiene.
Metoda momentelor
Momentele unei familii de funcii de distribuie sunt funcii ale

parametrilor acesteia. Dac vom calcula un numr redus de momente este
posibil s utilizm mpreun momentele de ordinul nti, mpreun cu
momentele eantionului, pentru a obine estimaii ale parametrilor. Metoda
momentelor poate fi utilizat, de exemplu, pentru a estima parametrul al
unei distribuii exponeniale cu valori nonnegative, de forma (7.4):
f ( x \ ) = e x , x 0, > 0
(7.4)
Dac media populaiei se calculeaz conform relaiei (7.5):
x = E ( X ) = x e x dx =
0
(7.5)
atunci valoarea medie pentru eantion va fi:

x s = ( x1 + ... + x n ) / n
i, astfel, metoda momentelor va obtine estimatorul parametrului
1
1
din x = rezultnd = .
x
Metoda verosimilitii maxime
Maximum likelihood method este o metod cu aplicabilitate, mai

ales, pentru eantioanele de volum mare. Pentru familiile de distribuii
discrete putem calcula probabilitatea de a preleva un anumit eantion i, de
asemenea, putem alege ca estimatori valorile parametrilor ce maximizeaz
aceast probabilitate.
Pentru eantionul valorilor x1, ..., xn, extrase independent dintr-o
distribuie cu probabilitile asociate P ( X = x ) = f ( x ) n care poate fi
un vector, probabilitatea, denumit verosimilitate, se definete conform
formulei (7.3.6) ca produs al funciei de probabilitate, caracteriznd fiecare
valoare a eantionului:
n
L( x1 ,...., x n ) = f ( x i )
(7.6)
i =1
Pentru distribuii continue vom maximiza funcia de verosimilitate

din formula (7.6). n acest caz verosimilitatea este o msur a densitii de
probabilitate i nu o probabilitate, ca n cazul distribuiilor discrete.
Estimatorul , acea valoare a lui care maximizeaza funcia L pentru
eantionul extras, este estimatorul de verosimilitate maxim pentru .
Cnd n tinde la infinit tinde asimptotic spre distribuia normal cu
dispersia calculat conform (7.7):

var = 2 =
1
log f ( x )
nE
(7.7)
De exemplu, un eantion de volum n distribuit normal cu media 0 i

dispersia (sau 2 ) are funcie de verosimilitate i derivatele de ordinul
nti ale acesteia n raport cu dispersia conform sistemului (7.8):
1
n
xi2/
2
2
(
,.....,
)
2
[
]
L
x
x
e
=
1
n
x2
log L = n + i

2
2 2
(7.8)
Prin anularea derivatei de ordinul nti i rezolvarea ecuaiei cu

necunoscuta verosimilitatea maxim ce estimeaza este dat de suma
n
ptratelor vectorului XI mprit la n: = ( xi2 ) / n i dispersia este invers

i =1
2
proporional cu n: var = 2 =
, deoarece derivata de ordinul doi a
n
logaritmului funciei L este o funcie liniar.
Proprietile estimatorului de maxim verosimilitate sunt:
a) converge n probabilitate ctre valoarea adevarat, concret a lui
atunci cnd n , deci este consistent;
b) este asimptotic nedistorsionat;
c) are dispersia minim comparativ cu estimatorii nedistorsionai cu
dispersie finit putnd spune c este un estimator eficient;
d) estimatorul de maxim verosimilitate al unei funcii de este
funcia estimatorului de verosimilitate maxima a lui .
De exemplu, dac estimatorul de maxim verosimilitate ce estimeaz
2
(sau 2 ) este
2
i
/ n (7.9), estimatorul de verosimilitate maxim pentru
abaterea medie ptratic este radical din expresia (7.9) devenind (7.10):
= =
2
i
/n
(7.10)
n cazul n care fiecare valoare a eantionului reprezint un vector

xi = (x1i, ..., xri) i distribuia compus a celor r variabile are k parametrii,
= ( 1 ,...., k ) , atunci forma funciei de verosimilitate cu vectori este dat
de relaia (7.11):
n
L( x1 ,...., x n ) = f ( x i )
(7.11)
i =1
Pentru a afla maximul relativ al funciei se rezolv sistemul obinut

prin anularea derivatelor n funcie de i . Estimatorii i sunt asimptotic
( 1 ,...., k ) i matricea de covarian
normal distribuii cu mediile
n B pq
, unde {B pq } sunt rezultatele derivatelor pariale de ordinul 2 ale
logaritmilor densitii (7.12):

B pq = E
2 log f ( x )
p q
, p, q = 1,..., n
(7.12)
Dac eantionul este extras dintr-o distribuie normal cu media 1

i dispersia 2 , cu densitatea normal (7.13):
1
f ( x 1 , 2 ) = (2 2 ) 2 exp ( x 1 ) 2 / 2 2
< x < , < 1 < ,0 < 2 <
(7.13)
atunci estimatorul de maxim verosimilitate al mediei populaiei este

media eantionului i cel al dispersiei generale este dispersia de sondaj
(7.14):
1 =
x
n
= x s ;2 =
(x
x) 2
(7.14)
Mai mult, matricea de covarian este matricea diagonal (7.15):
2
n
(7.15)
2 22
n
astfel nct, 1 i 2 sunt asimptotic normal distribuite cu mediile

( 1 , 2 ) i dispersiile 2 n i 2 22 n .
Pentru un eantion de n observaii independente normal distribuite,

media de sondaj este exact, nu asimptotic distribuit dup funcia Gauss, cu
media 1 i dispersia 2, unde 2/n = 2/n.
3. Metode bayesiene de estimare
Abordarea bayesian reprezint o alternativ a metodelor clasice de
estimare ce asigur un mod convenabil de ncorporare a informaiilor
definite aprioric referitoare la parametrii populaiei totale i de adugare a
informaiilor pe msura apariiei acestora.
Unul dintre dezavantajele metodei este incapacitatea de a efectua
estimri fr a cunoate distribuia anterioar a parametrilor.
Principalul instrument pentru inferen este distribuia ulterioar a
parametrului , parametrul setului de date nregistrat. Pentru o distribuie a
variabilei aleatoare x caracterizat de parametrul , cu o funcie de densitate
de probabilitate f, verosimilitatea ataat unui eantion de volum n este un
produs de densiti:
n
L (x1,., xn| ) = f ( x i | ) .
1
(7.16)
Dac distribuia parametrului are densitatea g() atunci densitatea

comun va fi:
n
h (x1, , xn,)=g () f ( x i | )
i =1
(7.17)
Densitatea distribuiei ulterioare se construiete multiplicnd de k ori

densitatea comun a eantionului, astfel:
n
p(|x1, , xn)=k g() f ( x i | )

i =1
(7.18)
Parametrul este o variabil aleatoare, dei, n metodele de estimare

anterioare a fost privit ca un parametru constant. Interpretarea probabilitii
p (/x) arat cum ar caracteriza cercettorul care a furnizat distribuia
anterioar, situaia parametrilor eantionului dup analizele date.
n cazul n care caracterizarea distribuiei anterioare s-a bazat pe
judeci personale, subiective, atunci p (/x) va avea valori diferite n opinia
unor cercettori diferii. Dac distribuia anterioar este caracterizat numai
dup criterii obiective, atunci distribuia ulterioar analizei va fi aproximativ
identic cu realitatea .
Controversele n ceea ce privete metodele bayesiene se refer la
filozofia alegerii distribuiei anterioare i dificultii atingerii unui punct de
vedere comun. Statisticianul Federick Mosteller i David Wallace au ajuns
la concluzia c o dificultate neglijat n teoria bayesian este nivelul de
precizie a concluziilor, care este n funcie de alegerea familiei distribuiilor
de date, deci n funcie de forma funcional a funciei f.
Pentru o probabilitate dat p(/x) estimatorii punctuali sau de
interval pot fi obinui sau p(/x) poate fi utilizat n procesul decizional. De
exemplu, media aritmetic, mediana i modul pentru o distribuie ulterioar
pot fi utilizate ca estimatori punctuali ai valorilor concrete. Un interval de
ncredere poate fi de asemenea construit:
v
p ( / x)d = 1
(7.19)
Dac dispunem de informaii despre , distribuia anterioar pentru

poate fi difuz. Acest fapt ar atribui datelor o mai mare pondere n
determinarea distribuiei posterioare. O astfel de distribuie se numete o
distribuie anterioar uoar.
7.3.2 Estimarea unui interval
Conceptul estimrii punctuale trebuie lrgit cu cel al estimrii unui

interval de variaie pentru parametrul populaiei totale, garantat cu o
anumit probabilitate. ntr-o viziune mai larg, dac parametrul ar fi fost un
vector, prin estimarea intervalului s-ar stabili regiunea critic a acestuia. Un
exemplu l constituie intervalele de ncredere.
n cazul unui eantion de volum n, extras dintr-o populaie normal
distribuit cu media necunoscut i deviaia standard cunoscut,
probabilitatea 1 este probabilitatea ca media de sondaj s varieze cu o
mrime denumit eroare limit, z/2 . n, utilizat pentru a estima
intervalul de variaie a mediei, i z/2 este parametrul corespunztor
punctului procentual /2 al distribuiei normale standard. n acest caz media
populaiei variaz conform (7.20):
x s z 1 / n x 0 x s + z 1 / n , cu probabilitatea 1-
2
(7.20)
Nivelul de ncredere utilizat pentru estimarea parametrilor

eantionului de firme a fost de 0,95, pentru care argumentul funciei Laplace
este z / 2 = 1,96, deci aproximativ 2. Dac, n general, putem identifica o
funcie superioar i o funcie inferioar pentru valorile eantionului,
u
astfel nct, probabilitatea ca aceste funcii s mrgineasc parametrul s

fie 7.21:
P (l u | ) = 1
Atunci valorile funciilor u si l obinute pe baza eantionului duc

la obinerea limitelor intervalului de ncredere pentru parametrul cu o
probabilitate de 1-.
Pentru un eantion de volum n extras dintr-o populaie cu distribuie
normal cu media i dispersia necunoscute, notnd x 0 media i cu
02 dispersia de sondaj, limitele simetrice de variaie
a mediei cu o
probabilitate de 1-. sunt:

x s t / 2 s x .
unde t /2 este argumentul funciei Student de distribuie cu n-1 grade de

libertate.
Intervalele de ncredere nu sunt utilizate doar pentru determinarea
plajei posibile de variaie a parametrilor populaiei totale, garantat cu o
anumit probabilitate, ci, i pentru testarea ipotezelor statistice.
7.3.3 Estimarea robust
n activitatea practic, nregistrrile sistematice au ca scop reducerea

valorilor aberante, extreme nregistrate. Simpla nlturare a acestora duce la
eliminarea de uniti din eantion i reducerea gradului de precizie a
estimaiei. O abordare mult mai rezonabil este eliminarea i studierea
separat a setului valorilor aberante. Pentru aceasta, de exemplu, un bun
estimator al poziiei este valoarea median a eantionului folosit ca
estimator att pentru mediana populaiei totale ct i pentru media acesteia,
deoarece mediana eantionului nu este afectat de valorile extreme.
n cazul eantioanelor de volum mare distribuia medianei este
distribuit aproximativ normal cu o medie asimptotic x0,5, valoarea central
a distribuiei, i o dispersie asimptotic exprimat prin densitatea funciei
evaluate pentru valoarea median corespunztoare:
2
Me
=
4n[ f ( x 0.5 )]
(7.22)
Dac f este o funie de densitate de repartiie normal, media

populaiei este egal cu mediana i media, i mediana de sondaj sunt
aproximativ normal distribuite. Pe msur ce volumul eantionului crete
2
2
dispersia mediei devine x2 Me
i utilizarea medianei este de eficien
asimptotic 2/ = 0,63, ceea ce nseamn c, prin comparaie cu media, este

necesar un eantion de volum egal cu 100 de uniti dac se utilizeaz
mediana ca estimator al parametrului al populaiei totale, iar dac s-ar
utiliza media eantionului (n situaia n care nu ar fi afectat de valori
extreme) volumul eantionului ar fi de 63 de uniti.
Deci, prin utilizarea medianei ca estimator al parametrului populaiei
totale cresc costurile de sondaj. Media fiind indicatorul afectat de valorile
extreme atunci cnd acestea apar, se poate nlocui n analiz cu mediana
prin creterea volumului eantionului, astfel nct s se respecte raportul de
eficien de 0,63.
Funcia de densitate poate fi exprimat, n acest caz, ca o sum
ponderat a dou densiti normale, printr-o funcie de n i un parametru de
ponderare astfel:
c( x | x 0 , 2 , ) = (1 )n( x | x 0 ,1) + n( x | x 0 , 2 ), > 1
(7.23)
unde n( x | x 0 , 2 ) este ordonata la x a funciei de densitate de probabilitate

normal cu media x 0 i dispersia 2 .
Pentru parametrul de nivel redus, c se numete distribuie
contaminat i este fracia de contaminare de ctre datele ce au dispersia
2. Dac = 0,09 i = 3 mediana are o variaie mai mic dect media i de
aceea este preferat ca estimator mediei de sondaj.
O alt metod de eliminare a influenei valorilor extreme este
calculul mediilor reduse, extreme, calculate ca medie aritmetic dup
eliminarea valorilor extreme dintr-un set de date. Mediile extreme se
formeaz prin eliminarea unei fracii din valorile extreme; eliminarea unei
fracii 2 din toate valorile i calculul mediei pentru valorile 1-2 .
Studiile empirice sugereaz c pentru un volum suficient de mare de

date, reducerea valorilor cu = 0,25 este suficient de satisfctoare pentru
estimarea indicatorilor de poziie. Aceste medii au o eficien asimptotic
mai mare dect media, de 0,83, comparate cu nivelul mediei dinaintea
contaminrii, deci, dac volumul eantionului pentru care s-a utilizat ca
estimator media dinaintea contaminrii este 83, volumul eantionului pentru
care se utilizeaz mediile reduse ca estimatori trebuie s fie de 100 de
uniti. De exemplu, pentru o distribuie contaminat cu = 0,05 i = 3
media are o eficien de doar 0,92 din cea a mediei reduse. Dac = 0,25 i
= 0,10 atunci eficiena descrete la 0,775.
n continuare sunt prezentate doar dou procedee mai semnificative
din multitudinea metodelor de extindere a rezultatelor sondajului asupra
colectivitii ce a constituit baza de sondaj: procedeul coeficientului de
corectare i procedeul extinderii directe.
7.3.4 Procedeul coeficientului de corectare
n majoritatea cazurilor, observarea total a unei colectiviti

necesit, pe lng calculul indicatorilor acesteia i o concentrare mare de
resurse umane pentru culegerea datelor, ceea ce duce inevitabil la apariia
erorilor de nregistrare, aa cum este cazul nregistrrilor exhaustive.
Pentru a verifica veridicitatea datelor culese ca i a indicatorilor
calculai pentru colectivitatea total se recurge la cercetarea de control prin
sondaj, efectundu-se o nou nregistrare a unei pri a colectivitii
generale, cuprins ntre 5 - 10% din aceasta, dup cum recomand
Ion Ivnescu.
Datele culese prin cercetarea total pot fi corectate cu datele
nregistrate prin sondaj, mai exacte dect cele dinti. Corectarea se face
aplicnd un coeficient de corectare asupra nivelului absolut al acestora.
Coeficientul de corectare reprezint raportul dintre volumul unitilor
stabilit prin sondaj i volumul unitilor nregistrrii totale pentru aceeai
fracie de sondaj.
7.3.5 Procedeul extinderii directe
Acest procedeu const n estimarea indicatorilor colectivitii

generale, fr ca s se fi nregistrat n prealabil unitile ei, cu ajutorul
indicatorilor calculai din datele obinute n urma organizrii culegerii
datelor de sondaj.
Estimarea indicatorilor colectivitii totale cu ajutorul indicatorilor
calculai la nivel de eantion, face ca acetia s nu aib o valoare
determinat, ci, datorit erorilor inerente preocedurii probabilistice de
sondaj, erorile de reprezentativitate, s se abat de la cei reali. Vom putea
spune, cu o anumit probabilitate, c ei sunt plasai ntr-un interval dat de
media de sondaj, plus (minus) eroarea limit (inegalitatea lui Cebev):
x populaie = x sondaj x
(7.24)
Greutatea specific a unitilor din cadrul colectivitii totale, care

posed o anumit caracteristic (luat n considerare n momentul formrii
eantionului) poate fi estimat, cu o precizie antecalculat, astfel nct ea
poate lua valori ntr-un interval de forma:
p = w w
(7.25)
Pentru cele dou tipuri de caracteristici - alternativ i nealternativ se va putea estima nivelul lor absolut n cadrul colectivitii totale, ca un
produs, ntre limitele intervalului de ncredere i volumul ntregului
fenomen, adic:
N (x s x ) i N (w w )
(7.26)
De asemenea, pentru orice interval de ncredere calculat, trebuie

testat semnificaia sa. Testele de semnificaie i particularitile utilizrii
acestora, n studiul prin sondaj aplicat, n domeniul marketing i
administrarea afacerilor vor fi prezentate ntr-un subcapitol special al crii.
7.4 Prelucrri avansate ale informaiei statistice

7.4.1 Construcia de tipologii
Aceast parte a lucrrii prezint clase de proceduri ce descriu modele

de analiz statistic a datelor de sondaj. Bineneles, lucrarea nu i propune
realizarea un inventar al multiplelor metode i tehnici de analiz statistic,
ci accentueaz dou mari direcii de analiz, construcia de tipologii i indici
complec ;i, agregai.
Fiecare dintre aceste clase de proceduri poate fi mprit la rndul ei
n subclase de analiz, n funcie de tipul variabilelor utilizate: cantitative
sau calitative (categoriale).
Construcia i utilizarea n scopuri descriptive a tipurilor de ageni
economici, clieni, prestatori de servicii, sunt operaii deosebit de frecvente
n tiina cercetrii pieei, necesare pentru identificarea posibilelor categorii
de ageni economici ce achiziioneaz servicii de consultan n resurse
umane, a comportamentului, atitudinii, nevoilor i preferinelor lor.
Clasificarea managerilor, intervievai ntr-un numr redus de grupe
este necesar pentru o mai bun nelegere a ceea ce este esenial, repetabil,
cu o anumit regularitate n comportamentul consumatorului de servicii de
consultan n resurse umane, n general, i al managerului de resurse umane
n special, determinarea de similitudini i regulariti cu caracter predictiv
pentru comportamentul clienilor, dup alte variabile dect cele ce au stat la
baza construciei tipologiei.
Nivelul de pornire variaz foarte mult, operaiunea putnd ncepe din
planul strict teoretic pn la cel pur empiric, cu ajutorul permiselor
logico-teoretice pure, sau cele sugerate de datelele primare culese, sau o
combinaie a acestora.
Gruparea pe tipologii se face i atunci cnd volumul eantionului
este mare, fiind format din purttorii ofertei forei de munc (uniti
omogene), de exemplu, i atunci cnd volumul eantionului este suficient de
mic pentru a percepe distinct fiecare unitate, ce poate fi reprezentat de
agenii economici ce formeaz o populaie neomogen.
De aici apare clasificarea tipologiilor n dou categorii: unele ce se

construiesc statistic, pornind de la caracteristicile managerilor, privite n
mod abstract, fr a ine seama de situaiile ce caracterizeaz fiecare
persoan, i o a doua categorie, ce are ca punct de reper subiecii, privii din
punct de vedere individual, identificnd similitudinile ntre acetia.
O procedur clasic de construcie a tipologiilor este analiza cluster,
o metod cu multe posibiliti de aplicare n studiul pieei forei de munc.
Analiznd piaa purttorilor forei de munc vom avea de a face cu
eantioane de volum normal i, deci, nu se vor putea folosi dect procedurile
de tipologizare aplicabile i la situaii statistice, printre care cea introdus de
Paul Lazarsfeld i procedura rezultat prin reducerea spaiului de atribute.
Spaiul de atribute (property-space) este o noiune construit prin analogie
cu spaiul geometric.
Pornind de la analiza unui numr de s ntrebri dintr-un chestionar,
fiecare cu un numr ri, (i lund valori de 1 la s), un subiect intervievat
reprezint un punct n spaiu s-dimensional, coordonatele lui dup fiecare
dimensiune fiind una din poziiile pe scara de rspuns a ntrebrii respective.
Spre deosebire de spaiul geometric care este continuu i omogen, spaiul de
atribute este format dintr-o mulime finit de puncte (definite de poziiile
distincte) n numr de:
m = r1 x r2 x x rs
Aceste poziii se regsesc n tabelul care asociaz simultan cele s
variabile, aflndu-se la intersecia dintre linii i coloane. Reducerea spaiului
de atribute va nsemna diminuarea mulimii poziiilor pn la un numr
suficient de mic, de exemplu zece, uor de utilizat, fiecare poziie (tip)
avnd o semnificaie clar.
O poziie n spaiul de atribute este, de fapt, una din cele m
combinaii a posibilitilor de rspuns la cele s ntrebri. Reducerea spaiului
de atribute reprezint deci, dup Lazarsfeld, operaia de clasificare ce are
drept rezultat regruparea mai multor combinaii ntr-o singur clas.
Criteriile pe baza crora se decide combinarea ntr-o singur clas, a dou
sau mai multe combinaii, nu sunt definite univoc, intervenind o serie de
consideraii logice i constatri empirice, care coroborate cu scopul

cercetrii conduc n final la un numr mai mic sau mai mare de clase.
Rotariu i Ilu fac cteva obsevaii interesante ce se constituie
totodat drept puncte de reper, observaii fcute pentru prima dat de
Lazarsfeld:
1. ntre cele m combinaii, cel mai adesea exist cteva logic
imposibile, deci care se elimin de la sine.
2. Analiza logic are rol predictiv, iar datele factuale confirm c
anumite combinaii sunt puin probabile, deci numrul managerilor ce apare
n astfel de cazuri este mic, neglijabil.
3. Reduceri ale spaiului de atribute se pot face ndeosebi atunci
cnd se atribuie valori numerice variantelor de rspuns, prin comprimarea n
aceeai clas a combinaiilor ce conduc la sume valorice egale sau apropiate
ca nivel.
4. O anumit variabil poate prezenta o anumit importan, astfel
nct, obinerea unei poziii dup o variabil mai semnificativ, va duce la
neglijarea parial a distribuirii subiecilor dup celelalte caracteristici.
Cazurile 1 i 2 sunt tratate de Lazarsfeld constituind aa numita
reducie funcional, iar cazul 3 este denumit reducie convenional sau
numeric, n timp ce ultimul caz reprezint n opinia sociologului american
reduciile pragmatice, comandate de raiuni ale cercetrii.
n strns legtur cu operaiunea de reducere a spaiului de atribute,
Lazarsfeld vorbete i de operaiunea de substrucie (substruction),
complementar celei de construcie (construction).
Aceast operaiune intervine atunci cnd trebuie analizate tipologiile
folosite n cercetare, n situaia n care construcia acestora nu este clar
explicitat. Substrucia este procedura de reconstituire pentru un sistem de
tipuri dat, a spaiului de atribute ce st la baza lui i reducia ce a fost
implicit folosit.
O alt procedur de construcie a tipologiilor este analiza clusterelor
latente.
7.4.2 Indici compleci, agregai
Asemntor scorurilor finale din scalele de atitudine se pot calcula i

indici compleci, al cror cmp de referin poate iei din sfera realitii
subiective, ca de exemplu, se poate construi un indice al calitii vieii
managerilor intervievai. Apare aici problema condensrii ntr-un singur
indice a unei mulimi de ntrebri ce privesc mai multe dimensiuni ale unui
concept. Nu se vor lua n consideraie eventualele asociaii ntre variabilele
cuprinse n mai multe ntrebri.
Principala problem a indicilor compleci este reducia spaiului
multidimensional la unul unidimensional. Problema a fost abordat de
Arrow care demonstrez imposibilitatea existenei unui indice complex,
ideal.
Principala condiie ce trebuie ndeplinit de un astfel de indice este
ca indicele s fie noncompensatoriu, astfel nct orice variaie semnificativ
a unei variabile ntr-un sens, trebuie s genereze o variaie corespunztoare a
indicelui complex, deci efectul sau asupra ierarhiei s nu fie compensat de
schimbarea n sens invers a altei variabile.
Condiia este dificil de respectat n toate cazurile, deoarece de
nenumrate ori indicii de ierarhizare sunt construii, astfel nct, s
defineasc modul de realizare a acestor compensri.
De exemplu, construind un indice al calitii serviciilor prestate de o
firm de consultan n resurse umane, n care fiecare prestaie este surprins
printr-un punctaj, atunci simpla alegere a managerului firmei beneficiare de
a atribui nota 10 serviciilor de perfecionare a personalului necalificat i nu
celor legate de negocierile cu sindicatele, implic ideea c o firm solicit
serviciile unor firme de consultan pe probleme de formare a personalului
pentru calificare la locul de munc, n aceeai msur cu o firm ce a
rezolvat un conflict sindical ce putea degenera n grev. Evident nu orice
aspect poate fi compensat, trebuind considerate i pragurile unor indicatori
sub sau peste care variaia variabilei nu mai poate fi compensat.
Aspecte de prelucrare asemntoare apar prin cumularea direct a
codurilor sau atribuirea de scoruri intermediare, construind distribuii de
frecvene absolute sau relative, ceea ce permite calculul unor scoruri
sintetice, de tipul scorului mediu, nsoit de indicatorii de variaie sau

asimetrie, cu ajutorul crora se decide, n funcie de nivelul de
reprezentativitate al mediilor, dac pot fi folosite n continuare pentru
efectuarea inferenei statistice.
7.5 Modele de msurare a legturilor statistice pentru datele

calitative
Fenomenele i procesele de marketing studiate statistic sunt extrem

de difereniate, numeroase i variate n timp, spaiu i din punctul de vedere
al modalitii de organizare. Cu ct sunt mai mprtiate n spaiu, de
exemplu, cu att comensurarea statistic a variabilelor de marketing este
mai dificil i mai imprecis, impunnd aplicarea unui sistem de metode
care s carcaterizeze att ansamblul variabilelor, ct i prile acestuia.
Este cunoscut faptul c, pe lng variabilele cantitative pe care le
identificm i le msurm cu uurin, fenomenele de marketing sunt n
marea lor majoritate caracterizate de variabile de natur calitativ ce pot fi
cu uurin identificate, dar care nu pot fi direct msurate n expresii
numerice ce se pot regsi n structura sistemului informaional al firmei i n
cea a subsistemului de marketing.
De regul, variabilele calitative asigur un grad mai mare de
omogenitate unitilor la care se nregistreaz, deoarece cmpul de variaie
al acestora este mult mai restns dect plaja posibilelor apariii ale
variabilelor cantitative.
O prim problem a statisticii este s identifice care sunt variantele
de manifestare a unei variabile calitative i s ntocmeasc nomenclatoare n
vederea obinerii unei scale. Nomenclatoarele vor fi utilizate unitar att la
culegerea datelor, ct i la prelucrarea i analiza acestora. Dac variabila
calitativ are un grad mai mare de complexitate i putem identifica un
criteriu organizatoric de regrupare, atunci pe lng nomenclatorul general se
elaboreaz i nomenclatoare specifice fiecrei grupe. Exemplul clasic
provine din economie: exist un nomenclator al ramurilor de activitate din

economia naional i cte un nomenclator al subramurilor.
Pe baza nomenclatoarelor elaborate se pot centraliza datele
nregistrate i se pot obine distribuii de frecvene, de ponderi. Dac
ponderile categoriilor sunt foarte diferite se vor elimina acele categorii cu
ponderi nesemnificative. Nomenclatorul se poate revizui n urma organizrii
de sondaje i studii periodice pe eantioane extrase din aceeai populaie de
consumatori.
Pentru a trece la aplicarea modelelor de msurare a asociaiilor dintre
variabilele calitative se caut posibilitatea cuantificrii acestora conform
teoriei scalare. Cel mai simplu caz este cel al variabilelor binare, ce se
cuantific prin 0 i 1. O a doua categorie de variabile calitative o constituie
cea a celor cu variante de rspunsuri conform unei scale ordinale, care pot fi
ierarhizate, pe baza creterii intensitii coninutului rspunsurilor de la un
respondent la altul, dup o scal liniar. n acest caz problema cuantificrii
este rezolvat prin metoda rangurilor.
Pentru aceste dou categorii metodele statistice de msurare a
existenei, intensitii i formei legturilor statistice sunt metodele
parametrice i nonparametrice de regresie i corelaie
O a treia categorie de variabile calitative, n afara celor ce pot fi
transformate ntr-o variabil binar, sau a celor ce pot fi ierarhizate, este
categoria variabilelor pur calitative, pentru care categoriile nregistrate nu
admit nici o posibilitate de ordonare a rspunsurilor i n consecin de
cuantificare.
Acestea pot fi centralizate cu ajutorul nomenclatoarelor i/sau pot fi
considerate ntr-o analiz statistic drept caracteristici independente,
factoriale sau pot fi analizate ca variabile dependente doar prin modele de
asociere.
Metodele calitative utilizate pentru explicarea fenomenelor pieei pot
identifica structuri de pia i relaiile dintre acestea cu scopul formulrii
premizelor necesare descrierii pieii. Studiile calitative efectuate naintea
cercetrilor cantitative au ca scop stabilirea naturii i structurii populaiei.
Studiile calitative ce urmeaz celor cantitative pot explica motivele apariiei
diferenelor semnificative ntre grupurile analizate.
Utilitatea colectrii datelor calitative - softpoate fi rezumat prin:

- Obinerea informaiilor de baz n cazul lipsei totale de
informaii.
- Definirea problemei i formularea ipotezelor ce urmeaz s fie
testate;
- Identificarea conceptelor de baz n cazul lansrii unui nou
serviciu sau produs.
- Identificarea modelelor de comportament al atitudinilor i
structurii eantionului.
- Posibilitatea clarificrii motivaiilor apariiei diferenelor statistic
semnificative ntre structurile (clasele) eantionului.
- Explorarea domeniilor sensibile pentru orice firm.
Modelele calitative de investigare a pieei nu sunt clar definite, fiind
mprumutate din tiinele sociale i umaniste, iar succesul lor se bazeaz mai
ales pe experiena cercettorului.
Procesul fiind pur subiectiv apare problema nivelului de
reprezentativitate i de ncredere asigurat de modelele calitative. Unul dintre
factorii principali ce asigur utilitatea cercetrii calitative este natura
dinamic, exploratorie a investigaiei. n timpul interviului, cercettorul
particip pe mai multe niveluri, din punct de vedere intelectual:
- ascult i accept datele ce sunt prezentate;
- proceseaz datele i formuleaz ipoteze;
- testeaz aceste ipoteze n timpul discuiei prin ntrebri de
verificare;
- nregistreaz mental nuanele, subtilitile limbajului, gesturile
decidentului intervievat.
Abordarea calitativ pare mai potrivit n cazul eantioanelor
formate din uniti neomogene, firme organizaii, mai puin disponibile n
a furniza simple date cantitative, ce pot fi considerate confideniale. n acest
caz disponibilitatea managerului de a oferi informaii crete o dat cu
creterea nivelului su de ncredere n operatorul de interviu.
Desigur, abordarea intelectual a interviului va trebui s fie
multidimensional pentru a putea oferi un nivel acceptabil de nelegere a
fenomenului de ctre beneficiarul studiului decidentul care reprezint

firma de consultan n resurse umane, n cazul de fa.
Procedurile statistice, ce se aplic fie pentru analiza variabilelor
calitative, fie pentru analiza celor cantitative, pornesc de la ideea existenei
unei variabile condiionate, considerat ca factor explicat, x, (sau mai multor
variabile de acest tip) de ctre una sau mai multe variabile, considerate
factori explicativi, y (cauz).
Influena statistic const n reducerea variaiei unei variabile, atunci
cnd se cunoate poziia indivizilor dup o alt variabil, reducndu-se
astfel gradul de nedeterminare.
Modele incluse n aceast scurt prezentare se disting dup natura
variabilelor, cantitative sau calitative, fiind de msurare a asociaiilor sau
gradului de corelaie, dup numrul variabilelor implicate, corelaii simple
sau multiple, i dup forma legturilor matematice dintre ele, liniare,
curbilinii etc.
Cel mai simplu model este reprezentat de construcia tabelului de
contingen sau asociere, ntre dou variabile calitative, sau categoriale,
dintre care, una este presupus a fi un factor determinant pentru cealalt
variabil.
De exemplu, se poate msura nivelul de asociaie dintre ocupaie
(pe care o putem nota cu A) i atitudinea persoanei intervievate fa de
necesitatea plii sporului de vechime (B), de exemplu. Pe total eantion,
distribuia subiecilor dup atitudine are o form asemntoare sau nu, cu
forma de distribuie pe fiecare grup ocupaional. Relaia poate fi de
cauzalitate sau doar de covarian a seriilor de distribuie.
Dac distribuiile condiionate difer semnificativ unele de altele
(raportul de determinaie R2 este mai mare de 0,5) i difer de distribuia
marginal, atunci ocupaia explic din punct de vedere statistic variaia
atitudinii fa de plata sporului de vechime. Cu ct comportamentul i
atitudinea este mai diferit pe diferite grupe ocupaionale, cu att putem
afirma c ocupaia explic mai mult, adic are o mai mare valore predictiv
pentru variaia atitudinii.
Pentru msurarea statistic a nivelului de cauzalitate se pot folosi
mai muli indicatori statistici, neexistnd cel mai bun indicator, folosit n
orice condiii, pentru orice tip de variabile i de legturi. Acetia ar putea fi

clasificai n coeficieni simetrici, utilizai pentru a sugera nivelul general de
legtur dintre cei doi factori, sau pentru calcule de analiz mai complexe i
coeficieni asimetrici, n sensul c iau o anumit valoare dac A este
presupus anterior lui B, i o alt valoare n situaia invers.
Dac se urmrete analiza legturii dintre mai multe variabile este
necesar realizarea analizei multivariate. Dac n plus, una dintre variabile
sau amndou sunt calitative, analiza presupune construcia tabelelor cu mai
multe dimensiuni. Statisticienii au demonstrat c, dac n relaia unei
variabile factoriale A cu o variabil rezultativ B, se introduce o a treia, C,
denumit variabil test, atunci asocierea general dintre A i B apare ca
sum a asociaiilor pariale ale celor dou variabile, n fiecare clas a lui C,
plus un termen ce se formeaz din produsul asocierilor lui A cu C i lui B
cu C.
Interpretare:
Dac primii termeni ai sumei sunt nuli, (sau tind la 0), atunci
legtura dintre A i B este datorat exclusiv factorului C. Factorul C poate
fi: a) anterior ambilor factori analizai (caz n care ipoteza existenei unei
legturi ntre A i B a fost fals n totalitate); b) intermediar, i atunci
influena lui asupra lui B se transmite n ntregime prin intermediul
factorului C.
Dac primii termeni ai sumei sunt diferii de zero, atunci
introducerea variabilei test C, nu modific relaia dintre variabilele A i B.
Dac relaiile pariale n grupele variabilei C difer semnificativ
unele de altele, nseamn c legtura lui A asupra lui B difer dup starea lui
C, existnd o interaciune a factorilor A i C asupra variabilei B.
Analiza este mult uurat de posibilitatea folosirii pachetelor de
programe de tip SPSS pentru variabile calitative, ce utilizeaz de exemplu,
analiza loglinear, care centrndu-se pe frecvenele din tabele
multidimensionale, evideniaz relaiile dintre factori i efectele interaciunii
dintre ei.
7.6 Modele de msurare a legturilor pentru datele cantitative
n comparaie cu modelele calitative cele cantitative se afl la

antitez, prin abordarea sistematic i rigid pe care o propun. n domeniul
explicrii fenomenelor pieei, metodele cantitative propun modele
universale, ce permit identificarea structurilor cheie i a legturilor
stohastice manifestate, utiliznd pentru msurare diferite tipuri de scale.
Datele cantitative sunt privite ca date hard ce pot fi supuse testelor
statistice de verificare a ipotezelor formulate n cadrul cercetrii calitative,
care permit calculul erorilor i estimarea intervalelor de ncredere garantate
cu o anumit probabilitate i asigur o bun reprezentativitate a populaiei
studiate. Principalul dezavantaj al cercetrii cantitative este imposibilitatea
studierii n profunzime a fenomenului. De aceea marea majoritate a studiilor
combin modelele calitative cu cele cantitative.
Pentru studiul legturilor dintre variabilele cantitative spunem c
dou mrimi aleatoare, ale cror valori sunt nregistrate x si y, formeaz o
corelaie, dac sperana matematic a uneia dintre ele variaz n funcie de
variaia celeilalte. Intensitatea legturii dintre mrimile aleatoare x i y se
caracterizeaz (n cazul respectrii premiselor de liniaritate a legturii) prin
coeficientul de corelaie (x, y). Dac (x, y) = 0, se spune c mrimile x i
y nu sunt corelate. Dac (, ) = 1, avem o dependen funcional liniar.
Analiza corelaiei permite s se estimeze cantitativ legturile dintre
un mare numr de fenomene economice interdependente. Aplicarea ei face
posibil verificarea diferitelor ipoteze economice cu privire la prezena i
intensitatea legturii dintre dou fenomene sau din cadrul unui grup de
fenomene fiind strns legat de analiza de regresie.
7.6.1 Analiza de regresie
Studiind legtura dintre dou variabile cantitative se calculeaz

coeficienii de regresie, raportul de corelaie i, dac legtura este liniar, i
coeficientul de corelaie liniar simpl. Se studiaz n general legtura dintre
o variabil factorial i una rezultativ, presupunnd ceilali factori
constani.
Analiza unor forme de legtur, care determin relaii cantitative

ntre mrimile aleatoare ale unui proces aleator studiat. n acest sens, teoria
regresiei constituie o parte a teoriei corelaiei.
Fie X = xi; Y = yj; i = 1, 2, , n; j = 1, 2, , m sunt nite mrimi
aleatoare cu repartiia p(xi, yj). Prin definiie, se numete regresia lui Y n X
funcia:
m
y ( x ) = M (y / x ) = y j p y j / x .
j =1
unde x este una dintre valorile unitilor din eantion x1, x2, iar
M(y/x) (x, y)
Sperana matematic condiionat a mrimii aleatoare n cazul unui x
fixat. Variindu-l pe x ca pe un parametru, vom obine n planul variabilelor
locul geometric al centrelor repartiiilor condiionate, numit curba de
regresie a lui Y n X. Dac vom schimba locul variabilelor, vom obine
curba de regresie a lui X n Y.
y (x)
Ca estimaie a msurii abaterii mrimii aleatoare fa de centru se
adopt mrimea dispersiei condiionate:
Y
x
yj
x
Y2 / x = D = ( y j y ( x) 2 p
j =1
n teoria corelaiei ecuaia de regresie se folosete pentru rezolvarea

problemei de prognoz a modificrii mrimii aleatoare Y pe baza datelor
unui experiment sau a unor observaii x1, x2, , xn. Precizia prognozei se
estimeaz cu ajutorul mediei dispersiilor condiionate:
n
Y2 / x = M [Y y ( x)]2 = p( xi ) Y2 / x.
i =1
Funcia de regresia y(x) posed proprietatea de extremum n virtutea

creia media ptratic a abaterilor a mrimii y fa de y(x) va fi mai mic
dect pentru orice alt funcie f(x), diferit de funcia y(x). Pe aceast
proprietate se ntemeiaz metodele de construire a modelelor sistemelor
economice, care corespund, n mod optim, mulimii corespunztoare de date
experimentale.
y ( x) = x + x,
Y2 / x
Funcia de regresie cea mai simpl este cea liniar unde coeficienii
x si se calculeaz prin metoda celor mai mici ptrate, pornind de la
condiia de minimizare a funciei erorii:
n
f ( x, ) = M (Y x x) 2 =
i =1
p( x
j =1
i,
y j )( y j y ( xi )) 2 .
Se tie ca f (x, ) atinge valoarea sa minim pe dreapta.
y ( x) = a y +
y
( x a x ),
x
Unde ax, ay sunt mrimile aleatoare medii X, respectiv Y. Ecuaia de

regresie obinut, Y n X este aproximativ. Schimbnd locurile variabilelor
n ecuaie, vom obine ecuaia dreptei de regresie aproximativ X n Y:
X = ax +
x
(Y a y ).
y
Coeficienii se numesc coeficieni de regresie, iar - coeficient de

corelaie.
Alegerea funciei de regresie depinde de caracterul procesului aleator
studiat.
y/x =
, x /Y = x
x
y
Pentru procese mai complexe se construiete un model de regresie

liniar multipl:
n
y ( x) = a 0 + ai xi .
i =1
Aici, ca i n cazul construirii modelului de regresie pentru o singur

variabil, problema se reduce la determinarea coeficienilor a0, a1,an prin
minimizarea funciei erorilor:
2
f (a 0 , a1 ,..., a n ) = M Y a 0 ai xi .
i =1
Problema minimizrii se rezolv prin metoda celor mai mici ptrate.

O generalizare care permite studierea unor procese mai complexe
este extinderea procedeelor, expuse mai sus, la probleme de regresie
multipl, de pild, pentru un model nominal de ordinul al doilea:
n
y ( x) = ai xi + aij xi x j .
i =1
i =1 j =1
Pentru caracteristicile cantitative, exist proceduri clasice de analiz

a legturilor multiple prin regresia multipl. Pentru un numr de n variabile
x1,xn, fiecare individ dintre cei n intervievai, va primi cte o valoare dup
fiecare variabil, deci va putea fi reprezentat ntr-un spaiu n-dimensional.
Considernd y1, ca variabil dependent se va alege, n funcie de ipotezele
considerate, funcia de n parametrii.
y1 = f (x2,.xn) + ,
Parametrii ce se vor stabili prin metoda celor mai mici ptrate, astfel
nct, s aproximeze cel mai bine poziia subiecilor, marcat de graficul
norului de puncte. Pentru estimarea tendinei legturii, n practic, se
folosete cel mai des, dac numrul datelor analizate este suficient de mare
pentru exprimarea tendinei, funcia liniar. Ecuaia regresiei liniare este:
y1 = a + (b2 x2 + . + bn xn) + ,
Reprezentnd un hiperplan n spaiul n-dimensional. Orice coeficient
bi, arat cu ct se modific y1, dac variabila xi se modific cu o unitate.
Coeficienii de regresie, b, nu pot fi comparai deoarece variabilele xi pot fi
diferite, exprimate n uniti de msur diferite.
Pentru a realiza compararea coeficienilor funciei de regresie, adic
a compara factorii n funcie de importana lor n influenarea variabilei x1,
se calculeaz coeficienii de regresie standardizai, coeficienii beta, .
Valoarea acestora arat care este legtura dintre variabila independent i
valorile ajustate xi. De aceea, orice ecuaie de regresie trebuie nsoit i de
indicatorul care exprim eroarea medie a aproximrii variabilei dependente.
Dezavantajul regresiei const n faptul c nu ia n consideraie relaiile
dintre variabilele ce sunt considerate independente.
Valorea coeficienilor de regresie se bazeaz pe coeficienii de
corelaie parial, care sunt indici simetrici, adic nu presupun c o variabil
este dependent i alta independent una fa de alta.
Legturile statistice implicate n modelele de regresie se afl la baza
modelelor complexe, care introduc relaii de influen simultan a mai
multor variabile asupra celei rezultative, sau caut posibiliti de definire a
unor noi factori de influen, ce pot fi interpretai ca factori sintetici
(fiind considerate variabile finale) sau latente (cele considerate a avea
influen ca factori intermediari). Un astfel de procedeu este analiza path.
Acest metod utilizeaz un set de r factori, exprimai cantitativ, ntre care
se stabilesc relaii de dependen. O variabil xi poate fi considerat
dependent ntr-o ecuaie i independent ntr-o alt ecuaie, evitndu-se
cauzalitatea circular. Coeficienii path indic influena direct a variabilei
independente asupra celei dependente, fr a se evidenia influena
transmis prin intermediul altor variabile.
Corelaia multipl stabilete intensitatea legturii dintre mrimea
aleatoare i un grup de mrimi aleatoare x1, x2,, xn, coeficientul de
corelaie multipl:
R =
D
D
Arat intensitatea legturii (D este determinantul matricei de

corelaie a mrimilor y, x1, x2, , xn; D reprezint acelai lucru, ns pentru
mrimile x1, x2, , x). Dac R = 0, nu exist legtur.
7.6.2 Elemente de analiz a varianei
Analiza dispersional, sau ANOVA, este o alt seciune a statisticii

social-economice care se ocup cu analiza rezultatelor unor observaii
depinznd de factori diferii ce acioneaz concomitent, cu alegerea
factorilor celor mai importani i cu estimarea influenei lor.
S examinm un exemplu tipic. Presupunem c la studierea unui
anumit fenomen, in condiii diferite, s-au obinut nite date statistice.
Problema const n a stabili dac fenomentul studiat depinde de condiiile n
care s-a efectuat observarea i, dac depinde, cum anume. Rezultatul
observaiilor poate varia att datorit condiiilor n care s-a efectuat
observarea, ct i datorit unei anume influene ntmpltoare. Influena
condiiilor observrii se exprim sub forma unui anumit factor, iar influena
ntmpltoare, sub forma unei anumite mrimi aleatoare, care are o repartiie
normal (ipoteza fundamental a analizei dispersionale). n general, factorul
este o mrime aleatoare necunoscut. Dar, n majoritatea covritoare a
problemelor practice, prin factor se nelege un numr constant necunoscut,
adic se analizeaz aa-numitele modele cu factor constant.
S admitem c avem r grupe de observaii, fiecare fiind obinut n
anumite condiii. S presupunem c pentru grupa i, care conine n numere,
orice observaie este format din urmtoarele componente:
este factorul comun pentru toate grupele;
I factorul propriu numai grupei i de observaii; xI mrimea
aleatoare care are o repartiie normal, adic pentru grupa i presupunem
existena egalitii:
yI = + I + xI
unde yI reprezint orice observaie corespunztoare grupei i, (i =1,2,,m).

Sarcina analizei dispersionale const n a estima raportul dintre
factorii , I pentru a stabili dac deosebirile dintre grupe sunt eseniale sau
neeseniale. Faptul dac deosebirile dintre grupele de observaii i i k sunt
eseniale sau neeseniale se stabilete prin compararea numerelor I si k.
Am prezentat un model unifactorial de analiz dispersional. Mult mai
complex este modelul bifactorial:
yij = x + I + j + ij.
Acesta poate fi aplicat atunci cnd observaiile se clasific dup
factori diferii. S admitem c dup primul factor toate observaiile se mpart
n m grupe (A1, A2, ..., Am), iar dup al doilea n n grupe (B1, B2, ..., Bn).
Atunci ij reprezint orice observaie care se refer, dup primul factor, la
grupa AI, iar dup al doilea, la grupa Bj; este factorul comun pentru toate
observaiile; i factorul corespunztor grupei Ai; j factorul
corespunztor grupei Bj; ij mrimea aleatoare care are o repartiie
normal.
Una dintre problemele care se elucideaz cu ajutorul modelului
bifactorial poate fi urmtoarea: care dintre factori primul sau al doilea
exercit o influen esenial asupra fenomenului studiat? Dac, de pild,
i = 0 (i = 1, 2, , m), atunci primul factor se consider neesenial. n mod
analog se poate scrie n model trifactorial, tetrafactorial, .a.m.d. Estimrile
factorilor se afl dup metoda celor mai mici ptrate.
O alt metod extrem de des utilizat pentru analiza datelor primare
i secundare, ntr-o cercetare de pia, este analiza factorial. Ideea de la
care se pornete este aceea c numrul de factori de influen este relativ
redus. La limit, cnd setul de ntrebri este omogen, putem presupune c
exist un singur factor de influen, de pild intuiia sau inteligena, sau
uneori vrsta.
Evident, sunt puine cazurile n care este posibil determinarea unui

singur factor de influen, metoda utiliznd ierarhizarea factorilor i
gruparea mulimii ntrebrilor.
7.6.3 Principii de analiz factorial
Analiza factorial. este un domeniu al statisticii social-economice, n

care se studiaz structura matricelor de covariaie i de corelaie. S
presupunem c mrimile aleatoare supuse observrii (x1, x2, , xn) se
subordoneaz unei repartiii normale multidimensionale cu matricea de
covariaie (Cij). n analiza factorial ipoteza fundamental este egalitatea:
r = 1
ir
; ( i
1 , 2 ,...,
unde:
fr reprezint factorul simplu r;
k numrul de factori care urmeaz a fi aflat;
i elementele reziduale, care reprezint sursele de abatere, ce
acioneaz numai asupra mrimii i.
Mrimile aleatoare i se presupun independente att ntre ele, ct i
fa de acele k mrimi fr.
Coeficientul lir se numete de obicei sarcin a factorului r.
Dispersiile mrimilor aleatoare i le notm prin i. Toate mediile se
presupun egale cu 0.
Determinarea valorilor parametrilor lir, precum i i alctuiesc baza
analizei factoriale.
n practic prezint interes, de pild, urmtoarea problem: pentru
mrimile de sondaj observate x1, x2, , xn s se estimeze valoarea factorilor
ipotetici f1, f2, , fk i s se exprime aceti factori ca funcii liniare de
variabilele x1, x2, xn. n cazul de fa nu se poate aplica metoda obinuit
a celor mai mici ptrate, deoarece nu ne sunt cunoscute valorile adevrate

ale factorilor fr.
Metoda de estimaie a valorilor factorilor pe baza variabilelor
observate x1,, xn a fost pentru prima dat preconizat de ctre Thompson
n anul 1951 i denumit metoda regresiei.
n cercetrile economice, orientrile cu cele mai multe perspective n
domeniul utilizrii metodei analizei factoriale sunt:
reducerea numrului de indicatori care caracterizeaz esena unui
anumit fenomen economic fr o pierdere substanial de
informaie;
obinerea unor indici sintetici pentru caracterizarea unui fenomen
economic;
clasificarea unor obiecte economice, caracterizate printr-un set de
caracteristici independente;
construirea i verificarea ipotezelor cu privire la esena unui
fenomen economic.
Indiferent de faza n care se afl prelucrarea statistic a datelor,
deoarece indicatorii calculai s-au obinut pe baza datelor din eantion,
acetia trebuie supui testelor de semnificaie, pentru a stabili n ce msur
difer de zero sau de alt valoare de comparaie, cu scopul evident de a
efectua inferena statistic, de a putea estima pe baza lor, indicatorii ce
caracterizeaz populaia studiat.
Statistics for Marketing and Business Administration
7. 6 Summary. Analysis of the research data for the Statistical

Inference
Basic principles of the statistical inference

The basic principles of the statistical inference obtained as a result of
the analysis of the research data, involves also the notions of experiment,
result, sample space, event and probability.
The idea of an experiment includes examples such as tossing the
coin, counting the number of the employees or asking a firm's manager
about the profit or loss. These experiment have possible answers, with
countable or uncountable number, which form the research space. For
example, a company may achieve negative profit, meaning loss, zero profit,
or positive profit, meaning an income, all these categories represent the
results. The sets made of the same categories are constituting the event.
In the research's theory the results of a large number of experiments
are the primary data. In certain cases we can suppose that each result is
independent of the previous one, in the same way the number of a dice is
independent from the number of tossing. Under the condition we know the
probability mechanism, we are able to compute the appearance probability
of each result. The research theory is interested in applying the probability's
theory for primary data sets.
If following the achievement of an experiment several times, a
sequence of results is recorded, by dividing the appearance frequency of an
experiment A (as long as a person with positive or zero income is recorded,
meaning a person who suits the solvability event) to the total number of
persons in the sample (experiment number), the result will be an estimation
of the appearance probability of the event A. The more the number of the
experiments is increasing, meaning an increase in the sample size consisting
in homogenous or complex, non-homogeneous units, the more the
appearance probability is increasing for event A, going to 1.
In mathematical terms, if x1, x2, .., xn is a sequence of financial
results of the companies and A an event, denoting by N (x1, x2, .., xn,, A)
the frequence of appearance of the event A from the first n experiments and
Statistic for Marketing and Business Administration
n goes to infinit, then N (x1, x2, .., xn,, A) / n represents a probability that
leads to 1.
Although the Law of Large Numbers specifies that the researcher
will reach a correct answer after a number of experiments, it does not
specifies how close heor she is to the correct answer after a number of
experiments, or recordings. In certain conditions, the statistical methods
may be used for estimating errors that can be caused by repeating an
experiment for a determined number of times.
The totality of the variables by a which a certain market
phenomenon is studied, constitutes the space of attribute (property-space),
of the phenomenon's characteristics. The operations made with the help of
attribute space aim a more detailed elucidation of the relation between the
variables and the theoretical concepts. Diminishing the attribute space by
combining the categories and eliminating some subdivisions, allows the
achievement of models belonging to the market phenonmenons.
Instead, the operation for substracting consists in following: from the
model it goes to elaborating an attribute space involved in that model. The
space for attribute is used for comparing the operational schemes used in
research, and for finding a posible common point of these empirical reseach
schemes.
If the events are A1, A2, .,An, with the appearance probabilities, (the
appearance frequencies) denoted by the vector P(Ai), i=1, ,n , the
appearance probability of all the events will be P(A1) . P(A2) . .P(An). The
independence's analysis is applied to statistical investigations in which the
data are wrong because of repeating the same elementary operations, each
recording being made independently of the others.
Research errors
It is considered as being a research error the deviation (gap) between
the values obtained by processing the primary data and the results that
would have been reached if a total observation were organized. From the
point of view of the error control's possibilities, according to the market
research literature, the errors are grouped in two large groups:
Errors that can be forecast: these are controllable and have as result
the statistical measurements of the continuous data and the adjustments
made for obtaining discrete results according to the content of statistical
characteristics, though they are possible-or research and computation- both
types can be estimated and their effects controlled. Through mathematical
operation for adjusting the recorded values, errors are induced which will be
modified if the adjustment continues in the analyzing step.
As a result we may say that the data is adjusted because of the
following reasons: if the observed characteristic is continuous in certain
cases the adjustment is necessary for expressing the magnitude of the data
(usually only two decimals are kept).
For discreet characteristics the adjustment targets to follow their
entire character. Errors that cannot be forecast:these are incontrolable and
are due to incomplete or incorrect recording, ambigouse defining of the
characteristics or statistical units that are studied.
The error control has as purpose to discover the errors of observation
and to ensure the authenticity of the statistical data, and refers to controlling
the size of recorded data, arithmetic and logic control.
A part of the errors are due to the interviewer. The most important
sources for answering errors due to interviewers are:
The operator's characteristics, for example a training level too low or
too high that makes him do sistematis mistakes, or to induce the interviewed
persons a certain influence over the answer because of their personal
opinions. The operator's anticipacions that determines them to suggest
certain answers to subjects. The opeartor's fraud appears in very few cases
and can be discovered through pilot research of reinterviewing
Other important sources for errors that may be avoided are: the size
of the questionniare that may cause the tiredness of the operator and of the
interviewed subjects; a larger number of open questions that leads to
difficulties in the postcoding operation; the questions' content, specially the
personal ones may lead to answering errors; formulating the question,
especially the use of ambiguous words, with multiple understandings; the
place and time of the interview, and last but not least, the interest or
incentives degree of the interviewed person.
Statistical Estimation
Point Estimation
We can identify two types of estimation of the population parameters
by a sample statistics: point estimation and interval estimation. This
section presents some definitions associated with estimation. Samples may
be used to estimate population parameters, such as and , which represent
the population mean and standard deviation, or other population
characteristics such as the median or other quintiles. Estimates may take the
form of a single number, called point estimate, or an interval of values,
called interval estimate.
A point estimate is a single number that is used as an estimate of a
population parameter or a population characteristic. Usually a point estimate
is derived from a random sample selected randomly from the population of
interest.
An interval estimate is an interval that provides an upper and lower
boundary for a specific population parameter whose value is unknown. This
interval estimate has an associated degree of confidence of containing the
population parameter possible values within a class. Such interval estimates
are also called confidence intervals and are calculated for random samples
parameters.
A part of the errors are due to the operator.
The most important are:
a) The characteristics of the operators, such as the education level
which may be lower or higher, so they might have systematical mistakes or
might influence the answer of the interviewed persons.
b) The anticipations of the operators that determine the subjects to
have specific opinions.
c) The fraud of the operators that is rare and may be tracked down
using the pilot surveys.
Other important sources of errors which could be avoided are the
length of the questionnaire which might cause the tiredness to the
interviewed subjects and to the operators, the majority percentage of the
open questions which will cause difficulties in post codifying procedure, the
content of the questions especially the personal ones which might cause
answering errors, the wording questions especially the usage of ambiguity
words, with more meanings, the place and the time of the interview and last
but not least the interest level or co interest of the subject.
Survey Errors Estimation

We saw that the theory of errors is a consecrate part of statistics
concerning the numerical determination difficulties of approximately
measurements quantities, of their true values estimation and the accuracy of
the measurements which deals with the results of the measurements x1,
x2xn, obtained on the basis of experiments or observations, repeated, with
respect to the same conditions.
The fundamental tasks for theory of errors are the definition of the
repetition rules of the random errors, the achievement of the estimations of
the unknown measurable quantities on the basis of some repeated
measurements and the computation of these estimations.
The estimation of the accuracy of the measurements is: the square
mean error , called standard error and the dispersion of error 2.
Admit that represents the size of the standard diversion or the
medium square error. For the given conditions of the normal repetition rule
of random errors z, the probability that they will fit the interval (1, 2) is

P ( 1 z 2 = 2 1 (7.1)

computed with respect to the formula (7.1)
Where (t) represents the probability function.
For the random error probability to be outside the interval,
respecting the limits t(t>0), should be computed on the base of the
formula P (z>t)=1-1(t). As an example the probability that the random
error to be outside the limit 3, P (z>3) = 0, 0027, meaning that the

probability of passing out the limit is very low.
As an estimation of the unknown quantity a will be assigned the
following arithmetic mean: from the results of measurements (7.2):
x=
1 n
xi
n 1=1
(7. 2)
The estimation of the true value a of the measured quantity contains

the determination of the function g(x1,x2xn), which gives a good
approximation of the quantity a and of the limits of the confidence interval
(g), meaning the interval with a confidence probability that covers the
true value a.
This estimation must possess the property of no biased, of
consistency and of efficiency. If all n measurements of a quantity have the
same accuracy, then the true value is determined by formula (7.2).
In this case the estimations are not biased, consistent and efficient, if
the distribution of errors satisfies the normal rule. In case of the given
quantity of P and in the case of an unknown accuracy of the measurements,
the estimation of confidence has the following structure (7.3).
a x < t (p, k )
s
n
(7.3)
Where n represents the number of measurements, k=n-1 the

number of free levels and S- is the standard error computed on the basis of
the formula (7.4.):
2
S=
n
1 n
x i x = S
n
1
n 1 i =1
(7.4)
The values of the function t (P,k) are given in the built up table on
the basis of Student repartition.
a x
The necessary number of n measurements in order to obtain the

confidence estimation of a given accuracy
The data P is determined, for sure, by the expression of the volume
of the sample (7.5.):
2
n t (P ) 2 ,
(7.5)
Where t = t(P) might be computed from the 2(t) = P equality (using

the table for the function (t)).
In order to obtain the confidence estimation with P=0,99 is necessary
to compute n=668 measurements. In order to found out the non- random
origin of the difference between the medium values x1 and x2, which were
obtained by two trying series n1 and n2 , in case of unknown dispersions is
necessary to compute the quantity (7.6).
t=
x1 x 2
S 1 / n1 + 1 / n 2
(7.6)
Where:
S=
(n1 1)S12 + (n 2 1)S22 ,

(n1 1) + (n 2 1)
2 s2 =
1 n
2
(x i ) ,
n i =1
(7.7)
The estimations of the accurate measurements will be computed

assuming the hypothesis that the errors are random and they are
subordinates of the normal rule of repetition (7.8.), where a is known
quantity and 2 might be written pursuant to (7.9.)
2 s2 =
1 n
2
(x i )
n i =1
(7.8)
2 S2 =
1 n
x i x
n 1 i =1
(7.9),
where x is the arithmetic mean of the measurements of quantity a.

The confidence estimation of square medium error (in the case of
great number of measurements) is given by the interval:
S(1 q) < < s(1+q), where q = q (P, k) is computed on the basis of the
table for the estimation of , whose entrances are P and k- number of free
levels. In the case of a great number of measurements the arithmetic mean
of empirical dispersions is assigned as the estimation of dispersion, meaning
(7.10.)
2
1 m 2
S1 ,
n i =1
(7.10)
where,
m: the number of the series of measurements.
The answer dispersion and also the sampling dispersion might be
estimated on the basis of the sampling results. If the individual answering
errors are independent, they will compensate by mean and appear in the
formulas of sampling variance estimation. In case of the answer dispersion
due to recording errors, if each operator produces a systematic distortion,
even if these are mutual compensating, it will take place an increase of the
overall dispersion.
Here comes a component of the answer dispersion, which will
generate the necessity of modification the formulas of computation of the
sampling dispersions.
So, if r operators extracted randomly out of the total R operators of
interview, then this will interview n persons, which will constitute a simple
random sample. If i operator produces a net distortion b1, we will define the
total distortions produced by the operators, such as (7.11):
2
b2 =
1 R
(b b ) ,
R 1 r =1 i
where b is the net distortions mean.
(7.11),
Moser notes that the dispersion of estimation one randomly x

characteristic is (7.12):
V( x ) = 2x / n
(7.12)
For this should be added the answer dispersion which is the result of
the errors of the operators, and the formula (4.2.12) becomes (4.2.13):
V (x) =
x2
1
+ b2 1
r
n
(4.2.13)
from where we can imply that the sampling dispersion is composed of two
parts with the meanings:
2x / n -represents
the sampling dispersion and the second part:
and
1
2b 1 , represents the variance due to the operator
r
Concerning the estimation the situation is not clarified: the

dispersion might be estimated but not the distortion.

Inferenta Statistica PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Inferenta Statistica PDF

Încărcat de

Drepturi de autor:

Formate disponibile

7

Analiza datelor de sondaj pentru

7.1 Principii de baz ale inferenei statistice

Statistic pentru studii de marketing i administrarea afacerilor

Dac n urma unei cercetri se nregistreaz doar informaii pariale,

Statistic pentru studii de marketing i administrarea afacerilor

caracteristicilor economice, de pia, politice i de alt natur ale

Statistic pentru studii de marketing i administrarea afacerilor

fiind faptul s sociologul nu o mai poate suplini printr-un recensmnt

Statistic pentru studii de marketing i administrarea afacerilor

utilizate pentru estimarea erorilor ce pot fi fcute prin repetarea unui

Statistic pentru studii de marketing i administrarea afacerilor

Dac evenimentele sunt notate prin vectorul A1, A2, .,An, cu

7.2 Erorile de sondaj

Statistic pentru studii de marketing i administrarea afacerilor

redus i pot fi corectate cu uurin. Erorile sistematice pot fi evitate dac se

Statistic pentru studii de marketing i administrarea afacerilor

De aici i necesitatea abordrilor complexe (a msurtorilor

Statistic pentru studii de marketing i administrarea afacerilor

Statistic pentru studii de marketing i administrarea afacerilor

c) frauda operatorilor apare n foarte puine cazuri i poate fi

Statistic pentru studii de marketing i administrarea afacerilor

Scopul acestor sondaje de calitate este evidenierea caracterului eronat al

Statistic pentru studii de marketing i administrarea afacerilor

Probabilitatea ca eroarea aleatoare s fie n afara intervalului dat,

Estimaia valorii adevrate a a mrimii msurate cuprinde

Unde n reprezint numrul msurrilor, k =n 1 numrul gradelor

Statistic pentru studii de marketing i administrarea afacerilor

Valorile funciei t (P,k) se dau n tabelul construit pe baza repartiiei

se determin prin expresia volumului

unde t = t(P) se afl din egalitatea 2(t) = P (prin utilizarea tabelului

Statistic pentru studii de marketing i administrarea afacerilor

Estimaiile preciziei msurrilor se efectueaz pornindu-se de la

unde x este media aritmetic a msurrilor mrimii a.

unde m este numrul seriilor de msurri.

Statistic pentru studii de marketing i administrarea afacerilor

unde b este media distorsiunilor nete.

La aceasta trebuie adugat dispersia de rspuns rezultat din erorile

De unde rezult c dispersia eantionrii este compus din dou

x2 / n reprezint dispersia eationrii

exprim variabilitatea operatorului.

7.3 Estimarea statistic

Scopul calculrii indicatorilor sintetici ai datelor nregistrate, ca de

Statistic pentru studii de marketing i administrarea afacerilor

Pentru a caracteriza i a identifica ceea ce este esenial pentru datele

i estimatorul se spune c este nedistorsionat;

Ceea ce combin n mod arbitrar variabilitatea estimatorului cu

Statistic pentru studii de marketing i administrarea afacerilor

Un factor de influen n alegerea estimatorului nedistorsionat de

Momentele unei familii de funcii de distribuie sunt funcii ale

Dac media populaiei se calculeaz conform relaiei (7.5):

atunci valoarea medie pentru eantion va fi:

Statistic pentru studii de marketing i administrarea afacerilor

Metoda verosimilitii maxime

Maximum likelihood method este o metod cu aplicabilitate, mai

Pentru distribuii continue vom maximiza funcia de verosimilitate

dispersia calculat conform (7.7):

Statistic pentru studii de marketing i administrarea afacerilor

De exemplu, un eantion de volum n distribuit normal cu media 0 i

Prin anularea derivatei de ordinul nti i rezolvarea ecuaiei cu

ptratelor vectorului XI mprit la n: = ( xi2 ) / n i dispersia este invers

/ n (7.9), estimatorul de verosimilitate maxim pentru

Statistic pentru studii de marketing i administrarea afacerilor