Sunteți pe pagina 1din 186

NOAGHI SORIN DURA CODRUȚA

ELEMENTE DE STATISTICĂ
APLICATĂ

EDITURA RISOPRINT

1
2018

2
3
Cuprins
Introducere...............................................................................................................8
Interfaţa programului IBM SPSS..........................................................................12
Introducerea datelor statistice............................................................................13
Obținerea unor date aleatorii prin Excel.............................................................17
Meniul Transform...............................................................................................18
Meniul Data........................................................................................................23
Statistici descriptive– tendinţa centrală...................................................................29
Populaţie şi eşantion..............................................................................................29
Indicatori ai tendinței centrale................................................................................31
Media..............................................................................................................32
Mediana şi rangurile.........................................................................................32
Modul..............................................................................................................33
Obţinerea indicatorilor tendinţei centrale în SPSS.............................................33
Indicatori ai împrăștierii........................................................................................35
Amplitudinea de variaţie (range)........................................................................35
Abaterea cvartilă (quartilă) sau abaterea intercvartilă.......................................36
Diferenţa medie Gini.......................................................................................37
Oscilaţia...........................................................................................................37
Abaterea medie...............................................................................................38
Abaterea mediană...........................................................................................38
Dispersia..........................................................................................................38
Abaterea standard...........................................................................................38
Coeficientul de variaţie.....................................................................................39
Obţinerea indicatorilor împrăştierii în SPSS..........................................................40
Indicatori ai formei distribuției...........................................................................41
Curba normală (Gauss) Curba normală standardizată.....................................41
Modalitatea.......................................................................................................42

4
Simetria............................................................................................................42
Boltirea sau excesul...........................................................................................42
Caracterizarea distribuţiei normale......................................................................43
Reprezentări grafice............................................................................................44
Graficele de tip bară........................................................................................44
Grafice de tip linie poligonală..........................................................................47
Histogramele...................................................................................................50
Graficele circulare...........................................................................................52
Grafic de tipul tulpină și frunze (stem-and-leaf)..............................................52
Grafice de tipul boxplot...................................................................................53
Grafic sub formă de nor de puncte (scatter)...................................................55
Statistica inferențială...............................................................................................57
Distribuții reale și distribuții normale z...............................................................57
Distribuția de eșantionare...................................................................................58
Ipotezele metodei științifice................................................................................59
Testarea normalității unei distribuții................................................................61
Exemplu de analiză statistică descriptivă, analiza răspunsurilor multiple...........63
Teste parametrice pentru date cantitative.........................................................70
Testele t pentru un eșantion...........................................................................70
Testul t pentru eșantioane independente.......................................................72
Testul t pentru eșantioane dependente..........................................................75
Testul ANOVA unifactorial...............................................................................77
Analiza corelațională...........................................................................................82
Corelația Pearson............................................................................................82
Coeficientul de corelație ρ Spearman.............................................................85
Coeficientul de corelație τ Kendall.................................................................87
Coeficientul de corelație parțială....................................................................87
Teste neparametrice pentru date nominale.......................................................89
5
Testul z pentru proporția unui eșantion în raport cu o valoare specificată.....89
Testul χ 2 de potrivire (goodness of fit)..........................................................90
Testul χ 2 de asociere (independence chi-square).........................................93
Teste de asociere între variabile...................................................................108
Teste neparametrice pentru compararea eșantioanelor independente...........109
Testul Mann-Whitney U pentru două eșantioane independente..................109
Testul Kruskal-Wallis H pentru mai mult de două eșantioane independente112
Testul Jonckheere-Terpstra J.........................................................................114
Teste neparametrice pentru două eșantioane perechi.....................................116
Testul Wilcoxon.............................................................................................117
Testul semnului.............................................................................................119
Testul McNemar............................................................................................120
Proiectarea și organizarea experimentelor de marketing.....................................123
Experimentul de marketing - definire şi elemente componente.......................123
Proiectarea experimentelor de marketing - fundamente teoretice..................128
Studiu de caz: experiment de marketing unifactorial - rezolvare clasică și în
SPSS...............................................................................................................130
Experiment de marketing unifactorial - aplicație rezolvată în SPSS..............140
Proiectarea experimentelor cu doi factori – fundamente teoretice.................145
Studiu de caz: experiment de marketing bifactorial - rezolvare clasică și în
SPSS...............................................................................................................149
Experiment de marketing bifactorial - aplicație rezolvată în SPSS................155
Proiectarea experimentelor cu ajutorul blocurilor aleatoare – fundamente
teoretice............................................................................................................160
Studiu de caz: Proiectarea unui experiment de marketing cu ajutorul
blocurilor aleatoare – rezolvare clasică și în SPSS.........................................164
Proiectarea unui experiment de marketing cu ajutorul blocurilor factoriale -
aplicație rezolvată în SPSS.............................................................................169

6
Organizarea experimentului de marketing pe baza modelului pătratului latin –
fundamente teoretice.......................................................................................173
Studiu de caz: Proiectarea unui experiment de marketing cu ajutorul
modelului pătratului latin – rezolvare clasică și în SPSS................................175
Proiectarea unui experiment de marketing cu ajutorul pătratului latin -
aplicație rezolvată în SPSS.............................................................................181
Bibliografie............................................................................................................185

7
Introducere

Integrarea treptată a instrumentelor statistice în activitatea practică


de conducere a firmelor de diferite dimensiuni reprezintă una dintre
tendințele actuale cele mai evidente, manifestate pregnant atât în mediul de
business autohton, cât mai ales pe scena afacerilor internaționale.
Fenomenul globalizării se întrepătrunde organic cu expansiunea fără
precedent a tehnologiilor informației și comunicării, pe fondul creșterii
exponențiale a cantității de informații cu care se operează pe toate palierele
vieții economico-sociale. Aflată în plin proces al tranziției de la societatea
industrială spre societatea informațională, omenirea se confruntă cu
imperativul identificării unor soluții eficiente pentru fundamentarea, pe baze
științifice, a deciziilor manageriale complexe adoptate la nivel macro, mezo
sau microeconomic. Iată de ce aparatul matematic analitic și previzional
pus la dispoziție de știința statistică devine un instrument indispensabil al
managementului modern.
În acest context, am elaborat lucrarea de față cu scopul de a veni în
întâmpinarea nevoilor de informare din ce în ce mai acute manifestate atât
de studenții, masteranzii și doctoranzii care se pregătesc în domeniul
științelor economice și sociale, cât și de practicienii din domeniile de
activitate menționate, care sunt implicați în procesele de culegere, analiză și
interpretare a datelor de diferite categorii. Necesitatea folosirii analizelor
statistice și a instrumentelor previzionale moderne în activitatea economică
a fost aceea care a declanșat apariția unor programe care oferă
posibilitatea prelucrării unui volum impresionant de date într-un interval de
timp extrem de scurt și cu erori de prelucrare nesemnificative. Iată de ce, în
demersul nostru care a stat la baza conceperii lucrării de față, am optat
pentru o abordare practică ce servește în mod eficient obiectivelor de
analiză și prelucrare a datelor din domeniul economic, având la bază
utilizarea sistemului informatic SPSS.
IBM SPSS (Statistical Package for Social Sciences) este unul dintre
cele mai puternice și utilizate programe de prelucrare a datelor statistice
(așa numitul ”Data Mining”) și de alcătuire de prognoze. Soft-ul a fost
pentru prima dată creat în anii '60 de compania SPSS, în al cărei obiect de
activitate era inclusă mențiunea ”realizarea de software pentru prelucrarea
statistică a datelor” și a ajuns, la data scrierii acestor rânduri (octombrie
2018) la versiunea 24. În anul 2009, softul a fost achiziționat de IBM. Pe
parcursul timpului, au apărut și alternative de programe gratuite, care se
asemănă foarte mult în ceea ce privește modul de tratare a datelor statistice

8
cu care se operează: printre cele mai relevante exemple se regăsesc PSPP
(Public/ social/ private/ partenership) sau R (inițialele prenumelor celor doi
părinți ai programului Ross Ihaka and Robert Gentleman de la
Universitatea Auckland, Noua Zeelandă). Am optat însă pentru prezentarea
pe larg în lucrare, a facilităților oferite de programul SPSS, pornind de la
considerentul că acestea sunt mai complexe și oferă variante multiple de
gestionare a datelor; în aceste condiții cititorii care vor fi capabili să
înțeleagă și să-și însușească fundamentele SPSS vor fi în măsură să
translateze cu mare ușurință aceste principii de lucru în contextul utilizării
unor variante de softuri gratuite, mai facil de aplicat.
Prezentarea metodelor statistice de analiză și inferență a datelor se
adresează cu precădere problematicilor întâlnite în domeniile marketingului
și al managementului și are la bază o construcție teoretică și pragmatică
logică, însoțită în permanență de exemple concrete de aplicare a softului
informatic și de interpretare economică a rezultatelor obținute. Întreaga
expunere care formează conținutul lucrării are la bază o abordare de la
simplu la complex, în cadrul căreia orizontul de cunoaștere al cititorului
este lărgit în mod treptat, astfel încât să se înlăture, pe cât posibil,
eventualele dificultăți de comprehensie sau de acțiune practică.
Primul capitol vizează familiarizarea utilizatorului cu SPSS și
modalitățile alternative de introducere/obținere a datelor ce urmează a fi
supuse analizei; următoarele secțiuni ale lucrării sunt dedicate prezentării
indicatorilor tendinței centrale (medie, mediană, modul), indicatorilor
împrăștierii (amplitudine, abatere, oscilație, dispersie, coeficient de variație
etc.), indicatorilor formei distribuției (curba normală, modalitatea, simetria,
boltirea). Acestora le urmează exemplificarea diferitelor tipuri de
reprezentări grafice care pot fi utilizate în statistica descriptivă, cu scopul
de a oferi imagini sugestive asupra caracteristicilor variabilelor cu care se
operează în SPSS: graficele de tip bară; graficele linie poligonală;
histogramele, graficele circulare, graficele de tipul ”tulpină și frunze”,
graficele de tipul boxplot, graficele construite sub forma ”norului de
puncte” etc.
În continuare, am inclus în lucrare o secțiune distinctă care
abordează statistica inferențială, utilizată pentru testarea unor ipoteze
statistice și interpretarea rezultatelor obținute prin metodele statisticii
descriptive, în scopul adoptării, de către factorii de conducere, a celor mai
eficiente decizii într-o anumită situație dată. După prezentarea modului de
formulare a ipotezelor științifice care constituie punctul de plecare pentru
rezolvarea corectă a oricărei probleme decizionale, au fost trecute în revistă
testele parametrice care pot fi aplicate pentru datele cantitative (testul t și
ANOVA unifactorial), respectiv testele neparametrice, utilizate în cazul în
9
care se operează cu date nominale (testul z, testul χ2, testele de asociere
între variabile). În același context, au fost abordate analiza corelațională -
care a exemplificat concret modul de lucru în SPSS pentru identificarea
legăturilor dintre două sau mai multe variabile, cu ajutorul calculului
coeficienților Pearson, Spearman și Kendall - respectiv testele neparametrice
care pot fi aplicate pentru compararea eșantioanelor independente și testele
neparametrice pentru două eșantioane perechi.
În sfârșit, având în vedere frecvența mare, în domeniul economic, a
apariției problemelor practice care necesită o abordare de tip experimental,
lucrarea consacră un spațiu generos tematicii legate de proiectarea și
organizarea experimentelor statistice cu aplicabilitate în domeniul
marketingului. Prin intermediul experimentelor se operaționalizează
reproducerea controlată a unor fenomene economice reale, cu scopul de a
extrage cât mai fidel informații cu privire la influența exercitată de unul sau
mai mulți factori experimentali (variabile independente) asupra variabilei
dependente a cărei evoluție este urmărită. În final, se realizează
generalizarea rezultatelor obținute, pentru întregul univers studiat, pe baza
aplicării unor teste statistice consacrate (testul Fisher este unul dintre cele
mai frecvent utilizate instrumente statistice în acest context). După
explicitarea modelului conceptual al unui experiment de marketing și a
fundamentelor proiectării eficiente a acestuia, am prezentat modalitățile
concrete de organizare și analiză a datelor obținute în cazul experimentelor
unifactoriale, bifactoriale, a experimentelor bazate pe blocurile aleatoare și
a celor bazate pe schema pătratelor latine.
O mențiune suplimentară credem că trebuie făcută în legătură cu
caracterul pragmatic al volumului de față. Astfel, fiecare procedeu,
instrument sau metodă statistică de culegere, analiză și interpretare a
datelor la care am făcut apel, este concretizat/ concretizată imediat sub
forma unui exemplu concret care își găsește rezolvare cu ajutorul
programului SPSS. Am folosit această abordare deoarece considerăm că în
etapa actuală de dezvoltare a tehnologiei informației, o serie de calcule
laborioase care necesitau în trecut, un efort considerabil din partea
factorului uman pot fi pur și simplu transferate calculatorului, în timp ce
cercetătorul trebuie să aprofundeze înțelegerea instrumentelor aplicate și
să-și rafineze variantele de interpretare și aplicare a rezultatelor obținute.
Deoarece volumul de față constituie primul demers editorial pe care
autorii l-au realizat în domeniul statisticii aplicate, suntem conștienți de
posibilitatea de a nu fi îndeplinit integral așteptările cititorilor, fie că
aceștia provin din mediul academic sau din mediul de business. De aceea,
ne manifestăm receptivitatea pentru orice tip de critici sau observații care
vor contribui, cu siguranță, la îmbunătățirea primei ediții a lucrării.
10
Petroșani,
Octombrie 2018 Autorii

11
Interfaţa programului IBM SPSS
Interfața programului SPSS se prezintă la fel ca interfețele
programelor de calcul tabelar pe care le cunoașteți (de exemplu programul
EXCEL). Ca la orice program tabelar, avem și aici zona meniurilor și a
submeniurilor principale, funcțiile lor fiind descrise în continuare
Valorile fiecărei variabile sunt trecute pe coloană ce are denumirea
generică „var” și care atunci când aceasta are un nume se va schimba cu
denumirea dată variabilei. Definiția și caracteristicile variabilelor se
completează în fereastra „Variable View”, datele variabilelor în fereastra
„Data View”. Schimbarea între cele două ferestre se face din butoanele
situate în stânga jos. Pentru rezultate statistici, tabele, diagrame etc.
programul folosește fereastra Viewer. Dacă nu există o fereastră Viewer
deschisă, se va crea automat una la prima comandă care produce ieşiri.
Rezultatele afişate pot fi editate, modificate, deplasate, importate, eliminate
etc. într-un mediu similar cu cel din Microsoft Explorer.

Interfața programului PSPP nu este esențial diferită de SPSS

12
Introducerea datelor statistice
Să începem cu introducerea variabilelor, adică, activăm butonul
Variabile View din stânga jos al modulului Data Editor

In fereastra "Variable View" se introduc atributele variabilei: nume (name),


tip (type), lungimea (width), număr zecimale (decimals), eticheta (label),
valorile etichetei (values), valorile lipsa (missing), alinierea (align) și
modalitățile de măsurare a variabilei (measure) ( scala, ordinal, nominal)
- Nume (name): este o înșiruire de valori alfanumerice fără spații la care se
pot adăuga @, #, $ sau _. Desigur numele dat variabilei trebuie să o
caracterizeze cât mai bine, el fiind un nume intern al programului, pentru
grafice, tabele, corelații și teste, produse de program în care apare variabila
acesta nu este afișat ci se afișează denumire trecută la Label unde sunt
acceptate aproape toate caracterele tastaturii.
- Tipul (type): la selectarea acestei coloane programul ne permite să alegem
din tabelul:

13
Numeric – date numerice;
Comma – date numerice cu zecimale separate prin virgule;
Dot - date numerice cu zecimale separate prin puncte
Scientific notation - notație științifică (2E3=2000);
Date – date calendaristice;
Dollar - valori însoțite de simbolul financiar dolar;
Custom currency - valori însoțite de alt simbolul financiar personalizat;
String – date sub forma unui șir de caractere (în cazul în care dorim să
introducem un cuvânt sau o frază).
Din aceeași fereastră putem să alegem lungimea câmpului din care
numărul de zecimale dorit. Cazul Restricted Numeric înseamnă numere
întregi completate cu 0 după mărimea câmpului. (De exemplu data numerică
8 ea devine 00000008)
La rubrica Label se introduce eticheta variabilei. Aceasta eticheta reprezintă
explicațiile care vor apărea lângă variabilă în rapoarte (grafice, tabele, teste)
atunci când vor fi realizate.
În cazul variabilelor nominale sau ordinale (categoriale) se pot introduce
codificat cazurile variabilei în coloana Values.

Codificarea se introduce în câmpul Value, numele categoriei se trece la


Label alocare se face acționând butonul "Add" , modificarea unor valori deja
introduse și selectate se face folosind butonul "Change" iar pentru ștergere
butonul "Remove”. Ieșirea din fereastra se face apăsând butonul OK.
Următoare coloana este destinată valorilor lipsă.

14
Putem avea trei cazuri:
- Când nu avem valori lipsă
- Când putem preciza trei valori discrete pe care le considerăm
lipsă
- Când considerăm valorile lipsă că aparțin unui interval definit
de limita inferioară și cea superioară, și în plus o valoare
discretă.
De obicei în practica sondajului folosim 97- pentru ”nonrăspuns”, 98- pentru
”neaplicabil” 99- pentru „răspuns ilizibil”.
Următoarele două coloane precizează lățimea câmpului în care se scriu
datele variabilei și alinierea.
În următoarea coloană se precizează scala variabilei.

Sunt disponibile trei variante:


- Nominală când variabila ia o mulțime finită de valori/cazuri ce nu pot fi
ordonate
- Ordinală când mulțimea valorilor/cazurilor pot fi ordonată
- Scalară când valorile aparțin unui interval real ce conține sau nu
valoarea 0. Multe din procedurile statistice depind de tipul variabilei
considerat
Ultima coloană, precizează rolul variabilei în o analiză statistică.

- Input se va utiliza în cazul variabilei independenta sau variabilei


predictor
- Target se va utiliza in cazul variabilei dependente
15
- Both pentru variabile ce pot îndeplini ambele roluri de mai sus
- None pentru variabilele cărora nu le precizăm un rol
- Partition și Split sunt specifice altor module avansate de SPSS
Atributul rolurilor afectează numai dialogurile care acceptă asignarea
rolurilor.
Să construim acum o bază de date pornind de la următorul chestionarul:

CHESTIONAR

Pentru îmbunătățirea calității aprovizionării cu produse și satisfacerea


cerințelor consumatorilor S.C.”XYZ”S.R.L. va roagă să aveți amabilitatea de
a răspunde la următoarele întrebări:
1.Vă rugăm să ne spuneți în ce scop vizitați magazinul nostru?
a. pentru a mă informa asupra produselor .pentru a face cumpărături
c. pentru a căuta un anumit produs X
2. Ați mai efectuat cumpărături din acest magazin?
a. Da b.Nu c.acum este prima oară când vizitez acest magazin
3.Ce mărfuri cumpărați/veți cumpăra din acest magazin?
_____________________________________________________________
4.Ați dori să găsiți și alte produse în acest magazin?
a.Da b.Nu
5. Dacă la întrebarea 4 ați răspuns afirmativ, precizați ce produse anume
doriți să mai găsiți în acest magazin _________________________
6.Din ce motive nu ați mai cumpăra produse din acest magazin?
a.din cauza prețurilor b.în cazul în care servirea ar lăsa de dorit
c.calitatea mărfurilor ar scade considerabil d.nu aș mai găsi produsele
căutate e.din alte motive:______________________________________
7.Vă rugăm să ne spuneți cât de frecvent ați efectuat cumpărături din
acest magazin:
a. foarte des ,aproape zilnic b. frecvent la 4-5 zile
c. rar d. foarte rar e pentru prima oară ,acum
8.Cum credeți că este aprovizionarea acestui magazin?
a.foarte bună b.bună c.satisfăcătoare
d.nesatisfăcătoare
9.Cum apreciați modul de servire?
a. foarte. bun b. bun
c. satisfăcător d. nesatisfăcător
În încheiere vă rugăm să ne răspundeți la câteva întrebări referitoare la
persoana dumneavoastră:
10.Ce vârsta aveți?
______________________
16
11.Ce ocupație aveți?
___________________________
12.Starea civilă:
____________________________
13.Sexul dumneavoastră:
a.Feminin bMasculin
14.Unde domiciliați
a. aproape de magazin b.în alt cartier c.în alt oraș.

Obținerea unor date aleatorii prin Excel

În învățarea procedurilor statistice avem de multe ori nevoie de date


aleatorii. Pentru aceasta apelam la programul Excel care ne poate furniza
șirul de date empiric dorit. Pentru că subrutina Analyse ToolPak nu este
implicit inclusă în pachetul de bază, ea trebuie adăugată. Pentru aceasta
urmăm procedura:
În pagina excel deschidem meniul DATA. Cu mousul la nivelul
submeniurilor apăsam clic-dr și aici alegem Customize Quick Access
Toolbar. Alegem apoi Add-Ins unde apăsăm butonul Go

Bifăm Analysis ToolPack și OK. Am adăugat astfel la meniul DATA


submeniul Data Analysis.

De cele mai multe ori avem nevoie de valori discrete, alegerea


randomizată permițând respectarea procentelor care le impunem. Să
considerăm că avem nevoie de valori de la 1 la 5 (acestea pot fi etichetările
unor răspunsuri pe scara Likert cu 5 trepte la o întrebare din chestionar.
Scriem pe o foaie excel o coloană cu numerele:1,2,...,5 iar pe linie în dreptul
fiecăruia procentul care-l dorim pentru fiecare valoare. Evident suma
procentelor trebuie să fie 1.

17
Acum putem să obținem o variabilă ce are valorile 1,2,...,5 în
procentele specificate. Deschidem meniul DATA cu submeniul Data
Analysis de unde alegem Random Number Generation și OK.
Completăm numărul de variabile, 1, numărul de valori de care avem
nevoie, la noi să considerăm 100, tipul distribuției, „Discrete”. Pentru
„Value and Probability Input Range” trebuie să alocăm exact câmpurile în
care sunt valorile și procentele. Pentru output avem varianta de a indica
primul câmp în care să pună valorile aleatoare celelalte fiind generate pe
coloana respectivă sau implicit o pagină nouă a excelului.

Comanda OK produce mulțimea cerută. Evident coloana se poate copia


obișnuit în datele variabilei din SPSS.

Meniul Transform

Meniul Transform conține următoarele submeniuri:

18
Prin submeniul Compute variable putem obține o variabilă calculând
valorile ei pe baza unei expresii matematice în care intervin valorile
numerice ale altor variabile introduse anterior.
Prin submeniul Count Values within Cases se obține o variabilă care
are valoarea 1 pentru unul din cazurile unei variabile categoriale specificat și
0 în rest
Următoarele submeniuri: Recode into same variables, Recode into
different variables și Automatic recode sunt utile în transformarea unei
variabile. De obicei recodarea se face cu păstrarea variabilei inițiale,
originale, deci sunt puține cazurile când folosim Recode into same variables.
Recodarea în o alta variabilă se folosește dacă de exemplu dorim să
compactăm două sau mai multe cazuri.
Exemplu Plecând de la o variabilă cu 5 cazuri să se obțină o variabilă cu 3
cazuri: 1, 2 devin 1; 2, 3 devin 2 iar 5 devine 3.
Deschidem Recode into different varables și selectăm variabila care
trebuie compactată. La noi VAR00001.

Pe baza săgeții de transfer o trecem în câmpul de analiză Numeric


Variables>Output Variables. Completăm câmpul Output variable: nume și
etichetă și apăsăm Change
La Old Value trecem 1 la New value 1și apăsăm Add. Analog pentru
celelalte, apoi apăsăm Continue și OK.

Acesta are ca efect crearea variabilei VAR00003 ce respectă condițiile dorite

19
Extrem de utilă este recodarea în o altă variabilă dacă, de exemplu, dorim din
o variabilă scalară, de exemplu vârsta să facem categorii de vârstă
împărțindu-i în 1-14 ani „tineri”, 15-35 „adulți”, peste 36-65 „maturi”. Să
formăm rapid date aleatorii care să semnifice vârsta. Folosim pentru aceasta
funcția Randbetween(1; 65) din Excel. Astfel am putut completa variabila
vârsta.
Acum să ne pregătim pentru recodare, noua variabilă fiind grupe_vârsta.

Apăsăm Change și apoi Old and New Variables. În noul submeniu bifăm
Range limitele 1 și 14 pentru vechea variabila devin 1 la noua variabilă și
Add. La fel celelalte; 15-65 devin 2 iar peste 65 devin 3.

Apăsăm Continue și Ok iar atunci s-a definit noua variabilă Grupele_vârsta


cu caracteristicile dorite. Acum mai avem să completăm valorile 1 pentru
tineri, 2 pentru adulți și 3 pentru maturi.

20
Am obținut variabila grupe_vârsta cu caracteristicile dorite.

Să vedem câteva aplicații utile pentru Automatic recode. Procedura este


extrem de utile în construirea unei baze reale de date.
Pentru a vedea cum folosim Automatic Recode să presupunem că avem în
chestionarul curent o întrebare deschisă, de exemplu: Care sunt în ordine trei
din cele mai cumpărate mărfuri ce le achiziționați din magazinul nostru?
Respondenții au înșiruit mai multe articole care au fost înregistrate de
operatorul SPSS ca trei variabile de tipul string numite achiziția_1,
achiziția_2 și achiziția_3.

Vom înregistra articolele cumpărate de repondenți pentru cele trei variabile:

Construim pe baza procedurii Automatic Recode câte o variabilă nominală ce


are categoriile exact articolele cumpărate.

21
Deschidem Automatic Recode și transferăm pe rând variabilele în câmpul
Variable -> New Name, alocându-le un nou nume, de exemplu pentru
achiziția_1: achiziția_num_1 și analog pentru celelalte.

Comanda Ok produce efectul dorit ce-l vedem în output.

S-au definit la achiziția_num_1 10 categorii pe care programul le pune în


ordine alfabetică. Evident schimbarea se face automat și la valorile noilor
variabile. Analog pentru celelalte cumpărături.
Următorul submeniu este și el folositor în transformarea automată
a unei variabile scalare în una categorială, adică exact cea ce am făcut
variabilei vârstă prin formarea grupelor de vârstă. Deschidem Visual Binning
și vedem că variabila scalară este cea care apare implicit în câmpul
Variables. O trecem în câmpul Variables to Bin: și comanda Continue
deschide fereastra:

Aici avem informații sintetice asupra variabilei ce dorim să o transformăm


(minimul, maximul, distribuția prin o diagramă a frecvențelor). Apăsăm
comanda Make Cutpoints unde avem trei variante de a obține variabile

22
categoriale: prin intervale egale, pe baza percentilelor egale sau plecând de la
medie prin 1, 2 sau 3 deviații standard în st. și dr.
Alegem intervale egale in care precizăm primul interval (14) numărul de
intervale (2 pentru că de fapt vor fi 2+1 intervale, programul calculează
automat lungimea intervalelor egale (25,5) și ne informează asupra limitei
inferioare a ultimului interval (40).

Apăsam Applay și obținem.

Înainte de a valida prin Ok trebuie să complectăm câmpurile Binned


Variable și eticheta sa precum și etichetele noilor cazuri folosind Make
Labels. Putem schimba, dacă dorim, limita inferioară a ultimului interval
39,5 cu 45 dar programul ne atenționează că intervalele nu mai rămân egale.
Tot aici vom putea defini etichetele dorite la noile cazuri (tineri, adulți,
maturi).

Comparând cu variabila obținută prin Recode into different variables


observăm că cele două coincid.

Meniul Data

Meniul Data conține o multitudine de submeniuri ce caracterizează


proprietățile și alegerea variabilelor, determină proprietăți ale valorilor
23
variabilelor, de identificare și alegere a cazurilor duplicat. Multe din ele sunt
necesare în validarea bazei de date. Ne reținem atenția asupra ultimilor trei
submeniuri

In meniul Data exista comanda Select Cases. Ca urmare se deschide


fereastra de dialog Select Cases.Dorim de exemplu sa alegem toate cazurile
de subiecți adulți. Acesta înseamnă că variabila
grupe_de_vârsta_visual_binning ia valoarea 2.

Pentru aceasta în Select Cases bifăm If condition is satisfied și


deschidem butonul If...care permite selectarea dorită. Adică trecem în
câmpul de operații variabila grupe_vârsta_visual_binning pe care le egalăm
cu 2 și Continue apoi Ok. Efectul este că în baza de date toți subiecții care
nu sunt adulți sunt excluși de la analiză, apărând și o nouă variabilă
dihotomică filter_$ ce ia valoarea 1 la cazurile selectate și valoarea 0 în rest.
Atenție, după o selectare cu comanda Select Cases, dacă dorim să lucrăm cu
întreaga bază trebuie să parcurgem pașii inverși pentru a deselecta, adică din
nou din meniul Data alegem Select Cases și desigur opțiunea All.
În meniul data se găsește submeniul Split File ce permite obținerea
unor rezultate statistice structurate pe cazurile unei variabile categoriale.
De exemplu dorim să vedem care sunt cumpărăturile efectuate pe categorii
de vârstă. Folosim variabila achiziție_num_1 (formată din variabila sting
achiziție_1 pe care am transformat-o in o variabilă numerică categorială prin

24
submeniul Automating recode) structurată pe cazurile variabilei
grupe_vârsta_visual_binning.
In meniul Data selectam Split File unde alegem opțiunea Organize
output by grups iar in câmpul Groups Based on: trecem variabila Grupe de
vârstă și OK.

Dacă dorim să vedem graficul variabilei achiziție_num_1 vom


deschide meniul Graphs/ Legacy Dialogs/Pie. In fereastra deschisă este ales
implicit Summaries for groups of cases, deci selectăm Define ce deschide
accesul spre variabilele bazei noastre. Vom trece în câmpul Define Slices by:
variabila Achiziția 1 și OK. Rezultatul obținut este structurat pe grupele de
vârstă considerate

Atenție! Ca la toate selectările, dacă nu mai dorim să lucrăm cu selectarea


considerată trebuie sa parcurgem pașii inverși și să considerăm întreaga baza
de date.
Alegerea Compare groups din Splite File împarte baza de date în
subgrupurile definite de o variabilă categorială. Are aproape același efect ca
și cazul anterior.
Ultimul submeniu din meniul Data este Weight Cases. Să considerăm
următorul exemplu:
La un chestionar studenții a două universități economice răspund la
întrebarea:
Credeți că România merge din punct de vedere economic într-o
direcție bună sau greșită?
Să notăm cele două universități A și B iar răspunsurile să fie la A cred în
număr de 175 și nu cred 25, iar la B cred în număr de 45 și nu cred 125.
25
Introducerea celor 370 cazuri ar lua foarte mult timp de aceea SPSS-ul
prevede o facilitate în acest caz.
Definim o baza de date cu variabilele:
Universitatea (categorială A și B)
Direcția (categorială Bună, Greșită)
Frecvența (numerică, frecvența pe fiecare caz în parte)
Obținem baza de date:

Alocarea cazurilor se face prin meniul Data/ Wieght Cases unde bifăm
Weight cases by și trecem variabila Frecvență în câmpul Frecvency Variable
și OK

Tot în meniul Data găsim submeniul prin care putem gestiona răspunsurile
multiple prin Define Multiple Response Sets.
Să considerăm că punem o întrebare de genul:
În care din următoarele tipuri de activități vă angajați in mod
frecvent pe internet? (Puteți alege una sau mai multe variante
corespunzătoare)
1. Căutarea de informații uzuale
2. Utilizarea e-mailului
3. Citirea/vizualizarea știrilor
4. Accesarea jocurilor
5. Mesagerie instant
6. Accesarea rețelelor de socializare
7. Descărcarea de softuri, documente
8. Ascultarea unor posturi radio,
9. Vizualizarea de emisiuni TV
26
Va trebui să introducem câte o variabilă dihotomică (valoarea 1 pentru Da și
0 pentru Nu) pentru fiecare item

Apoi prin excel obținem aleatoriu valorile la cele 9 variabile și am completat


baza de date. Suntem acum în măsură să definim răspunsurile multiple.
Deschidem Data/Define Multiple Response sets unde trecem în
câmpul Variables in set toate cele 9 variabile. Fiind dihotomice (doar două
cazuri) rămâne bifat implicit Dichotomies trecând în câmpul Counted Value
valoarea pentru Da adică 1. Completăm Set Name de exemplu „internet” și la
Set Label trecem întrebarea formulată (fără diacritice).

Apăsăm Add și astfel am creat setul de răspunsuri multiple $internet.


Obținem in Output tabelul:
Multiple Response Sets
Name Label Coded Counted Data Elementary Variables
As Value Type

Căutarea de informații
Dichotomi
urmatoarelIn care din
$internet

Numeric

uzuale
1
es

Utilizarea e-mailului
Citirea/vizualizarea știrilor
e tipuri de
activități

27
Pentru analiza de frecvență pentru această variabilă răspuns multiplu
programul atrage atenția că ea nu poate fi folosită. Dacă mergem pe cale
Analyse/ Multiple response/Define variable set ajungem la același dialog
(aici câmpul Label este limitat la 44 caractere deci vom esențializa
întrebarea) iar de data aceasta interdicția de analiză statistica descriptivă sau
inferențială nu mai este activată.
Pentru analiza frecvenței luăm aceeași cale Analyse/ Multiple
response/Frequencies. Trecem în câmpul Table(s) for: variabila cu
răspunsuri multiple $internet și OK. Obținem în Output tabelul:

Cases
Valid Missing Total

N Percent N Percent N Percent

$internet 100 100,0% 0 0,0% 100 100,0%

$internet Frequencies

Responses Percent
N Percent of Cases

Cautarea de informatii uzuale 35 8,6% 35,0%

Utilizarea e-mailului 39 9,6% 39,0%

Citirea/vizualizarea stirilor 30 7,4% 30,0%


Activitati pe interneta

Accesarea jocurilor 37 9,1% 37,0%

Mesagerie instant 65 16,0% 65,0%


Accesarea retelelor de
30 7,4% 30,0%
socializare
Descărcarea de softuri,
54 13,3% 54,0%
documente
Ascultarea unor posturi radio 52 12,8% 52,0%

Vizualizarea de emisiuni TV 63 15,6% 63,0%


Total 405 100,0% 405,0%
28
Ce putem comenta?
- 16% ((65/405)*100) din totalitatea activităților pe internet sunt
reprezentate de mesageria instant, 65% din cei 100 de subiecți
intervievați spun că folosesc această utilitate.
• Din activitățile utilizarea pe internet E-mailului se face în proporție
de 39% ((39/405*100)

Statistici descriptive– tendinţa centrală

Statistica descriptivă se referă la totalitatea metodelor care permit


descrierea şi gruparea în diferite moduri a datelor rezultate din cercetări.
Statisticile descriptive nu au ca scop efectuarea unor predicţii, ci doar
sumarizarea şi prezentarea datelor. Procedeele utilizate în statisticile
descriptive se referă la gruparea şi prezentarea datelor în tabele şi grafice,
calculul indicatorilor tendinţei centrale şi ai variabilităţii, indicatori ai
asocierii şi ai legăturii dintre variabile (studii corelaţionale simple).

Populaţie şi eşantion

Când discutăm de populaţie, nu este obligatoriu să ne referim la


populaţia unei ţări sau a unui oraş; în general, ne referim la un grup distinct
de persoane sau obiecte. De exemplu, vorbim de populaţia fumătorilor,
populaţia deficienţilor mintali, populaţia consumatorilor de Coca-Cola sau
populaţia maşinilor Lamborghini. Acest lucru se referă la totalitatea
obiectelor, de un anumit tip, existente într-un spaţiu sau teritoriu, la un
moment dat. Populaţia este definită, deci, ca fiind totalitatea „unităţilor de
informaţie” care constituie obiectivul de interes al unei investigaţii.
De cele mai multe ori, nu putem studia întreaga populaţie, din cauza
numeroaselor limitări pe care le-ar impune un asemenea demers (costuri,
timp, accesibilitate, dinamica populaţiei etc.). De aceea, majoritatea
cercetărilor se efectuează pe un grup de subiecţi extraşi din populaţie, care să
prezinte caracteristicile acesteia, grup mult redus însă din punct de vedere
numeric.
Un asemenea grup poartă numele de eşantion. Un eşantion este, deci,
o selecţie a indivizilor dintr-o populaţie. Eşantionul reprezintă „unităţile de
informaţie” selecţionate pentru a fi efectiv studiate. Ideea pe care se bazează
cercetările orientate pe eşantioane este aceea că se pot face aprecieri asupra
unei întregi populaţii, în anumite condiţii, doar pe baza caracteristicilor
măsurate pe o parte a acesteia.
Când am nevoie de eșantioane în cercetarea de marketing? Câteva
exemple:
29
Atunci când vrei să estimezi potențialul pieței pentru un nou produs
sau serviciu pe care dorești să-l lansezi.
Atunci când vrei să afli reacțiile consumatorilor vis-a-vis de un
produs sau serviciu deja existent.
Pentru a afla condițiile și trendurile generale ale pieței.
Pentru a afla motivele pentru care un produs existent nu se vinde.
Pentru a găsi metode mai bune de distribuție a produselor și
serviciilor către consumatori.
Pentru a cunoaște tipurile de consumatori care cumpără un anumit
produs, motivele pentru care cumpără și sugestiile lor pentru a îmbunătăți
acel produs.
Metodele de eşantionare se împart în două mari categorii: metode
prin care eşantionul este extras aleatoriu dintr-o populaţie şi metode prin care
eşantionul nu este extras aleatoriu. Orice eşantion se stabileşte în baza unei
scheme de eşantionare. O schemă de eşantionare reprezintă un set de
tehnici şi reguli, în baza cărora, din populaţie, se extrage eşantionul necesar,
iar compoziţia acestuia este aleatoriu derivată în funcţie de definiţiile
probabilistice ale schemei de eşantionare.

Eşantionarea simplu randomizată

Randomizare nu înseamnă hazard absolut, ci este o metodă prin care


fiecare individ are o şansă calculabilă de a fi ales în eşantion. Prin
randomizare simplă, fiecare individ are şanse egale să fie selectat. Pentru a
efectua o asemenea eşantionare, avem nevoie de o bază de eşantionare, o
listă a întregii populaţii (de exemplu, lista exhaustivă a fumătorilor din
România). Fiecare individ din acea listă are asociat un număr. Se folosesc
apoi tabelele de numere aleatoare sau numerele aleatoare se generează de un
computer. Practic, numărul aleatoriu generat reprezintă numărul de ordine al
individului de pe listă. Procedura continuă până când s-a extras întregul
eşantion.

Randomizarea pe cote

Este o metodă pseudo-randomizată de selectare a unui eşantion în


care se iau în considerare anumite caracteristici ale populaţiei cum ar fi
sexul, vârsta, profesia etc. În eşantion se intenţionează respectarea proporţiei
în care aceste caracteristici se regăsesc în populaţie. După ce se identifică
proporţia fiecărei caracteristici ce va fi inclusă în eşantion, fiecărui evaluator

30
îi revine sarcina să investigheze un anumit număr de persoane ce prezintă
acea caracteristică, alegerea persoanelor rămânând la latitudinea acestuia.

Eşantionarea stratificată

În condiţiile în care putem identifica o serie de straturi după care este


împărţită populaţia în funcţie de unul sau mai multe criterii, vom putea
proceda la o eşantionare randomizată pentru fiecare strat. De exemplu,
putem depista stratul fumătorilor, stratul nefumătorilor şi stratul celor care au
renunţat la fumat. Aflăm care este ponderea fiecărui strat în populaţia
generală şi apoi, din fiecare strat, extragem aleatoriu eşantionul nostru.

Eşantionarea pe cluster

Un cluster reprezintă o unitate care prin ea însăşi se prezintă ca un


individ dintr-o populaţie. Spre exemplu, dacă populaţia o considerăm ca
fiind aceea a producătorilor de mobilă, un cluster este „Ikeea” , un alt
cluster „Mobexpert” şi aşa mai departe. În acest caz, eşantionarea se face pe
unităţi de eşantionare, iar evaluarea se face exhaustiv la nivelul clusterului.

Indicatori ai tendinței centrale

Calitatea datelor colectate este fundamentală pentru scopul cercetării.


În statistică este perfect valabil principiul GIGO (Garbage In, Garbage Out –
Gunoi la intrare, gunoi la ieşire). Iată că, înainte de a intra în procedee
statistice mai elaborate, am discutat câteva elemente referitoare la
eşantionare. Ceea ce trebuie să reţineţi, este faptul că o cercetare greşit
proiectată duce în mod sigur la rezultate eronate. Prima şi cea mai comună
formă de descriere a datelor o reprezintă analiza tendinţei centrale. Măsura
tendinţei centrale ne dă o indicaţie asupra scorurilor tipice din colecţia de
date. Cu alte cuvinte, ne indică modul în care se grupează datele în jurul unei
valori. Cei mai importanţi indicatori ai tendinţei centrale sunt media,
mediana şi modul.

Media

Considerăm că termenul de medie – mai precis media aritmetică –


este conceptul cel mai uşor de înţeles din întreaga statistică. Media nu este
altceva decât suma valorilor unei variabile cantitative, raportată la numărul
măsurătorilor, fiind, poate, cel mai simplu model statistic. Aceasta este
31
media aritmetică, deoarece în statistică mai discutăm şi despre media
geometrică, media caracteristicilor alternative, media pătratică, media
rangurilor etc.

Mediana şi rangurile

Mediana este o altă măsură a tendinţei centrale şi reprezintă valoarea


care împarte şirul de măsurători în două parţi egale; jumătate din şirul de
date va avea valori mai mici decât mediana, în timp ce cealaltă jumătate va
avea valori mai mari decât mediana. Să considerăm următorul şir de date:
Scoruri: 12, 14, 10, 11, 15, 14, 12, 20, 19, 20, 13, 11, 14, 8
Pentru a calcula mediana, primul pas este acela de a ordona crescător sau
descrescător aceste date. Ordonând crescător şirul de mai sus, obţinem:
Scoruri: 8, 10, 11, 11, 12, 12, 13, 14, 14, 14, 15, 19, 20, 20
Deoarece şirul este un şir par, mediana se situează, în cazul nostru, între
valoarea 13 şi valoarea 14, mai precis ea are valoarea 13,5.
Dacă avem un număr impar de scoruri:
Scoruri: 12, 14, 10, 11, 15, 14, 12, 20, 19, 20, 13, 11, 14, 8, 9
Şirul are acum 15 valori. Ordonând şirul, obţinem:
Scoruri: 8, 9, 10, 11, 11, 12, 12, 13, 14, 14, 14, 15, 19, 20, 20
Ordonând un şir, putem preciza poziţia fiecărui element în cadrul acelui şir.
Astfel, dacă luăm şirul ordonat de 15 valori din exemplul de mai sus,
obţinem:
Scoruri 8 9 10 11 11 12 12 13 14 14 14 15 19 20 20
Poziţia 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Altfel spus, mediana nu este altceva decât poziţia rangului din mijloc în şirul
ordonat de date. Într-o serie de la 1 la 15, poziţia din mijlocul şirului este
evident, poziţia 8.
Când vorbim de rangul unui scor şi avem mai multe scoruri care se repetă,
rangul acestora va fi media aritmetică a poziţiilor pe care scorurile le
ocupă în cadrul şirului. Astfel, dacă reluăm exemplul nostru, îl putem
completa şi cu rangul scorurilor, astfel:
Scorul 11 apare pe poziţia 4 şi 5 de două ori. Prin urmare, rangul acestor
scoruri este media dintre 4 şi 5, adică 4,5. La fel, scorul 12 apare pe poziţiile
6 şi 7, rangul acestora fiind 6,5. Scorul 14 apare pe poziţiile 9, 10 şi 11,
rangul acestora fiind 10 şi aşa mai departe.
Mediana poate fi calculată şi atunci când avem datele grupate

Modul

32
Modul nu este altceva decât categoria cu frecvenţa cea mai mare.
Dacă avem şirul de date:
2, 15, 16, 18, 18, 21, 21, 21, 21, 25, 26
În acest caz, observăm că există un singur 2, un singur 15, un singur 16, doi
de 18, patru de 21, un 25 şi un 26. Care e categoria cu frecvenţa cea mai
mare? Evident 21. Deci, modul este 21.

Obţinerea indicatorilor tendinţei centrale în SPSS

Variabilele acceptate de SPSS au măsurile nominale, ordinale sau


scalate. Ne punem problema să vedem care din indicatorii tendinței centrale au
semnificație statistică pentru fiecare din cele trei măsuri.
De exemplu să considerăm variabila gen cu cele două categorii:
masculin și feminin. Înregistrată ca variabilă string este clar că nu putem avea
acces la medie mediană sau mod. Dacă o înregistrăm ca variabilă numerică cu
valorile 1 pentru masculin și 2 pentru feminin atunci indicatorii tendinței
centrale se pot calcula dar media și mediana nu au semnificație doar modul ne
dă informația prin care aflăm categoria cea mai numeroasă. Am considerat
variabila gen (string) și gen_numeric variabilă nominală (obținută prin
Automatic Recoding din gen) și am făcut analiza statistică descriptivă pe calea:
Analyse/Descriptive Statistics/ Frequencies. In fereastra Frequencies
deschidem Statistics unde bifăm toate opțiunile de la tendința centrală (Central
Tendency) apoi Continue și OK.

Rezultatele de la output justifică afirmațiile făcute. Frecvența celor


două variabile este identică

iar indicatorii tendinței centrale s-au calculat doar pentru variabila numerică.

33
În concluzie pentru variabilele nominale putem să determinăm
frecvența cazurilor absolută (numărul de subiecți din fiecare categorie),
frecvența relativă (procentul de subiecți din fiecare categorie) și modul.
Pentru a exemplifica obținerea cu spss a indicatorilor tendinței centrale
pentru variabila ordinală să considerăm întrebarea din Chestionarul de la pagina
9:
9.Cum apreciați modul de servire?
a. foarte. bun b. bun
c. satisfăcător d. nesatisfăcător
O vom înregistra ca o variabilă ordinală, cele patru categorii fiind
indexate cu valorile 1 pentru nesatisfăcător, 2 pentru satisfăcător, 3 pentru
bun și 4 pentru foarte bun. Mergând pe aceeași cale din tabelul Statistics
putem alege Modul,=1 adică cei mai mulți subiecți apreciază că modul de
servire este Nesatisfăcător iar mediana este 2,5 cea ce înseamnă că jumătate
din subiecți (exact 50) apreciază servirea nesatisfăcătoare și satisfăcătoare iar
ceilalți 50 o apreciază ca bună și foarte bună.

În concluzie pentru variabile ordinale au sens statistic frecvențele,


mediana și modul.
Pentru variabila scalară să considerăm întrebarea 10 din același
chestionar: Ce vârstă aveți? De data acesta frecvența este o informație fără
importanță de aceea în fereastra, ce o obținem pe aceeași cale ca la
variabilele de mai sus, vom debifa Display frequency tables. Toți indicatorii
tendinței centrale au valabilitate statistică output-ul putând fi interpretat
statistic:

Analizând tabelul Statistics putem spune că din eșantionul de 101


subiecți care au răspuns la chestionarul prezentat media de vârstă este 45,42,
jumătate din subiecți au vârste mai mici sau egale cu 46 cealaltă jumătate
34
vârste mai mari deoarece mediana este 46. În eșantionul analizat cei mai
mulți subiecți au 29 ani. Dacă variabila are mai multe valori modale aceasta
ne este semnalizată în tabel spss-ul afișând cea mai mică valoare modală.
În concluzie, pentru variabile scalare putem interpreta toți cei trei
indicatori ai tendinței centrale. Tabelul de frecvență devine (pentru un
eșantion mare), în unele cazuri, prea puțin esențial de interpretat statistic.

Indicatori ai împrăștierii

Avem nevoie de o măsură a gradului de răspândire, de împrăştiere a


datelor în jurul tendinţei centrale, cum se repartizează rezultatele în jurul
acestei valori. Aceşti indicatori, care măsoară gradul de împrăştiere a
rezultatelor în jurul tendinţei centrale poartă numele de indicatori ai
împrăştierii. Indicatorii împrăştierii pot fi grupaţi în indicatori elementari ai
împrăştierii (amplitudinea de variație și abaterea cvartilă) şi indicatori
sintetici ai împrăştierii (diferența medie Gini, oscilația, abaterea medie,
abaterea mediană, dispersia, abaterea standard și coeficientul de
variație).

Amplitudinea de variaţie (range)

Amplitudinea de variaţie nu este altceva decât diferenţa dintre valoarea


maximă şi valoarea minimă din şirul nostru de date.
A=x Max −x Min
Amplitudinea de variaţie poate fi exprimată şi procentual, ca expresie a raportului
dintre amplitudinea de variaţie şi medie. Ea se numește amplitudine relativă și are
expresia:
A
A% = ×100 unde am notat cu x́ media variabilei x.

Exemplu. Pentru șirul: 3, 5, 7, 9, 14, 20 avem A=17, x́=9,6 iar A% =¿177%
existența unei valori extreme, de exemplu în loc de 20 să avem 200 ne dă: A=197,
x́=39,6 iar A% =¿497% , valoarea crescută a amplitudinii relative fiind un indiciu
al valorilor aberante.

Abaterea cvartilă (quartilă) sau abaterea intercvartilă

Valorile cvartile sunt valorile care împart acelaşi set ordonat de date
în patru părţi egale. Un sfert din valori (25%) sunt mai mici decât primul
cvartil (Q1), două sferturi din valori (jumătate) sunt mai mici decât al doilea
cvartil (Q2 – iată că, de fapt, Q2 nu este altceva decât mediana), iar trei
sferturi din valori (75%) sunt mai mici decât al treilea cvartil (Q3).
35
Abaterea cvartilă nu este altceva decât diferenţa dintre cvartilul 3 şi
cvartilul 1.
RQ =Q3−Q1
Abaterea cvartilă poate fi absolută – cazul prezentat – sau relativă, raportat la
mediană (abaterea cvartilă relativă).
Q −Q1
RQ % = 3
Q2
Exemplu. Pentru șirul: 7, 7, 8, 8, 9, 10, 12, 15, 28, 30 care este un șir de 10
n+1
valori (impar), ca și la mediană calculăm cvartilele: =2,75 ; adică vom
4
căuta poziția 2 și 3 (2<2.75<3) care sunt 7 și 8 calculând media ponderată cu
25%, respect iv 75% dintre aceștia:
25 ∙7+ 75∙ 8
Q 1= =7,75
100
n+1
Pentru Q2 sau mediană calculăm =5,5 ; adică pozițiile 5 și 6 care sunt 9
2
și 10 și calculăm media ponderată cu 50%, 50% , adică media obișnuită, de
9+10
unde Q 2= =9,5
2
3(n+1)
Pentru Q3 avem =8,25 iar pe pozițiile 8 și 9 sunt 15 și 28 unde
4
calculăm media ponderată cu 75% respectiv 25%, de unde
75 ∙15+ 25∙ 28
Q 3= =18,25.
100
Deci abaterea cvartilă absolută și relativă este:
RQ =10,5 R Q %=1,105
Cum putem interpreta abaterea cvartilă absolută? Între valoarea obținută de
75% din populație și cea obținută de 25% există cel mult 11 valori. Pentru a
verifica dacă calculele sunt făcute corect să introducem datele ca o variabila
X în spss și să vedem care este cale pentru a le obține. Evident una mult mai
ușoara decât ariditatea aritmeticii de mai sus.

36
Vom merge pe aceeași cale Analyze/Descriptive Statistics/Frequencies,
trecem variabila x în câmpul Variable(s) pentru analiză iar activând butonul
Statistics ne permitem să bifăm Quartiles apoi Continue și OK. Obținem
cvartilele dorite, exact cele calculate.
Diferenţa medie Gini

Indicatorul diferenţelor medii al lui Gini nu este altceva decât media


diferenţelor luate în valori absolute. Pentru un șir de n date avem C 2n perechi
avem deci formula:
∑ |x i−x j|
1≤ i< j≤ n
Gmed =
C 2n
Acesta măsură a împrăștierii propusa de statisticianul italian Corrado
Gini prezintă anumite avantaje în sensul că ea depinde de diferențele totale
ale valorilor variabilei spre deosebire de abateri: medie, mediană sau
standard, când aceste diferențe măsoară împrăștierea față de un punct fixat:
media sau mediana
Interesant este coeficientul Gini care este un indicator al
dezechilibrului în repartiția unei variabile. El ia valori între 0 și 1, valoarea 0
însemnând un dezechilibru total, valoarea 1 o repartizare perfectă a
variabilei. Pentru o variabilă ce ia valorile x i , i=1 ´, n avem pentru
coeficientul Gini formula:
n n

∑ ∑|x i−x j|
G= i=1 j=1

2 n2 x́
Calculat pentru venituri, el este un indicator al inechității sociale.

Oscilaţia

37
Oscilaţia (relativă) nu este altceva decât media diferenţelor dintre o
valoare şi cea anterioară şi se poate calcula în valori absolute sau relative, iar
numărul acestor diferenţe este n-1. Luând diferențele în modul avem
oscilația absolută.
n
O n
∑ ( x i−x i−1)
∑ |x i−x i−1| ,
|¿|= i=2
n−1
¿ O rel = i=2
n−1

Abaterea medie

Se mai numeşte variaţie medie, deviaţie medie, abatere absolută


medie sau abatere liniară medie şi se poate calcula atunci când media este un
bun indicator al tendinţei centrale. Calculul abaterii medii se realizează după
formula următoare, în care x i reprezintă valorile variabilei x, iar x́ barat
reprezintă media sa, n fiind numărul de măsurători.
n

∑|x i− x́|
d= i=1
n

Abaterea mediană

Calculul abaterii mediane se realizează după formula următoare, în


care x i reprezintă valoarea măsurătorii, x Md reprezintă mediana, iar n
reprezintă numărul de măsurători.
n

∑|x i−x Md|


d Md= i=1
n
Dispersia

Atunci când putem utiliza media, un indicator frecvent este


indicatorul dispersiei sau indicatorul varianţei notat cu σ 2 pentru populaţie
sau s2 în cazul unui eşantion. Varianţa reprezintă media pătratică a
diferenţelor valorilor individuale faţă de media aritmetică şi are o relaţie
directă cu cel mai important indicator al gradului de împrăştiere a
rezultatelor, abaterea standard.
n

∑ ( xi −x́ ) 2 pentru populație


σ 2= i=1
n
38
n

∑ ( x i−x́ )2 pentru un eșantion,


s2= i=1
n−1

Abaterea standard

Se notează cu σ în cazul unei populaţii sau cu s în cazul unui eşantion


şi o putem întâlni sub numele de abatere etalon, abatere tip, abatere pătratică
medie. Acest indicator este cel mai precis şi inteligibil pentru măsura
gradului de împrăştiere al rezultatelor în jurul tendinţei centrale şi contribuie
la definirea distribuţiei normale. Abaterea standard se calculează după
formulele următoare:
n n

√ √
2
∑ ( x i− x́ ) , ∑ ( x i− x́ )2
i=1 2 i=1
σ= = √σ s= =√ s 2
n n−1
Abaterea standard măsoară modul în care rezultatele se împrăştie în
jurul mediei, valorile mari indicând un grad mare de împrăştiere. Este, dacă
doriţi, un indicator ce arată în ce măsură media este reprezentativă pentru
observaţii, în ce măsură modelul statistic se potriveşte cu modelul real.
La fel ca şi media, indicatorul principal al tendinţei centrale, abaterea
standard are şi ea o serie de proprietăţi utile în practică:
• Dacă adăugăm sau scădem o valoare constantă la fiecare scor din
distribuţie, abaterea standard nu suferă modificări;
• Dacă înmulţim sau împărţim fiecare scor din distribuţie cu o constantă,
abaterea standard se multiplică sau se divide cu valoarea acelei constante;
• Distanţa dintre valoarea abaterii standard şi medie este mai mică în
comparaţie cu distanţa dintre abaterea standard şi orice alt scor. Cu alte
cuvinte, media se distanţează cel mai puţin de abaterea standard în
comparaţie cu orice alt scor.

Coeficientul de variaţie

Prezintă, mai intuitiv decât abaterea standard, gradul de împrăştiere al


rezultatelor în jurul mediei, deoarece este o expresie procentuală a împărţirii
abaterii standard la medie. De asemenea, pentru datele ordinale, se poate
calcula coeficientul de variație ca expresie procentuală a împărţirii abaterii
mediane la mediană. Formulele de calcul în acest caz sunt:
s d
v x = ×100 în cazul mediei, v Md = Md × 100 în cazul medianei
x́ x Md

39
Există anumite reguli care permit aprecierea gradului de împrăştiere a
scorurilor în jurul mediei, utilizându-se acest coeficient. Un coeficient de
variaţie mai mic de 15% indică un grad de împrăştiere redus, media fiind un
bun indicator al tendinţei centrale; un coeficient de variaţie cuprins între
15% şi 30% arată o împrăştiere moderată, caz în care reprezentativitatea
mediei este satisfăcătoare; un coeficient de variaţie de peste 30% arată o
împrăştiere mare, media nemaifiind un bun indicator pentru tendinţa
centrală.

Obţinerea indicatorilor împrăştierii în SPSS

Folosim pentru exemplificare fișierul „IQ.sav” format din trei


variabile: sexul o variabilă nominală, vârsta și coeficientul de inteligență
două variabile scalare.

Mergând pe calea de determinare a indicatorilor statistici utilizată și


pentru indicatorii tendinței centrale: adică Analyse/ Descriptive statistics/
Frequencies. Se deschide fereastra de dialog în care vom transfera în câmpul
Variable(s) iq (coeficientul de inteligență) și vârsta (vârsta subiecților).
Deschidem procedura Statistics prin apăsarea butonului Statistics...ce ne dă
posibilitatea de a-i cere programului să calculeze indicatorii statistici doriți:
bifăm Medie, Mediană și Mod pentru tendința centrală iar pentru dispersie
Range, Min, Max, Varianța, Abaterea standard și Quartilele. Apăsând
Continue și OK obținem:

40
Rezutatul obținut în tabelul Statistics ne dau informațiile dorite în calculul
indicatorilor tendinței centrale și ai împrăștierii.

Indicatori ai formei distribuției


Curba normală (Gauss) Curba normală standardizată

Să abordăm în detaliu conceptul de distribuție normală. Vom începe


cu un exemplu: dacă am avea posibilitatea să măsurăm înălţimea tuturor
bărbaţilor din România, am observa că există foarte puţini pitici şi foarte
puţini giganţi; ceva mai mulţi oameni mici şi, la fel, ceva mai mulţi oameni
foarte înalţi, iar cei mai mulţi oameni sunt de statură medie. Care ar fi,
aşadar, probabilitatea ca să întâlnim în populaţia masculină un gigant? Foarte
mică. Ceva mai mare ar fi probabilitatea de a întâlni în populaţie un om
înalt şi foarte mare probabilitatea să întâlnim, de exemplu, un om cu
înălţimea de 178 centimetri, înălţime medie. Dacă am reprezenta grafic,
printr-un grafic cu bare, înălţimea tuturor bărbaţilor din România, am obţine
o figură asemănătoare cu figura de mai jos.

Această distribuţie este o distribuţie normală şi poate fi evaluată numai în


cazul unei variabile continue. De aceea, distribuţia normală se mai numeşte
şi distribuţie continuă. O distribuţie normală este pe deplin caracterizată de
41
medie, ca indicator al tendinţei centrale şi de abaterea standard, ca indicator
al dispersiei. Aceşti doi indicatori poartă numele de parametri ai repartiţiei
normale. Dacă cunoaştem media şi abaterea standard, putem oricând calcula
probabilitatea de apariţie a unei valori particulare în această distribuţie.
Distribuţia normală a fost descrisă prima dată de Ch. Fr. Gauss
(1777-1855) şi de aceea distribuţia normală se mai numeşte şi distribuţie
gaussiană. Deoarece la demonstrarea acestui concept a participat şi P.S.
Laplace (1749-1827), în literatura de specialitate se va întâlni şi termenul de
distribuţie gauss-laplace. Toţi aceşti termeni se referă la acelaşi lucru,
distribuţia normală.
Pentru ca o distribuţie să fie considerată normală, vor trebui
îndeplinite simultan următoarele condiţii:
• Să fie unimodală – adică să existe un singur mod, o singură categorie cu
frecvenţă maximă;
• Să fie simetrică faţă de medie – adică să nu fie deplasată spre stânga sau
spre dreapta;
• Să fie normal boltită – adică să nu fie nici ascuţită (foarte omogenă) şi nici
turtită (foarte eterogenă).
O distribuţie perfect normală are aceeaşi valoare pentru toţi cei trei
indicatori ai tendinţei centrale (media, mediana şi modul), adică media =
mediana = mod. În practică, acest lucru se întâlneşte extrem de rar şi, de
aceea, ne punem problema între ce limite putem considera o distribuţie ca
fiind normală.

Modalitatea

O distribuţie normală este o distribuţie unimodală, adică există doar o


singură categorie cu frecvenţa maximă. Prezenţa a două sau mai multe valori
modale determină distribuţii bimodale, trimodale, în general polimodale
(multimodale), distribuţii ce nu pot fi considerate ca fiind distribuţii normale.

Simetria

O distribuţie este simetrică, dacă valorile sunt egal (simetric)


răspândite în jurul tendinţei centrale. Atunci când rezultatele tind către valori
mici, sunt aglomerate în partea stângă a distribuţiei, avem de a face cu o
distribuţie asimetrică spre dreapta (sau distribuţie cu skewness pozitiv). Când
rezultatele tind către valori mari, se aglomerează în partea dreaptă a
distribuţiei, vorbim despre o distribuţie asimetrică la stânga (skewness
negativ). Iată că asimetria este dată de panta distribuţiei şi nu de vârful
acesteia.
42
În figura de mai sus, distribuţia „B” este o distribuţie simetrică.
Distribuţia „A” este o distribuţie asimetrică la dreapta (skewness pozitiv),
unde predomină scorurile scăzute, în timp ce distribuţia „C” este o distribuţie
asimetrică la stânga (skewness negativ), în care predomină scorurile mari
.
Boltirea sau excesul

Există şi un fel de „asimetrie verticală” sau boltire. Termenul folosit


generic pentru acest concept este termenul de kurtosis (din limba greacă,
kurtos = „cocoşat”). Practic, boltirea se referă la aspectul „cocoaşei”
distribuţiei rezultatelor. Cocoaşa poate fi ascuţită şi atunci putem vorbi de o
distribuţie ascuţită sau leptocurtică, poate fi turtită, distribuţia turtită, plată
sau platicurtică sau normală, distribuţie mezocurtică. O distribuţie normală
este întotdeauna o distribuţie mezocurtică.

În figura de mai sus, distribuţia „C” este o distribuţie leptocurtică,


ascuţită. Distribuţia „B” este o distribuţie platicurtică, turtită, iar distribuţia
„A” este o distribuţie normală sub aspectul boltirii sau mezocurtică.

Caracterizarea distribuţiei normale

Afirmam, în subcapitolul anterior, că media şi abaterea standard


caracterizează pe deplin o distribuţie normală. Teoretic, există un număr
infinit de abateri standard la dreapta şi la stânga mediei. Practic, considerăm
că o distribuţie normală are un număr de şase abateri standard: trei la dreapta
mediei şi trei la stânga mediei, deoarece volumul de populaţie care rămâne în
afara acestor limite este nesemnificativ şi poate fi ignorat. La o distribuţie
perfect normală, jumătate din rezultate se situează în dreapta mediei

43
(rezultatele mari) şi jumătate din rezultate se situează în stânga mediei
(rezultate mici).
Între o abatere standard la stânga mediei şi o abatere standard la
dreapta mediei, întâlnim aproximativ 68% din populaţie (mai precis 68,28%,
cu 34,13% între medie şi o abatere standard la stânga şi tot 34,13% între
medie şi o abatere standard la dreapta). Aceasta este zona normală, zona în
care rezultatele pot fi considerate tipice. Dacă luăm, ca exemplu, coeficientul
de inteligenţă, în această zonă se află persoanele considerate normale sub
aspect intelectual.
Între două abateri standard la stânga mediei şi două abateri standard
la dreapta, întâlnim aproape 95% din populaţie (mai precis 95,44% cu
47,72% între medie şi două abateri standard la stânga şi 47,72% între medie
şi două abateri standard la dreapta.). Zona între o abatere standard şi două
abateri standard, atât la stânga cât şi la dreapta, este zona rezultatelor
accentuate şi cuprinde, fiecare, câte 13,59% din populaţie.
Între trei abateri standard la stânga mediei şi trei abateri standard la
dreapta mediei, întâlnim aproximativ 99% din populaţie (mai precis 99,74%
cu 49,87 % între medie şi trei abateri standard la stânga şi 49,87% între
medie şi trei abateri standard la dreapta). Această zonă, între două și trei
abateri la stânga și la dreapta este zona rezultatelor atipice. Zona între două
abateri standard la stânga şi trei abateri standard la stânga, în cazul variabilei
coeficient de inteligență, este zona deficienţilor mintali, cu un intelect extrem
de redus. În această zonă, întâlnim 2,15% din populaţie, acelaşi procent ca şi
în zona situată între două şi trei abateri standard la dreapta, zona celor cu o
inteligenţă deosebită, a persoanelor supradotate. Iată că, între deficienţii
mintali şi supradotaţi întâlnim aproape întreaga populaţie, peste 99%. Mai
rămâne, aproximativ 1% din populaţie (mai exact 0,26%), situată fie după trei
abateri standard la stânga (0,13%), fie după trei abateri standard la dreapta
(0,13%). Aceasta este zona rezultatelor aberante, zonă în care găsim mai
puţin de 1% din populaţie.
Desigur, putem caracteriza distribuția normală matematic ca fiind
graficul curbei:
−1 2
( x−m )
1 2

y= e2 σ
σ √2 π
unde m este media iar σ este abaterea standard.

Reprezentări grafice

Reprezentările grafice sunt forme facile de prezentare a unor


caracteristici ale variabilelor. Programele computerizare, în particular SPSS-
ul oferă posibilități multiple de reprezentare a datelor luate separat sau
44
comparativ. Nu trebuie să se abuzeze de modalitățile de prezentare,
recomandându-se ca prin ele să fie scoasă în evidență variabilitatea
comparată a mai multor variabile și nu abilitățile de prezentare ale editorului.
Există multe forme de expresie grafice, cele mai des utilizate cu SPSS sunt:
 Graficele de tip bară
 Grafice linie poligonală
 Histograma
 Grafic circular
 Grafic de tipul tulpină și frunze (stem-and-leaf)
 Graficul de tipul boxplot
 Grafic sub formă de nor de puncte (scatter)

Graficele de tip bară

Se folosesc în general pentru prezentarea distribuției de frecvență a


unei variabile nominale sau ordinale. Forma lor este de dreptunghiuri de
aceeași lățime între care este un anumit spațiu.
Exemplu Considerăm un eșantion în care avem o variabilă: genul biologic iar
alta: grupele de vârstă. Pentru a reprezenta frecvența acestora prin graficul cu
bare alegem calea: Graphs/Legacy Dialogs/Bar unde selectăm Simple iar în
câmpul Data in Chart Are alegem Summaries for groups of cases și apăsăm
Define.

Trecem în câmpul Category Axis variabila nominală Genul Biologic iar


pentru reprezentare grafică, adică în câmpul Bars Represent alegem
frecvența adică N of cases și OK. Obținem în output graficul:

45
Putem face modificări în acest grafic prin dublu-clic pe el, caz în care
se deschide o nouă fereastra Chart Editor în care avem opțiuni de a modifica
dimensiunile, (Edit/Properties/Bar Option) culoarea barelor
(Edit/Properties/Fill&Border), să apară frecvența și procentul
(Edit/Properties/Bar Option/Data Value Labels), să avem un titlu sau un
subtitlu (Option/Title).

Apelând la varianta în care la procedura Define Simple Bar:


Summaries for Groups of Cases folosim câmpul Panel by unde trecem
variabila nominală Genul Biologic (la Rows sau Columns) iar în câmpul
Category Axis variabila Grupe de vârstă. Evident putem alege în câmpul
Bars Represent care să fie înțelesul barelor: frecvența (N of cases) cum am
mai făcut sau procentele (% of cases) ambele simple sau cumulate sau alți
indicatori statistici.

46
Rezultatul obținut este:

Separat, fiecare din graficele de mai sus se poate obține și dacă


puneam o condiție de selecție al bazei de date pe calea Data/Select Cases
selectând întâi condiția Genul biologie=1, apoi 2.
Mai ilustarative sunt graficele în care apar valorile unei variabile pe
fiecare din categoriile altei variabile. Adică dorim să exprimăm numeric sau
procentual subiecții de o anumită grupă de vârstă în funcție de genul
biologic. Pentru aceasta la fereastra Bar Chart (obținută pe calea
Graphs/Legacy Dialogs/Bars selectăm Clustered sau Stacked cu aceeași
alegere în câmpul Data în Chart Are adică: Summaries for groups of cases
terminând cu Define. Introducem la Category Axis variabila grupe de vârsta
iar la Define Clusters by: variabla Genul biologic apoi OK.
Obținem comparativ cele două grafice:

47
Grafice de tip linie poligonală

Pentru o variabilă nominală sau ordinală sunt reprezentate pe axa OX


valorile variabilei ordonate numeric sau alfabetic, iar pe verticală frecvența
absolută, relativă sau frecvențele cumulate. Punctele astfel obținute sunt
unite prin o linie poligonală.
Exemplu. Evident o linie poligonală este reprezentativă dacă avem mai multe
categorii. Să presupunem că pe lângă variabilele folosite mai sus: Genul
subiecților, Grupele de vârstă am mai înregistrat o variabilă scalară: Venitul
subiecților. O linie poligonală doar cu variabila Genul biologic nu ar fi decât
un segment ce unește (în cazul frecvenței absolute) puntul de pe verticala
corespunzătoare genului masculin având înălțimea 20 cu punctul
corespunzător de pe verticala genului feminin având înălțimea de 30.
Mergem pe calea: Graphs/Legacy Dialogs/ Line unde alegem Simple și în
câmpul Data în Chart Are bifăm (este implicit) Summaries for groups of
cases iar apoi Define. La Category Axis luăm variabila Genul biologic și OK.
Pentru comparație vom repeta procedura cu variabila Grupe de vârstă în
locul Genului biologic. Cum SPSS-ul poseda un buton foarte util care poate
relua dialogurile statistice anterioare, acesta este îl vom folosi pentru a
repeta procedura cu variabila a doua. În output obținem graficele tip linie
poligonală:

Programul nu ia valorile frecvențelor de la 0, dar, dacă se dorește, în


Chart Editor la Properties/Scale selectând prin dublu-clic scala (ce se

48
dorește modificată) putem să-i schimbăm minimul sau maximul ca apoi prin
Apply aceasta să-și facă efectul.

Programul încearcă implicit să optimizeze graficul după considerente


estetice. Acum să facem un grafic tip linie poligonală care să definească
frecvențele variabilei Grupe de vârstă structurată pe cele două genuri
biologice. Să facem acesta pe altă cale folosind constructorul de grafice
Chart Builder. Așadar selectăm calea: Graphs/Chart Builder care ne duce la
fereastra:

Vedem aici mai multe câmpuri: câmpul Variables ce conține toate


variabilele bazei, un câmp de previzualizare a formei graficului, unde prin
tragere cu mousul din expunerile din galerie ne găsim graficul convenabil iar
în partea de jos meniul Gallery ce conține tipurile de grafice. Odată ales tipul
de grafic, în cazul nostru Line vedem că putem face două tipuri: simple sau
multiple. Tragem pictograma cu linii multiple în zona Chart Preview pe axa
X tragem din zona Variables Grupe de vârstă iar în zona Set color tragem
variabila Genul biologic. Activând butonul Element Properties putem alege
din câmpul Statistics frecvența (count) procentul (Percentage) simple sau
cumulate. O verificare a corectitudinii graficului este făcută de SPSS prin
activarea/inactivarea butonului OK. Obținem graficul despre care acum știm
49
cum să-i punem titlu subtitlu sau note de subsol sau să-i punem la fiecare
unghi al liniei poligonale frecvența, procentul, să schimbăm culoarea, forma
sau grosimea liniei.

Cu linia poligonală putem reprezenta și variabilele scalare. Alegem


graficul tip linie poligonală simplă, pe axa X variabla categorială Grupe de
vârstă iar apoi în al doilea grafic cu variabila Genul biologic, iar pe axa Y
variabila scalară, care atunci când o tragem vedem că putem alege între
medie, mediană (alte caracteristici prin Element Properties câmpul
Statistics). Rezultatul este:

Mai general aplicând media veniturilor pe categorii de vârstă și gen


biologic, adică procedura de mai jos obținem:

50
Histogramele

Grafice asemănătoare cu cele cu bară dar ele pot fi aplicate si


variabilelor scalare. De exemplu pentru variabila venit din fișierul de mai sus
vom alege calea: Graphs/Legacy Dialogs/Historgam. Trecem în câmpul
Variable variabila Venit, avem opțiunea de a înscrie pe grafic și curba
normală corespunzătoare mediei și abaterii standard a curbei analizare bifând
opțiunea Display normal curve.

Programul împarte variabila în intervale egale considerând frecvența


pe fiecare dintre ele. De exemplu analizând histograma variabilei Venit în
intervalul 2000-2500 avem 9 subiecți. Evident putem verifica ordonând
crescător variabila venit în baza de date (selectăm in modulul Data View
variabila venit și clic-dr unde alegem dăm clic pe Sort Ascending):

51
O variantă prin care putem să obținem o histogramă este cea dată de
constructorul de grafice. Aici pe calea Graphs/Chart Builder selectăm din
Gallery Histogram și o tragem în spațiul preview, apoi selectăm variabila
venit și o plasăm pe axa x. Pe cealaltă axa se dispune frecvența. Dacă dorim
împărțirea în mai multe/mai puține intervale acesta se poate face prin Chart
Editor selectăm dreptunghiurile histogramei și atunci la Properties apare
Binning care permite pe axa x alegerea automată sau alegerea după anumite
criterii dorite (numărul de intervale egale, lățimea intervalului). Tot aici la
aceeași selectare a dreptunghiurilor histogramei se activează butonul Show
Distribution Curve care apăsat deschide dialogul:

Putem alege una din distribuțiile afișate sau să introducem în câmpul


Parameters la varianta Custom media și abaterea standard pentru variabila
analizată.

Graficele circulare

Se folosesc în general pentru prezentarea frecvențelor sau a


procentelor unei variabile nominale sau ordinale cu un număr scăzut de
cazuri.
52
Aria sectoarelor de cerc este proporțională cu mărimea frecvenței sau
a procentului. De exemplu folosind constructorul de grafice alegem din
Gallery Pie pe care o glisăm în câmpul preview. Apoi ducem pe rând în
câmpul Slice by? Variabila Genul biologic apoi Grupe de vârsta. Obținem în
output, desigur intervenind și în Chart Editor:

Grafic de tipul tulpină și frunze (stem-and-leaf)

Acest tip de grafic oferă o imagine elocventă asupra valorilor


distribuției scalare pe care le împarte în intervale, tulpini, fiecare valoarea
din un interval fiind o frunză. Să exemplificăm pe variabila de 50 de valori
venit. Calea de obținere se face prin: Analyze/Descriptive Statistics/Explore
unde trecem la Dependent List variabila de analizat și apăsăm butonul Plots
unde la în câmpul Descriptive bifăm Stem-and-leaf apoi Continue și OK.

Rezultatul din output este:


Frequency Stem Leaf
9,00 2 . 002224444
5,00 2 . 56689
5,00 3 . 02224
6,00 3 . 555568
2,00 4 . 02
3,00 4 . 678
5,00 5 . 11334
4,00 5 . 6688
53
6,00 6 . 001112
2,00 6 . 57
3,00 7 . 124
Stem width: 1000
Each leaf: 1 case(s)
Pentru că tulpina (Stem) este 1000 înmulțim valorile din coloana Stem cu
1000 și adăugam frunzele (Leaf). Așadar cele mai mici numere din sir sunt
2000 de două ori, iar cele mai mari sunt 7002 și 7004. Evident reprezentarea
ce îmbină expresia numerică cu cea grafică era utilă înaintea apariției
statisticii pe calculator.

Grafice de tipul boxplot

În acest tip de grafic avem informații asupra valorilor distribuției.


Dreptunghiul din mijlocul graficului include 50% din valorile variabilei
cantitative de la cvartila Q1 la cvartila Q3. El are și un segment intern ce este
valoarea medianei sau Q2. Dacă notăm cu H abaterea intercvartilică (H=Q3-
Q1), atunci graficul boxplot mai trasează două segmente orizontale la
Q3+1/2H și la Q1-1/2H numite mustăți. Valorile aflate dincolo de aceste
limite sunt considerate valori marginale sau extreme. Dacă nu există astfel de
valori atunci multățile se trasează în valorile minimale sau maximale.
Exemplu. Considerând o bază de date cu variabilele grupe de vârste, venit,
salar înainte de majorare și înălțimea unui eșantion de 50 de subiecți (baza
folosită și în celelalte reprezentări grafice) să vedem cum obținem boxplot-
ul.
Calea este Graph/Chart Builder unde alegem din Gallery Boxplot și glisăm
în zona preview pictograma Simple Boxplot.

Pe axa Y putem targe pe rând variabilele scalare venit, înălțime. Rezultatul


apare:

54
Avem semnalate valori marginale: la variabila venit înregistrarea 6
iar la variabila înălțime înregistrările 1, 2 și 6. Mai mult la variabila venit
avem înregistrarea 2 ca valoare extremă. Putem ajunge direct la aceste valori,
eventual pentru a le verifica sau corecta prin Edit/Go to Case sau butonul din
meniul central .
În situația în care avem și o variabilă nominală sau ordinală putem
face boxplotul variabilei scalare pe fiecare din cazurile variabilei categoriale.
În aceeași configurație ca mai sus plasăm pe axa X variabila categorială. De
exemplu dorim să facem boxplot-ul variabilei salar înainte de majorare pe
categoriile variabilei Grupe de vârsta. Putem alege și calea Graphs/Legacy
Dialogs/ Boxplot.

Aici alegem Simple și Summaries for groups of cases și Define. În noul


dialog:

trecem în câmpul Variable variabila Salariu înainte de majorare iar in


câmpul Category Axis variabila Grupe de vârstă apoi OK. Dacă introducem

55
în câmpul Panel by variabila genul biologic putem obține un rezultat care
analizează pe cele două genuri variabila considerată:

Grafic sub formă de nor de puncte (scatter)

De multe ori în anumite proceduri statistice suntem interesați de a


decide dacă există o relație de liniaritate între două variabile cantitative. De
exemplu în baza în care avem variabilele scalare venit și salariu înainte de
majorare dorim să vedem dacă există o relație liniară între aceste variabile.
Vom merge pe calea: Graphs/Legacy Dialogs/Scatter/Dot ce ne aduce la
dialogul:

Alegem Simple Scatter și apăsăm Define. Obținem fereastra în care


vom transfera pe axa X variabila Salariul înainte de majorare iar pe axa Y
variabila venit.Obținem graficul din puncte:

Evident nu putem vorbi de liniaritate între cele doua variabile. Dacă


mai considerăm o variabilă: Cheltuielile lunare pentru alimente probabil că
putem arăta o legătură liniară între acestea și venituri:

56
Se vede între cele două variabile o relație liniară.

57
Statistica inferențială
Distribuții reale și distribuții normale z

Repartiția normală nu corespunde în general multor fenomene din


natură. Totuși măsurătorile legate de plante și animale au aproximativ formă
normală. Nevoia de comparare a unor scoruri pentru distribuții normale
diferite a impus aducerea acestora, prin transformări la valori apropiate.
Adică, fără a-i diminua caracteristicile variabilei putem sa definim o variabilă
ce are media 0 și abaterea standard 1, așa numitele note z. Calculul notelor z
se face după formula:
X −m
z=
s
unde X sunt valorile variabilei iar z notele z ale variabilei X.
Exemplu: Să calculăm notele z pentru variabila iq (coeficient de inteligentă) și
vârstă din fișierul SPSS folosit la pagina 35. Vom merge pe calea
Analyse/Descriptive Statistics/Descriptives

În fereastra deschisă trecem variabilele, cărora dorim să le cunoaștem scorul


z, în câmpul Variable(s) în cazul nostru Coeficientul de inteligență și Vârsta
subiecților și bifăm Save standardized values as variables. Implicit sunt bifate
la Option media, abaterea standard. Rezultatul este definirea unor noi
variabile notată z(numele variabilei) și apărută în baza de date.

Putem verifica proprietățile enunțate pentru scorurile z calculând pentru


noile variabile media și abaterea standard:

58
Distribuția de eșantionare

Modelul cercetărilor științifice se bazează pe investigarea unuia sau a


mai multor eșantioane pentru a verifica anumite ipoteze în legătură cu
populațiile din care acestea au fost extrase. Dacă fiecare din cele n
eșantioane are câte o medie, atunci distribuția valorilor alcătuită din aceste
medii se numește distribuția medie de eșantionare. Media ei se numește
media de eșantionare iar împrăștierea distribuției de eșantionare (eroarea
standard a mediei).
Distribuția (medie) de eșantionare nu are aceeași împrăștiere ca
distribuția valorilor individuale ale variabilei de origine. Aceasta deoarece la
nivelul fiecărui eșantion, o parte din împrăștierea totală este absorbită de
fiecare eșantion în parte.
Ca urmare abaterea standard a distribuției de eșantionare este o
fracțiune din abaterea standard a populației, fiind dependentă de mărimea
eșantioanelor.
Abaterea standard a mediei de eșantionare este denumită eroare
standard a mediei și se calculează:
σ
sm = unde σ este abaterea standard a populației, iar N volumul
√N
eșantionului
Cum în practică lucrăm cu un singur eșantion vom considera s abaterea
s
standard a sa deci sm = .
√N
Cunoscând eroarea standard a mediei, putem acum estima limitele
între care găsim media populaţiei (µ) la un interval de încredere de 95%. După
cum ştim, în termeni de abateri standard, pe o distribuţie normală, intervalul
de încredere corespunzător nivelului de 95% este situat între +/- 1,96 abateri
standard. Particularizând, intervalul de încredere al mediei teoretice poate fi
calculat după formula:
μ= x́ ∓ 1,96 s m
Exemplu Dacă media înălțimii a 30 de subiecți este 179,9 cu eroarea standard
a mediei de 1,22 găsim limita inferioară a intervalului de încredere:179,9-
1,96x1,22=177,51 iar limita superioară 179,9+1,96x1,22=182,29. În concluzie

59
putem spune că înălțimea populației masculine din tara noastră va avea media
în intervalul [177,51;182,29].
Enunțăm următoarele adevăruri statistice fundamentale cunoscută in
literatura de specialitate ca teorema limitei centrale. Ea spune că cu cât
numărul eșantioanelor dintr-o populație este mai mare cu atât media
distribuției de eșantionare se apropie de media populației. Distribuția mediei
de eșantionare se supune legilor curbei normale chiar și atunci când
distribuția variabilei la nivelul întregii populație nu are caracter normal cu
condiția ca volumul eșantioanelor sa fie suficient de mare
Teorema limitei centrale este adevărată în următoarele condiții:
a. eșantioanele sunt aleatorii sau neafectate de erori (bias)
b. valorile care compun eșantioanele sunt independente
c. eșantioanele au același volum.
Se considera un eșantion mare dacă are cel puțin 30 subiecți

Ipotezele metodei științifice

Banca Prosperity dorește să realizeze un experiment de marketing


pentru a vedea dacă există o influență în ce privește numărul de depozite la
termen deschise de clienți și locația fiecărei filiale din București. Adică se
dorește confirmarea sau infirmarea faptului că există o legătură între locație
și numărul depozitelor deschise.
O cercetare științifică se bazează pe estimarea unui rezultat așteptat,
numit ipoteză. O ipoteză reprezintă o prezumţie clară, explicită şi
verificabilă referitoare la relaţiile sau diferenţele existente între două sau
mai multe variabile. În cazul nostru cercetătorul se așteaptă să fie o legătură
în sensul că locațiile plasate în puncte aglomerate, centrale, să beneficieze de
o deschidere de conturi mai mare decât cele plasate în suburbii. Acest
rezultat „așteptat”, „prefigurat” se numește ipoteza cercetării sau ipoteza
alternativă, fiind codificată H1. Simbolic putem scrie
H 1 → x centru
´ ≠ x perif
´ ,
unde x centru
´ reprezintă media conturilor deschise pe o perioada de timp la
filialele centrale, iar x perif
´ media pentru filialele periferice.
Pentru a decide cu privire la ipoteza cercetării, trebuie să evaluăm
probabilitatea ca media eșantionului cercetării să fie rezultatul hazardului de
eșantionare. Procedura statistică ce se bazează pe acest raționament se
numește „ipoteza de nul”. Ea se notează cu H0 și are simbolic descrierea:
H 0 → x centru
´ = x perif
´
Avem doar două formulări statistice corecte:
 respingem ipoteza de nul
 nu respingem ipoteza de nul
60
Se respinge ipoteza de nul dacă probabilitatea să fie adevărată este
mică: pragul postulat de Fisher este de 0,05. Mai există și pragul de 0,01.
Cele două praguri reprezintă probabilitatea ca ipoteza nulă să nu fie respinsă.
El se notează cu p, iar respingem ipoteza nulă dacă p<0,05.
Chiar dacă pragul de semnificaţie creează condiţiile respingerii
ipotezei nule, totuşi nu vom putea niciodată afirma cu certitudine că
susţinem ipoteza alternativă. În cercetarea ştiinţifică, deşi condiţiile de
semnificaţie statistică pot fi îndeplinite, este posibilă apariţia a două tipuri de
erori: putem respinge ipoteza nulă, iar în realitate ea să nu îndeplinească
condiţiile de respingere la nivelul populaţiei, sau putem să nu respingem
ipoteza nulă, în situaţia în care ar trebui respinsă.
Pentru a ne lămuri asupra celor două tipuri de erori vom relata
povestea următoare (Ovidiu Lung)
„A fost odată un împărat care avea obiceiul să poarte multe
războaie. Înainte de a merge la război, împăratul nostru îl chema pe
vrăjitorul curţii şi îl punea să-i prezică soarta bătăliei. De fiecare dată,
bietul vrăjitor era în mare impas, deoarece, dacă greşea previziunea, risca
să-şi piardă capul, cum o păţiseră mulţi alţii înaintea lui. Totuşi, vrăjitorul
avea mulţi ani de când îşi păstra capul pe umeri, iar predicţiile acestuia,
uneori, se dovedeau a fi adevărate.

Să analizăm acum tabelul de mai sus. Observăm că există un număr de patru


situaţii:
1. Vrăjitorul a prezis că împăratul va câştiga bătălia şi împăratul a
câştigat-o. Vrăjitorul a obţinut o nouă avere şi respectul împăratului;
2. Vrăjitorul a prezis câştigarea bătăliei şi împăratul a pierdut-o. S-a
comis astfel o eroare de tip I, respingându-se ipoteza nulă când, de
fapt, ar fi trebuit acceptată. Şi-a pierdut şi averea şi capul.
3. Vrăjitorul a prezis pierderea bătăliei şi împăratul a câştigat-o. S-a
comis acum o eroare de tip II, nerespingând ipoteza nulă în condiţiile
în care ar fi trebuit respinsă. În bucuria victoriei, împăratul s-ar putea
să-i cruţe capul vrăjitorului, însă va pierde respectul şi o parte din
avere.
4. Vrăjitorul a prezis pierderea bătăliei şi împăratul a pierdut-o. Din
fericire, şi-a păstrat şi capul şi averea.
61
După cum aţi putut observa, eroarea de tip I este situaţia în care un cercetător
respinge ipoteza nulă în condiţiile în care aceasta nu ar fi trebuit respinsă, iar
eroarea de tip doi este situaţia în care nu se respinge ipoteza nulă, deşi ar
trebui respinsă.
Testarea normalității unei distribuții

Toate metodele statisticii parametrice (testele t, corelația, ANOVA,


regresia liniară etc.) au la bază condiția de normalitate a distribuției
variabilelor cantitative.
Putem verifica normalitatea unei variabile grafic sau statistic:
- Grafic se reprezintă histograma comparându-se curba normală. De exemplu
dacă dorim să cercetăm normalitate variabilei iq putem alege calea:
Analyse/Descriptive statistics/ Frequencies. La butonul Charts alegem
Histograms și bifăm Show normal curve on histogram, Continue și OK.

Rezultatul în output este graficul sub formă de histogramă pe care


este reprezentată curba normală caracterizată de media și abaterea standard a
variabilei analizate. Ca orice demers grafic și acesta este destul de subiectiv,
existența a două valori modale ne indică faptul că nu avem o distribuție
normală.
- Statistic prin testul Kolmogorov-Smirnov sau Shapiro-Wilk. Calea este
Analyze/Nonparametric Tests/Legacy Dialogs/1-Sample K-S. Trecem în
câmpul TestVariable List variabila pe care dorim să o testăm, iar în câmpul
Test Distribution avem implicit bifată Distribuția normală.

62
Rezultatul este tabelul de unde avem p=0,201 deci p>0,05 prin
urmare nu respingem ipoteza de nul. (H0 „nu există nicio diferență între
distribuția normală și distribuția variabilei considerate”).
O alta cale pentru studierea normalității este Analyse/Descriptive
Statistics/Explore unde trecem în zona Dependent List variabila de analizat,
butonul Plots ne permite să bifăm testarea normalității, la Normality plots
with tests.

rezultatul fiind tabelul:

Cum cele două teste sunt ambele semnificative (p<0,05) cea ce ne


conduce la decizia de a respinge ipoteza de nul, adică variabila nu este
normală. Ce decizie vom lua în această situație? Singura informație pe care o
avem este faptul că pentru un eșantion sub 50 de cazuri testul Shapiro-Wilk
este mai puternic decât K-S deci vom prezenta în documentul final de
analiză doar rezultatul S-W care este semnificativ statistic, (p=0,001) adică
este diferență între distribuția variabilei considerate și distribuția normală.
Calea care am prezentat-o pentru analiza normalității se pretează la analiză
normalității pe cazurile unei variabile categoriale, ipoteze ce ne vor fi
necesare în unele teste statistice. De exemplu să analizăm normalitatea
variabilei iq pe fiecare din categoriile variabilei sex. Pentru S-W (evident
fiecare din categorii va avea un număr mai mic de 50 de cazuri, de toate sunt
30) apelam la calea Analyze/Descriptive Statistics/Explore, trecem in câmpul
Dependent List variabila Coeficient de inteligență iar în câmpul Factor list
variabila Genul biologic al subiecților. Ne asigurăm că la opțiunea Plots este
bifat Normality plots with tests iar la câmpul Display avem alese opțiunile
Plots sau Both, Continue și OK. Obținem rezultatul:

63
În cazul barbaților avem p=0,009<0,05 deci rezultatul este semnificativ,
adică variabila iq restricționată la subiecții bărbați nu este normală la fel și
pentru femei p=0,01<0,05.
Exemplu de analiză statistică descriptivă, analiza răspunsurilor multiple

Să analizăm prin statistica descriptivă răspunsurile la câteva întrebări:


1) V-ați propus să cumpărați în viitor un frigider?
sigur; posibil; nu stiu; nu
2) Când intenționați să cumpărați acest aparat?
0-3 luni; 3-6 luni; 6-9 luni; 9-12 luni; peste 1 an.
3) Ce performanță energetică așteptați de la noul produs?
sub 150kWh 150-250kWh 251-350kWh peste 350kWh
Avem de analizat trei variabile dintre care una nominala iar celelalte
ordinale. Pentru cea nominala alegem calea: Analyze/ Descriptive statistics/
Frecquencie. La statistics bifam modul iar la grafice Pie adică graficul
circular.Din output reținem:

Cum scriem:
La întrebarea: V-ați propus să cumpărați în viitor un frigider? au
răspuns 50 subiecți; 50% din ei si-au exprimat certitudinea (28%) sau
posibilitatea (22%) de a cumpăra un frigider iar 50% îndoiala de a
achiziționa un frigider dintre care 26% certitudine de a nu achiziționa un
frigider, 24% nu știu încă dacă fac achiziția.
Să analizăm în continuare opțiunile referitoare la performanțele
energetice ale posibilelor aparate cumpărate. Mergând pe aceeași cale găsim:

64
Pentru grafic am selectat graficul cu bare unde în Chart Editor am
adăugat frecvența absolută:

Cei mai mulți subiecți (16) consideră că frigiderul trebuie să consume


sub 15kWh. În procent 60% consideră că frigiderul trebuie să consume sub
250kWh anual.
Întrebați asupra intervalului de timp în care vor achiziționa frigiderul,
răspunsurile denotă două perioade de maxim: prima între 0-3 luni când și-au
arătat disponibilitatea de a cumpăra 22% din subiecți și a doua peste 6-9 luni
când 28% din subiecți preconizează să facă achiziția. În restul perioadelor

considerate procentul scade până la 14%, rezultând o distribuție neuniforma


pe parcursul întregului an.
Să mergem cu analiza mai departe și să vedem care sunt prefereințele
celor 50 de subiecți în ceea ce privește mărcile frigiderului. Pentru aceasta
trebuie să facem analiza răspunsurilor multiple obținute prin bifarea uneia
sau a mai multor mărci de frigidere agreate de subiecți. Au ales dintre mărci
următoarele: Artic, Zil, Zanussi Nei, Minsk, Whirlpool, Philips sau Altă
marcă, precizați care.
Am construit pentru fiecare din mărcile de mai sus o variabilă de tip
numeric, dihotomică (cu două valori: 1 pentru Da și 0 pentru Nu).

65
Pentru răspunsul: Altă marcă,... am alocat o variabilă de tip string în
care am înregistrat răspunsurile primite.

Apoi aceasta va fi transformată pe calea: Transform/Automatic


recode în o variabilă de tip numeric, nominală. În dialogul Automatic
Recode trecem în câmpul Variable New Name variabila string (o
recunoaștem după pictograma sa căreia îi alocăm un nou nume
Alta_marca_num și apăsăm Add New Name, apoi OK. Rezultatul ne
este anunțat în output unde avem și cazurile noii variabile.

Desigur, și în baza de date a apărut variabila Alta_marca_num cu


valorile specificate mai sus. Pentru a putea face analiza mai departe trebuie
să definim cele 6 variabile dihotomice rezultate din răspunsurile primite . O
modalitate ar fi de a selecta pe rând baza de date, filtrele rezultate fiind
tocmai variabilele dorite. Concret pe calea Data/Select Cases selectăm „If
condition is satisfied” și apăsăm If. Transferăm în câmpul de condiții
variabila „Alta_marca_num” și o egalăm cu 1 apoi Continue și OK

66
Programul introduce o variabilă filter_$ care are valoarea 1 pentru
cazul când variabila Alta_marca_num are valoarea 1 și 0 în rest. Rămâne să
redefinim variabila cu Daewoo și valorile 1 pentru Da și 0 pentru Nu, în
vechea variabilă avem 1 pentru Selected și 0 pentru Not Selected. Mai mult
la Label putem scrie întrebarea: Cumpărați Daewoo? Analog vom defini și
celelalte variabile rezultate în urma analizării întrebării deschise

Desigur după ce am terminat se revine la selectarea întregii baze de


date, adică: Data/Select Cases unde alegem All cases și OK.
In concluzie am definit variabilele dihotomice: artic, zil, zanussi, nei,
minsk, whirlpool, philips și cele care au rezultat din răspunsul la varianta:
Altă marcă, precizați care... unde au apărut: daewoo, domo, Ecg, Finlux, Lg
și Samus.
Vom arăta cum se face analiză răspunsurilor multiple pe calea:
Analyze/ Multiple Response/ Define Variable Sets. Trecem toate variabilele
de mai sus în câmpul Variables in Set. În câmpul Variables Are Coded As
bifăm Dichotomies cu valoarea pentru Da la Counted value adică 1. Vom
aloca un nume pentru acest set de variabile, fie acesta marci_preferate, îl
descriem în câmpul Label

67
și apoi apăsăm Add. Astfel am obțimut setul de răspunsuri multiple notat de
program cu $marci_preferate ce apare în câmpul Multiple Response Sets.
Închidem dialogul cu Close.
Pentru analiza frecvențelor setului mergem pe calea: Analyze/
Mutiple Response/ Frequencies unde trecem în câmpul Table(s) for: setul
$marci_preferate și OK. Obținem tabelele:

Distribuția procentelor preferințelor este de la 10,2% pentru Artic


până la 15,7% pentru Zanussi și Nei. În opțiunile multiple ale subiecților cele
două mărci Zanussi și Nei figurează cu un procent de preferință de 63,3% în
timp ce Artic cu o preferință de doar 40,8%. Restrângând baza de date la cei
care au răspuns ca sigur sau posibil vor cumpăra un frigider (25 subiecți),
analiza răspunsurilor multiple nu implică modificări esențiale, ordinea
preferințelor rămânând aceeași. Evident restricția se face apelând la
Data/Select Cases unde cazurile avute în vedere le găsim punând condiția:
propunere _cumpărare<3.

68
Să vedem cum putem face analiza răspunsurilor multiple după
cazurile unei variabile nominale. De exemplu să cunoaștem preferințele în
alegerea frigiderului raportate la sexul subiecților. Analiza relativ la variabila
sex se face pe calea: Analyze/Multiple Response/ Crosstabs unde trecem la
rânduri setul $marci_preferate iar la coloane sexul.

Trebuie să alocăm prin Define Ranges valorile celor două categorii


ale variabilei sex (1 pentru minim și 2 pentru maxim) apoi Continue iar la
Option bifam procentele pe linii, coloane și total, închidem cu Continue și
OK. Obținem tabelul:

69
Să descriem frecvențele și procentele din tabelul de mai sus. Să luăm
de exemplu marca Artic care a fost preferată de 15 bărbați și numai de 5
femei, în procente de 75% respectiv de 25%. Din totalul bărbaților (32) cei
care au preferat Artic reprezintă 46,9%, iar din totalul femeilor (17) cele care
preferă Artic reprezintă 29,4%. În concluzie subiecții bărbați care preferă
Artic din toți subiecții reprezintă 30,6% iar la femei procentul este de 10,2%.
Analog pentru celelalte, desigur analiza se face pentru valorile extreme care
înseamnă câteva informații pentru departamentele de desfacere și
aprovizionare.

70
Teste parametrice pentru date cantitative
Testele t pentru un eșantion
Testul t pentru un eșantion sau z/t pentru un eșantion, testează media
unui eșantion față de media cunoscută a populației din care face parte.
Procedura: Analyze/Compare Means/One Sample T Test. Variabila testată se
trece în lista Test Variable(s). In zona Test value se înscrie media populației.
Caseta Option permite alegerea pragului de semnificație Confidence Interval
95% . Pentru rezultate avem două tabele
Exemplul 1. Am considerat un fișier cu variabila Media la bacalaureat:

Am aplicat în acest fișier testul t pentru un eșantion pentru variabila


Media la bac având ca si comparație media 7. Deschidem dialogul de pe
calea Analyze/ Compare Means/One-Sample T Test în care trecem în
câmpul Test Variable(s) variabila Media la bacalaureat iar la Test Value
valoarea 7 și OK.

Obținem în output tabelele:

Primul tabel prezintă statistica descriptivă a variabilei testate (N, media, ab.
standard, eroarea standard a mediei). Al doilea tabel include rezultatele
testului statistic. Coloanele tabelului prezintă: Valoarea testului t se raportează
71
cu primele două zecimale; df sunt gradele de libertate (N-1); sig(2-tailed) este
probabilitatea asociată valorii calculate a lui t care se notează uzual cu p,
notăm p<0,001 testul ne spune că este o probabilitate mai mică de 1/1000 de
a obține o valoare a lui t mai mare ca 83,65; Mean Difference este diferența
dintre media eșantionului și valoarea de referință; 95% Confidence Interval
for the mean difference reprezintă limitele intervalului de încredere pentru
diferența dintre media eșantionului și valoarea de referință.
m−μ
Indicelui de mărime a efectului se calculează d= . În cazul nostru
σ
1,8567
d= =2,8136 . In conformitate cu grila propusă de Cohen un indice de
0,6599
mărime a efectului mai mare decât 0,8 implict o diferență mare între media la
bacalaureat a eșantionului și media populației
Exemplul 2
Fabrica X își propune să vândă 1000 de produse în 3 luni și le distribuie la
50 de magazine câte 20 la fiecare, contabilizând după 3 luni vânzările. Se
cere să se verifice dacă media vânzărilor diferă semnificativ de 10 pe
magazin.
Construim o variabilă cu valori de la 0 la 20 ce reprezintă numărul de
produse vândute de fiecare din cele 50 de magazine.

Înregistrăm datele:

Aplicăm testul t pentru un eșantion cu valoarea testată 10.

72
Obținem tabelele:

Am obținut p=0,115>0.05, prin urmare nu putem respinge ipoteza de nul,


adică media vânzărilor pe două grupuri independente nu este diferită
semnificativ de 10.

Testul t pentru eșantioane independente

Testul t pentru eșantioane independente verifică dacă sunt diferențe


semnificative între mediile unei variabile scalare (considerată variabila
dependentă) calculate pe cele două categorii ale altei variabile nominale
(considerată variabila independentă).
Condițiile de aplicabilitate ale testului sunt:
- Variabila dependentă este o variabilă scalară care este normal
distribuită pe cele două categorii ale variabilei independente. Se
consideră că invalidarea condiției de normalitate nu afectează
rezultatul testului.
- Varianțele grupurilor trebuie să fie egale. Testarea lor se face cu
testul Levene, dar SPSS prevede și cazul de inegalitate al varianțelor
când testul ne furnizează o valoare ajustată a lui t.
Procedura: Analyze/Compare Means/ Independent –Sample T Test. In caseta
principală Test (variables) se trece variabila de analizat iar variabila
independentă în zona Grouping Variable. Programul afișează două semne de
întrebare care sugerează introducerea în zona Define group a etichetelor
celor două grupe apoi Continue si OK
Exemplul 1 Consider un fișier de 30 de subiecți care sunt împărțiți după
studii în două categorii (fără studii universitare cu eticheta 1 și cu studii
73
universitare cu eticheta 2). Aplicăm un test de inteligență rezultând variabila
scalară Coeficient de inteligență.

.
Obținem tabelul Group Statistics cu informații statistice descriptive
frecvențe, medii, abateri standard și erorile standard ale mediilor.

Următorul tabel prezintă rezultatul testului t de comparare a mediilor

Citind testul Levene de omogenitate al varianțelor avem F(28)=0,679,


p=0,417 , acesta este nesemnificativ, deci varianțele sunt presupuse egale.
Rezultatul testul t va fi luat de pe prima linie a tabelului, adică: t(28)=2,268,
p=0,031, ceea ce înseamnă că există diferențe semnificative între cele două
grupe. Mărimea efectului o calculăm după formula:
|m1−m2|
d=
2 2
( N 1−1 ) s 1+ ( N 2−1 ) s 2
√ ( N 1−1 )+ ( N 2−1 )
În cazul nostru d=2,3027. Acesta indică un nivel ridicat al mărimii
efectului, semn al faptului că studiile universitare au o importanță relavantă
în aprecierea coeficientului de inteligență.

74
Raportarea rezultatului. Am aplicat un test de inteligență pe un eșantion de
30 de subiecți dintre care 16 fără studii universitare iar 14 cu studii
universitare. Am obținut mediile m 1=108,25 respectiv m 2=114,86. S-a
verificat ipoteza statistică de nul prin care presupunem că nu există diferențe
semnificative obținute la testul de inteligență între cele două categorii. În
urma aplicării testului t pentru eșantioane independente s-au obținut
rezultatele: t=2,268, df=28, p=0,031 ceea ce ne permite să respingem ipoteza
de nul. În consecință putem spune că rezultatele la testul de inteligență sunt
influențate de studiile subiecților. Indicele de mărime al efectului este
d=2,3027 ce indică o asociere importantă (mare) între cele două variabile.
Intervalul de încredere (95%) pentru diferența dintre medii are valoarea
inferioară 0,638 și cea superioară 12,575.
Exemplul 2 Să se cerceteze dacă există o diferență semnificativă între media
vânzărilor produselor de panificație între două magazine ale aceleiași firme,
A, având înregistrările vânzărilor pe parcursul a trei luni.
Pentru baza de date în SPSS a celor două variabile am aplicat testul de
normalitate le calea: Analyze/Descriptive statistics/Explore unde la dialogul
deschis de butonul Plots am bifat Normality plots with tests:

Reținem testul Kolmogorov-Smirnov (preferabil pentru eșantioane mari)


care este nesemnificativ, prin urmare nu putem respinge ipoteza de nul, în
consecință variabila vânzări este normală pe fiecare din grupele variabilei
magazine. Fiind îndeplinite condițiile testului t pentru eșantioane
independente îl aplicăm obținând rezultatele:

Egalitatea varianțelor este îndeplinită, rezultatul la testul Levene este


nesemnificativ F(90)=0,683, p=0,411 iar testul t este la fel nesemnificativ,
t=1,49, df=90, p=0,14.

75
Așadar nu putem respinge ipoteza de nul, adică nu există diferențe
semnificative statistic între valoarea vânzărilor trimestriale de produse de
panificație între cele două magazine ale firmei A.

Testul t pentru eșantioane dependente

Testează diferențele pentru media a două valori măsurate ale aceleiași


variabile, pe aceiași subiecți, în două situații diferite. Câteva situații tipice: o
variabilă este măsurată pe aceiași subiecți la două intervale de timp diferite;
o variabilă este măsurată pe subiecți ce sunt într-o relație bine definită;
două variabile prezintă aspecte comparabile dar diferite fiind măsurate pe
aceeași subiecți.
Condiții de aplicabilitate implică normalitate variabilelor perechi ele
trebuind să fie cantitative măsurate pe scala Interval/Raport
Exemplul 1. Considerăm salariile unui eșantion de 50 de subiecți înregistrate
la angajare și după 2 ani. Ipoteza de nul ar concluziona că nu există diferențe
semnificative între mediile acestor variabile perechi. Să formăm baza de date
și să o supunem analizei normalității prin testul Kolmogorov-Smirnov:

Testul de normalitate este nesemnificativ statistic în K-S pentru Salariul


inițial avem F(50)=0,065, p=0,2 și pentru salariul curent avem F(50)=0,062,
p=0,2 prin urmare nu putem respinge ipoteza de nul, adică cele două
variabile perechi sunt normal distribuite.
Calea de aplicare a testului t pentru eșantioane perechi este: Analyze/
Compare Means/Paired Samples T Test. In caseta principală vom trece în
câmpul Paired Variables cele două variabile și declanșăm testul prin
apăsarea butonului OK.

76
Rezultatele conțin mai multe tabele, primul fiind cu informații statistice
descriptive: media, abaterea standard și eroarea standard a mediei.

Apoi se prezintă corelația Pearson dintre cele două variabile

In cazul nostru nu avem o corelație semnificativă, coeficientul de corelație


r=0,128, p=0,377. Ultimul tabel este cel al testului t pentru eșantioane
perechi și el este semnificativ, t(49)=12,616, p<0.05.

Cum pragul de semnificație asociat ne permite să respingem ipoteza de nul,


rezultă că există o diferență semnificativă între salariul de început si cel
curent, tabelul prezintă aceasta diferență a mediilor care este de 940,218
deviația standard, eroarea standard a mediei precum și limitele intervalului de
încredere în care se încadrează această medie cu o probabilitate de 95%. O
altă variantă de a concluziona că diferența intre medii este semnificativă este
de a vedea dacă 0 este sau nu în intervalul de încredere. Dacă 0 este în CI
atunci diferența nu este semnificativă.
Semnul negativ nu are importanță deoarece dacă am fi luat perechea formată
din variabila Salariul curent pe primul loc al perechii și Salariul inițial pe
locul al doilea, rezultatele ar fi fost aceleași doar cu semn pozitiv
m 2−m1
Pentru calculul mărimii efectului folosim formula: d= în situația
sD
noastră d=1,78 indică o diferență foarte mare.
Raportarea rezultatului Pentru 50 de subiecți au fost considerate valorile
salariului inițial și cel curent fiind înregistrate ca două variabile scalare cu
mediile: m 1=1510,04 și m 2=2450,26 . Am considerat ipoteza cercetării prin
care vrem să arătăm că există diferențe semnificative statistic între mediile
salariilor în cele două situații. Am aplicat pentru perechea formată din
variabilele Salariul inițial și Salariul curent testul t pentru variabile
77
dependente, obținând t=12,616, df=49, p<0.05. Acestea confirmă ipoteza
cercetării, mărimea efectului d=1,78 arătând că există o diferență mare,
puternică între mediile variabilelor în cele două situații. Limitele de
încredere pentru 95% ale diferenței mediilor se situează: pentru limita
inferioară la 790,449 iar pentru cea superioară la 1089,987, ce indică o
precizie mare ca diferența să rămână în aceleași limite la cercetarea unui alt
eșantion din aceeași populație.

Testul ANOVA unifactorial

Analiza de varianță este o metodă statistică de testare a diferențelor


dintre mediile a mai mult de două categorii de subiecți diferiți. Testul descrie
o situație asemanătoare cu testul t pentru eșantioane independente dar aici
putem avea mai mult de două grupe pentru variabila independentă, metoda
ANOVA One-way fiind o extindere a testului t
Condițiile de aplicabilitate sunt: variabila dependentă este cantitativă
măsurată pe scala interval/raport; variabila independentă este nominală sau
ordinală, având cel puțin trei categorii; variabila dependentă este normal
distribuită pe fiecare din categoriile variabilei independente; se indeplinește
condiția de omogenitate a varianțelor variabilei dependente pentru fiecare din
categoriile variabilei independente. Testarea se face cu testul lui Levene care
trebuie să fie nesemnificativ statistic (p>0.05). Există tendința de a lua în
considerare testul ANOVA chiar dacă nu este respectată condiția de
omogenitate a varianțelor.
Putem considera două etape în aplicarea testului ANOVA unifactorial. În
prima etapă verificăm dacă există diferențe între grupurile definite de
variabila independentă cu testul F. Dacă răspunsul este afirmativ va trebui să
recurgem la comparații multiple pemtru a vedea între care din grupuri avem
sau nu diferențe semnificative. Exisă două categorii de comparații:
planificate și neplanificate.
Testele planificate se mai numesc și contraste iar ele sunt ipoteze
unidirecționale stabilite anterior de cercetător. Dacă notăm cu m i ,i=1 ´, n
mediile celor n categorii ale variabilei independente, atunci vom numi
contrast expresia φ definită prin coeficienții de contrast a i , i=1 ´, n cu
formula:
n n
φ (a1 , a2 ,… , a n)=∑ ai mi , unde ∑ ai=0
i=1 i=1
În esență, un contrast este o combinație liniară a mediilor categoriilor cu
coeficienți cu sumă nulă.

78
De exemplu, pentru un experiment cu patru grupe G 1 , … ,G 4 putem compara
grupele G1 și G2 considerănd coeficienții (1,-1,0,0) sau considerănd ca G1
este grupul de control și dorim să vedem dacă celelalte (în sensul că media
lor) sunt diferite de acesta vom considera contrastul (3,-1,-1,-1).
Testele neplanificate (post hoc) verifică existanța unor diferențe
semnificative între toate perechile de grupuri ale variabilei independente.
Programul lucrează cu diferite teste neplanificate structurate pe criteriul
egalității varianțelor. Distingem două tipuri de proceduri neplanificate: unele
care testează diferența dintre fiecare pereche de medii și altele care identifică
submulțimi omogene de medii. Printre cele care au la bază prima procedură
putem enumera: LSD, Bonferroni, Sidak, Dunnett – cu cele 3 variante,
Tamhane, Games-Howell. Pentru a două procedură optează testeleR-E-G-W
F, R-E-G-W Q, S-N-K, Tukey b, Duncan, Waller-Duncan. Celelalte:
Scheffe, Tukey, Hochberg’s GT2, Gabriel au la bază ambele proceduri.
Alegerea testelor nu este unitară, mulți autori preferă pentru cazul egalității
varianțelor testul Tukey sau testele Bonferroni în situația în care numărul
categoriilor variabilei independente este redus. Alți autori aleg testele pe
criteriul egalității varianțelor și al diferenței dintre numărul subiecților
grupelor (subiecți egali, relativ egali, profund inegali). Pentru varianțe egale
și subiecti egali alegem Tukey, pentru subiecți relativ egali alegem Gabriel
iar pentru subiecți profund inegali alegem Hochberg’GT2. Pentru varianțe
inegale alegel Dunnett T3 pentru subiecți egali sau Games-Howell pentru
subiecți inegali.
Exemplu. Pornim de la o serie de observații din viața cotidiana prin care am
fi tentați să decidem că utilizarea internetului este în strânsă legatură cu
vărsta. Împărțim baza de date în trei categorii: tineri (18-30), adulți (31-45),
maturi (46-65). Utilizarea internetului este evaluată printr-un chestionar
specializat iar rezultatul exprimat numeric. Să alcătium baza de date și să
testăm normalitatea variabilei Test internet pe categoriile variabilei grupe de
vârstă:

Cum testul Shapiro-Wilk este nesemnificativ pe fiecare categoriile variabilei


independente, rezultă că este îndeplinită condiția de normalitate. Să aplicăm
79
metoda ANOVA One Way pentru exemplul considerat. Ipoteza H0 va fi că
mediile celor trei grupe sunt egale, iar ipoteza cercetării H1 că există
diferențe semnificative între mediile celor trei grupe. calea pentru testul
Anona unifactorial este: Analyze/Compare Means/One Way ANOVA.
Trecem la Dependent List variabila dependentă și la factor list variabila
independentă. În caseta Option bifăm Descriptive, Homogeneity of variance
pentru testul Levene și Means plots pentru ilustrarea grafică a mediilor
grupelor. Apoi Continue și OK

Nu bifam acum teste planificate sau neplanificate. La rezultate citim testul


Levene care este nesemnificativ, F(2,57)=0,424, p=0,656.

Urmează deci concluzia că varianțele sunt egale iar din tabelul principal
considerăm valoarea testului ANOVA:

Pentru că el este semnificativ, F(2, 55)=80,636, p<0.05 putem respinge


ipoteza de nul, rezultând că există diferențe semnificative între media
utilizării internetului de tineri și celelalte categorii. Explicită este și
reprezentarea grafică:

80
Reaplicăm ANOVA cu deschiderea dialogului Post Hoc unde alegem testul
Bonferroni

Am obținut în output tabelul diferențelor multiple:

Aici la toate perechile avem diferențe semnificative ceea ce implică faptul că


sunt valori semnificativ diferite relativ la testul pe internet între toate
categoriile variabilei independente. Tabelul nu indică valoarea testului t
Bonferroni dar, aceasta se poate calcula după formula:
Mean Difference
t Contrast =
Std . Error
În cazul nostru avem:
t Contrast 18-30 31-45 46-65
18-30 5,3824 12,6953
31-45 5,3467
46-65
Aceasta ne permite să calculăm mărimea efectului cu formula:

81
t 2Contrast
r=

F Anova ∗df intergrup +df intragrup

r 18-30 31-45 46-65


18-30 0,3643 0,8592
31-45 0,3618
46-65
Având pragurile 0,1=efect minor, 0,3=efect mediu, 0,5=efect mare și 0,7=
efect foarte mare, putem concluziona că diferența între rezultatele la testul de
internet a perechilor de grupe: 18-30, 31-45 și 31-45, 46-65 este una medie
iar diferența intre grupele 18-30 și 46-65 este una foarte mare.
În ipoteza prin care dorim să cercetăm scorurile obținute de persoanele
mature la testul de internet comparativ cu cele ale celorlalte grupe putem să
folosim contrastele planificate. Le găsim pe calea: Analyze/General Linear
Model/ Univariante. Ca și la ANOVA unifactorial trecem variabila
dependentă în câmpul Dependent Variable iar cea independentă în câmpul
Fixed Facror(s), apăsăm butonul Contrasts unde în câmpul Change Contrast
alegem Simple și prin Change procedura aleasă se aplică variabilei
independente. Vedem că implicit grupa de control este ultima, programul
permițând să facem compararea și cu prima.

Să prezentăm câteva din contrastele standard care pot fi alese și designul lor:
1. Deviation – contraste prin deviere – compară media fiecărui grup cu
excepția grupului de referință (care poate fi primul sau ultimul) cu
media generală a tuturor grupurilor
2. Simple – compara media fiecărui grup cu un grup specificat care
poate fi primul sau ultimul. Acest contrast este util atunci când avem
grup de control.
3. Difference – compara media fiecărui grup cu media generala a
grupurilor anterioare
4. Helmet – compara media fiecărui grup cu media generală a grupurilor
următoare (cu excepția ultimului).

82
5. Repeated – compară media fiecărui grup cu media grupului următor
(cu excepția ultimului).
Rezultatul testului se găsește în tabelul:

Regăsim valorile de la testele neplanificate.


Prezentarea rezultatelor. Pentru a verifica dacă sunt diferențe semnificative
în cea ce privește utilizarea internetului în funcție de vârstă am aplicat
metoda analizei de varianță ANOVA One Way.
Pe baza rezultatelor obținute s-a constatat că există diferențe semnificative
statistic în funcție de variabila grupe de vârstă în cea ce privește utilizarea
internetului (F(2, 57)=80,636, p<0,05).
Pentru a vedea între ce grupe sunt aceste diferențe am determinat întâi cu
testul Levene dacă suntem în cazul omogenității sau a neomogenității
varianțelor. Avem F(2,57)=0,656, p=0,656. Nu respingem ipoteza de nul,
deci varianțele sunt egale și vom merge mai departe alegând din testele Post
Hoc testul Bonferroni. Am calculat valorile testelor t pentru fiecare perechi
de grupe deoarece diferențele sunt toate semnificative statistic precum și
mărimea efectului. Pentru perechile formate de grupa 31-45 cu celelalte
avem diferențe medii: r=0,3643 cu grupa 18-30 și r=0,3618 cu grupa 46-65.
Între grupele 18-30 și 46-65 avem o diferență foarte puternică r=0,8592.

Analiza corelațională

Corelația Pearson

Analiza statistică impune și găsirea unei căi prin care să verificăm


dacă există o legătură (asociere, corelație) liniară între două sau mai multe
variabile. Acesta este obiectul analizei corelaționale și presupune în primul
rând analiza relației dintre două variabile așa numitele corelații bilaterale. În
acest context una dintre cele mai utilizate corelații este corelația Pearson.

83
Pentru aplicarea ei sunt necesare următoarele condiții: cele două variabile să
fie cantitative; variabilele să fie normal distribuite; relația dintre ele să fie
liniară.
Coeficientul de corelație Pearson are valori în intervalul [-1,1], valoarea 0
fiind interpretată ca absență oricărei legături, valoarea 1 ca o corelație
perfectă pozitivă (variația se produce în același sens), valoarea -1 este o
corelație perfectă negativă (o variabilă creste cealaltă scade). Valoarea
coeficientului de corelație este ea însăși o mărime a efectului, dar pentru r 2
numit coeficientul de determinare avem o măsură a procentului variabilității
unei variabile determinat de cealaltă. Analiza de corelație stă la baza unor
proceduri statistice avansate cum sunt: analiza de regresie sau analiza
factorială.
Exemplu Constituim baza formată din variabilele v1 și v2. Analizăm condiția
de normalitate pe calea Analyze/Descriptive Statistic/Explore unde la
butonul Plots bifăm Normality plots with tests. Obținem testul K-S și S-W cu
p>0,05 deci nu putem respinge ipoteza de nul prin urmare cele două variabile
sunt normal distribuite.

Pentru liniaritate alegem calea Graphs/LegacyDialogs/Scatter/Dot/Simple


/Define unde punem pe linie una din variabile și pe coloană pe cealaltă.

Calea pentru obținerea coeficientului de corelație Pearson este Analyze/


Correlate /Bivariante unde trecem în câmpul Variables cele două variabile v1
și v2. În câmpul Correlation Coefficients avem implicit selectat Pearson iar
testul de semnificație este bilateral.

84
Tabelul Correlations obținut permite citirea corelației Pearson r(98)=0,287,
p<0.05 (98 reprezintă gradele de libertate=N-2). Cum p<0,05, rezultă că
putem respinge ipoteza de nul adică între cele două variabile există o
corelație semnificativă statistic.
Există mai multe tabele de interpretare a corelației Pearson în cea ce
privește intensitatea relației dintre variabilele supuse corelației.
Hopkins propune pentru mărimea efectului interpretarea lui r:

Coeficientul de corelație Descriptor


0,0-0,1 Foarte mic, neglijabil, nesubstanțial
0,1-0,3 Mic, minor
0,3-0,5 Moderat, mediu
0,5-0,7 Mare, ridicat, major
0,7-0,9 Foarte mare, foarte ridicat
0,9-1 Aproape perfect

Relația dintre variabilele v1 și v2 este una minoră, asocierea fiind


scăzută. Pătratul coeficientului de corelație r Pearson se numește coeficientul
de determinare fiind interpretarea în procente a împrăștierii unei variabile
datorate împrăștierii celeilalte variabile.
Limitele coeficientului de determinare r 2 sunt după Cohen: 0,0196 – efect
mic; 0,13 – efect mediu; 0,26 – efect mare.
În situația noastră avem deci o corelație medie, r 2=0,0823 concluzionând că
doar 8,23% din împrăștierea lui v1 poate fi explicată de împrăștierea lui v2.
Pentru a estima coeficientul de corelație la nivelul întregii populații se
calculează limitele de încredere. Folosim algoritmul lui Fisher de
transformare a valorilor lui r în valori Z (Z cu majuscule pentru a se deosebi
1 1+ r
de scorurile z) după formula: Z= ln . Astfel limitele lui Z se
2 1−r

85
1,96 e 2 Z −1
r

calculează Z r=Z ± de unde prin transformarea inversă r =


√ N −3 e2 Z +1
r

obținem limitele inferioare si superioară ale lui r.


În cazul nostru Z=0,2952 iar Z r=0,2952 ± 0,19900 ce conduce la r inf =0,0951
, r ¿ =0,4583.
Raportarea rezultatului:
În raportarea rezultatului coeficientului de corelației vom prezenta indicatorii
statisticii descriptive ai variabilelor implicate (medii, abateri standard,
indicatori ai simetriei și ai aplatizării), volumul eșantionului, valoarea lui r,
nivelul de semnificație și coeficientul de determinare r 2 . Se pot prezenta și
limitele de încredere pentru r.
În situația noastră:
„S-a verificat pe un eșantion de N=100 subiecți existența unei
corelații între variabila V1 cu media m1=314,42 s1=60,304 și variabila V2
cu media m2=89,00, s2=9,049.

V2
Pearson Correlation 0,287
V1 Sig. (2-tailed) 0,004
N 100
Am obținut o corelație semnificativă r=0,287, p<0,05 de nivel scăzut, cu
coeficientul de determinare r 2=0,0823. Acesta conduce la faptul că doar
8,23% din împrăștierea lui V1 poate fi explicată de împrăștierea lui V2.
Limitele de încredere pentru coeficientul r(95%) sunt cuprinse între 0,2413 și
0,63994.”

Coeficientul de corelație ρ Spearman

Dacă dorim să evaluăm gradul de asociere a două variabile ordinale


vom utiliza un test coeficient asemănător cu coeficientul Pearson numit
coeficientul de corelație a rangurilor, Spearman notat cu ρ.
Să vedem câteva din cazurile în care se utilizează coeficientul de corelație
Spearman: variabilele sunt de tip ordinal; variabile sunt cantitative, însă nu
sunt normal distribuite; o variabilă este ordinală iar cealaltă este pe scara
interval raport (în acest caz variabila interval raport se transformă în valori
de ordine de rang); ambele variabile sunt cantitative însă eșantionul are un
volum redus (de exemplu 8 subiecți); scorurile unei variabile sunt monoton
legate de cealaltă.

86
Exemplu Dorim să verificăm dacă există o corelație între prețul produselor si
o ierarhizare a lor pe o scală de la 1 la 5. Baza de date pentru 10 subiecți este
reprezentată in figură.

Monotonia scorurilor o verificăm grafic prin Graphs/Legacy


Dialogs/Scatter/Dot unde este implicit ales Simple Scatter deci apăsăm
Define și trecem pe axa X respectiv Y cele două variabile, apoi OK.

Observăm din grafic că este asigurată creșterea aprecierii odată cu creșterea


prețului.
Cale pentru calculul în SPSS a coeficientului de corelație Spearman este
Analyze/Correlate/ Bivariante. Bifăm Spearman si obținem:

Rezultatul din output confirmă existența unei corelații pozitive, semnificative


statistic ρ ( 8 )=0 ,872, p=0,001 cea ce înseamnă că tendința de creștere a
prețului este corelată cu creșterea gradului de mulțumire al clientului.
Raportarea rezultatului. S-a verificat corectitudinea prețului unui produs
prin intenția de a găsi o asociere între acesta și gradul de mulțumire al
clienților. Variabila ce măsoară gradul de mulțumire s-a considerat ca o
87
variabilă ordinală cu valorile: 1 pentru nemulțumit, 2 pentru parțial
nemulțumit, ..., 5 pentru mulțumit. Calculând coeficientul de corelație
Spearman s-au obținut următoarele rezultate:
Corelația Aprecierea
Spearman produsului
Prețul Coeficientul 0,872
de corelație
p 0,001
N 10
În concluzie putem spune că avem o asociere pozitivă, puternică între cele
două variabile ceea ce confirmă politica de prețuri practicată.

Coeficientul de corelație τ Kendall

Condițiile pentru coeficientul Kendall implică ambele variabile


ordinale având un număr redus de trepte. Pentru că se va calcula coeficientul
apelând la ranguri pentru Kendall se admite că rangurile egale să depășească
30% din scorurile variabilei. În situația în care acestea sunt sub această limită
se recomanda corelația Spearman.
Exemplu Cuantificăm un chestionar din care să aflăm implicarea în viața
studențească (1=poziție de lider, 2=poziție medie, 3=poziție marginală) a
studenților grupei ECTS și vedem dacă există o corelație cu aprecierea lor de
către profesor pe o scară cu 4 trepte (1=mediu, 2=bun, 3=foarte bun)
rezultată în urma notei la cercetări de merketing.
Deschidem dialogul Analyze/Correlate/Bivariante unde trecem în câmpul
Variables cele două variabile ordinale și bifăm coeficientul Kendall și OK.
Am obținut tabelul:
Aprecierea la cercetări de
Kendall
marketing
Coeficientul
Implicarea în -0,454
de corelație
viața P 0,005
studențească N 32
Am obținut că există o asociere negativă (studenții buni implicați mai mult, 1
este poziție de lider, iar 3 este aprecierea maximă), coeficientul de corelație
Kendall τ =0,454 fiind semnificativ, p=0,005
Observăm că există o corelație negativă (note mari – scor mic la aprecierea
activității) semnificativă τ (30)=-0,459, p=0,003 cea ce înseamnă că studenții
buni la cercetări de marketing au o implicare activă în viața studențească.
Corelație între cele două mărimi este una medie.

Coeficientul de corelație parțială

88
Se dorește studierea corelației a două variabile în condițiile
menținerii constante a efectului alteia (altor) variabile asupra celor două.
Condițiile ce trebuiesc îndeplinite sunt: variabilele să fie cantitative;
variabilele să fie normal distribuite; relația dintre ele este una liniară.
Exemplu Studiem existența unei corelații între numărul de ore de studiu la
cercetări de marketing și nota la această disciplină în condițiile menținerii
constante a mediei de admitere. Formăm baza de date si studiem condițiile
de normalitate pentru variabilele ce formează corelația.

Obtinem pentru verificarea normalității prin procedura Explore tabelul:

Vedem că toate variabilele au o distribuție normală. Aplicăm corelația


parțială pentru a vedea dependența notei de numărul de ore de studiu
menținând constant efectul mediei la bacalaureat. Calea este
Analyze/Correlate/Partial. Trecem variabilele de analizat în câmpul
Variables iar la Controlling for: variabila Media la bacalaureat. Activăm .
butonul Option și selectăm opțiunea Zero-order correlationes pentru a
calcula corelațiile între cele trei variabile implicate.

Rezultatele se citesc din tabelul:

89
Prima parte a tabelului indică corelațiile fără menținerea constantă a
efectului variabilei Nota la bacalaureat, unde observăm că există o corelație
statistică semnificativă puternică între nota si numărul de ore de studiu
r(97)=0,972 p<0.005. Dacă menținem constant efectul notei la bac., atunci
r(97)=0,974, p<0,005 corelația rămânând în aceeași termeni.

Teste neparametrice pentru date nominale

Testele neparametrice sunt alternative ale testelor parametrice


necesare atunci când nu sunt satisfăcute cerințele de aplicare a unui test
parametric sau când variabilele dependente sunt categoriale. Ele
funcționează după același principiu ca și testele parametrice, fiind construită
distribuția de nul pe baza legilor probabilității aplicate la evenimente
aleatorii, fără îndeplinirea condiției de distribuție normală pentru variabila
dependentă

Testul z pentru proporția unui eșantion în raport cu o valoare


specificată

Testul compară o proporție cu o valoare specificată, el fiind varianta


neparametrică a testului t pentru un eșantion. Distribuția de nul folosită este
distribuția binomială
Exemplu Avem un eșantion de subiecți și dorim să vedem dacă proporția
bărbați/femei de la nivelul intregii populații este respectată. Construim baza
de date, iar pe calea Analyze/ Nonparametric Tests/ Legacy
Dialogs/Binomial trecem variabila Genul subiecților în câmpul Test Variable
List iar în câmpul Test Proportion trecem raportul cunoscut din recensământ
0,51 (raportul dintre grupele 1 care sunt Femei (este primul subiect) și total).

90
Obținem în output tabelul Binomial Test:

Observăm că proporțiile observate în eșantion sunt de 0,61 respectiv de 0,39


din totalul de 100 de subiecți, pragul de semnificație este p=0,028 de unde
putem concluziona că în eșantionul considerat proporția femeilor este
comparativ mai mare decât cea a bărbaților.

Testul χ 2 de potrivire (goodness of fit)

Este un test de comparare de frecvențe. Se compară frecvențele


observate cu un set de frecvențe teoretice. Testul este folosit frecvent în
verificarea reprezentativității unui eșantion (frecvențele teoretice vor fi
specificate) sau în descoperirea unor preferințe (frecvențele teoretice se
consideră egale)
Exemplul 1 Considerăm un eșantion din județul Hunedoara format din 100
de persoane și dorim să vedem dacă acesta este reprezentativ în raport cu
nivelul de educație. Cunoaștem că în statisticile DJS Hunedoara procentul
celor cu studii superioare este 16,97%, a celor cu studii liceale este 31,39%,
a celor cu studii gimnaziale este 30,88% a celor cu studii primare este 19,89
iar al analfabeților este 0,87. Baza de date este formată din o variabilă
categorială:

91
Calea in SPSS este Analyze/Nonparametric Tests/ Legacy Dialogs/ Chi
square unde trecem în câmpul Test Variable List variabila Nivelul maxim de
studii. În câmpul Expected Range bifăm Use specified range cu limita
inferioara a valorilor categoriilor 1 și limita superioară 5, iar în câmpul
Expected Values bifăm Value introducând prin Add, în ordine, precentele
corespunzătoare categoriilor de la 1 la 5, apoi OK.

Rezultatul este format din două tabele unul cu frecvențele observate, apoi
cele specificate și desigur testul statistic:

Cum p=0,255, rezultă că testul este nesemnificativ statistic, deci nu putem


respinge ipoteza de nul ceea ce înseamnă că nu există diferențe între
proporțiile eșantionului și cele ale populației. În consecință,eșantionul este

92
reprezentativ pentru județul Hunedoara din punct de vedere al nivelului de
educație.
Exemplul 2 Un studiu de marketing dorește să stabilească impactul unui
număr de cinci imagini, de pe panourile publicitare, asupra populației,
referitor la promovarea unui produs. Aceste imagini sunt prezentate unui
eșantion de 100 de subiecți care aleg fiecare o imagine favorită. Dacă toate
imaginile ar avea același impact atunci proporția preferințelor ar trebui să fie
egală cu 20%. Am construit baza de date notând cu cifre de la 1 la 5
imaginile promovate de fiecare subiect.

Deschidem dialogul de pe calea: Analyze/Nonparametric Tests/Legacy


Dialogs/ Chi-square Test în care trecem în câmpul Test Variable List
variabila Preferință pentru o imagine, pentru câmpurile Expected Range
alegem Get fron data (este implicit) iar pentru Expected Values alegem All
categories equal (la fel implicită), apoi OK. Obținem în output:

Am obținut un rezultat semnificativ statistic χ 2 ( 4 )=26,2 , p< 0,05 ce ne


conducem să respingem ipoteza de nul, ipoteza care spune că nu există nicio
diferență în ce priveste procentul preferințelor imaginilor. Cum aceasta se
respinge vedem că există o imagine ce întrunește preferințele eșantionului,
imaginea 4.
93
Testul χ 2 de asociere (independence chi-square)

Verifică asocierea dintre două variabile categoriale. El compară frecvențele


observate ale unei variabile cu frecvențele corespondente altei variabile,
ambele fiind măsurate pe scale de tip categorial.
Exemplu Analizăm cuantificând dihotomic (promovat/nepromovat)
rezultatele la statistică pentru două eșantioane de studenți de la Facultatea de
Științe (N1=78, p1=0,654) respectiv de la Facultatea de Inginerie (N 2=150,
p2=0,460) pentru a vedea dacă sunt diferențe semnificative între cele două
procente. Formăm baza de date verificând respectarea ipotezelor:
Dacă datele s-ar fi fost: N1=78, promovați 51, N2=150, promovați 69 le-am fi
putut introduce cu frecvența cazurilor adică considerând trei variabile:
promovabilitate, facultatea și frecventa. Baza de date (variable view și data
view) arată:

Procedura care alocă frecvențele cu cazurile considerate se găsește pe calea:


Data/ Weigth Cases in care selectăm Wieght cases by și trecem în câmpul
Frequency Variable: variabila Frecvența.

Rezultatul este identic cu tabelul de frecvență obținut prin introducerea, mult


mai laborioasă a tuturor cazurilor rând cu rând, exemplificăm prin
Analyze/Descriptive Statistics/ Frequencies:

94
Evident am reușit o economie de timp față de introducerea celor două
variabile pentru cele 228 de cazuri.
Procedura este Analyze/Descriptive Statistics/Crosstabs, introducem pe linii
și coloane cele două variabile, bifăm Display cluster bar chart și deschidem
opțiunea Statistics unde selectăm Chi-Square și Phi and Cramer’V
(coeficientul V a lui Cramer este un indicator al mărimii efectului).
Deschidem și opțiunea Cell unde selectăm în câmpul Counts: Expected și
Observed (implicit), în câmpul Percentages selectăm Column iar în câmpul
Rezidual opțiunea Ajusted standardized.

Rezultetele se pot interpreta din tabelele:

95
Ele indică faptul că din cei 120 studenți promovați 69 (57.5%) sunt de la
Facultatea de inginerie iar 51 (42,5% ) de la Facultatea de Științe. Pe fiecare
facultate procentul de promovabilitate este de 65,4 la Științe și de 46,0 la
Inginerie. Valoarea testului Chi-Square χ 2 ( 1 )=6.976 se cite;te de pe linia
Continuity Correction în situația tabelelor 2x2, pragul de semnificație fiind
p=0,008. Cum valoarea lui p este mai mică decât nivelul α =0,05se respinge
ipoteza de nul afirmând că există o asociere între facultatea si
promovabilitatea la statistică în sensul că aceasta este mai mare la Facultatea
de Inginerie. Aceasta asociere se poate justifica și grafic:

Indicatori ai mărimii efectelor se găsesc în tabelul Symmetric Measures:

96
În cazul variabilelor cu două categorii fiecare citim valoarea Phi=0,184 care
în cazul nostru indică un efect modest (interpretarea lui Phi după Cohen are
pragurile: sub 0,1 efect slab; între 0,1 și 0,3 efect modest; între 0,3 și 0,5
efect moderat; între 0,5 și 0,8 efect puternic iar peste 0,8 efect foarte
puternic.
Dacă variabilele au mai mult de două categorii citim și interpretăm după
aceleași praguri coeficientul Cramer’s V.
Prezentarea rezultatelor
Pentru a verifica dacă promovabilitatea/nepromovabilitatea la statistică
depinde de facultate am aplicat testul χ 2 de asociere. Rezultatele la testul
Pearson χ 2 arată că promovabilitatea/nepromovabilitatea diferă la cele două
facultăți χ 2 ( 1 )=7,734 ,
p=0,005. Datele obținute pe eșantionul investigat sunt sintetizate în tabelul:
Facultatea de Facultatea de Total
Științe inginerie
Promovat 51 69 120
Nepromovat 27 81 108
Total 78 150 228
Ele arată că statistica are o rată de promovabilitate mai mare la Facultatea de
Științe 65,4% față de Facultatea de Inginerie de numai 46%. Indicatorul
mărimii efectului phi=0.184 confirmă că relația dintre cele două variabile
este una modestă.

2
Testul χ - fundamente teoretice

2
Testul χ se utilizează pentru determinarea relaţiei de concordanţă
sau de semnificaţie a legăturii între două variabile aflate într-o anumită
relaţie de dependenţă. Prin acest mod, se poate stabili dacă o repartiţie
aleatoare a unui eşantion de sondaj, este în concordanţă cu repartiţia teoretică
a variabilelor supuse cercetării. Pentru efectuarea unei asemenea analize,
datele disponibile se sistematizează cu ajutorul unui tabel de contingenţă cu
r rânduri şi k coloane (tabelul nr. 1).
97
Tabelul nr.1: Tabelul de contingenţă pentru aplicarea modelului 2

Y\X X1 X2 Xj Xk 
Y1 O11 O12 … O1j … O1k N1
(A11) (A12) … (A1j) … (A1k)
Y2 O21 O22 … O2j …… O2k N2
(A21) (A22) … (A2j) (A2k)
… … … … … … ……. …
Yi Oi1 Oi2 … Oij ... Oik Ni
(Ai1) (Ai2) … (Aij) (Aik)
… … … … … … ……. …
Yr Or1 Or2 … Orj … Ork Nr
(A r1) (A r2) … (A rj) (A rk)
 C1 C2 … Cj … Ck N

Concret, etapele unui test 2 sunt următoarele:

1) formularea ipotezei nule H0, conform căreia frecvenţele populaţiilor


studiate nu prezintă diferenţe semnificative. Ipoteza alternativă H1 afirmă că
frecvenţele nu sunt toate egale între ele (deci repartiţia de sondaj nu
concordă cu cea teoretică sau între atributele analizate există o legătură);
2) alegerea nivelului de semnificaţie  (probabilitatea maximă de eroare
admisă, care în general pentru studiile de marketing este de  = 0,05);

3) extragerea eşantioanelor aleatoare din populaţiile studiate şi calculul


frecvenţelor observate (notate Oij);

4) calculul frecvenţelor teoretice aşteptate (notate Aij) presupunând că


ipoteza H0 ar fi adevărată, cu ajutorul relaţiei:

N i⋅C j
A ij =
N (1)

unde:
k
N i= ∑ Oij , i=1,r
Ni –totalurile rândurilor din tabelul de contingenţă ( j=1 );
98
r
C j =∑ Oij , j=1,k
Cj – totalurile coloanelor din tabelul de contingenţă ( i=1 )
r k
( N=∑ ∑ Oij )
N - totalul general al tabelului de contingenţă. i =1 j=1

5) calculul valorii critice 2calc cu ajutorul formulei:

r k 2
(O −A )
χ 2calc = ∑ ∑ ij A ij
i=1 j=1 ij (2)

În practică, pentru uşurarea calculelor, se mai foloseşte relaţia


echivalentă:

r k O
2 ij2
χ =∑ ∑ −N
i=1 j=1 A ij
(3)

6) compararea valorii 2calculat cu valoarea 2tabelat obţinută din tabelul


repartiţiei 2pentru un număr de (r - 1)·(k-1) grade de libertate. Regula de
decizie este următoarea:
- se acceptă H0 dacă 2calc  2tabelat;

- se respinge H0 şi se acceptă H1 dacă 2calc > 2tabelat.

Pentru măsurarea gradului de asociere între variabilele unui tabel de


contingenţă (cu mai mult de două linii sau două coloane) se utilizează
coeficientul de contingenţă C, care se calculează cu relaţia:

2
C
2  N (4)

Cu cât C este mai mare, cu atât legătura dintre variabile este mai
intensă. O valoare minimă zero indică o independenţă totală între variabile.
Valoarea maximă nu poate să fie, în schimb, niciodată egală cu 1 (ceea ce
99
constituie unul dintre principalele inconveniente ale folosirii coeficientului
de contingenţă). Există și alți indicatori ai mărimii efectului.

Aplicație rezolvată
Compartimentul de marketing din cadrul unei edituri efectuează, cu
ocazia unei expoziţii de carte, un sondaj asupra unui eşantion de 800 de
persoane care au participat la evenimentul respectiv. Studiul a urmărit
obţinerea de informaţii cu privire la segmentele de consumatori vizate prin
oferta de carte. Din cercetare s-a obţinut următoarea repartiţie a
respondenţilor în funcţie de nivelul de instruire, mediul de provenienţă şi
statutul de cumpărător/necumpărător vizavi de oferta editurii:
Tabelul nr. 2
Specificaţii Mediul de Tota Nivel de instruire Tota
provenienţă l l
Urban Rura Element Medi Superio
l ar u r
Cumpărători 280 145 425 100 135 190 425
Necumpărăto 220 155 375 140 125 110 375
ri
Total 500 300 800 240 260 300 800

Se cere să se aplice testul 2 în vederea verificării unei relaţii de


dependenţă între calitatea de cumpărător/necumpărător şi mediul de
provenienţă, respectiv nivelul de instruire al respondenţilor. Se va considera
un nivel de semnificaţie  = 0,01.

Rezolvare clasică
Din datele cuprinse în tabelul de mai sus, rezultă că mediul de
provenienţă şi nivelul de instruire al respondenţilor exercită o anumită
influenţă asupra deciziei de cumpărare; de exemplu, proporţia cumpărătorilor
este mai mare în rândul persoanelor din mediul urban comparativ cu cea a
persoanelor care domiciliază în mediul rural (56% faţă de 48,3%). În mod
asemănător, proporţia cumpărătorilor este mai ridicată în rândul vizitatorilor
cu nivel de instruire superior comparativ cu celelalte categorii. Întrucât este
vorba însă despre o cercetare selectivă şi nu de o observare totală, urmează a
se stabili dacă deosebirile semnalate în ceea ce priveşte statutul de
cumpărător/necumpărător de carte sunt semnificative din punct de vedere
statistic. Metodologia de aplicare a testului χ2 se va repeta pentru cele
două criterii luate în analiză.
100
1) Mediul de provenienţă
E1. Formularea H0: „Decizia de cumpărare de carte nu este influenţată
de mediul de provenienţă al potenţialului cititor”. Acestei ipoteze îi
corespund frecvenţele teoretice Aij.
E2. Calculul valorilor aşteptate să rezulte conform ipotezei nule. Relaţia
utilizată este:
N i⋅C j
A ij =
N
k r r k
N i= ∑ Oij C j =∑ Oij N=∑ ∑ O ij
unde: j=1 ; i=1 ; i=1 j=1
Ipoteza nulă va fi respinsă dacă frecvenţele teoretice diferă semnificativ
de frecvenţele observate Oij.
N 1⋅C1 425⋅500
A 11 = = =265,62
N 800
N ⋅C 425⋅300
A 12= 1 2 = =159,37
N 800
N ⋅C 375⋅500
A 21= 2 1 = =234,37
N 800
N ⋅C 375⋅300
A 22= 2 2 = =140,62
N 800

În tabelul nr. 3, frecvenţele aşteptate au fost trecute în fiecare căsuţă,


alături de frecvenţele observate, rezultate din cercetare.

Tabelul nr. 3
Specificaţii Mediul de provenienţă Total
Urban Rural
Vizitatori care au cumpărat 280 (265,62) 145 (159,37) 425
cărţi
Vizitatori care nu au cumpărat 220 (234,37) 155 (140,62) 375
cărţi
Total 500 300 800

2
E3. Calcularea statisticii χ

101
r k 2
( Oij− A ij ) ( 280−265,62 )2 ( 145−159,37 )2 ( 220−234,37 )2
χ 2c = ∑∑ A = + + +
i=1 j=1 ij 265,62 159,37 234,37
(155−140,62)2
+ =0,78+1,29+0,88+1,47=4,42
140,62
2
E4. Determinarea valorii teoretice χ
2
Valoarea teoretică a lui χ corespunde unei probabilităţi de garantare a
rezultatului de 99% (şi unui nivel de semnificaţie α = 0,01), precum şi
unui număr de grade de libertate egal cu (r – 1)(k – 1) unde cu „r” şi „k” s-au
notat numărul de linii, respectiv de coloane, ale tabelului de contingenţă
(corespunzătoare numărului de alternative al fiecăreia dintre cele două
variabile).
(r – 1)(k – 1) = (2 – 1)(2 – 1) = 1
α = 0,01 – nivel de semnificaţie
2
χ tab1;0,01 =6,235
E5. Formularea concluziei
2 2
Deoarece χ calc ≺ χ tab 1;0,01 , ipoteza nulă se acceptă. Putem afirma aşadar
cu un nivel de încredere de 99%, că frecvenţele teoretice nu diferă
semnificativ de cele observate. Aşadar nu există diferenţe importante între
cititorii din mediul urban şi cei din mediul rural în ceea ce priveşte decizia de
achiziţionare de carte.

2) Nivelul de instruire
E1. Formularea H0: „Nivelul de instruire al potenţialului cititor nu
influenţează achiziţia de carte”.
E2. Calculul frecvenţelor aşteptate.
N ⋅C 425⋅240
A 11 = 1 1 = =127,50
N 800
N 1⋅C 2 425⋅260
A 12= = =138,25
N 800
N ⋅C 425⋅300
A 13= 1 3 = =159,37
N 800
N ⋅C 375⋅240
A 21= 2 1 = =112,50
N 800
N ⋅C 375⋅260
A 22 = 2 2 = =121,87
N 800

102
N 2⋅C3 375⋅300
A 23= = =140,62
N 800

În tabelul nr. 4, s-a realizat o recapitulare a frecvenţelor observate şi


aşteptate pentru al doilea criteriu în discuţie – nivelul de instruire al
potenţialului cititor de carte.

Tabelul nr. 4
Nivel de instruire Elementar Mediu Superior Total
Statut

Cumpărător 100 135 190 425


(127,50) (138,25) (159,37)
Necumpărător 140 125 110 375
(112,50) (121,87) (140,62)
Total 240 260 300 800

2
E3. Calcularea statisticii χ
2 3 (O  A ) 2
(100  127,50) 2 (135  138, 25) 2 (190  159,37) 2
 calc  
ij ij
2
   
i 1 j 1 Aij 127,50 138, 25 159,37
(140  112,50)2 (125  121,87) 2 (110  140, 62) 2
   
112,50 121,87 140, 62
 5,93  0,07  5,88  6,72  0,08  6, 66  25,34
2
E4. Extragerea valorii teoretice χ din tabelele statistice
2
χ teoretic corespunde unei probabilităţi de garantare a rezultatului de
99% (nivelul de semnificaţie este α = 0,01), precum şi unui număr de
grade de libertate egal cu (r – 1)(k – 1) = (2 – 1)(3 – 1) = 2.
2
Prin urmare, χ tab 2;0,01=9,2
E5. Concluzia
2 2
Pentru că χ calc ≻ χ tab 2;0,01 , ipoteza nulă se respinge. Prin urmare se
acceptă ca adevărată ipoteza existenţei unei relaţii de dependenţă între cele
două variabile analizate – nivelul de instruire şi achiziţia de carte.

103
Rezolvarea in SPSS

Baza de date ar trebui să aibe 800 de înregistrări, dar, vom folosi


frecvențele pentru a aloca variabilelor ponderi. Deoarece avem două
frecvențe corespunzătoare la cele două variabile le vom activa pe rând.
Folosim variabilele: statut cu cele două valori (1 pentru cumpărători și 2
pentru necumpărători); mediu cu valorile (1 pentru urban și 2 pentru rural) și
variabila instruire cu valorile ( 1 pentru elementar, 2 pentru mediu, 3 pentru
universitar).

Vom introduce cele două frecvențe: frecventa_mediu cu valorile din


coloanele 2 și 3 ale tabelului 2 și frecventa_instruire cu valorile din
coloanele 5,6 și 7. Să formăm baza de date:

Variabilele:

Datele:

104
Acum să facem alocările pentru variabila Mediul de provenienta pe
calea: Data/Weight Cases unde bifăm Weight cases by și trecem în câmpul
Frequency Variable variabila Frecvența pentru variabila mediul apoi OK.

Trecem la aplicarea testului χ 2 pe calea: Analyze/Descriptive


Statistic/ Crosstabs. Aici trecem la rânduri variabila Statutul clientului iar la
coloane variabila Mediul de provenienta. Deschidem Statistics în care bităm
Chi-square, Phi and Cramer’s V apoi Continue.

Deschidem Cells și bifăm Observed și Expected în câmpul Counts,


apoi Row și Column în câmpul Percentages și Ajusted Standaridize și
închidem cu Continue. Pentru o reprezentare grafică elocventă bifăm în
meniul principal Display clustered bar charts și OK.

105
Un prim tabel ne arată că am facut bine alocările, avem 800 de subiecți, al
doilea conține exact datele introduse:

Aici putem face câteva observații: din cei 425 clienți, adică 53,1%
care au cumpărat 65,9% sunt din mediul urban iar 34,1% din rural. Pentru
cei 375 necumpărători, distribuția este 58.7% pentru urban și 41,3% pentru
rural. Mai mult sunt calculate și valorile așteptate, identice cu cele din
tabelul 3. Următorul tabel este valoarea testului chi-pătrat:

Vom scrie χ 2 ( 1 )=4.426 , p=0.035. Asta înseamnă că dacă mergem


cu pragul α =¿ 0,01 nu respingem ipoteza de nul, adică putem afirma cu un
106
grad de încredere de 99% că nu există diferențe semnificative între mediul de
proveniență urban și rural în ceea ce privește achiziția de carte. Dacă am
considera pragul α =¿ 0,05, atunci am putea respinge ipoteza de nul și avem
voie să calculăm intensitatea legăturii. Dacă dorim prin coeficientul c, ca în
χ2 4,426
rezolvarea clasică, avem: c= 2
χ +N
=
√804,426 √
=0,0740 sau pe baza

tabelului următor unde avem valoarea lui phi (se consideră phi pentru
variabile 2x2 și Cramer’V pentru cazul când cel puțin una din variabile are
mai mult de 2 categorii):

2
Calculul se face după formula phi= χ = 4,426 =0,0743 Avem pentru
1
phi următoarele praguri :
N 800 √ √
Phi Relația
Mai mic decât 0,10 slab
0,10-0,30 modest
0,30-0,50 moderat
0,50-0,70 puternic
Peste 0,7 Foarte puternic
Deci relația între cele două variabile este una slabă. O putem reprezentă în
graficul cu bare rezultat la output:

1
Labăr, Adrian Vicențiu, SPSSpentru științele educației, Editura Polirom, Iași, pagina 114
107
Să aplicăm testul chi-pătrat pentru variabila instruire. Vom folosi aceeași
cale pentru a atribui noua frecvență:

Reluăm prin dialogul Crosstabs unde la Column(s) punem variabila


nivelul de instruire rămânând cu aceleași setări pentru Statistics și Cell.

Obținem tabelele:

Tabelul ce conține frecvențele așteptate și observate împreună cu procentele


lor, care desigur poate fi comentat.

108
Testul chi-pătrat cu valoarea χ 2 ( 2 )=25,359, p<0.01 ce are valoare
semnificativă, deci, respingem ipoteza de nul, adică achiziția de carte este
diferită pentru clienți cu nivel de instruire diferit. Pentru a analiza mărimea
efectului avem tabelul:

Din care avem în vedere coeficientul Cramer’V phi=0,17 ce implică din


tabelul de mai sus un efect modest. Graficul cu bare ne justifică această
relație:

Teste de asociere între variabile

Am arătat în paginile anterioare modalitatea de a decide dacă variația


unei variabile este sau nu în concordanță/asociere cu cea a altei variabile.
Am folosit calea SPSS Analyze/Descriptive statistics/Crosstab unde la
submeniul Statistics întâlnim mai multe teste:
109
Decizia de aplicare a acestor teste depinde de designul cercetării distingând
două cazuri: una din variabile este cea independentă, cealaltă cea dependentă
sau ambele sunt considerate variabile independente.
În primul caz apelăm la testul Lambda (dacă cel puțin una din
variabile este nominală), iar odată cu testul Lambda este calculat și testul
Goodman and Kruskal tau considerând fiecare variabilă ca dependentă sau la
testul Eta (dacă avem variabila independent nominală iar variabila
dependentă scalară) sau la testul Somers’d (dacă avem variabile ordinale).
În al doilea caz testul Gamma (pentru variabile ordinale) sau testul Kendall
tau b (variabile ordinale cu același număr de cazuri) sau Kendall tau c
(pentru variabile ordinale).

Teste neparametrice pentru compararea eșantioanelor independente

Testul Mann-Whitney U pentru două eșantioane independente

Funcționează în aceeași parametrii ca testul t pentru eșantioane


independente, dar, variabila dependentă este doar ordinală sau variabila
dependentă este scalară însă nu are o distribuție normală sau eșantioanele
sunt mici (10 subiecți).
Exemplu Verificăm dacă rezultatele la testul auto pentru obținerea carnetului
de conducere sunt influențate de familiarizare cu tipurile de itemi. Avem
astfel un grup experimental, cel care este familiarizai cu tipurile de itemi și
grupul de control care nu este familiarizat.
Grup 10 16 19 15 17 13 9 18 17
experimenta
l
Grup de 6 4 12 11 5 7 8 14 15
control
Formăm baza de date:

110
..
Calea în SPSS este Analyze/Nonparametric Tests/ Legacy Dialogs/2-
Independent Sample Test unde trecem în câmpul Test Variable List variabila
Rezultatul la test iar în câmpul Grouping Variable variabila grup căreia prin
apăsarea butonului Define Groups îi specificăm care sunt etichetele celor
două categorii ale variabilei independente apoi Continue și OK. Desigur, ne
asigurăm că este bifat testul Mann-Whitney U în câmpul Test Type (de fapt
implicit).

Rezultatela la output constau din două tabele:

Primul tabel prezintă media rangurilor și suma lor pe cele două categorii ale
VI. Al doilea tabel prezintă valoarea testului Mann-Whitney U, Wilcoxon W,
transformarea valorii U în scoruri z, precum și pragul de semnificație asociat.
Ne interesează întâi valoarea lui P=0,006 ce ne spune că există diferențe
semnificative între cele două grupe, apoi valoarea lui U și Z pentru calculul
mărimii efectului. Cum media rangurilor implică o diferență în favoarea
celor din grupul experimental (12,83 fată de 6,17) putem spune că
familiarizarea cu itemii din testele de evaluare are influență considerabilă
asupra rezultatului. Pentru calculul mărimii efectului utilizăm formula:
z2 2,6522
r=
√ √N
=
18
=0,6250
Aceasta confirmă că efectul variabilei Grupul asupra variabilei Rezultatul la
test este puternic.
111
Testul U a lui Mann-Whitney se bazează pe calculul rangurilor, deci
avem nevoie de a cunoaște mediana pe fiecare din cele două grupe ale
variabilei independente. Putem face acesta dacă impunem programului să
prezinte rezultatele statistice independent pe fiecare categorie specificată.
Calea în SPSS este Data/Split File unde bifăm opțiunea Organize output by
groups care ne permite să trecem în câmpul Groups Based on: variabila
Grupul și OK.

Apelăm la calculul medianei pe calea Analyze/Descriptive


Statistics/Frequencie unde trecem variabila Rezultatul la test în câmpul
Variable(s) iar în submeniul Statistics alegem Median, apoi Continue și OK.

Rezultatul obținut permite sa comparăm rangurile celor două grupe:

Prezentarea rezultatului Pentru a verifica influența asupra rezultatelor la un


test auto a familiarizării cu tipurile de itemilor am aplicat testul U a lui
Mann-Whitney. Rezultatele arată că există diferențe semnificative între
grupul experimental (cel în care subiecții s-au familiarizat cu tipurile de
itemi) și grupul de control. Valorile găsite sunt Mann-Whitnei U=10,5, Z=-
2,652, p=0,006. Calculând mediana pe fiecare grup s-a obținut pentru grupul
experimental MdnE=16 iar pentru grupul de control MdnC=8. Mărimea
efectului: r=0,625 arată, conform ceriteriilor lui Cohen (1988), că

112
familiarizarea cu tipurile de itemi are un efect puetrnic asupra performantei
la test.

Testul Kruskal-Wallis H pentru mai mult de două eșantioane


independente

Testul H Kruskal-Wallis este varianta neparametrică a testului


ANOVA pentru variabile nominale sau ordinale. El se referă la variabila
independentă conținînd k categorii (k > 2¿ ale unei populații neordonate.
Ipoteza cercetării H1 presupune că populațiile sunt diferite în ceea ce
privește variabila dependentă care poate fi cantitativă dar nu are o distribuție
normală pe categoriile variabilei independente saupoate fi ordinală sau
eșantioanele pe grupele variabilei independente sunt de volume mici.
Exemplu Verificăm dacă există diferențe semnificative în ce priveste
aprecierea prin gust a unui produs lactat (categoriile sale fiind: acru, dulce,
sărat, amar, placut) între categoriile de vârstă: sub 29 de ani; între 30 și 59 de
ani și peste 60 de ani.
Formăm baza de date cu variabilele: gustul și categoriile de vărstă.

Calea în SPSS este Analyze/Nonparametric Tests/Legacy Dialogs/ K


Independent Samples și obținem dialogul:

Trecem în câmpul Test Variable List variabila Gustul produsului lactat iar în
câmpul Grouping Variable trecem variabila grupe_vărsta unde prin
deschiderea dialogului Define Range introducem valorile minime și maxime
pentru etichetarea grupelor variabilei independente, în cazul nostru 1 și 3 și
închidem dialogul prin Continue, apoi ne asigurăm că este bifat testul
Kruskal-Wallis H în câmpul Test Type și OK. Obținem două tabele:

113
În primul tabel sunt prezentate numărul subiecților din fiecare categorie a
variabilei independente și media rangurilor variabilei gust pe fiecare din
categoriile acesteia. Al doilea tabel prezintă valoarea testului Kruskal-Wallis
notat cu H având H(2)=8,304, p=0,016, rezultat care este semnificativ deci
există diferențe semnificative în ce privesc grupele de vârstă în testarea
gustului unui produs. Cum testul nu ne spune între care din grupe există
diferențe semnificative va trebui să aplicăm testul mann-Whitnei U pentru
fiecare pereche de categorii ale variabilei independente, ajustând pragul de
semnificație prim împărțirea lui la numărul perechilor. În cazul nostru
0,05/3=0,016.
Pentru a selecta în baza de date doar grupele sub 29 de ani și între 30-59 vom
merge pe calea Data/Select Cases unde bifăm If condition is satisfied, apoi
apăsăm If...trecem în câmpul de calcul variabila grupe de vârsta și impunem
condiția ca aceasta să fie mai mica decât 3, api Continue și OK.

Efectul se va verifica în Data Viewer, în sensul că toate înregistrările cu


valoarea 3 ale VI sunt anulate. Aplicăm Mann-Whitney U și obținem:

Analog precedăm pentru celelalte perechi de grupe.


Dintre toate perechile de grupe avem doar intre grupa 30-59 de ani și cea
peste 60 când U(1)=289,5 cu p=0,012<0.016 un rezultat semnificativ
114
existând între aceste două categorii o diferență în ceea ce privește preferința
pentru gust. Evident putem calcula și mărimea efectului
2,5212
(r =
√ 68
=0,3057) rezultînd un efect moderat.

Testul Jonckheere-Terpstra J

Este asemănător cu testul Kruskal-Wallis H fiind utilizat în cazul în care


între grupele variabilei independente putem considera o relație de ordine iar
variabila dependentă este cel puțin ordinală. Se testează ipoteze de cercetare
unidirecționale în sensul creșterii caracteristicilor evidențiate ale grupelor VI să le
corespundă o creștere a caracteristicii VD. Unidirecționalotatea testului îl face
desigur mai puternic decât testul Kruskal-Wallis H.

Condițiile de aplicabilitate sunt pentru variabila independentă de tip


ordinal sau cantitativă, din care s-au format mai mult de două grupe ce
păstrează sensul caracteristicii și în ceea ce privește etichetare lor. Variabila
dependentă este cantitativă, dar nu urmează o distribuție normală sau
eșantioanele sunt de volume mici sau este ordinală.

Exemplu verificăm dacă înaintarea în vârstă conduce la creșterea gradului de


opacifiere al cristalinului. Vom considera grupele de vărstă 55-64, 65-74,
peste 75, iar pentru gradul de opacifiere al cristalinului considerăm stadiile:
C1=incipientă, C2=în evoluție, C3=avansată, C4=matură și C5=
hipermatură. Să construim în SPSS baza de date:

115
Calea în SPSS este Analyze/Nonparametric Tests/Legacy Dialogs/ K
Independent Samples și obținem dialogul în care trecem variabila
dependentă în câmpul Test Variable List iar cea independentă la Grouping
Variable unde deshidem dialogul Define Range ce înseamnă să informăm
programul despre valorile minume și maxime pentru grupe. Bifăm în câmpul
Test Type Jonckheere-Terpstra.

Apoi Continue și OK ne furnizează rezultatul:

Avem un rezultat semnificativ statistic J=808,5, p<0.05 prin urmare putem


respinge ipoteza de nul și accepta ipoteza de cercetare prin care justificăm
faptul că înaintarea în vârstă conduce la măirea gradului de opacitate a
cristalinului.
Calculăm mărimea efectului după formula
Std . J −T Statistic 3,644
r= = =0,4704 . După Cohen (1988) avem un efect
√N √ 60
mediu.
Putem obține mărimea efectului aplicând testul Mann-Whitney pentru
compararea prechilor de grupe. Abordăm calea Analyze/Nonparametric
Tests/Legacy Dialogs/2-Independent Samples unde, la Define Groups am
luat perechile de grupe: (1, 2); (2, 3) și (1, 3):

116
Vom calcula cu aceeași formulă mărimea efectului doar pentru grupele la
care avem semnificație statistică (p<0.05), acestea fiind:
Între grupele 55-64 și 65-74 există o diferență semnificativă statistic în ce
Z 2,538
privește gradul de opacitate cu mărimea efectului r = = =0,3276
√ N √ 60
rezultând un efect de nivel mediu. Evident calculând medianele obținem
pentru grupa mai în vârstă un grad de opacitate mai mare.
Amalog între grupele 55-64 și peste 75 avem p=0,001 deci la fel este un
3,45
rezultat statistic semnificativ cu mărimea efectului r = =0,4453 fiind și
√ 60
aici de nivel mediu.
Prezentarea rezultatelor Pentru analiză efectul înaintării în vârstă asupra
creșterii gredului de opacitate al cristalinului s-a aplicat testul Jonckheere-
Terpstra J unor 60 de subiecți împărțiți în trei grupe de vârstă. Pentru
opacitatea cristalinului s-au considerat cinci nivele. Tabelele frecvențelor
eșantionului cerecetat sunt:

..
Rezultatele arată că există un trend crescător al gradului de opacitate odată
cu înaintarea în vârstă, J=808,5, z=3,644, p<0.05, r=0,4704.
Aplicând testul Mann-Whitney U pentru comparații simple perechi am
obținut:
- Există un efect mediu al avansării gradului de opacitate între grupele
55-64 și 65-74, z=2,538, p=0,014, r=0,3276, Mdn(55-64)=2 adică
cataractă în evoluție iar Mdn(65-74)=3 adică cataractă avansată.
- Există tot un efect mediu între grupele 55-64 și peste 75 de ani
z=3,45, p=0,001, r=0,4453, Mdn(55-64)=2, adică cataractă în
evoluție iar Mdn(peste 75)=4 adică cataractă matură.

117
Teste neparametrice pentru două eșantioane perechi
Sunt teste ce se aplică pentru eșantioane perechi sau pe același
eșantion dar pe variabile pereche de tipul înainte/după. Pentru variabilele
cantitative ce nu sunt normal distribuite vom aplica testul Wilcoxon. Pentru
variabile ordinale cu un număr redus de categorii vom aplica testul semnului,
iar pentru variabile dihotomoce testul McNemar.

Testul Wilcoxon

În testul Wilcoxon se compară două eșantioane ce sunt într-o relație


binară sau două variabile pereche. Condițiile variabilei dependente sunt că
aceasta poate fi o variabilă ordinală sau cantitativă ce nu este normal
distribuită sau are eșantioane de volum redus.
Exemplu Verificăm dacă aprecierea produsului X pe o scară de la 1 la 5
inainte și după realizarea unei campanii promoționale s-a îmbunătățit.
Formăm baza de date în SPSS:

O analiză statistica descriptivă a celor două variabile ne


furnizează o imagine grafică asupra frecvenței
aprecierilor:

Calea pentru testul Wilcoxon este:


Analyze/Nonparametric Tests/Legacy Dialogs/ 2 Related Samples deshizând
dialogul în care formăm prima pereche din variabilele Aprecierea înainte de
campanie și Aprecierea după campanie. Avem bifat implicit testul Wilcoxon
și OK.

118
Din tabelul Ranks putem vedea numărul cazurilor când campania de
promovare nu adus la o îmbunătățire a aprecierii (Negative Ranks). Aceasta
s-a întâmplat în doar 2 cazuri. Campania a dus la creșterea aprecierii
(Pozitive Ranks) în 12 cazuri iar în 6 cazuri aprecierea a rămas constantă.
Tabelul

Tabelul Test Statistics prezintă rezultatele testului Wilcoxon:

Avem un rezultat semnificativ statistic, z=-2,524, p=0,012. Pentru a vedea


sensul diferenței comparăm valorile din Sum of Ranks pentru cele două
variabile considerând că sensul corespunde valorii mai mare. Avem cea mai
mare valoare 92 în dreptul rangurilor pozitive, deci campania promoțională a
îmbunătățit aprecierea produsului X. Calculăm mărimea efectului:
|z| 2,524
r= = =0,7981
√ N √ 10

119
Aceasta evidențează un efect puternic al campaniei asupra creșterii
aprecierilor produsului X. În raportarea finală avem nevoie si de valorile
medianelor pentru cele două variabile. Prin procedura Frequencies găsim
Mdn(înainte)=2,5 și Mdn(după)=4.
Raportarea rezultatului Pentru a vedea eficiența unei campanii promoționale
în sensul aprecierii produsului X s-a considerat aprecierile a 20 de subiecți
înainte și după campanie. S-a aplicat testul Wilcoxon iar rezultatele au arătat
că intervenția promoțională a avut un efect semnificativ statistic: z=-2,524,
p=0,012. Aprecierea produsului a crescut la nivelul Acord după campanie
(Mdn(după)=4) față de nivelul înainte de campanie situat între Dezacord și
Nici acord nici dezacord (Mdn(înainte)=2,5). Mărimea acestui efect este
r=0,7981, ceea ce evidențiază un efect puternic, deci campania promoțională
și-a atins scopul.

Testul semnului

La fel ca și testul Wilcoxon și testul semnului compară două eșantioane


perechi (sau două variabile perechi) studiind sensul diferențeidintre ele și
mai puțin amplitudinea acestei diferențe. Pentru VD trebuie să fie cantitativă
sau ordinală cu puține categorii.
Exemplu Verificăm dacă aprecierile absolvenților de clasa a VIII-a
referitoare la anumite unități liceale din localitățile de reședință sunt mai
pozitive decât cele ale părinților lor.
Formăm baza de date din cele două variabile dependente ordinale pe trei
categorii: apreciere defavorabilă, neutră și favorabilă, Aprecierea părintelui
și Aprecierea copilului, variabila independentă fiind formată din categoriile
părinți, copii în număr de 30 de subiecți.

120
Calea în SPSS este aceeași, adică: Analyze/Nonparametric Tests/ Legacy
Dialogs/2-Related Samples ce ne conduce la dialogul:

Se trece în câmpul Test Pairs cele două variabile și vom bifa testul semnului
adică Sign în câmpul Test Type, apoi OK. Obținem rezultatele:

Tabelul Test Statistics ne dă doar pragul de semnificație p=0,019 ce compară


diferențele pozitive și negative, putând concluziona că există o diferență
semnificativă în sensul aprecierilor pozitive. Avem 15 diferențe pozitive,
adică 15 copii au aprecieri superioare asupra liceului față de părinții lor pe
când doar 4 părinți apreciază mai bine liceul decât copii lor. . Un număr de
11 subiecți au aceeași apreciere ca părinții lor. Faptul că testul semnului
contabilizează numărul diferențelor într-un sens sau în altul fără a ține cont
de mărimea diferențelor îl face mai slab decât testul Wilcoxon.

Testul McNemar

121
Prin testul McNemar comparăm două eșantioane pentru o variabilă
dependentă dihotomică sau două variabile dihotomice pentru același
eșantion.
Exemplu Verificăm dacă există o legătură între succesul/eșecul la examenul
de statistică pentru studenții care au efectuat în majoritatea (70%) din temele
date în cursul semestrului. Formăm baza de date pentru 100 de subiecți.

Aceeași cele ca și în testele de mai sus, adică Analyze/Nonparametric


Tests/Legacy Dialogs/2-Related Samples ce împlică dialogul:

Formăm prima pereche și bifăm McNemar. Putem la Option să bifăm


Statisticile descriptive și Quartilele, apoi Continue și OK. Ca rezultate avem
tabelul statisticii descriptive, total nerelevant pentru variabilele noastre
nominale unde nu avem cum să interpretăm media sau abaterea standard. Îl
ignorăm (desigur ar fi trebuit să nu îl cerem programului). Al doilea tabel
este un tabel încrucișat 2x2 ce descrie frecvențele în cele 4 cazuri

122
Ultimul tabel conține pragul de semnificație p=0,007, deci există o diferență
semnificativă între cele două grupe. Direcția diferenței este dată de semnul
valorii testului McNemar, calculată ca diferența cazurilor (0,1) și (1,0). În
cazul nostru McN=35-15=20 care este pozitivă, deci efectuarea majorității
temelor implicî statistic promovarea examenului

123
Proiectarea și organizarea experimentelor de
marketing

Experimentul de marketing - definire şi elemente


componente
Teoria şi practica cercetărilor de marketing au determinat
posibilitatea extragerii unor informaţii relevante cu privire la
comportamentele consumatorilor și ale pieței în ansamblu, cu ajutorul
experimentului de marketing. Spre deosebire de observarea faptică a
fenomenelor de marketing, abordare în cadrul căreia specialiști în marketing
exercită de regulă un rol pasiv, proiectarea experimentelor de marketing
reclamă manipularea efectivă, de către experimentatori a unor variabile
indenpendente cu scopul de a cuantifica influența exercitată de acestea
asupra altor variabile de marketing, considerate dependente.
Aplicat inițial în sfera științelor naturii, experimentul s-a impus ca
metodă de cercetare extrem de utilă pentru culegerea informațiilor necesare
fundamentării activităților de marketing, în special după anul 1960.
Definirea experimentului nu este tocmai facil de realizat, având în
vedere faptul că termenul respectiv nu este deocamdată unanim acceptat.
Totuși, din perspectiva practică pe care dorește să o ofere această lucrare
asupra metodelor statistice de cercetare a proceselor economice, putem
afirma că experimentul de marketing reprezintă o simulare
intenționată ,“provocată”, realizată la scară redusă şi în condiţii relativ
artificiale a unui fenomen de marketing în vederea evidențierii modului în
care evoluția acestuia este amprentată de către unul sau mai mulţi factori
cauzali.
Pe baza celor menționate, modelul conceptual al unui experiment de
marketing cuprinde următoarele elemente: variabilele explicative
(independente), unitățile de observare și variabilele dependente (figura nr.1).
În general, desfășurarea unui experiment de marketing urmărește două
obiective majore:
1) Identificarea legăturii de cauzalitate dintre diferite variabile de
marketing. În funcție de schema de proiectare a experimentului care este
aleasă, devine posibilă nu doar estimarea influenței izolate a fiecărei
variabile explicative (independente) asupra variației variabilelor explicate
(dependente), ci și posibilitatea de a cunoaște influența interacțiunii dintre
variabilele factoriale asupra fenomenului de marketing analizat;
124
2) Cuantificarea efectului (exclusiv) pe care o modificare operată în
sfera variabilelor explicative o exercită asupra variabilelor explicate. De
regulă, variaţia uneia sau mai multor variabile explicative este manipulată de
cercetător cu scopul măsurării efectelor exercitate de aceasta asupra unor
unităţi de observare (ce pot fi reprezentate de către consumatori, utilizatori,
unităţi comerciale ş.a), a interpretării rezultatelor obţinute şi a identificării
legilor de evoluţie previzibile.

Variabile Variabile
independente explicative
"din afară” (independente)

Unităţi de
observare

Variabile
dependente
Figura nr. 1. Modelul conceptual al unui experiment de marketing

Elementele de bază ale oricărui experiment de marketing sunt2:


 variabilele de marketing;
 unităţile de observare;
 tratamentele experimentale;
 eroarea experimentală.
1. Variabilele de marketing. Un experiment operează cu două
mari categorii de variabile:
a) Variabilele independente reprezintă un număr limitat de
factori de influenţă a căror evoluție este analizată în cadrul experimentului.
La rândul lor, acestea se grupează în două categorii distincte:

2
Gherasim Toader, Gherasim Adrian, Cercetări de marketing, Editura Economică,
Bucureşti, 2003.
125
- variabile explicative numite şi factori experimentali sau stimuli
de marketing a căror valoare este modificată în mod deliberat de
către organizatorii experimentului, pentru a se analiza efectele
acestor modificări asupra variabilelor dependente – volumul
cererii, vânzările, intensitatea concurenţei, eficiența
distribuitorilor etc. Variabilele explicative sau factorii
experimentali pot fi reprezentate prin produse, caracteristici ale
acestora, ambalaje, servicii auxiliare, canale de distribuție,
niveluri de preţ, mesaje publicitare etc.);
- variabilele aleatoare (din afară) sunt variabilele care nu sunt
supuse tratamentului experimental, iar acțiunea lor nu poate fi
manipulată de către cel care realizează experimentul. Cu toate
acestea, această categorie de variabile au un rol deosebit de
important în cadrul experimentului, deoarece, dacă efectul lor nu
ar fi anulat, ipoteza potrivit căreia variabilele independente
determină modificările variabilelor dependente ar putea fi serios
afectată sau chiar invalidată. Dacă în domeniul științelor exacte,
organizatorul experimentului are posibilitatea de asigura
menținerea unui nivel constant acestor variabile aleatoare, acest
lucru este mai dificil de realizat în cadrul experimentelor de
marketing. De aceea, în acest domeniu se practică un control mai
rafinat, de natură statistică asupra acestor variabile. În practică,
acest control implică două abordări complementare: selecția
aleatoare a unităților de observare (lucru care dorește să înlăture
influența eventualelor deosebiri între acestea în ceea ce privește
amplasarea, mărimea, structura sau comportamentul lor) și
calculul efectului datorat erorii experimentale, ca element distinct
de efectele generate de dinamica variabilelor explicative. Având
în vedere natura obiectivă a manifestării acestor variabile
aleatoare în cadrul oricărui experiment fără nicio excepție,
specialistul în marketing nu va trebui să caute să înlăture
existenţa acestora (demers fără sorți de izbândă), ci doar să
identifice modalitățile adecvate de control statistic pentru a
menține, pe cât posibil, constant, nivelul variabilelor din această
categorie.
b) Variabilele dependente (denumite şi variabile explicate)
reprezintă variabile de tip efect, care ar putea să fie exprimate prin volume
de vânzări, niveluri ale cererii, timpi necesari pentru luarea deciziei de
cumpărare, atitudini ale consumatorilor, strategii ale concurenţei, eficienţa
intermediarilor etc. Pe parcursul derulării experimentului, este vital ca aceste

126
categorii de variabile să nu fie expuse influenţelor exercitate de factorii
perturbatori.
2. Unităţile de observare pot fi reprezentate de magazinele care
desfac anumite mărfuri, loturile de produse care se testează, unitățile
economice implicare în experiment, grupurile de cumpărători etc. ale căror
reacţii la diferitele niveluri ale factorilor experimentali sunt monitorizate,
cuantificate şi analizate. Şi unităţile de observare se divizează în două
categorii:
- unităţile experimentale cărora li se aplică tratamentul
experimental şi asupra cărora se efectuează măsurările necesare;
- unităţile de control (martor) care sunt de asemenea supuse
observaţiei, dar nu sunt supuse acțiunii factorilor experimentali
(tratamentelor statistice), rolul lor fiind acela de a servi drept
elemente de referință pentru evidențierea modificărilor suferite de
unităţile experimentale, ca urmare a acțiunii stimulilor de
marketing analizați.
3. Tratamentele experimentale reprezintă un ansamblu de acţiuni şi
proceduri prin care specialistul în marketing manipulează variabilele
explicative (care, la rândul lor, determină nivelul şi dinamica unităţilor
experimentale) pentru a înregistra și analiza ulterior variația valorilor
variabilelor dependente. Cu alte cuvinte, tratamentele reprezintă însăşi
esența experimentului de marketing. De exemplu, ele pot să urmărească
modificarea unor niveluri ale preţurilor (pentru a măsura variaţia cererii ca
reacție la această schimbare), a unor caracteristici funcţionale ale produselor
(pentru a urmări variația cifrei de afaceri), a unor mesaje publicitare (pentru
a observa schimbările apărute în ceea ce privește viteza de adoptare a
deciziilor de cumpărare) etc.
4. Erorile experimentale. Aceastea însoțesc în mod inevitabil orice
experiment și se datorează, în principal, următoarelor cauze:
- încălcarea principiului selecției aleatoare în constituirea unităților
de observare (experimentale și martor), factor care conduce la apariția
erorilor de selecție;
- precizia insuficientă a metodelor și instrumentelor de măsurare a
datelor care sunt aplicate în cadrul exeprimentului și care conduc la
manifestarea erorilor instrumentale;
- anomaliile apărute în comportamentele subiecților care sunt
conștienți de faptul că sunt supuși observării, luând naștere în acest fel
erorile de stres;
- influența timpului care determină deconcertarea atenției subiecților,
schimbarea dispoziției acestora și a angajamentului de a lua parte cu
responsabilitate la activitățile pe care le presupune desfășurarea
127
experimentului, schimbarea conjuncturii pieței, dispariția unor subiecți etc.,
ceea ce provoacă erorile temporale;
- evenimente aleatoare, ”din afară” care nu pot fi controlate de către
cercetători: schimbarea legislației într-un anumit domeniu, strategii
imprevizibile puse în operă de către firmele concurente, calamități naturale
etc.;
- intuirea, de către subiecții investigați, a ”rezultatelor dorite” ale
cercetării, ceea ce îi determină pe aceștia să furnizeze informații cosmetizate,
adesea neconforme cu realitatea, dar care concordă, în opinia lor, cu
așteptările organizatorilor experimentului.
Indiferent de cauzele care determină apariția erorilor experimentale,
este necesar ca acestea să fie cuantificate și menținute în limite considerate
rezonabile, astfel încât existența lor să nu afecteze în mod semnificativ
validitatea întregului demers de experimentare.
În sfârșit, la finalul acestui paragraf este necesar să formulăm câteva
considerații succinte cu privire la schemele de proiectare aferente
experimentelor de marketing. Astfel, conform literaturii de specialitate,
proiectarea experimentului de marketing reprezintă procesul de structurare
anticipată, prin intermediul unui model statistic sau al unei reprezentări
schematice, a diferitelor combinații dintre variabilele analizate, combinații
care constituite exact tratamentele experimentale preconizate pentru a fi
aplicate unor grupe de unităţi experimentale. Eficienţa organizării unui
experiment de marketing este condiţionată în mod decisiv de operaţia de
alegere a schemei de proiectare specifice.
Astfel, o primă categorie de scheme de proiectare a experimentelor
presupune existenţa unui singur factor experimental care acționează asupra
variabilei explicate şi ia în calcul ipoteza unei influenţe constante din partea
altor factori, caeteris paribus (un astfel de exemplu este reprezentat de testul
lui Solomon sau testul semnelor). Practica de marketing impune însă apelul
la metode mai elaborate de proiectare a experimentelor, capabile să reflecte
cu o fidelitate înaltă caracterul complex al fenomenelor de marketing. Astfel,
există experimente bi- sau multi-factoriale, în cadrul cărora se studiază
influența a doi sau mai mulți factori experimentali asupra variației variabilei
dependente și, eventual, impactul interacțiunii dintre aceștia asupra efectelor
experimentului.
Printre metodele de proiectare ale experimentelor considerate cu
eficiență ridicată se menționează: proiectarea complet aleatoare (uni sau
multi-factorială), proiectarea cu ajutorul blocurilor aleatoare (uni sau multi-
factorială), pătratele latine, pătratele greco-latine ş.a. Fiecare dintre acestea
vor fi prezentate pe larg în continuare, atât din punct de vedere teoretic, cât
mai ales din punct de vedere practic prin elaborarea și rezolvarea unui studiu
128
de caz dedicat. Așa cum se va arăta în continuare, analiza datelor rezultate
din organizarea experimentelor de marketing se realizează cu ajutorul
analizei dispersionale (analiza variației sau ANOVA).

Proiectarea experimentelor de marketing -


fundamente teoretice
Această schemă de proiectare a experimentului este considerată una
dintre cele mai accesibile scheme de organizare care face posibilă observarea
comportamentului câtorva grupuri experimentale, ca rezultat al acțiunii
diferitelor niveluri ale unui factor experimental. Ea a fost denumită în acord
cu modalitatea aleatoare de repartizare a unităților experimentale la unul
dintre grupurile experimentale. Pentru organizarea unui experiment de
marketing în conformitate cu această schemă de proiectare, informațiile
extrase din cercetarea de teren sunt sistematizate sub forma tabelului nr. 1.
Pe prima coloană a tabelului de mai sus sunt prezentate n unități
experimentale cărora le-a fost aplicat primul nivel al factorului experimental
considerat; coloana a doua cuprinde n unități cărora le-a fost atașat al doilea
nivel al factorului experimental; în mod asemnănător, pe coloana j se
prezintă n unități care au suportat nivelul j al factorului experimental.

Tabelul nr.1. Organizarea experimentului de marketing prin proiectarea


complet aleatoare
Nivelele factorului experimental
Variabila 1 2 j ... r Total
dependentă
Nivelul x 11 x 12 x 1 j ... x 1r T1.
variabilei x 21 x 22 x 2 j ... x 2r T2.
dependente la . . . …
.
unitatea x1 j x2 j . Ti.
x ij
experimentală nj . . . …
. ... Tn.
x n1 x n2 x x nr
nj
Total T.1 T.2 T.j ... T.r T..
Medii x1 x2 xj ... xr x
Suma ∑ x 21 ∑ x 22 ∑ x 2j ∑ x 2r ∑ (∑ x2j )
pătratelor

129
Semnificația simbolurilor care au fost prezentate în conținutul
tabelului este redată în continuare:
x ij - reprezintă nivelul variabilei dependente la unitatea
experimentală i (i=1,2,...,n) căreia i se aplică factorul experimental j
( j=1,2,...,r);
T.j – totalul coloanei j;
Ti. – totalul liniei i;
T... – totalul general al variabilei dependente pentru toate unitățile
experimentale;
x j - media valorilor de pe coloana j;
x
- media generală a variabilei dependente pentru toate unitățile
experiementale;
∑ x2j -suma pătratelor variabilei dependente la unitățile
experimentale din coloana j;
∑ (∑ x2j ) - suma pătratelor variabilei dependente pentru toate
unitățile experimentale.
Pentru a aplica cu succes această schemă de organizare a
experimentului de marketing, este necesar să fie îndeplinite următoarele
exigențe:
 O sigură valoare a variabilei dependente trebuie să fie
asociată fiecărei unități experimentale;
 Numărul unităților experimentale din fiecare grup (coloană
din tabel) trebuie să fie identic (de regulă, aceste grupuri
includ 10-15 unități experimentale);
 Deși numărul nivelurilor factorului experimental este
considerat arbitrar, se recomandă totuși ca acesta să nu fie
mai mare decât 5.
Folosind analiza variației (metoda ANOVA), vom urmări să stabilim
dacă factorul experimental considerat exercită o influență semnificativă
asupra variabilei dependente. În acest scop, se parcurg următoarele etape:
1) Determinarea sumei abaterilor pătrate pe total (SST):
r n
T 2. . T2
SS T = ∑ ∑ x 2ij− =∑ ( ∑ x 2j )− . .
j=1 i=1 N r⋅n (1)
N – numărul total al unităţilor experimentale observate ( N=r⋅n ).

2) În cazul proiectării complet aleatoare, suma abaterilor pătrate totale


se compune din două elemente: suma abaterilor pătratelor între
130
grupuri (SSFr) – care surpinde influenţa factorului experimental şi
suma abaterilor pătratelor în cadrul grupurilor (SSE), denumită şi
eroare experimentală. Relațiile de calcul pentru determinarea celor
două componente sunt redate în continuare:
Calculul sumei abaterilor pătratelor între grupuri SSFr:
r
T 2. j T 2. .
SS Fr=∑ −
j=1 n r⋅n (2)
Determinarea sumei abaterilor pătratelor în cadrul grupurilor SSE:
SS E=SS T −SS Fr =∑ ( ∑ x 2j )−
∑ T 2. j
n (3)
3) Verificarea semnificaţiei statistice a rezultatelor obţinute cu ajutorul
testul Fisher. Valoarea calculată a lui F pentru r-1 grade de libertate
la numărător şi r⋅n−r (sau N-r) grade de libertate la numitor se
determină cu relaţia:
SS Fr SS E MS Fr
Fr−1 ,N−r = : =
r −1 N−r MS E (4)
în care: MSFr – media sumelor abaterilor pătrate între grupuri
SS
MS Fr = Fr
( r−1 );
MSE – media sumelor abaterilor pătrate în cadrul grupurilor
SS
MS E = E
( N −r ).
4) Stabilirea rezultatelor experimentului. Ipoteza nulă H0Fr postulează,
pentru un anumit nivel de semnificaţie (), că factorul experimental
nu a exercitat în nici un fel de influenţă asupra variabilei dependente.
Dacă valoarea calculată Fr-1,N-r depăşeşte valoarea teoretică F preluată
din tabele statistice, ipoteza nulă se respinge impunându-se concluzia
unei influenţe semnificative a factorului experimental asupra
variabilei dependente. Prin urmare, se respinge HOFr, dacă
FFr calculat > Fteoretic (r-1);N-r;.

Studiu de caz: experiment de marketing unifactorial - rezolvare clasică


și în SPSS

Managerii unei firme care produce brânză de capră naturală după o


rețetă tradițională, ar dori să știe dacă ambalajul noului produs prezintă
importanță semnificativă pentru cumpărătorii potenţiali. În acest scop, se
întreprinde o cercetare de marketing derulată asupra pieţelor aferente a zece
localităţi şi asupra a patru tipuri diferite de ambalaje, constituindu-se un
131
eşantion format din 12.000 de consumatori cărora le se trimite câte o mostră
de produs prezentat în câte un tip distinct de ambalaj.
Numărul de comenzi care au sosit pe adresa firmei în urma expedierii
mostrelor de produse ambalate în cele patru moduri diferite se sistematizează
sub forma datelor din tabelul următor.
Ținând cont de etapele prezentate anterior, vom căuta să aflăm dacă
designul ambalajului a exercitat sau nu o influenţă semnificativă asupra
numărului de comenzi primite de firma producătoare.

Tabelul 2: Numărul comenzilor înregistrate


Localitatea Ambalaj tip Ambalaj tip Ambalaj tip Ambalaj tip
A1 A2 A3 A4
L1 103 105 118 159
L2 120 116 124 139
L3 88 77 92 102
L4 141 109 150 187
L5 90 88 100 120
L6 98 121 128 122
L7 85 133 148 174
L8 110 112 131 181
L9 143 139 106 138
L10 122 130 83 168
Total 1100 1130 1180 1490

Rezolvare clasică:
Aplicarea analizei variației pentru experimentul de marketing
organizat după regulile metodei complet aleatoare presupune efectuarea
următoarelor determinări:
a) În prima etapă se calculează suma abaterilor pătrate pentru
comenzile realizate în cadrul experimentului de marketing.
În cazul exemplului considerat, vom avea următoarele notații:
i – indicativ pentru localitate;
n – numărul localităţilor luate în considerare;
j – indicativ pentru tipul de ambalaj;
r – numărul tipurilor de ambalaj testate;
xij – numărul comenzilor primite din localitatea i pentru produsul
ambalat sub forma j;
Ti. - numărul comenzilor primite de la consumatorii din localitatea i;
T.j – numărul comenzilor primite pentru fiecare tip de ambalaj j;
T.. – numărul total de comenzi primite (suma tuturor valorilor
variabilei dependente);
N – numărul combinaţiilor diferite de localităţi şi tipuri de ambalaje
constituite (numărul total al unităţilor de observare).
132
Numărul localităţilor luate în considerare este 10 (deci n = 10), iar
numărul tipurilor de ambalaje este 4 (deci r = 4); prin urmare numărul total
al unităţilor de observare constituite (al combinaţiilor localităţi – tipuri de
ambalaje) este:
N = 10 x 4 = 40
Numărul total de comenzi este:
T = 1110 +1130 +1180 +1490 =4900
Pentru cele 10 localităţi, cu scopul de a determina suma pătratelor
10

comenzilor efectuate j=1


(∑ ) x 2ij
se va efectua un calcul tabelar ale cărui
rezultate sunt prezentate în continuare.

Tabelul 3
Localitatea Ambalaj tip A1 Ambalaj tip A2 Ambalaj tip Ambalaj tip
A3 A4
L1 1032 =10.609 1052 = 11.025 1182 = 13.924 1592 = 25.281
L2 1202 =14.400 1162 =13.456 1242 =15.376 1392 =19.321
L3 882 =7.744 772 =5.929 922 =8.464 1022 =10.404
L4 1412 =19.881 1092 =11.881 1502 =22.500 1872 =34.969
L5 902 =8.100 882 =7.744 1002 =10.000 1202 =14.400
L6 982 =9.604 1212 =14.641 1282 =16.384 1222 =14.884
L7 852 =7.225 1332 =17.698 1482 =21.904 1742 =30.276
L8 1102 = 12.100 1122 =12.544 1312 =17.161 1812 =32.761
L9 1432 =20.449 1392 =19.321 1062 =11.236 1382 =19.044
L10 1222 =14.884 1302 =16.900 832 =6.889 1682 =28.224
Total 124.996 131.130 143.838 229.564

Rezultă că:
4 6
∑ ∑ x 2ij =1032+120 2+882+ .. .+1052 +116 2+77 2 .. .+1182 +1242 + 922 +1592 +1392+1022+. . .+
i=1 j=1
+138 + 1682 =629. 528
2

Prin urmare, suma abaterilor pătrate – variația totală asociată


experimentului de marketing va fi:
n m
T2 4 . 9002 24 . 010 . 000
SS T =∑ ∑ x 2ij− =629 .528− =629 . 528− =29. 278
i=1 j=1 N 40 40

2) În cea de-a doua etapă, suma abaterilor pătrate pe total (


SS T ) se
descompune în:

133
● variaţia comenzilor datorată factorului experimental (tipului de
ambalaj) sau suma abaterilor pătrate între grupuri - SS FR, se determină în
baza relației:
r
T 2. j T 2. . 11102 1130 2 1180 2 14902 49002
SS Fr=∑ − = + + + − =609 .940−600 . 250=9 . 690
j=1 n r⋅n 10 10 10 10 40
● suma abaterilor pătrate în cadrul grupurilor, abateri datorate erorii
experimentale (și apărute ca urmare a influenței altor factori decât tipul de
ambalaj), se calculează cu formula:
SS E=SS T −SS Fr =29 .278−9690=19. 588

3) În ultima etapă, vom utiliza testul statistic Fisher, cu scopul de a


testa influenţa tipului de ambalaj (a variaţiei variabilei independente sau
experimentale) asupra numărului de comenzi (asupra variaţiei variabilei
dependente).
Valoarea calculată a lui F, pentru un număr de (r-1), adică de (4-1)
= 3 grade de libertate la numărător şi (N-r), adică (40-4) = 36 grade de
libertate la numitor, precum şi pentru un nivel de semnificaţie de 95% (o
eroare admisă de 5%), se determină cu relaţia:
SS SS 9690 19588 3230
F 4−1 ,40−4,1% =F3 , 36,1%= Fr : E = ÷ = =5, 936
3 36 3 36 544, 11
5) Stabilirea rezultatului experimentului - Pentru 3 grade de libertate la
numărător şi 20 grade de libertate la numitor, precum şi pentru un
nivel de semnificaţie de 1% (care corespunde unei probabilități de
garantare a rezultatelor de 99%), valoarea teoretică a lui F, preluată
din tabele întocmite special în acest scop, va fi egală cu 4,51.
Întrucât valoarea calculată a lui F (egală cu 5,936) este mai mare
decât cea teoretică (decât 4,51), rezultă că ipoteza nulă H 0Fr trebuie respinsă
și vom reține concluzia conform căreia influenţa ambalajului asupra
numărului de comenzi este semnificativă.

Tabloul final al analizei variației este evidențiat în tabelul nr.4.

Tabelul nr. 4
Sursa Suma Număr Mediile sumelor Testul F p
variației abaterilor grade de abaterilor pătrate
pătrate - SS libertate -MS
TOTAL SST = 29.278 r⋅n−1= - - -
39
Între grupuri SSFr = 9.690 (r-1)= 3 MSFr = 3230 FFr=5,936 ¿ 0,01
În cadrul SSE = 19.588 (N-r)=36 MSE =544,11 - -
grupurilor
134
Decizia H0Fr se respinge deoarece Fcalculat (5,936) > Fteoretic 3;36;1%(4,51)
finală

Cel mai agreat tip de ambalaj este cel căruia îi corespunde cel mai
mare număr de comenzi. Cum, pe coloane, cel mai mare total din tabelul 3
(egal cu 1490 de comenzi) corespunde ambalajului tip A4, rezultă că această
variantă este cea preferată de către consumatorii potențiali din eșantion.

Rezolvare în SPSS
Să vedem cum se aplică metoda ANOVA simplă pentru cazul tratat
anterior. Vom construi baza de date in SPSS luând trei variabile: Tipul
ambalajului, Localitatea și Numărul comenzilor înregistrate:

Pentru cele două variabile nominale Tipul ambalajului și Localitatea avem


etichetate cazurile:

Acum introducem in modulul Data View numărul de comenzi dorit:

135
Cercetare de marketing avută în vedere pornește de la ipoteza de nul
prin care se consideră că nu există nicio diferență în cea ce priveste numărul
de comenzi primite și tipul ambalajului folosit.
Procedura de testare a mediei unei variabile cantitative pe categoriile
(mai mult de 2) ale unei variabile calitative este One-way ANOVA.
Prima condiție este verificarea normalității variabilei dependente pe
toate categoriile varibilei independente. Putem verifica normalitatea pe calea:
Analyze/Descriptive Statistics/ Explore. Trecem în câmpul Dependent List
variabila Numărul comenzilor înregistrate iar în câmpul Factor List variabila
Tipul ambalajului.

Activăm butonul Plots unde bifăm Normal plots with tests. Prin
Continue închidem dialogul Plots iar OK implică afișarea rezultatelor în
output. Procedura Explore este cea mai completă din statistica descriptive,
deci, avem implicit și alte rezultate: un prim tabel cu frecvența variabilei
136
dependentă în cazurile variabilei factor, apoi indicatorii statisticii descriptive
ai VD pe fiecare din cazurile VI. (media, intervalul ei de incredere pentru
95%), media dacă excludem 5% din valorile maxime și minime (5%
Trimmed Mean), mediana, varianța și deviația standard, minimul și
maximul, diferența dintre ele adică range, distanța intercvartilică (Q3-Q1),
asimetria (skewness) și boltirea (kurtosis). Pentru scopul propus pe noi ne
interesează tabelul:

El conține testele de normalitate pentru VD pe fiecare din cazurile


VI. Pentru că numărul subiecților este mic (df=10) se consideră mai puternic
testul Shapiro-Wilk care-l citim începând cu ultima coloană. Vedem că la
toate tipurile de ambalaje p>0,05 prin urmare nu respingem ipoteza de nul,
care în cazul normalității spune că nu există nicio diferență între distribuția
normală și distribuția noastră restricționată la fiecare din cazuri. În concluzie
una din condițiile de aplicabilitate a testului One-Way ANOVA este
îndeplinită.
Observație Neglijăm celelalte rezultate ale lui Explore adică: reprezentare
frunză și tulpină a VD pe fiecare din cazurile VI, graficele Normal Q-Q,
diferențele de la normal, graficele boxplot.
Există două etape in aplicarea ANOVA simplă:
1. Verificăn existența la nivel global, adica respingem sau nu respingem
ipotez de nul prin intermediul testului F.
2. Dacă respingem ipoteza de nul, pentru a afla care dintre grupuri diferă
între ele vom recurge la procedura comparațiilor analitice. Există două
categorii de comparații: comparații planificate numite contraste și comparații
neplanificate (post hoc). Mai multe detalii la tratarea ANOVA de la testele
parametrice (capitolele anterioare).
Să aplicăm acum ANOVA simplă pentru VD pe cazurile VI. Calea
este Analyze/Compare Means/One-Way ANOVA. În fereastra dialog trecem
în câmpul Dependent List variabila Numărul comenzilor înregistrate iar în
câmpul Factor variabila Tipul ambalajului. Activăm butonul Options unde
bifam Descriptive, Homogeneity of variance test și Means plot.

137
Închidem Option prin Continue și celelalte butoane Contrast și Post
Hoc deocamdată nu le activăm. Apăsând OK obținem în output rezultatele:
Un prim tabel cu date statistcii descriptive ale VD pe fiecare din
categoriile VI.

Urmează testul Levene de omogenitate a varianței:

Acesta este nesemnificativ statistic p=0,282>0,05. Prin urmare nu


respingem ipoteza de nul care în cazul omogenității varianței înseamnă că nu
sunt diferențe semnificative statistic între varianțele VD considerate pe
grupele VI.
Așadar sunt îndeplinite toate condițiile pentru testul ANOVA
unifactorial (simplu sau One-way) deci citim următorul tabel ANOVA:

OBSERVAȚIE
138
Tabel identic cu Tabelul 4 de la pagina 112. Rezultatul testului Fisher este
semnificativ statistic, p=0,002<0,05, deci respingem ipoteza de nul, adică
existe diferențe semnificative între grupurile variabilei Tipul ambalajului în
ce privește variabila Numărul comenzilor înregistrate. F(3, 36)=5,936,
p=0,002. Graficul furnizat de ANOVA este semnificativ:

Trecem la a doua etapă în aplicarea testului ANOVA pentru a vedea


mărimea efectului. Vom aplica testele Post Hoc (neplanificate). Reluăm
ultimul dialog prin butonul și de data aceasta activăm butonul Post Hoc
care implică dialogul:

Am bifat testul Tukey din câmpul Equal Variances Assumed, apoi


Continue și OK. Cel mai important rezultat este tabelul comparațiilor
multiple:

139
Prima coloană conține toate perechile (evident dublate) de comparații
intergrupuri cu diferențele corespunzătoare dintre medii în a două coloană.
Cele semnificative statistic sunt semnalate cu *. Observăm că doar
Ambalajul de tip A4 are diferențe semnificative față de toate celelalte.
Următoarea coloană conține eroarea standard a mediei pentru fiecare pereche
iar apoi avem pragurile de semnificație corespunzătoare diferențelor de
medii. Urmează limitele intervalului de încredere al diferențelor. Tabelul nu
calculează valoarea testului t Tukey dar acesta poate fi calculat pentru fiecare
pereche (cu diferențe semnificative statistic) prin formula:
Mean Differnce
t Tukey =
Std . Error
Asadar între grupele cu tipurile de ambalaj:
A4 și A1 39 3,7384
t= =3,7384 r= =0,5096
10,432 √ 5,936∗3+36
A4 și A2 36 3,4509
t= =3,4509 r= =0,4704
10,432 √ 5,936∗3+36
A4 și A3 31 2,9716
t= =2,9716 r= =0,4051
10,432 √ 5,936∗3+36
Calculăm în același tabel mărimea efectului după formula:
t Tukey
r=
√ F∗df intergrup + df intragrup
Interpretarea mărimii efectului se face după tabelul lui Cohen3
Mărimea efectului r
Foarte puternic ≥ 0,70
Puternic [0,5, 0,7)
Mediu [0.3, 0,5)
Slab <0.3
3
Cohen, J. 1988, Statistical Power Analysis for the Behavioral Sciences, Lawrence Erlbaum
Associates, Inc.
140
În cazul nostru diferența între ambalajul A1 și A4 in cea ce privește
numărul de comenzi este mare, in schimb între A4 și celelalte două este o
diferență medie.

Experiment de marketing unifactorial - aplicație rezolvată în SPSS

Managerii unei firme care realizează și comercializează produse


textile doresc să identifice impactul strategiilor publicitare concepute în
cadrul compartimentului de marketing asupra volumelor de vânzări
înregistrate pentru o linie de produse de îmbrăcăminte destinate femeilor. În
acest scop, ei vor organiza un experiment de marketing, în cadrul căruia
selecționează în mod aleator câte 12 unități comerciale de același tip
(comparabile ca mărime și specializare) prin intermediul cărora se
realizează desfacerea produsului respectiv, în fiecare dintre cele 5 localități
în care se organizează cercetarea. Fiecăreia dintre cele 5 localități i se
administrează, timp de o lună, factorul experimental care constă din
strategii promoționale diferite, care reflectă niveluri crescătoare ale
intensității promovării produselor din linia menționată. Astfel, în prima
localitate nu se va aplica nicio strategie promoțională, urmând ca în
următoarele 4 localități intensitatea acțiunilor promoționale se crească
progresiv, prin implicarea mai multor mijloace media: în localitatea 2 –
publicitatea se va realiza numai prin presa scrisă; în localitatea 3 – mixul
publicitar va include presa scrisă și spoturile TV; în localitatea 4 – mixul
publicitar va angrena presa scrisă, televiziunea și publicitatea outdoor; în
localitatea 5 – strategia publicitară va include pe lângă cele menționate,
publicitatea prin realizată intermediul telefoanelor mobile. În tabelul nr. 5
se prezintă vânzările înregistrate pentru produsul respectiv, pentru fiecare
dintre cele 12 unități comerciale care au format obiectul experimentului și
pentru fiecare localitate.
Tabelul nr. 5
Unitatea Localitatea Localitatea Localitatea Localitatea Localitatea
comercială L1 L2 L3 L4 L5
U1 30 14 58 68 78
U2 45 28 49 57 80
U3 24 46 28 61 61
U4 32 18 34 35 52
U5 17 37 42 46 40
U6 12 24 38 41 55
U7 40 31 47 38 70
U8 27 41 51 60 66
U9 18 15 54 55 54
U10 36 43 37 57 50
U11 44 39 42 46 47
U12 42 37 29 48 65

141
Total 367 373 509 612 718

Rezolvare cu SPSS
Vom considera o variabilă nominală ce are cele cinci valori ale
localităților studiului. O altă variabilă nominală are cazuri cele 12 unități
comerciale, iar o variabila scalară va înregistra volumul vănzărilor pe fiecare
tip de unitate și localitate.
Variabilele:

Datele:

Verificăm testul de normalitate al variabilei vânzări pe fiecare


categorie a variabilei localitate. Calea este Analyze/Descripive Statistics/
Explore unde descidem dialogul Plots și bifăm Normality plots with tests:

apoi Continue și OK. Citim testul de normalitate Shapiro-Wilk care este


nesenmificativ la toate categoriile variabilei localitatea, deci nu putem
respinge ipoteza de nul, cea ce înseamnă că variabila este normală.

142
Aplicăm ANOVA simpla pe calea Analyze/Compare Means/One-
Way ANOVA unde variabila dependenta trece în câmpul Dependent List iar
variabila independentă în câmpul Factor.

Deschidem dialogurile Option și bifăm Descriptive, Homogeneity of


variance test, Means plot

apoi continue. Avem aici două variante. Să deschidem dialogul Post Hoc
înainte de a avea rezultatul la testul Levene care ne spun dacă varianțele sunt
egale sau inegale și să bifăm un test de la varianțe egale și altul de la varianțe
inegale, sau dăm OK, să citim testul Levene și apoi să bifăm ce test este
necesar. Să apăsăm OK și avem rezultatul la testul Levene:

143
Este nesemnificativ p=0,870>0.05 deci varianțele sunt presupuse egale.
Atunci revenim la dialogul anterior (înainte de a da OK) prin butonul și
deschiden Post Hoc unde bifăm testul neplanificat Tukey:

Închidem cu Continue și OK. Acum citim rezultatul principal ANOVA:

Rezultatul testului Fisher este semnificativ statistic, p<0,001<0,05,


deci respingem ipoteza de nul, adică existe diferențe semnificative între
grupurile variabilei Localitatea în ce privește variabila volumul vânzărilor.
F(4, 55)=16,086, p<0,001. Graficul furnizat de ANOVA este semnificativ:

Testul Tukey furnizează comparațiile multiple între perechi:


144
Cele semnificative statistic sunt (L1-L4), (L1-L5), (L2-L4), (L2-L5) și (L3-
L5). Calculăm pentru fiecare valorea lui t:
20,417
L1-L4 t= =4,5634 r =0,4177 Diferență medie
4,474
29,25 Diferență
L1-L5 t= =6,5377 r =0,5984 puternică
4,474
19,917
L2-L4 t= =4,4517 r =0,4074 Diferență medie
4,474
28,75 Diferență
L2-L5 t= =6,4260 r =0,5882 puternică
4,474
17,417
L3-L5 t= =3,8930 r =0,3563 Diferență medie
4,474

Evident putem comenta că publicitatea realizată numai prin presa


scrisă și cea prin mixul publicitar ce include presa scrisă și spoturile TV nu a
determinat diferențe semnificative față de neaplicarea a niciunei strategii
promoționale
Cele mai eficiente se dovedesc mixul publicitar ce angrenează presa
scrisă, televiziunea și publicitatea outdoor și strategia publicitară ce include
pe lângă cele menționate, publicitatea realizată intermediul telefoanelor
mobile.
145
Proiectarea experimentelor cu doi factori –
fundamente teoretice
În cazul în care, în organizarea experimentului de marketing se
operează simultan, cu doi factori experimentali, datele culese din cercetarea
de teren vor fi sistematizate sub forma tabelului nr. 6. Cei doi factori
experimentali analizați se notează cu ”A”, respectiv ”B” și au n, respectiv m
niveluri, iar numărul combinațiilor care rezultă între aceștia este p=n⋅m .
Fiecărei combinații între cei doi factori experimentali i se asociază în mod
aleator un număr de r unități experimentale.
Tabelul nr. 6
Nivelurile Nivelurile factorului B Totaluri Medii
factorului A 1 2 ... m
1 x 111 x 121 T1.. x 1 ..
... ...
x 11r x 12r …
x1m1
...
x1mr
2 x 211 x 221 T2.. x 2 ..
... ...
x 21r x 22r …
x2m1
...
x2mr
... ... ... … …
x n11 x n21 Tn.. x n ..
n
... ...
x n1r x n2r …
x nm1
...
x nmr
Totaluri T.1. T.2. T.m. T...
Medii x.1 . x.2 . x...
x.m .

146
Semnificația simbolurilor utilizate în cadrul acestui model este
următoarea:
r
T ij .=∑ xijk
k=1 - reprezintă totalul celulei ij;
T ij .
x ij=
n - media celulei ij;
m r
T i . .=∑ ∑ xijk
j=1 k=1 - totalul rândului i;
T i. .
x i . .=
r⋅m - media rândului i;
n r
T . j .=∑ ∑ x ijk
i=1 k =1 - totalul coloanei j;
T . j.
x. j .=
r⋅n - media coloanei j;
n m r
T . ..=∑ ∑ ∑ x ijk
i=1 j=1 k =1 - totalul general al tabelului de contingență;
T .. .
x . ..=
r⋅n⋅m
p=n⋅m - numărul combinațiilor posible între cei doi factori
experimentali, A și B.
De asemenea, pentru a utiliza această matrice de organizare a
experimentului de marketing, este necesar să fie întrunite următoarele
condiții4:
 Fiecărei unități experimentale trebuie să îi fie asociată doar
o singură valoare a variabilei dependente. În cazul în care, în
practică, au fost efectuate măsurări repetate asupra aceleiași
unități experimentale, în tabel va fi înregistrată o singură
valoare (media sau suma măsurătorilor individuale);
 Numărul unităților experimentale din fiecare subgrup trebuie
să fie același (de regulă, aceste grupuri includ 10-15 unități
experimentale). Ca și în cazul proiectării complet aleatoare,
această cerință a egalității numărului de unități
experimentale din fiecare subgrup constituit în cadrul
experimentului nu este foarte restrictivă;
 Se recomandă ca numărul nivelurilor înregistrate de cei doi
factori experimentali nu depășească cifra 5.

4
Cătoiu, Iacob (coord.), Cercetări de marketing, Editura Uranus, București, 2002, pp. 399
147
Prelucrarea și interpretarea rezultatelor unui experiment de marketing
organizat după matricea prezentată în tabelul nr. 6, implică utilizarea analizei
variației, ANOVA. Aceasta presupune descompunerea variației totale a
variabilei dependente în părțile sale componente ca în figura nr. 1.

Variația
totală,
(SST)
Variația dintre Variația din
grupuri, interiorul
grupurilor,
(SSG)
(SSE)

Variația datorată Variația datorată Variația


primului factor celui de-al doilea datorată
experimental A, factor interacțiunii
(SSA) experimental B, dintre factori,
(SSB) (SSAB)

Figura nr. 2. Descompunerea pe componente a variației totale a


variabilei dependente

Concret, pentru efectuarea calculelor și aplicarea testului statistic


Fisher, se vor parcurge următoarele etape:
1) Se determină suma abaterilor pătrate pe total folosind
următoarea relație de calcul:
n m r
T 2 .. .
SS T =∑ ∑ ∑ x 2ijk−
i=1 j=1 k =1 n⋅m⋅r (5)

2) Această variație totală va fi defalcată pe două componente: suma


abaterilor pătrate dintre grupuri (SSG) și suma abaterilor pătrate
din cadrul grupurilor (SSE). Pentru a determina cuantumul fiecărei
componente vom folosi relațiile:
n m
∑ ∑ T 2ij .
i=1 j=1 T 2. . .
SS G= −
r n⋅m⋅r (6)

SS E=SS T −SS G (7)

148
3) Suma abaterilor pătrate dintre grupuri poate fi descompusă, la
rândul ei, pe trei componente: suma abaterilor pătrate datorate
primului factor experimental SSA; suma abaterilor pătrate datorate
celui de-al doilea factor experimental SSB și suma abaterilor
pătrate apărute ca efect al interacțiunii factorilor SSAB.
SS G=SS A+SS B +SS AB (8)
Pentru determinarea sumei abaterilor pătrate datorate factorului
experimental A se va utiliza următoarea relație de calcul:
n
∑ T 2i ..
i=1 T 2 . ..
SS A= −
m⋅r n⋅m⋅r (9)
La rândul său, suma abaterilor pătrate datorate variabilității celui de-
al doilea factor experimental B, se calculează cu formula:
m
∑ T .2j .
j=1 T2 . . .
SS B = −
n⋅r n⋅m⋅r (10)
Efectele manifestate ca urmare a interacțiunii factorilor A și B se
determină sub forma diferenței:
SS AB =SS G−( SS A +SS B )
(11)

4) Aplicarea testului statistic Fisher pentru verificarea


semnificației efectelor asociate factorilor experimentali asupra
variabilei dependente. În acest scop, se vor calcula trei valori
distincte ale lui F, cu scopul de a stabili daca ipotezele nule H 0A,
H0B și H0AB pot fi acceptate sau trebuie să fie respinse.
Considerând un nivel de semnificație αcorespunzător
probabilității dorite de garantare a rezultatelor experimentului,
relațiile de calcul pentru valorile calculate ale lui F sunt
următoarele:
SS A SS E MS A
Fn−1, mn( r−1 ), α = ÷ =
n−1 n⋅m⋅(r−1 ) MS E , pentru primul factor experimental;
(12)
SS B SS E MS B
Fm −1 , mn( r−1) ,α = ÷ =
m−1 n⋅m⋅(r−1) MS E , pentru al doilea factor experimental;
(13)
SS AB SS E
F( n−1)(m−1),nm( r−1),α = ÷
(n−1)(m−1) n⋅m⋅(r−1) , pentru interacțiunea dintre cei doi
factori experimentali (14)
149
.
Dacă valoarea calculată a lui Fcalculat depășește valoarea tabelată
Fteoretic extrasă din tabelele statistice Fisher corespunzătoare nivelului de
semnificație ales și gradelor de libertate asociate, atunci ipoteza nulă pentru
factorul experimental respectiv va fi respinsă și se va formula concluzia
conform căreia influența acestui factor asupra variabilei dependente este
una semnificativă. De asemenea, dacă Fcalculat are o valoare mai mică sau
egală cu Fteoretic, se va accepta ipoteza nulă, demonstrându-se în acest fel că
impactul exercitat de factorul experimental asupra variabilei dependente
poate fi considerat ca neglijabil sau nesemnificativ.
Studiu de caz: experiment de marketing bifactorial - rezolvare clasică și
în SPSS

Experimentul de marketing organizat de această dată are drept scop


determinarea influenţei mediului de proveniență şi nivelului de pregătire ale
consumatorilor potențiali asupra vânzărilor de DVD-uri cu filme realizate de
o firmă de profil. În acest scop, a fost constituit un eşantion format din 6
magazine (3 din mediul urban şi 3 din mediu rural), iar culegerea datelor a
condus la obţinerea următoarelor informaţii privind volumul lunar al
vânzărilor fiecărui magazin (în mii lei).

Tabelul 7: Volumul lunar de vânzări


Mediu urban Mediu rural Total
Cu studii 40 17
superioare 23 19
128
19 10
Total – 82 Total – 46
Fără studii 42 18
superioare 27 15
133
21 10
Total – 90 Total – 43
Total 172 89 261
Vom utiliza relațiile de calcul expuse în paragraful precedent cu
scopul de a stabili dacă cei doi factori experimentali (mediul de provenienţă
şi nivelul de pregătire al consumatorilor) influenţează volumul vânzărilor
firmei.

Rezolvare clasică:
În cazul exemplului considerat, vom explicita câteva notații:

150
A – indicativ pentru primul factor experimental - nivelul de pregătire
al consumatorilor
( i=1,n );
B – indicativ pentru al doilea factor experimental - mediul de
proveniență ( j=1,m );
k – numărul de magazine (unități experimentale) care furnizează date
referitoare la volumele de vânzări ( k=1,r );
n m r 2 2
T ... ( 2 2 2 2 290
SS T =∑ ∑ ∑ x 2ijk− 2 2
= 40 +23 +19 +...+18 +15 +10 )− =
i=1 j=1 k=1 n⋅m⋅r 2x 2 x 3
84100
6823− =6823−5676 , 75=1146 ,25
12
Suma abaterilor pătrate dintre grupuri (SSG) este dată de relaţia:
n m
∑ ∑ T 2ij .
i=1 j=1 T 2. . .
SS G= −
r n⋅m⋅r
82 +46 2 +902 +43 2 2612
2
SS G= − =6263−5676 , 75=586 , 25
3 12
Suma abaterilor pătrate datorate erorii experimentale (care
cumulează influența exercitată de factorii aleatori) se determină sub forma
diferenţei:
SS E=SS T −SS Fr =1146,25−586,25=560
La rândul său, suma abaterilor pătrate dintre grupurile
experimentale se descompune în:
● suma abaterilor pătrate datorată primului factor A (SSA):
n
∑ T 2i ..
i=1 T 2 . ..
SS A= −
m⋅r n⋅m⋅r
( 82+90 )2 + ( 46+43 )2 1722 +892
SS A= −7 .008 , 33= −5676 , 75=574 , 08
2x 3 6
● suma abaterilor pătrate datorată celui de-al doilea factor B (SSB):
m
∑ T .2j .
j=1 T2 . . .
SS B = −
n⋅r n⋅m⋅r
( 82+46 )2 + ( 90+43 )2 1282 +1332
SS B= −5676 ,75= −5676 ,75=2 , 08
2x 3 6
● suma abaterilor pătrate datorată interacţiunii celor doi factori
(SSAB):
151
SS AB =SS Fr −( SS A+SS B )
SS AB =586,25−(574 ,08+2,08)=10,09
Pentru a verifica dacă influenţa primului factor (mediului) asupra
vânzărilor de DVD-uri este semnificativă, vom calcula valoarea lui F:
547,08 560
F2−1,2⋅2⋅(3−1),0 .05= ÷ =8,20
(2−1) 2⋅2⋅(3−1)
Deoarece mărimea teoretică a lui F pentru un grad de libertate la
numărător şi 8 la numitor (F1;8;0,05), pentru un nivel de semnificație de 5%,
este, conform tabelelor statistice, egală cu 5,32, înseamnă că mediul în care
trăiesc cumpărătorii influenţează sensibil volumul vânzărilor de DVD-uri.
Testăm acum influența celui de-al doilea factor (nivelul de pregătire
al consumatorilor) asupra vânzărilor de DVD-uri:
2,08 560
F2−1,2⋅2⋅(3−1),0 .05= ÷ =0,029
(2−1) 2⋅2⋅(3−1)
iar valoarea teoretică a lui F1;8;0,05 este 5,32, înseamnă că nivelul de pregătire
al cumpărătorilor nu influenţează semnificativ vânzările de DVD-uri.
Trebuie să vedem în continuare cât de important este efectul
interacțiunii dintre cei doi factori experimentali asupra volumelor de vânzări:
10,09 560
F(n−1)(m−1),nm(r−1)= ÷ =0,14
(2−1)(2−1) 2⋅2⋅(3−1) ,
Ținând cont că ne raportăm la aceeași valoarea teoretică a lui F1;8;0,05
egală cu 5,32, rezultă că interacţiunea celor doi factori experimentali are o
acţiune neglijabilă asupra rezultatelor experimentului.
Tabloul final al analizei variației este evidențiat în tabelul nr.8.

Tabelul nr. 8
Sursa variației Suma Grade de MS F p
abaterilor libertate
pătrate (SS)
TOTAL SST =1146,25 n⋅m⋅r−1= - - -
11
Între grupuri SSG =586,25 r-1=2 MSG -
=195,41
- factorul A SSA =574,08 n-1=1 MSA FA=8,20 ¿ 0,05
=547,08
- factorul B SSB =2,08 m-1=1 MSB =2,08 FB=0,029 ¿ 0,05
- interacțiunea SSAB =10,09 (n-1)·(m-1)=1 MSAB FAB=0,14 ¿ 0,05
AB =10,09
În cadrul SSE =560 n · m ·(r-1)=8 MSE =70 - -
grupurilor
Decizia H0A este respinsă deoarece FA calculat (8,20) > Fteoretic1;8;0,05 (5,32)
H0B este acceptată deoarece FB calculat (0,029) <Fteoretic 1;8,0,05(5,32)
152
H0AB este acceptată deoarece FAB calculat (0,14) < Fteoretic 1;8;0,05 (5,32)

Desigur, metoda complet aleatoare de proiectare a experimentelor de


marketing poate fi utilizată și în cazul unui număr mai mare de factori
experimentali. În aceste situații, metodologia de lucru va urma aceeași pași,
însă relațiile matematice care vor trebui adaptate fiecărui caz în parte vor
deveni mai complexe și vor solicita un plus de atenție din partea celor care
operează cu acestea.

Rezolvare în SPSS:

Să tratăm cazul de mai sus cu varianta ANOVA factorială. Prin ea


putem analiza efectele a două sau mai multe variabile independente asupra
unei variabile dependente. Condițiile de aplicabilitate sunt asemănătoare cu
cele de la ANOVA simplă. Sursele de varianță sunt odată cele
corespunzătoare fiecărei VI, varianța corespunzătoare efectelor de
interacțiune și varianța eroare. Considerănd designul cu cele două VI le
notam A (variabila corespunzătoare nivelului de pregătire al consumatorilor
și cu B (variabila corespunzătoare mediului de proveniență). Am construit
baza de date în SPSS:
- Variabilele:

- Datele:

Să verificăm condiția de normalitate a variabilei vânzări pe facorii A și


B. Cale este Analyze/Descriptive Statistics/Explore. Trecem VD și factorii A
și B și deschidem Plots unde bifăm Normality plots with tests.
153
Acționăm Continue și OK. La output obținem testul Shapiro-Wilk:

Pentru ambele variabile pentru A: p=0,202 iar pentru B: p=0,528 deci


variabila volumul vănzărilor este distribuită normal pe fiecare din categoriile
variabilelor factor. Acum să verificăm omogenitatea variantelor pe calea
(care este și calea de aplicare a Anovei factorial) Analyze/General Liniar
Model/Univariante. Trecem VD în câmpul Dependent Variable iar factorii în
câmpul Fixed Factor(s). La butonul Option bifăm Descriptive statistics,
Estimates of effect size și Homogeneity tests, Continue și OK.
Tabelul Descriptive Statistics prezintă mediile și abaterile standard ale
variabilei volumul lunar al vânzărilor pe cazurile variabilelor factor.

Testul Levene este nesemnificativ statistic F(3,8)=2,223, p>0.05 (p=0.163)


deci condiția de egalitate a varianțelor este indeplinită.
154
Tabelul principal al tehnicii ANOVA factorial este:

Analizăm testele F pentru efectele principale ale factorilor A și B și


deasemenea efectului de interacțiune. Constatăm că există un efect principal
semnificativ statistic al mediului (factorul B) asupra volumului vânzărilor,
F(1,8)=8,096, p=0,021, reprezentarea grafică fiind elocventă:

Nu există efect principal semnificativ al variabilei Nivelul de


pregătire asupra volumului vânzărilor, F(2,8)=0,03, p=0,867.
La fel efectul de interacțiune nu este semnificativ, F(1, 8)=0,144 , p=0,714.
Cum avem doar două categorii la varibilele factor nu avem nevoie de testele
post-hoc pentru a prezenta diferențele între grupe. Mărimea efectului

155
(calculată pentru efectul principal semnificativ statistic) pentru două grupe se
calculează după:
F
r=
√ F+ df intragrup
8,201
În cazul nostru r =

8,201+1
=0,8913 cea ce implică un efect foare puternic
al factorului Mediu asupra vânzărilor

Experiment de marketing bifactorial - aplicație rezolvată în SPSS

Vom presupune că se organizează un experiment de marketing prin


intermediul căruia se urmărește atât testarea efectelor participării
studenților la activitățile de seminarizare desfășurate cu ajutorul
calculatorului asupra notelor obținute de aceștia la testul de sinteză de
verificare a cunoștințelor la disciplina ”Cercetări de marketing”, cât și
diferențierea efectelor menționate pe cele două programe de studii de
licență – ”Economia comerțului, turismului și serviciilor”, respectiv
”Management” din cadrul Universității din Petroșani. Experimentul
respectiv a fost organizat după o schemă de tip proiectare complet aleatoare
bifactorială.
În scopul desfășurării experimentului, au fost selecționați în mod
aleator 10 studenți de la specializarea ”Economia comerțului, turismului și
serviciilor” și 10 studenți de la specializarea ”Management”; aceștia au
fost împărțiți ulterior în două subgrupuri egale în funcție de numărul de ore
de seminar bazat pe tehnologia informațiilor frecventate de fiecare (sub 14
ore/semestru, respectiv peste 14 ore pe semestru). Datele cu privire la
performanțele obținute, măsurate prin notele primite la test, sunt
sistematizate sub forma tabelului nr. 8. Se cere să se stabilească dacă cei
doi factori considerați – numărul de ore de seminar frecventate și
programul de studii – au influențat în mod semnificativ rezultatele testării la
disciplina ”Cercetări de marketing”.

Tabelul nr. 9
Factorul B – frecvența la seminarii bazate Total Media
pe tehnologia informațiilor
Factorul A – Sub 14 ore/semestru Peste 14
programul de studii ore/semestru
Economia 6 8 76
comerțului, 7 10
turismului și 6 7

156
serviciilor 8 9 7,6
6 9
Total – 33 Total – 43
Management 5 7
4 8
6 6
61
5 7 6,1
7 6
Total – 27 Total – 34
Total 60 77 137 -
Media 6,0 7,7 - -

Rezolvare în SPSS
Construim baza de date cu variabilele nominale: Programul de studii
(factorul A) și Frecvența la seminarii bazate pe tehnologia informațiilor
(factorul B). Acestea sunt variabilele independente. Variabila dependentă
este scalară: Nota la testul final. Baza de date modulul Variable view:

Modulul Data view:

Verificăm condiția de normalitate a variabilei dependente pe


categoriile variabilelor factor prin testul Shapiro-Wilk (calea:
Analyze/Descriptive Statistics/Explore unde trecem VD la Dependent List iar
ambele VI la Factor List, apăsăm butonul Plots unde bifăm Normality plots
with tests)

157
Reținem din output tabelele:

Observăm că testele Shapiro-Wilk sunt nesemnificative pe fiecare din


cazurile variabilelor factor: la Programul de studii pentru ECTS avem
p=0,268, iar pentru Management p=0,691 și la Frecvența la seminarii pentru
sub 14 ore/semestru p=0,703 iar pentru peste 14 ore/semestru p=0,466. Toate
pragurile de probabilitate sunt mai mari ca 0,05 prin urmare nu respingem
ipoteza de nul, adică nu există diferențe între distribuția variabilei nota la
testul final și distribuția este normală pe fiecare categorie a variabilelor
factori.
Aplicăm ANOVA factorială (calea: Analyze/General Liniar Model/
Univariante unde trecem VD și VI la câmpurile ca mai sus:

Deschidem Option unde bifăm Descriptive statistics și Homogeneity tests:

158
Obținem rezultatele: date de statistică descriptivă (media și abaterea
standard):

testul Levene de egalitate a varianțelor:

El este nesemnificativ statistic F(3,16)=0,287 cu p=0,834 prin urmare


ipoteza de egalitate a varianțelor este indeplinită. Să analizăm datele din
principalul tabel:

Facem întâi analiza efectelor principale. Atunci când testul F


corespunzător unui efect principal este semnificativ putem spune că există
diferențe semnificative între grupuri, iar dacă sunt mai mult de două grupuri

159
se impune aplicarea testelor de contrast sau post hoc pentru a obține
comparațiile multiple.
În cazul nostru pentru factorul Programul de studii avem
F(1,16)=10,976, p=0,004<0.05 este efectul principal semnificativ, deci
diferențele între grupele acestei variabile sunt semnificative. Pentru a vedea
care din cele două grupe ale factorului influențează și în ce sens nota la testul
final vom face o reprezentare grafică. În dialogul anterior (îl regăsim repede
cu butonul din meniul SPSS: Recall recently used dialogs, Univatiante)
apăsăm Plots unde trecem variabila programul în câmpul Horizontal Axis
apoi Add și închidem dialogul prin Continue apoi cu OK in fereastra
Univariante. Obținem:

Concluzionăm că influența factorului Programul de studii este


semnificativă în ce priveste nota la testul final, grupa ECTS având o medie
de 7,6, mai mare decât cea ce la grupa de Management care este 6,1.
Referitor la efectul principal al factorului Frecvența la seminarii
bazate pe tehnologia informațiilor observăm că și acesta este semnificativ
statistic F(1,16)=14,098, p=0,00<0.05 concluzionând că și acest factor are o
influență semnificativă în ce priveste nota la examen. La fel reprezentăm
grafic și obținem odiferență între medii semnificativă: 7,7 pentru cei care au
peste 14 ore/semastru și doar 6 pentru cei care sunt sub 14 ore/semestru.

160
Efectul de interacțiune este nesemnificativ F(1,16)=0,439,
p=0,517>0.05. Mai avem de calculat Mărimea efectului pentru efectele
principale. Pentru variabila Programul de studii:
F 10,976
r=
√ √
F+ df intragrup
=
26,976
=0,6378
Pentru variabila Frecvența la seminarii bazate pe tehnologia informației:
14,450
r=
√ 30,45
=0,6888
Aceasta inseamnă că cei doi factori au efect puternic asupra notei la testul
final.

Proiectarea experimentelor cu ajutorul blocurilor


aleatoare – fundamente teoretice
Proiectarea complet aleatoare a experimentelor s-a bazat pe supoziția
conform căreia, în afara factorului experimental considerat, alte elemente
care ar fi în măsură să afecteze variația variabilei dependente ar rămâne
constante pentru toate unitățile de observație care sunt implicare în realizarea
experimentului. În realitate însă, apar frecvent situații în care cel puțin o
sursă de variație ”din afară” poate exercita un efect semnificativ asupra
evoluției variabilei dependente. Pentru a conduce cu succes un experiment de
marketing în astfel de cazuri, literatura de specialitate recomandă elaborarea
unei scheme de proiectare bazate pe blocurile aleatoare de unități
experimentale, cu scopul de a face posibilă evidențierea acestei surse de
variație și de a estima cât mai exact impactul ei.
Modalitatea de organizare a unităților experimentale este cea care
face diferența dintre proiectarea experimentelor prin metoda complet
aleatoare și proiectarea experimentelor cu ajutorul blocurilor aleatoare.
Astfel, în primul caz, unitățile experimentale sunt atribuite în mod aleator
diferitelor niveluri ale factorului experimental, singura preocupare a
organizatorului experimentului fiind legată de necesitatea de a asigura, în
măsura posibilităților, un număr identic de unități pe fiecare nivel. În
proiectarea experimentelor cu ajutorul blocurilor aleatoare, se păstrează
ideea repartizării aleatoare a unităților experimentale pe diferite niveluri ale
factorului experimental, dar această operație are loc după ce, în prealabil,
unitățile experimentale au fost grupate în blocuri caracterizate de un anumit
nivel de omogenitate. Astfel, prin utilizarea acestor blocuri este posibilă
eliminarea impactului unei variabile care prezintă interes redus pentru
cercetător, ceea ce face posibilă amplificarea validității experimentului.
161
În practică, este posibilă situația în care unitățile experimentale sunt
relativ omogene în ceea ce privește variabila care dictează formarea
blocurilor și schema de proiectarea cu ajutorul blocurilor aleatoare sacrifică
grade de libertate fără a contribui la optimizarea experimentului. Pe de altă
parte, dacă unitățile experimentale sunt extrem de eterogene în raport cu
variabila care stă la baza alcătuirii blocurilor, folosirea blocurilor aleatoare
este pe deplin eficientă deoarece la un anumit volum al eșantionului este de
natură să conducă la o eroare experimentală sensibil mai redusă comparativ
cu situația precedentă.
În practică, pentru a organiza un experiment de marketing cu ajutorul
blocurilor aleatoare, se va face apel la principiul grupării unităţilor
experimentale în blocuri, adică în grupuri cât mai omogene. După formarea
blocurilor (i=1,2,...,n), repartiţia unităţilor experimentale pe diferite nivele
ale factorului experimental (j=1,2,...,r) se face aleatoriu. Planul de
experiment implică un eşantion aleatoriu, alcătuit din n-r unităţi. Datele
obţinute în urma efectuării experimentului se organizează conform tabelului
nr. 10.

Tabelul nr.10: Organizarea experimentului pe baza modelului de


proiectare cu ajutorul blocurilor aleatoare
Nivelele factorului experimental Total Media
Blocuri Ti ( xi .)
1 2 … j … r
1 x11 x12 … x1 j … x1 r T1 . x1 .
2 x21 x22 … x2 j … x2 r T2 . x2 .
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
i xi 1 xi 2 xij xir Ti . xi .
⋮ ⋮ ⋮ … … ⋮ ⋮
⋮ ⋮
n xn 1 xn 2 xni xnr Tn . xn .
Total T.1 T.2 … T.j … T.r T..
(T.j)
Media x.1 x.2 … x. j … x.r x..
(x. j)

în care:
xij – reprezintă nivelul variabilei dependente care aparține blocului i
(i=1,n) și căreia i se aplică factorul experimental j( j=1,r );
T.j – totalul coloanei j;

162
x. j - media coloanei j;
Ti. – totalul blocului i;
x i . - media blocului i;
T.. – totalul general al variabilei dependente pentru toate unitățile
experimentale;
x.. - media generală a variabilei dependente pentru toate unitățile
experimentale;
Analiza variației presupune descompunerea variației totale a
variabilei dependente pe elemente componente, așa cum se prezintă în figura
nr. 3.

Variaţia între
blocuri SSB Variaţia datorată
Variaţia totală factorului
SST experimental SSFr
Variaţia în
interiorul
blocurilor
Variaţia datorată
erorii
experimentale
SSE
Figura nr.3: Modelul organizării experimentului de marketing cu
ajutorul blocurilor aleatoare

Modelul experimental propus presupune parcurgerea următoarelor


etape:
1) Calcul sumelor abaterilor pătrate SS
 Determinarea sumei abaterilor pătrate pe total SST:
r n
T2 . .
SS T = ∑ ∑ x 2ij−
j=1 i=1 r⋅n (15)
 Determinarea sumei abaterilor pătrate datorate factorului
experimental SSFr
r
1 T 2 ..
SS Fr= ∑ T . j2−
n j=1 r⋅n (16)
 Calculul sumei abaterilor pătrate datorate blocurilor
experimentale SSB:
n
1
SS B = ∑ T .2−C
r i=1 i (17)
 Calculul sumei abaterilor datorate erorii experimentale SSE:
163
SSE = SST – SSFr – SSB (18)
2). Calculul mediei sumelor abaterilor pătrate MS
SS Fr
MS Fr =
- pentru factorul experimental : r−1
(19)
SS B
MS B=
- pentru blocurile experimentale: n−1
(20)
SS E
MS E =
- pentru eroarea experimentală: (r−1)(n−1) (21)
3). Calculul valorii F, pentru aplicarea testului statistic Fisher
MS Fr
F Fr =
- pentru factorul experimental : MS E
(22)
MS B
F B=
- pentru blocurile experimentale: MS E (23)
4). Interpretarea rezultatelor
Stabilirea rezultatelor experimentului, se face comparând valorile
calculate ale testului Fisher cu valorile tabelate pentru V 1 şi V2 grade de
libertate cu V1= r-1; V2=(n-1)(r-1) şi o valoare a nivelului de semnificaţie .
În funcţie de acestea, se determină Fteoretic din comparaţia căruia cu FFr şi FB
calculate se desprind următoarele situaţii:
- se respinge HOFr, dacă FFr calculat > Fteoretic (r-1);(n-1)(r-1);
- se respinge HOB, dacă FB calculat > Fteoretic (n-1);(n-1)(r-1);.

Studiu de caz: Proiectarea unui experiment de marketing cu ajutorul


blocurilor aleatoare – rezolvare clasică și în SPSS

Compartimentul de cercetare-dezvoltare din cadrul unei firme industriale


a pus la punct 4 variante distincte de perfecționare a unuia dintre produsele
din oferta sa; aceste variante sunt simbolizate prin A, B, C şi respectiv D.
Managerii de nivel superior sunt interesați să știe dacă măsurile de
modernizare propuse influenţează volumul vânzărilor în mod relevant.
În acest scop, a fost organizat un experiment de marketing bazat pe
selecția aleatoare a unui număr de 10 magazine prin care se asigură
desfacerea produsului respectiv. Aceste magazine au fost aprovizionate cu
un stoc suficient pentru a acoperi integral cererea pe o lună din toate cele
patru variante ale produsului analizat. De asemenea, alte condiții de vânzare
164
au fost identice pentru variantele A, B, C și D și au fost menținute constante
în perioada de timp menționată (1 lună).
Cu alte cuvinte, în cadrul acestui experiment fiecare magazin a fost tratat
ca un bloc distinct, iar prin intermediul acestei abordări s-a urmărit ca
acțiunea factorului analizat (implementarea strategiilor de perfecționare a
produsului) să fie izolată de eventualele influențe pe care caracteristicile
magazinelor le-ar putea exercita asupra volumelor de vânzări (tip, forma de
comercializare, mijloace publicitare, prestigiu etc.). Rezultatele obţinute în
urma experimentului sunt sistematizate sub forma tabelului nr.11.
Tabelul nr. 11
Magazinele Nivelele factorului experimental Media
(blocuri Total (Ti.) (xi .)
) A B C D
1 70 84 87 120 361 90,25
2 64 110 53 90 317 79,25
3 55 79 80 114 328 82,00
4 67 97 65 89 318 79,50
5 49 93 69 99 310 77,50
6 60 100 74 98 332 83,00
7 56 88 76 110 330 82,50
8 66 105 59 105 335 83,75
9 50 95 77 101 323 80,75
10 73 99 80 94 346 86,50
Total
610 950 720 1020 3300
(T.j)
Media 10 82,5
61 95 72
(x. j) 2

Rezolvare clasică:
Pentru cele 10 magazine, cu scopul de a determina suma abaterilor
10

( )
∑ x 2ij
pătrate pe total j=1 se va efectua un calcul tabelar ale cărui rezultate
sunt prezentate în continuare.
Tabelul 12
Magazinele Nivelurile factorului experimental
A B C D
1 702= 4900 842= 7056 872= 7569 1202= 14400
2 642= 4096 1102= 12100 532= 2809 902= 8100
3 552= 3025 2
79 = 6241 2
80 = 6400 1142= 12996
4 672= 4489 2
97 =9409 2
65 = 4225 892= 7921
5 492= 2401 932 =8649 692= 4761 992= 9801
6 602= 3600 2
100 =10000 2
74 = 5476 982= 9604

165
7 562= 3136 882 =7744 762= 5776 1102= 12100
8 662= 4356 1052 =11025 592= 3481 1052= 11025
9 502= 2500 952 =9025 772= 5929 1012= 10201
10 732= 5329 992 =9801 802= 6400 942= 8836
Total 37832 91050 52826 104984

Atunci, suma abaterilor pătrate pe total este:


r n
T2 . . 33002
SS T = ∑ ∑ x 2ij− =37832+91050+52826+104984− =286692−272250=14442
j=1 i=1 r⋅n 4⋅10
Suma abaterilor pătrate datorate factorului experimental este
deteminată în continuare:
r
1 6102 +950 2 +7202 +1020 2
SS Fr = ∑ T . j2 −C= −272250=11090
n j=1 10
Asemănător, determinarea sumei abaterilor pătrate datorate
blocului experimental utilizează relaţia:
n
1 2 3612 +317 2 +3282 + 3182 +3102 +3322 +3302 +3352 +3232 + 3462
SSB= ∑ T i .−C= −
r i=1 4
−272250=272753−272250=503
Suma abaterilor datorate erorii experimentale rezultă prin diferenţa:
SSE=SST - SSFr - SAPB = 14442 – 11090 – 503 = 2849
În următoarea etapă, se urmăreşte determinarea mediilor sumelor
abaterilor pătrate:
SS 11090
MS Fr = Fr = =3696 ,66
r−1 3
SS B 503
MS B= = =55 , 88
n−1 9
SAP E 2849
MS E = = =105 , 51
(r−1 )(n−1 ) 3⋅9
Validarea rezultatelor experimentului cu ajutorul testului Fisher
presupune calculul valorilor F:
MS Fr 3696 , 66
F Fr = = =35 ,03
MS E 105 ,51
MS 55 , 88
F B= B = =0 , 53
MS E 105 , 51
Valoarea teoretică a lui F pentru V1=3 şi respectiv V2=27 grade de
libertate la un nivel de semnificaţie =0,05 este Fteoretic3;27;0,05=2,96. Având în
vedere că Fcalculat pentru factorul experimental este cu mult mai mare decât
Fteoretic, se respinge ipoteza H0Fr şi se impune concluzia că volumul vânzărilor
produsului analizat este influenţat în mod semnificativ de îmbunătăţirea
performanţelor sale prin modernizare.
166
Mai mult, această concluzie poate fi susţinută şi pentru un nivel de
confidenţialitate mai ridicat. Astfel, pentru =0,1%, Fteoretic 3;27;0,001=7,27 ceea
ce înseamnă că afirmaţia precedentă este corectă în 99,9% din cazuri.
În ceea ce priveşte variaţia blocurilor (constituite din cele 8
magazine), aplicarea testului Fisher conduce la concluzia Fcalculat<Fteoretic7;27;0,05
(0,53<2,96), situaţie în care se impune acceptarea ipotezei nule. Rezultă
aşadar că tipul magazinelor nu influenţează în mod semnificativ volumul
vânzărilor.
Rezultatele calculelor efectuate şi adoptarea deciziei de acceptare sau
respingere a ipotezei nule H0 (conform căreia măsurile de modernizare
preconizate nu influenţează semnificativ volumul vânzărilor) sunt sintetizate
sub forma tabelul nr.13.

Tabelul nr.13
Sursa Nr.gra- Suma abaterilor Media pătratică Testul
variaţiei delor de pătrate (variaţia) SS (dispersia) Fisher
libertate MS F
Factorul (r-1)=3 SSFr=11090 MSFr=3696,66 FFr=35,03
experiment
al
Blocuri (n-1)=9 SSB=503 MSB=55,88 FB=0,53
Eroarea (r-1) (n- SSE=2849 MSE=105,51 -
experiment 1)=27
ală
Total rn-1=39 SST= 14442 - -
Decizia H0Fr se respinge deoarece FFrcalculat(35,03)>Fteoretic 3;27,0,05(2,96)
H0B se acceptă deoarece FBcalculat (0,53) < Fteoretic 7;27;0,05 (2,96)

Rezolvare în SPSS
Construim baza de date ce se prezinta în variable view

Fereastra Data View:

167
Calea este Analyze/ General Linear Model/Univariante. Trecem
Volumul vânzărilor la Dependent Variable iar la Fixed Factor(s)
Blocurile și Variantele de perfecționare:

Apasăm butonul Model unde în câmpul Specify Model selectăm


Custom, în câmpul Build Term(s) alegem Main effects iar variabilele
factor le trecem în fereastra Model, Ne asigurăm că este bifat: Include
intercept in model și închidem prin Continue.

În fereastra principală Univariante apăsăm OK și avem:


168
Nu există o diferență semnificativ statistic între blocuri F(9,
27)=0,53, p=0,84 deci nu respingem ipoteza de nul. Există o diferență
semnificativ statistică între variantele de perfectionare ale produsului,
F(3, 27)=35,033, p<0,01, deci respingem ipoteza de nul. Referitor la
metoda eficienta putem să o observam și din grafic. Deschidem în
dialogul Univariante Plot și trecem în câmpul Horizontal Axis variabila
Blocuri și în câmpul Separate Line variabila fact, apăsăm Add și
Continue. La Ok apare in output graficul:

În ordinea eficienței in ceea ce privește volumul vânzărilor avem


ordinea: A, C, B, D.

Proiectarea unui experiment de marketing cu ajutorul blocurilor


factoriale - aplicație rezolvată în SPSS

Managerul unei firme industriale își propune să testeze dacă


strategiile de distribuție folosite pentru unul dintre produsele care formează
169
oferta sa de bază exercită o influență semnificativă asupra consumatorilor
potențiali. Având în vedere că gradul de penetrate al clientelei firmei diferă
la nivel regional, pentru izolarea influenței factorului geografic se vor
consitutui 8 blocuri de unități experimentale care desemnează 8 regiuni de
dezvoltare distincte, cărora li se asociază 3 tipuri de canale de distribuție,
câte unul pentru fiecare regiune. Aceste canale vor fi simbolozate după cum
urmează:
- D1 – distribuția directă (ultrascurtă);
- D2 – distribuția indirectă (prin intermediari);
- D3 – distribuția prin magazinul virtual.
Pentru a asigura validitatea datelor culese pe baza experimentului,
celelalte condiții de vânzare au fost meținute au fost menținute constante
pentru produsul distribuit prin canalele D1, D2 și D3 în perioada de timp
menționată (1 lună).
În cadrul acestui experiment fiecare regiune a fost tratată ca un bloc
distinct, iar prin intermediul acestei abordări s-a urmărit ca acțiunea
factorului analizat (implementarea strategiilor de distribuție a produsului)
să fie izolată de eventualele influențe pe care caracteristicile regiunilor le-
ar putea exercita asupra numărului de comenzi (nivel de dezvoltare, grad de
urbanizare, notorietatea produsului, tradițiile locale etc.). Rezultatele
obţinute în urma experimentului sunt sistematizate sub forma tabelului
nr.14.

Tabelul nr. 14
Magazinele Nivelele factorului experimental Media
(blocuri) Total (Ti.)
D1 D2 D3 (xi .)
Regiunea Centru 32 58 45 135 45,00
Regiunea Nord-Est 39 60 60 159 53,00
Regiunea Nord-Vest 28 64 47 139 46,33
Regiunea Vest 40 72 40 152 50,67
Regiunea Sud-Vest 41 82 58 181 60,33
Regiunea Sud 46 77 52 175 58,33
Regiunea Sud-Est 27 75 64 166 55,33
Regiunea București-
22 62 44 128 42,67
Ilfov
Total (T.j) 275 550 410 1235  
M edia
(x. j) 34,375 68,75 51,25   51,46

Să se verifice dacă tipul de canal de distribuție utilizat influenţează,


într-adevăr, numărul de comenzi primite.
Rezolvare în SPSS
Formăm baza de date:
170
Variable View

Data View:

Deschidem dialogul Analyze/General Linear Model/Univariante in


care trecem variabila dependentă Număr de comenzi iar variabilele
independente: Magazine, Strategii de distribuție în câmpul Factor.

Apăsăm butonul Model unde facem transformările ca mai sus:

171
Inchidem prin OK iar în output găsim

Observăm că rezultatul la ipoteza de nul referitoare la factorul


Magazine este că putem să o respingem F(7,14)=177,089, p=0,001. La fel și
în ce privește canalele de distribuție ale produsului diferențele sunt
semnificative statistic F(2,014)=124,882, p<0.01. Vom active unul din
testele neplanificate Tukey pentru comparații multiple:

172
Vedem destule perechi de regiuni în care media vânzărilor este
semnificativ statistic diferită (semnalate cu *) La fel și la canale de
distribuții:

Aici chiar toate cele trei perechi sunt diferite

Organizarea experimentului de marketing pe baza


modelului pătratului latin – fundamente teoretice
Dacă vom considera că nu există interacțiuni relevante între factorii
experimentali, literatura de specialitate ne pune la dispoziție o metodă
173
eficientă de organizare a experimentelor trifactoriale, denumită pătratul
latin. Prin intermediul acestei metode de proiectare, numărul de tratamente
statistice efectuate poate fi redus considerabil, prin aplicarea acestora numai
asupra unor factori, în timp ce alți factori vor fi menținuți la valori constante.
În acest scop, pentru a înlătura posibilitatea de apariție a erorilor, diferitele
combinații factori experimentali-valori sunt constituite de o asemenea
manieră încât fiecare nivel al unui factor să fie asociat cu fiecare nivel al
celorlalți factori (fără a se epuiza însă toate combinațiile posibile). În tabelele
statistice care stau la baza proiectării unui astfel de experiment, fiecare
tratament (combinație factori-valori) va putea fi identificat câte o singură
dată pe fiecare rând și pe fiecare coloană. În consecință, pentru n tratamente,
tabelul va evidenția n rânduri, n coloane și n2 unități experimentale.
În felul acesta, se obține o reducere considerabilă a costurilor aferente
organizării experimentului, lucru care face ca această metodă de proiectare
să fie considerată printre cele mai eficiente.
Pentru aplicarea acestei scheme experimentale, este necesară
respectarea următoarelor cerinţe:
 cei trei factori experimentali, simbolizați prin i, j, k, trebuie să aibă
acelaşi număr de nivele, notat cu m (m ≤5);
 tratamentele se realizează numai într-un număr de m2 celule ale
tabelului de contingenţă, dintre cele m3 care ar corespunde unui plan
experimental integral;
 factorii i, j şi k sunt aranjați într-un tabel pătratic în conținutul căruia
cele m linii reflectă nivelurile factorului i, cele m coloane corespund
nivelurilor factorului j, iar simbolurile (tot în număr de m) care sunt
transcrise în pătrat sunt nivelurile factorului k;
 cele m2 celule ale tabelului sunt distincte;
 experimentele sunt organizate sub formă de blocuri, fiecare bloc
incluzând, de regulă, acelaşi număr de unităţi experimentale (care se
regăsește de obicei în intervalul 5-15).

Pentru a concretiza cele expuse pănă acum, vom considera trei unităţi
experimentale pe care le notăm cu 1, 2 şi 3 şi trei niveluri ale factorului
experimental simbolizate cu A, B şi C; schema generală a unui pătrat latin se
prezintă în tabelul nr.15.

Tabelul nr.15: Schema proiectării experimentale de tipul unui pătrat


latin
Nivelurile factorului i
Nivelurile factorului j I II III Total
Ti..
174
1 A B C T1..
2 B C A T2..
3 C A B T3..
Total T.j. T.I. T.II. T.III. T...
Total T..k T..A T..B T..C

Rezultă că fiecare nivel al factorului experimental k se aplică în mod


succesiv fiecărei unităţi experimentale. Dacă se notează cu Ti.. totalul
rândului i (unde i =1,2,…,r), cu T.j. totalul coloanei j (j =1,2,…,r), cu T..k
totalul realizat de unităţile experimentale cărora li se administrează nivelul k
al factorului experimental (k =1,2,…,r) şi cu T … totalul general al pătratului
latin, se constată că:
r r r
∑ T i. .=∑ T . j.= ∑ T . . k =T . . .
i=1 j=1 k=1 (24)
Pe baza celor menționate, se vor calcula cele patru sume ale
abaterilor pătratelor care se formează în cadrul experimentului SST,
respectiv: efectele pe rânduri, datorate acțiunii factorului i (SSR), efectele pe
coloane, datorate influenței factorului j (SSC), efectele datorate factorului
experimental k (SSK) şi efectele datorate erorii experimentale (SSE). Relațiile
matematice pentru calculul acestora abateri sunt detaliate în continuare:
m
T .2. .
SS T = ∑ x 2i , j ,k −
i , j , k=1 m2 (25)
1
m
T 2. . .
SS R= ∑ T 2 . .− 2
m i=1 i m (26)
1
m
2 T 2.. .
SS C = ∑ T . j.− 2
m j=1 m (27)
1
m
2 T 2. ..
SS K = ∑ T .. k − 2
m j=1 m (28)
SS E=SS T −SS R−SS C (29)
în care : xijk – valorile variabilei dependente; m – numărul de niveluri ale
celor 3 factori experimentali.
Pentru testarea semnificaţiei statistice a efectului factorului
experimental, valoarea calculată a lui F se determină cu formula:
SS K SS E MS K
F( m−1 );( m−1)(m−2 ); α = : =
m−1 (m−1)(m−2 ) MS E (30)
Evident, dacă Fcalculat>Fteoretic (m-1);(m-1)(m-2); ipoteza H0K se respinge şi se
admite concluzia interdependenţei factorilor testaţi.

175
Studiu de caz: Proiectarea unui experiment de marketing cu ajutorul
modelului pătratului latin – rezolvare clasică și în SPSS

În cadrul unui experiment de marketing, se urmărește studierea


impactului a trei factori - forma de distribuție, tipul de ambalaj și categoria
de consumatori - asupra volumului de vânzări la produsul Z. În raport cu
categoria de vârstă în care se încadrează, consumatorii potențiali, aceștia
au fost divizați în 4 categorii: I – consumatori copii (între 3-12 ani); II –
consumatori adolescenți (între 13-18 ani); III – consumatori maturi (19-60
de ani); IV – consumatori vârstnici (peste 60 de ani).
Experimentul are în vedere 4 variante diferite de ambalare
produsului respectiv (1 – ambalajul A1; 2 – ambalajul tip A2; 3 - ambalajul
A3; 4 – ambalajul A4) şi vizează 4 canale de distribuție distincte:
A – distribuția directă;
B – distribuția prin magazine mici;
C – distribuția prin hypermarketuri;
D – distribuția prin intermediul Internetului.
În tabelul nr. 16 se prezintă volumele de vânzări înregistrate în
fiecare dintre situaţiile menţionate anterior.

Tabelul nr. 16
Tip de ambalaj Săptămâna Total
I II III IV
1 [A] 720 [B] 800 [C] 1200 [D] 870 3590
2 [B] 550 [C] 1010 [D] 770 [A] 860 3190
3 [C] 900 [D] 640 [A] 520 [B] 450 2510
4 [D] 910 [A] 570 [B] 400 [C] 830 2710
Total 1200
3080 3020 2890 3010
0

Se cere să se stabilească dacă există diferenţe semnificative, în


privinţa volumului vânzărilor, între cele patru canale de distribuție.
Rezolvare clasică:
Pe baza datelor din tabelul nr. 16, se constată că fiecare strategie de
distribuție a fost experimentată în mod egal, respectiv câte o dată în situaţia
fiecăruia din cele 4 ambalaje şi în fiecare dintre cele 4 săptămâni succesive.
Efectuăm totalurile vânzărilor înregistrate pentru fiecare din cele patru
variante de promovare:
A : 720 +860 +520 +570 = 2670
B : 800 + 550 + 450 + 400 = 2200
C : 1200 +1010 +900 + 830 = 3940

176
D : 870 + 770 +640 + 910 = 3190
La prima vedere, din analiza datelor de mai sus constatarea unor
diferenţe substanţiale în privinţa volumului vânzărilor în funcţie de strategia
de distribuție aplicată ar putea fi clasată drept evidentă. Pertinenţa unei
asemenea concluzii este însă afectată dacă se remarcă în primul rând
variaţiile mari înregistrate în cadrul fiecărei opţiuni de promovare (de la o
perioadă la alta şi de la un tip de ambalaj la altul) şi în al doilea rând
caracterul selectiv al experimentului (operat asupra unui “eşantion” de unităţi
comerciale ale firmei “X” şi pe durate de timp determinate).
Însă validarea diferenţelor de mai sus ca semnificative (adică datorate
efectiv strategiei de distribuție utilizate) impune testarea lor prealabilă cu
ajutorul unui instrument statistic cum este testul Fisher. Acesta va constitui
punctul terminus al analizei ANOVA pe care o vom întreprinde în
continuare.
Folosirea testului Fisher reclamă formularea ipotezei nule potrivit
căreia cei trei factori incluși în pătratul latin – strategia de distribuție,
tipul ambalajului şi perioada de timp - nu influenţează semnificativ
vânzările firmei. Conform acestei ipoteze, fiecare celulă a tabelului nr. 16 ar
trebui să conţină cifra 750 (adică 12.000/16); rezultă că diferenţele existente
în mod real se datorează influenţei celor trei factori menţionaţi sau acțiunii
exercitate de alți factori neidentificaţi (ale căror efecte cumulate intră sub
incidența erorii experimentale). Pe baza datelor din tabelul 16 se determină
mai întâi primul termen al variaţiei volumelor de vânzări pe total:
m 2
12000
SS T = ∑ x 2ijk =7202 +8002 +12002 +.. .+5702 +4002 +8302− =
i , j , k=1 16
¿9 .704 . 800−9 . 000. 000=704 .800
Aceste variaţii totale SST reprezintă suma efectelor variaţiilor pe
rânduri SSR datorate influenței tipului de ambalaj (simbolizat cu “i”), ale
variaţiilor pe coloane SSC datorate influenței factorului timp (notat cu “j”),
ale factorului experimental “k” SSK – strategia de distribuție utilizată, la care
se adaugă efecte ocazionate de eroarea experimentală SSE:
SST = SSR +SSC +SSK + SSE
Aşadar, abaterile totale în sumă de 704.800 se repartizează fiecăreia
dintre componente:
1
m
T 2 3590 2 +31902 + 25102 +27102
SS R = ∑ T 2i. .− ..2 . = −704 . 800=177. 100
m i=1 m 4
1
m
2
T 2. .. 30802 +30202 + 28902 +30102
SS C = ∑ T . j.− 2 = −704 . 800=4 . 750
m j=1 m 4
1
m
T 2 2670 2 +22002 +3940 2 +31902
SS K = ∑ T .2. K − ..2 . = −704 . 800= 417 .150
m k =1 m 4
177
Partea neexplicată din abaterea totală de 704.800 se referă la
eroarea experimentală, care poate fi determinată sub forma diferenţei:
SSE=SST - (SSR+SSC+SSK) = 704.800 – 177.100 – 4.750 – 417.150=
105.800
Efectul factorului experimental (K) trebuie testat statistic pe baza
calculării valorii F ca raport între dispersiile datorate factorului
experimental şi erorii experimentale:
SS K SS E MS K
Fm −1 , (m−1 ) (m−2) , α = ÷ = =7 ,885
(m−1) (m−1 )(m−2) MS E
Acest rezultat se compară cu valoarea tabelară a lui F, pentru un
număr de m-1=3 grade de libertate la numărător şi respectiv (m-1)(m-
2)=6 grade de libertate la numitor.
Dacă alegem un nivel de semnificaţie  = 5% (deci admitem
corectitudinea concluziei stabilite în 95% din cazuri), regăsim în tabelele
statistice o valoare teoretică a lui F, F3;6;0,05=4,760. Deoarece
Fcalculat>Fteoretic, respectiv 7,885>4,760, ipoteza nulă se respinge, reţinându-
se concluzia că strategia de distribuție utilizată influenţează în mod
semnificativ volumul vânzărilor. Se poate admite deci că există o
modificare semnificativă a volumul vânzărilor în raport cu strategia de
distribuție utilizată, concluzie ce este corectă în 95% dintre cazurile
posibile.
În sinteză, analiza variaţiei pe baza modelului pătratului latin se
prezintă ca în tabelul 17.
Tabelul 17
Sursa variaţiei Grade de Suma abaterilor Media pătratică Testul F
libertate pătrate SS
Liniile (i) m-1 SSR=177.100 MSR=59.033,33 FR=3,347
Coloanele (j) m-1 SSC=4.750 MSC=1.583,33 Fc=0,089
Tratamentele (k) m-1 SSK=417.150 MSK=139.050 FK=7,885
Eroarea (E) (m-1)x(m-2) SSE=105.800 MSE=3645,83 -
Total m2-1 SST=704.800 - -
Decizia Se respinge H0 deoarece FK calc.(7,885)>FK teoretic (4,760)

Rezolvare in SPSS
Formăm pătratul latin considerând variabile de pe randuri și care
reprezintă tipul de ambalaj. Îi dăm numele de „rânduri”, este nominală, o
etichetam ca „Tipul de ambalaj” și are valorile 1 – ambalajul A 1; 2 –
ambalajul tip A2; 3 - ambalajul A3; 4 – ambalajul A4.
Variabila ce definesc coloanele o numim „coloane”, este nominală, o
etichetăm „Consumatori” și are valorile: 1 – consumatori copii (între 3-12
ani); 2 – consumatori adolescenți (între 13-18 ani); 3 – consumatori maturi
(19-60 de ani); 4 – consumatori vârsnici (peste 60 de ani).
178
Al treilea factor experimental îl numim „distribuție”, este o variabilă
nominal cu eticheta „Tipul de distribuție ales”, are valorile: 1=A – distribuția
directă; 2=B – distribuția prin magazine mici; 3=C – distribuția prin
hypermarketuri; 4=D – distribuția prin intermediul Internetului. Să alcătuim
baza de date descrisă mai sus:
Variabilele:

Cu valorile lor:

Datele:

Aplicarea patratului latin se face pe calea: Analyze/General linear


model/Univariante. In dialogul deschis trecem în câmpul Dependent
variable Volumul vanzarilor iar în câmpul Fixed Factor(s) celelalte
variabile. Deschidem dialogul Model unde alegem Type: „Main effects” iar
179
toți cei trei factori se trec în dreapta în câmpul Model. Ne asigurăm să fie
bifată opțiunea: „Include intercept în model”, apoi ieșim din acest dialog cu
Continue.

Deschidem dialogul Post Hoc unde trecem în câmpul de testare Post


Hoc toți factorii, bifând pentru varianța asumată egală testul Tukey, închidem
prin Continue si OK. Obținem în output:

Dintre cei trei factori vedem că Tipul ambalajului nu influențează


semnificativ vânzările F(3,6)=3,348, p=0,97; la fel categoria de consumatori
nu influențează vânzările, F(3,6)=0,09, p=0,963. Doar Tipul de distribuție
influențează volumul vânzărilor F(3,6)=7,886, p=0,017. Pentru a vedea între
ce tipuri de distribuție avem diferențe semnificative statistic vom apela
comparațiile multiple prin testul Tukey:

180
Vedem că singura pereche între care avem diferențe în ce privește
media vânzărilor este între distribuțiile prin magazile mici și distribuțiile prin
hypemarketuri. Diferența dintre medii este de 435 cu p=0,014.

Proiectarea unui experiment de marketing cu ajutorul pătratului latin -


aplicație rezolvată în SPSS

În cadrul unui experiment de marketing, o firmă comercială X


testează patru tehnici diferite de promovare a vânzărilor unui produs
alimentar:
A – organizarea de acţiuni publicitare la locul vânzării;
B – practicarea de vânzări grupate;
C – tehnici de merchandising;
D – demonstrații și degustări.
Experimentul are în vedere 4 variante diferite de ambalare
produsului respectiv (1 – ambalajul A1; 2 – ambalajul tip A2; 3 -
ambalajul A3; 4 – ambalajul A4) şi se desfăşoară pe perioada a patru
săptămâni succesive (simbolizate I, II, III şi IV). În tabelul nr. 16 se
prezintă volumele de vânzări înregistrate în fiecare dintre situaţiile
menţionate anterior.

181
Tabelul nr. 18
Tipul Săptămâna Total
ambalajului I II III IV
1 [A] 1700 [B] 700 [C] 800 [D] 1000 4200
2 [B] 500 [C] 900 [D] 1250 [A] 1400 4050
3 [C] 750 [D] 1100 [A] 1200 [B] 600 3650
4 [D] 700 [A] 1100 [B] 1050 [C] 500 3350
Total 3650 3800 4300 3500 15250

Se cere să se stabilească dacă există diferenţe semnificative, în


privinţa volumului vânzărilor, între cele patru tehnici de promovare.

Rezolvare în SPSS
Formăm baza de date cu variabilele factor:
- Tipul ambalajului cu valorile: 1 – ambalajul A1; 2 – ambalajul tip
A2; 3 - ambalajul A3; 4 – ambalajul A4
- Săptămâna cu valorile: 1 – Săptămâna I; 2 – Săptămâna II; 3 –
Săptămâna III; 4 – Săptămâna IV
- Tehnici de promovare a vănzărilor cu valorile: 1 – organizarea de
acţiuni publicitare la locul vânzării (A); 2 - practicarea de vânzări
grupate (B); 3 - tehnici de merchandising (C); 4 - demonstrații și
degustări (D).
Variabila scalară valoarea vânzărilor produsului alimentar.
Variabilele:

Datele:

182
Aplicăm același dialog: Analyze/General Linear Model/Univariante
iar în fereastra principală:

Am trecut variabila dependentă și variabilele factori în


cîmpurile corespunzătoare. Deschidem dialogurile Model și Post Hoc
care trebuie să fie:

Le închidem pe rând cu Continue și apăsăm OK. În output


obținem rezultatul principal:

Observăm că diferențe semnificative ale factorilor in ce


privește volumul vânzărilor sunt doar pentru factorul Tehnici de
promovare a vânzării F(3,6)=4,956, p=0,046. Pentru ceilalți factori
avem p=0,683 (tipul ambalajului) și p=0,744 (săptămâna). Pentru a
vedea între ce perechi sunt diferențe semnificative statistic am facut
comparațiile multiple:
183
Nu putem afirma că există o pereche de tehnici de promovare
pentru care media valorii vânzărilor la produsul alimentar cercetat
este diferită semnificativ deoarece toate valorile lui p sunt mai mari
ca 0,05.
In concluzie putem respinge ipoteza de nul (H0: nu există diferențe
semnificative statistic între tehnicile de promovare a vânzărilor.
Dintre ele nu avem o tehnică ce conduce la o creștere spectaculoasă a
vânzărilor.

184
Bibliografie

1. Balaure, Virgil (coord.), Marketing, Editura Uranus, București, 2003


2. Bucea-Manea-Țoniș, Rocsana; Bucea-Manea-Țoniș, Radu; Epure,
Manuela, SPSS și Excel în analiza datelor statistice în domeniile
economic, social, tehnic, Editura AGIR, București, 2010
3. Alexa, Elena; Stoica, Cristina Maria, Cercetări de marketing. Teorie
și aplicații, Editura CH Beck, București, 2010
4. Cătoiu, Iacob, (coord.), Cercetări de marketing. Tratat, Ed. Uranus,
Bucureşti, 2009
5. Cohen, J, Statistical Powre Analysis for the Behavioral Sciences,
Lawrence Erlbaum Associates, Inc., 1988
6. Constantin, Cristinel, Analiza datelor de marketing. Aplicații în
SPSS, Editura CH Beck, București, 2012
7. Drăguț, Bogdănel, Marian, Cercetări de marketing, Editura Pro
Universitaria, București, 2013
8. Foltean, Florin; Lădar, Lucian (coord.), Marketing. Sinteze şi
aplicaţii, Editura Mirton, Timişoara, 2004
9. Gherasim, Toader; Gherasim, Adrian, Cercetări de marketing,
Editura Economică, București, 2003
10. Gherghina, Liliana, Cercetări de marketing. Sinteze și studiu de caz,
Editura Eftimie Murgu, Reșița, 2014
11. Howitt, R. K.; Cramer, D., Introducere în SPSS pentru
psihologie,Editura Polirom, 2006
12. Isaic-Maniu, Alexandru; Vodă, Viorel, Gheorghe, Prelucrarea
statistică a experimentelor, Editura Economică, București, 2006
13. Jaba, Elisabeta; Grama Ana, Analiza statistică SPSS sub Windows,
Editura Polirom, Iași, 2004
14. Jaba, Elisabeta; Pintilescu, Cristina, Statistică. Teste grilă și
probleme, Ediția a II-a, revăzută, Editura Sedcom Libris, Iași, 2007
15. Jaba, Elisabeta, Statistică, Editura Economică, București, 2002
16. Labăr, Adrian Vicențiu, SPSS pentru științele educației, Editura
Polirom, 2008
17. Lădaru, Georigiana, Raluca; Sima, Violeta, Introducere în cercetări
de marketing, Editura ASE, București, 2017
18. Meghișan, Gheorghe; Stancu, Ion; Meghișan, Georgeta, Mădălina,
Cercetări de marketing, Editura Sitech, Craiova, 2008
19. Meghișan, Georgeta, Mădălina, Marketing – definiții, studii de caz,
aplicații, Editura Sitech, Craiova, 2008

185
20. Nedelea, Mircea, Alexandru, Cercetarea de marketing, Editura
Economică, București, 2017
21. Papuc, Mihai; Kacso Simona; Zbuchea Alexandru, Cercetări de
marketing. Aplicaţii, Editura Lumina Lex, Bucureşti, 2004
22. Popa, Marian, Statistică pentru psihologie. Teorie si aplicații SPSS,
Editura Polirom, Iași 2008
23. Prutianu Ştefan; Bogdan Anastatsiei; Jijie, Tudor, Cercetarea de
marketing. Studiul pieței pur și simplu, Ed. a II a, Editura Polirom,
Iași, 2005
24. Stioca, Cristina Maria, Cercetări de marketing, Editura Tehnopress,
Iași, 2007
25. Smedescu, Ion, Marketing – aspecte teoretice, studii de caz,
aplicații, teste, Editura Universitară, București, 2008
26. Țimiraș, Laura, Cătălina, Cercetări de marketing (curs universitar),
Editura Alma Mater, Bacău, 2012

186

S-ar putea să vă placă și