Documente Academic
Documente Profesional
Documente Cultură
ELEMENTE DE STATISTICĂ
APLICATĂ
EDITURA RISOPRINT
1
2018
2
3
Cuprins
Introducere...............................................................................................................8
Interfaţa programului IBM SPSS..........................................................................12
Introducerea datelor statistice............................................................................13
Obținerea unor date aleatorii prin Excel.............................................................17
Meniul Transform...............................................................................................18
Meniul Data........................................................................................................23
Statistici descriptive– tendinţa centrală...................................................................29
Populaţie şi eşantion..............................................................................................29
Indicatori ai tendinței centrale................................................................................31
Media..............................................................................................................32
Mediana şi rangurile.........................................................................................32
Modul..............................................................................................................33
Obţinerea indicatorilor tendinţei centrale în SPSS.............................................33
Indicatori ai împrăștierii........................................................................................35
Amplitudinea de variaţie (range)........................................................................35
Abaterea cvartilă (quartilă) sau abaterea intercvartilă.......................................36
Diferenţa medie Gini.......................................................................................37
Oscilaţia...........................................................................................................37
Abaterea medie...............................................................................................38
Abaterea mediană...........................................................................................38
Dispersia..........................................................................................................38
Abaterea standard...........................................................................................38
Coeficientul de variaţie.....................................................................................39
Obţinerea indicatorilor împrăştierii în SPSS..........................................................40
Indicatori ai formei distribuției...........................................................................41
Curba normală (Gauss) Curba normală standardizată.....................................41
Modalitatea.......................................................................................................42
4
Simetria............................................................................................................42
Boltirea sau excesul...........................................................................................42
Caracterizarea distribuţiei normale......................................................................43
Reprezentări grafice............................................................................................44
Graficele de tip bară........................................................................................44
Grafice de tip linie poligonală..........................................................................47
Histogramele...................................................................................................50
Graficele circulare...........................................................................................52
Grafic de tipul tulpină și frunze (stem-and-leaf)..............................................52
Grafice de tipul boxplot...................................................................................53
Grafic sub formă de nor de puncte (scatter)...................................................55
Statistica inferențială...............................................................................................57
Distribuții reale și distribuții normale z...............................................................57
Distribuția de eșantionare...................................................................................58
Ipotezele metodei științifice................................................................................59
Testarea normalității unei distribuții................................................................61
Exemplu de analiză statistică descriptivă, analiza răspunsurilor multiple...........63
Teste parametrice pentru date cantitative.........................................................70
Testele t pentru un eșantion...........................................................................70
Testul t pentru eșantioane independente.......................................................72
Testul t pentru eșantioane dependente..........................................................75
Testul ANOVA unifactorial...............................................................................77
Analiza corelațională...........................................................................................82
Corelația Pearson............................................................................................82
Coeficientul de corelație ρ Spearman.............................................................85
Coeficientul de corelație τ Kendall.................................................................87
Coeficientul de corelație parțială....................................................................87
Teste neparametrice pentru date nominale.......................................................89
5
Testul z pentru proporția unui eșantion în raport cu o valoare specificată.....89
Testul χ 2 de potrivire (goodness of fit)..........................................................90
Testul χ 2 de asociere (independence chi-square).........................................93
Teste de asociere între variabile...................................................................108
Teste neparametrice pentru compararea eșantioanelor independente...........109
Testul Mann-Whitney U pentru două eșantioane independente..................109
Testul Kruskal-Wallis H pentru mai mult de două eșantioane independente112
Testul Jonckheere-Terpstra J.........................................................................114
Teste neparametrice pentru două eșantioane perechi.....................................116
Testul Wilcoxon.............................................................................................117
Testul semnului.............................................................................................119
Testul McNemar............................................................................................120
Proiectarea și organizarea experimentelor de marketing.....................................123
Experimentul de marketing - definire şi elemente componente.......................123
Proiectarea experimentelor de marketing - fundamente teoretice..................128
Studiu de caz: experiment de marketing unifactorial - rezolvare clasică și în
SPSS...............................................................................................................130
Experiment de marketing unifactorial - aplicație rezolvată în SPSS..............140
Proiectarea experimentelor cu doi factori – fundamente teoretice.................145
Studiu de caz: experiment de marketing bifactorial - rezolvare clasică și în
SPSS...............................................................................................................149
Experiment de marketing bifactorial - aplicație rezolvată în SPSS................155
Proiectarea experimentelor cu ajutorul blocurilor aleatoare – fundamente
teoretice............................................................................................................160
Studiu de caz: Proiectarea unui experiment de marketing cu ajutorul
blocurilor aleatoare – rezolvare clasică și în SPSS.........................................164
Proiectarea unui experiment de marketing cu ajutorul blocurilor factoriale -
aplicație rezolvată în SPSS.............................................................................169
6
Organizarea experimentului de marketing pe baza modelului pătratului latin –
fundamente teoretice.......................................................................................173
Studiu de caz: Proiectarea unui experiment de marketing cu ajutorul
modelului pătratului latin – rezolvare clasică și în SPSS................................175
Proiectarea unui experiment de marketing cu ajutorul pătratului latin -
aplicație rezolvată în SPSS.............................................................................181
Bibliografie............................................................................................................185
7
Introducere
8
cu care se operează: printre cele mai relevante exemple se regăsesc PSPP
(Public/ social/ private/ partenership) sau R (inițialele prenumelor celor doi
părinți ai programului Ross Ihaka and Robert Gentleman de la
Universitatea Auckland, Noua Zeelandă). Am optat însă pentru prezentarea
pe larg în lucrare, a facilităților oferite de programul SPSS, pornind de la
considerentul că acestea sunt mai complexe și oferă variante multiple de
gestionare a datelor; în aceste condiții cititorii care vor fi capabili să
înțeleagă și să-și însușească fundamentele SPSS vor fi în măsură să
translateze cu mare ușurință aceste principii de lucru în contextul utilizării
unor variante de softuri gratuite, mai facil de aplicat.
Prezentarea metodelor statistice de analiză și inferență a datelor se
adresează cu precădere problematicilor întâlnite în domeniile marketingului
și al managementului și are la bază o construcție teoretică și pragmatică
logică, însoțită în permanență de exemple concrete de aplicare a softului
informatic și de interpretare economică a rezultatelor obținute. Întreaga
expunere care formează conținutul lucrării are la bază o abordare de la
simplu la complex, în cadrul căreia orizontul de cunoaștere al cititorului
este lărgit în mod treptat, astfel încât să se înlăture, pe cât posibil,
eventualele dificultăți de comprehensie sau de acțiune practică.
Primul capitol vizează familiarizarea utilizatorului cu SPSS și
modalitățile alternative de introducere/obținere a datelor ce urmează a fi
supuse analizei; următoarele secțiuni ale lucrării sunt dedicate prezentării
indicatorilor tendinței centrale (medie, mediană, modul), indicatorilor
împrăștierii (amplitudine, abatere, oscilație, dispersie, coeficient de variație
etc.), indicatorilor formei distribuției (curba normală, modalitatea, simetria,
boltirea). Acestora le urmează exemplificarea diferitelor tipuri de
reprezentări grafice care pot fi utilizate în statistica descriptivă, cu scopul
de a oferi imagini sugestive asupra caracteristicilor variabilelor cu care se
operează în SPSS: graficele de tip bară; graficele linie poligonală;
histogramele, graficele circulare, graficele de tipul ”tulpină și frunze”,
graficele de tipul boxplot, graficele construite sub forma ”norului de
puncte” etc.
În continuare, am inclus în lucrare o secțiune distinctă care
abordează statistica inferențială, utilizată pentru testarea unor ipoteze
statistice și interpretarea rezultatelor obținute prin metodele statisticii
descriptive, în scopul adoptării, de către factorii de conducere, a celor mai
eficiente decizii într-o anumită situație dată. După prezentarea modului de
formulare a ipotezelor științifice care constituie punctul de plecare pentru
rezolvarea corectă a oricărei probleme decizionale, au fost trecute în revistă
testele parametrice care pot fi aplicate pentru datele cantitative (testul t și
ANOVA unifactorial), respectiv testele neparametrice, utilizate în cazul în
9
care se operează cu date nominale (testul z, testul χ2, testele de asociere
între variabile). În același context, au fost abordate analiza corelațională -
care a exemplificat concret modul de lucru în SPSS pentru identificarea
legăturilor dintre două sau mai multe variabile, cu ajutorul calculului
coeficienților Pearson, Spearman și Kendall - respectiv testele neparametrice
care pot fi aplicate pentru compararea eșantioanelor independente și testele
neparametrice pentru două eșantioane perechi.
În sfârșit, având în vedere frecvența mare, în domeniul economic, a
apariției problemelor practice care necesită o abordare de tip experimental,
lucrarea consacră un spațiu generos tematicii legate de proiectarea și
organizarea experimentelor statistice cu aplicabilitate în domeniul
marketingului. Prin intermediul experimentelor se operaționalizează
reproducerea controlată a unor fenomene economice reale, cu scopul de a
extrage cât mai fidel informații cu privire la influența exercitată de unul sau
mai mulți factori experimentali (variabile independente) asupra variabilei
dependente a cărei evoluție este urmărită. În final, se realizează
generalizarea rezultatelor obținute, pentru întregul univers studiat, pe baza
aplicării unor teste statistice consacrate (testul Fisher este unul dintre cele
mai frecvent utilizate instrumente statistice în acest context). După
explicitarea modelului conceptual al unui experiment de marketing și a
fundamentelor proiectării eficiente a acestuia, am prezentat modalitățile
concrete de organizare și analiză a datelor obținute în cazul experimentelor
unifactoriale, bifactoriale, a experimentelor bazate pe blocurile aleatoare și
a celor bazate pe schema pătratelor latine.
O mențiune suplimentară credem că trebuie făcută în legătură cu
caracterul pragmatic al volumului de față. Astfel, fiecare procedeu,
instrument sau metodă statistică de culegere, analiză și interpretare a
datelor la care am făcut apel, este concretizat/ concretizată imediat sub
forma unui exemplu concret care își găsește rezolvare cu ajutorul
programului SPSS. Am folosit această abordare deoarece considerăm că în
etapa actuală de dezvoltare a tehnologiei informației, o serie de calcule
laborioase care necesitau în trecut, un efort considerabil din partea
factorului uman pot fi pur și simplu transferate calculatorului, în timp ce
cercetătorul trebuie să aprofundeze înțelegerea instrumentelor aplicate și
să-și rafineze variantele de interpretare și aplicare a rezultatelor obținute.
Deoarece volumul de față constituie primul demers editorial pe care
autorii l-au realizat în domeniul statisticii aplicate, suntem conștienți de
posibilitatea de a nu fi îndeplinit integral așteptările cititorilor, fie că
aceștia provin din mediul academic sau din mediul de business. De aceea,
ne manifestăm receptivitatea pentru orice tip de critici sau observații care
vor contribui, cu siguranță, la îmbunătățirea primei ediții a lucrării.
10
Petroșani,
Octombrie 2018 Autorii
11
Interfaţa programului IBM SPSS
Interfața programului SPSS se prezintă la fel ca interfețele
programelor de calcul tabelar pe care le cunoașteți (de exemplu programul
EXCEL). Ca la orice program tabelar, avem și aici zona meniurilor și a
submeniurilor principale, funcțiile lor fiind descrise în continuare
Valorile fiecărei variabile sunt trecute pe coloană ce are denumirea
generică „var” și care atunci când aceasta are un nume se va schimba cu
denumirea dată variabilei. Definiția și caracteristicile variabilelor se
completează în fereastra „Variable View”, datele variabilelor în fereastra
„Data View”. Schimbarea între cele două ferestre se face din butoanele
situate în stânga jos. Pentru rezultate statistici, tabele, diagrame etc.
programul folosește fereastra Viewer. Dacă nu există o fereastră Viewer
deschisă, se va crea automat una la prima comandă care produce ieşiri.
Rezultatele afişate pot fi editate, modificate, deplasate, importate, eliminate
etc. într-un mediu similar cu cel din Microsoft Explorer.
12
Introducerea datelor statistice
Să începem cu introducerea variabilelor, adică, activăm butonul
Variabile View din stânga jos al modulului Data Editor
13
Numeric – date numerice;
Comma – date numerice cu zecimale separate prin virgule;
Dot - date numerice cu zecimale separate prin puncte
Scientific notation - notație științifică (2E3=2000);
Date – date calendaristice;
Dollar - valori însoțite de simbolul financiar dolar;
Custom currency - valori însoțite de alt simbolul financiar personalizat;
String – date sub forma unui șir de caractere (în cazul în care dorim să
introducem un cuvânt sau o frază).
Din aceeași fereastră putem să alegem lungimea câmpului din care
numărul de zecimale dorit. Cazul Restricted Numeric înseamnă numere
întregi completate cu 0 după mărimea câmpului. (De exemplu data numerică
8 ea devine 00000008)
La rubrica Label se introduce eticheta variabilei. Aceasta eticheta reprezintă
explicațiile care vor apărea lângă variabilă în rapoarte (grafice, tabele, teste)
atunci când vor fi realizate.
În cazul variabilelor nominale sau ordinale (categoriale) se pot introduce
codificat cazurile variabilei în coloana Values.
14
Putem avea trei cazuri:
- Când nu avem valori lipsă
- Când putem preciza trei valori discrete pe care le considerăm
lipsă
- Când considerăm valorile lipsă că aparțin unui interval definit
de limita inferioară și cea superioară, și în plus o valoare
discretă.
De obicei în practica sondajului folosim 97- pentru ”nonrăspuns”, 98- pentru
”neaplicabil” 99- pentru „răspuns ilizibil”.
Următoarele două coloane precizează lățimea câmpului în care se scriu
datele variabilei și alinierea.
În următoarea coloană se precizează scala variabilei.
CHESTIONAR
17
Acum putem să obținem o variabilă ce are valorile 1,2,...,5 în
procentele specificate. Deschidem meniul DATA cu submeniul Data
Analysis de unde alegem Random Number Generation și OK.
Completăm numărul de variabile, 1, numărul de valori de care avem
nevoie, la noi să considerăm 100, tipul distribuției, „Discrete”. Pentru
„Value and Probability Input Range” trebuie să alocăm exact câmpurile în
care sunt valorile și procentele. Pentru output avem varianta de a indica
primul câmp în care să pună valorile aleatoare celelalte fiind generate pe
coloana respectivă sau implicit o pagină nouă a excelului.
Meniul Transform
18
Prin submeniul Compute variable putem obține o variabilă calculând
valorile ei pe baza unei expresii matematice în care intervin valorile
numerice ale altor variabile introduse anterior.
Prin submeniul Count Values within Cases se obține o variabilă care
are valoarea 1 pentru unul din cazurile unei variabile categoriale specificat și
0 în rest
Următoarele submeniuri: Recode into same variables, Recode into
different variables și Automatic recode sunt utile în transformarea unei
variabile. De obicei recodarea se face cu păstrarea variabilei inițiale,
originale, deci sunt puține cazurile când folosim Recode into same variables.
Recodarea în o alta variabilă se folosește dacă de exemplu dorim să
compactăm două sau mai multe cazuri.
Exemplu Plecând de la o variabilă cu 5 cazuri să se obțină o variabilă cu 3
cazuri: 1, 2 devin 1; 2, 3 devin 2 iar 5 devine 3.
Deschidem Recode into different varables și selectăm variabila care
trebuie compactată. La noi VAR00001.
19
Extrem de utilă este recodarea în o altă variabilă dacă, de exemplu, dorim din
o variabilă scalară, de exemplu vârsta să facem categorii de vârstă
împărțindu-i în 1-14 ani „tineri”, 15-35 „adulți”, peste 36-65 „maturi”. Să
formăm rapid date aleatorii care să semnifice vârsta. Folosim pentru aceasta
funcția Randbetween(1; 65) din Excel. Astfel am putut completa variabila
vârsta.
Acum să ne pregătim pentru recodare, noua variabilă fiind grupe_vârsta.
Apăsăm Change și apoi Old and New Variables. În noul submeniu bifăm
Range limitele 1 și 14 pentru vechea variabila devin 1 la noua variabilă și
Add. La fel celelalte; 15-65 devin 2 iar peste 65 devin 3.
20
Am obținut variabila grupe_vârsta cu caracteristicile dorite.
21
Deschidem Automatic Recode și transferăm pe rând variabilele în câmpul
Variable -> New Name, alocându-le un nou nume, de exemplu pentru
achiziția_1: achiziția_num_1 și analog pentru celelalte.
22
categoriale: prin intervale egale, pe baza percentilelor egale sau plecând de la
medie prin 1, 2 sau 3 deviații standard în st. și dr.
Alegem intervale egale in care precizăm primul interval (14) numărul de
intervale (2 pentru că de fapt vor fi 2+1 intervale, programul calculează
automat lungimea intervalelor egale (25,5) și ne informează asupra limitei
inferioare a ultimului interval (40).
Meniul Data
24
submeniul Automating recode) structurată pe cazurile variabilei
grupe_vârsta_visual_binning.
In meniul Data selectam Split File unde alegem opțiunea Organize
output by grups iar in câmpul Groups Based on: trecem variabila Grupe de
vârstă și OK.
Alocarea cazurilor se face prin meniul Data/ Wieght Cases unde bifăm
Weight cases by și trecem variabila Frecvență în câmpul Frecvency Variable
și OK
Tot în meniul Data găsim submeniul prin care putem gestiona răspunsurile
multiple prin Define Multiple Response Sets.
Să considerăm că punem o întrebare de genul:
În care din următoarele tipuri de activități vă angajați in mod
frecvent pe internet? (Puteți alege una sau mai multe variante
corespunzătoare)
1. Căutarea de informații uzuale
2. Utilizarea e-mailului
3. Citirea/vizualizarea știrilor
4. Accesarea jocurilor
5. Mesagerie instant
6. Accesarea rețelelor de socializare
7. Descărcarea de softuri, documente
8. Ascultarea unor posturi radio,
9. Vizualizarea de emisiuni TV
26
Va trebui să introducem câte o variabilă dihotomică (valoarea 1 pentru Da și
0 pentru Nu) pentru fiecare item
Căutarea de informații
Dichotomi
urmatoarelIn care din
$internet
Numeric
uzuale
1
es
Utilizarea e-mailului
Citirea/vizualizarea știrilor
e tipuri de
activități
27
Pentru analiza de frecvență pentru această variabilă răspuns multiplu
programul atrage atenția că ea nu poate fi folosită. Dacă mergem pe cale
Analyse/ Multiple response/Define variable set ajungem la același dialog
(aici câmpul Label este limitat la 44 caractere deci vom esențializa
întrebarea) iar de data aceasta interdicția de analiză statistica descriptivă sau
inferențială nu mai este activată.
Pentru analiza frecvenței luăm aceeași cale Analyse/ Multiple
response/Frequencies. Trecem în câmpul Table(s) for: variabila cu
răspunsuri multiple $internet și OK. Obținem în Output tabelul:
Cases
Valid Missing Total
$internet Frequencies
Responses Percent
N Percent of Cases
Populaţie şi eşantion
Randomizarea pe cote
30
îi revine sarcina să investigheze un anumit număr de persoane ce prezintă
acea caracteristică, alegerea persoanelor rămânând la latitudinea acestuia.
Eşantionarea stratificată
Eşantionarea pe cluster
Media
Mediana şi rangurile
Modul
32
Modul nu este altceva decât categoria cu frecvenţa cea mai mare.
Dacă avem şirul de date:
2, 15, 16, 18, 18, 21, 21, 21, 21, 25, 26
În acest caz, observăm că există un singur 2, un singur 15, un singur 16, doi
de 18, patru de 21, un 25 şi un 26. Care e categoria cu frecvenţa cea mai
mare? Evident 21. Deci, modul este 21.
iar indicatorii tendinței centrale s-au calculat doar pentru variabila numerică.
33
În concluzie pentru variabilele nominale putem să determinăm
frecvența cazurilor absolută (numărul de subiecți din fiecare categorie),
frecvența relativă (procentul de subiecți din fiecare categorie) și modul.
Pentru a exemplifica obținerea cu spss a indicatorilor tendinței centrale
pentru variabila ordinală să considerăm întrebarea din Chestionarul de la pagina
9:
9.Cum apreciați modul de servire?
a. foarte. bun b. bun
c. satisfăcător d. nesatisfăcător
O vom înregistra ca o variabilă ordinală, cele patru categorii fiind
indexate cu valorile 1 pentru nesatisfăcător, 2 pentru satisfăcător, 3 pentru
bun și 4 pentru foarte bun. Mergând pe aceeași cale din tabelul Statistics
putem alege Modul,=1 adică cei mai mulți subiecți apreciază că modul de
servire este Nesatisfăcător iar mediana este 2,5 cea ce înseamnă că jumătate
din subiecți (exact 50) apreciază servirea nesatisfăcătoare și satisfăcătoare iar
ceilalți 50 o apreciază ca bună și foarte bună.
Indicatori ai împrăștierii
Valorile cvartile sunt valorile care împart acelaşi set ordonat de date
în patru părţi egale. Un sfert din valori (25%) sunt mai mici decât primul
cvartil (Q1), două sferturi din valori (jumătate) sunt mai mici decât al doilea
cvartil (Q2 – iată că, de fapt, Q2 nu este altceva decât mediana), iar trei
sferturi din valori (75%) sunt mai mici decât al treilea cvartil (Q3).
35
Abaterea cvartilă nu este altceva decât diferenţa dintre cvartilul 3 şi
cvartilul 1.
RQ =Q3−Q1
Abaterea cvartilă poate fi absolută – cazul prezentat – sau relativă, raportat la
mediană (abaterea cvartilă relativă).
Q −Q1
RQ % = 3
Q2
Exemplu. Pentru șirul: 7, 7, 8, 8, 9, 10, 12, 15, 28, 30 care este un șir de 10
n+1
valori (impar), ca și la mediană calculăm cvartilele: =2,75 ; adică vom
4
căuta poziția 2 și 3 (2<2.75<3) care sunt 7 și 8 calculând media ponderată cu
25%, respect iv 75% dintre aceștia:
25 ∙7+ 75∙ 8
Q 1= =7,75
100
n+1
Pentru Q2 sau mediană calculăm =5,5 ; adică pozițiile 5 și 6 care sunt 9
2
și 10 și calculăm media ponderată cu 50%, 50% , adică media obișnuită, de
9+10
unde Q 2= =9,5
2
3(n+1)
Pentru Q3 avem =8,25 iar pe pozițiile 8 și 9 sunt 15 și 28 unde
4
calculăm media ponderată cu 75% respectiv 25%, de unde
75 ∙15+ 25∙ 28
Q 3= =18,25.
100
Deci abaterea cvartilă absolută și relativă este:
RQ =10,5 R Q %=1,105
Cum putem interpreta abaterea cvartilă absolută? Între valoarea obținută de
75% din populație și cea obținută de 25% există cel mult 11 valori. Pentru a
verifica dacă calculele sunt făcute corect să introducem datele ca o variabila
X în spss și să vedem care este cale pentru a le obține. Evident una mult mai
ușoara decât ariditatea aritmeticii de mai sus.
36
Vom merge pe aceeași cale Analyze/Descriptive Statistics/Frequencies,
trecem variabila x în câmpul Variable(s) pentru analiză iar activând butonul
Statistics ne permitem să bifăm Quartiles apoi Continue și OK. Obținem
cvartilele dorite, exact cele calculate.
Diferenţa medie Gini
∑ ∑|x i−x j|
G= i=1 j=1
2 n2 x́
Calculat pentru venituri, el este un indicator al inechității sociale.
Oscilaţia
37
Oscilaţia (relativă) nu este altceva decât media diferenţelor dintre o
valoare şi cea anterioară şi se poate calcula în valori absolute sau relative, iar
numărul acestor diferenţe este n-1. Luând diferențele în modul avem
oscilația absolută.
n
O n
∑ ( x i−x i−1)
∑ |x i−x i−1| ,
|¿|= i=2
n−1
¿ O rel = i=2
n−1
Abaterea medie
∑|x i− x́|
d= i=1
n
Abaterea mediană
Abaterea standard
√ √
2
∑ ( x i− x́ ) , ∑ ( x i− x́ )2
i=1 2 i=1
σ= = √σ s= =√ s 2
n n−1
Abaterea standard măsoară modul în care rezultatele se împrăştie în
jurul mediei, valorile mari indicând un grad mare de împrăştiere. Este, dacă
doriţi, un indicator ce arată în ce măsură media este reprezentativă pentru
observaţii, în ce măsură modelul statistic se potriveşte cu modelul real.
La fel ca şi media, indicatorul principal al tendinţei centrale, abaterea
standard are şi ea o serie de proprietăţi utile în practică:
• Dacă adăugăm sau scădem o valoare constantă la fiecare scor din
distribuţie, abaterea standard nu suferă modificări;
• Dacă înmulţim sau împărţim fiecare scor din distribuţie cu o constantă,
abaterea standard se multiplică sau se divide cu valoarea acelei constante;
• Distanţa dintre valoarea abaterii standard şi medie este mai mică în
comparaţie cu distanţa dintre abaterea standard şi orice alt scor. Cu alte
cuvinte, media se distanţează cel mai puţin de abaterea standard în
comparaţie cu orice alt scor.
Coeficientul de variaţie
39
Există anumite reguli care permit aprecierea gradului de împrăştiere a
scorurilor în jurul mediei, utilizându-se acest coeficient. Un coeficient de
variaţie mai mic de 15% indică un grad de împrăştiere redus, media fiind un
bun indicator al tendinţei centrale; un coeficient de variaţie cuprins între
15% şi 30% arată o împrăştiere moderată, caz în care reprezentativitatea
mediei este satisfăcătoare; un coeficient de variaţie de peste 30% arată o
împrăştiere mare, media nemaifiind un bun indicator pentru tendinţa
centrală.
40
Rezutatul obținut în tabelul Statistics ne dau informațiile dorite în calculul
indicatorilor tendinței centrale și ai împrăștierii.
Modalitatea
Simetria
43
(rezultatele mari) şi jumătate din rezultate se situează în stânga mediei
(rezultate mici).
Între o abatere standard la stânga mediei şi o abatere standard la
dreapta mediei, întâlnim aproximativ 68% din populaţie (mai precis 68,28%,
cu 34,13% între medie şi o abatere standard la stânga şi tot 34,13% între
medie şi o abatere standard la dreapta). Aceasta este zona normală, zona în
care rezultatele pot fi considerate tipice. Dacă luăm, ca exemplu, coeficientul
de inteligenţă, în această zonă se află persoanele considerate normale sub
aspect intelectual.
Între două abateri standard la stânga mediei şi două abateri standard
la dreapta, întâlnim aproape 95% din populaţie (mai precis 95,44% cu
47,72% între medie şi două abateri standard la stânga şi 47,72% între medie
şi două abateri standard la dreapta.). Zona între o abatere standard şi două
abateri standard, atât la stânga cât şi la dreapta, este zona rezultatelor
accentuate şi cuprinde, fiecare, câte 13,59% din populaţie.
Între trei abateri standard la stânga mediei şi trei abateri standard la
dreapta mediei, întâlnim aproximativ 99% din populaţie (mai precis 99,74%
cu 49,87 % între medie şi trei abateri standard la stânga şi 49,87% între
medie şi trei abateri standard la dreapta). Această zonă, între două și trei
abateri la stânga și la dreapta este zona rezultatelor atipice. Zona între două
abateri standard la stânga şi trei abateri standard la stânga, în cazul variabilei
coeficient de inteligență, este zona deficienţilor mintali, cu un intelect extrem
de redus. În această zonă, întâlnim 2,15% din populaţie, acelaşi procent ca şi
în zona situată între două şi trei abateri standard la dreapta, zona celor cu o
inteligenţă deosebită, a persoanelor supradotate. Iată că, între deficienţii
mintali şi supradotaţi întâlnim aproape întreaga populaţie, peste 99%. Mai
rămâne, aproximativ 1% din populaţie (mai exact 0,26%), situată fie după trei
abateri standard la stânga (0,13%), fie după trei abateri standard la dreapta
(0,13%). Aceasta este zona rezultatelor aberante, zonă în care găsim mai
puţin de 1% din populaţie.
Desigur, putem caracteriza distribuția normală matematic ca fiind
graficul curbei:
−1 2
( x−m )
1 2
y= e2 σ
σ √2 π
unde m este media iar σ este abaterea standard.
Reprezentări grafice
45
Putem face modificări în acest grafic prin dublu-clic pe el, caz în care
se deschide o nouă fereastra Chart Editor în care avem opțiuni de a modifica
dimensiunile, (Edit/Properties/Bar Option) culoarea barelor
(Edit/Properties/Fill&Border), să apară frecvența și procentul
(Edit/Properties/Bar Option/Data Value Labels), să avem un titlu sau un
subtitlu (Option/Title).
46
Rezultatul obținut este:
47
Grafice de tip linie poligonală
48
dorește modificată) putem să-i schimbăm minimul sau maximul ca apoi prin
Apply aceasta să-și facă efectul.
50
Histogramele
51
O variantă prin care putem să obținem o histogramă este cea dată de
constructorul de grafice. Aici pe calea Graphs/Chart Builder selectăm din
Gallery Histogram și o tragem în spațiul preview, apoi selectăm variabila
venit și o plasăm pe axa x. Pe cealaltă axa se dispune frecvența. Dacă dorim
împărțirea în mai multe/mai puține intervale acesta se poate face prin Chart
Editor selectăm dreptunghiurile histogramei și atunci la Properties apare
Binning care permite pe axa x alegerea automată sau alegerea după anumite
criterii dorite (numărul de intervale egale, lățimea intervalului). Tot aici la
aceeași selectare a dreptunghiurilor histogramei se activează butonul Show
Distribution Curve care apăsat deschide dialogul:
Graficele circulare
54
Avem semnalate valori marginale: la variabila venit înregistrarea 6
iar la variabila înălțime înregistrările 1, 2 și 6. Mai mult la variabila venit
avem înregistrarea 2 ca valoare extremă. Putem ajunge direct la aceste valori,
eventual pentru a le verifica sau corecta prin Edit/Go to Case sau butonul din
meniul central .
În situația în care avem și o variabilă nominală sau ordinală putem
face boxplotul variabilei scalare pe fiecare din cazurile variabilei categoriale.
În aceeași configurație ca mai sus plasăm pe axa X variabila categorială. De
exemplu dorim să facem boxplot-ul variabilei salar înainte de majorare pe
categoriile variabilei Grupe de vârsta. Putem alege și calea Graphs/Legacy
Dialogs/ Boxplot.
55
în câmpul Panel by variabila genul biologic putem obține un rezultat care
analizează pe cele două genuri variabila considerată:
56
Se vede între cele două variabile o relație liniară.
57
Statistica inferențială
Distribuții reale și distribuții normale z
58
Distribuția de eșantionare
59
putem spune că înălțimea populației masculine din tara noastră va avea media
în intervalul [177,51;182,29].
Enunțăm următoarele adevăruri statistice fundamentale cunoscută in
literatura de specialitate ca teorema limitei centrale. Ea spune că cu cât
numărul eșantioanelor dintr-o populație este mai mare cu atât media
distribuției de eșantionare se apropie de media populației. Distribuția mediei
de eșantionare se supune legilor curbei normale chiar și atunci când
distribuția variabilei la nivelul întregii populație nu are caracter normal cu
condiția ca volumul eșantioanelor sa fie suficient de mare
Teorema limitei centrale este adevărată în următoarele condiții:
a. eșantioanele sunt aleatorii sau neafectate de erori (bias)
b. valorile care compun eșantioanele sunt independente
c. eșantioanele au același volum.
Se considera un eșantion mare dacă are cel puțin 30 subiecți
62
Rezultatul este tabelul de unde avem p=0,201 deci p>0,05 prin
urmare nu respingem ipoteza de nul. (H0 „nu există nicio diferență între
distribuția normală și distribuția variabilei considerate”).
O alta cale pentru studierea normalității este Analyse/Descriptive
Statistics/Explore unde trecem în zona Dependent List variabila de analizat,
butonul Plots ne permite să bifăm testarea normalității, la Normality plots
with tests.
63
În cazul barbaților avem p=0,009<0,05 deci rezultatul este semnificativ,
adică variabila iq restricționată la subiecții bărbați nu este normală la fel și
pentru femei p=0,01<0,05.
Exemplu de analiză statistică descriptivă, analiza răspunsurilor multiple
Cum scriem:
La întrebarea: V-ați propus să cumpărați în viitor un frigider? au
răspuns 50 subiecți; 50% din ei si-au exprimat certitudinea (28%) sau
posibilitatea (22%) de a cumpăra un frigider iar 50% îndoiala de a
achiziționa un frigider dintre care 26% certitudine de a nu achiziționa un
frigider, 24% nu știu încă dacă fac achiziția.
Să analizăm în continuare opțiunile referitoare la performanțele
energetice ale posibilelor aparate cumpărate. Mergând pe aceeași cale găsim:
64
Pentru grafic am selectat graficul cu bare unde în Chart Editor am
adăugat frecvența absolută:
65
Pentru răspunsul: Altă marcă,... am alocat o variabilă de tip string în
care am înregistrat răspunsurile primite.
66
Programul introduce o variabilă filter_$ care are valoarea 1 pentru
cazul când variabila Alta_marca_num are valoarea 1 și 0 în rest. Rămâne să
redefinim variabila cu Daewoo și valorile 1 pentru Da și 0 pentru Nu, în
vechea variabilă avem 1 pentru Selected și 0 pentru Not Selected. Mai mult
la Label putem scrie întrebarea: Cumpărați Daewoo? Analog vom defini și
celelalte variabile rezultate în urma analizării întrebării deschise
67
și apoi apăsăm Add. Astfel am obțimut setul de răspunsuri multiple notat de
program cu $marci_preferate ce apare în câmpul Multiple Response Sets.
Închidem dialogul cu Close.
Pentru analiza frecvențelor setului mergem pe calea: Analyze/
Mutiple Response/ Frequencies unde trecem în câmpul Table(s) for: setul
$marci_preferate și OK. Obținem tabelele:
68
Să vedem cum putem face analiza răspunsurilor multiple după
cazurile unei variabile nominale. De exemplu să cunoaștem preferințele în
alegerea frigiderului raportate la sexul subiecților. Analiza relativ la variabila
sex se face pe calea: Analyze/Multiple Response/ Crosstabs unde trecem la
rânduri setul $marci_preferate iar la coloane sexul.
69
Să descriem frecvențele și procentele din tabelul de mai sus. Să luăm
de exemplu marca Artic care a fost preferată de 15 bărbați și numai de 5
femei, în procente de 75% respectiv de 25%. Din totalul bărbaților (32) cei
care au preferat Artic reprezintă 46,9%, iar din totalul femeilor (17) cele care
preferă Artic reprezintă 29,4%. În concluzie subiecții bărbați care preferă
Artic din toți subiecții reprezintă 30,6% iar la femei procentul este de 10,2%.
Analog pentru celelalte, desigur analiza se face pentru valorile extreme care
înseamnă câteva informații pentru departamentele de desfacere și
aprovizionare.
70
Teste parametrice pentru date cantitative
Testele t pentru un eșantion
Testul t pentru un eșantion sau z/t pentru un eșantion, testează media
unui eșantion față de media cunoscută a populației din care face parte.
Procedura: Analyze/Compare Means/One Sample T Test. Variabila testată se
trece în lista Test Variable(s). In zona Test value se înscrie media populației.
Caseta Option permite alegerea pragului de semnificație Confidence Interval
95% . Pentru rezultate avem două tabele
Exemplul 1. Am considerat un fișier cu variabila Media la bacalaureat:
Primul tabel prezintă statistica descriptivă a variabilei testate (N, media, ab.
standard, eroarea standard a mediei). Al doilea tabel include rezultatele
testului statistic. Coloanele tabelului prezintă: Valoarea testului t se raportează
71
cu primele două zecimale; df sunt gradele de libertate (N-1); sig(2-tailed) este
probabilitatea asociată valorii calculate a lui t care se notează uzual cu p,
notăm p<0,001 testul ne spune că este o probabilitate mai mică de 1/1000 de
a obține o valoare a lui t mai mare ca 83,65; Mean Difference este diferența
dintre media eșantionului și valoarea de referință; 95% Confidence Interval
for the mean difference reprezintă limitele intervalului de încredere pentru
diferența dintre media eșantionului și valoarea de referință.
m−μ
Indicelui de mărime a efectului se calculează d= . În cazul nostru
σ
1,8567
d= =2,8136 . In conformitate cu grila propusă de Cohen un indice de
0,6599
mărime a efectului mai mare decât 0,8 implict o diferență mare între media la
bacalaureat a eșantionului și media populației
Exemplul 2
Fabrica X își propune să vândă 1000 de produse în 3 luni și le distribuie la
50 de magazine câte 20 la fiecare, contabilizând după 3 luni vânzările. Se
cere să se verifice dacă media vânzărilor diferă semnificativ de 10 pe
magazin.
Construim o variabilă cu valori de la 0 la 20 ce reprezintă numărul de
produse vândute de fiecare din cele 50 de magazine.
Înregistrăm datele:
72
Obținem tabelele:
.
Obținem tabelul Group Statistics cu informații statistice descriptive
frecvențe, medii, abateri standard și erorile standard ale mediilor.
74
Raportarea rezultatului. Am aplicat un test de inteligență pe un eșantion de
30 de subiecți dintre care 16 fără studii universitare iar 14 cu studii
universitare. Am obținut mediile m 1=108,25 respectiv m 2=114,86. S-a
verificat ipoteza statistică de nul prin care presupunem că nu există diferențe
semnificative obținute la testul de inteligență între cele două categorii. În
urma aplicării testului t pentru eșantioane independente s-au obținut
rezultatele: t=2,268, df=28, p=0,031 ceea ce ne permite să respingem ipoteza
de nul. În consecință putem spune că rezultatele la testul de inteligență sunt
influențate de studiile subiecților. Indicele de mărime al efectului este
d=2,3027 ce indică o asociere importantă (mare) între cele două variabile.
Intervalul de încredere (95%) pentru diferența dintre medii are valoarea
inferioară 0,638 și cea superioară 12,575.
Exemplul 2 Să se cerceteze dacă există o diferență semnificativă între media
vânzărilor produselor de panificație între două magazine ale aceleiași firme,
A, având înregistrările vânzărilor pe parcursul a trei luni.
Pentru baza de date în SPSS a celor două variabile am aplicat testul de
normalitate le calea: Analyze/Descriptive statistics/Explore unde la dialogul
deschis de butonul Plots am bifat Normality plots with tests:
75
Așadar nu putem respinge ipoteza de nul, adică nu există diferențe
semnificative statistic între valoarea vânzărilor trimestriale de produse de
panificație între cele două magazine ale firmei A.
76
Rezultatele conțin mai multe tabele, primul fiind cu informații statistice
descriptive: media, abaterea standard și eroarea standard a mediei.
78
De exemplu, pentru un experiment cu patru grupe G 1 , … ,G 4 putem compara
grupele G1 și G2 considerănd coeficienții (1,-1,0,0) sau considerănd ca G1
este grupul de control și dorim să vedem dacă celelalte (în sensul că media
lor) sunt diferite de acesta vom considera contrastul (3,-1,-1,-1).
Testele neplanificate (post hoc) verifică existanța unor diferențe
semnificative între toate perechile de grupuri ale variabilei independente.
Programul lucrează cu diferite teste neplanificate structurate pe criteriul
egalității varianțelor. Distingem două tipuri de proceduri neplanificate: unele
care testează diferența dintre fiecare pereche de medii și altele care identifică
submulțimi omogene de medii. Printre cele care au la bază prima procedură
putem enumera: LSD, Bonferroni, Sidak, Dunnett – cu cele 3 variante,
Tamhane, Games-Howell. Pentru a două procedură optează testeleR-E-G-W
F, R-E-G-W Q, S-N-K, Tukey b, Duncan, Waller-Duncan. Celelalte:
Scheffe, Tukey, Hochberg’s GT2, Gabriel au la bază ambele proceduri.
Alegerea testelor nu este unitară, mulți autori preferă pentru cazul egalității
varianțelor testul Tukey sau testele Bonferroni în situația în care numărul
categoriilor variabilei independente este redus. Alți autori aleg testele pe
criteriul egalității varianțelor și al diferenței dintre numărul subiecților
grupelor (subiecți egali, relativ egali, profund inegali). Pentru varianțe egale
și subiecti egali alegem Tukey, pentru subiecți relativ egali alegem Gabriel
iar pentru subiecți profund inegali alegem Hochberg’GT2. Pentru varianțe
inegale alegel Dunnett T3 pentru subiecți egali sau Games-Howell pentru
subiecți inegali.
Exemplu. Pornim de la o serie de observații din viața cotidiana prin care am
fi tentați să decidem că utilizarea internetului este în strânsă legatură cu
vărsta. Împărțim baza de date în trei categorii: tineri (18-30), adulți (31-45),
maturi (46-65). Utilizarea internetului este evaluată printr-un chestionar
specializat iar rezultatul exprimat numeric. Să alcătium baza de date și să
testăm normalitatea variabilei Test internet pe categoriile variabilei grupe de
vârstă:
Urmează deci concluzia că varianțele sunt egale iar din tabelul principal
considerăm valoarea testului ANOVA:
80
Reaplicăm ANOVA cu deschiderea dialogului Post Hoc unde alegem testul
Bonferroni
81
t 2Contrast
r=
√
F Anova ∗df intergrup +df intragrup
Să prezentăm câteva din contrastele standard care pot fi alese și designul lor:
1. Deviation – contraste prin deviere – compară media fiecărui grup cu
excepția grupului de referință (care poate fi primul sau ultimul) cu
media generală a tuturor grupurilor
2. Simple – compara media fiecărui grup cu un grup specificat care
poate fi primul sau ultimul. Acest contrast este util atunci când avem
grup de control.
3. Difference – compara media fiecărui grup cu media generala a
grupurilor anterioare
4. Helmet – compara media fiecărui grup cu media generală a grupurilor
următoare (cu excepția ultimului).
82
5. Repeated – compară media fiecărui grup cu media grupului următor
(cu excepția ultimului).
Rezultatul testului se găsește în tabelul:
Analiza corelațională
Corelația Pearson
83
Pentru aplicarea ei sunt necesare următoarele condiții: cele două variabile să
fie cantitative; variabilele să fie normal distribuite; relația dintre ele să fie
liniară.
Coeficientul de corelație Pearson are valori în intervalul [-1,1], valoarea 0
fiind interpretată ca absență oricărei legături, valoarea 1 ca o corelație
perfectă pozitivă (variația se produce în același sens), valoarea -1 este o
corelație perfectă negativă (o variabilă creste cealaltă scade). Valoarea
coeficientului de corelație este ea însăși o mărime a efectului, dar pentru r 2
numit coeficientul de determinare avem o măsură a procentului variabilității
unei variabile determinat de cealaltă. Analiza de corelație stă la baza unor
proceduri statistice avansate cum sunt: analiza de regresie sau analiza
factorială.
Exemplu Constituim baza formată din variabilele v1 și v2. Analizăm condiția
de normalitate pe calea Analyze/Descriptive Statistic/Explore unde la
butonul Plots bifăm Normality plots with tests. Obținem testul K-S și S-W cu
p>0,05 deci nu putem respinge ipoteza de nul prin urmare cele două variabile
sunt normal distribuite.
84
Tabelul Correlations obținut permite citirea corelației Pearson r(98)=0,287,
p<0.05 (98 reprezintă gradele de libertate=N-2). Cum p<0,05, rezultă că
putem respinge ipoteza de nul adică între cele două variabile există o
corelație semnificativă statistic.
Există mai multe tabele de interpretare a corelației Pearson în cea ce
privește intensitatea relației dintre variabilele supuse corelației.
Hopkins propune pentru mărimea efectului interpretarea lui r:
85
1,96 e 2 Z −1
r
V2
Pearson Correlation 0,287
V1 Sig. (2-tailed) 0,004
N 100
Am obținut o corelație semnificativă r=0,287, p<0,05 de nivel scăzut, cu
coeficientul de determinare r 2=0,0823. Acesta conduce la faptul că doar
8,23% din împrăștierea lui V1 poate fi explicată de împrăștierea lui V2.
Limitele de încredere pentru coeficientul r(95%) sunt cuprinse între 0,2413 și
0,63994.”
86
Exemplu Dorim să verificăm dacă există o corelație între prețul produselor si
o ierarhizare a lor pe o scală de la 1 la 5. Baza de date pentru 10 subiecți este
reprezentată in figură.
88
Se dorește studierea corelației a două variabile în condițiile
menținerii constante a efectului alteia (altor) variabile asupra celor două.
Condițiile ce trebuiesc îndeplinite sunt: variabilele să fie cantitative;
variabilele să fie normal distribuite; relația dintre ele este una liniară.
Exemplu Studiem existența unei corelații între numărul de ore de studiu la
cercetări de marketing și nota la această disciplină în condițiile menținerii
constante a mediei de admitere. Formăm baza de date si studiem condițiile
de normalitate pentru variabilele ce formează corelația.
89
Prima parte a tabelului indică corelațiile fără menținerea constantă a
efectului variabilei Nota la bacalaureat, unde observăm că există o corelație
statistică semnificativă puternică între nota si numărul de ore de studiu
r(97)=0,972 p<0.005. Dacă menținem constant efectul notei la bac., atunci
r(97)=0,974, p<0,005 corelația rămânând în aceeași termeni.
90
Obținem în output tabelul Binomial Test:
91
Calea in SPSS este Analyze/Nonparametric Tests/ Legacy Dialogs/ Chi
square unde trecem în câmpul Test Variable List variabila Nivelul maxim de
studii. În câmpul Expected Range bifăm Use specified range cu limita
inferioara a valorilor categoriilor 1 și limita superioară 5, iar în câmpul
Expected Values bifăm Value introducând prin Add, în ordine, precentele
corespunzătoare categoriilor de la 1 la 5, apoi OK.
Rezultatul este format din două tabele unul cu frecvențele observate, apoi
cele specificate și desigur testul statistic:
92
reprezentativ pentru județul Hunedoara din punct de vedere al nivelului de
educație.
Exemplul 2 Un studiu de marketing dorește să stabilească impactul unui
număr de cinci imagini, de pe panourile publicitare, asupra populației,
referitor la promovarea unui produs. Aceste imagini sunt prezentate unui
eșantion de 100 de subiecți care aleg fiecare o imagine favorită. Dacă toate
imaginile ar avea același impact atunci proporția preferințelor ar trebui să fie
egală cu 20%. Am construit baza de date notând cu cifre de la 1 la 5
imaginile promovate de fiecare subiect.
94
Evident am reușit o economie de timp față de introducerea celor două
variabile pentru cele 228 de cazuri.
Procedura este Analyze/Descriptive Statistics/Crosstabs, introducem pe linii
și coloane cele două variabile, bifăm Display cluster bar chart și deschidem
opțiunea Statistics unde selectăm Chi-Square și Phi and Cramer’V
(coeficientul V a lui Cramer este un indicator al mărimii efectului).
Deschidem și opțiunea Cell unde selectăm în câmpul Counts: Expected și
Observed (implicit), în câmpul Percentages selectăm Column iar în câmpul
Rezidual opțiunea Ajusted standardized.
95
Ele indică faptul că din cei 120 studenți promovați 69 (57.5%) sunt de la
Facultatea de inginerie iar 51 (42,5% ) de la Facultatea de Științe. Pe fiecare
facultate procentul de promovabilitate este de 65,4 la Științe și de 46,0 la
Inginerie. Valoarea testului Chi-Square χ 2 ( 1 )=6.976 se cite;te de pe linia
Continuity Correction în situația tabelelor 2x2, pragul de semnificație fiind
p=0,008. Cum valoarea lui p este mai mică decât nivelul α =0,05se respinge
ipoteza de nul afirmând că există o asociere între facultatea si
promovabilitatea la statistică în sensul că aceasta este mai mare la Facultatea
de Inginerie. Aceasta asociere se poate justifica și grafic:
96
În cazul variabilelor cu două categorii fiecare citim valoarea Phi=0,184 care
în cazul nostru indică un efect modest (interpretarea lui Phi după Cohen are
pragurile: sub 0,1 efect slab; între 0,1 și 0,3 efect modest; între 0,3 și 0,5
efect moderat; între 0,5 și 0,8 efect puternic iar peste 0,8 efect foarte
puternic.
Dacă variabilele au mai mult de două categorii citim și interpretăm după
aceleași praguri coeficientul Cramer’s V.
Prezentarea rezultatelor
Pentru a verifica dacă promovabilitatea/nepromovabilitatea la statistică
depinde de facultate am aplicat testul χ 2 de asociere. Rezultatele la testul
Pearson χ 2 arată că promovabilitatea/nepromovabilitatea diferă la cele două
facultăți χ 2 ( 1 )=7,734 ,
p=0,005. Datele obținute pe eșantionul investigat sunt sintetizate în tabelul:
Facultatea de Facultatea de Total
Științe inginerie
Promovat 51 69 120
Nepromovat 27 81 108
Total 78 150 228
Ele arată că statistica are o rată de promovabilitate mai mare la Facultatea de
Științe 65,4% față de Facultatea de Inginerie de numai 46%. Indicatorul
mărimii efectului phi=0.184 confirmă că relația dintre cele două variabile
este una modestă.
2
Testul χ - fundamente teoretice
2
Testul χ se utilizează pentru determinarea relaţiei de concordanţă
sau de semnificaţie a legăturii între două variabile aflate într-o anumită
relaţie de dependenţă. Prin acest mod, se poate stabili dacă o repartiţie
aleatoare a unui eşantion de sondaj, este în concordanţă cu repartiţia teoretică
a variabilelor supuse cercetării. Pentru efectuarea unei asemenea analize,
datele disponibile se sistematizează cu ajutorul unui tabel de contingenţă cu
r rânduri şi k coloane (tabelul nr. 1).
97
Tabelul nr.1: Tabelul de contingenţă pentru aplicarea modelului 2
Y\X X1 X2 Xj Xk
Y1 O11 O12 … O1j … O1k N1
(A11) (A12) … (A1j) … (A1k)
Y2 O21 O22 … O2j …… O2k N2
(A21) (A22) … (A2j) (A2k)
… … … … … … ……. …
Yi Oi1 Oi2 … Oij ... Oik Ni
(Ai1) (Ai2) … (Aij) (Aik)
… … … … … … ……. …
Yr Or1 Or2 … Orj … Ork Nr
(A r1) (A r2) … (A rj) (A rk)
C1 C2 … Cj … Ck N
N i⋅C j
A ij =
N (1)
unde:
k
N i= ∑ Oij , i=1,r
Ni –totalurile rândurilor din tabelul de contingenţă ( j=1 );
98
r
C j =∑ Oij , j=1,k
Cj – totalurile coloanelor din tabelul de contingenţă ( i=1 )
r k
( N=∑ ∑ Oij )
N - totalul general al tabelului de contingenţă. i =1 j=1
r k 2
(O −A )
χ 2calc = ∑ ∑ ij A ij
i=1 j=1 ij (2)
r k O
2 ij2
χ =∑ ∑ −N
i=1 j=1 A ij
(3)
2
C
2 N (4)
Cu cât C este mai mare, cu atât legătura dintre variabile este mai
intensă. O valoare minimă zero indică o independenţă totală între variabile.
Valoarea maximă nu poate să fie, în schimb, niciodată egală cu 1 (ceea ce
99
constituie unul dintre principalele inconveniente ale folosirii coeficientului
de contingenţă). Există și alți indicatori ai mărimii efectului.
Aplicație rezolvată
Compartimentul de marketing din cadrul unei edituri efectuează, cu
ocazia unei expoziţii de carte, un sondaj asupra unui eşantion de 800 de
persoane care au participat la evenimentul respectiv. Studiul a urmărit
obţinerea de informaţii cu privire la segmentele de consumatori vizate prin
oferta de carte. Din cercetare s-a obţinut următoarea repartiţie a
respondenţilor în funcţie de nivelul de instruire, mediul de provenienţă şi
statutul de cumpărător/necumpărător vizavi de oferta editurii:
Tabelul nr. 2
Specificaţii Mediul de Tota Nivel de instruire Tota
provenienţă l l
Urban Rura Element Medi Superio
l ar u r
Cumpărători 280 145 425 100 135 190 425
Necumpărăto 220 155 375 140 125 110 375
ri
Total 500 300 800 240 260 300 800
Rezolvare clasică
Din datele cuprinse în tabelul de mai sus, rezultă că mediul de
provenienţă şi nivelul de instruire al respondenţilor exercită o anumită
influenţă asupra deciziei de cumpărare; de exemplu, proporţia cumpărătorilor
este mai mare în rândul persoanelor din mediul urban comparativ cu cea a
persoanelor care domiciliază în mediul rural (56% faţă de 48,3%). În mod
asemănător, proporţia cumpărătorilor este mai ridicată în rândul vizitatorilor
cu nivel de instruire superior comparativ cu celelalte categorii. Întrucât este
vorba însă despre o cercetare selectivă şi nu de o observare totală, urmează a
se stabili dacă deosebirile semnalate în ceea ce priveşte statutul de
cumpărător/necumpărător de carte sunt semnificative din punct de vedere
statistic. Metodologia de aplicare a testului χ2 se va repeta pentru cele
două criterii luate în analiză.
100
1) Mediul de provenienţă
E1. Formularea H0: „Decizia de cumpărare de carte nu este influenţată
de mediul de provenienţă al potenţialului cititor”. Acestei ipoteze îi
corespund frecvenţele teoretice Aij.
E2. Calculul valorilor aşteptate să rezulte conform ipotezei nule. Relaţia
utilizată este:
N i⋅C j
A ij =
N
k r r k
N i= ∑ Oij C j =∑ Oij N=∑ ∑ O ij
unde: j=1 ; i=1 ; i=1 j=1
Ipoteza nulă va fi respinsă dacă frecvenţele teoretice diferă semnificativ
de frecvenţele observate Oij.
N 1⋅C1 425⋅500
A 11 = = =265,62
N 800
N ⋅C 425⋅300
A 12= 1 2 = =159,37
N 800
N ⋅C 375⋅500
A 21= 2 1 = =234,37
N 800
N ⋅C 375⋅300
A 22= 2 2 = =140,62
N 800
Tabelul nr. 3
Specificaţii Mediul de provenienţă Total
Urban Rural
Vizitatori care au cumpărat 280 (265,62) 145 (159,37) 425
cărţi
Vizitatori care nu au cumpărat 220 (234,37) 155 (140,62) 375
cărţi
Total 500 300 800
2
E3. Calcularea statisticii χ
101
r k 2
( Oij− A ij ) ( 280−265,62 )2 ( 145−159,37 )2 ( 220−234,37 )2
χ 2c = ∑∑ A = + + +
i=1 j=1 ij 265,62 159,37 234,37
(155−140,62)2
+ =0,78+1,29+0,88+1,47=4,42
140,62
2
E4. Determinarea valorii teoretice χ
2
Valoarea teoretică a lui χ corespunde unei probabilităţi de garantare a
rezultatului de 99% (şi unui nivel de semnificaţie α = 0,01), precum şi
unui număr de grade de libertate egal cu (r – 1)(k – 1) unde cu „r” şi „k” s-au
notat numărul de linii, respectiv de coloane, ale tabelului de contingenţă
(corespunzătoare numărului de alternative al fiecăreia dintre cele două
variabile).
(r – 1)(k – 1) = (2 – 1)(2 – 1) = 1
α = 0,01 – nivel de semnificaţie
2
χ tab1;0,01 =6,235
E5. Formularea concluziei
2 2
Deoarece χ calc ≺ χ tab 1;0,01 , ipoteza nulă se acceptă. Putem afirma aşadar
cu un nivel de încredere de 99%, că frecvenţele teoretice nu diferă
semnificativ de cele observate. Aşadar nu există diferenţe importante între
cititorii din mediul urban şi cei din mediul rural în ceea ce priveşte decizia de
achiziţionare de carte.
2) Nivelul de instruire
E1. Formularea H0: „Nivelul de instruire al potenţialului cititor nu
influenţează achiziţia de carte”.
E2. Calculul frecvenţelor aşteptate.
N ⋅C 425⋅240
A 11 = 1 1 = =127,50
N 800
N 1⋅C 2 425⋅260
A 12= = =138,25
N 800
N ⋅C 425⋅300
A 13= 1 3 = =159,37
N 800
N ⋅C 375⋅240
A 21= 2 1 = =112,50
N 800
N ⋅C 375⋅260
A 22 = 2 2 = =121,87
N 800
102
N 2⋅C3 375⋅300
A 23= = =140,62
N 800
Tabelul nr. 4
Nivel de instruire Elementar Mediu Superior Total
Statut
2
E3. Calcularea statisticii χ
2 3 (O A ) 2
(100 127,50) 2 (135 138, 25) 2 (190 159,37) 2
calc
ij ij
2
i 1 j 1 Aij 127,50 138, 25 159,37
(140 112,50)2 (125 121,87) 2 (110 140, 62) 2
112,50 121,87 140, 62
5,93 0,07 5,88 6,72 0,08 6, 66 25,34
2
E4. Extragerea valorii teoretice χ din tabelele statistice
2
χ teoretic corespunde unei probabilităţi de garantare a rezultatului de
99% (nivelul de semnificaţie este α = 0,01), precum şi unui număr de
grade de libertate egal cu (r – 1)(k – 1) = (2 – 1)(3 – 1) = 2.
2
Prin urmare, χ tab 2;0,01=9,2
E5. Concluzia
2 2
Pentru că χ calc ≻ χ tab 2;0,01 , ipoteza nulă se respinge. Prin urmare se
acceptă ca adevărată ipoteza existenţei unei relaţii de dependenţă între cele
două variabile analizate – nivelul de instruire şi achiziţia de carte.
103
Rezolvarea in SPSS
Variabilele:
Datele:
104
Acum să facem alocările pentru variabila Mediul de provenienta pe
calea: Data/Weight Cases unde bifăm Weight cases by și trecem în câmpul
Frequency Variable variabila Frecvența pentru variabila mediul apoi OK.
105
Un prim tabel ne arată că am facut bine alocările, avem 800 de subiecți, al
doilea conține exact datele introduse:
Aici putem face câteva observații: din cei 425 clienți, adică 53,1%
care au cumpărat 65,9% sunt din mediul urban iar 34,1% din rural. Pentru
cei 375 necumpărători, distribuția este 58.7% pentru urban și 41,3% pentru
rural. Mai mult sunt calculate și valorile așteptate, identice cu cele din
tabelul 3. Următorul tabel este valoarea testului chi-pătrat:
tabelului următor unde avem valoarea lui phi (se consideră phi pentru
variabile 2x2 și Cramer’V pentru cazul când cel puțin una din variabile are
mai mult de 2 categorii):
2
Calculul se face după formula phi= χ = 4,426 =0,0743 Avem pentru
1
phi următoarele praguri :
N 800 √ √
Phi Relația
Mai mic decât 0,10 slab
0,10-0,30 modest
0,30-0,50 moderat
0,50-0,70 puternic
Peste 0,7 Foarte puternic
Deci relația între cele două variabile este una slabă. O putem reprezentă în
graficul cu bare rezultat la output:
1
Labăr, Adrian Vicențiu, SPSSpentru științele educației, Editura Polirom, Iași, pagina 114
107
Să aplicăm testul chi-pătrat pentru variabila instruire. Vom folosi aceeași
cale pentru a atribui noua frecvență:
Obținem tabelele:
108
Testul chi-pătrat cu valoarea χ 2 ( 2 )=25,359, p<0.01 ce are valoare
semnificativă, deci, respingem ipoteza de nul, adică achiziția de carte este
diferită pentru clienți cu nivel de instruire diferit. Pentru a analiza mărimea
efectului avem tabelul:
110
..
Calea în SPSS este Analyze/Nonparametric Tests/ Legacy Dialogs/2-
Independent Sample Test unde trecem în câmpul Test Variable List variabila
Rezultatul la test iar în câmpul Grouping Variable variabila grup căreia prin
apăsarea butonului Define Groups îi specificăm care sunt etichetele celor
două categorii ale variabilei independente apoi Continue și OK. Desigur, ne
asigurăm că este bifat testul Mann-Whitney U în câmpul Test Type (de fapt
implicit).
Primul tabel prezintă media rangurilor și suma lor pe cele două categorii ale
VI. Al doilea tabel prezintă valoarea testului Mann-Whitney U, Wilcoxon W,
transformarea valorii U în scoruri z, precum și pragul de semnificație asociat.
Ne interesează întâi valoarea lui P=0,006 ce ne spune că există diferențe
semnificative între cele două grupe, apoi valoarea lui U și Z pentru calculul
mărimii efectului. Cum media rangurilor implică o diferență în favoarea
celor din grupul experimental (12,83 fată de 6,17) putem spune că
familiarizarea cu itemii din testele de evaluare are influență considerabilă
asupra rezultatului. Pentru calculul mărimii efectului utilizăm formula:
z2 2,6522
r=
√ √N
=
18
=0,6250
Aceasta confirmă că efectul variabilei Grupul asupra variabilei Rezultatul la
test este puternic.
111
Testul U a lui Mann-Whitney se bazează pe calculul rangurilor, deci
avem nevoie de a cunoaște mediana pe fiecare din cele două grupe ale
variabilei independente. Putem face acesta dacă impunem programului să
prezinte rezultatele statistice independent pe fiecare categorie specificată.
Calea în SPSS este Data/Split File unde bifăm opțiunea Organize output by
groups care ne permite să trecem în câmpul Groups Based on: variabila
Grupul și OK.
112
familiarizarea cu tipurile de itemi are un efect puetrnic asupra performantei
la test.
Trecem în câmpul Test Variable List variabila Gustul produsului lactat iar în
câmpul Grouping Variable trecem variabila grupe_vărsta unde prin
deschiderea dialogului Define Range introducem valorile minime și maxime
pentru etichetarea grupelor variabilei independente, în cazul nostru 1 și 3 și
închidem dialogul prin Continue, apoi ne asigurăm că este bifat testul
Kruskal-Wallis H în câmpul Test Type și OK. Obținem două tabele:
113
În primul tabel sunt prezentate numărul subiecților din fiecare categorie a
variabilei independente și media rangurilor variabilei gust pe fiecare din
categoriile acesteia. Al doilea tabel prezintă valoarea testului Kruskal-Wallis
notat cu H având H(2)=8,304, p=0,016, rezultat care este semnificativ deci
există diferențe semnificative în ce privesc grupele de vârstă în testarea
gustului unui produs. Cum testul nu ne spune între care din grupe există
diferențe semnificative va trebui să aplicăm testul mann-Whitnei U pentru
fiecare pereche de categorii ale variabilei independente, ajustând pragul de
semnificație prim împărțirea lui la numărul perechilor. În cazul nostru
0,05/3=0,016.
Pentru a selecta în baza de date doar grupele sub 29 de ani și între 30-59 vom
merge pe calea Data/Select Cases unde bifăm If condition is satisfied, apoi
apăsăm If...trecem în câmpul de calcul variabila grupe de vârsta și impunem
condiția ca aceasta să fie mai mica decât 3, api Continue și OK.
Testul Jonckheere-Terpstra J
115
Calea în SPSS este Analyze/Nonparametric Tests/Legacy Dialogs/ K
Independent Samples și obținem dialogul în care trecem variabila
dependentă în câmpul Test Variable List iar cea independentă la Grouping
Variable unde deshidem dialogul Define Range ce înseamnă să informăm
programul despre valorile minume și maxime pentru grupe. Bifăm în câmpul
Test Type Jonckheere-Terpstra.
116
Vom calcula cu aceeași formulă mărimea efectului doar pentru grupele la
care avem semnificație statistică (p<0.05), acestea fiind:
Între grupele 55-64 și 65-74 există o diferență semnificativă statistic în ce
Z 2,538
privește gradul de opacitate cu mărimea efectului r = = =0,3276
√ N √ 60
rezultând un efect de nivel mediu. Evident calculând medianele obținem
pentru grupa mai în vârstă un grad de opacitate mai mare.
Amalog între grupele 55-64 și peste 75 avem p=0,001 deci la fel este un
3,45
rezultat statistic semnificativ cu mărimea efectului r = =0,4453 fiind și
√ 60
aici de nivel mediu.
Prezentarea rezultatelor Pentru analiză efectul înaintării în vârstă asupra
creșterii gredului de opacitate al cristalinului s-a aplicat testul Jonckheere-
Terpstra J unor 60 de subiecți împărțiți în trei grupe de vârstă. Pentru
opacitatea cristalinului s-au considerat cinci nivele. Tabelele frecvențelor
eșantionului cerecetat sunt:
..
Rezultatele arată că există un trend crescător al gradului de opacitate odată
cu înaintarea în vârstă, J=808,5, z=3,644, p<0.05, r=0,4704.
Aplicând testul Mann-Whitney U pentru comparații simple perechi am
obținut:
- Există un efect mediu al avansării gradului de opacitate între grupele
55-64 și 65-74, z=2,538, p=0,014, r=0,3276, Mdn(55-64)=2 adică
cataractă în evoluție iar Mdn(65-74)=3 adică cataractă avansată.
- Există tot un efect mediu între grupele 55-64 și peste 75 de ani
z=3,45, p=0,001, r=0,4453, Mdn(55-64)=2, adică cataractă în
evoluție iar Mdn(peste 75)=4 adică cataractă matură.
117
Teste neparametrice pentru două eșantioane perechi
Sunt teste ce se aplică pentru eșantioane perechi sau pe același
eșantion dar pe variabile pereche de tipul înainte/după. Pentru variabilele
cantitative ce nu sunt normal distribuite vom aplica testul Wilcoxon. Pentru
variabile ordinale cu un număr redus de categorii vom aplica testul semnului,
iar pentru variabile dihotomoce testul McNemar.
Testul Wilcoxon
118
Din tabelul Ranks putem vedea numărul cazurilor când campania de
promovare nu adus la o îmbunătățire a aprecierii (Negative Ranks). Aceasta
s-a întâmplat în doar 2 cazuri. Campania a dus la creșterea aprecierii
(Pozitive Ranks) în 12 cazuri iar în 6 cazuri aprecierea a rămas constantă.
Tabelul
119
Aceasta evidențează un efect puternic al campaniei asupra creșterii
aprecierilor produsului X. În raportarea finală avem nevoie si de valorile
medianelor pentru cele două variabile. Prin procedura Frequencies găsim
Mdn(înainte)=2,5 și Mdn(după)=4.
Raportarea rezultatului Pentru a vedea eficiența unei campanii promoționale
în sensul aprecierii produsului X s-a considerat aprecierile a 20 de subiecți
înainte și după campanie. S-a aplicat testul Wilcoxon iar rezultatele au arătat
că intervenția promoțională a avut un efect semnificativ statistic: z=-2,524,
p=0,012. Aprecierea produsului a crescut la nivelul Acord după campanie
(Mdn(după)=4) față de nivelul înainte de campanie situat între Dezacord și
Nici acord nici dezacord (Mdn(înainte)=2,5). Mărimea acestui efect este
r=0,7981, ceea ce evidențiază un efect puternic, deci campania promoțională
și-a atins scopul.
Testul semnului
120
Calea în SPSS este aceeași, adică: Analyze/Nonparametric Tests/ Legacy
Dialogs/2-Related Samples ce ne conduce la dialogul:
Se trece în câmpul Test Pairs cele două variabile și vom bifa testul semnului
adică Sign în câmpul Test Type, apoi OK. Obținem rezultatele:
Testul McNemar
121
Prin testul McNemar comparăm două eșantioane pentru o variabilă
dependentă dihotomică sau două variabile dihotomice pentru același
eșantion.
Exemplu Verificăm dacă există o legătură între succesul/eșecul la examenul
de statistică pentru studenții care au efectuat în majoritatea (70%) din temele
date în cursul semestrului. Formăm baza de date pentru 100 de subiecți.
122
Ultimul tabel conține pragul de semnificație p=0,007, deci există o diferență
semnificativă între cele două grupe. Direcția diferenței este dată de semnul
valorii testului McNemar, calculată ca diferența cazurilor (0,1) și (1,0). În
cazul nostru McN=35-15=20 care este pozitivă, deci efectuarea majorității
temelor implicî statistic promovarea examenului
123
Proiectarea și organizarea experimentelor de
marketing
Variabile Variabile
independente explicative
"din afară” (independente)
Unităţi de
observare
Variabile
dependente
Figura nr. 1. Modelul conceptual al unui experiment de marketing
2
Gherasim Toader, Gherasim Adrian, Cercetări de marketing, Editura Economică,
Bucureşti, 2003.
125
- variabile explicative numite şi factori experimentali sau stimuli
de marketing a căror valoare este modificată în mod deliberat de
către organizatorii experimentului, pentru a se analiza efectele
acestor modificări asupra variabilelor dependente – volumul
cererii, vânzările, intensitatea concurenţei, eficiența
distribuitorilor etc. Variabilele explicative sau factorii
experimentali pot fi reprezentate prin produse, caracteristici ale
acestora, ambalaje, servicii auxiliare, canale de distribuție,
niveluri de preţ, mesaje publicitare etc.);
- variabilele aleatoare (din afară) sunt variabilele care nu sunt
supuse tratamentului experimental, iar acțiunea lor nu poate fi
manipulată de către cel care realizează experimentul. Cu toate
acestea, această categorie de variabile au un rol deosebit de
important în cadrul experimentului, deoarece, dacă efectul lor nu
ar fi anulat, ipoteza potrivit căreia variabilele independente
determină modificările variabilelor dependente ar putea fi serios
afectată sau chiar invalidată. Dacă în domeniul științelor exacte,
organizatorul experimentului are posibilitatea de asigura
menținerea unui nivel constant acestor variabile aleatoare, acest
lucru este mai dificil de realizat în cadrul experimentelor de
marketing. De aceea, în acest domeniu se practică un control mai
rafinat, de natură statistică asupra acestor variabile. În practică,
acest control implică două abordări complementare: selecția
aleatoare a unităților de observare (lucru care dorește să înlăture
influența eventualelor deosebiri între acestea în ceea ce privește
amplasarea, mărimea, structura sau comportamentul lor) și
calculul efectului datorat erorii experimentale, ca element distinct
de efectele generate de dinamica variabilelor explicative. Având
în vedere natura obiectivă a manifestării acestor variabile
aleatoare în cadrul oricărui experiment fără nicio excepție,
specialistul în marketing nu va trebui să caute să înlăture
existenţa acestora (demers fără sorți de izbândă), ci doar să
identifice modalitățile adecvate de control statistic pentru a
menține, pe cât posibil, constant, nivelul variabilelor din această
categorie.
b) Variabilele dependente (denumite şi variabile explicate)
reprezintă variabile de tip efect, care ar putea să fie exprimate prin volume
de vânzări, niveluri ale cererii, timpi necesari pentru luarea deciziei de
cumpărare, atitudini ale consumatorilor, strategii ale concurenţei, eficienţa
intermediarilor etc. Pe parcursul derulării experimentului, este vital ca aceste
126
categorii de variabile să nu fie expuse influenţelor exercitate de factorii
perturbatori.
2. Unităţile de observare pot fi reprezentate de magazinele care
desfac anumite mărfuri, loturile de produse care se testează, unitățile
economice implicare în experiment, grupurile de cumpărători etc. ale căror
reacţii la diferitele niveluri ale factorilor experimentali sunt monitorizate,
cuantificate şi analizate. Şi unităţile de observare se divizează în două
categorii:
- unităţile experimentale cărora li se aplică tratamentul
experimental şi asupra cărora se efectuează măsurările necesare;
- unităţile de control (martor) care sunt de asemenea supuse
observaţiei, dar nu sunt supuse acțiunii factorilor experimentali
(tratamentelor statistice), rolul lor fiind acela de a servi drept
elemente de referință pentru evidențierea modificărilor suferite de
unităţile experimentale, ca urmare a acțiunii stimulilor de
marketing analizați.
3. Tratamentele experimentale reprezintă un ansamblu de acţiuni şi
proceduri prin care specialistul în marketing manipulează variabilele
explicative (care, la rândul lor, determină nivelul şi dinamica unităţilor
experimentale) pentru a înregistra și analiza ulterior variația valorilor
variabilelor dependente. Cu alte cuvinte, tratamentele reprezintă însăşi
esența experimentului de marketing. De exemplu, ele pot să urmărească
modificarea unor niveluri ale preţurilor (pentru a măsura variaţia cererii ca
reacție la această schimbare), a unor caracteristici funcţionale ale produselor
(pentru a urmări variația cifrei de afaceri), a unor mesaje publicitare (pentru
a observa schimbările apărute în ceea ce privește viteza de adoptare a
deciziilor de cumpărare) etc.
4. Erorile experimentale. Aceastea însoțesc în mod inevitabil orice
experiment și se datorează, în principal, următoarelor cauze:
- încălcarea principiului selecției aleatoare în constituirea unităților
de observare (experimentale și martor), factor care conduce la apariția
erorilor de selecție;
- precizia insuficientă a metodelor și instrumentelor de măsurare a
datelor care sunt aplicate în cadrul exeprimentului și care conduc la
manifestarea erorilor instrumentale;
- anomaliile apărute în comportamentele subiecților care sunt
conștienți de faptul că sunt supuși observării, luând naștere în acest fel
erorile de stres;
- influența timpului care determină deconcertarea atenției subiecților,
schimbarea dispoziției acestora și a angajamentului de a lua parte cu
responsabilitate la activitățile pe care le presupune desfășurarea
127
experimentului, schimbarea conjuncturii pieței, dispariția unor subiecți etc.,
ceea ce provoacă erorile temporale;
- evenimente aleatoare, ”din afară” care nu pot fi controlate de către
cercetători: schimbarea legislației într-un anumit domeniu, strategii
imprevizibile puse în operă de către firmele concurente, calamități naturale
etc.;
- intuirea, de către subiecții investigați, a ”rezultatelor dorite” ale
cercetării, ceea ce îi determină pe aceștia să furnizeze informații cosmetizate,
adesea neconforme cu realitatea, dar care concordă, în opinia lor, cu
așteptările organizatorilor experimentului.
Indiferent de cauzele care determină apariția erorilor experimentale,
este necesar ca acestea să fie cuantificate și menținute în limite considerate
rezonabile, astfel încât existența lor să nu afecteze în mod semnificativ
validitatea întregului demers de experimentare.
În sfârșit, la finalul acestui paragraf este necesar să formulăm câteva
considerații succinte cu privire la schemele de proiectare aferente
experimentelor de marketing. Astfel, conform literaturii de specialitate,
proiectarea experimentului de marketing reprezintă procesul de structurare
anticipată, prin intermediul unui model statistic sau al unei reprezentări
schematice, a diferitelor combinații dintre variabilele analizate, combinații
care constituite exact tratamentele experimentale preconizate pentru a fi
aplicate unor grupe de unităţi experimentale. Eficienţa organizării unui
experiment de marketing este condiţionată în mod decisiv de operaţia de
alegere a schemei de proiectare specifice.
Astfel, o primă categorie de scheme de proiectare a experimentelor
presupune existenţa unui singur factor experimental care acționează asupra
variabilei explicate şi ia în calcul ipoteza unei influenţe constante din partea
altor factori, caeteris paribus (un astfel de exemplu este reprezentat de testul
lui Solomon sau testul semnelor). Practica de marketing impune însă apelul
la metode mai elaborate de proiectare a experimentelor, capabile să reflecte
cu o fidelitate înaltă caracterul complex al fenomenelor de marketing. Astfel,
există experimente bi- sau multi-factoriale, în cadrul cărora se studiază
influența a doi sau mai mulți factori experimentali asupra variației variabilei
dependente și, eventual, impactul interacțiunii dintre aceștia asupra efectelor
experimentului.
Printre metodele de proiectare ale experimentelor considerate cu
eficiență ridicată se menționează: proiectarea complet aleatoare (uni sau
multi-factorială), proiectarea cu ajutorul blocurilor aleatoare (uni sau multi-
factorială), pătratele latine, pătratele greco-latine ş.a. Fiecare dintre acestea
vor fi prezentate pe larg în continuare, atât din punct de vedere teoretic, cât
mai ales din punct de vedere practic prin elaborarea și rezolvarea unui studiu
128
de caz dedicat. Așa cum se va arăta în continuare, analiza datelor rezultate
din organizarea experimentelor de marketing se realizează cu ajutorul
analizei dispersionale (analiza variației sau ANOVA).
129
Semnificația simbolurilor care au fost prezentate în conținutul
tabelului este redată în continuare:
x ij - reprezintă nivelul variabilei dependente la unitatea
experimentală i (i=1,2,...,n) căreia i se aplică factorul experimental j
( j=1,2,...,r);
T.j – totalul coloanei j;
Ti. – totalul liniei i;
T... – totalul general al variabilei dependente pentru toate unitățile
experimentale;
x j - media valorilor de pe coloana j;
x
- media generală a variabilei dependente pentru toate unitățile
experiementale;
∑ x2j -suma pătratelor variabilei dependente la unitățile
experimentale din coloana j;
∑ (∑ x2j ) - suma pătratelor variabilei dependente pentru toate
unitățile experimentale.
Pentru a aplica cu succes această schemă de organizare a
experimentului de marketing, este necesar să fie îndeplinite următoarele
exigențe:
O sigură valoare a variabilei dependente trebuie să fie
asociată fiecărei unități experimentale;
Numărul unităților experimentale din fiecare grup (coloană
din tabel) trebuie să fie identic (de regulă, aceste grupuri
includ 10-15 unități experimentale);
Deși numărul nivelurilor factorului experimental este
considerat arbitrar, se recomandă totuși ca acesta să nu fie
mai mare decât 5.
Folosind analiza variației (metoda ANOVA), vom urmări să stabilim
dacă factorul experimental considerat exercită o influență semnificativă
asupra variabilei dependente. În acest scop, se parcurg următoarele etape:
1) Determinarea sumei abaterilor pătrate pe total (SST):
r n
T 2. . T2
SS T = ∑ ∑ x 2ij− =∑ ( ∑ x 2j )− . .
j=1 i=1 N r⋅n (1)
N – numărul total al unităţilor experimentale observate ( N=r⋅n ).
Rezolvare clasică:
Aplicarea analizei variației pentru experimentul de marketing
organizat după regulile metodei complet aleatoare presupune efectuarea
următoarelor determinări:
a) În prima etapă se calculează suma abaterilor pătrate pentru
comenzile realizate în cadrul experimentului de marketing.
În cazul exemplului considerat, vom avea următoarele notații:
i – indicativ pentru localitate;
n – numărul localităţilor luate în considerare;
j – indicativ pentru tipul de ambalaj;
r – numărul tipurilor de ambalaj testate;
xij – numărul comenzilor primite din localitatea i pentru produsul
ambalat sub forma j;
Ti. - numărul comenzilor primite de la consumatorii din localitatea i;
T.j – numărul comenzilor primite pentru fiecare tip de ambalaj j;
T.. – numărul total de comenzi primite (suma tuturor valorilor
variabilei dependente);
N – numărul combinaţiilor diferite de localităţi şi tipuri de ambalaje
constituite (numărul total al unităţilor de observare).
132
Numărul localităţilor luate în considerare este 10 (deci n = 10), iar
numărul tipurilor de ambalaje este 4 (deci r = 4); prin urmare numărul total
al unităţilor de observare constituite (al combinaţiilor localităţi – tipuri de
ambalaje) este:
N = 10 x 4 = 40
Numărul total de comenzi este:
T = 1110 +1130 +1180 +1490 =4900
Pentru cele 10 localităţi, cu scopul de a determina suma pătratelor
10
Tabelul 3
Localitatea Ambalaj tip A1 Ambalaj tip A2 Ambalaj tip Ambalaj tip
A3 A4
L1 1032 =10.609 1052 = 11.025 1182 = 13.924 1592 = 25.281
L2 1202 =14.400 1162 =13.456 1242 =15.376 1392 =19.321
L3 882 =7.744 772 =5.929 922 =8.464 1022 =10.404
L4 1412 =19.881 1092 =11.881 1502 =22.500 1872 =34.969
L5 902 =8.100 882 =7.744 1002 =10.000 1202 =14.400
L6 982 =9.604 1212 =14.641 1282 =16.384 1222 =14.884
L7 852 =7.225 1332 =17.698 1482 =21.904 1742 =30.276
L8 1102 = 12.100 1122 =12.544 1312 =17.161 1812 =32.761
L9 1432 =20.449 1392 =19.321 1062 =11.236 1382 =19.044
L10 1222 =14.884 1302 =16.900 832 =6.889 1682 =28.224
Total 124.996 131.130 143.838 229.564
Rezultă că:
4 6
∑ ∑ x 2ij =1032+120 2+882+ .. .+1052 +116 2+77 2 .. .+1182 +1242 + 922 +1592 +1392+1022+. . .+
i=1 j=1
+138 + 1682 =629. 528
2
133
● variaţia comenzilor datorată factorului experimental (tipului de
ambalaj) sau suma abaterilor pătrate între grupuri - SS FR, se determină în
baza relației:
r
T 2. j T 2. . 11102 1130 2 1180 2 14902 49002
SS Fr=∑ − = + + + − =609 .940−600 . 250=9 . 690
j=1 n r⋅n 10 10 10 10 40
● suma abaterilor pătrate în cadrul grupurilor, abateri datorate erorii
experimentale (și apărute ca urmare a influenței altor factori decât tipul de
ambalaj), se calculează cu formula:
SS E=SS T −SS Fr =29 .278−9690=19. 588
Tabelul nr. 4
Sursa Suma Număr Mediile sumelor Testul F p
variației abaterilor grade de abaterilor pătrate
pătrate - SS libertate -MS
TOTAL SST = 29.278 r⋅n−1= - - -
39
Între grupuri SSFr = 9.690 (r-1)= 3 MSFr = 3230 FFr=5,936 ¿ 0,01
În cadrul SSE = 19.588 (N-r)=36 MSE =544,11 - -
grupurilor
134
Decizia H0Fr se respinge deoarece Fcalculat (5,936) > Fteoretic 3;36;1%(4,51)
finală
Cel mai agreat tip de ambalaj este cel căruia îi corespunde cel mai
mare număr de comenzi. Cum, pe coloane, cel mai mare total din tabelul 3
(egal cu 1490 de comenzi) corespunde ambalajului tip A4, rezultă că această
variantă este cea preferată de către consumatorii potențiali din eșantion.
Rezolvare în SPSS
Să vedem cum se aplică metoda ANOVA simplă pentru cazul tratat
anterior. Vom construi baza de date in SPSS luând trei variabile: Tipul
ambalajului, Localitatea și Numărul comenzilor înregistrate:
135
Cercetare de marketing avută în vedere pornește de la ipoteza de nul
prin care se consideră că nu există nicio diferență în cea ce priveste numărul
de comenzi primite și tipul ambalajului folosit.
Procedura de testare a mediei unei variabile cantitative pe categoriile
(mai mult de 2) ale unei variabile calitative este One-way ANOVA.
Prima condiție este verificarea normalității variabilei dependente pe
toate categoriile varibilei independente. Putem verifica normalitatea pe calea:
Analyze/Descriptive Statistics/ Explore. Trecem în câmpul Dependent List
variabila Numărul comenzilor înregistrate iar în câmpul Factor List variabila
Tipul ambalajului.
Activăm butonul Plots unde bifăm Normal plots with tests. Prin
Continue închidem dialogul Plots iar OK implică afișarea rezultatelor în
output. Procedura Explore este cea mai completă din statistica descriptive,
deci, avem implicit și alte rezultate: un prim tabel cu frecvența variabilei
136
dependentă în cazurile variabilei factor, apoi indicatorii statisticii descriptive
ai VD pe fiecare din cazurile VI. (media, intervalul ei de incredere pentru
95%), media dacă excludem 5% din valorile maxime și minime (5%
Trimmed Mean), mediana, varianța și deviația standard, minimul și
maximul, diferența dintre ele adică range, distanța intercvartilică (Q3-Q1),
asimetria (skewness) și boltirea (kurtosis). Pentru scopul propus pe noi ne
interesează tabelul:
137
Închidem Option prin Continue și celelalte butoane Contrast și Post
Hoc deocamdată nu le activăm. Apăsând OK obținem în output rezultatele:
Un prim tabel cu date statistcii descriptive ale VD pe fiecare din
categoriile VI.
OBSERVAȚIE
138
Tabel identic cu Tabelul 4 de la pagina 112. Rezultatul testului Fisher este
semnificativ statistic, p=0,002<0,05, deci respingem ipoteza de nul, adică
existe diferențe semnificative între grupurile variabilei Tipul ambalajului în
ce privește variabila Numărul comenzilor înregistrate. F(3, 36)=5,936,
p=0,002. Graficul furnizat de ANOVA este semnificativ:
139
Prima coloană conține toate perechile (evident dublate) de comparații
intergrupuri cu diferențele corespunzătoare dintre medii în a două coloană.
Cele semnificative statistic sunt semnalate cu *. Observăm că doar
Ambalajul de tip A4 are diferențe semnificative față de toate celelalte.
Următoarea coloană conține eroarea standard a mediei pentru fiecare pereche
iar apoi avem pragurile de semnificație corespunzătoare diferențelor de
medii. Urmează limitele intervalului de încredere al diferențelor. Tabelul nu
calculează valoarea testului t Tukey dar acesta poate fi calculat pentru fiecare
pereche (cu diferențe semnificative statistic) prin formula:
Mean Differnce
t Tukey =
Std . Error
Asadar între grupele cu tipurile de ambalaj:
A4 și A1 39 3,7384
t= =3,7384 r= =0,5096
10,432 √ 5,936∗3+36
A4 și A2 36 3,4509
t= =3,4509 r= =0,4704
10,432 √ 5,936∗3+36
A4 și A3 31 2,9716
t= =2,9716 r= =0,4051
10,432 √ 5,936∗3+36
Calculăm în același tabel mărimea efectului după formula:
t Tukey
r=
√ F∗df intergrup + df intragrup
Interpretarea mărimii efectului se face după tabelul lui Cohen3
Mărimea efectului r
Foarte puternic ≥ 0,70
Puternic [0,5, 0,7)
Mediu [0.3, 0,5)
Slab <0.3
3
Cohen, J. 1988, Statistical Power Analysis for the Behavioral Sciences, Lawrence Erlbaum
Associates, Inc.
140
În cazul nostru diferența între ambalajul A1 și A4 in cea ce privește
numărul de comenzi este mare, in schimb între A4 și celelalte două este o
diferență medie.
141
Total 367 373 509 612 718
Rezolvare cu SPSS
Vom considera o variabilă nominală ce are cele cinci valori ale
localităților studiului. O altă variabilă nominală are cazuri cele 12 unități
comerciale, iar o variabila scalară va înregistra volumul vănzărilor pe fiecare
tip de unitate și localitate.
Variabilele:
Datele:
142
Aplicăm ANOVA simpla pe calea Analyze/Compare Means/One-
Way ANOVA unde variabila dependenta trece în câmpul Dependent List iar
variabila independentă în câmpul Factor.
apoi continue. Avem aici două variante. Să deschidem dialogul Post Hoc
înainte de a avea rezultatul la testul Levene care ne spun dacă varianțele sunt
egale sau inegale și să bifăm un test de la varianțe egale și altul de la varianțe
inegale, sau dăm OK, să citim testul Levene și apoi să bifăm ce test este
necesar. Să apăsăm OK și avem rezultatul la testul Levene:
143
Este nesemnificativ p=0,870>0.05 deci varianțele sunt presupuse egale.
Atunci revenim la dialogul anterior (înainte de a da OK) prin butonul și
deschiden Post Hoc unde bifăm testul neplanificat Tukey:
146
Semnificația simbolurilor utilizate în cadrul acestui model este
următoarea:
r
T ij .=∑ xijk
k=1 - reprezintă totalul celulei ij;
T ij .
x ij=
n - media celulei ij;
m r
T i . .=∑ ∑ xijk
j=1 k=1 - totalul rândului i;
T i. .
x i . .=
r⋅m - media rândului i;
n r
T . j .=∑ ∑ x ijk
i=1 k =1 - totalul coloanei j;
T . j.
x. j .=
r⋅n - media coloanei j;
n m r
T . ..=∑ ∑ ∑ x ijk
i=1 j=1 k =1 - totalul general al tabelului de contingență;
T .. .
x . ..=
r⋅n⋅m
p=n⋅m - numărul combinațiilor posible între cei doi factori
experimentali, A și B.
De asemenea, pentru a utiliza această matrice de organizare a
experimentului de marketing, este necesar să fie întrunite următoarele
condiții4:
Fiecărei unități experimentale trebuie să îi fie asociată doar
o singură valoare a variabilei dependente. În cazul în care, în
practică, au fost efectuate măsurări repetate asupra aceleiași
unități experimentale, în tabel va fi înregistrată o singură
valoare (media sau suma măsurătorilor individuale);
Numărul unităților experimentale din fiecare subgrup trebuie
să fie același (de regulă, aceste grupuri includ 10-15 unități
experimentale). Ca și în cazul proiectării complet aleatoare,
această cerință a egalității numărului de unități
experimentale din fiecare subgrup constituit în cadrul
experimentului nu este foarte restrictivă;
Se recomandă ca numărul nivelurilor înregistrate de cei doi
factori experimentali nu depășească cifra 5.
4
Cătoiu, Iacob (coord.), Cercetări de marketing, Editura Uranus, București, 2002, pp. 399
147
Prelucrarea și interpretarea rezultatelor unui experiment de marketing
organizat după matricea prezentată în tabelul nr. 6, implică utilizarea analizei
variației, ANOVA. Aceasta presupune descompunerea variației totale a
variabilei dependente în părțile sale componente ca în figura nr. 1.
Variația
totală,
(SST)
Variația dintre Variația din
grupuri, interiorul
grupurilor,
(SSG)
(SSE)
148
3) Suma abaterilor pătrate dintre grupuri poate fi descompusă, la
rândul ei, pe trei componente: suma abaterilor pătrate datorate
primului factor experimental SSA; suma abaterilor pătrate datorate
celui de-al doilea factor experimental SSB și suma abaterilor
pătrate apărute ca efect al interacțiunii factorilor SSAB.
SS G=SS A+SS B +SS AB (8)
Pentru determinarea sumei abaterilor pătrate datorate factorului
experimental A se va utiliza următoarea relație de calcul:
n
∑ T 2i ..
i=1 T 2 . ..
SS A= −
m⋅r n⋅m⋅r (9)
La rândul său, suma abaterilor pătrate datorate variabilității celui de-
al doilea factor experimental B, se calculează cu formula:
m
∑ T .2j .
j=1 T2 . . .
SS B = −
n⋅r n⋅m⋅r (10)
Efectele manifestate ca urmare a interacțiunii factorilor A și B se
determină sub forma diferenței:
SS AB =SS G−( SS A +SS B )
(11)
Rezolvare clasică:
În cazul exemplului considerat, vom explicita câteva notații:
150
A – indicativ pentru primul factor experimental - nivelul de pregătire
al consumatorilor
( i=1,n );
B – indicativ pentru al doilea factor experimental - mediul de
proveniență ( j=1,m );
k – numărul de magazine (unități experimentale) care furnizează date
referitoare la volumele de vânzări ( k=1,r );
n m r 2 2
T ... ( 2 2 2 2 290
SS T =∑ ∑ ∑ x 2ijk− 2 2
= 40 +23 +19 +...+18 +15 +10 )− =
i=1 j=1 k=1 n⋅m⋅r 2x 2 x 3
84100
6823− =6823−5676 , 75=1146 ,25
12
Suma abaterilor pătrate dintre grupuri (SSG) este dată de relaţia:
n m
∑ ∑ T 2ij .
i=1 j=1 T 2. . .
SS G= −
r n⋅m⋅r
82 +46 2 +902 +43 2 2612
2
SS G= − =6263−5676 , 75=586 , 25
3 12
Suma abaterilor pătrate datorate erorii experimentale (care
cumulează influența exercitată de factorii aleatori) se determină sub forma
diferenţei:
SS E=SS T −SS Fr =1146,25−586,25=560
La rândul său, suma abaterilor pătrate dintre grupurile
experimentale se descompune în:
● suma abaterilor pătrate datorată primului factor A (SSA):
n
∑ T 2i ..
i=1 T 2 . ..
SS A= −
m⋅r n⋅m⋅r
( 82+90 )2 + ( 46+43 )2 1722 +892
SS A= −7 .008 , 33= −5676 , 75=574 , 08
2x 3 6
● suma abaterilor pătrate datorată celui de-al doilea factor B (SSB):
m
∑ T .2j .
j=1 T2 . . .
SS B = −
n⋅r n⋅m⋅r
( 82+46 )2 + ( 90+43 )2 1282 +1332
SS B= −5676 ,75= −5676 ,75=2 , 08
2x 3 6
● suma abaterilor pătrate datorată interacţiunii celor doi factori
(SSAB):
151
SS AB =SS Fr −( SS A+SS B )
SS AB =586,25−(574 ,08+2,08)=10,09
Pentru a verifica dacă influenţa primului factor (mediului) asupra
vânzărilor de DVD-uri este semnificativă, vom calcula valoarea lui F:
547,08 560
F2−1,2⋅2⋅(3−1),0 .05= ÷ =8,20
(2−1) 2⋅2⋅(3−1)
Deoarece mărimea teoretică a lui F pentru un grad de libertate la
numărător şi 8 la numitor (F1;8;0,05), pentru un nivel de semnificație de 5%,
este, conform tabelelor statistice, egală cu 5,32, înseamnă că mediul în care
trăiesc cumpărătorii influenţează sensibil volumul vânzărilor de DVD-uri.
Testăm acum influența celui de-al doilea factor (nivelul de pregătire
al consumatorilor) asupra vânzărilor de DVD-uri:
2,08 560
F2−1,2⋅2⋅(3−1),0 .05= ÷ =0,029
(2−1) 2⋅2⋅(3−1)
iar valoarea teoretică a lui F1;8;0,05 este 5,32, înseamnă că nivelul de pregătire
al cumpărătorilor nu influenţează semnificativ vânzările de DVD-uri.
Trebuie să vedem în continuare cât de important este efectul
interacțiunii dintre cei doi factori experimentali asupra volumelor de vânzări:
10,09 560
F(n−1)(m−1),nm(r−1)= ÷ =0,14
(2−1)(2−1) 2⋅2⋅(3−1) ,
Ținând cont că ne raportăm la aceeași valoarea teoretică a lui F1;8;0,05
egală cu 5,32, rezultă că interacţiunea celor doi factori experimentali are o
acţiune neglijabilă asupra rezultatelor experimentului.
Tabloul final al analizei variației este evidențiat în tabelul nr.8.
Tabelul nr. 8
Sursa variației Suma Grade de MS F p
abaterilor libertate
pătrate (SS)
TOTAL SST =1146,25 n⋅m⋅r−1= - - -
11
Între grupuri SSG =586,25 r-1=2 MSG -
=195,41
- factorul A SSA =574,08 n-1=1 MSA FA=8,20 ¿ 0,05
=547,08
- factorul B SSB =2,08 m-1=1 MSB =2,08 FB=0,029 ¿ 0,05
- interacțiunea SSAB =10,09 (n-1)·(m-1)=1 MSAB FAB=0,14 ¿ 0,05
AB =10,09
În cadrul SSE =560 n · m ·(r-1)=8 MSE =70 - -
grupurilor
Decizia H0A este respinsă deoarece FA calculat (8,20) > Fteoretic1;8;0,05 (5,32)
H0B este acceptată deoarece FB calculat (0,029) <Fteoretic 1;8,0,05(5,32)
152
H0AB este acceptată deoarece FAB calculat (0,14) < Fteoretic 1;8;0,05 (5,32)
Rezolvare în SPSS:
- Datele:
155
(calculată pentru efectul principal semnificativ statistic) pentru două grupe se
calculează după:
F
r=
√ F+ df intragrup
8,201
În cazul nostru r =
√
8,201+1
=0,8913 cea ce implică un efect foare puternic
al factorului Mediu asupra vânzărilor
Tabelul nr. 9
Factorul B – frecvența la seminarii bazate Total Media
pe tehnologia informațiilor
Factorul A – Sub 14 ore/semestru Peste 14
programul de studii ore/semestru
Economia 6 8 76
comerțului, 7 10
turismului și 6 7
156
serviciilor 8 9 7,6
6 9
Total – 33 Total – 43
Management 5 7
4 8
6 6
61
5 7 6,1
7 6
Total – 27 Total – 34
Total 60 77 137 -
Media 6,0 7,7 - -
Rezolvare în SPSS
Construim baza de date cu variabilele nominale: Programul de studii
(factorul A) și Frecvența la seminarii bazate pe tehnologia informațiilor
(factorul B). Acestea sunt variabilele independente. Variabila dependentă
este scalară: Nota la testul final. Baza de date modulul Variable view:
157
Reținem din output tabelele:
158
Obținem rezultatele: date de statistică descriptivă (media și abaterea
standard):
159
se impune aplicarea testelor de contrast sau post hoc pentru a obține
comparațiile multiple.
În cazul nostru pentru factorul Programul de studii avem
F(1,16)=10,976, p=0,004<0.05 este efectul principal semnificativ, deci
diferențele între grupele acestei variabile sunt semnificative. Pentru a vedea
care din cele două grupe ale factorului influențează și în ce sens nota la testul
final vom face o reprezentare grafică. În dialogul anterior (îl regăsim repede
cu butonul din meniul SPSS: Recall recently used dialogs, Univatiante)
apăsăm Plots unde trecem variabila programul în câmpul Horizontal Axis
apoi Add și închidem dialogul prin Continue apoi cu OK in fereastra
Univariante. Obținem:
160
Efectul de interacțiune este nesemnificativ F(1,16)=0,439,
p=0,517>0.05. Mai avem de calculat Mărimea efectului pentru efectele
principale. Pentru variabila Programul de studii:
F 10,976
r=
√ √
F+ df intragrup
=
26,976
=0,6378
Pentru variabila Frecvența la seminarii bazate pe tehnologia informației:
14,450
r=
√ 30,45
=0,6888
Aceasta inseamnă că cei doi factori au efect puternic asupra notei la testul
final.
în care:
xij – reprezintă nivelul variabilei dependente care aparține blocului i
(i=1,n) și căreia i se aplică factorul experimental j( j=1,r );
T.j – totalul coloanei j;
162
x. j - media coloanei j;
Ti. – totalul blocului i;
x i . - media blocului i;
T.. – totalul general al variabilei dependente pentru toate unitățile
experimentale;
x.. - media generală a variabilei dependente pentru toate unitățile
experimentale;
Analiza variației presupune descompunerea variației totale a
variabilei dependente pe elemente componente, așa cum se prezintă în figura
nr. 3.
Variaţia între
blocuri SSB Variaţia datorată
Variaţia totală factorului
SST experimental SSFr
Variaţia în
interiorul
blocurilor
Variaţia datorată
erorii
experimentale
SSE
Figura nr.3: Modelul organizării experimentului de marketing cu
ajutorul blocurilor aleatoare
Rezolvare clasică:
Pentru cele 10 magazine, cu scopul de a determina suma abaterilor
10
( )
∑ x 2ij
pătrate pe total j=1 se va efectua un calcul tabelar ale cărui rezultate
sunt prezentate în continuare.
Tabelul 12
Magazinele Nivelurile factorului experimental
A B C D
1 702= 4900 842= 7056 872= 7569 1202= 14400
2 642= 4096 1102= 12100 532= 2809 902= 8100
3 552= 3025 2
79 = 6241 2
80 = 6400 1142= 12996
4 672= 4489 2
97 =9409 2
65 = 4225 892= 7921
5 492= 2401 932 =8649 692= 4761 992= 9801
6 602= 3600 2
100 =10000 2
74 = 5476 982= 9604
165
7 562= 3136 882 =7744 762= 5776 1102= 12100
8 662= 4356 1052 =11025 592= 3481 1052= 11025
9 502= 2500 952 =9025 772= 5929 1012= 10201
10 732= 5329 992 =9801 802= 6400 942= 8836
Total 37832 91050 52826 104984
Tabelul nr.13
Sursa Nr.gra- Suma abaterilor Media pătratică Testul
variaţiei delor de pătrate (variaţia) SS (dispersia) Fisher
libertate MS F
Factorul (r-1)=3 SSFr=11090 MSFr=3696,66 FFr=35,03
experiment
al
Blocuri (n-1)=9 SSB=503 MSB=55,88 FB=0,53
Eroarea (r-1) (n- SSE=2849 MSE=105,51 -
experiment 1)=27
ală
Total rn-1=39 SST= 14442 - -
Decizia H0Fr se respinge deoarece FFrcalculat(35,03)>Fteoretic 3;27,0,05(2,96)
H0B se acceptă deoarece FBcalculat (0,53) < Fteoretic 7;27;0,05 (2,96)
Rezolvare în SPSS
Construim baza de date ce se prezinta în variable view
167
Calea este Analyze/ General Linear Model/Univariante. Trecem
Volumul vânzărilor la Dependent Variable iar la Fixed Factor(s)
Blocurile și Variantele de perfecționare:
Tabelul nr. 14
Magazinele Nivelele factorului experimental Media
(blocuri) Total (Ti.)
D1 D2 D3 (xi .)
Regiunea Centru 32 58 45 135 45,00
Regiunea Nord-Est 39 60 60 159 53,00
Regiunea Nord-Vest 28 64 47 139 46,33
Regiunea Vest 40 72 40 152 50,67
Regiunea Sud-Vest 41 82 58 181 60,33
Regiunea Sud 46 77 52 175 58,33
Regiunea Sud-Est 27 75 64 166 55,33
Regiunea București-
22 62 44 128 42,67
Ilfov
Total (T.j) 275 550 410 1235
M edia
(x. j) 34,375 68,75 51,25 51,46
Data View:
171
Inchidem prin OK iar în output găsim
172
Vedem destule perechi de regiuni în care media vânzărilor este
semnificativ statistic diferită (semnalate cu *) La fel și la canale de
distribuții:
Pentru a concretiza cele expuse pănă acum, vom considera trei unităţi
experimentale pe care le notăm cu 1, 2 şi 3 şi trei niveluri ale factorului
experimental simbolizate cu A, B şi C; schema generală a unui pătrat latin se
prezintă în tabelul nr.15.
175
Studiu de caz: Proiectarea unui experiment de marketing cu ajutorul
modelului pătratului latin – rezolvare clasică și în SPSS
Tabelul nr. 16
Tip de ambalaj Săptămâna Total
I II III IV
1 [A] 720 [B] 800 [C] 1200 [D] 870 3590
2 [B] 550 [C] 1010 [D] 770 [A] 860 3190
3 [C] 900 [D] 640 [A] 520 [B] 450 2510
4 [D] 910 [A] 570 [B] 400 [C] 830 2710
Total 1200
3080 3020 2890 3010
0
176
D : 870 + 770 +640 + 910 = 3190
La prima vedere, din analiza datelor de mai sus constatarea unor
diferenţe substanţiale în privinţa volumului vânzărilor în funcţie de strategia
de distribuție aplicată ar putea fi clasată drept evidentă. Pertinenţa unei
asemenea concluzii este însă afectată dacă se remarcă în primul rând
variaţiile mari înregistrate în cadrul fiecărei opţiuni de promovare (de la o
perioadă la alta şi de la un tip de ambalaj la altul) şi în al doilea rând
caracterul selectiv al experimentului (operat asupra unui “eşantion” de unităţi
comerciale ale firmei “X” şi pe durate de timp determinate).
Însă validarea diferenţelor de mai sus ca semnificative (adică datorate
efectiv strategiei de distribuție utilizate) impune testarea lor prealabilă cu
ajutorul unui instrument statistic cum este testul Fisher. Acesta va constitui
punctul terminus al analizei ANOVA pe care o vom întreprinde în
continuare.
Folosirea testului Fisher reclamă formularea ipotezei nule potrivit
căreia cei trei factori incluși în pătratul latin – strategia de distribuție,
tipul ambalajului şi perioada de timp - nu influenţează semnificativ
vânzările firmei. Conform acestei ipoteze, fiecare celulă a tabelului nr. 16 ar
trebui să conţină cifra 750 (adică 12.000/16); rezultă că diferenţele existente
în mod real se datorează influenţei celor trei factori menţionaţi sau acțiunii
exercitate de alți factori neidentificaţi (ale căror efecte cumulate intră sub
incidența erorii experimentale). Pe baza datelor din tabelul 16 se determină
mai întâi primul termen al variaţiei volumelor de vânzări pe total:
m 2
12000
SS T = ∑ x 2ijk =7202 +8002 +12002 +.. .+5702 +4002 +8302− =
i , j , k=1 16
¿9 .704 . 800−9 . 000. 000=704 .800
Aceste variaţii totale SST reprezintă suma efectelor variaţiilor pe
rânduri SSR datorate influenței tipului de ambalaj (simbolizat cu “i”), ale
variaţiilor pe coloane SSC datorate influenței factorului timp (notat cu “j”),
ale factorului experimental “k” SSK – strategia de distribuție utilizată, la care
se adaugă efecte ocazionate de eroarea experimentală SSE:
SST = SSR +SSC +SSK + SSE
Aşadar, abaterile totale în sumă de 704.800 se repartizează fiecăreia
dintre componente:
1
m
T 2 3590 2 +31902 + 25102 +27102
SS R = ∑ T 2i. .− ..2 . = −704 . 800=177. 100
m i=1 m 4
1
m
2
T 2. .. 30802 +30202 + 28902 +30102
SS C = ∑ T . j.− 2 = −704 . 800=4 . 750
m j=1 m 4
1
m
T 2 2670 2 +22002 +3940 2 +31902
SS K = ∑ T .2. K − ..2 . = −704 . 800= 417 .150
m k =1 m 4
177
Partea neexplicată din abaterea totală de 704.800 se referă la
eroarea experimentală, care poate fi determinată sub forma diferenţei:
SSE=SST - (SSR+SSC+SSK) = 704.800 – 177.100 – 4.750 – 417.150=
105.800
Efectul factorului experimental (K) trebuie testat statistic pe baza
calculării valorii F ca raport între dispersiile datorate factorului
experimental şi erorii experimentale:
SS K SS E MS K
Fm −1 , (m−1 ) (m−2) , α = ÷ = =7 ,885
(m−1) (m−1 )(m−2) MS E
Acest rezultat se compară cu valoarea tabelară a lui F, pentru un
număr de m-1=3 grade de libertate la numărător şi respectiv (m-1)(m-
2)=6 grade de libertate la numitor.
Dacă alegem un nivel de semnificaţie = 5% (deci admitem
corectitudinea concluziei stabilite în 95% din cazuri), regăsim în tabelele
statistice o valoare teoretică a lui F, F3;6;0,05=4,760. Deoarece
Fcalculat>Fteoretic, respectiv 7,885>4,760, ipoteza nulă se respinge, reţinându-
se concluzia că strategia de distribuție utilizată influenţează în mod
semnificativ volumul vânzărilor. Se poate admite deci că există o
modificare semnificativă a volumul vânzărilor în raport cu strategia de
distribuție utilizată, concluzie ce este corectă în 95% dintre cazurile
posibile.
În sinteză, analiza variaţiei pe baza modelului pătratului latin se
prezintă ca în tabelul 17.
Tabelul 17
Sursa variaţiei Grade de Suma abaterilor Media pătratică Testul F
libertate pătrate SS
Liniile (i) m-1 SSR=177.100 MSR=59.033,33 FR=3,347
Coloanele (j) m-1 SSC=4.750 MSC=1.583,33 Fc=0,089
Tratamentele (k) m-1 SSK=417.150 MSK=139.050 FK=7,885
Eroarea (E) (m-1)x(m-2) SSE=105.800 MSE=3645,83 -
Total m2-1 SST=704.800 - -
Decizia Se respinge H0 deoarece FK calc.(7,885)>FK teoretic (4,760)
Rezolvare in SPSS
Formăm pătratul latin considerând variabile de pe randuri și care
reprezintă tipul de ambalaj. Îi dăm numele de „rânduri”, este nominală, o
etichetam ca „Tipul de ambalaj” și are valorile 1 – ambalajul A 1; 2 –
ambalajul tip A2; 3 - ambalajul A3; 4 – ambalajul A4.
Variabila ce definesc coloanele o numim „coloane”, este nominală, o
etichetăm „Consumatori” și are valorile: 1 – consumatori copii (între 3-12
ani); 2 – consumatori adolescenți (între 13-18 ani); 3 – consumatori maturi
(19-60 de ani); 4 – consumatori vârsnici (peste 60 de ani).
178
Al treilea factor experimental îl numim „distribuție”, este o variabilă
nominal cu eticheta „Tipul de distribuție ales”, are valorile: 1=A – distribuția
directă; 2=B – distribuția prin magazine mici; 3=C – distribuția prin
hypermarketuri; 4=D – distribuția prin intermediul Internetului. Să alcătuim
baza de date descrisă mai sus:
Variabilele:
Cu valorile lor:
Datele:
180
Vedem că singura pereche între care avem diferențe în ce privește
media vânzărilor este între distribuțiile prin magazile mici și distribuțiile prin
hypemarketuri. Diferența dintre medii este de 435 cu p=0,014.
181
Tabelul nr. 18
Tipul Săptămâna Total
ambalajului I II III IV
1 [A] 1700 [B] 700 [C] 800 [D] 1000 4200
2 [B] 500 [C] 900 [D] 1250 [A] 1400 4050
3 [C] 750 [D] 1100 [A] 1200 [B] 600 3650
4 [D] 700 [A] 1100 [B] 1050 [C] 500 3350
Total 3650 3800 4300 3500 15250
Rezolvare în SPSS
Formăm baza de date cu variabilele factor:
- Tipul ambalajului cu valorile: 1 – ambalajul A1; 2 – ambalajul tip
A2; 3 - ambalajul A3; 4 – ambalajul A4
- Săptămâna cu valorile: 1 – Săptămâna I; 2 – Săptămâna II; 3 –
Săptămâna III; 4 – Săptămâna IV
- Tehnici de promovare a vănzărilor cu valorile: 1 – organizarea de
acţiuni publicitare la locul vânzării (A); 2 - practicarea de vânzări
grupate (B); 3 - tehnici de merchandising (C); 4 - demonstrații și
degustări (D).
Variabila scalară valoarea vânzărilor produsului alimentar.
Variabilele:
Datele:
182
Aplicăm același dialog: Analyze/General Linear Model/Univariante
iar în fereastra principală:
184
Bibliografie
185
20. Nedelea, Mircea, Alexandru, Cercetarea de marketing, Editura
Economică, București, 2017
21. Papuc, Mihai; Kacso Simona; Zbuchea Alexandru, Cercetări de
marketing. Aplicaţii, Editura Lumina Lex, Bucureşti, 2004
22. Popa, Marian, Statistică pentru psihologie. Teorie si aplicații SPSS,
Editura Polirom, Iași 2008
23. Prutianu Ştefan; Bogdan Anastatsiei; Jijie, Tudor, Cercetarea de
marketing. Studiul pieței pur și simplu, Ed. a II a, Editura Polirom,
Iași, 2005
24. Stioca, Cristina Maria, Cercetări de marketing, Editura Tehnopress,
Iași, 2007
25. Smedescu, Ion, Marketing – aspecte teoretice, studii de caz,
aplicații, teste, Editura Universitară, București, 2008
26. Țimiraș, Laura, Cătălina, Cercetări de marketing (curs universitar),
Editura Alma Mater, Bacău, 2012
186