Sunteți pe pagina 1din 70

UNIVERSITATEA DE ŞTIINŢE AGRICOLE ŞI MEDICINĂ

VETERINARĂ CLUJ-NAPOCA

Prelucrarea datelor statistice în cercetarea de Marketing cu


SPSS sub Windows

~îndrumar de lucrări practice pentru studenţii agronomi ~


CUPRINS

Nr. CAPITOL PAG.

Cuvânt înainte 3
1 Introducere 5
2 Interfaţa programului SPSS
3. Introducerea datelor statistice
4. Transferul unei variabile
5. Selectarea unor subiecţi folosind comanda SELECT CASES
6. Sistematizarea datelor în SPSS
7. Tabelul de asociere (Crosstabs)
8. Elementele unui grafic
9. Distribuţii statistice
10. Calculul indicatorilor tendinţei centrale ,dispersiei şi formei unei
distribuţii
11. Parametrii unei distribuţii bivariate (bidimensionale)
12. Verificarea normalităţii unei distribuţii folosind SPSS
13. Calculul indicatorilor statisticii descriptive
14. Calculul probabilităţilor pentru distribuţii normale folosind SPSS
15. Estimarea prin interval de încredere
16. Demersul testării unei ipoteze statistice
17. Testarea egalităţii unei medii cu o valoare specificată
18. Testarea egalităţii mediilor a două eşantioane perechi
19. Testarea egalităţii mediilor a două eşantioane independente
(Independent Samples T Test)
20. Testarea egalităţii a trei şi mai multe medii
21. Testarea egalităţii unei proporţii cu o valoare specificată (Binomial
Test)
22. Testarea egalităţii a două şi mai multe proporţii
23. Analiza de corelaţie
ANEXA

4
Cuvânt înainte

Dragi studenţi,

Îndrumarul de faţă a fost conceput pentru a vă ajuta în reamintirea şi fixarea


cunoştinţelor, dobândite de voi în cadrul seminariilor la disciplina Marketing, menite a
vă familiariza cu mijloacele moderne de prelucrare a datelor culese în urma cercetărilor
de piaţă şi nu numai. Aşadar îndrumarul nu-şi propune să suplinească, o eventuală
absenţă a dumneavoastră de la aceste seminarii, asimilarea informaţiilor prezentate fiind
dificilă fără asistenţa cadrului didactic.
De asemenea, lucrarea nu insistă asupra noţiunilor fundamentale de statistică,
care v-au fost predate la cursul de profil din anul III. Ar putea fi necesară deci,
revizuirea acestor cunoştinţe acolo unde este cazul.
Îndrumarul a fost conceput urmărind structura seminariilor predate studenţilor
din anul V de la profilurile IEA şi IMAPA, folosind pentru alcătuirea bazelor de date,
chiar chestionarele culese de aceştia în practica de vară.

În speranţa că scopul didactic al acestui caiet va fi realizat, vă urăm spor la


învăţat şi multă baftă în sesiune !

Autorii

1. INTRODUCERE

5
SPSS (Statistical Package for the Social Sciences) este unul dintre cele mai
puternice şi utilizate programe de prelucrare a datelor statistice (aşa numitul data mining)
precum şi a alcătuirii de prognoze. Soft-ul a fost creat în anii ’60 de compania SPSS în a
cărei obiect de activitate este realizarea de software pentru prelucrarea statistică a datelor
şi a ajuns la data scrierii acestui caiet (noiembrie- decembrie 2006) la versiunea 15. Site-
ul companiei poate fi accesat la www.spss.com sau www.spss.ro .
Programul este relativ uşor de asimilat datorită faptului că nu necesită cunoaşterea
detaliată a formulelor de calcul ci doar a ipotezelor verificate de testele statistice.

De exemplu, analiticile SPSS sunt de folos:


• In ciclurile de viaţă ale clienţilor, ca atragerea noilor clienţi, păstrarea cât mai mult timp
a celor mai profitabili şi imbunătăţirea interacţiunilor cu ei
• Cercetătorilor şi analiştilor pentru a descoperi relaţiile şi a identifica tendinţele
• Pedagogilor, pentru a-şi pregăti mai bine studenţii pentru roluri în domeniile comercial,
academic sau public
• Organizaţiilor guvernamentale, care se concentrează pe reducerea fraudei, criminalităţii
si infracţionalităţii
• Comerciantilor independenti de software (ISVs), pentru a-şi spori valoarea soluţiilor
prin integrarea componentelor pre-built ale analiticilor predictive SPSS în aplicaţiile lor.

Enumerăm doar cateva modalităţi prin care clienţii analiticilor predictive SPSS
beneficiază într-o varietate de domenii:
• O bancă lider de piaţă foloseşte SPSS pentru a-şi ţinti mai bine eforturile de marketing,
rezultatele au fost o crestere a vânzărilor si o reducere a costurilor de marketing.
• Un furnizor de servicii de precizie pentru marketing prin e-mail care foloseste software
SPSS pentru a-şi ajuta clienţii să-şi ţintească mai bine campaniile de marketing şi-a sporit
veniturile cu mai mult de 60%
• Un institut de cercetare medicală dintr-un spital important foloseşte software SPSS
pentru a analiza mai eficient datele de expresie a genelor, conducând la progrese rapide în
studiul şi tratamentul tumorilor cerebrale la copii

6
• Un furnizor de seamă în procesarea plăţilor şi soluţii de detectare a fraudei pentru
comerţul prin Internet foloseşte software SPSS pentru a-şi ajuta clienţii să-şi reducă
pierderile datorate fraudelor.
• O mare companie de servicii financiare foloseşte software SPSS pentru a identifica
locaţii noi, mai profitabile în care să-şi crească afacerile, fapt care s-a soldat cu o
reducere de 50% a erorilor de previzionare
• Un colegiu din California foloseste software SPSS pentru a reduce costurile în
marketingul orientat pe recrutare, a-şi imbunătăţi oferta curiculară şi a creşte retenţia
studenţilor.

2. INTERFAŢA PROGRAMULUI SPSS

In figura 1 este prezentată interfaţa programului SPSS care se prezintă la fel ca


interfeţele programelor de calcul tabelar pe care le cunoaşteţi ( de exemplu programul
EXCEL) Aşa cum puteţi observa, există un meniu (Figura 1, săgeata 1) a cărui butoane
vor fi explicate pe parcursul acestei lucrări.
Spre deosebire de alte programe, numele fiecărei variabile va fi trecut în capul de
tabel în căsuţele numite generic “var” (Figura 1, săgeata 2).
Introducerea datelor se face prin accesarea foii Variable View prin apăsarea butonului cu
acelaşi nume (săgeata 3 din figura 1).

7
Figura 1 : Interfaţa programului SPSS
1 2

3. Introducerea datelor statistice

8
In fereastra “Variable View” se introduc atributele variabilei: nume (name), tip (type),
lungimea (width), număr zecimale (decimals), eticheta (label), valorile etichetei (values),
valorile lipsă (missing), alinierea (align) şi modalităţile de măsurare a variabilei
(measure) ( scală, ordinal, nominal) (vezi figura 2).

Figura 2: Fereastra Variable View

3.1 Numele variabilei


Numele variabilei se editează în coloana Name ţinând cont de următoarele restricţii :
- să fie unic
- să aibă cel mult 8 caractere
- primul caracter să fie o literă
- ultimul caracter să nu fie “_” (underscore)
- poate să conţină litere, cifre, şi simbolurile @,#, _ , $
- să nu conţină spaţii sau simboluri speciale folosite în SPSS

9
De exemplu întrebării din baza de date 1 (vezi anexa 1) “ consumaţi produse
alimentare certificate ca fiind ecologice ?” i se va ataşa variabila “consumat” nume ce va
fi trecut în capul de tabel.

3.2. Tipul variabilei

Se realizează în coloana Type . La poziţionarea cursorului pe pătratul gri din dreapta


căsuţei corespunzătoare caracteristicii Type ( vezi Figura 3 săgeata) apare fereastra cu
ajutorul căreia se poate alege tipul variabilei: Numeric ( cu zecimale separate prin virgulă
– Comma sau punct Dot ) , Data, însoţite de un simbol financiar ( de exemplu Dolar) sau
sub forma unui şir de caractere – String (în cazul în care dorim să introducem un cuvânt
sau o frază).

Figura 3: Introducerea atributelor unor variabile

10
La rubrica Label se introduce eticheta variabilei (Figura 4 Sageata 1) . Această etichetă
reprezintă explicaţiile care vor apărea lângă rapoarte ( grafice sau tabele) atunci când vor
fi realizate.
Atunci când variabilele sunt nominale (categoriale) acestea vor fi introduse codificat de
exemplu răspunsurile la întrebarea 1 vor fi codate astfel:
“1” dacă răspunsul a fost “Deseori”
“2” dacă răspunsul a fost “Câteodată”
“3” dacă răspunsul a fost “Nu”
Acestea vor fi introduse în fereastra ce apare acţionând celula corespunzătoare coloanei
Values (Figura 4 –săgeata 2)
Introducerea valorii se face acţionând butonul “Add” , modificarea unor valori se face
folosind butonul “Change” iar pentru ştergere butonul “Remove” din aceeaşi fereastră.
Pentru a face efective aceste schimbări e necesar să se acţioneze butonul “OK”

Figura 4: Definirea etichetei pentru variabilele statistice


1 2

11
In practica anchetelor de sondaj se folosesc pentru răspunsurile invalide, codurile:
97 – pentru “nonrăspuns”
98 - pentru “ neaplicabil”
99 - pentru “ răspuns ilizibil”
Analog se introduc toate variabilele necesare.

4. Transformarea unei variabile

Pentru a transforma datele unei variabile se va folosi comanda Recode din meniul
Transform aşa cum se observă în figura de mai jos -săgeata:

Figura 5: Transformarea unei variabile

12
Recodificarea unei variabile se face fie în aceeaşi variabilă –atunci când vechea variabilă
dispare ( opţiunea Into Same Variables) sau în altă variabilă
( opţiunea Into Different Variables).
In cazul în care a fost aleasă opţiunea schimbării variabilei într-o altă variabilă diferită
apare fereastra Recode into Different Variables

Figura 6: Recodificarea unei variabile


1 2

13
De exemplu dorim ca vârsta respondenţilor să fie recodificată astfel:
- Pentru cei cu vârsta sub 35 ani codificat iniţial cu valorile 1 şi 2 să atribuim cuvântul
“tineri”
- Pentru vârsta între 35 şi 65 ani codificat cu 3 şi 4 atributul “maturi”
- Pentru vârsta mai mare de 65 ani codificat cu 5 atributul “vârstnici”
Astfel în fereastra de mai sus (figura 6 săgeata 1), în fereastra “Recode into different
values” se selectează variabila “Vârsta”, care, cu ajutorul butonului săgeată din fereastră
se mută în fereastra Numeric Variable ->Output Variable
In caseta Nume se trece numele noii variabile Vârsta1 iar mai jos în caseta Label se trece
eticheta. Se acţionează apoi butonul Change pentru a face schimbările efective. Prin
acţionarea butonului Old and new values apare apoi fereastra Recode into Different
Variables , Old and New Values (figura 6, săgeata 2) . In această fereastră se selectează
opţiunea Output Variables are Strings pentru a putea defini noua variabilă ca şi “string”
(şir de caractere). Pentru a schimba valorile 1 şi 2 cu valoarea “tineri” se selectează
butonul Range iar casetele de editare corespunzătoare sunt folosite pentru a stabili limita
inferioară şi superioară a intervalului dorit (through – de la- până la). Se scrie 1 în caseta
din stânga şi 2 în caseta din dreapta. Apoi se selectează butonul de opţiuni Value şi se
scrie “tineri” în caseta de editare după care se acţionează butonul Add . Se procedează
analog pentru toate categoriile. Prin clic pe butonul de comandă Continue se revine în
fereastra Recode into Different Variables. Prin butonul de comanda OK se va declanşa
recodificarea variabilei. Noua foaie de date apare în foaia de date Data View cu datele de
cod corespunzătoare fiecărui caz. O comandă asemănătoare comenzii Recode este
comanda Compute.

14
5. Selectarea unor subiecţi folosind comanda SELECT CASES

In meniul Data există comanda Select Cases. Ca urmare se deschide fereastra de dialog
Select Cases. Dorim de exemplu să alegem toate cazurile în care consumatorii consumă
“Câteodată ” produse agroalimentare ecologice.
Figura 7 . Filtrarea variabilelor statistice

Pentru aceasta se acţionează butonul de comandă If care va deschide fereastra Select


cases în care se introduce condiţia de filtrare “consumat” =2, consumat fiind numele
variabilei prin care au fost codificate răspunsurile la întrebarea “ Consumaţi produse
alimentare certificate ca fiind ecologice”
( vezi anexa ). Butonul de comandă Continue determină revenirea la fereastra Select
Cases în care se activează butonul de comandă OK pentru a obţine fişierul filtrat. Astfel
în foaia Data View din fereastra Data Editor, cazurile anulate sunt tăiate printr-un slash
(/ -linie oblică) ( vezi săgeata din figura de mai sus). Aceste cazuri nu vor fi folosite la
nici o raportare.

15
6. Sistematizarea datelor în SPSS

Sistematizarea datelor în SPSS poate fi realizată prin opţiunea Frequencies subordonată


comenzii Descriptive Statistics din meniul Analyze (vezi figura 8). Activarea opţiunii
Frequencies determină deschiderea ferestrei Frequencies.

Figura 8: Activarea opţiunii Frequencies

Din partea din stânga a ferestrei Frequencies se selectează variabila dorită prin click de
mouse, apoi este mutată prin acţionarea butonului săgeată în caseta Variables. Prin
butonul de comandă OK se obţine Tabelul de frecvenţă afişat în fereastra de rezultate
Output Viewer.
Intr-un tabel de frecvenţă sunt prezentate pentru fiecare variabilă selectată, următoarele
elemente:

16
- valorile sau clasele de valori ale variabilei, efectivul
- procentele
- procentele cumulate corespunzătoare ( suma procentelor categoriilor inferioare)

7. Tabelul de asociere (Crosstabs)

Acest tip de tabel este folosit pentru prezentarea relaţiilor dintre două variabile
categoriale. In fiecare rubrică (celulă) este prezentată frecvenţa parţială aşa cum va fi
selectată.
Obţinerea unui tabel de asociere în SPSS presupune alegerea opţiunii Crosstabs,
subordonată comenzii Descriptive Statistics din meniul Analyze (figura 9).

Figura 9 Obţinerea tabelului de asociere Crosstabs

17
După ce se selectează această opţiune , apare pe monitor fereastra Crosstabs în cadrul
căreia selectăm variabile pentru rânduri şi coloane. Se observă în fereastra Crosstabs
posibilitatea de a alege mai multe opţiuni care apar în fereastră (figura 10):
Numere observate- Observed
Efective sperate - Expected
Percentages: - Pe rânduri –Row, pe coloane –Column, pe total – Total
Residuals: se referă la abateri Standardizate , nestandardizate, ajustate.

Figura 10: Alegerea opţiunilor pentru alcătuirea tabelelor

18
8. Elementele unui grafic

Se pot executa o mulţime de aplicaţii grafice cu ajutorul programului SPSS. Acestea se


pot găsi în meniul Graphs (figura 11)

Figura 11. Alegerea tipurilor de grafic din Meniul Graph

Line- Diagrama liniară


Pie- diagrama pe structură plăcintă
Boxplot – Diagrama “cutia cu mustăţi” este folosită pentru a prezenta amplitudinea,
intervalul interquartilic şi mediana unei distribuţii
Error Bar - Diagrama “bara erorilor” este folosită pentru a arăta media şi intervalul de
încredere de 95% pentru media respectivă.Scatter – Diagrama “norul de puncte” este
folosită pentru a reprezenta relaţiile dintre variabile
Histograma – Este folosită pentru a arăta forma unei distribuţii după o variabilă
înregistrată asupra unei colectivităţi.

19
8.1. Histograma – permite vizualizarea formei unei distribuţii statistice, după o
variabilă cantitativă continuă divizată pe intervale egale sau inegale. Construcţia
histogramei se face într-un sistem de de două axe rectangulare: pe abscisă se înscriu
valorile variabilei cantitative sub formă de intervale (clase de valori) iar pe ordonată
numărul de observaţii sau frecvenţa corespunzătoare fiecărui interval. Pentru variabila
cantitativă se ia un număr de intervale (k) egal cu rădăcina pătrată din numărul de
observaţii (n) sau k= 1+ 3.322lg n. Comanda Histogram se obţine din meniul Graphs.
( vezi figura 12 de mai jos). In fereastra Histogram se poate alege opţiunea Display
normal curve (vezi săgeata) pentru redarea distribuţiei normale.

Figura 12: Obţinerea histogramei din comanda Graphs

20
Forma grafică a histogramei este redată în figura de mai jos.

Figura 13: Forma grafică a histogramei

O altă modalitate de obţinere a histogramei este alegerea comenzii Interactive cu


opţiunea Histogram din meniul Graphs .
A treia modalitate constă în accesarea meniului Analyze -> Descriptive Statistics ->
Frequencies -> Charts -> Histogram.

8.2. Diagrama Boxplot

Diagrama Boxplot este folosită pentru prezentarea unei distribuţii după o variabilă
numerică , chiar atunci când numărul datelor de care dispunem este mic. Construcţia sa
presupune ordonarea datelor şi împărţirea lor în patru grupe , fiecare variabilă
reprezentând 25% din distribuţie. Sunt marcate astfel cinci valori ale variabilei şi anume:
valoarea minimă şi valoarea maximă, fără outlieri , quartila 1, quartila 2 şi mediana ( vezi
figura)

21
Figura 14. Diagrama BoxPlot

Maximum (fără outlieri)

Percentila 75 ( Quartila 3)

Mediana (Quartila 2)

Percentila 25 (Quartila 1)

Minimum (fără outlieri)

9. Distribuţii statistice

In general, un fenomen pentru a putea fi descris în termeni statistici trebuie să evalueze


după o anumită lege- adică să-i poată fi descrisă evoluţia după anumite coordonate. Cea
mai cunoscută lege , inclusiv în agricultură este distribuţia normală. Exemple de
distribuţie normală: producţia de grâu la hectar la nivelul fermelor, cantitatea de
precipitaţii căzute în luna iulie din ultimii 100 ani , samd. De exemplu, putem considera
producţia medie de grâu la hectar în ultimii 30 de ani, ca fiind 3000 kg/ha (figura de mai
jos)
Aceasta nu înseamnă că în fiecare an s-au obţinut recolte de 3000 kg /ha ci înseamnă că
s-au obţinut recolte mai mici sau mai mari în jurul acestei valori. Totuşi putem spune că
este mult mai probabil să întâlnim o recoltă de 3500 kg/ha decât o recoltă de 10.000 de
kg/ha. Deci cu cât ne îndepărtăm de valoarea medie cu atât producţia respectivă este mai
greu de obţinut. Acest aspect este redat de curba de mai jos care reflectă distribuţia de
probablitate într-un astfel de caz , distribuţie numită “normală” . O astfel de distribuţie se

22
numeşte normală şi se caracterizează prin doi parametrii: media şi abaterea medie
pătratică (deviaţia standard)
N

1. Media se notează cu μ= ∑x
i =1
i
unde xi sunt valorile variabilei iar N volumul
N
populaţiei

2. Abaterea medie pătratică (deviaţia standard) măsoară dispersia în jurul mediei şi se


calculează ca rădăcină pătrată din varianţă

σ= σ 2
unde ∑ (x i − µ )2
σ2 = i =1

Figura 15: Curba distribuţiei normale

In Statistică se defineşte următoarea noţiune: Momentul centrat μ de ordinul k e definit


ca:
n _

∑ (x i − x) k
µk = i =1

n
Coeficientul de asimetrie a unei distribuţii exprimă gradul de dezechilibru al unei

distribuţii şi se calculează ca raport dintre momentul centrat de ordin trei µ 3 la puterea a

23
µ 32
doua şi momentul centrat de ordin doi µ 2 la puterea a treia după relaţia: β=
µ 23

n _
n ∑ ( xi − x) 3
adică β = n
i =1
_
(∑ ( xi − x) 2 ) 3 / 2
i =1

Figura 16: Distribuţia asimetrică cu abaterea spre stânga respectiv spre dreapta

Acest indicator se numeşte Skewness iar atunci când ia valori între –1 şi 0 indică
prezenţa unei distribuţii asimetrice negative cu abatere spre stânga iar când variază între 0
şi 1 indică o distribuţie cu abatere spre dreapta ( vezi figura). Valoarea 0 indică prezenţa
unei distribuţii simetrice.
Coeficientul de boltire sau aplatizare (kurtosis) e o măsură a răspândirii fiecărei
observaţii în jurul valorii centrale. Pentru o distribuţie normală , valoarea kurtosis-ului
statistic e 0 şi se numeşte distribuţie mezocurtică.
Atunci când coeficientul este mai mare ca zero indică o grupare mai puternică a valorilor
în jurul valorii centrale, curba este mai boltită decât o distribuţie normală şi se numeşte
distribuţie leptocurtică. Atunci când coeficientul este mai mic decât zero, indică o
grupare mai slabă în jurul valorii centrale , curba frecvenţelor este mai aplatizată şi se

numeşte distribuţie platicurtică ( vezi figura 17)


Kurtosis-ul:

24
Figura 17: Distribuţia leptocurtică / platicurtică

10. Calculul indicatorilor tendinţei centrale ,dispersiei şi formei unei


distribuţii

Din meniul Analyze din comanda Descriptive Statistics alegem opţiunea de calcul
Descriptives . După alegerea variabilei pentru care dorim să calculăm parametrii
distribuţiei se deschide fereastra de dialog Descriptives: Options . Din această fereastră
selectăm, prin bifare, în caseta/casetele de validare corespunzătoare ,
indicatorul/indicatorii care urmează a fi calculaţi.

Se pot realiza următoarele calcule:


- Mean (media)
- Sum (suma tuturor observaţiilor)
- Std. Deviation ( abaterea medie pătratică, numită şi abaterea standard)
- Variance (varianţa)
- Range ( amplitudinea variaţiei)
- Minimum şi Maximum (valoarea minimă şi valoarea maximă a variabilei selectate)
- S.E. mean standard Error mean (eroarea medie de selecţie: )

- Kurtosis (boltirea)

25
- Skewness (asimetria)

Figura 18: Calculul indicatorilor statistici utilizând comanda Descriptive Statistics

26
Mai există două modalităţi pe care le puteţi aborda pentru a obţine calculul indicatorilor
statisticii descriptive prin opţiunea Frequencies.
- Din Meniul Analyze comanda Descriptive Statistics opţiunea Frequencies
- Din Meniul Analyze comanda Reports opţiunea Case Summaries (Tabel 1)

Tabel 1: Raport obţinut prin comanda Case Summaries privind frecvenţa consumului de
produse ecologice

11. Parametrii unei distribuţii bivariate (bidimensionale)

Distribuţia de frecvenţă : “Consumaţi produse alimentare certificate ca fiind ecologice ?”


şi “Vârsta aproximativă a respondentului” exprimă distribuţia eşantionului de persoane
observate simultan după cele două variabile considerate , adică arată câte persoane dintr-o
anumită categorie de vârstă au un anumit nivel al venitului. Distribuţia bivariată se poate
obţine pe mai multe căi:
- meniul Analyze comanda Descriptive Statistics opţiunea Crosstabs

- meniul Analyze comanda Reports opţiunea Case Summaries

- meniul Date comanda Split File comanda Analyze Reports OLAP Cubes
Prin demersul Analyze Descriptive Statistics Crosstabs se poate obţine o distribuţie
bivariată parcurgând următorii paşi:
- se deschide fereastra de dialog Crosstabs , în care selectăm variabilele “consumat” şi
“vârsta” , din lista variabilelor şi le mutăm în zonele Row(s) şi Column(s)
- din fereastra Crosstabs, activând butonul de comandă Cells, se deschide fereastra
Crosstabs: Cell Display, în care bifăm modul dorit de afişare a frecvenţelor în
crosstable;
- activarea butonului de comandă Continue ne întoarce în fereastra Crosstabs, unde
prin OK se comandă SPSS-ului afişarea raportului(vezi figura 19).

27
Figura 19: Comandarea raportului bivariat- Crosstabs

28
S-a obţinut următorul tabel:

Tabel 2: Tabel privind frecvenţa consumului în funcţie de vârstă

29
12. Verificarea normalităţii unei distribuţii folosind SPSS
Majoritatea testelor statistice şi a procedeelor de modelare statistică cer îndeplinirea
condiţiilor de normalitate pentru a putea fi interpretate. Prin urmare e deosebit de
important să se determine dacă eşantionul observat provine dintr-o populaţie normal
distribuită.
Vizualizarea grafică a diferenţelor dintre o distribuţie empirică şi distribuţia teoretică
folosind histograma, boxplot, PP-plot şi QQ-plot sau folosind teste statistice .
Pentru aceasta vom folosi baza de date grau.sav. Această bază de date are câmpurile:
grau2003, prod2003, grau2004 şi prod2004 care reprezintă rezultatele unui sondaj
privitoare la suprafeţele cultivate cu grâu în fiecare fermă (ha) (grâu2003 respectiv
grâu2004 ) şi producţia obţinută la această recoltă în anii 2003 şi 2004 (prod2003 şi
prod2004 în tone). Acolo unde datele lipsesc fermierii fie nu au cultivat grâu fie au omis
să declare producţiile obţinute. Aşa cum deja s-a arătat, cu ajutorul comenzii Transform
 Compute se calculează randamentele pe fermă pentru fermele care au cultivat grâu
obţinând câmpurile rand2003 şi rand2004 astfel:
rand2003= prod2003/supr2003 iar rand2004=prod2004/supr2004.
Nu uitaţi condiţia de filtrare: prod2003&supr2003>0 respectiv prod2004&supr2004>0
pentru a elimina valorile lipsa (figura 20).

30
Figura 20: Aplicarea filtrelor privitoare la cultura de grâu în anul 2003

Pentru vizualizarea formei grafice a distribuţiei considerăm procedeul histogramei.


Reamintim: meniul GraphsHistogram se bifează caseta de validare Display normal
curve (vezi figura 21 de mai jos) şi alegem de exemplu variabila rand2004.

31
Figura 21: Comenzi pentru vizualizarea distribuţiei normale prin diagrama Histogram

Se obţine următoarea histogramă:

Se poate observa că distribuţia corespunde aproximativ distribuţiei normale.

32
Alte modalităţi grafice sunt procedeele Q-Q plot şi P-P plot (vezi figurile 22,23 ) Q-Q
plot compară valorile ordonate ale variabilei observata cu valorile quantilice ale
distribuţiei teoretice specificate (în cazul nostru distribuţia normală). Dacă distribuţia
variabilei testate este normală , atunci punctele Q-Q conturează o linie care se suprapune
cu dreapta care reprezintă distribuţia teoretică adică trece prin origine şi are panta egală
cu unu. In diagramă Q-Q plot se observă că punctele nu sunt serios deviate de la linia
dreaptă în cazul randamentelor obţinute în anul 2004 ceea ce arată o distribuţie normală.
Aceeaşi interpretare grafică avem şi pentru diagrama PP plot care compară funcţia de
repartiţie a distribuţiei unei variabile empirice cu funcţia de repartiţie a unei distribuţii
teoretice specificate (în cazul nostru, funcţia distribuţiei normale standard).

Figura 22: Diagrama Q-Q plot

Figura 23 Diagrama P-P plot

33
Observaţie: Procedeele grafice sunt procedee intuitive, bazate pe impresii vizuale fiind
astfel încărcate cu subiectivism. Putem doar să estimăm veridicitatea ipotezei distribuţiei
normale a variabilelor.
O altă modalitate de a verifica normalitatea pentru o anumită variabilă –în cazul nostru-
randamentele obţinute în anul 2003 respectiv 2004 este următoarea ( aplicarea testului
Kolmogorov Smirnov-Lilliefors):
Selectarea opţiunii: Analyze ->Nonparametric Tests  1 Sample K-S (figura 24)

Figura 24: Selectarea testului Kolmogorov-Smirnof pentru verificarea normalităţii

34
La rubrica Test Variable List se alege variabila de testat: rand2003 obţinându-se
următorul tabel:

Tabel 3: Raport privind testul Kolmogorov-Smirnov

Concluzia normalităţii o putem trage din studiul coeficientului sig. (ultimul rând). Acest
coeficient ia valori între 0 şi 1. In funcţie de valoarea acestuia ipoteza de nul
“ Distribuţia nu e normală ” se respinge sau se acceptă!
Astfel: dacă valoarea coeficientului sig<0,05 ipoteza de nul se respinge cu o probabilitate
de 95%
- dacă valoarea coeficientului sig<0,01 ipoteza de nul se respinge cu o probabilitate de
99%
In cazul de faţă valoarea lui Sig de 0,320 este mai mare decât 0,05 în consecinţă
acceptăm ipoteza de normalitate.
Procedăm analog şi pentru variabila rand2004 şi observăm că şi în acest caz distribuţia
este normală.
13. Calculul indicatorilor statisticii descriptive

Folosim baza de date “grau” .


Dorim să examinăm indicatorii acestei distribuţii. Pentru aceasta efectuăm selecţiile
următoare: meniul Analyze, comanda Descriptive Statistics , opţiunea Frequencies. In

35
fereastra Frequencies se deschide fereastra de dialog cu acelaşi nume din care, prin clic
pe butonul Statistics se deschide butonul Frequencies: Statistics din care se pot selecta
parametrii doriţi, prin bifare în casetele de validare corespunzătoare (vezi figura 25)

Figura 25: calculul indicatorilor statisticii descriptive

Obţinem un tabel de forma (tabel 4):


Tabel 4: Raport privind indicatorii statisticii descriptive

36
O altă modalitate de calcul a acestor indici este:
Meniul Analyze Reports Case Summaries. Această opţiune deschide fereastra
Summary Report: Statistics, de unde se pot selecta parametrii doriţi (vezi figura 26):

Figura 26: Calculul indicatorilor statisticii descriptive prin comanda Case Summaries

37
14. Calculul probabilităţilor pentru distribuţii normale folosind SPSS

Dorim să aflăm probabilitatea ca o valoare a unei variabile aleatorii distribuită normal să


aparţină unui interval. Dintre funcţiile disponibile în acest sens sunt funcţiile
CDF.NORMAL şi IDF.NORMAL
Pentru funcţia CDF.NORMAL sintaxa este următoarea:
CDF.NORMAL(q,mean,stddev) unde mean- valoarea medie a distribuţiei iar stddev-
deviaţia standard calculate aşa cum am văzut în precedentul capitol.
Dorim de exemplu să calculăm, dată fiind distribuţia rand2004- (randamentele la hectar
pentru grâu în anul 2004 aşa cum reiese din eşantion), care este probabilitatea de a obţine
o recoltă de sub 3 t/ha. Litera “q” din sintaxa funcţiei CDF.NORMAL va fi înlocuită cu
cifra 3 deoarece reprezintă valoarea în funcţie de care calculăm probabilitatea. Demersul
e următorul:
Se alege meniul Transform comanda Compute (figura 27)
- In zona Target Variable din fereastra Compute Variable introucem numele variabilei
pentru a cărei valoare dorim să calculăm probabilitatea , de exemplu “prob3”
- In zona Numeric Expression introducem expresia funcţiei , selectată din lista
Functions , CDF.NORMAL (q,mean,stddev) unde q este o valoare a variabilei X.
Pentru exemplul dat, CDF.NORMAL (3,3.34,1.24), 3.34 fiind valoarea medie, iar
1.24 deviaţia standard pentru această variabilă (rand2004).
- Prin butonul OK se comandă calculul propriu-zis al probabilităţii

38
Figura 27 : Calculul probabilităţilor pentru distribuţii normale folosind SPSS

După apăsarea butonului OK se va obţine probabilitatea P(rand2004<3)= 0.39 care apare


în celula de sub numele variabilei prob3.

39
Putem spune astfel că probabilitatea ca un fermier să obţină la grâu o recoltă de sub 3t/ha
este de 39% , şi în acelaşi timp, putem spune că probabilitatea de a obţine o recoltă de
peste 3t/ha este de 61 % (100%-39%). Dacă dorim ca să aflăm probabilitatea ca recolta
unui fermier să fie între 3 şi 4 tone calculăm P(rand2004<4) – P(rand2004<3) urmărind
acelaşi demers.
Se obţine astfel o probabilitate de 0,31% ca un fermier să aibă o producţie de grâu, între 3
şi 4 tone/hectar (vezi săgeata figura 28)

Figura 28: Calcul al probabilităţilor pentru distribuţia normală

40
Pentru operaţiunea inversă, adică de a afla care este valoare distribuţiei pentru care
probabilitatea este mai mică de o anumită valoare se foloseşte funcţia
IDF.NORMAL(prob,mean,stddev). Astfel, dacă vrem să aflăm valoarea sub care în anul
2004 au coborât 10% din fermieri vom calcula valoarea funcţiei
IDF.NORMAL(0.1,3.34,1.24) urmărind acelaşi demers ca cel descris pentru funcţia
CDF.NORMAL.
Valoarea obţinută este de 1.75 t/ha. Putem spune deci, că 10% dintre fermieri au obţinut o
recoltă de sub 1.75 t/ha la grâu în anul 2004.

Figura 28. Calculul probabilităţilor prin funcţia IDF Normal

41
15. Estimarea prin interval de încredere

Alegerea unui eşantion dintr-o anumită populaţie are o anumită valoare de


reprezentativitate. Asta înseamnă că caracteristicile acelui eşantion aproximează cu o
oarecare probabilitate caracteristicile întregii populaţii. De exemplu nu putem spune cu
siguranţă că media celor 48 de înregistrări ce fac parte din eşantionul rand2004 este exact
media înregii populaţiei datorită factorilor aleatorii ce au intervenit în formarea acestui
eşantion. Dar putem estima media printr-un interval “de încredere”. Astfel nu putem
spune cu siguranţă cât e media populaţiei dar putem spune cu o anumită probabilitate în
ce interval se încadrează.
Calculăm de exemplu, valoarea medie pentru variabila rand2004.
Selectăm meniul Analyze comanda Descriptive Statistics opţiunea Explore
(figura 29)
- In fereastra Explore selectăm variabila dorită (rand2004) şi o mutăm în zona
Dependent List
- Activăm butonul de comandă Statistics care deschide fereastra Explore:Statistics,
unde bifăm caseta de validare Descriptives şi precizăm în caseta Confidence Interval
for Mean (săgeata) nivelul de încredere dorit ( implicit e 95%).
- Butonul de comandă Continue determină revenirea în fereastra Explore, din care
activăm OK pentru a comanda afişarea rezultatelor în fereastra Output

42
Tabel 29: Estimarea prin interval de încredere

43
Se obţine raportul de mai jos (Tabel 5):

Tabel 5: Raport privind estimarea prin interval de încredere

In dreptul menţiunii Mean (media) observăm valoarea media a eşantionului, 3,3402 t/ha –
randament mediu la grâu în anul 2004. Limitele intervalului de încredere se găsesc în
dreptul menţiunii “95% Confidence Interval for Mean” cu limita inferioară “ Lower
Bound” = 2.9779 şi limita superioară
“ Upper Bound” = 3.7025. Putem spune aşadar cu o încredere de 95% că producţia medie
la hectarul de grâu, pentru anul 2004 este între 2,97 t/ha şi 3,7 t/ha. Cu alte cuvinte, dacă

44
s-ar repeta studiul de 100 de ori ( adică dacă s-ar înregistra 100 de eşantioane,
independente şi identic observate) datele obţinute pentru 95 de eşantioane s-ar încadera în
acelaşi interval de încredere,numai 5 din cele 100 de eşantioane fiind susceptibile să dea
valori în afara limitelor intervalului de încredere calculat.

16. Demersul testării unei ipoteze statistice

Demersul testării unei ipoteze presupune parcurgerea unor etape după cum urmează:
1. Se formulează ipotezele, în funcţie de problema pusă;
2. Se alege un test statistic în funcţie de distribuţia de selecţie a statisticii considerate
3. Se alege un prag de semnificaţie pentru test
4. Se stabilesc regulile de decizie , definind regiunile de “acceptare” şi de “respingere” a
ipotezei H0
5. Se calculează valoarea statisticii test, folosind datele înregistrate prin sondaj
6. Se compară valoarea calculată a statisticii test cu valoarea teoretică
7. Se ia decizia de a nu respinge sau de a respinge ipoteza admisă

O ipoteză statistică este o presupunere cu privire la un parametru al unei distribuţii date


sau cu privire la legea de probabilitate a populaţiei studiate. Exemplu: ipoteza de egalitate
a mediilor pentru a verifica dacă sunt diferenţe semnificative între populaţiile din care s-
au extras eşantioanele observate.
In procesul de testare statistică , se formulează ipoteza nulă şi ipoteza alternativă.
Ipoteza nulă (ipoteza de nul). Ipoteza nulă pe care dorim să o testăm este notată H0. Prin
ipoteza nulă H0 se admite , în principal, că nu există nici o diferenţă între valorile
comparate. Ipoteza nulă H0 este ipoteza pe care, de fapt, dorim să o discredităm.
Ipoteza alternativă Ipoteza alternativă , ipoteza pe care dorim să o testăm în opoziţie cu
ipoteza nulă, se notează cu H1. Ipoteza alternativă este cea care va fi acceptată dacă, prin

45
regula de decizie, se va respinge ipoteza nulă. Ipoteza H1 este cea pe care, de fapt, vrem
să o dovedim ca fiind adevărată.

17. Testarea egalităţii unei medii cu o valoare specificată


Testarea egalităţii se face cu ajutorul “One-Sample T Test”
Din meniul Analyze comanda Compare Means opţiunea One- Sample t test
Dorim, de exemplu să observăm dacă fermierii consideraţi au obţinut în anul 2003 un
randament mai mare la grâu decât media pe ţară. Astfel din anuarul statistic (
www.insse.ro) obţinem că producţia medie de grâu în Romania a fost în anul 2003 de
1428 kg/ha.
După selectarea opţiunii One-Sample T Test, se parcurg următorii paşi (figura 30):
- Selectăm în fereastra One-Sample T Test variabila vârsta şi o mutăm în zona Test
Variable (s);
- Specificăm valoarea dorită 1.428 în zona de editare Test Value
- Activăm butonul de comandă Options care deschide fereastra One-Sample T
Test:Options în care, în zona Confidence Interval alegem gradul de încredere 95%
după care acţionăm butonul de comandă Continue pentru a reveni în fereastra Sample
T Test

46
Figura 30: Demersul alegerii testului student pentru compararea unui eşantion cu o
valoare constantă “One_Sample T Test”

- Acţionăm butonul OK şi comandăm SPSS obţinerea raportului

Tabelul 6: Raport “One-Sample Statistics”

Tabelul 7: Raport “One-Sample Test”

47
In raportul “One-Sample Statistics” sunt redate
- N- mărimea eşantionului (numărul de răspunsuri din eşantion -48)
- Mean – media eşantionului
- Std. Deviation – deviaţia standard
- Std. Error Mean – eroarea standard a mediei
In output-ul “One-Sample Test”
- Test Value – valoarea cu care s-a comparat media eşantionului
- T – rezultatul statisticii Student
- df- numărul gradelor de libertate ale statisticii ( se calculează ca mărimea eşantionului
(48) –1)
- Sig. – gradul de siguranţă al acceptării ipotezei de nul. Explicaţia acestui coeficient a
mai fost oferită pe parcursul acestui caiet ( Vezi verificarea ipotezei de normalitate –
testul Kolmogorov-Smirnof-Lillefors)
- Mean Difference – diferenţa dintre media eşantionului şi valoarea testată
( Mean – Test Value adică 2.7192 – 1.428 = 1.2912 )
- 95% Confidence Interval of the difference - Intervalul de încredere al valorii Mean
Difference cu limita inferioară (lower) şi limita superioară ( upper)
Ipoteza de nul în cazul de faţă este H0: media eşantionului nu diferă foarte mult de
producţia medie înregistrată în agricultura României . Pentru acceptarea/respingerea
acestei ipoteze studiem valoarea coeficientului Sig.
Se observă din valoarea acestuia: Sig= 0.000 că ipoteza de nul este respinsă cu o
probabilitate de 100 % sau că este “acceptată” cu o probabilitate de 0%. Concluzia de
respingere a ipotezei de nul poate fi respinsă şi studiind intervalul de încredere al “Mean

48
Difference” interval ce nu conţine valoarea zero. Faptul că acest interval nu conţine
valoarea zero înseamnă că diferenţa celor 2 medii ( a eşantionului şi valoarea testată) nu
poate fi zero deci mediile nu pot fi egale.
Tragem deci concluzia că între media randamentele înregistrate la grâu , pentru
eşantionul considerat în anul 2003 şi media randamentelor înregistrate pe ţară la grâu,
există o diferenţă cu 1.2912 t/ha ( Mean Difference).

18. Testarea egalităţii mediilor a două eşantioane perechi

Paired –Samples T Test este un procedeu care se aplică în cazul eşantioanelor


dependente. Prin acest procedeu , se compară mediile pentru un singur grup observat în
momente diferite. Adesea prin acest test se observă aceiaşi subiecţi în două momente
diferite, verificându-se dacă diferenţele dintre valorile medii sunt semnificative. Se
calculează diferenţele dintre valorile celor două variabile pentru fiecare caz în parte şi se
testează dacă diferenţele dintre mediile acestora diferă de zero.
Demersul folosit în SPSS este: meniul Analyze comanda Compare Means opţiunea
Paired-Samples T Test
Exemplu: Considerăm variabilele rand2003 şi rand2004 . Dorim să verificăm
dacă nivelul mediu al randamentelor la grâu în anul 2004 este mai mare sau mai mic
decât în anul 2003.
Pentru aceasta selectăm în fereastra de dialog Paired Samples T Test prima variabilă
rand2003 prin clic asupra ei vom vedea că SPSS o mută în Current Selections (în partea
din stânga jos a ferestrei) ca Variable 1;
- Mutăm perechea de variabile în zona Paired Variables (în partea dreaptă a ferestrei
dialog) (vezi figura de mai jos).

Figura 30: Demersul alegerii testului student pentru compararea unui eşantion cu o
valoare constantă “One_Sample T Test”

49
Intervalul de încredere al ipotezei de nul se poate modifica ( implicit e 95%) apăsând
butonul Options…
- Prin apăsarea butonului de comandă OK se obţine output-ul prezentat mai jos.

Tabelul 8: Raportul “Paired Samples Statistics”

50
Tabelul 9 : Raportul “Paired Samples Test”

In tabelul “Paired Samples Statistics” la rubrica “ Mean” sunt prezentate mediile celor
două eşantioane rand2003 respectiv rand2004 .
In tabelul “Paired Samples Statistics” studiem valoarea lui Sig., care este 0.000. De
asemenea constatăm că intervalul de încredere nu conţine valoarea zero. Ipoteza de nul se
respinge, adică putem afirma că între randamentele înregistrate în anul 2003 respectiv
2004 există diferenţe semnificative. Astfel în acelaşi tabel la rubrica “Mean” putem
constata valoarea acestei diferenţe : -0.4876. Putem spune deci că, pe ansamblu ,
randamentele obţinute la grâu în anul 2003 sunt mai mici decât cele obţinute în anul
2004, în medie cu 487,6 kg/ha.

19. Testarea egalităţii mediilor a două eşantioane independente


(Independent Samples T Test)

Independent Samples T Test este un procedeu care se aplică în cazul eşantioanelor


independente. Prin acest procedeu se testează dacă mediile a două grupe sunt egale.
Exemplu: (Folosim din nou, baza de date IEA.sav aflată pe CD) Dorim să aflăm dacă
între două categorii de vârstă ale consumatorilor există diferenţe

51
semnificative cu privire la frecvenţa consumului de alimente ecologice.
Demersul testării folosind SPSS este: meniul Analyze
comanda Compare Means opţiunea Independent-Samples T Test

Figura 31: Demersul alegerii testului student pentru compararea egalităţii mediilor a
două eşantioane independente (Independent-Samples T Test)

In fereastra Test Variable(s) (figura 31 )mutăm variabila consumat iar în fereastra


Grouping Variable mutăm variabila vârsta. Acţionăm apoi butonul Define Groups… şi
definim cele două grupuri ce aparţin variabilei vârsta:
“2” – care descrie categoria de respondenţii între 18-35 ani şi “3” care descrie categoria
de respondenţi între 35 şi 50 ani ( vezi categoriile variabilei vârsta aşa cum au fost
definite). Se obţin tabelele de mai jos (tabelul 10 şi tabelul 11):

52
Tabelul 10: Raport generat de aplicarea testului “ Independent Samples Test”

Tabelul 11: Raport al testului “Independent Sample Test”

1 2 3

Calculul statisticii test pentru compararea mediilor a două populaţii cere să se verifice
dacă deviaţiile standard la nivelul celor două grupe sunt semnificativ diferite, deoarece
prin ipoteza de nul se presupune că cele două populaţii au varianţe egale. Se foloseşte în
acest scop testul Levene de egalitate a varianţelor ( Levene’s test for equality of
Variances)
Dacă nivelul de semnificaţie observat pentru acest test este mic ( de exemplu mai mic de
0,05) atunci se folosesc varianţe distincte (Equal variance not assumed) pentru testarea
mediilor. Dacă acest nivel este mare, ca în cazul considerat ( Sig. al testului Levene este
egal cu 0,331 –săgeata 1 figura ) atunci se folosesc varianţe comune ( Equal variances
assumed). In această ipoteză se observă că coeficientul Sig. al testului t
( săgeata 2 tabelul 11) este de 0.694 (mai mare decât 0,05) şi ne arată că pentru mediile
celor două grupe nu se poate trage concluzia că diferă semnificativ. Aceeaşi concluzie o
putem trage din studierea intervalului de încredere a diferenţelor (săgeata 3, tabelul 11),

53
interval care conţine valoarea 0. In concluzie nu se poate trage concluzia că diferenţa
dintre valorile medii ale celor două grupe este semnificativă.
20. Testarea egalităţii a trei şi mai multe medii

ANOVA (Analysis of Variances) este un procedeu de analiză a varianţei unei variabile


numerice sub influenţa unei variabile de grupare.
Prin ANOVA se compară medii pentru trei şi mai multe subpopulaţii definite de
variabila de grupare (variabila independentă). Această metodă permite extensia analizei
realizate prin testul t aplicabil asupra a două medii, la situaţii în care variabila
independentă (variabila de grupare ) prezintă trei şi mai multe categorii (niveluri).
De asemenea , ANOVA poate fi folosită în analiza unor situaţii în care asupra
variabilei numerice ( variabila dependentă) acţionează simultan mai multe variabile
independente. In astfel de cazuri , prin ANOVA se poate prezenta modul în care aceste
variabile independente interacţionează una cu alta şi ce efecte au aceste interacţiuni
asupra variabilei dependente.
One way ANOVA (ANOVA unifactorială) este unul din procedeele de analiză a
varianţei pentru o variabilă cantitativă dependentă de o singură variabilă factor ( de
grupare). Variabila factor, numită şi variabilă independentă , explicativă trebuie să fie
calitativă şi trebuie să aibă un număr redus de categorii (modalităţi).
Ipoteza nulă , ipoteza de testat , formulată prin acest procedeu , presupune
egalitatea a trei şi mai multe medii:
H0: m1=m2=…=mk
Unde mk este media grupei mk
Interpretarea rezultatelor ANOVA vizează două teste şi anume:
- Testul de omogenitate a varianţelor. Această problemă implică testul de omogenitate
a varianţelor subpopulaţiilor , definite de modalităţile variabilei factor (de grupare).
Ipoteza de nul este respinsă dacă valoarea Sig. (probabilitatea ) este inferioară valorii
0,05 (5%) semnificând că nu sunt egale toate varianţele.
- Testul ANOVA. Ipoteza nulă este respinsă dacă valoarea Sig. este inferioară valorii
0,05 (5%), semnificând că cel puţin două medii calculate la nivelul subpopulaţiilor ,
diferă între ele.

54
In SPSS , pentru compararea a trei şi mai multe medii este folosit următorul demers:
meniul Analyze comanda Compare Means opţiunea One-Way ANOVA.
De exemplu: Utilizăm baza de date IEA.sav Dorim să vedem dacă pentru cele trei
categorii de intervievaţi (cu frecvenţa definită ca: “deseori”, “câteodată” şi “niciodată”
respectiv variabila “consumat”) exită diferenţe în ceea ce priveşte vârsta acestora. Adică
dacă cei care consumă “deseori” sunt mai tineri decât celelalte două categorii.
Pentru aceasta , din fereastra Variable View vom exclude variabilele lipsă prin
excluderea variabilelor ce conţin “99” adică non-răspuns. Pentru variabila “Vârsta” se dă
Click pe celula corespunzătoare coloanei Missing ( Figura 32 săgeata 1 ) iar în fereastra
Missing Values se introduce valoarea “99” (săgeata 2).

Figura 32: Excluderea valorilor indezirabile prin comanda “Missing Values”


1

55
După selectarea opţiunii One-Way ANOVA , se parcurg următorii paşi:
- In fereastra de dialog One-Way ANOVA alegem variabila “consumat” pe care o mutăm
în zona Dependent List şi variabila Vârsta pe care o mutăm în zona Factor;
- Prin butonul de comandă Options (vezi figura şi săgeata) se deschide fereastra One-
Way ANOVA :Options în care se bifează casetele de validare Descriptive, Homogenity
of variance şi Means plot pentru a se verifica îndeplinirea restricţiilor de normalitate,
homoscedaticitate şi independenţă impuse unei analize ANOVA (figura 33).

Figura 33: Alegerea parametrilor analizei ANOVA

56
Restricţia de homoscedaticitate. Una din restricţiile aplicării ANOVA o constituie
homoscedasticitatea, adică se presupune că varianţele grupelor sunt egale. Se poate
verifica această ipoteză cu ajutorul testului Levene-Test of Homogenity of Variances.
( vezi Tabelul 11 de mai jos)

Tabelul 11: Raport generat de testul Levene

Tabelul 12: Analiza varianţelor generată de condiţia de homoscedasticitate

In noile condiţii , valoarea Sig. (0.391) pentru testul de omogenitate a varianţelor este mai
mare ca 0,05 sugerând că varianţele pentru cele trei categorii de consumatori sunt egale,
deci restricţia de homoscedasticitate este îndeplinită şi astfel se poate aplica ANOVA.
Tabelul ANOVA corespunzător pentru cele trei categorii de vârstă selectate sunt
prezentate în tabelul 13 .

57
Tabelul 13: Raportul generat de testul ANOVA pentru trei categorii de vârstă

In tabelul ANOVA sunt prezentate statistica test F (vezi testul Fisher din manualul de
Statistică) , valoarea Sig. precum şi elementele de calcul pentru statistica test F.
S E2
Reamintim , statistica test F se calculează după relaţia: F =
S R2

S E2 reprezintă estimatorul varianţei intergrupe (Between-Groups) . Se calculează ca


medie a pătratelor abaterilor mediei fiecărei grupe faţă de media pe ansamblul grupelor şi
arată varianţa datorată influenţei factorului de grupare;
S R2 reprezintă estimatorul mediei varianţelor de grupă şi arată varianţa din interiorul
fiecărei grupe (Within Groups) , varianţa datorată influenţelor aleatorii.
Cu cât mediile grupelor au valori mai diferite între ele , cu atât variaţia dintre grupe este
mai mare; cu cât o variaţie , în interiorul grupelor, este relativ mai mică, cu atât statistica
test F este mai mare, arătând că ipoteza nulă poate fi respinsă.
In exemplul considerat statistica test F este mică (1.087) cu o probabilitate
asociată Sig. ( 0.339) mai mare decât 0,05 –evidenţiază că ipoteza de egalitate a mediilor
pe grupe nu se respinge, deci înclinaţiile spre consum a clienţilor nu diferă semnificativ
în raport cu vârsta.

21. Testarea egalităţii unei proporţii cu o valoare specificată (Binomial Test)

Binomial Test este un procedeu prin care se testează ipoteze cu privire la o variabilă cu
distribuţie binomială, variabilă care poate lua doar două valori, de exemplu, sexul
persoanelor.

58
Pentru astfel de variabile , se calculează frecvenţele de apariţie a fiecăreia dintre
cele două valori, iar pe baza lor, media, deviaţia standard, etc.
Binomial test este similar cu One Sample t-test şi este folosit pentru a compara o
proporţie cu o valoare specificată.
Exemplu: Dorim să verificăm dacă proporţia persoanelor mulţumite de calitatea
produselor agroalimentare este mai mare decât 75 %
După filtrarea datelor pentru eliminarea non-răspunsurilor efectuăm următorul demers:
meniul Analyze comanda Nonparametric Tests opţiunea Binomial (Tabel 35)
Pentru aceasta , după selectarea opţiunii Binomial şi deschiderea ferestrei Binomial Test
Selectăm variabila “multumit” şi o mutăm în zona Test variable List
- In zona Define Dichotomy alegem Get from date dacă avem o variabilă dihotomică sau
Cut point în cazul în care dorim să dihotomizăm o anumită variabilă. In cazul nostru
variabila “multumit” este codificată astfel: 1- pentru răspunsul “DA sunt mulţumit”
2- pentru răspunsul “parţial mulţumit” şi 3 – pentru “nemulţumit”
In zona Cut point introducem valoarea “1” pentru a selecta valorile <=1 respectiv valorile
>1. Valorile <=1 vor desemna grupa consumatorilor mulţumiţi de calitatea produselor
ecologice.
- In zona de editare Test Proportion se precizează valoarea dorită (0.75).

59
Tabel 35: Demersul testării egalităţii unei proporţii cu o valoare specificată

Se apasă butonul de comandă OK şi se declanşează obţinerea raportului (vezi


Tabelul 14)

Tabelul 14: Raportul generat de “Binomial Test”

60
Astfel se observă că proporţia observată în eşantion pentru grupa consumatorilor
mulţumiţi e de 60% . Datorită faptului că valoarea Sig. asociată testului este mai mică
decât 0.01, se poate concluziona cu o încredere de 99% că proporţia celor mulţumiţi de
produsele agroalimentare ecologice diferă semnificativ de proportia de 75%. Adică , mai
puţin de trei sferturi dintre consumatori sunt mulţumiţi de calitatea acestor produse.

22. Testarea egalităţii a două şi mai multe proporţii

In cazul unei distribuţii nominale, testul Hi-pătrat este folosit pentru a verifica dacă
distribuţia teoretică a frecvenţelor relative (ipoteza de nul presupune că toate categoriile
au proporţii egale), fie cu o distribuţie de frecvenţă propusă.
Aplicarea acestui procedeu de testare presupune următorul demers: meniul Analyze
comanda Nonparametric Tests opţiunea Chi-Square Test.

Exemplu: Considerăm variabila “consumat” din fişierul “iea.sav” Dorim să verificăm


dacă proporţia respondenţilor pe cele trei categorii este egală. Adică dacă consumatorii se
împart în mod egal în –consumatori frecvenţi, consumatori ocazionali respectiv
nonconsumatori.
- In fereastra de dialog Chi-Square Test (vezi figura 34) selectăm variabila pentru care
dorim să testăm proporţiile, în cazul nostru variabila “consumat” şi o mutăm în zona
Test Variable List. Se pot selecta mai multe variabile , pentru fiecare variabilă
obţinându-se câte un tabel de frecvenţă separat.
- In zona Expected Range definim categoriile pentru care dorim să testăm proporţiile .
Alegem Get from data, considerând categoriile definite pentru variabila “ consumat”
- In zona Expected Values alegem ipoteza toate proporţiile egale sau proporţii
specificate (Values). In cazul nostru alegem să verificăm dacă există următoarea
corespondenţă: consumatori frecvenţi 30%, consumatori ocazionali –40%, respectiv
non- consumatori consumatori –30 % , deci specificăm proporţiile 30,40,30 la rubrica
“Values” .

61
Figura 34: Demersul alegerii proporţiilor de testat prin testul Hi-pătrat

- Prin clic pe butonul de comandă Continue , se revine în fereastra Chi-Square Test ,


din care se selectează OK, care comandă lansarea procedurii de obţinere a rapoartelor
de mai jos (figura )
Interpretare In tabelul frecvenţelor , sunt comparate frecvenţele observate cu frecvenţele
teoretice ( aşteptate conform ipotezei de nul), pentru fiecare categorie i. Diferenţele sunt
prezentate pe categorii în coloana Residual. Exemplele teoretice aşteptate de noi în cazul
de faţă sunt: (din totalul de 216 respondenţi)
- 216 x 30 % = 64.8 pentru răspuns “deseori”
- 216 x 40% = 86.4 pentru răspuns “cateodata”

62
- 216 x 30 % = 64.8 pentru răspuns “nu consum”
Rezultatele sunt prezentate în tabelul de mai jos (Tabelul 15):

Tabelul 15: Frecvenţele observate şi teoretice privitoare la aplicarea testului Hi-pătrat

In tabelul Chi Square Test se prezintă valoarea statisticii Hi-pătrat (Chi-Square) gradele
de libertate (df) şi valoarea semnificaţiei (Asymp. Sig).

Tabelul 16: Rezultatul testului Hi-pătrat

In exemplul dat, valoarea estimată a statisticii Hi-pătrat este semnificativă la un nivel de


încredere de 95% deoarece valoarea Asimp. Sig< 0,01. Ca urmare ipoteza nulă este
respinsă. Se poate trage concluzia că cele trei categorii de consumatori nu au proporţia
specificată: 30:40:30.

Exemplul 2:
Dorim să calculăm deviaţia de la frecvenţele teoretice pentru o distribuţie de 2 variabile:
presupunem “varsta” şi “consumat” . Selectăm doar categoriile de vârstă între 18-65 de

63
ani , cele mai numeroase în sondajul nostru. Pentru aceasta filtrăm doar categoriile de
vârstă 2, 3,4 ( Vezi Data  Select Cases) condiţia (varsta >1 & varsta < 5)

Tabel 35: Demersul aplicării testului Hi-pătrat pentru două variabile

Demersul este următorul (Figura 35): Meniul Analyze  Descriptive statistics 


Crosstabs
In fereastra Crosstabs la rubrica Row(s) trecem variabila “consumat” iar la rubrica
column(s) trecem variabila “varsta” Acţionând butonul Cells (săgeata) se deschide
fereastra Cells Display unde se selectează la rubrica “Counts” afişarea valorilor
observate “ Observed” şi a valorilor teoretice aşteptate “ Expected”.
Analog acţionând butonul “Statistics” se obţine o nouă fereastră din care bifăm opţiunea
Chi-Square ( vezi săgeata din figura 36)

Figura 36: Alegerea opţiunii Hi-pătrat din fereastra “Statistics”

64
După acţionarea butoanelor “Continue” şi OK” se obţin rapoartele de mai jos:

Tabel 17: Raport privitor la frecvenţele observate şi teoretice pentru variabilele


“consumat” şi “vârsta”

65
In tabelul sunt afişate atât frecvenţele observate “count” cât şi cele teoretice “expected
count”.
Astfel au fost primite 29 de răspunsuri pentru consumul frecvent de produse ecologice
“deseori” de către consumatorii cu vârste între 18-35 ani.
Frecvenţa teoretică “ expected count” a fost calculată ţinând cont de urmâtoarele aspecte:
Numărul total al tinerilor de 18-35 ani din eşantion este (vezi tabel Total-Count) de 120 în
timp ce numărul respondenţilor este de 200. Aceasta înseamnă că proporţia tinerilor din
eşantion este: p= 120/200* 100% = 60%
- Numărul total al celor care au răspuns cu “deseori” privind frecvenţa consumului este
(vezi Tabel 17) de 47. Teoretic ne aştepăm deci ( în cazul ipotezei de nul) ca 60 % din
aceştia să fie tineri între 18-35 ani. Frecvenţa teoretică este deci : ft= 47x 60% adică 28,2
In figura de mai jos avem rezultatele testului Hi-pătrat. Se observă coeficientul Sig. >0.05
ceea ce înseamnă că ipoteza de nul nu se respinge. Adică frecvenţele observate , nu diferă
de cele teoretice pentru nici una din cele trei categorii de consumatori. Cu alte cuvinte,
comportamentul consumatorilor în ceea ce priveşte consumul de produse ecologice nu
este influenţat de vârstă.

66
Tabel 18: Rezultatul testului Hi-pătrat pentru variabilele vârsta şi consumat

23. Analiza de corelaţie

Analiza de corelaţie este folosită pentru a studia intensitatea legăturii dintre variabile. In
sens strict, corelaţia este o măsură a intensităţii legăturii dintre variabile. Pentru stabilirea
corelaţiei dintre două mărimi în SPSS se pot calcula trei coeficienţi de corelaţie: Pearson,
Kendall şi Spearman (vezi cursul de statistică).
Exemplu: In baza de date Anuarul_statistic.sav găsi date preluate din anuarul statistic
privind productivitatea medie la nivel naţional pentru diferite culturi între anii 1990 şi
2003 .
Astfel am dori să punem în vedere existenţa unei corelaţii între randamentele înregistrate
la grâu şi cele înregistrate la orz.
Considerăm următorul demers: meniul Analyze Correlate  Bivariate prin care se
deschide fereastra Bivariate Correlations .
După deschiderea ferestrei Bivariate Correlations se parcurg următorii paşi:
-Selectăm variabilele dorite şi le mutăm în zona Variables;
- In zona Correlation Coefficients, alegem prin bifare în casetele de validare
corespunzătoare , coeficienţii de corelaţie pe care dorim să-i calculăm.

67
- Casera de validare Flag significant correlations este activată la deschiderea ferestrei
dialog şi are ca efect semnalizarea corelaţiilor semnificative. Astfel coeficienţii de
corelaţie semnificativi la pragul de 0,05 sunt marcaţi cu un asterisc, iar cei
semnificativi la pragul de 0,01 sunt marcaţi cu două asteriscuri.

Figura 37: Demersul analizei de corelaţie

- Activând OK cerem obţinerea raportului ( vezi Tabel 19)

Tabel 19: Raportul de corelaţie randamente grâu-orz

68
In raport sunt prezentate statisticile pentru fiecare variabilă , precum şi valoarea
coeficientului de corelaţie Pearson, cu nivelul de semnificaţie (Sig.) corespunzător.
Tabelul Correlations este un tabel cu matricea coeficienţilor de corelaţie. Valorile
sunt distribuite simetric, de o parte şi de alta a diagonalei coeficienţilor de corelaţie egali
cu 1, corespunzători corelaţiei fiecărei variabile cu ea însăşi. De o parte şi de alta a
diagonalei tabelului sunt prezentate valorile coeficienţilor de corelaţie dintre variabile,
luate două câte două şi valorile pragului de semnificaţie (Sig.) corespunzător , precum şi
numărul observaţiilor considerate, N.
Reamintim că valoarea coeficientului de corelaţie Pearson este cuprinsă între – 1 şi 1
Dacă coeficientul ia valoarea 0, atunci între variabile nu există legătură. Valoarea
coeficientului indică intensitatea legăturii şi anume: cu cât se apropie mai mult de 1, cu
atât legâtura e mai puternică, respectiv cu cât se apropie mai mult de zero, cu atât legâtura
este mai slabă. Un coeficient de corelaţie egal cu +1 indică o legătură directă perfectă
între variabile. Un coeficient de corelaţie egal cu –1 arată o legătură inversă perfectă.
Pentru exemplul considerat s-a obţinut un coeficient de corelaţie Pearson egal cu 0,893
ceea ce sugerează că între variabile există o corelaţie directă puternică , valoarea
coeficientului fiind foarte apropiată de 1.
Valoarea Sig. corespunzătoare egală cu 0.000 evidenţiază că s-a obţinut un coeficient de
corelaţie semnificativ la 0.01 adică sunt şanse mai mici de 1% de a greşi dacă afirmăm că
între cele două variabile există o corelaţie semnificativă. Putem spune deci că culturile de
grâu şi orz sunt corelate din punct de vedere al randamentelor obţinute annual.
In tabelul următor se observă că o astfel de corelaţie nu există între randamentele
obţinute la grâu şi cartof.

69
Tabelul 20: Raportul de corelaţie randamente grâu - cartofi

ANEXA
CHESTIONAR
Universitatea de Ştiinţe Agricole şi Medicină Veterinară a iniţiat acest studiu
care urmăreşte să evalueze gradul de cunoaştere, în rândul consumatorilor a
produselor alimentare ecologice , precum şi părerile lor în legătură cu acest subiect.
Datele personale, furnizate de dvs., vor fi considerate strict confidenţiale.

Astfel, Vă rugăm să aveţi amabilitatea de a ne răspunde la următoarele 10 întrebări:

I ) Consumaţi produse alimentare certificate ca fiind ecologice?

1) Deseori 2) Câteodată 3) Nu

I b) Vă rugăm explicaţi de ce aţi ales una din aceste opţiuni:


……………………………………………………………………………..
Dacă răspunsul a fost “ Nu cunosc aceste produse” se pun întrebările III şi IV, se
iau date le personale, -(intrebarile X, XI, varsta) apoi se încheie interviul.

II) Cum identificaţi produsele alimentare ecologice într-un magazin?

1) După ambalaj /sigla 2) După spaţiile special amenajate 3) Altele………

Dacă în urma întrebărilor I şi II observăm că intervievatul nu cunoaşte noţiunea


de produs ecologic se pun întrebările III şi IV, se iau datele personale –
(intrebarile X si XI, varsta) apoi se încheie interviul. Dacă se cunoaşte noţiunea
de produs alimentar ecologic, se trece direct la întrebarea cu numărul V fara a se
mai pune intrebarile III si IV.

III ) Dacă aţi şti că produsele ecologice sunt mai sănătoase pentru că nu
conţin substanţe chimice şi în plus sunt obţinute prin protejarea mediului, aţi
fi dispus să achiziţionaţi aceste produse?

1) Sigur da 2) Cred că da 3) Nu ştiu 4) Mai degrabă nu 5) Sigur nu

70
IV) Dar dacă aţi şti că preţul produselor ecologice ar fi cu 40% mai mare
decât cele clasice aţi mai cumpăra?

1) Sigur da 2) Cred că da 3) Nu ştiu 4) Mai degrabă nu 5) Sigur nu

V) Care sunt motivele pentru care achizitionati produsele alimentare


ecologice?

1) pentru sanatate 2 ) sunt mai gustoase 3) pentru copii / pentru batrani

4)Altele:……………………………………………………….
VI) Cum credeţi că ar trebui încurajat consumul de produse ecologice?

1) Prin scăderea preţurilor 2) Prin publicitate mai intensă

3) Prin informarea consumatorilor asupra avantajelor acestui tip de produs

4) Altele…………………………………………………………………..

VII) Sunteti multumit(ă) de numarul de produse ecologice ce se afla pe


piata?
1) DA 2) Partial 3 ) NU

VIII) Sunteţi mulţumit (ă) de calitatea produselor ecologice ce se află pe


piaţă ?

1) DA 2) Parţial 3) NU

Vă rugăm sa ne spuneti de ce aţi ales una din opţiunile “Parţial” sau “NU” ?

………………………………………………………………………………

IX) De unde aţi aflat despre existenţa produselor alimentare ecologice?

1 ) De la TV 2 ) Din reviste 3) Din magazine 4) De la un prieten

5) De pe Internet 6) De la mine 7) Altele……………………………

X) Vă rugăm să ne spuneţi ce ocupaţie aveţi


( sau aţi avut înainte de pensionare, şomaj etc)

………………………………………………….

XI) Vă rugăm să ne spuneţi numele şi nr. dvs de telefon:

71
Nume:……………………………………………………….

Nr. telefon…………………………………………………
Vă mulţumim foarte mult pentru atenţia acordată !

Se va nota apoi vârsta aproximativă a intervievatului aşa cum o apreciaţi


dvs. !

1) < 18 ani 2) 18-35 ani 3) 35-50 ani 4) 50- 65 ani 5 ) 65 ani

Chestionarul a fost administrat de:……………………………………..

72