Spss Ghid

UNIVERSITATEA DE TIINE AGRICOLE I MEDICIN VETERINAR CLUJ-NAPOCA
Prelucrarea datelor statistice n cercetarea de Marketing cu SPSS sub Windows ~ndrumar de lucrri practice pentru studenii agronomi ~
CUPRINS Nr.
1 2 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23.
CAPITOL
Cuvnt nainte Introducere Interfaa programului SPSS Introducerea datelor statistice Transferul unei variabile Selectarea unor subieci folosind comanda SELECT CASES Sistematizarea datelor n SPSS Tabelul de asociere (Crosstabs) Elementele unui grafic Distribuii statistice Calculul indicatorilor tendinei centrale ,dispersiei i formei unei distribuii Parametrii unei distribuii bivariate (bidimensionale) Verificarea normalitii unei distribuii folosind SPSS Calculul indicatorilor statisticii descriptive Calculul probabilitilor pentru distribuii normale folosind SPSS Estimarea prin interval de ncredere Demersul testrii unei ipoteze statistice Testarea egalitii unei medii cu o valoare specificat Testarea egalitii mediilor a dou eantioane perechi Testarea egalitii mediilor a dou eantioane independente (Independent Samples T Test) Testarea egalitii a trei i mai multe medii Testarea egalitii unei proporii cu o valoare specificat (Binomial Test) Testarea egalitii a dou i mai multe proporii Analiza de corelaie ANEXA
PAG.
3 5
Cuvnt nainte
Dragi studeni,
ndrumarul de fa a fost conceput pentru a v ajuta n reamintirea i fixarea cunotinelor, dobndite de voi n cadrul seminariilor la disciplina Marketing, menite a v familiariza cu mijloacele moderne de prelucrare a datelor culese n urma cercetrilor de pia i nu numai. Aadar ndrumarul nu-i propune s suplineasc, o eventual absen a dumneavoastr de la aceste seminarii, asimilarea informaiilor prezentate fiind dificil fr asistena cadrului didactic. De asemenea, lucrarea nu insist asupra noiunilor fundamentale de statistic, care v-au fost predate la cursul de profil din anul III. Ar putea fi necesar deci, revizuirea acestor cunotine acolo unde este cazul. ndrumarul a fost conceput urmrind structura seminariilor predate studenilor din anul V de la profilurile IEA i IMAPA, folosind pentru alctuirea bazelor de date, chiar chestionarele culese de acetia n practica de var. n sperana c scopul didactic al acestui caiet va fi realizat, v urm spor la nvat i mult baft n sesiune ! Autorii
1. INTRODUCERE
SPSS (Statistical Package for the Social Sciences) este unul dintre cele mai puternice i utilizate programe de prelucrare a datelor statistice (aa numitul data mining) precum i a alctuirii de prognoze. Soft-ul a fost creat n anii 60 de compania SPSS n a crei obiect de activitate este realizarea de software pentru prelucrarea statistic a datelor i a ajuns la data scrierii acestui caiet (noiembrie- decembrie 2006) la versiunea 15. Siteul companiei poate fi accesat la www.spss.com sau www.spss.ro . Programul este relativ uor de asimilat datorit faptului c nu necesit cunoaterea detaliat a formulelor de calcul ci doar a ipotezelor verificate de testele statistice. De exemplu, analiticile SPSS sunt de folos: In ciclurile de via ale clienilor, ca atragerea noilor clieni, pstrarea ct mai mult timp a celor mai profitabili i imbuntirea interaciunilor cu ei Cercettorilor i analitilor pentru a descoperi relaiile i a identifica tendinele Pedagogilor, pentru a-i pregti mai bine studenii pentru roluri n domeniile comercial, academic sau public Organizaiilor guvernamentale, care se concentreaz pe reducerea fraudei, criminalitii si infracionalitii Comerciantilor independenti de software (ISVs), pentru a-i spori valoarea soluiilor prin integrarea componentelor pre-built ale analiticilor predictive SPSS n aplicaiile lor. Enumerm doar cateva modaliti prin care clienii analiticilor predictive SPSS beneficiaz ntr-o varietate de domenii: O banc lider de pia folosete SPSS pentru a-i inti mai bine eforturile de marketing, rezultatele au fost o crestere a vnzrilor si o reducere a costurilor de marketing. Un furnizor de servicii de precizie pentru marketing prin e-mail care foloseste software SPSS pentru a-i ajuta clienii s-i inteasc mai bine campaniile de marketing i-a sporit veniturile cu mai mult de 60% Un institut de cercetare medical dintr-un spital important folosete software SPSS pentru a analiza mai eficient datele de expresie a genelor, conducnd la progrese rapide n studiul i tratamentul tumorilor cerebrale la copii
Un furnizor de seam n procesarea plilor i soluii de detectare a fraudei pentru comerul prin Internet folosete software SPSS pentru a-i ajuta clienii s-i reduc pierderile datorate fraudelor. O mare companie de servicii financiare folosete software SPSS pentru a identifica locaii noi, mai profitabile n care s-i creasc afacerile, fapt care s-a soldat cu o reducere de 50% a erorilor de previzionare Un colegiu din California foloseste software SPSS pentru a reduce costurile n marketingul orientat pe recrutare, a-i imbunti oferta curicular i a crete retenia studenilor. 2. INTERFAA PROGRAMULUI SPSS In figura 1 este prezentat interfaa programului SPSS care se prezint la fel ca interfeele programelor de calcul tabelar pe care le cunoatei ( de exemplu programul EXCEL) Aa cum putei observa, exist un meniu (Figura 1, sgeata 1) a crui butoane vor fi explicate pe parcursul acestei lucrri. Spre deosebire de alte programe, numele fiecrei variabile va fi trecut n capul de tabel n csuele numite generic var (Figura 1, sgeata 2). Introducerea datelor se face prin accesarea foii Variable View prin apsarea butonului cu acelai nume (sgeata 3 din figura 1).
Figura 1 : Interfaa programului SPSS
3. Introducerea datelor statistice
In fereastra Variable View se introduc atributele variabilei: nume (name), tip (type), lungimea (width), numr zecimale (decimals), eticheta (label), valorile etichetei (values), valorile lips (missing), alinierea (align) i modalitile de msurare a variabilei (measure) ( scal, ordinal, nominal) (vezi figura 2). Figura 2: Fereastra Variable View
3.1 Numele variabilei Numele variabilei se editeaz n coloana Name innd cont de urmtoarele restricii : s fie unic s aib cel mult 8 caractere primul caracter s fie o liter ultimul caracter s nu fie _ (underscore) poate s conin litere, cifre, i simbolurile @,#, _ , $ s nu conin spaii sau simboluri speciale folosite n SPSS
De exemplu ntrebrii din baza de date 1 (vezi anexa 1) consumai produse alimentare certificate ca fiind ecologice ? i se va ataa variabila consumat nume ce va fi trecut n capul de tabel. 3.2. Tipul variabilei Se realizeaz n coloana Type . La poziionarea cursorului pe ptratul gri din dreapta csuei corespunztoare caracteristicii Type ( vezi Figura 3 sgeata) apare fereastra cu ajutorul creia se poate alege tipul variabilei: Numeric ( cu zecimale separate prin virgul Comma sau punct Dot ) , Data, nsoite de un simbol financiar ( de exemplu Dolar) sau sub forma unui ir de caractere String (n cazul n care dorim s introducem un cuvnt sau o fraz). Figura 3: Introducerea atributelor unor variabile
10
La rubrica Label se introduce eticheta variabilei (Figura 4 Sageata 1) . Aceast etichet reprezint explicaiile care vor aprea lng rapoarte ( grafice sau tabele) atunci cnd vor fi realizate. Atunci cnd variabilele sunt nominale (categoriale) acestea vor fi introduse codificat de exemplu rspunsurile la ntrebarea 1 vor fi codate astfel: 1 dac rspunsul a fost Deseori 2 dac rspunsul a fost Cteodat 3 dac rspunsul a fost Nu Acestea vor fi introduse n fereastra ce apare acionnd celula corespunztoare coloanei Values (Figura 4 sgeata 2) Introducerea valorii se face acionnd butonul Add , modificarea unor valori se face folosind butonul Change iar pentru tergere butonul Remove din aceeai fereastr. Pentru a face efective aceste schimbri e necesar s se acioneze butonul OK Figura 4: Definirea etichetei pentru variabilele statistice
1 2
11
In practica anchetelor de sondaj se folosesc pentru rspunsurile invalide, codurile: 97 pentru nonrspuns 98 - pentru neaplicabil 99 - pentru rspuns ilizibil Analog se introduc toate variabilele necesare.
4. Transformarea unei variabile

Pentru a transforma datele unei variabile se va folosi comanda Recode din meniul Transform aa cum se observ n figura de mai jos -sgeata: Figura 5: Transformarea unei variabile
12
Recodificarea unei variabile se face fie n aceeai variabil atunci cnd vechea variabil dispare ( opiunea Into Same Variables) sau n alt variabil ( opiunea Into Different Variables). In cazul n care a fost aleas opiunea schimbrii variabilei ntr-o alt variabil diferit apare fereastra Recode into Different Variables Figura 6: Recodificarea unei variabile 1 2
13
De exemplu dorim ca vrsta respondenilor s fie recodificat astfel: - Pentru cei cu vrsta sub 35 ani codificat iniial cu valorile 1 i 2 s atribuim cuvntul tineri - Pentru vrsta ntre 35 i 65 ani codificat cu 3 i 4 atributul maturi - Pentru vrsta mai mare de 65 ani codificat cu 5 atributul vrstnici Astfel n fereastra de mai sus (figura 6 sgeata 1), n fereastra Recode into different values se selecteaz variabila Vrsta, care, cu ajutorul butonului sgeat din fereastr se mut n fereastra Numeric Variable ->Output Variable In caseta Nume se trece numele noii variabile Vrsta1 iar mai jos n caseta Label se trece eticheta. Se acioneaz apoi butonul Change pentru a face schimbrile efective. Prin acionarea butonului Old and new values apare apoi fereastra Recode into Different Variables , Old and New Values (figura 6, sgeata 2) . In aceast fereastr se selecteaz opiunea Output Variables are Strings pentru a putea defini noua variabil ca i string (ir de caractere). Pentru a schimba valorile 1 i 2 cu valoarea tineri se selecteaz butonul Range iar casetele de editare corespunztoare sunt folosite pentru a stabili limita inferioar i superioar a intervalului dorit (through de la- pn la). Se scrie 1 n caseta din stnga i 2 n caseta din dreapta. Apoi se selecteaz butonul de opiuni Value i se scrie tineri n caseta de editare dup care se acioneaz butonul Add . Se procedeaz analog pentru toate categoriile. Prin clic pe butonul de comand Continue se revine n fereastra Recode into Different Variables. Prin butonul de comanda OK se va declana recodificarea variabilei. Noua foaie de date apare n foaia de date Data View cu datele de cod corespunztoare fiecrui caz. O comand asemntoare comenzii Recode este comanda Compute.
14
5. Selectarea unor subieci folosind comanda SELECT CASES

In meniul Data exist comanda Select Cases. Ca urmare se deschide fereastra de dialog Select Cases. Dorim de exemplu s alegem toate cazurile n care consumatorii consum Cteodat produse agroalimentare ecologice. Figura 7 . Filtrarea variabilelor statistice
Pentru aceasta se acioneaz butonul de comand If care va deschide fereastra Select cases n care se introduce condiia de filtrare consumat =2, consumat fiind numele variabilei prin care au fost codificate rspunsurile la ntrebarea Consumai produse alimentare certificate ca fiind ecologice ( vezi anexa ). Butonul de comand Continue determin revenirea la fereastra Select Cases n care se activeaz butonul de comand OK pentru a obine fiierul filtrat. Astfel n foaia Data View din fereastra Data Editor, cazurile anulate sunt tiate printr-un slash (/ -linie oblic) ( vezi sgeata din figura de mai sus). Aceste cazuri nu vor fi folosite la nici o raportare.
15
6. Sistematizarea datelor n SPSS

Sistematizarea datelor n SPSS poate fi realizat prin opiunea Frequencies subordonat comenzii Descriptive Statistics din meniul Analyze (vezi figura 8). Activarea opiunii Frequencies determin deschiderea ferestrei Frequencies. Figura 8: Activarea opiunii Frequencies
Din partea din stnga a ferestrei Frequencies se selecteaz variabila dorit prin click de mouse, apoi este mutat prin acionarea butonului sgeat n caseta Variables. Prin butonul de comand OK se obine Tabelul de frecven afiat n fereastra de rezultate Output Viewer. Intr-un tabel de frecven sunt prezentate pentru fiecare variabil selectat, urmtoarele elemente:
16
valorile sau clasele de valori ale variabilei, efectivul procentele procentele cumulate corespunztoare ( suma procentelor categoriilor inferioare)
7. Tabelul de asociere (Crosstabs) Acest tip de tabel este folosit pentru prezentarea relaiilor dintre dou variabile categoriale. In fiecare rubric (celul) este prezentat frecvena parial aa cum va fi selectat. Obinerea unui tabel de asociere n SPSS presupune alegerea opiunii Crosstabs, subordonat comenzii Descriptive Statistics din meniul Analyze (figura 9). Figura 9 Obinerea tabelului de asociere Crosstabs
17
Dup ce se selecteaz aceast opiune , apare pe monitor fereastra Crosstabs n cadrul creia selectm variabile pentru rnduri i coloane. Se observ n fereastra Crosstabs posibilitatea de a alege mai multe opiuni care apar n fereastr (figura 10): Numere observate- Observed Efective sperate - Expected Percentages: - Pe rnduri Row, pe coloane Column, pe total Total Residuals: se refer la abateri Standardizate , nestandardizate, ajustate. Figura 10: Alegerea opiunilor pentru alctuirea tabelelor
18
8. Elementele unui grafic

Se pot executa o mulime de aplicaii grafice cu ajutorul programului SPSS. Acestea se pot gsi n meniul Graphs (figura 11) Figura 11. Alegerea tipurilor de grafic din Meniul Graph
Line- Diagrama liniar Pie- diagrama pe structur plcint Boxplot Diagrama cutia cu musti este folosit pentru a prezenta amplitudinea, intervalul interquartilic i mediana unei distribuii Error Bar - Diagrama bara erorilor este folosit pentru a arta media i intervalul de ncredere de 95% pentru media respectiv.Scatter Diagrama norul de puncte este folosit pentru a reprezenta relaiile dintre variabile Histograma Este folosit pentru a arta forma unei distribuii dup o variabil nregistrat asupra unei colectiviti.
19
8.1.
Histograma permite vizualizarea formei unei distribuii statistice, dup o
variabil cantitativ continu divizat pe intervale egale sau inegale. Construcia histogramei se face ntr-un sistem de de dou axe rectangulare: pe abscis se nscriu valorile variabilei cantitative sub form de intervale (clase de valori) iar pe ordonat numrul de observaii sau frecvena corespunztoare fiecrui interval. Pentru variabila cantitativ se ia un numr de intervale (k) egal cu rdcina ptrat din numrul de observaii (n) sau k= 1+ 3.322lg n. Comanda Histogram se obine din meniul Graphs. ( vezi figura 12 de mai jos). In fereastra Histogram se poate alege opiunea Display normal curve (vezi sgeata) pentru redarea distribuiei normale. Figura 12: Obinerea histogramei din comanda Graphs
20
Forma grafic a histogramei este redat n figura de mai jos. Figura 13: Forma grafic a histogramei
30
20
10
Std. Dev = .59 Mean = 2.0 0 1.0 2.0 3.0 4.0 N = 38.00
Varsta aproximativa
O alt modalitate de obinere a histogramei este alegerea comenzii Interactive cu opiunea Histogram din meniul Graphs . A treia modalitate const n accesarea meniului Analyze -> Descriptive Statistics -> Frequencies -> Charts -> Histogram.
8.2. Diagrama Boxplot

Diagrama Boxplot este folosit pentru prezentarea unei distribuii dup o variabil numeric , chiar atunci cnd numrul datelor de care dispunem este mic. Construcia sa presupune ordonarea datelor i mprirea lor n patru grupe , fiecare variabil reprezentnd 25% din distribuie. Sunt marcate astfel cinci valori ale variabilei i anume: valoarea minim i valoarea maxim, fr outlieri , quartila 1, quartila 2 i mediana ( vezi figura)
21
Figura 14. Diagrama BoxPlot
Maximum (fr outlieri)
Percentila 75 ( Quartila 3) Mediana (Quartila 2) Percentila 25 (Quartila 1) Minimum (fr outlieri)
9. Distribuii statistice
In general, un fenomen pentru a putea fi descris n termeni statistici trebuie s evalueze dup o anumit lege- adic s-i poat fi descris evoluia dup anumite coordonate. Cea mai cunoscut lege , inclusiv n agricultur este distribuia normal. Exemple de distribuie normal: producia de gru la hectar la nivelul fermelor, cantitatea de precipitaii czute n luna iulie din ultimii 100 ani , samd. De exemplu, putem considera producia medie de gru la hectar n ultimii 30 de ani, ca fiind 3000 kg/ha (figura de mai jos) Aceasta nu nseamn c n fiecare an s-au obinut recolte de 3000 kg /ha ci nseamn c s-au obinut recolte mai mici sau mai mari n jurul acestei valori. Totui putem spune c este mult mai probabil s ntlnim o recolt de 3500 kg/ha dect o recolt de 10.000 de kg/ha. Deci cu ct ne ndeprtm de valoarea medie cu att producia respectiv este mai greu de obinut. Acest aspect este redat de curba de mai jos care reflect distribuia de probablitate ntr-un astfel de caz , distribuie numit normal . O astfel de distribuie se
22
numete normal i se caracterizeaz prin doi parametrii: media i abaterea medie ptratic (deviaia standard)
N
1. Media se noteaz cu =
populaiei
x
i =1
unde xi sunt valorile variabilei iar N volumul
2. Abaterea medie ptratic (deviaia standard) msoar dispersia n jurul mediei i se calculeaz ca rdcin ptrat din varian
N
unde
2 =
(x
i =1
)2
Figura 15: Curba distribuiei normale
In Statistic se definete urmtoarea noiune: Momentul centrat de ordinul k e definit ca:
k =
(x
i =1
x) k
Coeficientul de asimetrie a unei distribuii exprim gradul de dezechilibru al unei distribuii i se calculeaz ca raport dintre momentul centrat de ordin trei 3 la puterea a
23
doua i momentul centrat de ordin doi 2 la puterea a treia dup relaia:
2 3 3 2
adic =
n ( xi x) 3
i =1
( ( xi x) 2 ) 3 / 2
i =1
Figura 16: Distribuia asimetric cu abaterea spre stnga respectiv spre dreapta
Acest indicator se numete Skewness iar atunci cnd ia valori ntre 1 i 0 indic prezena unei distribuii asimetrice negative cu abatere spre stnga iar cnd variaz ntre 0 i 1 indic o distribuie cu abatere spre dreapta ( vezi figura). Valoarea 0 indic prezena unei distribuii simetrice. Coeficientul de boltire sau aplatizare (kurtosis) e o msur a rspndirii fiecrei observaii n jurul valorii centrale. Pentru o distribuie normal , valoarea kurtosis-ului statistic e 0 i se numete distribuie mezocurtic. Atunci cnd coeficientul este mai mare ca zero indic o grupare mai puternic a valorilor n jurul valorii centrale, curba este mai boltit dect o distribuie normal i se numete distribuie leptocurtic. Atunci cnd coeficientul este mai mic dect zero, indic o grupare mai slab n jurul valorii centrale , curba frecvenelor este mai aplatizat i se
numete distribuie platicurtic ( vezi figura 17) Kurtosis-ul:
24
Figura 17: Distribuia leptocurtic / platicurtic
10. Calculul indicatorilor tendinei centrale ,dispersiei i formei unei distribuii

Din meniul Analyze din comanda Descriptive Statistics alegem opiunea de calcul
Descriptives . Dup alegerea variabilei pentru care dorim s calculm parametrii distribuiei se deschide fereastra de dialog Descriptives: Options . Din aceast fereastr selectm, prin bifare, n caseta/casetele de validare corespunztoare , indicatorul/indicatorii care urmeaz a fi calculai. Se pot realiza urmtoarele calcule:
-
Mean (media) Sum (suma tuturor observaiilor) Std. Deviation ( abaterea medie ptratic, numit i abaterea standard) Variance (variana) Range ( amplitudinea variaiei) Minimum i Maximum (valoarea minim i valoarea maxim a variabilei selectate) S.E. mean standard Error mean (eroarea medie de selecie: Kurtosis (boltirea) Skewness (asimetria)
_ =
x
) n
25
Figura 18: Calculul indicatorilor statistici utiliznd comanda Descriptive Statistics
Mai exist dou modaliti pe care le putei aborda pentru a obine calculul indicatorilor statisticii descriptive prin opiunea Frequencies.
-
Din Meniul Analyze comanda Descriptive Statistics opiunea Frequencies Din Meniul Analyze comanda Reports opiunea Case Summaries (Tabel 1)
Tabel 1: Raport obinut prin comanda Case Summaries privind frecvena consumului de produse ecologice
26
Case Summaries Consumati produse alimentare certificate ca fiind ecologice ? Varsta aproximativa <18 ani 18-35 ani 35-50 ani 50-65 ani Total Mean 2.50 1.93 2.67 3.00 2.11 Sum 15 54 8 3 80 Variance .300 .439 .333 . .475 Std. Error of Mean .22 .13 .33 . .11 Std. Deviation .55 .66 .58 . .69 N 6 28 3 1 38
11. Parametrii unei distribuii bivariate (bidimensionale)

Distribuia de frecven : Consumai produse alimentare certificate ca fiind ecologice ? i Vrsta aproximativ a respondentului exprim distribuia eantionului de persoane observate simultan dup cele dou variabile considerate , adic arat cte persoane dintr-o anumit categorie de vrst au un anumit nivel al venitului. Distribuia bivariat se poate obine pe mai multe ci:
- meniul Analyze - meniul Analyze - meniul Date
comanda Descriptive Statistics comanda Reports comanda Split File
opiunea Crosstabs
opiunea Case Summaries comanda Analyze Reports OLAP Cubes
Prin demersul Analyze
Descriptive Statistics
Crosstabs se poate obine o distribuie
bivariat parcurgnd urmtorii pai:

-
se deschide fereastra de dialog Crosstabs , n care selectm variabilele consumat i vrsta , din lista variabilelor i le mutm n zonele Row(s) i Column(s) din fereastra Crosstabs, activnd butonul de comand Cells, se deschide fereastra Crosstabs: Cell Display, n care bifm modul dorit de afiare a frecvenelor n crosstable; activarea butonului de comand Continue ne ntoarce n fereastra Crosstabs, unde prin OK se comand SPSS-ului afiarea raportului(vezi figura 19).
27
Figura 19: Comandarea raportului bivariat- Crosstabs
28
S-a obinut urmtorul tabel: Tabel 2: Tabel privind frecvena consumului n funcie de vrst
Consumati produse alimentare certificate ca fiind ecologice ? * Varsta aproximativa Crosstabulation Varsta aproximativa 18-35 ani 35-50 ani 7 100.0% 3 15.0% 3 27.3% 6 15.8% 16 80.0% 5 45.5% 28 73.7% 1 5.0% 2 18.2% 3 7.9% 1 9.1% 1 2.6%
<18 ani Consumati produse alimentare certificate ca fiind ecologice ? deseori Count % within Consumati produse alimentare certificate ca fiind ecologice ? Count % within Consumati produse alimentare certificate ca fiind ecologice ? Count % within Consumati produse alimentare certificate ca fiind ecologice ? Count % within Consumati produse alimentare certificate ca fiind ecologice ?
50-65 ani
Total 7 100.0% 20 100.0% 11 100.0% 38 100.0%
cateodata
nu
Total
12. Verificarea normalitii unei distribuii folosind SPSS

29
Majoritatea testelor statistice i a procedeelor de modelare statistic cer ndeplinirea condiiilor de normalitate pentru a putea fi interpretate. Prin urmare e deosebit de important s se determine dac eantionul observat provine dintr-o populaie normal distribuit. Vizualizarea grafic a diferenelor dintre o distribuie empiric i distribuia teoretic folosind histograma, boxplot, PP-plot i QQ-plot sau folosind teste statistice . Pentru aceasta vom folosi baza de date grau.sav. Aceast baz de date are cmpurile: grau2003, prod2003, grau2004 i prod2004 care reprezint rezultatele unui sondaj privitoare la suprafeele cultivate cu gru n fiecare ferm (ha) (gru2003 respectiv gru2004 ) i producia obinut la aceast recolt n anii 2003 i 2004 (prod2003 i prod2004 n tone). Acolo unde datele lipsesc fermierii fie nu au cultivat gru fie au omis s declare produciile obinute. Aa cum deja s-a artat, cu ajutorul comenzii Transform
Compute se calculeaz randamentele pe ferm pentru fermele care au cultivat gru

obinnd cmpurile rand2003 i rand2004 astfel: rand2003= prod2003/supr2003 iar rand2004=prod2004/supr2004. Nu uitai condiia de filtrare: prod2003&supr2003>0 respectiv prod2004&supr2004>0 pentru a elimina valorile lipsa (figura 20). Figura 20: Aplicarea filtrelor privitoare la cultura de gru n anul 2003
30
Pentru vizualizarea formei grafice a distribuiei considerm procedeul histogramei. Reamintim: meniul GraphsHistogram se bifeaz caseta de validare Display normal curve (vezi figura 21 de mai jos) i alegem de exemplu variabila rand2004.
31
Figura 21: Comenzi pentru vizualizarea distribuiei normale prin diagrama Histogram
Se obine urmtoarea histogram:

20
10
Std. Dev = 1.25 Mean = 3.3 0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 N = 48.00
RAND2004
Se poate observa c distribuia corespunde aproximativ distribuiei normale.
32
Alte modaliti grafice sunt procedeele Q-Q plot i P-P plot (vezi figurile 22,23 ) Q-Q plot compar valorile ordonate ale variabilei observata cu valorile quantilice ale distribuiei teoretice specificate (n cazul nostru distribuia normal). Dac distribuia variabilei testate este normal , atunci punctele Q-Q contureaz o linie care se suprapune cu dreapta care reprezint distribuia teoretic adic trece prin origine i are panta egal cu unu. In diagram Q-Q plot se observ c punctele nu sunt serios deviate de la linia dreapt n cazul randamentelor obinute n anul 2004 ceea ce arat o distribuie normal. Aceeai interpretare grafic avem i pentru diagrama PP plot care compar funcia de repartiie a distribuiei unei variabile empirice cu funcia de repartiie a unei distribuii teoretice specificate (n cazul nostru, funcia distribuiei normale standard). Figura 22: Diagrama Q-Q plot
Normal Q-Q Plot of RAND2004
7 6 5 4
Expected Normal Value
3 2 1 0 0 2 4 6 8 10
Observed Value
Figura 23 Diagrama P-P plot

Normal P-P Plot of RAND2004
1.00
.75
.50
Expected Cum Prob
.25
0.00 0.00 .25 .50 .75 1.00
Observed Cum Prob
33
Observaie: Procedeele grafice sunt procedee intuitive, bazate pe impresii vizuale fiind astfel ncrcate cu subiectivism. Putem doar s estimm veridicitatea ipotezei distribuiei normale a variabilelor. O alt modalitate de a verifica normalitatea pentru o anumit variabil n cazul nostrurandamentele obinute n anul 2003 respectiv 2004 este urmtoarea ( aplicarea testului Kolmogorov Smirnov-Lilliefors): Selectarea opiunii: Analyze ->Nonparametric Tests 1 Sample K-S (figura 24) Figura 24: Selectarea testului Kolmogorov-Smirnof pentru verificarea normalitii
34
La rubrica Test Variable List se alege variabila de testat: rand2003 obinndu-se urmtorul tabel: Tabel 3: Raport privind testul Kolmogorov-Smirnov
One -Sample Kolmogorov -Smirnov Te st N Normal Parametersa,b Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) a. Test distribution is Normal. b. Calculated from data. RAND2003 48 2.7192 .9157 .138 .138 -.079 .957 .320
Mean Std. Deviation Absolute Positive Negative
Concluzia normalitii o putem trage din studiul coeficientului sig. (ultimul rnd). Acest coeficient ia valori ntre 0 i 1. In funcie de valoarea acestuia ipoteza de nul Distribuia nu e normal se respinge sau se accept! Astfel: dac valoarea coeficientului sig<0,05 ipoteza de nul se respinge cu o probabilitate de 95% - dac valoarea coeficientului sig<0,01 ipoteza de nul se respinge cu o probabilitate de 99% In cazul de fa valoarea lui Sig de 0,320 este mai mare dect 0,05 n consecin acceptm ipoteza de normalitate. Procedm analog i pentru variabila rand2004 i observm c i n acest caz distribuia este normal.
13. Calculul indicatorilor statisticii descriptive

Folosim baza de date grau . Dorim s examinm indicatorii acestei distribuii. Pentru aceasta efectum seleciile urmtoare: meniul Analyze, comanda Descriptive Statistics , opiunea Frequencies. In
35
fereastra Frequencies se deschide fereastra de dialog cu acelai nume din care, prin clic pe butonul Statistics se deschide butonul Frequencies: Statistics din care se pot selecta parametrii dorii, prin bifare n casetele de validare corespunztoare (vezi figura 25) Figura 25: calculul indicatorilor statisticii descriptive
Obinem un tabel de forma (tabel 4): Tabel 4: Raport privind indicatorii statisticii descriptive
36
Statistics RAND2004 N Mean Median Std. Deviation Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Valid Missing 48 45 3.3402 3.1000 1.2478 1.571 .343 6.008 .674
O alt modalitate de calcul a acestor indici este: Meniul Analyze Reports Case Summaries. Aceast opiune deschide fereastra Summary Report: Statistics, de unde se pot selecta parametrii dorii (vezi figura 26):
Figura 26: Calculul indicatorilor statisticii descriptive prin comanda Case Summaries
37
14. Calculul probabilitilor pentru distribuii normale folosind SPSS

Dorim s aflm probabilitatea ca o valoare a unei variabile aleatorii distribuit normal s aparin unui interval. Dintre funciile disponibile n acest sens sunt funciile CDF.NORMAL i IDF.NORMAL Pentru funcia CDF.NORMAL sintaxa este urmtoarea: CDF.NORMAL(q,mean,stddev) unde mean- valoarea medie a distribuiei iar stddevdeviaia standard calculate aa cum am vzut n precedentul capitol. Dorim de exemplu s calculm, dat fiind distribuia rand2004- (randamentele la hectar pentru gru n anul 2004 aa cum reiese din eantion), care este probabilitatea de a obine o recolt de sub 3 t/ha. Litera q din sintaxa funciei CDF.NORMAL va fi nlocuit cu cifra 3 deoarece reprezint valoarea n funcie de care calculm probabilitatea. Demersul e urmtorul: Se alege meniul Transform comanda Compute (figura 27) - In zona Target Variable din fereastra Compute Variable introucem numele variabilei pentru a crei valoare dorim s calculm probabilitatea , de exemplu prob3
-
In zona Numeric Expression introducem expresia funciei , selectat din lista Functions , CDF.NORMAL (q,mean,stddev) unde q este o valoare a variabilei X. Pentru exemplul dat, CDF.NORMAL (3,3.34,1.24), 3.34 fiind valoarea medie, iar 1.24 deviaia standard pentru aceast variabil (rand2004). Prin butonul OK se comand calculul propriu-zis al probabilitii
38
Figura 27 : Calculul probabilitilor pentru distribuii normale folosind SPSS
Dup apsarea butonului OK se va obine probabilitatea P(rand2004<3)= 0.39 care apare n celula de sub numele variabilei prob3.
39
Putem spune astfel c probabilitatea ca un fermier s obin la gru o recolt de sub 3t/ha este de 39% , i n acelai timp, putem spune c probabilitatea de a obine o recolt de peste 3t/ha este de 61 % (100%-39%). Dac dorim ca s aflm probabilitatea ca recolta unui fermier s fie ntre 3 i 4 tone calculm P(rand2004<4) P(rand2004<3) urmrind acelai demers. Se obine astfel o probabilitate de 0,31% ca un fermier s aib o producie de gru, ntre 3 i 4 tone/hectar (vezi sgeata figura 28)
Figura 28: Calcul al probabilitilor pentru distribuia normal
40
Pentru operaiunea invers, adic de a afla care este valoare distribuiei pentru care probabilitatea 2004 au este cobort mai mic din de o anumit vom valoare se folosete valoarea funcia funciei IDF.NORMAL(prob,mean,stddev). Astfel, dac vrem s aflm valoarea sub care n anul 10% fermieri calcula IDF.NORMAL(0.1,3.34,1.24) urmrind acelai demers ca cel descris pentru funcia CDF.NORMAL. Valoarea obinut este de 1.75 t/ha. Putem spune deci, c 10% dintre fermieri au obinut o recolt de sub 1.75 t/ha la gru n anul 2004.
Figura 28. Calculul probabilitilor prin funcia IDF Normal
41
15. Estimarea prin interval de ncredere

Alegerea unui eantion dintr-o anumit populaie are o anumit valoare de reprezentativitate. Asta nseamn c caracteristicile acelui eantion aproximeaz cu o oarecare probabilitate caracteristicile ntregii populaii. De exemplu nu putem spune cu siguran c media celor 48 de nregistrri ce fac parte din eantionul rand2004 este exact media nregii populaiei datorit factorilor aleatorii ce au intervenit n formarea acestui eantion. Dar putem estima media printr-un interval de ncredere. Astfel nu putem spune cu siguran ct e media populaiei dar putem spune cu o anumit probabilitate n ce interval se ncadreaz. Calculm de exemplu, valoarea medie pentru variabila rand2004. Selectm meniul Analyze (figura 29)
-
comanda Descriptive Statistics
opiunea Explore
In fereastra Explore selectm variabila dorit (rand2004) i o mutm n zona Dependent List Activm butonul de comand Statistics care deschide fereastra Explore:Statistics, unde bifm caseta de validare Descriptives i precizm n caseta Confidence Interval for Mean (sgeata) nivelul de ncredere dorit ( implicit e 95%). Butonul de comand Continue determin revenirea n fereastra Explore, din care activm OK pentru a comanda afiarea rezultatelor n fereastra Output
42
Tabel 29: Estimarea prin interval de ncredere
43
Se obine raportul de mai jos (Tabel 5):
Tabel 5: Raport privind estimarea prin interval de ncredere

De scriptiv e s RAND2004 Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 3.3402 2.9779 3.7025 3.2489 3.1000 1.557 1.2478 .75 8.62 7.87 1.4219 1.571 6.008 Std. Error .1801
Lower Bound Upper Bound
.343 .674
In dreptul meniunii Mean (media) observm valoarea media a eantionului, 3,3402 t/ha randament mediu la gru n anul 2004. Limitele intervalului de ncredere se gsesc n dreptul meniunii 95% Confidence Interval for Mean cu limita inferioar Lower Bound = 2.9779 i limita superioar Upper Bound = 3.7025. Putem spune aadar cu o ncredere de 95% c producia medie la hectarul de gru, pentru anul 2004 este ntre 2,97 t/ha i 3,7 t/ha. Cu alte cuvinte, dac
44
s-ar repeta studiul de 100 de ori ( adic dac s-ar nregistra 100 de eantioane, independente i identic observate) datele obinute pentru 95 de eantioane s-ar ncadera n acelai interval de ncredere,numai 5 din cele 100 de eantioane fiind susceptibile s dea valori n afara limitelor intervalului de ncredere calculat.
16. Demersul testrii unei ipoteze statistice

Demersul testrii unei ipoteze presupune parcurgerea unor etape dup cum urmeaz: 1. Se formuleaz ipotezele, n funcie de problema pus; 2. Se alege un test statistic n funcie de distribuia de selecie a statisticii considerate 3. Se alege un prag de semnificaie pentru test 4. Se stabilesc regulile de decizie , definind regiunile de acceptare i de respingere a ipotezei H0 5. Se calculeaz valoarea statisticii test, folosind datele nregistrate prin sondaj 6. Se compar valoarea calculat a statisticii test cu valoarea teoretic 7. Se ia decizia de a nu respinge sau de a respinge ipoteza admis O ipotez statistic este o presupunere cu privire la un parametru al unei distribuii date sau cu privire la legea de probabilitate a populaiei studiate. Exemplu: ipoteza de egalitate a mediilor pentru a verifica dac sunt diferene semnificative ntre populaiile din care sau extras eantioanele observate. In procesul de testare statistic , se formuleaz ipoteza nul i ipoteza alternativ. Ipoteza nul (ipoteza de nul). Ipoteza nul pe care dorim s o testm este notat H0. Prin ipoteza nul H0 se admite , n principal, c nu exist nici o diferen ntre valorile comparate. Ipoteza nul H0 este ipoteza pe care, de fapt, dorim s o discreditm. Ipoteza alternativ Ipoteza alternativ , ipoteza pe care dorim s o testm n opoziie cu ipoteza nul, se noteaz cu H1. Ipoteza alternativ este cea care va fi acceptat dac, prin
45
regula de decizie, se va respinge ipoteza nul. Ipoteza H1 este cea pe care, de fapt, vrem s o dovedim ca fiind adevrat.
17. Testarea egalitii unei medii cu o valoare specificat

Testarea egalitii se face cu ajutorul One-Sample T Test Din meniul Analyze comanda Compare Means opiunea One- Sample t test Dorim, de exemplu s observm dac fermierii considerai au obinut n anul 2003 un randament mai mare la gru dect media pe ar. Astfel din anuarul statistic ( www.insse.ro) obinem c producia medie de gru n Romania a fost n anul 2003 de 1428 kg/ha. Dup selectarea opiunii One-Sample T Test, se parcurg urmtorii pai (figura 30):
-
Selectm n fereastra One-Sample T Test variabila vrsta i o mutm n zona Test Variable (s); Specificm valoarea dorit 1.428 n zona de editare Test Value Activm butonul de comand Options care deschide fereastra One-Sample T Test:Options n care, n zona Confidence Interval alegem gradul de ncredere 95% dup care acionm butonul de comand Continue pentru a reveni n fereastra Sample T Test
46
Figura 30: Demersul alegerii testului student pentru compararea unui eantion cu o valoare constant One_Sample T Test
Acionm butonul OK i comandm SPSS obinerea raportului
Tabelul 6: Raport One-Sample Statistics

One -Sample Statistics N RAND2003 48 Mean 2.7192 Std. Deviation .9157 Std. Error Mean .1322
Tabelul 7: Raport One-Sample Test

47
One -Sample Te st Test Value = 1.428 95% Confidence Interval of the Difference Lower Upper 1.0253 1.5570
RAND2003
t 9.769
df 47
Sig. (2-tailed) .000
Mean Difference 1.2912
In raportul One-Sample Statistics sunt redate - N- mrimea eantionului (numrul de rspunsuri din eantion -48) -
Mean media eantionului Std. Deviation deviaia standard Std. Error Mean eroarea standard a mediei Test Value valoarea cu care s-a comparat media eantionului T rezultatul statisticii Student df- numrul gradelor de libertate ale statisticii ( se calculeaz ca mrimea eantionului (48) 1) Sig. gradul de siguran al acceptrii ipotezei de nul. Explicaia acestui coeficient a mai fost oferit pe parcursul acestui caiet ( Vezi verificarea ipotezei de normalitate testul Kolmogorov-Smirnof-Lillefors) Mean Difference diferena dintre media eantionului i valoarea testat 95% Confidence Interval of the difference - Intervalul de ncredere al valorii Mean Difference cu limita inferioar (lower) i limita superioar ( upper)
In output-ul One-Sample Test -
( Mean Test Value adic 2.7192 1.428 = 1.2912 )

-
Ipoteza de nul n cazul de fa este H0: media eantionului nu difer foarte mult de producia medie nregistrat n agricultura Romniei . Pentru acceptarea/respingerea acestei ipoteze studiem valoarea coeficientului Sig. Se observ din valoarea acestuia: Sig= 0.000 c ipoteza de nul este respins cu o probabilitate de 100 % sau c este acceptat cu o probabilitate de 0%. Concluzia de respingere a ipotezei de nul poate fi respins i studiind intervalul de ncredere al Mean
48
Difference interval ce nu conine valoarea zero. Faptul c acest interval nu conine valoarea zero nseamn c diferena celor 2 medii ( a eantionului i valoarea testat) nu poate fi zero deci mediile nu pot fi egale. Tragem deci concluzia c ntre media randamentele nregistrate la gru , pentru eantionul considerat n anul 2003 i media randamentelor nregistrate pe ar la gru, exist o diferen cu 1.2912 t/ha ( Mean Difference).
18. Testarea egalitii mediilor a dou eantioane perechi

Paired Samples T Test este un procedeu care se aplic n cazul eantioanelor dependente. Prin acest procedeu , se compar mediile pentru un singur grup observat n momente diferite. Adesea prin acest test se observ aceiai subieci n dou momente diferite, verificndu-se dac diferenele dintre valorile medii sunt semnificative. Se calculeaz diferenele dintre valorile celor dou variabile pentru fiecare caz n parte i se testeaz dac diferenele dintre mediile acestora difer de zero. Demersul folosit n SPSS este: meniul Analyze Paired-Samples T Test Exemplu: Considerm variabilele rand2003 i rand2004 . Dorim s verificm dac nivelul mediu al randamentelor la gru n anul 2004 este mai mare sau mai mic dect n anul 2003. Pentru aceasta selectm n fereastra de dialog Paired Samples T Test prima variabil rand2003 prin clic asupra ei vom vedea c SPSS o mut n Current Selections (n partea din stnga jos a ferestrei) ca Variable 1; comanda Compare Means opiunea
- Mutm perechea de variabile n zona Paired Variables (n partea dreapt a ferestrei

dialog) (vezi figura de mai jos). Figura 30: Demersul alegerii testului student pentru compararea unui eantion cu o valoare constant One_Sample T Test
49
Intervalul de ncredere al ipotezei de nul se poate modifica ( implicit e 95%) apsnd butonul Options - Prin apsarea butonului de comand OK se obine output-ul prezentat mai jos.
Tabelul 8: Raportul Paired Samples Statistics
50
Paire d Sample s Statistics Mean 2.8285 3.3161 N 41 41 Std. Deviation .9183 .9485 Std. Error Mean .1434 .1481
Pair 1
RAND2003 RAND2004
Tabelul 9 : Raportul Paired Samples Test

Paired Samples Test Paired Differences 95% Confidence Interval of the Difference Lower Upper -.7017 -.2734
Pair 1 RAND2003 - RAND2004
Mean Std. Deviation -.4876 .6785
Std. Error Mean .1060
t -4.602
df 40
Sig. (2-tailed) .000
In tabelul Paired Samples Statistics la rubrica Mean sunt prezentate mediile celor dou eantioane rand2003 respectiv rand2004 . In tabelul Paired Samples Statistics studiem valoarea lui Sig., care este 0.000. De asemenea constatm c intervalul de ncredere nu conine valoarea zero. Ipoteza de nul se respinge, adic putem afirma c ntre randamentele nregistrate n anul 2003 respectiv 2004 exist diferene semnificative. Astfel n acelai tabel la rubrica Mean putem constata valoarea acestei diferene : -0.4876. Putem spune deci c, pe ansamblu , randamentele obinute la gru n anul 2003 sunt mai mici dect cele obinute n anul 2004, n medie cu 487,6 kg/ha.
19. Testarea egalitii mediilor a dou eantioane independente (Independent Samples T Test)
Independent Samples T Test este un procedeu care se aplic n cazul eantioanelor independente. Prin acest procedeu se testeaz dac mediile a dou grupe sunt egale. Exemplu: (Folosim din nou, baza de date IEA.sav aflat pe CD) Dorim s aflm dac ntre dou categorii de vrst ale consumatorilor exist diferene
51
semnificative cu privire la frecvena consumului de alimente ecologice. Demersul testrii folosind SPSS este: meniul Analyze comanda Compare Means opiunea Independent-Samples T Test
Figura 31: Demersul alegerii testului student pentru compararea egalitii mediilor a dou eantioane independente (Independent-Samples T Test)
In fereastra Test Variable(s)
(figura 31 )mutm variabila consumat iar n fereastra
Grouping Variable mutm variabila vrsta. Acionm apoi butonul Define Groups i definim cele dou grupuri ce aparin variabilei vrsta: 2 care descrie categoria de respondenii ntre 18-35 ani i 3 care descrie categoria de respondeni ntre 35 i 50 ani ( vezi categoriile variabilei vrsta aa cum au fost definite). Se obin tabelele de mai jos (tabelul 10 i tabelul 11):
52
Tabelul 10: Raport generat de aplicarea testului Independent Samples Test

Group Statistics Varsta. 18-35ani 35-50ani N 120 58 Mean 2.08 2.12 Std. Deviation .75 .68 Std. Error Mean 6.82E-02 8.89E-02
consumati produse alimentare certificate ca fiind ecologice
Tabelul 11: Raport al testului Independent Sample Test

Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference Lower Upper -.27 -.27 .18 .18
F consumati produse Equal variances alimentare certificate assumed ca fiind ecologice Equal variances not assumed .950
Sig. .331
t -.394 -.408
df 176 123.229
Mean Sig. (2-tailed) Difference .694 .684 -4.57E-02 -4.57E-02
Std. Error Difference .12 .11
Calculul statisticii test pentru compararea mediilor a dou populaii cere s se verifice dac deviaiile standard la nivelul celor dou grupe sunt semnificativ diferite, deoarece prin ipoteza de nul se presupune c cele dou populaii au variane egale. Se folosete n acest scop testul Levene de egalitate a varianelor ( Levenes test for equality of Variances) Dac nivelul de semnificaie observat pentru acest test este mic ( de exemplu mai mic de 0,05) atunci se folosesc variane distincte (Equal variance not assumed) pentru testarea mediilor. Dac acest nivel este mare, ca n cazul considerat ( Sig. al testului Levene este egal cu 0,331 sgeata 1 figura ) atunci se folosesc variane comune ( Equal variances assumed). In aceast ipotez se observ c coeficientul Sig. al testului t ( sgeata 2 tabelul 11) este de 0.694 (mai mare dect 0,05) i ne arat c pentru mediile celor dou grupe nu se poate trage concluzia c difer semnificativ. Aceeai concluzie o putem trage din studierea intervalului de ncredere a diferenelor (sgeata 3, tabelul 11),
53
interval care conine valoarea 0. In concluzie nu se poate trage concluzia c diferena dintre valorile medii ale celor dou grupe este semnificativ.
20. Testarea egalitii a trei i mai multe medii

ANOVA (Analysis of Variances) este un procedeu de analiz a varianei unei variabile numerice sub influena unei variabile de grupare. Prin ANOVA se compar medii pentru trei i mai multe subpopulaii definite de variabila de grupare (variabila independent). Aceast metod permite extensia analizei realizate prin testul t aplicabil asupra a dou medii, la situaii n care variabila independent (variabila de grupare ) prezint trei i mai multe categorii (niveluri). De asemenea , ANOVA poate fi folosit n analiza unor situaii n care asupra variabilei numerice ( variabila dependent) acioneaz simultan mai multe variabile independente. In astfel de cazuri , prin ANOVA se poate prezenta modul n care aceste variabile independente interacioneaz una cu alta i ce efecte au aceste interaciuni asupra variabilei dependente. One way ANOVA (ANOVA unifactorial) este unul din procedeele de analiz a varianei pentru o variabil cantitativ dependent de o singur variabil factor ( de grupare). Variabila factor, numit i variabil independent , explicativ trebuie s fie calitativ i trebuie s aib un numr redus de categorii (modaliti). Ipoteza nul , ipoteza de testat , formulat prin acest procedeu , presupune egalitatea a trei i mai multe medii: H0: m1=m2==mk Unde mk este media grupei mk Interpretarea rezultatelor ANOVA vizeaz dou teste i anume:
-
Testul de omogenitate a varianelor. Aceast problem implic testul de omogenitate a varianelor subpopulaiilor , definite de modalitile variabilei factor (de grupare). Ipoteza de nul este respins dac valoarea Sig. (probabilitatea ) este inferioar valorii 0,05 (5%) semnificnd c nu sunt egale toate varianele. Testul ANOVA. Ipoteza nul este respins dac valoarea Sig. este inferioar valorii 0,05 (5%), semnificnd c cel puin dou medii calculate la nivelul subpopulaiilor , difer ntre ele.
54
In SPSS , pentru compararea a trei i mai multe medii este folosit urmtorul demers: meniul Analyze comanda Compare Means opiunea One-Way ANOVA.
De exemplu: Utilizm baza de date IEA.sav Dorim s vedem dac pentru cele trei categorii de intervievai (cu frecvena definit ca: deseori, cteodat i niciodat respectiv variabila consumat) exit diferene n ceea ce privete vrsta acestora. Adic dac cei care consum deseori sunt mai tineri dect celelalte dou categorii. Pentru aceasta , din fereastra Variable View vom exclude variabilele lips prin excluderea variabilelor ce conin 99 adic non-rspuns. Pentru variabila Vrsta se d Click pe celula corespunztoare coloanei Missing ( Figura 32 sgeata 1 ) iar n fereastra Missing Values se introduce valoarea 99 (sgeata 2). Figura 32: Excluderea valorilor indezirabile prin comanda Missing Values
1
55
Dup selectarea opiunii One-Way ANOVA , se parcurg urmtorii pai: - In fereastra de dialog One-Way ANOVA alegem variabila consumat pe care o mutm n zona Dependent List i variabila Vrsta pe care o mutm n zona Factor;
-
Prin butonul de comand Options (vezi figura i sgeata) se deschide fereastra OneWay ANOVA :Options n care se bifeaz casetele de validare Descriptive, Homogenity of variance i Means plot pentru a se verifica ndeplinirea restriciilor de normalitate, homoscedaticitate i independen impuse unei analize ANOVA (figura 33).
Figura 33: Alegerea parametrilor analizei ANOVA
56
Restricia de homoscedaticitate. Una din restriciile aplicrii ANOVA o constituie homoscedasticitatea, adic se presupune c varianele grupelor sunt egale. Se poate verifica aceast ipotez cu ajutorul testului Levene-Test of Homogenity of Variances. ( vezi Tabelul 11 de mai jos) Tabelul 11: Raport generat de testul Levene
Descriptives Varsta. 95% Confidence Interval for Mean Lower Bound Upper Bound 2.36 2.85 2.35 2.67 2.35 2.81 2.44 2.67
N deseori cateodata nu consum Total 48 98 69 215
Mean Std. Deviation Std. Error 2.60 .84 .12 2.51 .82 8.24E-02 2.58 .95 .11 2.55 .86 5.88E-02
Minimum 2 1 1 1
Maximum 5 5 5 5
Tabelul 12: Analiza varianelor generat de condiia de homoscedasticitate

Te st of Homoge ne ity of Variance s Varsta. Levene Statistic .942 df1 2 df2 212 Sig. .391
In noile condiii , valoarea Sig. (0.391) pentru testul de omogenitate a varianelor este mai mare ca 0,05 sugernd c varianele pentru cele trei categorii de consumatori sunt egale, deci restricia de homoscedasticitate este ndeplinit i astfel se poate aplica ANOVA. Tabelul ANOVA corespunztor pentru cele trei categorii de vrst selectate sunt prezentate n tabelul 13 .
57
Tabelul 13: Raportul generat de testul ANOVA pentru trei categorii de vrst
ANOVA Varsta. Sum of Squares 95.160 9322.840 9418.000 df 2 213 215 Mean Square 47.580 43.769 F 1.087 Sig. .339
Between Groups Within Groups Total
In tabelul ANOVA sunt prezentate statistica test F (vezi testul Fisher din manualul de Statistic) , valoarea Sig. precum i elementele de calcul pentru statistica test F. Reamintim , statistica test F se calculeaz dup relaia: F =
2 SE 2 SR
2 SE reprezint estimatorul varianei intergrupe (Between-Groups) . Se calculeaz ca
medie a ptratelor abaterilor mediei fiecrei grupe fa de media pe ansamblul grupelor i arat variana datorat influenei factorului de grupare;
2 SR reprezint estimatorul mediei varianelor de grup i arat variana din interiorul
fiecrei grupe (Within Groups) , variana datorat influenelor aleatorii. Cu ct mediile grupelor au valori mai diferite ntre ele , cu att variaia dintre grupe este mai mare; cu ct o variaie , n interiorul grupelor, este relativ mai mic, cu att statistica test F este mai mare, artnd c ipoteza nul poate fi respins. In exemplul considerat statistica test F este mic (1.087) cu o probabilitate asociat Sig. ( 0.339) mai mare dect 0,05 evideniaz c ipoteza de egalitate a mediilor pe grupe nu se respinge, deci nclinaiile spre consum a clienilor nu difer semnificativ n raport cu vrsta. 21. Testarea egalitii unei proporii cu o valoare specificat (Binomial Test) Binomial Test este un procedeu prin care se testeaz ipoteze cu privire la o variabil cu distribuie binomial, variabil care poate lua doar dou valori, de exemplu, sexul persoanelor.
58
Pentru astfel de variabile , se calculeaz frecvenele de apariie a fiecreia dintre cele dou valori, iar pe baza lor, media, deviaia standard, etc. Binomial test este similar cu One Sample t-test i este folosit pentru a compara o proporie cu o valoare specificat. Exemplu: Dorim s verificm dac proporia persoanelor mulumite de calitatea produselor agroalimentare este mai mare dect 75 % Dup filtrarea datelor pentru eliminarea non-rspunsurilor efectum urmtorul demers: meniul Analyze comanda Nonparametric Tests opiunea Binomial (Tabel 35)
Pentru aceasta , dup selectarea opiunii Binomial i deschiderea ferestrei Binomial Test Selectm variabila multumit i o mutm n zona Test variable List - In zona Define Dichotomy alegem Get from date dac avem o variabil dihotomic sau Cut point n cazul n care dorim s dihotomizm o anumit variabil. In cazul nostru variabila multumit este codificat astfel: 1- pentru rspunsul DA sunt mulumit 2- pentru rspunsul parial mulumit i 3 pentru nemulumit In zona Cut point introducem valoarea 1 pentru a selecta valorile <=1 respectiv valorile >1. Valorile <=1 vor desemna grupa consumatorilor mulumii de calitatea produselor ecologice. In zona de editare Test Proportion se precizeaz valoarea dorit (0.75).
59
Tabel 35: Demersul testrii egalitii unei proporii cu o valoare specificat
Se apas butonul de comand OK i se declaneaz obinerea raportului (vezi Tabelul 14) Tabelul 14: Raportul generat de Binomial Test
Binomial Te st Category <= 1 >1 N 93 62 155 Observed Prop. .60 .40 1.00 Test Prop. .75 Asymp. Sig. (1-tailed) a,b .000
Sunteti multumit(a) de calitatea produselor ecologice ce se afla pe piata?
Group 1 Group 2 Total
a. Alternative hypothesis states that the proportion of cases in the first group < .75. b. Based on Z Approximation.
60
Astfel se observ c proporia observat n eantion pentru grupa consumatorilor mulumii e de 60% . Datorit faptului c valoarea Sig. asociat testului este mai mic dect 0.01, se poate concluziona cu o ncredere de 99% c proporia celor mulumii de produsele agroalimentare ecologice difer semnificativ de proportia de 75%. Adic , mai puin de trei sferturi dintre consumatori sunt mulumii de calitatea acestor produse. 22. Testarea egalitii a dou i mai multe proporii In cazul unei distribuii nominale, testul Hi-ptrat este folosit pentru a verifica dac distribuia teoretic a frecvenelor relative (ipoteza de nul presupune c toate categoriile au proporii egale), fie cu o distribuie de frecven propus. Aplicarea acestui procedeu de testare presupune urmtorul demers: meniul Analyze comanda Nonparametric Tests opiunea Chi-Square Test.
Exemplu: Considerm variabila consumat din fiierul iea.sav Dorim s verificm dac proporia respondenilor pe cele trei categorii este egal. Adic dac consumatorii se mpart n mod egal n consumatori frecveni, consumatori ocazionali respectiv nonconsumatori.
-
In fereastra de dialog Chi-Square Test (vezi figura 34) selectm variabila pentru care dorim s testm proporiile, n cazul nostru variabila consumat i o mutm n zona Test Variable List. Se pot selecta mai multe variabile , pentru fiecare variabil obinndu-se cte un tabel de frecven separat. In zona Expected Range definim categoriile pentru care dorim s testm proporiile . Alegem Get from data, considernd categoriile definite pentru variabila consumat In zona Expected Values alegem ipoteza toate proporiile egale sau proporii specificate (Values). In cazul nostru alegem s verificm dac exist urmtoarea coresponden: consumatori frecveni 30%, consumatori ocazionali 40%, respectiv nonconsumatori consumatori 30 % , deci specificm proporiile 30,40,30 la rubrica Values .
61
Figura 34: Demersul alegerii proporiilor de testat prin testul Hi-ptrat
Prin clic pe butonul de comand Continue , se revine n fereastra Chi-Square Test , din care se selecteaz OK, care comand lansarea procedurii de obinere a rapoartelor de mai jos (figura )
Interpretare In tabelul frecvenelor , sunt comparate frecvenele observate cu frecvenele teoretice ( ateptate conform ipotezei de nul), pentru fiecare categorie i. Diferenele sunt prezentate pe categorii n coloana Residual. Exemplele teoretice ateptate de noi n cazul de fa sunt: (din totalul de 216 respondeni) 216 x 30 % = 64.8 pentru rspuns deseori 216 x 40% = 86.4 pentru rspuns cateodata
62
216 x 30 % = 64.8 pentru rspuns nu consum
Rezultatele sunt prezentate n tabelul de mai jos (Tabelul 15): Tabelul 15: Frecvenele observate i teoretice privitoare la aplicarea testului Hi-ptrat
consumati produse alime ntare ce rtificate ca fiind e cologice deseori cateodata nu consum Total Observed N 48 98 70 216 Expected N 64.8 86.4 64.8 Residual -16.8 11.6 5.2
In tabelul Chi Square Test se prezint valoarea statisticii Hi-ptrat (Chi-Square) gradele de libertate (df) i valoarea semnificaiei (Asymp. Sig). Tabelul 16: Rezultatul testului Hi-ptrat
Te st Statistics consumati produse alimentare certificate ca fiind ecologice 6.330 2 .042
Chi-Squarea df Asymp. Sig.
a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 64.8.
In exemplul dat, valoarea estimat a statisticii Hi-ptrat este semnificativ la un nivel de ncredere de 95% deoarece valoarea Asimp. Sig< 0,01. Ca urmare ipoteza nul este respins. Se poate trage concluzia c cele trei categorii de consumatori nu au proporia specificat: 30:40:30. Exemplul 2: Dorim s calculm deviaia de la frecvenele teoretice pentru o distribuie de 2 variabile: presupunem varsta i consumat . Selectm doar categoriile de vrst ntre 18-65 de
63
ani , cele mai numeroase n sondajul nostru. Pentru aceasta filtrm doar categoriile de vrst 2, 3,4 ( Vezi Data Select Cases) condiia (varsta >1 & varsta < 5) Tabel 35: Demersul aplicrii testului Hi-ptrat pentru dou variabile
Demersul este urmtorul (Figura 35): Meniul Analyze Descriptive statistics Crosstabs In fereastra Crosstabs la rubrica Row(s) trecem variabila consumat iar la rubrica column(s) trecem variabila varsta Acionnd butonul Cells (sgeata) se deschide fereastra Cells Display unde se selecteaz la rubrica Counts observate Observed i a valorilor teoretice ateptate Expected. Analog acionnd butonul Statistics se obine o nou fereastr din care bifm opiunea Chi-Square ( vezi sgeata din figura 36) Figura 36: Alegerea opiunii Hi-ptrat din fereastra Statistics afiarea valorilor
64
Dup acionarea butoanelor Continue i OK se obin rapoartele de mai jos: Tabel 17: Raport privitor la frecvenele observate i teoretice pentru variabilele consumat i vrsta
65
consumati produse alimentare ce rtificate ca fiind e cologice * Varsta. Crosstabulation Varsta. 35-50ani 10 13.6 31 26.4 17 18.0 58 58.0
consumati produse alimentare certificate ca fiind ecologice
deseori cateodata nu consum
Total
Count Expected Count Expected Count Expected Count Expected
Count Count Count Count
18-35ani 29 28.2 53 54.6 38 37.2 120 120.0
50-60ani 8 5.2 7 10.0 7 6.8 22 22.0
Total 47 47.0 91 91.0 62 62.0 200 200.0
In tabelul sunt afiate att frecvenele observate count ct i cele teoretice expected count. Astfel au fost primite 29 de rspunsuri pentru consumul frecvent de produse ecologice deseori de ctre consumatorii cu vrste ntre 18-35 ani. Frecvena teoretic expected count a fost calculat innd cont de urmtoarele aspecte: Numrul total al tinerilor de 18-35 ani din eantion este (vezi tabel Total-Count) de 120 n timp ce numrul respondenilor este de 200. Aceasta nseamn c proporia tinerilor din eantion este: p= 120/200* 100% = 60% Numrul total al celor care au rspuns cu deseori privind frecvena consumului este Teoretic ne atepm deci ( n cazul ipotezei de nul) ca 60 % din (vezi Tabel 17) de 47.
acetia s fie tineri ntre 18-35 ani. Frecvena teoretic este deci : ft= 47x 60% adic 28,2 In figura de mai jos avem rezultatele testului Hi-ptrat. Se observ coeficientul Sig. >0.05 ceea ce nseamn c ipoteza de nul nu se respinge. Adic frecvenele observate , nu difer de cele teoretice pentru nici una din cele trei categorii de consumatori. Cu alte cuvinte, comportamentul consumatorilor n ceea ce privete consumul de produse ecologice nu este influenat de vrst.
66
Tabel 18: Rezultatul testului Hi-ptrat pentru variabilele vrsta i consumat
Chi-Square Te sts Value 4.371a 4.312 .138 200 df 4 4 1 Asymp. Sig. (2-sided) .358 .365 .710
Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 5.17.
23. Analiza de corelaie Analiza de corelaie este folosit pentru a studia intensitatea legturii dintre variabile. In sens strict, corelaia este o msur a intensitii legturii dintre variabile. Pentru stabilirea corelaiei dintre dou mrimi n SPSS se pot calcula trei coeficieni de corelaie: Pearson, Kendall i Spearman (vezi cursul de statistic). Exemplu: In baza de date Anuarul_statistic.sav gsi date preluate din anuarul statistic privind productivitatea medie la nivel naional pentru diferite culturi ntre anii 1990 i 2003 . Astfel am dori s punem n vedere existena unei corelaii ntre randamentele nregistrate la gru i cele nregistrate la orz. Considerm urmtorul demers: meniul Analyze Correlate Bivariate prin care se deschide fereastra Bivariate Correlations . Dup deschiderea ferestrei Bivariate Correlations se parcurg urmtorii pai: -Selectm variabilele dorite i le mutm n zona Variables;
-
In zona Correlation Coefficients, alegem prin bifare n casetele de validare corespunztoare , coeficienii de corelaie pe care dorim s-i calculm.
67
Casera de validare Flag significant correlations este activat la deschiderea ferestrei dialog i are ca efect semnalizarea corelaiilor semnificative. Astfel coeficienii de corelaie semnificativi la pragul de 0,05 sunt marcai cu un asterisc, iar cei semnificativi la pragul de 0,01 sunt marcai cu dou asteriscuri.
Figura 37: Demersul analizei de corelaie
Activnd OK cerem obinerea raportului ( vezi Tabel 19)
Tabel 19: Raportul de corelaie randamente gru-orz
68
Corre lations Grau total Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Grau total Orz total 1.000 .893** . .000 14 14 .893** 1.000 .000 . 14 14
Orz total
**. Correlation is significant at the 0.01 level (2-tailed).
In raport sunt prezentate statisticile pentru fiecare variabil , precum i valoarea coeficientului de corelaie Pearson, cu nivelul de semnificaie (Sig.) corespunztor. Tabelul Correlations este un tabel cu matricea coeficienilor de corelaie. Valorile sunt distribuite simetric, de o parte i de alta a diagonalei coeficienilor de corelaie egali cu 1, corespunztori corelaiei fiecrei variabile cu ea nsi. De o parte i de alta a diagonalei tabelului sunt prezentate valorile coeficienilor de corelaie dintre variabile, luate dou cte dou i valorile pragului de semnificaie (Sig.) corespunztor , precum i numrul observaiilor considerate, N. Reamintim c valoarea coeficientului de corelaie Pearson este cuprins ntre 1 i 1 Dac coeficientul ia valoarea 0, atunci ntre variabile nu exist legtur. Valoarea coeficientului indic intensitatea legturii i anume: cu ct se apropie mai mult de 1, cu att legtura e mai puternic, respectiv cu ct se apropie mai mult de zero, cu att legtura este mai slab. Un coeficient de corelaie egal cu +1 indic o legtur direct perfect ntre variabile. Un coeficient de corelaie egal cu 1 arat o legtur invers perfect. Pentru exemplul considerat s-a obinut un coeficient de corelaie Pearson egal cu 0,893 ceea ce sugereaz c ntre variabile exist o corelaie direct puternic , valoarea coeficientului fiind foarte apropiat de 1. Valoarea Sig. corespunztoare egal cu 0.000 evideniaz c s-a obinut un coeficient de corelaie semnificativ la 0.01 adic sunt anse mai mici de 1% de a grei dac afirmm c ntre cele dou variabile exist o corelaie semnificativ. Putem spune deci c culturile de gru i orz sunt corelate din punct de vedere al randamentelor obinute annual. In tabelul urmtor se observ c o astfel de corelaie nu exist ntre randamentele obinute la gru i cartof.
69
Tabelul 20: Raportul de corelaie randamente gru - cartofi

Corre lations Grau total Pearson Correlation Sig. (2-tailed) N Cartof total Pearson Correlation Sig. (2-tailed) N Grau total 1.000 . 14 -.278 .336 14 Cartof total -.278 .336 14 1.000 . 14
ANEXA CHESTIONAR Universitatea de tiine Agricole i Medicin Veterinar a iniiat acest studiu care urmrete s evalueze gradul de cunoatere, n rndul consumatorilor a produselor alimentare ecologice , precum i prerile lor n legtur cu acest subiect. Datele personale, furnizate de dvs., vor fi considerate strict confideniale. Astfel, V rugm s avei amabilitatea de a ne rspunde la urmtoarele 10 ntrebri: I ) Consumai produse alimentare certificate ca fiind ecologice? 1) Deseori 2) Cteodat 3) Nu
I b) V rugm explicai de ce ai ales una din aceste opiuni: .. Dac rspunsul a fost Nu cunosc aceste produse se pun ntrebrile III i IV, se iau date le personale, -(intrebarile X, XI, varsta) apoi se ncheie interviul. II) Cum identificai produsele alimentare ecologice ntr-un magazin? 1) Dup ambalaj /sigla 2) Dup spaiile special amenajate 3) Altele Dac n urma ntrebrilor I i II observm c intervievatul nu cunoate noiunea de produs ecologic se pun ntrebrile III i IV, se iau datele personale (intrebarile X si XI, varsta) apoi se ncheie interviul. Dac se cunoate noiunea de produs alimentar ecologic, se trece direct la ntrebarea cu numrul V fara a se mai pune intrebarile III si IV. III ) Dac ai ti c produsele ecologice sunt mai sntoase pentru c nu conin substane chimice i n plus sunt obinute prin protejarea mediului, ai fi dispus s achiziionai aceste produse? 1) Sigur da 2) Cred c da 3) Nu tiu 4) Mai degrab nu 5) Sigur nu
70
IV)
Dar dac ai ti c preul produselor ecologice ar fi cu 40% mai mare dect cele clasice ai mai cumpra? 1) Sigur da 2) Cred c da 3) Nu tiu 4) Mai degrab nu 5) Sigur nu
V)
Care sunt motivele pentru care achizitionati produsele alimentare ecologice? 1) pentru sanatate 2 ) sunt mai gustoase 3) pentru copii / pentru batrani
4)Altele:. VI) Cum credei c ar trebui ncurajat consumul de produse ecologice? 1) Prin scderea preurilor 2) Prin publicitate mai intens 3) Prin informarea consumatorilor asupra avantajelor acestui tip de produs 4) Altele.. VII) piata? 1) DA 2) Partial 3 ) NU VIII) Suntei mulumit () de calitatea produselor ecologice ce se afl pe pia ? 1) DA 2) Parial 3) NU Sunteti multumit() de numarul de produse ecologice ce se afla pe
V rugm sa ne spuneti de ce ai ales una din opiunile Parial sau NU ? IX) De unde ai aflat despre existena produselor alimentare ecologice? 2 ) Din reviste 3) Din magazine 4) De la un prieten
1 ) De la TV
5) De pe Internet
6) De la mine 7) Altele
X) V rugm s ne spunei ce ocupaie avei ( sau ai avut nainte de pensionare, omaj etc) .
XI)
V rugm s ne spunei numele i nr. dvs de telefon:
Nume:.
71
Nr. telefon
V mulumim foarte mult pentru atenia acordat ! Se va nota apoi vrsta aproximativ a intervievatului aa cum o apreciai dvs. !
1) < 18 ani 2) 18-35 ani 3) 35-50 ani 4) 50- 65 ani 5 ) 65 ani
Chestionarul a fost administrat de:..
72

Spss Ghid

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Spss Ghid

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSITATEA DE TIINE AGRICOLE I MEDICIN VETERINAR CLUJ-NAPOCA

Figura 1 : Interfaa programului SPSS

3. Introducerea datelor statistice

4. Transformarea unei variabile

5. Selectarea unor subieci folosind comanda SELECT CASES

6. Sistematizarea datelor n SPSS

8. Elementele unui grafic

Histograma permite vizualizarea formei unei distribuii statistice, dup o

8.2. Diagrama Boxplot

Figura 14. Diagrama BoxPlot

Maximum (fr outlieri)

Percentila 75 ( Quartila 3) Mediana (Quartila 2) Percentila 25 (Quartila 1) Minimum (fr outlieri)

unde xi sunt valorile variabilei iar N volumul

Figura 15: Curba distribuiei normale

In Statistic se definete urmtoarea noiune: Momentul centrat de ordinul k e definit ca:

doua i momentul centrat de ordin doi 2 la puterea a treia dup relaia:

numete distribuie platicurtic ( vezi figura 17) Kurtosis-ul:

Figura 17: Distribuia leptocurtic / platicurtic

10. Calculul indicatorilor tendinei centrale ,dispersiei i formei unei distribuii

Figura 18: Calculul indicatorilor statistici utiliznd comanda Descriptive Statistics

11. Parametrii unei distribuii bivariate (bidimensionale)

- meniul Analyze - meniul Analyze - meniul Date

comanda Descriptive Statistics comanda Reports comanda Split File

opiunea Case Summaries comanda Analyze Reports OLAP Cubes

Prin demersul Analyze

Crosstabs se poate obine o distribuie

bivariat parcurgnd urmtorii pai:

Figura 19: Comandarea raportului bivariat- Crosstabs

Total 7 100.0% 20 100.0% 11 100.0% 38 100.0%

12. Verificarea normalitii unei distribuii folosind SPSS

Compute se calculeaz randamentele pe ferm pentru fermele care au cultivat gru

Se obine urmtoarea histogram:

Se poate observa c distribuia corespunde aproximativ distribuiei normale.

Expected Normal Value

Figura 23 Diagrama P-P plot

Expected Cum Prob

0.00 0.00 .25 .50 .75 1.00

Observed Cum Prob

Mean Std. Deviation Absolute Positive Negative

13. Calculul indicatorilor statisticii descriptive

14. Calculul probabilitilor pentru distribuii normale folosind SPSS

Figura 27 : Calculul probabilitilor pentru distribuii normale folosind SPSS

Figura 28: Calcul al probabilitilor pentru distribuia normal

Figura 28. Calculul probabilitilor prin funcia IDF Normal

15. Estimarea prin interval de ncredere

comanda Descriptive Statistics

Tabel 29: Estimarea prin interval de ncredere

Se obine raportul de mai jos (Tabel 5):

Tabel 5: Raport privind estimarea prin interval de ncredere

Lower Bound Upper Bound

16. Demersul testrii unei ipoteze statistice

17. Testarea egalitii unei medii cu o valoare specificat

Acionm butonul OK i comandm SPSS obinerea raportului

Tabelul 6: Raport One-Sample Statistics

Tabelul 7: Raport One-Sample Test

Sig. (2-tailed) .000

Mean Difference 1.2912

In output-ul One-Sample Test -

( Mean Test Value adic 2.7192 1.428 = 1.2912 )

18. Testarea egalitii mediilor a dou eantioane perechi

- Mutm perechea de variabile n zona Paired Variables (n partea dreapt a ferestrei

Tabelul 8: Raportul Paired Samples Statistics

Tabelul 9 : Raportul Paired Samples Test