Sunteți pe pagina 1din 24

Crearea unei baze de date în SPSS

I.1. Clasificarea şi descrierea variabilelor statistice


În analiza statistică a datelor o importanţă deosebită o constituie clasificarea
variabilelor după modul de exprimare a stărilor:
cantitative ( metrice ) calitative

discrete continue
Cunoaşterea tipurilor de variabile este necesară atât în etapa de codificare a acestora,
cât şi în momentul prelucrării lor. Unele fenomene economice pot fi direct măsurabile cantitativ, în
timp ce altele necesită atribuirea unei valori unităţilor statistice ale unei colectivităţi observate
după o caracteristică. Diferenţierea valorilor se face prin intermediul scalei de măsurare.

Tipuri de scală:
- scala nominală – are o singură proprietate – identitatea – care exprimă apartenenţa
elementelor la o categorie. Presupune o categorizare a variabilei fără a indica o anumită ordine ori
cantitate. Variabilele sex: masculin vs. feminin; starea civila: căsătorit, divorţat, văduv, necăsătorit;
reprezintă exemple de scală nominala. Ele pot fi notate cu cifre (0-feminin; 1-masculin) însa
acestea nu pot fi procesate în termeni de cantitate sau ordine;
- scala ordinală – permite să se claseze elementele observate conform unei ordini,
preferinţe. Un exemplu este locul ocupat de cineva la o competiţie (primul, al doilea, …, ultimul).
În acest caz, numerele pot fi comparate între ele în termeni de "mai mult, mai puţin sau egal";
- scala de interval – pe lângă proprietăţile de identitate şi ordine, este caracterizată şi de
faptul că intervalul între numere are un sens, fapt ce permite să se compare diferenţele între
numere. Într-o astfel de scală, punctul 0 (zero) nu este dat în mod natural, adică este ales arbitrar.
Ex: temperatura 0 nu e lipsa temperaturii, e doar punctul de îngheţ al apei. Exemplul clasic îl
constituie măsurarea temperaturii în cele două sisteme, Celsius şi Fahrenheit, fiind posibilă
trecerea de la un sistem de măsurare la altul;
- scala raport – folosită tot pentru variabile cantitative, având ca şi caracteristică faptul că
posedă un 0 absolut care înseamnă lipsa caracteristicii sau proprietăţii respective. Ex: bani (venit),
masă (greutate), lungime, timp de reacţie, etc. De exemplu un venit de 0 lei înseamnă inexistenţa
unui venit;
- scala de intensitate – este frecvent folosită în cercetările de marketing pentru măsurarea şi
compararea opiniilor ( scala de opinie), a comportamentelor. Ex: întrebare de opinie: "Ce părere
aveţi despre un nou produs?" Variantele posibile sunt: "Foarte bună", "Bună", "Nici bună nici
proastă", "Proastă", "Foarte proastă". Scala de opinie ( scală de rating ) este o scală cvasimetrică.
Se caracterizează prin punctul 0 care exprimă inexistenţa opiniei şi un număr de puncte, în sens
pozitiv şi negativ pentru a măsura gradele de intensitate a opiniilor.

Observaţie: pentru a alege metoda statistică adecvată în fiecare caz, trebuie să ştim în primul rând
cum au fost obţinute datele (scala utilizată).
I.2. Codificarea şi introducerea datelor în SPSS
Etapa de pregătire a setului de date implică operaţia de codificare a acestora în foaia
de lucru Variable View şi de introducere a răspunsurilor în fereastra Data View.

Codificarea variabilelor presupune definirea atributelor acestora: numele variabile,


tipul, lungimea ( numărul de caractere ), numărul de zecimale, eticheta ( label ), codificarea stărilor
( values ), valorile lipsă, modalităţile de măsurare a variabilelor.

1. Numele variabilei se editează în coloana Name, trebuind să fie unic şi să


nu depăşească 8 caractere;
2. Tipul variabilei se defineşte în coloana Type după cum variabila este
numerică ( Numeric, Comma, Dot ), caz în care se pot introduce numere întregi şi zecimale, sau
nenumerică ( String );
3. Eticheta variabilei este necesară datorită limitării numelui variabilei la 8
caractere. Astfel în coloana Label se poate edita un nume folosind până la 256 caractere. ( se
foloseşte întrebarea din chestionar );

4. Valorile etichetei ( Value


Labels ) se definesc pentru
variabilele categoriale care
necesită codificarea stărilor.
Ex: stărilor variabilei
„specializarea” li s-au
atribuit coduri;

5. Alegerea sistemului de măsurare: Scale, Ordinal, Nominal.

În definirea variabilelor în SPSS o importanţă deosebită o constituie clasificarea


întrebărilor din chestionar, în: - întrebări închise
- întrebări deschise
- întrebări semi-deschise.
Întrebările închise necesită codificarea răspunsurilor. Codificarea variabilelor
presupune atribuirea de coduri numerice fiecărei variante, acordarea acestor coduri fiind pur
convenţională. De ex. pentru întrebarea „Ce specializare urmaţi?”, răspunsurile au fost codificate
cu valori numerice de la 1 la 9, fiind o variabilă de tip numeric şi ordinală.
Frecvente sunt variabilele alternative, care nu pot lua decât două valori. Ex :
“Intenţionaţi să urmaţi cursurile unui masterat?”, cu următoarele valori individuale pentru
caracteristica alternativă:
-- DA, exprimând prezenţa caracteristicii şi are asociat codul numeric 1 ;
-- NU, exprimând absenţa caracteristicii şi are asociat codul numeric 0 ;
În cazul întrebărilor deschise definirea atributelor variabilei se face după cum
răspunsul este exprimat prin cuvinte sau numeric. Ex. : “Ce propuneri aveţi pentru conducerea
facultăţii?” se va defini ca o variabilă de tip String şi nominală, răspunsurile fiind exprimate prin
cuvinte. În cel de-al doilea caz, vom defini variabila ca fiind de tip Numeric şi Scale. Ex : “Câte
ore de curs aţi frecventat săptămâna trecută ? ”
Codificarea întrebărilor semi-deschise se caracterizează prin faptul că fiecare variantă
de răspuns va deveni o variabilă alternativă, cu excepţia răspunsurilor libere care se tratează
asemenea întrebărilor deschise.
Introducerea datelor se face în celulele foii de lucru Data View, în care fiecare rând
reprezintă un subiect, iar fiecare coloană o variabilă. Atributele unei variabile se pot citi selectând
meniul Utilities – Variables.
II. Descrierea datelor în raport cu o variabilă

II.A. Analiza unei variabile nominale

A.1. Tabele de frecvenţe


Utilizând din bara de comenzi următoarele opţiuni Analyze – Descriptive Statistics –
Frequencies, se obţine tabelul de frecvenţe corespunzător repartiţiei eşantionului în raport cu
variabila considerată. ( ex: linia de studiu ):

Frequency Percent Valid Cumulative


Percent Percent
154 88.5 88.5 88.5
romana
20 11.5 11.5 100.0
maghiara 174 100.0 100.0
Total
Interpretare: Numărul celor care au răspuns la această
întrebare este 174 persoane (volumul eşantionului n =
174 ). Dintre aceştia 154 sunt la linia română, iar 20
aparţin liniei maghiare ( Frequency = frecvenţe absolute ). Cea de a doua coloană prezintă
frecvenţele relative, exprimate în procente: 88,5% din totalul repondenţilor aparţin liniei române
de studiu.

A.2. Grafice – graficele adecvate variabilelor ale căror stări sunt exprimate prin
cuvinte sunt diagramele de structură. Din meniul Graphs se alege opţiunea Pie ( cerc de structură )

linia de studiu
maghiara
11.5%

În cazul în care avem valori care


lipsesc ( Missing ) datorită non-răspunsurilor se
recomandă excluderea acestora în momentul
realizării graficului.
romana

88.5%
Ex: aveti restante acumulate din anii precedenti de
studiu
Frequency Percent Valid Cumulative Interpretare: la această întrebare au
Percent Percent răspuns doar 173 de persoane, din care
Valid nu 128 73.6 74.0 74.0
da 45 25.9 26.0 100.0
128 nu au restanţe din anii precedenţi,
Total 173 99.4 100.0 ceea ce reprezintă 73,6% din totalul
Missin System 1 .6 celor chestionaţi.
g
Total 174 100.0
aveti restante acumulate din anii precedenti de studiu
da
26.0%

nu
74.0%

Util în acest sens este şi graficul care redă structura eşantionului în raport cu
variabila luată în studiu
II.B. Analiza unei variabile ordinale
B.1. Tabele de frecvenţe
În meniul Analyze – Descriptive Statistics – Frequencies introducem o variabilă
ordinală, ex: media anului precedent:
media anului precedent
Frequency Percent Valid Cumulative Interpretare: cei mai mulţi studenţi (97) au
Percent Percent o medie cuprinsă în intervalul 7-9, ceea ce
Valid sub5 1 .6 .6 .6
5-7 16 9.2 9.3 9.9
reprezintă 55,7% din totalul celor care au
7-9 97 55.7 56.4 66.3 răspuns la această întrebare. Se observă că
9-10 58 33.3 33.7 100.0 66,3% din totalul repondenţilor au o medie
Total 172 98.9 100.0 anuală de cel mult 9 ( frecvenţe relative
Missing System 2 1.1 cumulate ).
Total 174 100.0

B.2. Parametrii repartiţiei unidimensionale: valoare mediană (Me), modală


(Mo), valori quartile ( Q 1 ,Q 2 ,Q 3 ).

Comanda Analyze – Descriptive Statistics


– Frequencies – Statistics ne conduce la
deschiderea unei ferestre în care selectăm
parametrii doriţi a se calcula referitor la
variabila studiată. În fereastra Charts
selectăm şi opţiunea Bar Charts pentru a
realiza graficul.
N Valid 172
Interpretare: ţinând cont de modul de codificare a variabilei
Missing 2
observăm că jumătate dintre studenţii chestionaţi au o medie
Median 3.00
Mode
situată până în intervalul 7-9 iar ceilalţi 50% peste acest interval.
3
Percentiles 25 Cei mai mulţi au o medie a anilor precedenţi aflată în intervalul 7-
3.00
50 9 ( Mo). Folosind valorile quartile, distribuţia eşantionului în
3.00
75 4.00
raport cu variabila “media anilor” se prezintă astfel : 25% dintre
studenţi au o medie situată până la intervalul 7-9, 25% în
intervalul 7-9, 25% în intervalele 7-9 şi 9-10, 25% în intervalul 9-10.

m edia anului precedent B.3. Grafice – în cazul variabilelor ordinale


60
graficele adecvate sunt diagramele de structură (Pie) şi diagramele
50
prin benzi (Barchart).

40

30

20

10
Percent

0
sub5 5-7 7-9 9-10

m edia anului prec edent


II.C. Analiza unei variabile cantitative
C.1. Tabele de frecvenţe

În meniul Analyze – Descriptive Statistics – Frequencies introducem o variabilă


cantitativă, discretă sau continuă, ex: vârsta:
varsta
Frequency Percent Valid Cumulative Cea mai mare frecvenţă o înregistrează
Percent Percent studenţii care au 22 de ani ( 108 ),
Valid 20 3 1.7 1.7 1.7
21 32 18.4 18.5 20.2
reprezentând 62,1% din totalul celor
22 108 62.1 62.4 82.7 chestionaţi. De asemenea 97,7% din
23 26 14.9 15.0 97.7 totalul repondenţilor au o vârstă de cel
24 2 1.1 1.2 98.8 mult 23 de ani.
26 1 .6 .6 99.4
28 1 .6 .6 100.0
Total 173 99.4 100.0
Missing System 1 .6
Total 174 100.0

C.2. Parametrii repartiţiei unidimensionale – se obţin accesând comanda


Analyze – Descriptive Statistics – Frequencies – Statistics şi selectând următorii parametrii:
valoarea medie (mean), mediana, modala, valorile quartile, abaterea medie pătratică (std.
deviation), varianţa, coeficientul de asimetrie (skewness), de boltire (kurtosis). În fereastra Charts
selectăm şi opţiunea Histogram/With normal curve.
N Valid 173 Interpretare: vârsta medie a studenţilor în eşantion este 22,01 ani
Missing 1 ( mean ); jumătate din cei 173 de studenţi au vârsta sub 22 de ani,
Mean 22.01
Median 22.00
cealaltă jumătate peste 22 de ani ( median ); cei mai mulţi
Mode 22 studenţi din eşantion au 22 de ani ( mode ); cu 0,87 ani se abate în
Std. .87 medie vârsta fiecărui student de la vârsta medie de la nivelul
Deviation eşantionului de 22,01 ani ( std. deviation );
Variance .76 În ceea ce priveşte parametrii formei, se observă că seria este
Skewness 2.341
Std. Error .185
asimetrică pozitiv, predominând studenţii tineri ( skewness>0 );
of în ceea ce priveşte boltirea seriei, avem o serie leptocurtică,
Skewness existând mai multe valori în jurul valorii medii decât în cazul
Kurtosis 14.635 distribuţiei normale.
Std. Error .367 Ultimele trei rânduri ale tabelului prezintă valorile
of Kurtosis
Percentiles 25 22.00
quartile, valori care împart repartiţia în patru părţi egale. Pachetul
50 22.00 de programe SPSS permite şi calculul valorilor decile.
75 22.00

C.3. Grafice – în cazul variabilelor cantitative continue graficul relevant este


histograma. Construirea acestui grafic presupune următorul demers: Graphs – Histogram,
selectând şi opţiunea Display normal curve.
160 Histograma permite vizualizarea
distribuţiei variabilei, fiind folosită pentru a
140
diagnostica cu uşurinţă dacă distribuţia este
120
normală prin compararea histogramei
variabilei observate cu graficul curbei
100 Gauss. În acest sens este utilă şi interpretarea
valorilor parametrilor formei. În cazul
80
variabilei „vârsta” se observă că aceasta nu
60 urmează o lege normală.

40

Std. Dev = .87


20
Mean = 22.0 Deşi coeficienţii de asimetrie şi
0 N = 173.00
boltire exprimă numeric în ce măsură o
20.0 22.0 24.0 26.0 28.0
distribuţie se abate de la normalitate, nu dau
varsta posibilitatea interpretării gradului de
semnificaţie a deviaţiei de la normalitate.
III. Analiza statistică a datelor în raport cu o variabilă utilizând inferenţa
statistică

III.1. Elaborarea intervalului de încredere a valorii medii


III.1.1. Elaborarea intervalului de încredere a valorii medii în
ipoteza organizării unui sondaj aleator simplu – cu ajutorul comenzii Analyze –
Descriptive Statistics – Explore introducem variabila studiată, având posibilitatea de a fixa nivelul
de încredere dorit (95%).

Statistic Std. Error


Mean 22.01 6.61E-02
95% Confidence Lower 21.88 Limita inferioară a intervalului
Interval for Mean Bound
Upper 22.14 Limita superioară a intervalului
Bound
5% Trimmed 21.97
Interpretare: Putem afirma cu o probabilitate de 95%
Mean că vârsta medie la nivelul populaţiei cercetate este
Median 22.00 între 21,88 şi 22,14 ani. Sau, dacă am efectua studiul
Variance .756 de 100 de ori ( 100 eşantioane ), în 95 de eşantioane
Std. Deviation .87 media va aparţine intervalului, şi numai în 5
Minimum 20
Maximum 28
eşantioane valoarea acesteia ar depăşi limitele
Range 8 intervalului.
Interquartile .00
Range
Skewness 2.341 .185
Kurtosis 14.635 .367
Acelaşi rezultat se obţine şi activând meniul Analyze
– Compare Means – One Sample T Test;

Test
Value = 0
t df Sig. (2- Mean 95% Confidence
tailed) Differe Interval of the
nce Difference
Lower Upper
333.047172 .000 22.01 21.88 22.14
III.1.2. Elaborarea intervalului de încredere a valorii medii în
ipoteza organizării unui sondaj aleator stratificat – în meniul Analyze – Compare
Means – One-way Anova introducem variabila cantitativă „vârsta”, dependentă de variabila factor
de grupare „specializarea”.

În Options se bifează opţiunea Descriptives.

Se obţin intervale de încredere pentru valorile


medii de la nivelul fiecărei grupe.

N Mean Std. Std. Error 95% Confidence Interval for Minimum Maximum
Deviation Mean

Lower Upper
Bound Bound
CIG 25 21.72 .46 9.17E-02 21.53 21.91 21 22
REI 18 21.89 .32 7.62E-02 21.73 22.05 21 22
FB 27 21.89 .75 .14 21.59 22.19 21 24
MK 24 22.29 .95 .19 21.89 22.69 21 26
MG 26 22.15 1.32 .26 21.62 22.69 21 28
IE 27 22.07 1.07 .21 21.65 22.50 20 24
SPE 12 22.17 .58 .17 21.80 22.53 21 23
ECTS 7 21.71 .49 .18 21.26 22.17 21 22
EA 7 22.14 .69 .26 21.50 22.78 21 23
Total 173 22.01 .87 6.61E-02 21.88 22.14 20 28
III.2. Teste de semnificaţie
III.2.1. Testarea semnificaţiei unei medii – face parte din grupa testelor
parametrice. Folosind şirul de comenzi Analyze – Compare Means – One Sample T Test
introducem variabila „vârsta” pentru care avem valoarea medie observată egală cu 22,01 ani;
dorim să verificăm dacă vârsta persoanelor din eşantionul observat diferă semnificativ de valoarea
25 de ani ( test value=25). Formulăm ipoteza nulă:
H 0 : X = 25 (vârsta medie nu diferă semnificativ de valoarea de 25 de ani)
H 1 : X ≠ 25

Test Value = 25 Interpretare: valoarea nivelului de


t df Sig. (2- Mean 95% semnificaţie Sig = 0,000 <0,05
tailed) Difference Confidenc
e Interval
( confidence interval ), ceea ce
of the duce la respingerea ipotezei nule.
Difference Există o diferenţă semnificativă
Lower Upper între valoarea medie din eşantion
-45.217 172 .000 -2.99 -3.12 -2.86 şi cea specificată. Pentru că Sig <
0,01 putem afirma că intre
valoarea medie de la nivel de eşantion şi cea specificată există diferenţe semnificative la un nivel
de încredere de 99%.

III.2.2. Testarea semnificaţiei unei proporţii – din meniul Analyze –


Nonparametric Tests – Binomial testăm ipoteze cu privire la o variabilă cu distribuţie binomială,
care poate lua doar două valori, de exemplu anul de studiu ( anul 4 sau anul 5 ):
Dorim să verificăm dacă proporţia uneia dintre cele două grupe de studenţi definite prin variabila
anul de „studiu” diferă semnificativ de 0,50.
Astfel formulăm ipotezele : H 0 : p = 50%
H 1 : p ≠ 50%

Category N Observed Test Prop. Asymp. Sig.


Prop. (2-tailed)
anul de Group 1 4 156 .90 .50 .000
studiu Group 2 5 18 .10
Total 174 1.00

Interpretare: proporţia observată în eşantion pentru grupa 1 ( anul 4 ) este de 90%, proporţia
specificată fiind de 50%. Valoarea Sig <0,01, astfel că putem concluziona, cu o încredere de 99%,
că proporţia studenţilor din anul 4 diferă semnificativ de proporţia specificată.
III.3. Teste de concordanţă – fac parte din categoria testelor neparametrice.
III.3.1.Verificarea normalităţii unei distribuţii – modelarea statistică
cere verificarea ipotezei de normalitate a variabilelor. Astfel, este foarte important ca înaintea
inferenţei statistice să se verifice normalitatea distribuţiei populaţiei. Pe lângă vizualizarea
histogramei şi a valorilor coeficienţilor de asimetrie şi boltire, în SPSS există posibilitatea aplicării
testului Kolmogorov – Smirnov, astfel: Analyze – Nonparametric Test – One Sample Kolmogorov-
Smirnov Test:
varsta Formulăm ipoteza nulă H 0 : între cele 2 distribuţii,
N 173
Normal Mean 22.01
cea teoretică şi cea empirică nu există diferenţe
Parameters semnificative ( populaţia este normal distribuită în
Std. Deviation .87 raport cu variabila „vârsta “), cu alternativa că
Most Extreme Absolute .332 variabila nu urmează o lege normală.
Differences Interpretare: nivelul gradului de semnificaţie, Sig <
Positive .332
Negative -.292 0,05 conduce la respingerea ipotezei nule, distribuţia
Kolmogorov- 4.365
Smirnov Z studiată diferă semnificativ de forma distribuţiei
Asymp. Sig. (2- .000
tailed) normale.
III.3.2. Verificarea uniformităţii unei distribuţii – se utilizează testul neparametric χ 2 ,
care presupune următorul demers: Analyze – Nonparametric Tests – Chi Square Test.

Formulăm ipotezele referitoare la variabila


“specializarea”:
H 0 : distribuţia este uniformă
H 1 : distribuţia nu este uniformă

În tabelul următor sunt


comparate frecvenţele observate cu
frecvenţele teoretice, pe coloana Residual
fiind prezentate diferenţele pentru fiecare stare
a variabilei. În acest exemplu se

Observed Expected Residual observă că sunt 24 de studenţi la secţia de marketing;


N N potrivit ipotezei de egalitate a proporţiilor, în fiecare
CIG 25 19.3 5.7
REI 18 19.3 -1.3
secţie ar trebui să fie 19,3 studenţi. În coloana Residual
FB 27 19.3 7.7 se observă diferenţa faţă de valorile teoretice: 4,7.
MK 24 19.3 4.7
MG 26 19.3 6.7
IE 27 19.3 7.7
SPE 12 19.3 -7.3
ECTS 7 19.3 -12.3
EA 8 19.3 -11.3 ce specializare urmati?
Total 174 Chi-Square 28.552
df 8
Asymp. Sig. .000

Interpretare: valoarea estimată a statisticii χ 2 este semnificativă la un nivel de încredere de 99%,


deoarece Sig <0,01, ceea ce conduce la respingerea ipotezei nule. Cele nouă categorii de studenţi
nu au aceeaşi proporţie; distribuţia nu este uniformă.
IV. Analiza statistică a datelor în raport cu două variabile.
IV.1. Cazul a două variabile nominale
1. Tabele de repartiţie bidimensionale – pentru a reda distribuţia
eşantionului în raport cu 2 variabile se procedează astfel: Analyze – Descriptive Statistics –
Crosstabs:

În fereastra Cells putem opta pentru opţiunea


Counts Observed, caz în care ne va afişa tabelul
bidimensional cu ajutorul frecvenţelor absolute,
sau alegând opţiunea Percentages, vom obţine
distribuţia eşantionului în raport cu cele 2
variabile cu ajutorul frecvenţelor relative.
daca ar fi a alegeti din nou Total Interpretare: tabelul redă distribuţia
pentru ce specializare ati studenţilor din eşantion în raport cu cele
opta?
aceeasi alta
două variabile, fiind construit cu ajutorul
ce CIG 22 3 25 frecvenţelor absolute. Ultima coloană şi
specializare REI 13 4 17 ultimul rând din tabelul de frecvenţe
urmati? FB 23 1 24 corespund repartiţiilor marginale.
MK 22 2 24
MG 15 10 25
IE 22 5 27
Ex: doar 2 din cei 24 de studenţi
SPE 9 3 12 chestionaţi de la secţia de marketing ar
ECTS 5 2 7 alege altă specializare.
EA 2 6 8 daca ar fi a alegeti din nou Total
pentru ce specializare ati
opta?
Total 133 36 169 aceeasi alta
ce CIG 13.0% 1.8% 14.8%
specializare REI 7.7% 2.4% 10.1%
urmati? FB 13.6% .6% 14.2%
MK 13.0% 1.2% 14.2%
Aceeaşi distribuţie a eşantionului în raport cu cele 8.9% 5.9% 14.8%
două variabile poate fii redată şi cu ajutorul
frecvenţelor relative. Se observă că 21,3% din totalul G
IE 13.0% 3.0% 16.0%
studenţilor ar alege altă secţie, un procent însemnat SPE 5.3% 1.8% 7.1%
având cei de la secţia management (5,9%). ECTS 3.0% 1.2% 4.1%
EA 1.2% 3.6% 4.7%
Total 78.7% 21.3% 100.0%
2. Grafice – adecvate în
acest caz sunt diagramele prin coloane.

30

20

10

daca ar fi a alegeti
Count

aceeasi

0 alta
CIG FB MG SPE EA
REI MK IE ECTS

ce specializare urmati?

3. Analiza asocierii dintre cele două variabile – presupune în prima


etapă verificarea existenţei legăturii dintre cele două variabile cu ajutorul testului χ 2 şi apoi
interpretarea coeficientului de contingenţă pentru a analiza gradul de asociere dintre variabile. Din
meniul Analyze – Descriptive Statistics – Crosstabs se aleg cele două variabile şi în fereastra
Statistics se selectează parametrii doriţi.
Se formulează ipotezele referitoare la existenţa legăturii:

H 0 : χ 2 = 0 ( nu există legătură )
H1: χ2 ≠ 0

Value df Asymp. Sig.


(2-sided)
Pearson Chi- 27.369 8 .001
Square
Likelihood Ratio 25.686 8 .001
Linear-by-Linear 10.197 1 .001
Association
N of Valid Cases 169

Interpretare: putem afirma cu o probabilitate de


95% ( Sig.< 0,05 ) că între cele două variabile
există legătură.
Value Approx.
Sig.
Nominal by Contingency .373 .001
Nominal Coefficient
N of Valid 169
Cases

Valoarea coeficientului de contingenţă este de 0,373, fiind semnificativ diferit de 0, deci legătura
dintre variabile este de intensitate medie.
IV.2. Cazul a două variabile ordinale
1. Tabele de repartiţie bidimensionale – şi în acest caz prezintă
importanţă repartiţia eşantionului în raport cu cele variabile atât sub forma frecvenţelor absolute,
cât şi relative. Această prezentare a datelor presupune următorii paşi: Analyze – Descriptive
Statistics – Crosstabs, în fereastra Cells alegând şi opţiunea Percentages. Cele două tipuri de
frecvenţe, absolute şi relative, se pot prezenta în acelaşi tabel de repartiţie.
2. Grafice – informaţii privind repartiţia eşantionului în raport cu două
variabile ordinale sunt disponibile şi din vizualizarea graficului adecvat – diagrama prin benzi.
Modul de obţinere a acestuia este: Graphs – Bar – Clustered.
70

60

50

40

30 media anului precede

sub5
20
5-7

10
7-9
Count

0 9-10
1 2 3 4 5 6 7 8

a cata optiune a fost specializarea la care studiati

3. Analiza corelaţiei – se realizează cu ajutorul coeficientului lui


Kendall, astfel: Analyze – Descriptive Statistics – Crosstabs, selectând în fereastra Statistics acest
coeficient.

Value Asymp. Approx. Approx.


Std. Error T Sig.
Ordinal by Kendall' -.252 .063 -3.765 .000
Ordinal s tau-b
N of Valid 172
Cases

Valoarea coeficientului lui Kendall de - 0,252 indică


faptul că între media anului precedent şi ordinea
repartizării pe secţii a studenţilor există o legătură
inversă, de intensitate slabă. Cu cât studenţii au o medie
mai mare, cu atât au şansa de a fi repartizaţi în secţia pentru care şi-au exprimat prima
preferinţă.Valoarea coeficientului este semnificativ diferită de 0 cu o probabilitate de 95% ( Sig.=
0,000 < 0,05 ).
IV.3. Cazul a două variabile cantitative
1. Tabele de repartiţie bidimensionale – se parcurg aceleaşi etape ca şi
mai sus;
2. Grafice – pentru a reda repartiţia eşantionului folosim în acest caz
norul statistic. Demersul pentru construirea acestuia este: Graphs – Scatter – Simple. Construirea
norului statistic constituie prima etapă în analiza legăturii dintre două variabile numerice. În
funcţie de poziţiile punctelor norului putem formula de asemenea ipoteze cu privire la forma
funcţiei care explică legătura dintre variabile.
14
cate ore de seminar ati frecventat sapt trecuta

12

10

0
0 2 4 6 8 10 12 14 16 18 20

cate ore de curs ati frecventat sapt trecuta

Se observă în distribuţia punctelor o valoare extremă ( 18 ore curs ); se recomandă ca valorile


extreme să fie înlăturate înaintea aplicării testelor statistice pentru a nu influenţa calitatea
rezultatelor.

3. Analiza corelaţiei – presupune calculul coeficientului lui Pearson,


utilizând meniul Analyze – Correlate – Bivariate.

Vom analiza legătura dintre numărul de ore


de curs şi cele de seminar frecventate de
studenţi într-o săptămână. Coeficientul lui
Pearson ne oferă informaţii atât despre
sensul legăturii, cât şi despre intensitatea
legăturii.

cate ore de curs cate ore de seminar


ati frecventat sapt ati frecventat sapt
trecuta trecuta
cate ore de Pearson 1 .665
curs ati Correlation
frecventat sapt Sig. (2-tailed) . .000
trecuta N 170 169
cate ore de Pearson .665 1
seminar ati Correlation
frecventat sapt Sig. (2-tailed) .000 .
trecuta N 169 170
Se obţine matricea de corelaţie, valorile fiind distribuite simetric faţă de diagonala principală.
Valoarea coeficientului lui Pearson este de 0,665, ceea ce sugerează că între variabile există o
corelaţie directă, de intensitate medie.
Valoarea acestui coeficient este semnificativ diferită de 0, ipoteza existenţei legăturii
fiind acceptată cu o probabilitate de 95% ( Sig.< 0,05 ).
Dacă analizăm din nou corelaţia dintre cele două variabile, dar după indepărtarea
valorilor extreme din eşantion, rezultatele vor fi mai concludente:
Correlations
cate ore de cate ore de curs ati Se observă că intensitatea
seminar ati frecventat sapt legăturii după înlăturarea
frecventat sapt trecuta
trecuta
valorilor extreme se modifică,
cate ore de Pearson 1 .721 legătura dintre cele două
seminar ati Correlation variabile fiind mai bine pusă în
frecventat sapt Sig. (2-tailed) . .000 evidenţă.
trecuta N 170 169
cate ore de Pearson .721 1
curs ati Correlation
frecventat sapt Sig. (2-tailed) .000 .
trecuta N 169 170
IV.4. Testarea egalităţii a două medii ( eşantioane independente ) – este un test
parametric care verifică dacă mediile a două grupe sunt egale. În SPSS presupune următorul
demers: Analyze – Compare Means –
Independent Samples T Test.
De exemplu, dorim să testăm dacă, la nivelul
eşantionului observat, numărul mediu de ore
de curs frecventate de studenţii din anul 4
este diferit de numărul mediu de ore de curs
frecventate de studenţii din anul 5.
Variabila de grupare va fi în acest caz anul
de studiu, în definirea grupelor ţinând cont
de codificările făcute pentru stările acesteia (
1 – anul 4, 2 – anul 5 ).
Ipoteza privind egalitatea mediilor se formulează astfel:
H0: X 1 = X 2

H1: X 1 ≠ X 2

anul de N Mean Std. Std. Error Dorim să verificăm dacă numărul


studiu Deviation Mean mediu de ore de curs frecventate de
cate ore de curs ati 4 153 5.29 3.377 .273
frecventat sapt 5 17 3.65 2.668 .647
studenţii din anul 4 ( 5,29≈5 ),
trecuta diferă semnificativ de 3,65≈4
(numărul mediu de ore de curs
frecventate de studenţii din anul 5 ).
Construcţia testului pentru compararea mediilor a două eşantioane presupune testarea în
prealabil a egalităţii varianţelor la nivelul celor două grupe. Statistica t se calculează diferit după
cum dispersiile sunt egale sau nu la nivelul celor două grupe. Ca urmare, formulăm ipoteza nulă şi
alternativa referitoare la egalitatea dispersiilor:H 0 : σ 12 = σ 22 iar H 1 : σ 12 ≠ σ 22
Levene's Test for Equality of t-test for Equality of Means
Variances
Sig. (2- Mean
F Sig. t df tailed) Difference
cate ore Equal variances .706 .402 1.935 168 .055 1.64
de curs ati assumed
frecventat Equal variances 2.336 22.130 .029 1.64
sapt not assumed
trecuta
Interpretare: probabilitatea de acceptare a ipotezei nule în cazul egalităţii varianţelor este
de 0,402 ( > 0,05 ), varianţele la nivelul celor două grupe sunt egale. Pentru a verifica egalitatea
mediilor folosim statistica t corespunzătoare cazului în care dispersiile sunt egale. În acest caz,
testul t este egal cu 1,935, cu 168 grade de libertate şi un nivel de semnificaţie de 0,055 ( Sig.>
0,05 ), ceea ce arată că nu se poate trage concluzia că cele două medii diferă semnificativ.

IV.5. Testarea legăturii dintre două variabile – dorim să verificăm dacă


modificarea variabilei dependente Y este rezultatul influenţei variabilei explicative X. Pentru a
testa existenţa legăturii procedăm astfel: Analyze – Compare Means – One Way Anova. ANOVA
este un procedeu de analiză a unei variabile numerice sub influenţa unei variabile de grupare care
prezintă mai multe stări.
De exemplu dorim să verificăm dacă
există legătură între numărul de ore
de curs frecventate şi media anuală.

În meniul Options avem posibilitatea selectării graficului pentru a formula ipoteze cu


privire la forma legăturii dintre cele două variabile.
Sum of df Mean Sig. Cu cât mediile grupelor au valori
Squares Square mai diferite între ele, cu atât
Between 114.321 3 38.107 3.524 .016
Groups
variaţia dintre grupe este mai
Within 1773.298 164 10.813 mare; cu cât variaţia în cadrul
Groups grupelor este mai mică, cu atât
Total 1887.619 167 statistica F este mai mare (F =
media varianţei dintre grupe
/media varianţei din cadrul grupei ) şi numărul orelor de curs frecventate variază mai mult în raport
cu media anuală.
Se formulează ipoteza nulă H 0 : F = 0, adică dispersia dintre grupe este nulă şi deci grupele nu
sunt diferite între ele, adică media anuală nu influenţează numărul orelor de curs frecventate de
studenţi. Deoarece probabilitatea de a greşi când respingem ipoteza este 0,016< 0,05, rezultă că
ipoteza nulă se respinge, adică media influenţează frecvenţa la cursuri,. În cadrul fiecărui interval
al mediei anului precedent, studenţii sunt relativ omogeni din punct de vedere al frecventării
cursurilor, media anului precedent fiind un criteriu semnificativ de segmentare.
Mean of cate ore de curs ati frecventat sapt trecuta

0
1
2
3
4
5
6
7

sub5

media anului precedent


5-7
7-9
9-10