Documente Academic
Documente Profesional
Documente Cultură
Exemplu
Testarea egalitii a dou medii.(Independent Samples Test). Formulm ipoteza nul c nota
medie acordat de femei nu difer semnificativ de nota medie acordat de barbai pentru gustul
berii XX, cu alternativa c aceste medii difer semnificativ. Eantioanele utilizate n prelucrarea
datelor sunt independente. Rezultatele privind media i abaterea standard n eantion, ct i
abaterea estimatorilor, sunt redate n tabelul urmtor:
Tabelul7.2 Parametrii celor dou eantioane
Sex
Media n Abaterea
Abaterea
eantion standard estimatorului
8,7375 1,11086
0,12420
8,3673
0,97746
0,09195
diferit dup cum varianele sunt egale sau nu la nivelul celor dou grupe. Ca urmare, formulm
ipoteza nul i alternativa referitoare la egalitatea varianelor:
H 0 : 12 = 22
H 1 : 12 22
Se aplic testul F, iar n cazul analizat Fcalc= 1,782. Cum nivelul de semnificaie este de 0,183
nu putem respinge ipoteza nul, ca urmare vom considera c varianele n cele dou populaii
sunt egale. n consecin t(calc)=2,449 iar pentru 191 grade de libertate, t(tab)=1,95. Cum
t(calc)>t(tab), rezult c ipoteza nul este respins, respectiv femeile au acordat note mai mari
pentru gustul berii XX, dect brbaii.
Tabelul7.3 Testul F i testul t
Testul F privind egalitatea a
dou variane
Note
Cazul
acordate
egalitii
pentru gustul varianelor
sortimentului
Cazul
de bere XX
Sig.
1,782
0,183
2,449
191
0,015
2,396
156,232
0,018
inegalitii
varianelor
n i 1
n 1 i 1
Se va aplica testul t, cu comanda Analyze Compare Means- Paired Samples Statistics).
Exemplu
Pentru a urmri reacia consumatorilor fa de noul ambalaj al berii XX, comparativ cu vechiul
ambalaj, un eantion de 96 persoane au acordat note n cele dou cazuri, datele fiind prezentate
n tabelul urmtor:
Tabelul 7.4 Parametrii de la nivelul eantionului
n
Media
Note acordate pentru 7,9271
vechiul ambalaj al
sortimentului XX
Note acordate pentru 8,5000
noul ambalaj al
sortimentului XX
96
Abaterea
Abaterea
standard estimatorului
1,03867
0,10601
96
0,98408
0,10044
Formulm ipotezele:
H0 : d 0
H1 : d 0
unde d exprim diferena dintre cele dou variabile (note acordate pentru vechiul ambalaj al
sortimentului XX i note acordate pentru noul ambalaj al sortimentului XX ). Pentru testarea
acestei ipoteze se va folosi testul t, rezultatele aplicrii acestuia fiind redate n tabelul urmtor:
Tabelul 7.5 Testul t (eantioane perechi)
Diferena dintre cele dou
variabile
Grade de Nivel de
liber- semnitate
ficaie
95
0,000
r( X ,Y )
cov( X , Y )
XY
M ( XY ) M ( X ) M (Y )
XY
1;1
cov ( X , Y )
1;1
s X sY
Exemplu
Analiza corelaiei presupune calculul coeficientului lui Pearson, utiliznd meniul Analyze
Correlate Bivariate
Pentru a studia corelaia dintre dou variabile cantitative vom folosi coeficientul de corelaie a
lui Pearson, variabilele luate n studiu fiind urmtoarele: note acordate pentru ambalajul
sortimentului ..., note acordate pentru gustul sortimentului..., note acordate pentru pretul
sortimentului.... Din tabelul urmtor se observ c acest coeficient nregistreaz valori destul de
mici (0,357; 0,319; 0,336), dar totui diferite de zero, ceea ce ne ndrepteste s afirmm c ntre
aceste variabile exist legtur de intensitate mic. In sprijinul concluziei de mai sus vine nivelul
de semnificaie care este egal cu 0,000 n toate cazurile, respectiv formulm ipoteza c r=0 (nu
exist corelaie ntre variabile)cu alternativa c r difer semnificativ de zero(exist corelaie ntre
variabile). Ipoteza nul fiind respins spunem c exist corelaie dar de intensitate mic.
Tabelul 7.6 Coeficientul de corelaie
Note acordate
Note
Note
pentru
acordate
acordate
ambalajul
pentru
pentru pretul
sortimentului. gustul sortimentului
.
sortimentulu
i
Note
Coeficientul
1
0,357
0,319
acordate de corelatie
pentru
a lui
ambalajul
Pearson
sortimentului
.
Nivel de
0,000
0,000
semnificaie
N
192
192
191
Note
Coeficientul
0,357
1
0,336
acordate de corelatie
pentru gustul
a lui
sortimentului Pearson
.
Nivel de
0,000
0,000
semnificaie
N
192
193
192
Note
Coeficientul
0,319
0,336
1
acordate de corelatie
pentru pretul
a lui
sortimentului Pearson
.
Nivel de
0,000
0,000
semnificaie
N
191
192
192
metode statistice. Legea statistic nu poate fi pus n eviden la nivelul fiecrui caz
particular, fiecrui element n parte, ci numai la nivelul unei mase de evenimente cu structur
complet.
Analiza regresiei bivariata este un procedeu statistic adecvat analizei
relaiei dintre dou variabile atunci cnd una este considerat variabil dependent, iar
cealalt variabil independent. De exemplu, am putea fi interesai de analizarea relaiei dintre
vnzri (variabil dependent) i cheltuieli de publicitate (variabil independent). Dac
relaia dintre acestea poate fi estimat prin analiza regresiei, cercettorul poate previziona
vnzrile pentru diferite niveluri de cheltuieli publicitare. 1
Pentru a studia relaia dintre variabilele dependente i independente, datele pot fi
reprezentate ntr-o diagram. Variabila dependent Y este reprezentat pe axa vertical, iar
variabila independent X este reprezentat pe axa orizontal. Prin examinarea diagramei
putem determina dac relaia dintre cele dou variabile (dac ea exist) este liniar sau curb,
parabolic etc.
Metoda celor mai mici ptrate
Metoda celor mai mici ptrate este cea mai simpl metod matematic care poate
fi folosit pentru determinarea unei funcii liniare pentru X i Y, care s reprezinte legtura
dintre cele dou variabile. Nici o linie dreapt nu poate reprezenta perfect fiecare observaie
de pe diagram.
Metoda celor mai mici ptrate conduce la determinarea unei funcii care s
corespund cel mai bine observaiilor actuale (punctelor). Altfel spus, suma ptratelor
deviaiilor de la linie (ptratul diferenelor dintre puncte i linie) va fi mai mic dect pentru
oricare alt linie care poate s corespund observaiilor.
Ecuaia general pentru linie este Y a bX . Ecuaia estimativ pentru analiza regresiei
^
^
este
Y ( X ) a b X e
Unde:
Y= variabila dependent
a = constanta
^
b = coeficientul de regresie
X= variabila independent
e = eroarea (reziduul) diferena dintre valoarea real i valoarea estimat prin
linia regresiei
^
X Y nXY
X n( X )
i i
2
i
^
^
a Y b X
unde:
Figura 7.1 Linii de regresie cu a)panta pozitiva, b) panta negativa, c) panta egala cu 0
Raportul de determinaie- R 2
Funcia regresiei estimat descrie natura relaiei dintre X i Y. n plus, ne
intereseaz puterea relaiei dintre X i Y. Coeficientul de determinie, R 2 , este msura puterii
relaiei liniare dintre cele dou variabile. Coeficientul de determinaie msoar procentul
variaiei totale a lui Y care se explic prin variaia lui X. Acest coeficient variaz ntre 0 i
1. Dac exist o relaie perfect liniar ntre X i Y atunci toate variaiile lui Y se explic prin
variaiile lui X i R 2 este 1. La cealalt extrem, dac nu exist nici o relaie ntre X i Y,
atunci nici una din variaiile lui Y nu se explic prin variaia lui X i coeficientul de
determinaie este 0.
R2
variatia explicata
variatia totala
R2 1
(Y
i 1
n
(Y
i 1
Yi ) 2
Y ) 2
Dac, de exemplu, R 2 0,80 , 80% din variaia lui Y se explic prin variaia lui X, nsemnnd
c exist o relaie liniar puternic ntre X i Y.
SST (Yi Y ) 2 Yi 2 ( i 1
n
i 1
i 1
Variaia explicat sau suma ptratelor conform regresiei (sum of squares due to
regression SSR) este dat de relaia:
n
Yi
n
n
2
i 1
SSR ( Y i Y ) a Yi b X i Yi (
)2
n
i 1
i 1
i 1
n
Dac Yi Y i pentru fiecare valoare a lui X atunci s-a realizat o potrivire perfect. Toate
valorile observate a lui Y se vor afla atunci pe linia determinat a regresiei.
Variaia rezidual sau sumele erorilor ptratelor (error sums of squares
SSE) se obine astfel:
n
i 1
i 1
i 1
SSE (Yi Y i ) 2 Yi 2 a Yi b X i Yi
i 1
SSE reprezint diferena rezidual (eroarea) dintre valorile observate i cele estimate ale lui
Y. Dac potrivirea ar fi perfect, atunci SSE ar fi egal cu 0.
Inainte de lansarea procedurii de analiz regresional se recomand realizarea reprezentrii
grafice Scatterplot (nor statistic )adecvate care s ajute luarea deciziei privind forma funciei de
regresie.
Pentru a obine norul statistic se utilizeaz comanda Graphs >
Scatter... Simple. Dup acionarea butonului Define se afieaz dialogul de fixare a variabilelor
i a opiunilor asociate.
Se va trece variabila dependent n zona Y Axis i variabila independent n zona X Axis. Se pot
diferenia (prin marcaje diferite) observaiile care aparin la diverse grupuri dac se trece
variabila care face diferena n zona Set Markers by.
Titlurile se pot aduga prin deschiderea dialogului Titles. Acionarea butonului OK va produce
trasarea graficului, obiect n fiierul de ieire.
Dup obinerea diagramei se poate iniia editrea norului statistic. Prin urmare, dublu click pe
grafic va deschide fereastra de editare.
n aceast fereastr, prin dublu click pe un element se deschid dialoguri specializate de
formatare. Opiunile disponibile pentru trasarea dreptelor de regresie se gsesc n dialogul Fit
Line.
Pentru trasarea dreptelor de regresie se va selecta opiunea Linear sau Quadratic sau Cubic sau
Loess i se poate cere includerea sau nu a constantei n regresie, afiarea coeficientului de
determinare etc.
In csua Statistics se deschide dialogul sinonim n care se pot preciza statisticile calculate. Unele
opiuni sunt selectate i n mod implicit. Astfel aceste opiuni se refer la: Estimates
coeficienii estimai, Confidence intervals intervalele de ncredere ale coeficienilor, Model fit
calcularea statisticilor R, R2 i a tabelului ANOVA, R squared change modificrea
coeficientului de determinare i testarea semnificaiei schimbrii la adugarea fiecrui bloc de
variabile, Descriptive statisticile eseniale pentru fiecare variabil. n zona Residuals se
produce o analiza a reziduurilor pentru a putea decide asupra normalitii acestora i a
diagnostica valorile aberante. De asemenea cu ajutorul testului Durbin-Watson verificm dac
reziduurile sunt independente sau nu.
Din opiunea Plots bifm Histogram i Normal Probability Plot pentru a se realiza
reprezentarea grafic a reziduurilor. La Options avem posibilitatea de a include sau nu
constanta n ecuaie i de a utiliza testul F n verificarea ipotezelor referitoare la
reprezentativitatea modelului. n cazul n care avem unele valori lips (nu prea multe) ne
folosim de opiunea de Replace with mean pentru nlocuirealor cu media valorilor observate.
Exemplu
Dac considerm ca variabil dependent -salariul i ca variabil factor ani de studiu,
rezultatele analizei se prezint astfel:
Tabelul 7.7 Descriptive Statistics
Mean
Salariu curent (dolari)
Ani de studio
Std. Deviation
14247.34
7451.458
157
13.63
2.942
157
In tabelul 7.7 se prezint media i abaterea standard aferente celor dou variabile calculate la nivelul
eantionului de 157 respondeni.
Tabelul Model Summary conine informaiile care privesc coeficientul de corelaie (0,662)i eroarea
standard a estimaiei (5604,286). De remarcat coeficientul de determinare R 2 care exprim ct la sut
din variana variabilei dependente este explicat de ecuaia de regresie, respectiv 43,8%.
Tabelul 7.8 Model Summaryb
Model
.662a
R Square
.438
5604.286
DurbinWatson
1.913
n tabelul ANOVA, informaia important este statistica F cu ajutorul creia se testeaz semnificaia
global a variabilelor independente (doar una n cazul regresiei simple, procedura capt substan n
cazul regresiei multiple). Pe coloana Sig. este afiat probabilitatea crritic a testului, astfel c dac
Sig < se respinge ipoteza lipsei de semnificaie a variabilelor independente n favoarea ipotezei c
modelul regresional este unul semnificativ. Se mai spune c testul este un test de semnificaie asupra
lui R2.
Sum of
Squares
Mean
Square
df
Regression
3.794E9
Residual
4.868E9
155
Total
8.662E9
156
3.794E9 120.782
Sig.
.000a
3.141E7
Std. Error
Standardized
Coefficients
Beta
Sig.
-8596.926
2126.198
-4.043
.000
1675.958
152.497
.662 10.990
.000
i 1 j 1
(nij nij ) 2
nij
- nij
ni * n j
2
n 2
unde n este volumul eantionului. Ne intereseaz care sunt limitele acestui coeficient, pentru
a-i putea aprecia valorile numerice pe care le ia. Reamintim c 2 este o msur global a
distanei dintre dou repartiii: cea observat i cea teoretic corespunztoare cazului n care
nu exist legtur ntre variabile.
- dac 2 0 atunci C 0
- dac 2 atunci C 1
ca urmare, C [ 0 ; 1 )
Interpretarea gradului de asociere pe baza coeficientului este urmtoarea:
- dac C 0 asocierea este nul (lipsa legturii)
- dac C ( 0 ; 0,3 ) asocierea este de intensitate slab
2
nt
Total
24
% din
Total
de 2-3 ori
pe
sptmn
ocazional
% din
Total
% din
Total
Total
% din
Total
0,6%
1,7%
1,7%
2,9%
6,9%
31
35
25
100
2,6%
8,9%
10,1%
7,2%
28,8%
29
55
76
63
223
8,4%
15,9%
21,9%
18,2%
64,3%
40
92
117
98
347
11,5%
26,5%
33,7%
28,2%
100,0%
Grafice adecvate n acest caz sunt diagramele prin coloane (figura 7.2).
Analiza asocierii dintre cele dou variabile presupune n prima etap verificarea existenei
legturii dintre cele dou variabile cu ajutorul testului 2 i apoi interpretarea coeficientului de
contingen pentru a analiza gradul de asociere dintre variabile. Din meniul Analyze
Descriptive Statistics Crosstabs se aleg cele dou variabile i n fereastra Statistics se
selecteaz parametrii dorii.
347
Total
Gradul de
Deloc
importanta important
al gustului
Putin
in alegerea
important
marcii de
bere
Important
Foarte
important
Total
zilnic
de 2-3 ori pe
saptamana
ocazional
4.2%
.0%
.0%
.3%
4.2%
1.0%
2.2%
2.0%
22
43
71
25.0%
22.0%
19.3%
20.5%
16
77
175
268
66.7%
77.0%
78.5%
77.2%
24
100
223
347
100.0%
100.0%
100.0%
100.0%
347
347
100
67
77
78
90
80
70
60
50
40
30
Foarte important
25
Count
20
Important
22
19
Putin important
10
0
Deloc important
zilnic
ocazional
Lambda
Error
Approx.
Sig.
Symmetric
.005
.005
.317
Gradul de importanta al
.000
.000
.c
.008
.008
.317
.004
.006
.693d
.010
.004
.309d
Goodman
Gradul de importanta al
and Kruskal gustului in alegerea marcii
tau
de bere Dependent
Frecventa consumului de
bere Dependent
a. Not assuming the null hypothesis.
(cazul n care gradul de importan al gustului este variabil dependent). La fel si coeficientul
tau este aproape de zero, tau=0,004, ceea ce constatm c reducerea erorii de predicie este
nesemnificativ.
Un caz particular de analizat este acela n care ambele variabile sunt binare (au dou stri). Ceea
ce este specific acestei situaii se refer la calcularea intensitii asocierii, respectiv se utilizeaz
coeficicientul Phi and Cramer
Approx. Sig.
.171
.001
.171
.001
346
unitilor, iar n raport cu variabila Y pstrm ordinea unitilor i deci o succesiune oarecare
(rezultat din ordonarea n raport cu X) a rangurilor ri , unde ri , i 1,...,n reprezint unul i
numai unul din numerele naturale de la 1 la n. Pentru fiecare rang ri , i 1,...,n , se determin
numrul rangurilor mai mari dect ri situate la dreapta, numr pe care l notm cu Pi . nsumnd
toate numerele Pi , i 1,...,n se obine un numr notat cu P pe care l numim indicator de
concordan.
n mod asemntor, pentru fiecare rang ri , i 1,...,n , se determin numrul
rangurilor mai mici dect ri situate la dreapta, numr pe care l notm cu Qi . nsumnd toate
numerele Qi , i 1,...,n se obine un numr notat cu Q pe care l numim indicator de
discordan. Relativ
la
aceti
doi
n(n 1)
PQ
indicatori se verific
2
relaia:
P Q n(n 1)
2
Interpretarea intensitii legturii pe baza acestui coeficient [-1; 1] se va face astfel:
- dac 0 legtura este direct
- dac 0 legtura este nul
- dac 0 legtura este invers
- dac [0 ; 0,3) legtura este de intensitate slab
-
6 d i2
i 1
n( n 2 1)
SPSS calculeaz mai muli coeficieni pentru variabile ordinale care toate pleac de la
compararea numrului de perechi concordante cu cel al numrului de perechi discordante de
cazuri. Aici este cazul coeficientului Gamma, Kendall tau-b, Kendal tau-c.
n plus, SPSS calculeaz i un coeficient direcional pentru variabile ordinale d al lui Somers,
care se folosete cu premisa c una dintre variabile este cauz iar alta efect.
Pentru analiza corelaiei dintre dou variabile ordinale i interpretarea rezultatelor avem nevoie
de urmtoarele prelucrri:
- tabele de repartiie bidimensionale i n acest caz prezint importan repartiia eantionului
n raport cu cele dou variabile att sub forma frecvenelor absolute, ct i relative. Aceast
prezentare a datelor presupune urmtorii pai: Analyze Descriptive Statistics Crosstabs, n
fereastra Cells alegnd i opiunea Percentages. Cele dou tipuri de frecvene, absolute i
relative, se pot prezenta n acelai tabel de repartiie.
- Grafice informaii privind repartiia eantionului n raport cu dou variabile ordinale sunt
disponibile i din vizualizarea graficului adecvat diagrama prin benzi. Modul de obinere a
acestuia este: Graphs Bar Clustered.
- Analiza corelaiei se realizeaz cu ajutorul coeficientului lui Kendall, astfel: Analyze
Descriptive Statistics Crosstabs, selectnd n fereastra Statistics coeficienii dorii.
Deloc
Puin Important Foarte
important important
important
Deloc important
18
8
9
10
Puin important
9
25
23
8
Important
9
40
64
39
Foarte important
4
19
21
41
Total
40
92
117
98
Total
45
65
152
85
347
0,302
0,266
0,054
0,048
5,881
5,483
0,000
0,000
0,366
0,064
5,483
0,000
347
Figura 7. 6 Bar-chart
Cazul b. Gradul de importanta al notorietatii in alegerea marcii de bere/ Gradul de importanta
al ambalajului in alegerea marcii de bere
Tabelul 7.21 Coeficieni de corelaie
Valori Asymp. Approx. Nivel de
Std. Error
T
semnificaie
Kendall
0,047
4,385
0,000
0,210
Spearman
Gamma
0,238
0,302
0,053
0,066
4,558
4,385
0,000
0,000
Somers
simetric
n
0,210
0,047
4,385
0,000
347
Observm la fel c exist corelaie ntre aceste variabile (nivelul de semnificaie < 0,05), dar de
intensitate mic (k=0,210).
Cazul c. Gradul de importan al notorietii n alegerea mrcii de bere/ Gradul de importanta
al gustului in alegerea marcii de bere
Tabelul 7.22 Coeficieni de corelaie
Valori Asymp. Approx. Nivel de
Std. Error
T
semnificaie
Kendall
0,047
1,009
0,048
0,313
Spearman
0,052
0,052
0,974
0,331
Gamma
Somers
simetric
n
0,093
0,045
0,092
0,045
1,009
1,009
0,313
0,313
347
Gradul de
importanta al
Coefficient
Sig. (2-tailed)
Gradul de
Gradul de
Gradul de
importanta al
importanta al
importanta al
gustului
ambalajului
pretului .
1.000
.153**
.024
.002
.636
347
347
347
.153**
1.000
.040
gustului
N
Gradul de
Coefficient
importanta al
Sig. (2-tailed)
.002
.399
347
347
347
Gradul de
Coefficient
.024
.040
1.000
importanta al
Sig. (2-tailed)
.636
.399
347
347
347
ambalajului
pretului