Curs 5

7.
1 Testarea egalitii a dou medii, cazul eantioanelor independente

Cnd testm o iptez asupra a dou medii ncercm s determinm, cu ajutorul a
dou eantioane dac exist o diferen semnificativ statistic, ntre mediile celor dou populaii.
Ipoteza nul este formulat astfel: nu exist diferene semnificative ntre mediile celor dou
populaii, respective populaiile sunt identice n raport cu parametrul medie.
Este un test parametric care verific dac mediile a dou grupe sunt egale. n SPSS
presupune urmtorul demers: Analyze Compare Means Independent Samples T Test.
Exemplu
Testarea egalitii a dou medii.(Independent Samples Test). Formulm ipoteza nul c nota
medie acordat de femei nu difer semnificativ de nota medie acordat de barbai pentru gustul
berii XX, cu alternativa c aceste medii difer semnificativ. Eantioanele utilizate n prelucrarea
datelor sunt independente. Rezultatele privind media i abaterea standard n eantion, ct i
abaterea estimatorilor, sunt redate n tabelul urmtor:
Tabelul7.2 Parametrii celor dou eantioane
Sex
Note acordate Feminin 80

pentru gustul
sortimentului Masculin 113
de bere XX
Media n Abaterea
Abaterea
eantion standard estimatorului
8,7375 1,11086
0,12420
8,3673
0,97746
0,09195
Construcia testului pentru compararea mediilor a dou eantioane presupune

testarea n prealabil a egalitii varianelor la nivelul celor dou grupe. Statistica t se calculeaz
diferit dup cum varianele sunt egale sau nu la nivelul celor dou grupe. Ca urmare, formulm
ipoteza nul i alternativa referitoare la egalitatea varianelor:
H 0 : 12 = 22
H 1 : 12 22
Se aplic testul F, iar n cazul analizat Fcalc= 1,782. Cum nivelul de semnificaie este de 0,183
nu putem respinge ipoteza nul, ca urmare vom considera c varianele n cele dou populaii
sunt egale. n consecin t(calc)=2,449 iar pentru 191 grade de libertate, t(tab)=1,95. Cum
t(calc)>t(tab), rezult c ipoteza nul este respins, respectiv femeile au acordat note mai mari
pentru gustul berii XX, dect brbaii.
Tabelul7.3 Testul F i testul t
Testul F privind egalitatea a
dou variane
Note
Cazul
acordate
egalitii
pentru gustul varianelor
sortimentului
Cazul
de bere XX
Testul t privind egalitatea a

dou medii
Grade de Nivelul de
libertate semnificaie
Sig.
1,782
0,183
2,449
191
0,015
2,396
156,232
0,018
inegalitii
varianelor
7.2 Testarea egalitii a dou medii, cazul eantioanelor perechi.

Eantioane perechi, presupune ca fiecrei uniti din eantionul A s-i corespund o
unitate din eantionul B, urmrindu-se aceeai variabil. Astfel de eantioane sunt folosite atunci
cnd se urmrete evoluia unei variabile n timp sau efectul unei aciuni.
Se consider c variabila studiat este o variabil cantitativ X, astfel fiecrui
cuplu i se calculeaz diferena
d i X Ai X Bi
unde X Ai X Bi sunt valorile variabilei X pentru cuplu i. Astfel vom obine n valori pentru d,
aferente fiecrui cuplu i, i 1, n (mai multe amnunte vezi parag. 5.4) . Ca urmare se poate
1 n
1 n
(d i d ) 2 .
calcula media acestor valori, d d i i variana s d2
n i 1
n 1 i 1
Se va aplica testul t, cu comanda Analyze Compare Means- Paired Samples Statistics).
Exemplu
Pentru a urmri reacia consumatorilor fa de noul ambalaj al berii XX, comparativ cu vechiul
ambalaj, un eantion de 96 persoane au acordat note n cele dou cazuri, datele fiind prezentate
n tabelul urmtor:
Tabelul 7.4 Parametrii de la nivelul eantionului
n
Media
Note acordate pentru 7,9271
vechiul ambalaj al
sortimentului XX
Note acordate pentru 8,5000
noul ambalaj al
sortimentului XX
96
Abaterea
Abaterea
standard estimatorului
1,03867
0,10601
96
0,98408
0,10044
Formulm ipotezele:
H0 : d 0
H1 : d 0
unde d exprim diferena dintre cele dou variabile (note acordate pentru vechiul ambalaj al
sortimentului XX i note acordate pentru noul ambalaj al sortimentului XX ). Pentru testarea
acestei ipoteze se va folosi testul t, rezultatele aplicrii acestuia fiind redate n tabelul urmtor:
Tabelul 7.5 Testul t (eantioane perechi)
Diferena dintre cele dou
variabile
Grade de Nivel de
liber- semnitate
ficaie
Media Abaterea Abaterea

standard estimatorului
Note acordate -0,5729 1,01302 0,10339 -5,541

pentru vechiul
ambalaj al
sortimentului
XX -Note
acordate pentru
noul ambalaj al
sortimentului
XX
95
0,000
Se observ c tcalc=-5,541, cum t(tab, 95, q=5%)=1,959 iar tcalc >t(tab),

ipoteza nul este respins. Deoarece d 0 , rezult c nota medie acordat noului ambalaj este
mai mare dect nota medie acordat vechiului ambalaj, respectiv noul ambalaj este mai apreciat
de ctre consumatori.
7.3. Studiul corelaiei dintre dou variabile cantitative
Legtura dintre dou variabile cantitative (scale), ntr-o prima faz, este exprimat
cu ajutorul coeficientului de corelaie liniar, numit i coeficientul lui Pearson. Acest coeficient
d o msur a intensitii dependenei liniare ntre dou variabile cantitative (X,Y). Relaia de
calcul este urmtoarea:
r( X ,Y )
cov( X , Y )
XY
M ( XY ) M ( X ) M (Y )
XY
1;1
Indicatorul ofer informaii asupra direciei i intensitii legturii, respectiv,

dac nregistreaz valori apropiate de 1 nseamn c ntre cele dou variabile
exist o legtur direct i de intensitate mare;
dac nregistreaz valori apropiate de -1 nseamn c ntre cele dou variabile
exist o legtur invers i de intensitate mare;
dac nregistreaz valori apropiate de 0 nseamn c ntre cele dou variabile nu
exist legtur;
Atunci cnd dispunem de un eantion n de date, coeficientul de corelaie r va fi
estimat prin
cov ( X , Y )
1;1
s X sY
Exemplu
Analiza corelaiei presupune calculul coeficientului lui Pearson, utiliznd meniul Analyze
Correlate Bivariate
Pentru a studia corelaia dintre dou variabile cantitative vom folosi coeficientul de corelaie a
lui Pearson, variabilele luate n studiu fiind urmtoarele: note acordate pentru ambalajul
sortimentului ..., note acordate pentru gustul sortimentului..., note acordate pentru pretul
sortimentului.... Din tabelul urmtor se observ c acest coeficient nregistreaz valori destul de
mici (0,357; 0,319; 0,336), dar totui diferite de zero, ceea ce ne ndrepteste s afirmm c ntre
aceste variabile exist legtur de intensitate mic. In sprijinul concluziei de mai sus vine nivelul
de semnificaie care este egal cu 0,000 n toate cazurile, respectiv formulm ipoteza c r=0 (nu
exist corelaie ntre variabile)cu alternativa c r difer semnificativ de zero(exist corelaie ntre
variabile). Ipoteza nul fiind respins spunem c exist corelaie dar de intensitate mic.
Tabelul 7.6 Coeficientul de corelaie
Note acordate
Note
Note
pentru
acordate
acordate
ambalajul
pentru
pentru pretul
sortimentului. gustul sortimentului
.
sortimentulu
i
Note
Coeficientul
1
0,357
0,319
acordate de corelatie
pentru
a lui
ambalajul
Pearson
sortimentului
.
Nivel de
0,000
0,000
semnificaie
N
192
192
191
Note
Coeficientul
0,357
1
0,336
pentru gustul
a lui
sortimentului Pearson
.
Nivel de
0,000
0,000
semnificaie
N
192
193
192
Note
Coeficientul
0,319
0,336
1
pentru pretul
a lui
sortimentului Pearson
.
Nivel de
0,000
0,000
semnificaie
N
191
192
192
7.4 Elaborarea unei funcii de regresie simpl

Fenomenele i procesele social-economice nu sunt n general, fenomene
independente, ci ele se manifest ca rezultat al aciunii unor factori de influen i
condiioneaz, la rndul lor, manifestarea altora. Spunem, aadar, c ntre fenomenele de mas
se manifest legturi, dependene.
Aadar, unei valori a factorului cauzal i corespunde o distribuie de valori ale factorului
dependent, cea ce ne ndreptete s le tratm ca variabile aleatoare i s le analizm utiliznd
metode statistice. Legea statistic nu poate fi pus n eviden la nivelul fiecrui caz
particular, fiecrui element n parte, ci numai la nivelul unei mase de evenimente cu structur
complet.
Analiza regresiei bivariata este un procedeu statistic adecvat analizei
relaiei dintre dou variabile atunci cnd una este considerat variabil dependent, iar
cealalt variabil independent. De exemplu, am putea fi interesai de analizarea relaiei dintre
vnzri (variabil dependent) i cheltuieli de publicitate (variabil independent). Dac
relaia dintre acestea poate fi estimat prin analiza regresiei, cercettorul poate previziona
vnzrile pentru diferite niveluri de cheltuieli publicitare. 1
Pentru a studia relaia dintre variabilele dependente i independente, datele pot fi
reprezentate ntr-o diagram. Variabila dependent Y este reprezentat pe axa vertical, iar
variabila independent X este reprezentat pe axa orizontal. Prin examinarea diagramei
putem determina dac relaia dintre cele dou variabile (dac ea exist) este liniar sau curb,
parabolic etc.
Metoda celor mai mici ptrate
Metoda celor mai mici ptrate este cea mai simpl metod matematic care poate
fi folosit pentru determinarea unei funcii liniare pentru X i Y, care s reprezinte legtura
dintre cele dou variabile. Nici o linie dreapt nu poate reprezenta perfect fiecare observaie
de pe diagram.
Metoda celor mai mici ptrate conduce la determinarea unei funcii care s
corespund cel mai bine observaiilor actuale (punctelor). Altfel spus, suma ptratelor
deviaiilor de la linie (ptratul diferenelor dintre puncte i linie) va fi mai mic dect pentru
oricare alt linie care poate s corespund observaiilor.
Ecuaia general pentru linie este Y a bX . Ecuaia estimativ pentru analiza regresiei
^
^
este
Y ( X ) a b X e
Unde:
Y= variabila dependent
a = constanta
^
b = coeficientul de regresie
X= variabila independent
e = eroarea (reziduul) diferena dintre valoarea real i valoarea estimat prin
linia regresiei
^
Valorile parametrilor a i b se pot calcula astfel:

^
X Y nXY
X n( X )
i i
2
i
Plaias I.,. 2008, pg.551-552.
^
^
a Y b X
unde:
X = media valorii variabilei X calculat n eantion

Y = media valorii variabilei Y calculat n eantion
n = mrimea eantionului (numrul de observaii)

Avnd funcia de regresie estimat se pot reprezenta valorile valorile prezise pentru Y i n
consecin se va putea trasa linia regresiei.
Figura 7.1 Linii de regresie cu a)panta pozitiva, b) panta negativa, c) panta egala cu 0
Raportul de determinaie- R 2
Funcia regresiei estimat descrie natura relaiei dintre X i Y. n plus, ne
intereseaz puterea relaiei dintre X i Y. Coeficientul de determinie, R 2 , este msura puterii
relaiei liniare dintre cele dou variabile. Coeficientul de determinaie msoar procentul
variaiei totale a lui Y care se explic prin variaia lui X. Acest coeficient variaz ntre 0 i
1. Dac exist o relaie perfect liniar ntre X i Y atunci toate variaiile lui Y se explic prin
variaiile lui X i R 2 este 1. La cealalt extrem, dac nu exist nici o relaie ntre X i Y,
atunci nici una din variaiile lui Y nu se explic prin variaia lui X i coeficientul de
determinaie este 0.
R2
variatia explicata
variatia totala
variaia explicat = variaia total variaia rezidual

R2
variatia totala - variatia reziduala

variatia reziduala
1
variatia totala
variatia totala
^
R2 1
(Y
i 1
n
(Y
i 1
Yi ) 2
Y ) 2
Dac, de exemplu, R 2 0,80 , 80% din variaia lui Y se explic prin variaia lui X, nsemnnd
c exist o relaie liniar puternic ntre X i Y.
Semnificaia statistic a rezultatelor regresiei

n calcularea coeficientului determinrii ( R 2 ), variaia total a lui Y a fost
mprit n dou componente de sume a ptratelor:
Variaia total = Variaia explicat +Variaia rezidual
Variaia total este o msur a variaiei valorilor observate a lui Y n jurul mediei lor. Msoar
variaia valorilor lui Y fr a lua n considerare valorile lui X. Variaia total, cunoscut sub
denumirea de suma total a ptratelor (total sum of squares SST) este dat de relaia:
n
SST (Yi Y ) 2 Yi 2 ( i 1
n
i 1
i 1
Variaia explicat sau suma ptratelor conform regresiei (sum of squares due to
regression SSR) este dat de relaia:
n
Yi
n
n
2
i 1
SSR ( Y i Y ) a Yi b X i Yi (
)2
n
i 1
i 1
i 1
n
Dac Yi Y i pentru fiecare valoare a lui X atunci s-a realizat o potrivire perfect. Toate
valorile observate a lui Y se vor afla atunci pe linia determinat a regresiei.
Variaia rezidual sau sumele erorilor ptratelor (error sums of squares
SSE) se obine astfel:
n
i 1
i 1
i 1
SSE (Yi Y i ) 2 Yi 2 a Yi b X i Yi
i 1
SSE reprezint diferena rezidual (eroarea) dintre valorile observate i cele estimate ale lui
Y. Dac potrivirea ar fi perfect, atunci SSE ar fi egal cu 0.
Inainte de lansarea procedurii de analiz regresional se recomand realizarea reprezentrii
grafice Scatterplot (nor statistic )adecvate care s ajute luarea deciziei privind forma funciei de
regresie.
Pentru a obine norul statistic se utilizeaz comanda Graphs >
Scatter... Simple. Dup acionarea butonului Define se afieaz dialogul de fixare a variabilelor
i a opiunilor asociate.
Se va trece variabila dependent n zona Y Axis i variabila independent n zona X Axis. Se pot
diferenia (prin marcaje diferite) observaiile care aparin la diverse grupuri dac se trece
variabila care face diferena n zona Set Markers by.
Titlurile se pot aduga prin deschiderea dialogului Titles. Acionarea butonului OK va produce
trasarea graficului, obiect n fiierul de ieire.
Dup obinerea diagramei se poate iniia editrea norului statistic. Prin urmare, dublu click pe
grafic va deschide fereastra de editare.
n aceast fereastr, prin dublu click pe un element se deschid dialoguri specializate de
formatare. Opiunile disponibile pentru trasarea dreptelor de regresie se gsesc n dialogul Fit
Line.
Pentru trasarea dreptelor de regresie se va selecta opiunea Linear sau Quadratic sau Cubic sau
Loess i se poate cere includerea sau nu a constantei n regresie, afiarea coeficientului de
determinare etc.
Figura 7.2 Norul statistic (scatter)

Lansarea procedurii de elaborare a funciei de regresie presupune: Analyze-Regression-Linear....
n csua Dependent se trece variabila studiat, iar n csua Independent se trece variabila factor,
n zona Method se fixeaz ca metod Enter.
In csua Statistics se deschide dialogul sinonim n care se pot preciza statisticile calculate. Unele
opiuni sunt selectate i n mod implicit. Astfel aceste opiuni se refer la: Estimates
coeficienii estimai, Confidence intervals intervalele de ncredere ale coeficienilor, Model fit
calcularea statisticilor R, R2 i a tabelului ANOVA, R squared change modificrea
coeficientului de determinare i testarea semnificaiei schimbrii la adugarea fiecrui bloc de
variabile, Descriptive statisticile eseniale pentru fiecare variabil. n zona Residuals se
produce o analiza a reziduurilor pentru a putea decide asupra normalitii acestora i a
diagnostica valorile aberante. De asemenea cu ajutorul testului Durbin-Watson verificm dac
reziduurile sunt independente sau nu.
Din opiunea Plots bifm Histogram i Normal Probability Plot pentru a se realiza
reprezentarea grafic a reziduurilor. La Options avem posibilitatea de a include sau nu
constanta n ecuaie i de a utiliza testul F n verificarea ipotezelor referitoare la
reprezentativitatea modelului. n cazul n care avem unele valori lips (nu prea multe) ne
folosim de opiunea de Replace with mean pentru nlocuirealor cu media valorilor observate.
Exemplu
Dac considerm ca variabil dependent -salariul i ca variabil factor ani de studiu,
rezultatele analizei se prezint astfel:
Tabelul 7.7 Descriptive Statistics
Mean
Salariu curent (dolari)
Ani de studio
Std. Deviation
14247.34
7451.458
157
13.63
2.942
157
In tabelul 7.7 se prezint media i abaterea standard aferente celor dou variabile calculate la nivelul
eantionului de 157 respondeni.
Tabelul Model Summary conine informaiile care privesc coeficientul de corelaie (0,662)i eroarea
standard a estimaiei (5604,286). De remarcat coeficientul de determinare R 2 care exprim ct la sut
din variana variabilei dependente este explicat de ecuaia de regresie, respectiv 43,8%.
Tabelul 7.8 Model Summaryb
Model
.662a
R Square
.438
Adjusted R Std. Error of

Square
the Estimate
.434
5604.286
DurbinWatson
1.913
a. Predictors: (Constant), Ani de studiu

b. Dependent Variable: Salariu curent (dolari)
n tabelul ANOVA, informaia important este statistica F cu ajutorul creia se testeaz semnificaia
global a variabilelor independente (doar una n cazul regresiei simple, procedura capt substan n
cazul regresiei multiple). Pe coloana Sig. este afiat probabilitatea crritic a testului, astfel c dac
Sig < se respinge ipoteza lipsei de semnificaie a variabilelor independente n favoarea ipotezei c
modelul regresional este unul semnificativ. Se mai spune c testul este un test de semnificaie asupra
lui R2.
Tabelul 7.9 ANOVAb

Model
Sum of
Squares
Mean
Square
df
Regression
3.794E9
Residual
4.868E9
155
Total
8.662E9
156
3.794E9 120.782
Sig.
.000a
3.141E7
a. Predictors: (Constant), Ani de studiu

b. Dependent Variable: Salariu curent (dolari)
Observaie: in table E9 nseamn 10 la puterea 9, iar E7 inseamn 10 la puterea 7.

In cazul nostru, Sig.=0.000 ceea ce ne indreptete s respingem ipoteza de nul i s acceptm
c exist o relaie semnificativ ntre salariu i anii de studiu.
Tabelul 7.10 Coeficienii funciei de regresie
Unstandardized
Coefficients
Model
(Constant)
Ani de
studiu
Std. Error
Standardized
Coefficients
Beta
Sig.
-8596.926
2126.198
-4.043
.000
1675.958
152.497
.662 10.990
.000
a. Dependent Variable: Salariu curent (dolari)
Tabelul Coefficients conine informaiile privind coeficienii: coloana B - valoarea coeficientului,

Std. Error - eroarea standard a coeficientului (abaterea standard n distribuia de sondaj a
coeficientului), Beta - valoarea coeficientului standardizat (arat cu cte abateri standard se modific
Y dac X se modific cu o abatere standard), t - statistica testului de semnificaie a coeficientului,
Sig. - probabilitatea critic a testului. Prin urmare, un coeficient este semnificativ (diferit de zero n
ecuaia de regresie) dac Sig < (de exemplu 0,05).
Pentru exemplul din tabel se poate scrie ecuaia de regresie simpl Y = -8596,926 + 1675,958X,
toi coeficienii fiind semnificativi statistic.
Analiznd statistica Durbin-Watson, D-W=1,913 fiind mai mare dect limita superioar a
statisticii teoretice de 1,7 (pentru un prag de 0,05 si n=157) putem afirma c reziduurile nu sunt
correlate. Dar n schimb distribuia lor nu este normal (a se vedea graficul 7.3) Sig=0,012
ipoteza fiind respins (testul lui Kolmogorov).
Figura 7.3 Distribuia reziduurilor

n continuare se recomand cutarea i introducerea treptat a altor factori cu influen
semnificat asupra salariului, pn ce modelul este validat n raport cu toate ipotezele statistice.
7.5 Analiza asocierii dintre dou variabile nominale
Prelucrarea variabilelor nominale se rezum la:
- elaborarea tabelelor de contingen;
- analiza existenei unei asocieri ntre variabile;
- caracterizarea numeric a intensitii asocierii dintre variabile.
O prim ipotez asupra existenei sau inexistenei asocierii ne este furnizat de
metode pur descriptive, ca studiul tabelului de contingen. Urmrim dac frecvenele absolute
n ij iau valori apropiate n tot tabelul, caz n care nu exist asociere ntre variabilele X i Y, iar
dac frecvenele se repartizeaz dup una din diagonale sau o curb oarecare sugernd existena
unei asocieri.
Metodele descriptive amintite anterior sunt imediate i uor de utilizat, dar nu
pot stabili clar existena sau inexistena uneiasocieri. Pentru aceasta, ne vom folosi de metode
cantitative, din care cea mai utilizat este 2 . Dup cum vom vedea, aceasta utilizeaz doar
frecvenele ca informaie numeric. Metoda const n esen n a compara frecvenele absolute
observate cu cele teoretice corespunztoare cazului n care nu exist asociere.
Astfel formulm ipoteza nul:
H 0 : X,Y sunt independente (nu exist asociere)
H 1 : X,Y sunt dependente (exist asociere)
Pentru aceasta se va calcula statistica 2

I
i 1 j 1
(nij nij ) 2
nij
- nij
ni * n j
i reprezint frecvenele teoretice determinate conform ipotezei nule.

n
- n ij repreyint frecvenele observate.
Se tie c statistica 2 este o variabil 2 cu v ( I 1)(J 1) grade de libertate.
2
Vom compara deci valoarea calculat a lui 2 cu valorile tabelate. Dac 2 tab
( v , p ) putem
afirma cu un risc de eroare p c exist asociere ntre variabilele X i Y. Valoarea tabelat o
privim ca pe un prag peste care trebuie s treac valoarea calculat a lui 2 pentru a accepta
cu o anumit probabilitate existenaasocierii. Cu ct riscul de eroare dorit este mai mic, cu att
2
pragul va fi mai exigent, adic tab
( v , p ) va avea o valoare mai mare.
Aplicarea acestui test are anumite limite:
- volumul eantionului n trebuie s fie sufficient de mare, deoarece numrul de csue unde
nij* <5 trebuie s nu depasca 20% din totalul csuelor, n caz contrar se vor grupa linii sau
coloane din tabel nct aceast condiie s fie ndeplinit;
- variabila 2 este sensibil dependent de gradele de libertate;
- variabila 2 permite studierea asocierii dintre variabile, dar nu msoar intensitatea
acesteia;
Studierea gradului de asociere
Coeficientul de asociere (contingen) al lui Pearson
Acest coeficient se bazeaz pe metoda 2 , se poate utiliza ca o metod rapid
(aceast facilitate exist chiar i n soft-urile de birotic cum ar fi Microsoft Excel).
Relaia de calcul a coeficientului este:
C
2
n 2
unde n este volumul eantionului. Ne intereseaz care sunt limitele acestui coeficient, pentru
a-i putea aprecia valorile numerice pe care le ia. Reamintim c 2 este o msur global a
distanei dintre dou repartiii: cea observat i cea teoretic corespunztoare cazului n care
nu exist legtur ntre variabile.
- dac 2 0 atunci C 0
- dac 2 atunci C 1
ca urmare, C [ 0 ; 1 )
Interpretarea gradului de asociere pe baza coeficientului este urmtoarea:
- dac C 0 asocierea este nul (lipsa legturii)
- dac C ( 0 ; 0,3 ) asocierea este de intensitate slab
- dac C [ 0,3 ; 0,7 ) asocierea este de intensitate medie

- dac C [ 0,7 ; 1 ) asocierea este de intensitate puternic
Desigur aceste limite nu trebuie interpretate ntr-o manier foarte rigid. O
legtur este tot medie att la 0,35 ct i la 0,68. Prezint mai mult interes compararea
intensitii legturii dintre aceleai dou variabile pentru aceeai populaie n momente de
timp diferite sau pentru populaii similare.
De asemenea s-a artat c n cazul unui table de dimensiuni 2x2, mazimum
pentru C este 0,707, aspect de care trebuie s inem seama atunci cnd interpretm
coeficientul.
Coeficientul lui Cramer
Dac notm cu t min ( I 1); ( J 1) , acest coefficient are urmtoarea relaie
de calcul:
2
nt
i poate atinge valoarea 1 oricare ar fi dimensiune tabelului.

Coeficientul
Se calculeaz n cazul n care se studiaz asocierea dintre dou variabile binare.
n cazul n care dispunem de dou variabile nominale sau de o variabil nominal i una
ordinal, prelucarea bivariat presupune: elaborarea tabelului de repartiie bidimensional
(tabel de contingen), editarea unui grafic adecvat (cel mai adesea se reprezint diagrama
prin coloane) i studierea nivelului de asociere.
Practic se procedeaz astfel (utiliznd programul SPSS): alegem optiunea Analyze
Descriptive Statistics- Crosstabs. Pentru a reda distribuia eantionului n raport cu 2 variabile
se procedeaz astfel: Pe row trecem o variabil iar pe column cealalt variabil. Pentru a
reprezenta grafic distribuia rspunsurilor n raport cu cele dou variabile alegem opiunea
Display clustered bar charts.
n fereastra Cells putem opta pentru opiunea Counts Observed, caz n care ne va afia tabelul
bidimensional cu ajutorul frecvenelor absolute, sau alegnd opiunea Percentages, vom obine
distribuia eantionului n raport cu cele 2 variabile cu ajutorul frecvenelor relative.
Din Statistics alegem opiunea Chi-square, Contingeny coefficient i Lambda.

Exemplu
n cele ce urmeaz sunt prezentate dou cazuri.
a. Frecventa consumului de bere * Gradul de importan al notorietii n alegerea mrcii de
bere
Tabelul7.11 Tabel de contingen
Gradul de importan al notorietii
n alegerea mrcii de bere
Frecvena
Deloc Puin Importan Foarte
consumului de bere importa importan
t
importan
nt
t
t
zilnic
2
6
6
10
Total
24
% din
Total
de 2-3 ori
pe
sptmn
ocazional
% din
Total
% din
Total
Total
% din
Total
0,6%
1,7%
1,7%
2,9%
6,9%
31
35
25
100
2,6%
8,9%
10,1%
7,2%
28,8%
29
55
76
63
223
8,4%
15,9%
21,9%
18,2%
64,3%
40
92
117
98
347
11,5%
26,5%
33,7%
28,2%
100,0%
Grafice adecvate n acest caz sunt diagramele prin coloane (figura 7.2).
Analiza asocierii dintre cele dou variabile presupune n prima etap verificarea existenei
legturii dintre cele dou variabile cu ajutorul testului 2 i apoi interpretarea coeficientului de
contingen pentru a analiza gradul de asociere dintre variabile. Din meniul Analyze
Descriptive Statistics Crosstabs se aleg cele dou variabile i n fereastra Statistics se
selecteaz parametrii dorii.
Figura 7.4 Diagrama prin coloane

Se formuleaz ipotezele referitoare la existena asocierii:
H 0 : 2 = 0 ( nu exist asociere )
H 1 : 2 0 (exist asociere)
Tabelul 7.12 Testul 2 (Chi-Square Tests)

Valori Grade de Nivel de
Pearson Chi-Square 4,758
6
0,575
N
347
Tabelul 7.13 Coeficientul de contingen

Valori
Nivel de
semnificaie
Coeficientul de 0,116
0,575
contingen
N
347
n urma prelucrrilor efectuate rezult urmtoarele: 2 calc 4,758 2 tab 12,5 implic c ntre
cele dou variabile (Frecventa consumului de bere * Gradul de importan al notorietii n
alegerea mrcii de bere ) nu exist asociere fapt ce este confirmat i nivelul de semnificaie
Sig=0,575>0,05 ct i de nivelul sczut al coeficientului de contingen (0,116).
Coeficientul (lambda) este un coeficient de reducere proporional a erorii, la fel ca i
coeficienii de incertitudine tau al lui Goodman i Kruskall.
Semnificaia coeficientului este: reducerea proporional a erorii n predicia valorilor
variabilei efect prin cunoaterea valorilor variabilei cauz.
Mrimea testului ne spune c putem njumti eroarea n predicia valorilor unei variabile
cunoscnd valorile celeilalte variabile dar nu ne indic dac rezultatul este semnificativ din punct
de vedere statistic. Testul de semnificaie, mai mic de 0,05 ne edific din acest punct de vedere:
se respinge ipoteza nul (potrivit creia =0) i constatm c reducerea erorii de predicie este
semnificativ.
Tau al lui Goodman i Kruskall este similar lui Lambda. El poate fi interpretat ca exprimnd
scderea relativ n proporia prediciilor incorecte atunci cnd trecem de la prezicerea
categoriilor de pe linii bazndu-ne doar pe probabilitile marginale (ca i la lambda) la
prezicerea categoriilor de pe linii pe baza proporiilor condiionale att ale liniilor ct i ale
coloanelor. Un coeficient similar este cel de incertitudine.
b. Frecvena consumului de bere * Gradul de importan al gustului n alegerea mrcii de
bere.
In tabelul de mai jos am ales opiunea de prezentarea a frecvenelor absolute i a frecvenelor
relative calculate ca procente pe coloane, deoarece n interpretare e mai uor s facem comparaii
ntre rspunsurile date de segmentele de consumatori (segmentarea realizat n raport cu
frecventa consumului) privind importana gustului n alegerea marcii de bere.
Tabelul 7.14 Tabelul de contingen
Frecventa consumului de bere
Total
Gradul de
Deloc
importanta important
al gustului
Putin
in alegerea
important
marcii de
bere
Important
Foarte
important
Total
zilnic
de 2-3 ori pe
saptamana
ocazional
4.2%
.0%
.0%
.3%
4.2%
1.0%
2.2%
2.0%
22
43
71
25.0%
22.0%
19.3%
20.5%
16
77
175
268
66.7%
77.0%
78.5%
77.2%
24
100
223
347
100.0%
100.0%
100.0%
100.0%
n urma prelucrrilor efectuate rezult urmtoarele: 2 calc 15,478 2 tab 12,59,

Sig=0,017<0,05 (tab.7.15) implic c ntre cele dou variabile (Frecvena consumului de bere *
Gradul de import al gustului n alegerea mrcii de bere) exist asociere, dar de intensitate
mic, fapt ce este confirmat i de nivelul coeficientului de contingen (0,207) (tab 7.16).
Tabelul 7.15 Testul 2
Valori Grade de Nivel de
Pearson Chi-Square 15,478
6
0,017
N
347
Tabelul 7.16 Coeficientul de contingen

Valori
Nivel de
semnificaie
Coeficientul de contingen 0,207
0,017
N
347
100
67
77
78
90
80
70
60
50
40
30
Foarte important
25
Count
20
Important
22
19
Putin important
10
0
Deloc important
zilnic
ocazional
de 2-3 ori pe sapt
Frecventa consumului de bere
Figura 7.5 Diagrama prin coloane

Din grafic observm c dintre cei ce consum ocazional bere, 97,8% consider gustul ca fiind
important (i foarte important) n alegerea mrcii. Doar pentru 8,4% dintre cei ce consumn
zilnic bere, nu conteaz gustul.
Tabelul 7.17 Coeficientii Lambda si Goodman
Asymp. Std.
Value
Lambda
Error
Approx.
Sig.
Symmetric
.005
.005
.317
Gradul de importanta al
.000
.000
.c
.008
.008
.317
.004
.006
.693d
.010
.004
.309d
gustului in alegerea marcii

de bere Dependent
Frecventa consumului de
bere Dependent
Goodman
Gradul de importanta al
and Kruskal gustului in alegerea marcii
tau
de bere Dependent
Frecventa consumului de
bere Dependent
a. Not assuming the null hypothesis.
c. Cannot be computed because the asymptotic standard error equals zero.

d. Based on chi-square approximation
Semnificaia coeficientului este: reducerea proporional a erorii n predicia valorilor

variabilei efect prin cunoaterea valorilor variabilei cauz. In acest caz observm c =0,000
(cazul n care gradul de importan al gustului este variabil dependent). La fel si coeficientul
tau este aproape de zero, tau=0,004, ceea ce constatm c reducerea erorii de predicie este
nesemnificativ.
Un caz particular de analizat este acela n care ambele variabile sunt binare (au dou stri). Ceea
ce este specific acestei situaii se refer la calcularea intensitii asocierii, respectiv se utilizeaz
coeficicientul Phi and Cramer
Rezultatele ne indic o asociere de intensitate mic =0,117 Sig=0,001. Analiznd rezultatele

constatm c brbaii intr-o proporie mare 95% cunosc mrcile de bere din consum, comparativ
cu femeile unde acest procent este mai mic.
Tabelul 7.18 Coeficientul Phi and Cramer
Value
Nominal by Nominal Phi
Cramer's V
N of Valid Cases
Approx. Sig.
.171
.001
.171
.001
346
7.6. Analiza variabilelor ordinale

7.6.1 Studierea corelaiei dintre dou variabile ordinale.
Coeficientul de corelaie a rangurilor al lui Kendall
Pentru a putea aplica acest indicator toate unitile populaiei trebuie s poat fi
ordonate n raport cu variabilele pentru care cercetm intensitatea legturii.
Pentru a construi coeficientul, vom defini mai nti indicatorul de concordan (P)
i indicatorul de discordan (Q). n raport cu variabila X se ordoneaz cresctor rangurile
unitilor, iar n raport cu variabila Y pstrm ordinea unitilor i deci o succesiune oarecare
(rezultat din ordonarea n raport cu X) a rangurilor ri , unde ri , i 1,...,n reprezint unul i
numai unul din numerele naturale de la 1 la n. Pentru fiecare rang ri , i 1,...,n , se determin
numrul rangurilor mai mari dect ri situate la dreapta, numr pe care l notm cu Pi . nsumnd
toate numerele Pi , i 1,...,n se obine un numr notat cu P pe care l numim indicator de
concordan.
n mod asemntor, pentru fiecare rang ri , i 1,...,n , se determin numrul
rangurilor mai mici dect ri situate la dreapta, numr pe care l notm cu Qi . nsumnd toate
numerele Qi , i 1,...,n se obine un numr notat cu Q pe care l numim indicator de
discordan. Relativ
la
aceti
doi
n(n 1)
PQ
indicatori se verific
2
relaia:
Pe baza indicatorilor de concordan i discordan construim coeficientul de corelaie

simpl a rangurilor al lui Kendall, definit astfel:
PQ
PQ
P Q n(n 1)
2
Interpretarea intensitii legturii pe baza acestui coeficient [-1; 1] se va face astfel:
- dac 0 legtura este direct
- dac 0 legtura este nul
- dac 0 legtura este invers
- dac [0 ; 0,3) legtura este de intensitate slab
-
dac [0,3 ; 0,7) legtura este de intensitate medie
dac [0,7 ; 1] legtura este de intensitate puternic
Coeficientul de corelaie a rangurilor al lui Spearman

Ca i coeficientul similar propus de Kendall, i acesta se calculeaz pornind de la
tabelul de concordan a rangurilor. Ne vom folosi de diferenele d i dintre ranguri pentru aceeai
unitate a populaiei relativ la cele dou variabile. Coeficientul are urmtoarea expresie:
n
6 d i2
i 1
n( n 2 1)
Interpretarea acestui coeficient este asemanatoare cu cea a coeficientului de corelaie a lui

Kendall.
SPSS calculeaz mai muli coeficieni pentru variabile ordinale care toate pleac de la
compararea numrului de perechi concordante cu cel al numrului de perechi discordante de
cazuri. Aici este cazul coeficientului Gamma, Kendall tau-b, Kendal tau-c.
n plus, SPSS calculeaz i un coeficient direcional pentru variabile ordinale d al lui Somers,
care se folosete cu premisa c una dintre variabile este cauz iar alta efect.
Pentru analiza corelaiei dintre dou variabile ordinale i interpretarea rezultatelor avem nevoie
de urmtoarele prelucrri:
- tabele de repartiie bidimensionale i n acest caz prezint importan repartiia eantionului
n raport cu cele dou variabile att sub forma frecvenelor absolute, ct i relative. Aceast
prezentare a datelor presupune urmtorii pai: Analyze Descriptive Statistics Crosstabs, n
fereastra Cells alegnd i opiunea Percentages. Cele dou tipuri de frecvene, absolute i
relative, se pot prezenta n acelai tabel de repartiie.
- Grafice informaii privind repartiia eantionului n raport cu dou variabile ordinale sunt
disponibile i din vizualizarea graficului adecvat diagrama prin benzi. Modul de obinere a
acestuia este: Graphs Bar Clustered.
- Analiza corelaiei se realizeaz cu ajutorul coeficientului lui Kendall, astfel: Analyze
Descriptive Statistics Crosstabs, selectnd n fereastra Statistics coeficienii dorii.
Cazul a. Gradul de importan al notorietii n alegerea mrcii de bere/ Gradul de importan

al disponibilitii n alegerea mrcii de bere
Tabelul 7.19 Tabel de contingen
Gradul de
importan al
disponibilitii
n alegerea
mrcii de bere
Gradul de importan al notorietii n

alegerea mrcii de bere
Deloc
Puin Important Foarte
important important
important
Deloc important
18
8
9
10
Puin important
9
25
23
8
Important
9
40
64
39
Foarte important
4
19
21
41
Total
40
92
117
98
Total
45
65
152
85
347
Tabelul 7.20 Coeficieni de corelaie

Valori Asymp. Approx. Nivel de
Std. Error
T
semnificaie
Kendall
0,048
5,483
0,000
0,266
Spearman
Somers
simetric
Gamma
0,302
0,266
0,054
0,048
5,881
5,483
0,000
0,000
0,366
0,064
5,483
0,000
347
Analiznd datele referitoare la coeficienii de corelaie K=0,266; S=0,302;

G=0,366; d=0,266 (cazul simetric n care nu exist o variabil cauz i una efect) i la un nivelul
de semnificaie Sig=0,000 putem spune c ntre cele dou variabile exist corelaie, dar de
intensitate mic. Pentru interpretarea rezultatelor ne folosim de informaiile din tabelul
bidimensional i de grafic.
Figura 7. 6 Bar-chart
Cazul b. Gradul de importanta al notorietatii in alegerea marcii de bere/ Gradul de importanta
al ambalajului in alegerea marcii de bere
Std. Error
T
semnificaie
Kendall
0,047
4,385
0,000
0,210
Spearman
Gamma
0,238
0,302
0,053
0,066
4,558
4,385
0,000
0,000
Somers
simetric
n
0,210
0,047
4,385
0,000
347
Observm la fel c exist corelaie ntre aceste variabile (nivelul de semnificaie < 0,05), dar de
intensitate mic (k=0,210).
Cazul c. Gradul de importan al notorietii n alegerea mrcii de bere/ Gradul de importanta
al gustului in alegerea marcii de bere
Std. Error
T
semnificaie
Kendall
0,047
1,009
0,048
0,313
Spearman
0,052
0,052
0,974
0,331
Gamma
Somers
simetric
n
0,093
0,045
0,092
0,045
1,009
1,009
0,313
0,313
347
n cazul analizat coeficienii de corelaie nregistreaz valori mici (0,048; 0,052),

ceea ce ne permite s afirmm c ntre variabilele analizate nu exist corelaie (nivelul de
semnificaie este de asemenea >0,05).
Observaie. n cazul n care dispunem de dou variabile ordinale sau o variabil ordinal i una
cantitativ pentru a explica legtura dintre acestea se recomand urmtoarele prelucrri:
elaborarea tabelului de corelaie i calcularea unui coeficient de corelaie (a lui Kendall sau a lui
Spearman).
Atunci cnd avem de studiat corelaia dintre mai multe variabile ordinale se
recomand calcularea coeficientului de corelaie a lui Kendall sau a lui Spearman din AnalyzeCorrelate-Bivariate. Prin aceast cale obinem mult mai rapid informaii privind nivelul
corelaiei dintre toate cuplurile de variabile posibile. Dup identificarea corelaiei urmeaz
inetrpretarea acesteia folosindu-ne de frecvenele absolute i relative i de grafic (bar chart).
Analiznd datele din tabelul 7.23 observm c exist corelaie dar de intensitate mic doar ntre
importana gustului i importana ambalajului (k=0,153; sig=0,002).
Tabelul 7.23 Coeficientii de corelaie a lui Kendall
Gradul de
importanta al
Coefficient
Sig. (2-tailed)
Gradul de
Gradul de
Gradul de
importanta al
importanta al
importanta al
gustului
ambalajului
pretului .
1.000
.153**
.024
.002
.636
347
347
347
.153**
1.000
.040
gustului
N
Gradul de
Coefficient
importanta al
Sig. (2-tailed)
.002
.399
347
347
347
Gradul de
Coefficient
.024
.040
1.000
importanta al
Sig. (2-tailed)
.636
.399
347
347
347
ambalajului
pretului
**. Correlation is significant at the 0.01 level (2-tailed).

Curs 5

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 5

Încărcat de

Drepturi de autor:

Formate disponibile

7.

1 Testarea egalitii a dou medii, cazul eantioanelor independente

Note acordate Feminin 80

Construcia testului pentru compararea mediilor a dou eantioane presupune

Testul t privind egalitatea a

7.2 Testarea egalitii a dou medii, cazul eantioanelor perechi.

Media Abaterea Abaterea

Note acordate -0,5729 1,01302 0,10339 -5,541

Se observ c tcalc=-5,541, cum t(tab, 95, q=5%)=1,959 iar tcalc >t(tab),

Indicatorul ofer informaii asupra direciei i intensitii legturii, respectiv,

7.4 Elaborarea unei funcii de regresie simpl

Valorile parametrilor a i b se pot calcula astfel:

Plaias I.,. 2008, pg.551-552.

X = media valorii variabilei X calculat n eantion

n = mrimea eantionului (numrul de observaii)

variaia explicat = variaia total variaia rezidual

variatia totala - variatia reziduala

Semnificaia statistic a rezultatelor regresiei

Figura 7.2 Norul statistic (scatter)

Adjusted R Std. Error of

a. Predictors: (Constant), Ani de studiu

Tabelul 7.9 ANOVAb

a. Predictors: (Constant), Ani de studiu

Observaie: in table E9 nseamn 10 la puterea 9, iar E7 inseamn 10 la puterea 7.

a. Dependent Variable: Salariu curent (dolari)

Tabelul Coefficients conine informaiile privind coeficienii: coloana B - valoarea coeficientului,

Figura 7.3 Distribuia reziduurilor

H 1 : X,Y sunt dependente (exist asociere)

Pentru aceasta se va calcula statistica 2

i reprezint frecvenele teoretice determinate conform ipotezei nule.

- dac C [ 0,3 ; 0,7 ) asocierea este de intensitate medie

i poate atinge valoarea 1 oricare ar fi dimensiune tabelului.

Din Statistics alegem opiunea Chi-square, Contingeny coefficient i Lambda.

Figura 7.4 Diagrama prin coloane

Tabelul 7.12 Testul 2 (Chi-Square Tests)

Tabelul 7.13 Coeficientul de contingen

n urma prelucrrilor efectuate rezult urmtoarele: 2 calc 15,478 2 tab 12,59,

Tabelul 7.16 Coeficientul de contingen

de 2-3 ori pe sapt

Frecventa consumului de bere

Figura 7.5 Diagrama prin coloane

gustului in alegerea marcii

c. Cannot be computed because the asymptotic standard error equals zero.

Semnificaia coeficientului este: reducerea proporional a erorii n predicia valorilor

Rezultatele ne indic o asociere de intensitate mic =0,117 Sig=0,001. Analiznd rezultatele

7.6. Analiza variabilelor ordinale

Pe baza indicatorilor de concordan i discordan construim coeficientul de corelaie

dac [0,3 ; 0,7) legtura este de intensitate medie

dac [0,7 ; 1] legtura este de intensitate puternic

Coeficientul de corelaie a rangurilor al lui Spearman

Interpretarea acestui coeficient este asemanatoare cu cea a coeficientului de corelaie a lui

Cazul a. Gradul de importan al notorietii n alegerea mrcii de bere/ Gradul de importan

Gradul de importan al notorietii n

Tabelul 7.20 Coeficieni de corelaie

Analiznd datele referitoare la coeficienii de corelaie K=0,266; S=0,302;

n cazul analizat coeficienii de corelaie nregistreaz valori mici (0,048; 0,052),

Tabelul 7.23 Coeficientii de corelaie a lui Kendall

**. Correlation is significant at the 0.01 level (2-tailed).

S-ar putea să vă placă și