Sunteți pe pagina 1din 12

Note de Curs - Statistica teorie si aplicatii - Conf.dr.

Lucian Petcu

Capitolul 7
Analiza de corelatie si regresie cu SPSS
I. Analiza de corelatie si regresie cu SPSS
pentru variabile masurate la nivel de interval sau raport

Exemplu: Sa se aprecieze gradul si sensul legaturii dintre


temperatura si puls la un lot de 20 de bolnavi. Datele sunt
prezentate in tabelul alaturat.

1. Coeficientul de corelatie liniara Pearson (r)


Corelaia Pearson ne arat dac ntre dou fenomene exist sau nu o
legtur de dependen, iar coeficientul de corelaie Pearson (r) ne arat
gradul de corelaie.
Coeficientul de corelaie poate lua valori ntre +1 i -1.
- Cu ct valoarea coeficientului se apropie de +1 sau de -1, cu att corelaia
este mai accentuat, fie n acelai sens (+), fie n sens opus (-).
- Cu ct valoarea coeficientului se apropie de zero cu att corelaia dintre
cele dou serii de variaie este mai slab; ajungand sa nu existe nici o
corelatie cnd r = 0.
Analiza de corelatie este o procedura care implica dou msurri pentru
aceiasi subiecti, situatie care corespunde asa numitului model de cercetare
intra-subiecti (within-subjects).

Ipoteze:
H0: Cele dou variabile NU Sunt corelate.
H1: Cele dou variabile Sunt corelate.

238

Conditii cerute de analiza de corelatie:


- variabilele implicate sa fie masurate pe scala de interval sau raport
- forma distributiilor sa nu se abata sever de la curba normala
Observatie: pentru cazul n care conditiile de utilizare a testului Pearson nu
se ndeplinesc, se pot utiliza o serie de teste neparametrice alternetive:
testul chi-patrat (pentru date nominale) sau coeficientii de corelatie
Spearman sau Kendall (pentru date ordinale).

240

Interpretare:
Dac r > rcr (p < alfa) se respinge ipoteza H0 i se accept ipoteza H1 cu
nivelul de semnificaie respectiv.
Dac r < rcr (p > alfa) atunci cele dou variabile sunt considerate necorelate
i se accept ipoteza H0.
Variabilele supuse corelatiei Temperatura si Puls
sunt trecute n lista Variables:
In zona Correlation Coefficients, se poate alege
testul dorit: implicit este cel Pearson, dar se poate
bifa Kendall sau Spearman, daca datele sunt
neparametrice (ordinale).
Test of significance este implicit cel bilateral (Twotailed), dar se poate alege si cel unilateral (Onetailed).
Flag significant correlations marcheaza cu un
asterisc coeficientii semnificativi la =0.05 si cu
doua asteriscuri cei semnificativi la =0.01.
Din caseta Options se poate solicita calculul mediei
si a deviatiei standard pentru variabilele cosiderate.

Adaptat dupa D.E. Hinkle, W. Wiersma si G.S. Jurs, 1988, p.118


239

Universitatea Ovidius Constanta

241

Note de Curs - Statistica teorie si aplicatii - Conf.dr. Lucian Petcu


Rezultatul testarii
Reprezentarea grafica a corelatiei
Caracterul si intensitatea corelatiei dintre doua variabile se evidentiaza cu
ajutorul unei proceduri grafice specifice, numita scatterplot (vezi realizarea
graficelor cu SPSS).
Tabelul Descriptive Statistics contine media aritmetica, deviatia standard si numarul
de subiecti pentru variabilele supuse analizei.
Tabelul Correlation cuprinde matricea de corelatii a variabilelor analizate. Acesta
prezinta aceleasi corelatii de doua ori, odata deasupra diagonalei si, din nou, sub
diagonala tabelului. Corelatiile variabilelor cu ele nsele sunt perfecte si pozitive
neprezentand interes. Celulele tebelului prezinta urmatoarele informatii: r - valoarea
coeficientului de corelatie; p - probabilitatea cu care valoarea calculata a lui r apare
pe distributia de nul; N - numarul de subiecti.
Pentru a obtine un format mai convenabil de prezentare a rezultatelor, se
recomanda o procedur suplimentar: In caseta Bivariate Correlation, dupa
transferul variabilelor in lista Variables, se actioneaz butonul Paste care deschide
fereastra Syntax, unde gsim comenzile procedurii. Aici se introduce clauza WITH
ntre prima variabila (Temperatura) si a doua variabila (Puls). Apoi, in fereastra
Sintax, se da clic pe butonul dreapta al mouse-lui si se alege Run Current.
242

244

Valoarea critic a coeficientului de corelaie pentru


nivele diferite de semnificaie: 0,10; 0,05; 0,02; 0,01
Gradele de libertate: gl = nr.perechi - 2

2. Regresia liniara simpla


Regresia liniara simpl este o procedur de predictie pe baza corelatiei dintre
dou variabile cantitative X si Y. Cu cat corelatia dintre ele este mai puternic,
cu atat predictia valorilor unei variabile numit criteriu (Y), in baza valorilor
celeilalte variabile, numit predictor (X), este mai puternic.
Reprezentarea grafic a variabilelor X, Y se prezinta sub forma unui nor de
puncte care ilustreaz intensitatea i forma legturii dintre cele doua variabile.
Cu ct legtura dintre ele este mai intens, cu att mai mult punctele se vor
grupa n jurul unei anumite linii drepte numita dreapta de regresie.
Interpretare:
Deoarece r = 0.901 > rcr 0.01= 0.5614, p < 0.001
se poate afirma ca intre Temperatura si Puls
exista o corelatie pozitiva semnificativa foarte
puternica la un nivel de semnificatie de = 0.01.

Panta liniei drepte poart numele de coeficient de regresie.


Coeficientul de regresie ne arat deci, mrimea cu care crete sau scade un
element atunci cnd cellalt element cu care este n legtur de dependen
crete sau scade cu o unitate de msur.

243

Universitatea Ovidius Constanta

245

Note de Curs - Statistica teorie si aplicatii - Conf.dr. Lucian Petcu


In cazul unei corelatii imperfecte punctele reale sunt distribuite n jurul punctelor care
compun dreapta de regresie, iar norul de puncte este mai mprastiat.
Distanta dintre pozitia reala a punctelor si cea estimata cu ajutorul liniei de regresie (i)
se numeste valoare reziduala si exprima eroarea de estimare in fiecare punct al
graficului.
Cu cat suma valorilor reziduale este mai mare cu att cu att eroarea de estimare este
mai pronuntata. Patratul sumei tuturor distantelor i reprezinta variana estimarii sau
variana rezidual.
Trasarea dreaptei de regresie a doua variabile presupune cunoasterea coeficientilor a
(termenul liber sau originea dreptei de regresie) si b (panta dreptei de regresie).
Ecuatia de regresie bivariata: Y = a + bX

Etapele urmate in analiza de regresie:


1. Construirea diagramei de dispersie
2. Alegerea modelului de regresie ce explica cel mai bine relatia dintre variabile
cu scrierea ecuatiei corespunzatoare
3. Estimarea parametrilor ecuatie de regresie
4. Testarea semnificatiei parametrilor de regresie
Pentru construirea diagramei de dispersie, selectam din meniul Graphs comanda
Interactive si apoi Scatterplot care deschide fereastra Create Scatterplot. La tab-ul
Assign Variables variabila Doza (considerata variabila independenta) este agatata
si dusa pe axa X, iar variabila Durata (considerata variabila dependenta) este dusa
pe axa Y. La tab-ul Fit se alege metoda Regression si se bifeaza Include constant
in equation apoi se bifeaza Fit lines for Total.

Y = variabila prezisa (variabila criteriu)


X = variabila independenta (variabila predictor)
a = constanta de regresie (originea dreptei)
b = panta dreptei de regresie (coeficient de regresie)
yI = a + bxi (valoarea prezisa a punctului Ai pe dreapta)
i = yi - yi (valoarea reziduala)
Daca b > 0 exista o legatura directa (pozitiva)
b = 0 nu exista legatura
b < 0 exista o legatura inversa (negativa)
246

Conditii de aplicare a analizei de regresie:


- variabile masurate pe scala de interval sau raport
- normalitatea distributiei variabilelor
Exemplu: Sa se aprecieze ce relatie exista intre doza unui medicament
(exprimata in multiplii ai unei doze minime) si durata bolii (exprimata in
numar de zile) pornind de la datele din tabelul alaturat.

248

Tinand cont de corelograma trasata si de faptul ca intre Doza si Durata bolii


exista o corelatie negativa semnificativa, se poate proceda la analiza de
regresie, alegand drept model regresia liniara, cu determinarea coeficientilor dreptei de regresie si respectiv, estimarea duratei bolii in functie de
doza administrata.
In acest sens se lanseaza procedura Liniar Regression

n caseta Linear Regression se trece variabila


Dutata n zona Dependent iar variabila Doza,
n zona Independent(s).
Alegem din lista Method, ca metoda de lucru
optiunea Enter.

Deoarece r = - 0.993, p < 0.001 se poate afirma ca intre Doza aplicata si


Durata bolii exista o corelatie negativa semnificativa foarte puternica la
un nivel de semnificatie de = 0.01
247

Universitatea Ovidius Constanta

249

Note de Curs - Statistica teorie si aplicatii - Conf.dr. Lucian Petcu

Activam butonul de comanda Statistics care


deschide fereastra de dialog Liniar Regression:
Statistics in care bifam casetele de validare
Estimates si Model fit.
Prin activarea butonului Save se deschide
fereastra de dialog Liniar Regression: Save unde
bifam la Predicted Values si la Residuals,
Unstandardized. Acestea au ca efect crearea
unor variabile distincte n baza de date.
La Prediction intervals se bifeaza Individual.
Acest lucru are drept consecinta calcularea
limitelor de ncredere pentru valorile prezise.
Se actioneaza butonul Continue pentru a reveni
la fereastra Linear Regression si apoi OK pentru
obtinerea output-ului in fereastra de rezultate si a
valorilor estimate in fisierul Data Editor.

Tabelul ANOVA prezinta rezultatele analizei varianei variabilei dependente (Durata)


sub influenta factorului de regresie si a factorului reziduu. Acesta contine suma
patratelor abaterilor variabilei dependente datorate modelului de regresie si
factorului reziduu, gradele de libertate, estimatiile varianelor datorate celor doua
surse de variatie (regresie si reziduu), raportul F si valoarea Sig. corespunzatoare.
F reprezinta raportul dintre media patratelor abaterilor datorate regresiei si media
patratelor abaterilor datorate reziduului.
Statistica test F este folosita pentru testarea modelului de regresie utilizat. O
valoare a lui F > Fcr sau p < confirma ipoteza ca exista o relatie de liniaritate
semnificativa intre cele doua variabile (se accepta H1: panta dreptei este diferita de
zero).

250

252

Rezultatul testarii

Tabelul Model Summary contine: coeficientul de corelatie R, valoarea coeficientului


de determinare R2, valoarea ajustata a lui R2 si eroarea standard a estimatiei.
Coeficientul de determinare R2 ia valori intre 0 si 1. Cu cat valoarea acestuia tinde
catre 1 cu atat punctele sunt mai apropiate de dreapta de regresie, iar modelul de
regresie liniara ales, explica foarte bine legatura dintre variabile.
Pentru situatia data R2 = 0,993. Aceasta valoare ne arata ca:
- 99,3% din variatia variabilei dependente (Durata) este determinata de variatia
variabilei independente (Doza)
sau altfel spus:
- cele doua variabile au in comun 99,3% din variatia ce le caracterizeaza, restul
pana la 100% din variabilitatea lor, adica 0.7%, provine din alte surse

Tabelul Coefficients contine coeficientii nestandardizati ai modelului de regresie


estimat (exprimati in valorile variabilei predictor), erorile standard ale acestora,
coeficientul de regresie standardizat Beta (exprimat in valori z), valorile statisticii
test t si valorile Sig. corespunzatoare.
Utilizand coeficientii nestandardizati ecuatia de regresie de poate scrie:
Durata = 28.843 - 3.657Doza
iar in functie de coeficientul standardizat ecuatia de regresie are forma:
ZDurata = -0.993Zdoza
Observatie: In a doua situatie termenul liber are valoarea zero deoarece originea
dreptei pentru scoruri standardizate se afla in zero.
Testarea parametrilor modelului de regresie se face cu ajutotul testului t. In situatia
data b = -3.657, t = -18.356 si p < 0.001, aratand ca panta dreptei de regresie
corespunde unei legaturi semnificative intre cele doua variabile.

251

Universitatea Ovidius Constanta

253

Note de Curs - Statistica teorie si aplicatii - Conf.dr. Lucian Petcu

3. Elemente de analiza multivariata


A. Corelatia partiala
Corelatia patiala se utilizeaza atunci cand se doreste sa se observe influenta
unei a treia (a patra, etc.) variabile asupra unei corelatii bivariate.
La finalul procedurii, in conformitate cu setarile facute, apar in baza de
date un numar de patru variabile suplimentare:
- Variabila PRE_1 ce contine valorile prezise (Y) in baza modelului ales.
- Variabila RES_1 ce contine diferentele dintre valoarea reala si cea
prezisa, adica valorile reziduale ( = Y-Y).
- Variabilele LICI_1 si UICI_1 ce contin limita inferioara (Li) si cea
superioara (Ls) a intervalului de incredere pentru fiecare valoare prezisa in
parte la nivelul de semnificatie ales ( = 0.05).

Exemplu: Fie date trei variabile X, Y, Z. Sa se evalueze influenta variabilei Z


asupra variabilelor X si Y.

De exemplu: valoarea adevarata prezisa a duratei bolii pentru o doza


utilizata de 4 unitati este intre 11,31 si 17,11 zile.

254

256

Concluzie:
- Se utilizeaza analiza de corelatie atunci cand cele doua variabile
investigate X si Y, sunt masurate pe aceeasi subiecti si se doreste
evaluarea gradului de asociere intre ele.
- Se utilizeaza analiza de regresie liniara atunci cand una dintre variabile
poate fi cauza variatiei celeilalte variabile. In baza valorilor uneia dintre
ele, numita si variabila predictor, se pot prezice prin acest tip de analiza,
valorile celeilalte variabile.

In caseta Partial Correlation trecem variabilele cercetate in zona Variables, iar


variabila pe care dorim sa o izolam, n lista Controlling for.
Actionand butonul Options, putem bifa optiunile Means and standard
deviation (daca dorim sa avem statistica descriptiva a variabilelor) si Zeroorder correlations pentru a obtine si matricea de corelatie a tuturor
variabilelor, fara eliminarea vreuneia dintre ele.
Dupa actionarea succesiva a comenzilor Continue si OK, rezultatul procedurii
este afisat n fereastra Viewer.

255

Universitatea Ovidius Constanta

257

Note de Curs - Statistica teorie si aplicatii - Conf.dr. Lucian Petcu


Rezultatul procedurii
Mai pot exista doua cazuri:
- rXY (Z) ~ rXY situatie in care se poate concluziona ca prin eliminarea influentei
variabilei Z, corelatia dintre variabilele X si Y ramane neschimbata, adica,
intre variabilele X si Y exista o relatie directa.
-rXY (Z) > rXY situatie ce arata variabila luata initial drept independenta (X) si
variabila de control (Z), au fiecare in parte influenta separata asupra
variabilei dependente (Y) si nu sunt corelate una cu alta.

rXY = 0.813, p = 0.008


rYZ = 0.879, p = 0.002
rXZ = 0.950, p < 0.001
Valorile coeficientilor de corelatie partiala de ordinal zero (rXY rYZ rXZ) indica existenta
unor corelatii ridicate intre toate cele trei variabile. Insa, semnificatia coeficientilor nu
poate fi acceptata ca si cum variabilele ar fi total independente. Fiecare dintre
coeficientii de corelatie este purtator al unei erori de tip I. Astfel, la un set de trei
coeficienti de corelatie, eroarea de tip I ar insuma de trei ori 0.05 adica 0.15 (situatie
imposibil de acceptat). In aceste conditii este necesara corectarea nivelului de
semnificatie la = 0.05/3 = 0.017.
Dupa cum se observa din tabelul Correlations, probabilitatile asociate valorilor
coeficientilor de corelatie partiala de ordinal zero (rXY rYZ rXZ) sunt mai mici 0.017 fapt
ce sugereaza ca toate perechile de variabile se coreleaza semnificativ.

Daca se obtine acest rezultat, concluzia este ca atat variabila X cat si Z sunt
independente.

258

260

B. Regresia multipla
In tabelul Correlations, la Control Variables Z, se afla calculat coeficientul de
corelatie partiala rXY (Z) dintre variabila X si variabila Y cu izolarea efectului
variabilei Z.
Pentru exemplul analizat rXY (Z) = - 0.144 ce corespunde unui p=0.734
Deoarece rXY (Z) << rXY se poate trage concluzia ca:
- variabila Z determina atat variatia variabilei X cat si variatia variabilei Y, dar
relatia dintre variabilele X si Y este considerata aparenta.

Regresia multipla este o modalitate de alegere a predictorilor unei anumite


variabile dependente pe baza criteriilor statistice si de determinare a ecuatiei
de regresie corespunzatoare.
Sa consideram urmatorul model de regresie multipla:
Y = A + B1X1 + + BnXn
unde:
Y = variabila dependenta
Xi = variabilele independente
A, Bi = coeficientii de regresie

sau,
- cele doua variabile X si Y NU sunt corelate direct, ci prin intermediul
variabilei Z (Variabile X si Y sunt considerate independente).

Exemplu: Suntem interesati sa evaluam pentru un esantion de 15 subiecti,


influenta Motivarii scolare (variabila X1) si a Capacitatii intelectuale (variabila
X2) asupra Reusitei educationale (variabila Y) a acestora, pe baza datelor
obtinute la un set de teste de specialitate (vezi tabelul alaturat).

259

261

Universitatea Ovidius Constanta

Note de Curs - Statistica teorie si aplicatii - Conf.dr. Lucian Petcu

Tabelul Correlation prezinta matricea corelatiilor partiale (coeficientii de corelatie


Pearson, valoarea semnificatiei pentru fiecare coeficient de corelatie in parte,
numarul cazurilor luate in studiu). Se observa ca intre variabila dependenta Reusita
educationala si variabila independenta Abilitatea intelectuala exista o legatura
directa puternica, semnificativa r2y = 0.77, p < 0.001.
Variabila Reusita educationala este trecuta
in zona Dependent iar variabilele Motivare
scolara si Abilitate intelectuala in zona
Independent(s).
La Method alegem varianta implicita Enter
care introduce simultan in modelul de
analiza toate variabilele independente.

262

Tabelul Variable Entered/Removed contine modelele pe care SPSS le construieste


in vederea identificarii, in functie de metoda aleasa, a celei mai bune combinatii de
variabile independente ce explica variatia variabilei dependente. In situatia de fata,
metoda Enter, analizeaza simultan toate variabile.

264

Prin apasarea butonului Statistics se deschide


caseta Liniar Regression:Statistics. Aici bifam
Estimates pentru estimarea coeficientilor de
regresie, Model fit si Descriptive.

In tabelul Model Summary gasim pentru fiecare model de regresie identificat in


tabelul Variable Entered/Removed valoarea coeficientului de corelatie R, valoarea
coeficientului de determinare R2, valoarea ajustata a coeficientului de determinare R2
si eroarea standard a estimarii.

Rezultatul procedurii

Pentru situatia data coeficientul de corelatie multipla este R = 0.776, valoare ce


indica o corelatie puternica intre influentele combinate ale variabilelor Motivare
scolara, Abilitate intelectuala si Reusita educationala.

Tabelul Descriptive Statistics contine informatii referitoare la valorea medie


(Mean), deviatia standard (Std. Deviation) pentru fiecare variabila in parte, precum
si numarul de subiecti (N).

Coeficientul de determinare multipla R2 = 0.603 indica faptul ca influenta combinata a


celor doua variabile independente explica aproximativ 60% din variatia totala a
Reusitei educationale, restul de 40% din aceasta vatiatie datorandu-se probabil altor
variabile, erori de masurare sau intamplarii.

263

Universitatea Ovidius Constanta

265

Note de Curs - Statistica teorie si aplicatii - Conf.dr. Lucian Petcu


II. Analiza de corelatie cu SPSS
pentru variabile masurate la nivel nominal si ordinal
A. Marimi ale corelatiei la nivel nominal
Cele mai utilizate marimi ale corelatiei dintre variabile masurate la nivel nominal sunt
coeficientul , coeficientul de contingenta C, coeficientul V (Cramer) si coeficientul .
Tabelul ANOVA contine rezultatul Statisticii test F folosita pentru testarea modelului
de regresie utilizat. O valoare a lui F > Fcr sau p < = 0.05 confirma ipoteza ca
exista o relatie de liniaritate semnificativa intre variabilele considerate (variabilele
independente explica variatia variabilei dependente).

In tabelul Coefficients gasim coeficientii de regresie nestandardizati, erorile standard,


coeficientii de regresie standardizati, valoarea statisticii test t pentru fiecare coeficient
si valoarea Sig.
266

268

Tinand cont de valoarea coeficientilor de regresie nestandardizati linia de regresie


multipla este descrisa de urmatoarea ecuatie de regresie:
Reusita educationala = 18.9 + 0.11* Motivare scolara + 2.08* Abilitate intelectuala

Pentru a evalua influentele separate a variabilelor independente asupra variabilei


dependente se utilizeaza coeficientii de regresie standardizati (1 si 2). Conform
rezultatelor obtinute in tabelul Coefficients, ecuatia de regresie multipla standardizata
este data de urmatoarea formula:
Zy = 1Z1 + 2Z2 = 0.119 Z1 + 0.709 Z2

In situatia de fata, deoarece 1<<2 putem afirma ca Abilitatea intelectuala (variabila


X2) are o influenta mult mai puternica asupra Reusitei educationale (variabila Y) decat
Motivarea scolara (variabila X1).
De notat ca daca am fi obtinut 1>>2, am fi tras concluzia ca variabila X1 are o
influenta mult mai puternica asupra variabilei dependente Y decat variabila X2, iar
daca 12, am fi spus ca variabilele independente X1 si X2 au aproximativ aceeasi
influenta asupra variabilei dependente Y.

267

Universitatea Ovidius Constanta

269

Note de Curs - Statistica teorie si aplicatii - Conf.dr. Lucian Petcu


Exemplu: Se studiaza reactiile locale produse de doua tipuri de vaccin
B.C.G. Pentru aceasta s-au supus observatiei 365 de copii din care la 185 sa administrat vaccin de tip A, iar la 180 s-a administrat vaccin de tip B.
Rezultatele sunt prezentate in tabelul alaturat. Se cere sa se evalueze daca
exista o legatura intre reactia locala produsa si tipul de vaccin administrat
precum si care este taria corelatiei dintre cele doua variabile.

Rezultatul procedurii

Tabelul Crosstabulation contine efectivele nij care posed simultan


categoriile i i j ale celor dou
variabile.

Datorita modului de organizare a datelor este


necesara executarea procedurii de ponderare
Weight pentru variabilele categoriale Tip si
Reactie in functie de variabila Frecventa.

In tabelul Chi-Square Tests gasim


rezultatul testului CHI2 al asocierii.
Deoarece valoarea calculata a
testului Pearson Chi-Square este
172.8 iar probabilitatea asociata
acestei valori este p<0.001<=0.05,
se accepta ca exista o asociere (o
legatura) intre reactia locala produsa
si tipul de vaccin administrat.

Observatie: Daca datele ar fi fost introduse


in baza de date caz cu caz, operatia
Weight nu ar mai fi fost necesara.

Tabelul Symmetric Measures contine


valorile coeficientilor de corelatie la
nivel nominal , C si V precum si
probabilitatile asociate acestor valori.

270

272

Ipoteze:
H0: Cele doua variabile NU sunt corelate.

Cu toate deficientele semnalate la calcularea coeficientior , C si V, acestia


pot fi folositi in calitate de primi indici ai corelatiei la nivel nominal.

H1: Cele doua variabile sunt corelate.

In stuatii de cercetare mai pretentioase se utilizeaza coeficientul . In cazul in


care nu se poate identifica variabila independenta (sau nu se doreste) se
utilizeaza varianta simetrica a coeficientului iar in cazul in care se poate
identifica variabila independenta se foloseste varianta asimetrica a
coeficientului (Tabelul Directional Measures).

In ferestra Crosstabs, variabila Reactie este directionata la sectiunea Row(s)


iar variabila Tip vaccin la sectiunea Column(s). Apasand butonul Statistics se
deschide fereastra Crosstabs: Statistics. Aici bifam Chi-square pentru
calcularea valorii 2, Contingency coefficient, Phi and Cramers V si Lambda
pentru calcularea coeficientilor de corelatie la nivel nominal.

= V = 0.688 > C = 0.567 iar s = 0.58 (p < 0.001)


Tinand cont de valorile acestor coeficienti putem afirma ca cele doua
variabile sunt corelate, dar aceasta corelatie este moderata.

271

Universitatea Ovidius Constanta

273

Note de Curs - Statistica teorie si aplicatii - Conf.dr. Lucian Petcu

B. Marimi ale corelatiei la nivel ordinal


Cele mai utilizate marimi ale corelatiei dintre variabile masurate la nivel ordinal sunt
coeficientul , coeficientul d, coeficientul b si coeficientul s.

Petru a afla numarul total de cazuri legate


ale variabilei dependente Ly, se inmulteste
frecventa din fiecare celula cu suma
frecventelor din toate celulele situate la
dreapta (pe randul respectiv), dupa care
se aduna produsele astfel obtinute.

274

276

Cazurile care fac parte din aceeasi categorie a unei variabile vor fi numite cazuri
legate ale variabilei respective.
Daca alcatuim perechi selectand un
caz dintr-o celula cij si un caz dintr-o
celula situata deasura si la dreapta
celulei cij, cazurile din perechile astfel
obtinute sunt nelegate si dispuse in
aceeasi oridine in prezenta ambelor
variabile.
Daca alcatuim perechi selectand un
caz dintr-o celula cij si un caz dintr-o
celula situata deasura si la stanga
celulei cij, cazurile din perechile astfel
obtinute sunt nelegate si ordonate
diferit in prezenta ambelor variabile.
Astfel, pentru a calcula Na, se inmulteste frecventa din fiecare celula cu suma
frecventelor din toate celulele situate deasupra si la dreapta celulei respective, dupa
care se aduna produsele astfel obtinute. Pentru a calcula Nd, se inmulteste frecventa
din fiecare celula cu suma frecventelor din toate celulele situate deasupra si la
stanga celulei respective, dupa care se aduna produsele astfel obtinute.

Petru a afla numarul total de cazuri legate


ale variabilei independente Lx, se inmulteste frecventa din fiecare celula cu suma
frecventelor din toate celulele situate
dedesupt (pe coloana respectiva), dupa
care se aduna produsele astfel obtinute.

275

Universitatea Ovidius Constanta

277

Note de Curs - Statistica teorie si aplicatii - Conf.dr. Lucian Petcu


Exemplu: La 50 de copii medicii au fcut un instructaj privind igiena oral,
iar la 50 de copii alei la ntmplare, nu s-a fcut acest instructaj. Dupa un
interval de 6 luni s-au numrat cariile noi aprute. Se pune problema dac
aplicarea instructajului privind igiena oral are un efect asupra numrului de
carii noi aprute.

Rezultatul procedurii

Tabelul Crosstabulation contine efectivele nij care posed simultan


categoriile i i j ale celor dou
variabile.
In tabelul Chi-Square Tests gasim
rezultatul testului CHI2 al asocierii.
Deoarece valoarea calculata a
testului Pearson Chi-Square este
30.049 iar probabilitatea asociata
acestei valori este p<0.001<=0.05,
se accepta ca exista o asociere (o
legatura) intre instructajul facut si
numarul de carii aparute.

Datorita modului de organizare a datelor este


necesara executarea procedurii de ponderare
Weight pentru variabilele categoriale Carii si
Instructie in functie de variabila Frecventa.
Observatie: Daca datele ar fi fost introduse
in baza de date caz cu caz, operatia
Weight nu ar mai fi fost necesara.

278

280

Tabelul Symmetric Measures contine valorile coeficientilor de corelatie b si iar


tabelul Directional Measures contine valorile coeficientului de corelatie Somersd la
nivel ordinal precum si probabilitatile asociate acestor valori. Se utilizeaza varianta
simetrica a coeficientului Somers d in cazul in care nu se poate identifica variabila
independenta (sau nu se doreste) iar in cazul in care se poate identifica variabila
independenta se foloseste varianta asimetrica a acestui coeficient.

Ipoteze:
H0: Cele doua variabile NU sunt corelate.
H1: Cele doua variabile sunt corelate.

= 0.789 > dy = 0.617


iar p < 0.001

Deoarece d < inseamna ca d este o marime a corelatiei mai conservatoare decat .

In ferestra Crosstabs, variabila Carii este directionata la sectiunea Row(s) iar


variabila Instructie la sectiunea Column(s). Apasand butonul Statistics se
deschide fereastra Crosstabs: Statistics. Aici bifam Chi-square pentru
calcularea valorii 2, Gamma, Somersd si Kendalls tau-b pentru calcularea
coeficientilor de corelatie la nivel ordinal.

Tinand cont de valoarea coeficientului dy putem afirma ca cele doua variabile sunt
corelate, dar aceasta corelatie este moderata.

279

Universitatea Ovidius Constanta

281

Note de Curs - Statistica teorie si aplicatii - Conf.dr. Lucian Petcu

Pentru a obtine un format mai convenabil de prezentare a rezultatelor, se recomanda


ca in caseta Bivariate Correlation, dupa transferul variabilelor in lista Variables, sa se
actioneaze butonul Paste care deschide fereastra Syntax, unde gsim comenzile
procedurii. Aici se introduce clauza WITH ntre prima variabila (Scor) si a doua
variabila (QI). Apoi, dand clic pe butonul dreapta al mouse-lui se alege Run Current.

Exemplu: Sa presupunem ca dorim sa verificam daca


exista o legatura intre coeficientii de inteligenta masurati
pentru un esantion de 12 studenti si rezultatul testului
obtinut de acestia la examenul de matematica aplicata.
Rezultatele sunt ptezentate in tabelul alaturat.

Rezultatul testarii
Interpretare:
Deoarece r = 0.763 si p = 0.004 se
poate afirma ca intre QI si Scorul
obtinut la test exista o corelatie
pozitiva semnificativa puternica la un
nivel de semnificatie de = 0.01.
282

Ipoteze:
H0: Cele dou variabile NU Sunt corelate.
H1: Cele dou variabile Sunt corelate.
Variabilele supuse corelatiei Scor test si QI sunt trecute n lista Variables:
In zona Correlation Coefficients, se alege testul pentru date neparametrice
(ordinale): Kendall sau Spearman.
Test of significance este implicit cel bilateral (Two-tailed), dar se poate alege si cel
unilateral (One-tailed).
Flag significant correlations marcheaza cu un asterisc coeficientii semnificativi la
=0.05 si cu doua asteriscuri cei semnificativi la = 0.01.

283

Universitatea Ovidius Constanta

284