Sunteți pe pagina 1din 7

Analiza datelor

Corelaia liniar
Utilitate
Corelaia evalueaz gradul de asociere dintre dou variabile msurate pe scal de
interval/raport. Aceasta se refer la intensitatea i sensul de variaie concomitent a valorilor unei
variabile n raport cu cealalt, dup un model de tip liniar. Dac valorile unei variabile urmeaz, n
sens direct, cresctor, sau invers, descresctor, valorile celeilalte variabile, atunci cele dou
variabile coreleaz ntre ele. Pentru caracterizarea corelaiei se folosete coeficientul de corelaie al
lui Pearson. Domeniul de variaie a coeficientului de corelaie Pearson (r) este ntre r = -1 (corelaie
perfect invers) i r= +1 (corelaie perfect direct). Absena oricrei legturi (corelaii) dintre
variabile se traduce prin r = 0.
Analiza corelaiei este o procedur care implic valori pentru dou variabile msurate pentru
aceiai subieci, situaie care corespunde aa numitului model de cercetare intrasubieci (withinsubjects). Acelai model se ntlnete ns i atunci cnd aplicm testul t pentru eantioane
dependente, deoarece i n acest caz avem dou msurri pentru fiecare subiect.
Testarea corelaiei este o metod care permite probarea existenei unei asocieri ntre aceste
de variabile, ca urmare a faptului c, principial, procedura de calcul se bazeaz pe transformarea n
valori z, libere de unitatea de msur.
Testul de corelaie implic dou variabile dar, adesea, ntr-o cercetare numrul variabilelor
supuse corelaiei este mai mare de dou. Acest fapt conduce la ceea ce se numete o matrice de
corelaii, care este un tabel ale crui celule cuprind corelaiile dintre perechile de variabile.
Condiii
Condiia principal pentru calcularea coeficientului de corelaie liniar Pearson este ca
variabilele implicate s fie msurate pe scal de interval/raport (alturi de existena unei forme a
distribuiei care nu se abate sever de la curba normal).
Testele neparametrice alternative, pentru cazul n care condiiile pentru utilizarea testului
Pearson nu se ndeplinesc, sunt: testul chi-ptrat (pentru date nominale) sau coeficienii de corelaie
Spearman sau Kendall (pentru date ordinale).
Realizarea testrii corelaiei cu ajutorul SPSS
nregistrarea datelor n foaia de calcul se face prin se crearea variabile distincte pentru
fiecare caracteristic supus testrii.
De exemplu, dac dorim s testm existena unei corelaii ntre cheltuielile totale i
veniturile totale ale gospodriilor dintr-o anumite regiune administrativ. putem folosi datele din
fiierul Exemplu_1.sav.

Succesiunea de comenzi utilizat va fi: Analyze -Corelate-Bivariate.... Aceasta va permite


deschiderea ferestrei urmtoare:

Analiza datelor

Variabilele ce vor fi testate vor fi trecute n lista Variables. n cazul nostru sunt:
Venituri_totale i Cheltuieli_totale.
Testul implicit, din zona Correlation Coefficients, este Pearson, dar se poate bifa un altul
(Kendall sau Spearman), dac datele sunt ordinale (ranguri).
Tipul implicit de testare a ipotezei este bilateral (Two-tailed), dar se poate alege i unilateral.
Flag significant correlations, determin marcarea cu un asterisc a coeficienilor
semnificativi la p = 0,05, i cu dou asteriscuri a celor semnificativi la p = 0,01. Acest lucru este util
atunci cnd matricea de corelaie este mare, pentru a scoate n eviden valorile semnificative ale lui
r.
Rezultate
n fereastra SPSS viewer, dup rularea procedurii se va afia un tabel ca cel de mai jos:
Correlations
Venituri_totale
Venituri_totale

1,000 ,973**

Pearson Correlation
Sig. (2-tailed)

,000

N
Chelt_totale

Chelt_totale

10,000

Pearson Correlation

,973**

Sig. (2-tailed)

,000

10
1,000

10

10,000

**. Correlation is significant at the 0.01 level (2-tailed).

Tabelul rezultatelor cuprinde matricea de corelaii a variabilelor analizate. El este redundant,


deoarece prezint aceleai corelaii de dou ori, odat deasupra diagonalei i, din nou, sub diagonala
tabelului. Corelaiile variabilelor cu ele nsele sunt perfecte i pozitive (r = 1) i nu prezint,
desigur, nici un interes.
Fiecare celul include urmtoarele informaii:
valoarea lui r (Pearson Correlation): 0,973
nivelul p Sig. 2-tailed (probabilitatea cu care valoarea calculat a lui r apare pe
distribuia de nul): 0,000
numrul de subieci (N): 10

Analiza datelor

Interpretarea rezultatelor
n cazul nostru, se observ o corelaie direct foarte intens i semnificativ ntre
Cheltuieli_totale i Venituri_totale (r = 0,973, p = 0,000). Altfel spus, cheltuielile totale ale
gospodriilor sunt foarte strns legate de veniturile totale pe care au acestea.
Dezavantajul acestui tip de tabel const n faptul c avem, de fapt, o dubl prezentare a
corelaiilor, deasupra diagonalei i sub diagonal. Pentru corelaii implicnd multe variabile tabelul
se va citi cu relativ dificultate.
Expresia grafic a corelaiei (Scatterplot)
Caracterul i intensitatea corelaiei dintre dou variabile se evideniaz extrem de sugestiv
cu ajutorul unei proceduri grafice specifice, numit scatterplot.
Aceasta se lanseaz din meniul principal Graphs-Chart builder Scatter... care deschide
urmtoarea fereastr:

De aici, se alege din lista Choose from: Scatter/Dot, iar din lista de grafice de acest tip prima
variant. Apoi din lista Variables se trage pe axa Ox variabila Venituri_totale, iar pe axa Oy
variabila Cheltuieli_totale.
Dup apsarea butonului OK n fereastra SPSS View se va vedea rezultatul urmtor:

Analiza datelor

Tot aici se poate ajunge dac din meniul Graphs se alege Legacy Dialogs...- Scatter/Dot, caz n care
se deschide fereastra urmtoare :

De aici se alege Simple scatter i se apas Define iar n fereastra care apare

se trag n casetele corespunztoare axelor cele dou variabile Cheltuieli_totale i Venituri_totale.

Analiza datelor

Regresia liniar
Cunoatere existenei unei corelaii liniare ntre dou variabile nu este suficient de cele mai
multe ori, deoarece n practic este necesar i cunoaterea chiar cu aproximaie cunoscut a relaiei
care s-ar putea stabili ntre dou variabile. Aceast relaie poart denumirea de model de regresie. n
general un astfel de model de regresie liniar poate fi scris astfel:
Y = a + 1 x1 + 2 x 2 + ... + i xi + n xn + , unde
a
- coeficientul liber al modelului (constanta).
i
- coeficienii de regresie ai modelului

- reziduul modelului
Deoarece n practic, de cele mai multe ori se lucreaz cu eantioane pentru determinarea
corelaiei i nu cu toate datele populaiei studiate, se ncearc determinarea unui model care s
estimeze modelul real de regresie. Acest model ar putea arta astfel:
Y = a + b1 x1 + b2 x 2 + ...bi xi + bn xn + , unde
a
- coeficientul liber al modelului (constanta).
- coeficienii de regresie estimai ai modelului
bi

- reziduul modelului
Astfel se ridic ntrebarea dac modelul de regresie determinat pe baza datelor din eantion
este cel real sau nu. Datorit acestui fapt este necesar testarea semnificaiei modelului ca ntreg
folosind un test specific (testul F) dar i dac fiecare coeficient are corespondent o estimaie b
semnificativ.
De remarcat c un model de regresie liniar poate avea mai multe variabile cauz
(independente) i o singur variabil efect (dependent). n cazul nostru exist doar o cauz i un
efect.
Pentru determinarea acestei relaii SPSS pune la dispoziie o procedur apelabil prin
intermediul urmtoarei succesiuni de comenzi: Analyze-Regression-Linear... care deschide
urmtoarea fereastr:

S presupunem c dorim s determinm dac gospodriile au tendina de a cheltui total


veniturile pe care le ctig sau de a le economisi i dac cheltuielile totale sunt influenate la fel de
diferitele categorii de venituri.
n acest caz vom completa n caseta Dependent, prin tragere, cu variabila Cheltuieli_totale
(Y), iar n lista Independent(s) cu variabila Venituri_din salariu (x1), respectiv Alte_venituri (x2),
mergnd pe ipoteza c gospodriile cheltuie n limita veniturilor pe care la ctig i nu ctig n
funcie de ce cheltuieli fac.
Deci posibilul model ar arta cam aa:
Cheltuieli _ totale = a + b1 * Venituri _ din _ salariu + b2 * Alte _ venituri +
Dac ntre cheltuielile totale i veniturile obinute de o gospodrie exist o corelaie
puternic direct atunci vom putea spune c gospodriile cheltuie att ct au la dispoziie. Dac nu
5

Analiza datelor

se manifest o corelaie sau aceasta este slab este posibil s observm o tendin de economisire a
diferitelor categorii de venituri.
Mai pot fi setate i alte opiuni, folosind butoanele
Statistics...
- pentru calcularea i afiarea a mai multor parametri pentru corelaie, cum ar fi
coeficienii de regresie, intervalele de ncredere pentru acetia, etc.
Plots...
- pentru reprezentarea grafic a rezultatelor regresiei
Save...
- Parametrii modelului de regresie
Options...
- alte opiuni privind pragul de semnificaie pentru testul F aplicabil coeficienilor de
regresie
Ca de obicei, opiunile setate predefinit sunt de cele mai multe ori suficiente.
Dup apsarea butonului OK n fereastra SPSS Viewer vor fi afiate urmtoarele tabele:
Variables Entered/Removedb
Variables
Entered

Model
1

Variables
Removed

Method

Alte venituri,
Venituri din
salariua

. Enter

a. All requested variables entered.


b. Dependent Variable: Chelt_totale

Primul tabel arat cte dintre variabilele independente au fost selectate n urma testelor s
fac parte din modelul de regresie. n cazul modelului din exemplul nostru, toate variabilele
independente au fost selectate n model.
Model Summary
Model
1

R
,987a

Adjusted R
Square

R Square
,973

Std. Error of the


Estimate

,966

307,24989

a. Predictors: (Constant), Alte venituri, Venituri din salariu

Al doilea tabel prezint valoarea coeficientului de corelaie liniar (R r), a coeficientului


de determinaie (R square R2), a coeficientului de determinaie corectat, respectiv a erorii
standard a estimaiei .
Valoarea 0,987 arat c ntre cele dou variabile exist o corelaie liniar direct (semnul +
al coeficientului), foarte puternic (valoarea coeficientului foarte aproape de 1).
ANOVAb
Model
1

Sum of Squares
Regression
Residual
Total

df

Mean Square

2,399E7

1,200E7

660817,462

94402,495

2,466E7

Sig.

127,088 ,000a

a. Predictors: (Constant), Alte venituri, Venituri din salariu


b. Dependent Variable: Chelt_totale

Al treilea tabel arat rezultatele testului F de semnificaie a modelului de regresie. n cazul


de fa modelul este semnificativ (Sig. < 0.05).

Analiza datelor
Coefficientsa
Unstandardized Coefficients
Model
1

B
(Constant)

Standardized
Coefficients

Std. Error
-2,253

Beta

206,495

Sig.
-,011 ,992

Venituri din salariu

,746

,174

,459

4,289 ,004

Alte venituri

,199

,037

,575

5,375 ,001

a. Dependent Variable: Chelt_totale

Ultimul tabel prezint estimatorii b ai coeficienilor de regresie ai modelului de regresie


estimat i rezultatele testului t pentru semnificaia fiecruia. Modelul estimat obinut ar putea fi scris
astfel:
Cheltuieli _ totale = 2.253 + 0.746 *Venituri _ din _ salariu + 0.199 * Alte _ venituri
Dar testarea semnificaiei fiecrui coeficient de regresie prin testul t a artat c semnificativi
sunt doar b1 (Sig.=0.004<0.05) i b2 (Sig. = 0.001<0.05). n cazul constantei a nu se mai poate
spune acelai lucru (Sig. = 0.992>0.05), caz n care se elimin din model.

Cheltuieli _ totale = 0.746 *Venituri _ din _ salariu + 0.199 * Alte _ venituri


Trecnd de la modelul estimat de regresie la modelul real de regresie, acesta arat astfel:

Cheltuieli _ totale = 0.459 *Venituri _ din _ salariu + 0.575 * Alte _ venituri


Se poate spune c gospodriile cheltuie aproape tot ce ctig i c exist o predispoziie n a
cheltui mai mult din alte venituri dect din cele din salariu. Acest lucru ar putea fi aprofundat prin
studiul corelaiei pariale dintre Cheltuielile_totale i Alte_venituri, respectiv Cheltuielile_totale i
Venituri_din salariu.

S-ar putea să vă placă și