Documente Academic
Documente Profesional
Documente Cultură
Coeficientul de corelaţie
Analiza bivariată a datelor pune în evidenţă modul în care se influenţează între ele două
variabile numerice măsurate într-un lot de observaţii. Existenţa unei influenţe între cele două
variabile ne permite să realizăm predicţii corecte referitoare la plaja de variaţie a uneia dintre
ele atunci când se cunoaşte plaja de variaţie a celeilalte.
Cea mai simplă situaţie, rar întâlnită în practică, este atunci când între cele două
variabile există o corespondenţă 1 – la – 1, adică pentru o valoare dată a variabilei A corespunde
o valoare unică a variabilei B; în acest caz legătura dintre cele două variabile poate fi calculată
cu precizie prin determinarea unei funcţii B = f(A) şi ne permite să identificăm exact valoarea
uneia dintre cele două variabile pentru o valoare particulară a celeilalte.
În majoritatea situaţiilor însă nu avem de-a face cu corespondenţe de acest tip; cel mai
adesea pentru o valoare particulară a uneia dintre variabile corespunde o plajă de variaţie a
celei de a doua, astfel încât conceptul de funcţie este prea rigid pentru a caracteriza legătura
existentă; statisticienii au soluţionat acest tip de probleme introducând conceptul de corelaţie,
care este mai imprecis decât acela de funcţie şi furnizează doar următoarele informaţii:
- evidenţiază existenţa unei legături între cele două variabile;
- arată direcţia ei, care poate fi pozitivă (când una dintre variabile creşte, putem fi siguri
că şi cealaltă creşte) sau negativă (când una dintre variabile creşte, putem fi siguri că
cealaltă scade);
- evaluează cât de puternică este această legătură pe o scală de la 0 la 1.
Cel mai simplu tip de corelaţie este cea liniară, în cazul căreia cele două variabile variază
proporţional una cu alta.
Legătura sau influenţa existentă între două variabile se caracterizează din punct de
vedere statistic prin calcularea următorilor parametri:
- coeficientul de covarianţă, care arată direcţia sa, pozitivă sau negativă, cât şi
intensitatea asocierii;
- coeficientul de corelaţie, care arată intensitatea (în formă normalizată) cât şi direcţia
(pozitivă / negativă) pe o scală de la -1 la 1;
- dreapta de regresie, care reprezintă cea mai apropiată aproximare a sa printr-o funcţie
liniară.
Din punct de vedere vizual, această legătură se figurează prin intermediul diagramei de
dispersie, care se obţine printr-un grafic de tip X – Y sau Scatter.
OBSERVAŢIE: Analiza de regresie între două variabile numerice este direcţională, în sensul că
trebuie stabilită o ordine între variabile, prima influenţând-o pe a doua. Variabila despre care
dorim să verificăm cum o influenţează pe cealaltă se va numi „variabilă independentă”, iar
variabila influenţată se va numi „variabilă dependentă”. Dacă se modifică ordinea variabilelor
se vor schimba coeficienţii dreptei de regresie calculate, deşi coeficienţii de covarianţă şi
corelaţie rămân nealteraţi.
Exemplu: Analizaţi din punct de vedere statistic dacă şi cum valorile glicemiei influenţează
valorile colesterolului în tabelul de date.
Pentru o analiză completă vor trebui parcurse cele 4 etape enumerate anterior, respectiv:
1) determinarea coeficientului de covarianţă între glicemie şi colesterol;
2) determinarea coeficientului de corelaţie între glicemie şi colesterol;
3) calcularea coeficienţilor dreptei de regresie între glicemie şi colesterol;
4) reprezentarea grafică a legăturii analizate, printr-un grafic de tip Scatter.
Având în vedere că investigăm influenţa glicemiei asupra colesterolului, urmează că
glicemia este variabila independentă şi colesterolul este variabila dependentă.
1. Selectaţi din tabelul principal cele două coloane care conţin valorile variabilelor de analizat
şi copiaţi-le într-un tabel auxiliar, în care să fie înscrise obligatoriu în coloane vecine:
În situaţia de faţă valorile erau deja memorate în coloane învecinate, deci această etapă
nu ar fi fost necesară, dar în cazurile (foarte frecvente) în care variabilele de analizat nu sunt
înscrise în coloane învecinate, copierea lor sub această formă este obligatorie.
Rezultatele comenzii sunt afişate sub formă tabelară, după cum urmează:
Glicemie Colesterol
Glicemie 614.42
Colesterol 137.732 2456.6339
Se observă aşadar că între glicemie şi colesterol există o legătură pozitivă, sau direct
proporţională, coeficientul de covarianţă având valoarea de 137.732.
Funcţia COVARIANCE.P():
Pentru a fi calculată necesită parcurgerea paşilor de mai jos:
1. Selectaţi celula în care doriţi să inseraţi coeficientul de covarianţă şi acţionaţi din meniul
superior butonul „Formulas”/«Insert function»:
3. Selectaţi cele două blocuri de celule care conţin variabilele de interes (glicemie şi colesterol):
4. Apăsaţi butonul OK; rezultatul afişat în fereastra de editare a argumentelor funcţiei va fi
încărcat în celula selectată la pasul 1.
1. Selectaţi din tabelul principal cele două coloane care conţin valorile variabilelor de analizat
şi copiaţi-le într-un tabel auxiliar, în care să fie înscrise obligatoriu în coloane vecine:
În situaţia de faţă valorile erau deja memorate în coloane învecinate, deci această etapă
nu ar fi fost necesară, dar în cazurile (foarte frecvente) în care variabilele de analizat nu sunt
înscrise în coloane învecinate, copierea lor sub această formă este obligatorie.
3. Personalizaţi fereastra de dialog activată cu următoarele informaţii (se va ţine cont de faptul
că blocurile de celule folosite trebuie să conţină exclusiv valori numerice):
Se introduce blocul continuu de
celule în care se află valorile
celor două variabile de analizat
(de aceea ele au trebuit copiate
în prealabil în coloane
învecinate).
Glicemie Colesterol
Glicemie 1
Colesterol 0.112107 1
Comanda generează de fapt matricea coeficienţilor de corelaţie, care conţine coeficienţii
de corelaţie Pearson între toate perechile posibile de variabile selectate.
În cazul nostru coeficientul de corelaţie între glicemie şi colesterol la momentul T0 este
de 0.112107, adică foarte slab. Aşadar, conform regulilor lui Colton, corelaţia este direct
proporţională (pozitivă) dar foarte slabă.
OBSERVAŢIE: Dacă nu se doreşte utilizarea comenzilor predefinite din pachetul Data
Analysis, coeficientul de corelaţie între două variabile numerice poate fi calculat şi cu ajutorul
funcţiei CORREL(). Această funcţie nu generează matricea de corelaţie ci doar valoarea
individuală a coeficientului, însă are avantajul că nu necesită copierea în prealabil a variabilelor
în coloane învecinate, argumentele sale fiind introduse separat.
Observaţi sintaxa formulei de calcul folosite: = CORREL (A2: A101, B2: B101)
1. Selectaţi din tabelul principal cele două coloane care conţin valorile variabilelor de analizat
şi copiaţi-le într-un tabel auxiliar, în care să fie înscrise obligatoriu în coloane vecine:
Această etapă nu este obligatorie pentru apelarea comenzii, dar o recomandăm pentru
claritate.
2. Selectaţi din meniul superior comanda Data / Data Analysis / Regression:
3. Personalizaţi fereastra de dialog activată cu următoarele informaţii (se va ţine cont de faptul
că blocurile de celule folosite trebuie să conţină exclusiv valori numerice):
Rezultatele comenzii sunt afişate sub formă tabelară, după cum urmează:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.112107
R Square 0.012568
Adjusted R Square 0.002492
Standard Error 49.75203
Observations 100
ANOVA
df SS MS F Significance F
Regression 1 3087.481499 3087.481499 1.247334036 0.266793009
Residual 98 242575.9085 2475.264372
Total 99 245663.39
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 176.2999 23.37683876 7.541649435 2.37873E-11 129.9093471 222.6904986 129.9093471 222.6904986
Glycemia 0.224166 0.200714211 1.116841097 0.266793009 -0.17414494 0.6224767 -0.17414494 0.6224767
ANOVA : Analiza de regresie conţine şi un test cu ipoteză nulă, care verifică măsura în care
dreapta de regresie construită reprezintă o aproximare corectă pentru valorile reale ale celor
două variabile analizate în sensul că există într-adevăr o relaţie liniară între acestea. Ipoteza de
lucru este că panta dreptei de regresie este nulă (deci nu există nici un fel de corelaţie între cele
2 variabile). Pentru a se verifica această ipoteză, se calculează statistica F (= 1.24733 în cazul
nostru) şi nivelul său de semnificaţie p (= 0.26679 în cazul nostru).
Dacă p <= 0.05 înseamnă că ipoteza nulă este INFIRMATĂ, panta dreptei de regresie
este semnificativ diferită de 0, şi prin urmare există o relaţie liniară între X şi Y.
Dacă p > 0.05 înseamnă că ipoteza nulă este CONFIRMATĂ, panta dreptei de regresie
este 0 şi nu există nici o relaţie semnificativă între X şi Y (ceea ce se observă şi în cazul de faţă,
unde p = 0.636866076).
În particular, testul ANOVA calculează următoarele valori:
- Regression : este media deviaţiei pătrate a lui Y explicată de X (= 3087.48 în cazul
nostru);
- Residual : este media deviaţiei pătrate a lui Y neexplicată de X (= 242575.90, mult mai
mare decât celălalt coeficient în cazul nostru; fiind mult mai mare înseamnă că variabila
X nu poate fi utilizată eficient pentru a estima plaja de variaţie a lui Y şi respectiv pentru
a predicţiona valorile sale);
- Total : deviaţia pătrată totală a lui Y, suma între Regression şi Residual.
COEFFICIENTS : Reprezintă coeficienţii dreptei de regresie; sunt cele mai importante valori
calculate de model deoarece conţin caracterizarea precisă a acestuia. Astfel, dreapta de regresie
are ecuaţia generală y=ax+b, unde:
- a = 0.2241 reprezintă PANTA dreptei ; cu cât este mai mare, cu atât semnifică o dreaptă
mai înclinată, dar nu o legătură mai puternică între cele două variabile; când panta are o
valoare pozitivă, atestă o corelaţie direct proporţională între cele 2 variabile, iar atunci
când are o valoare negativă, atestă o corelaţie invers proporţională între cele 2 variabile.
- b = 176.29 reprezintă INTERCEPTUL CU AXA OY, adică punctul în care dreapta
intersectează axa verticală.
OBSERVAȚIE: Dacă nu dorim să utilizăm comenzile predefinite din pachetul Data Analysis,
panta și interceptul liniei de regresie pot fi calculate folosind funcțiile SLOPE() și INTERCEPT().
2. Căutaţi şi selectaţi funcţia „SLOPE”, în categoria „All”; apăsaţi butonul OK; se va deschide
fereastra de editare a argumentelor funcţiei:
3. Selectaţi cele două blocuri de celule care conţin variabilele de interes (glicemie şi colesterol):
- Known y’s: este mulțimea de valori ale variabilei DEPENDENTE, influențată de cealaltă
– în cazul nostru, Colesterolul, scris în a doua coloană a tabelului auxiliar;
- Known x’s: este mulțimea de valori ale variabilei INDEPENDENTE, care o influențează
pe cealaltă – în cazul nostru, Glicemia, scrisă în prima coloană a tabelului auxiliar.
4. Apăsaţi butonul OK; rezultatul afişat în fereastra de editare a argumentelor funcţiei va fi
încărcat în celula selectată la pasul 1.
Funcția INTERCEPT () :
Pentru a fi calculată necesită parcurgerea paşilor de mai jos:
1. Selectaţi celula în care doriţi să inseraţi coeficientul de corelaţie şi acţionaţi din meniul
superior butonul „Formulas”/«Insert function»:
1. Selectaţi din tabelul principal cele două coloane care conţin valorile variabilelor de analizat
şi copiaţi-le într-un tabel auxiliar, în care să fie înscrise obligatoriu în coloane vecine:
În acest caz, etapa menţionată este obligatorie, deoarece este esenţial ca variabilele ce vor
fi reprezentate pe grafic să fie aşezate în ordine, în prima coloană fiind obligatoriu înscrisă
variabila independentă şi în a doua coloană fiind obligatoriu înscrisă variabila dependentă.
2. Selectaţi tabelul auxiliar realizat şi alegeţi din meniul superior comanda Insert / Charts / X Y
(Scatter) şi obligatoriu primul subtip, Scatter with only Markers:
3. Apăsaţi butonul OK; graficul va fi inserat în pagina de lucru curentă. Repoziţionaţi-l şi
redimensionaţi-l dacă este cazul.
Observaţi valorile figurate pe grafic: glicemia este reprezentată pe axa orizontală, iar
colesterolul este reprezentat pe axa verticală; graficul conţine diagrama de dispersie dorită.
Având în vedere că în exemplele anterioare am realizat o ordonare a tabelului după
variabila Diabet, se poate constata pe grafic o separare clară a punctelor în două
subgrupuri, care corespund pacienţilor sănătoşi şi respectiv diagnosticaţi cu diabet.
Nu se observă însă nici o direcţionare a norului de puncte în sus sau în jos, care ar evidenţa
existenţa unei influenţe sistematice a valorilor glicemiei asupra valorilor colesterolului,
punctele fiind aproximativ uniform distribuite.
4. Ştergeţi legenda, deoarece conţinutul ei nu este relevant pentru grafic şi modificaţi titlul său;
un titlul potrivit ar fi „Corelaţia între glicemie şi colesterol în lot”.
5. Adăugaţi nume pentru axele de coordonate orizontală (comanda Chart Tools / Layout /
Axis Titles / Primary Horizontal Axis Title / Title Below Axis) şi verticală (comanda Chart
Tools / Layout / Axis Titles / Primary Vertical Axis Title / Rotated Title) – etapă care este
necesară pentru a clarifica semnificaţia punctelor înscrise pe grafic:
6. Completaţi graficul, adăugând pe el dreapta de regresie (sau linia de tendinţă) şi
caracterizarea matematică a sa. Aceasta este o etapă obligatorie la reprezentarea corelaţiei
între două variabile prin diagrama de dispersie şi se realizează cu ajutorul comenzii Chart
Tools / Layout / Trendline / More Trendline Options), în care se bifează, în secţiunea
Trend / Regression Type opţiunea Linear şi în plus opţiunile „Display Equation on chart”,
respectiv „Display R-squared value on chart” :