Sunteți pe pagina 1din 17

MICROSOFT EXCEL.

LP 11 Analiza bivariată a datelor. Calcularea


corelaţiei între două variabile numerice.
Realizarea de grafice
- Calcularea coeficientului de covarianţă
- Calcularea coeficientului de corelaţie
- Calcularea coeficienţilor dreptei de regresie
- Grafice de tipul X – Y / Scatter

Coeficientul de corelaţie
Analiza bivariată a datelor pune în evidenţă modul în care se influenţează între ele două
variabile numerice măsurate într-un lot de observaţii. Existenţa unei influenţe între cele două
variabile ne permite să realizăm predicţii corecte referitoare la plaja de variaţie a uneia dintre
ele atunci când se cunoaşte plaja de variaţie a celeilalte.
Cea mai simplă situaţie, rar întâlnită în practică, este atunci când între cele două
variabile există o corespondenţă 1 – la – 1, adică pentru o valoare dată a variabilei A corespunde
o valoare unică a variabilei B; în acest caz legătura dintre cele două variabile poate fi calculată
cu precizie prin determinarea unei funcţii B = f(A) şi ne permite să identificăm exact valoarea
uneia dintre cele două variabile pentru o valoare particulară a celeilalte.
În majoritatea situaţiilor însă nu avem de-a face cu corespondenţe de acest tip; cel mai
adesea pentru o valoare particulară a uneia dintre variabile corespunde o plajă de variaţie a
celei de a doua, astfel încât conceptul de funcţie este prea rigid pentru a caracteriza legătura
existentă; statisticienii au soluţionat acest tip de probleme introducând conceptul de corelaţie,
care este mai imprecis decât acela de funcţie şi furnizează doar următoarele informaţii:
- evidenţiază existenţa unei legături între cele două variabile;
- arată direcţia ei, care poate fi pozitivă (când una dintre variabile creşte, putem fi siguri
că şi cealaltă creşte) sau negativă (când una dintre variabile creşte, putem fi siguri că
cealaltă scade);
- evaluează cât de puternică este această legătură pe o scală de la 0 la 1.
Cel mai simplu tip de corelaţie este cea liniară, în cazul căreia cele două variabile variază
proporţional una cu alta.
Legătura sau influenţa existentă între două variabile se caracterizează din punct de
vedere statistic prin calcularea următorilor parametri:
- coeficientul de covarianţă, care arată direcţia sa, pozitivă sau negativă, cât şi
intensitatea asocierii;
- coeficientul de corelaţie, care arată intensitatea (în formă normalizată) cât şi direcţia
(pozitivă / negativă) pe o scală de la -1 la 1;
- dreapta de regresie, care reprezintă cea mai apropiată aproximare a sa printr-o funcţie
liniară.
Din punct de vedere vizual, această legătură se figurează prin intermediul diagramei de
dispersie, care se obţine printr-un grafic de tip X – Y sau Scatter.

OBSERVAŢIE: Analiza de regresie între două variabile numerice este direcţională, în sensul că
trebuie stabilită o ordine între variabile, prima influenţând-o pe a doua. Variabila despre care
dorim să verificăm cum o influenţează pe cealaltă se va numi „variabilă independentă”, iar
variabila influenţată se va numi „variabilă dependentă”. Dacă se modifică ordinea variabilelor
se vor schimba coeficienţii dreptei de regresie calculate, deşi coeficienţii de covarianţă şi
corelaţie rămân nealteraţi.

Exemplu: Analizaţi din punct de vedere statistic dacă şi cum valorile glicemiei influenţează
valorile colesterolului în tabelul de date.

Pentru o analiză completă vor trebui parcurse cele 4 etape enumerate anterior, respectiv:
1) determinarea coeficientului de covarianţă între glicemie şi colesterol;
2) determinarea coeficientului de corelaţie între glicemie şi colesterol;
3) calcularea coeficienţilor dreptei de regresie între glicemie şi colesterol;
4) reprezentarea grafică a legăturii analizate, printr-un grafic de tip Scatter.
Având în vedere că investigăm influenţa glicemiei asupra colesterolului, urmează că
glicemia este variabila independentă şi colesterolul este variabila dependentă.

Calcularea coeficientului de covarianţă între 2 variabile numerice


Comanda „Data Analysis / Covariance”
Covarianţa se defineşte ca media produselor abaterilor de la medie pentru fiecare
pereche de valori ale celor două variabile analizate. Coeficientul de covarianţă nu aparţine unui
interval dat de valori, putând lua ca valoare orice număr real finit, şi se foloseşte pentru a
determina natura legăturii între cele 2 variabile: valorile pozitive ale sale indică o legătură direct
proporţională între variabile, valorile negative indică o legătură invers proporţională, iar
valorile apropiate de 0 indică absenţa unei influenţe între cele două variabile.
Pentru calcularea sa trebuie urmaţi paşii de mai jos:

1. Selectaţi din tabelul principal cele două coloane care conţin valorile variabilelor de analizat
şi copiaţi-le într-un tabel auxiliar, în care să fie înscrise obligatoriu în coloane vecine:

În situaţia de faţă valorile erau deja memorate în coloane învecinate, deci această etapă
nu ar fi fost necesară, dar în cazurile (foarte frecvente) în care variabilele de analizat nu sunt
înscrise în coloane învecinate, copierea lor sub această formă este obligatorie.

2. Selectaţi din meniul superior comanda Data / Data Analysis / Covariance:


3. Personalizaţi fereastra de dialog activată cu următoarele informaţii (se va ţine cont de faptul
că blocurile de celule folosite trebuie să conţină exclusiv valori numerice):
Se introduce blocul continuu de
celule în care se află valorile
celor două variabile de analizat
(de aceea ele au fost copiate în
prealabil în coloane învecinate).

Se bifează atunci când primele


celule din coloanele de valori
selectate conţin numele
variabilelor pentru care se
realizează analiza (în această
situaţie este recomandat să
Se indică poziţia în care dorim să afişăm rezultatele comenzii, prin alegerea selectăm valorile cu tot cu
uneia dintre următoarele opţiuni: numele coloanelor aferente şi
- Output Range: rezultatele se vor afişa în foaia de lucru curentă, într-o să bifăm opţiunea pentru o mai
regiune începând cu celula a cărei etichetă este specificată aici; bună claritate a rezultatelor
- New Worksheet Ply: rezultatele se vor afişa pe o foaie de lucru separată, generate).
cu nume implicit (Sheet 10) sau specificat de noi, în acelaşi registru de
calcul;
- New Workbook: rezultatele se vor afişa într-un registru de calcul separat
care se creează la lansarea comenzii.

Rezultatele comenzii sunt afişate sub formă tabelară, după cum urmează:

Glicemie Colesterol
Glicemie 614.42
Colesterol 137.732 2456.6339

Se observă aşadar că între glicemie şi colesterol există o legătură pozitivă, sau direct
proporţională, coeficientul de covarianţă având valoarea de 137.732.

OBSERVAŢIE: Dacă nu se doreşte utilizarea comenzilor predefinite din pachetul Data


Analysis, coeficientul de covarianţă între două variabile numerice poate fi calculat şi cu ajutorul
funcţiilor COVARIANCE.P (), respectiv COVARIANCE.S ().
Funcţia COVARIANCE.P () returnează ∑(𝑥 − 𝑥̅ ) ∙ (𝑦 − 𝑦̅)
𝐶𝑜𝑣 (𝑋, 𝑌) =
coeficientul de covarianţă corespunzător 𝑛
populaţiei din care provin cele două loturi
(acelaşi rezultat cu cel al comenzii Covariance
din pachetul Data Analysis).
Funcţia COVARIANCE.S () returnează ∑(𝑥 − 𝑥̅ ) ∙ (𝑦 − 𝑦̅)
𝐶𝑜𝑣 (𝑋, 𝑌) =
coeficientul de covarianţă corespunzător 𝑛−1
eşantionului din care provin cele două loturi.
Avantajul utilizării acestor funcţii este că nu necesită copierea în prealabil a variabilelor
în coloane învecinate, argumentele lor fiind introduse separat.

Funcţia COVARIANCE.P():
Pentru a fi calculată necesită parcurgerea paşilor de mai jos:
1. Selectaţi celula în care doriţi să inseraţi coeficientul de covarianţă şi acţionaţi din meniul
superior butonul „Formulas”/«Insert function»:

2. Căutaţi şi selectaţi funcţia „COVARIANCE.P”, în categoria „All”; apăsaţi butonul OK; se va


deschide fereastra de editare a argumentelor funcţiei:

3. Selectaţi cele două blocuri de celule care conţin variabilele de interes (glicemie şi colesterol):
4. Apăsaţi butonul OK; rezultatul afişat în fereastra de editare a argumentelor funcţiei va fi
încărcat în celula selectată la pasul 1.

Observaţi sintaxa formulei de calcul folosite:


= COVARIANCE.P (A2: A101, B2: B101)
Folosind aceeaşi succesiune de paşi se poate calcula similar coeficientul de covarianţă
corespunzător eşantionului. Sintaxa formulei de calcul folosite va fi:
= COVARIANCE.S (A2: A101, B2: B101)
Observaţi diferenţa între cele două valori calculate.

Calcularea coeficientului de corelaţie între 2 variabile numerice


Comanda „Data Analysis / Correlation”
Coeficientul de corelaţie Pearson reprezintă măsura intensităţii legăturii proporţionale
între două variabile şi are valori cuprinse între -1 şi 1. Valorile apropiate de 0 indică absenţa
corelaţiei între variabilele respective, iar valorile apropiate de 1 sau de -1 indică prezenţa unei
corelaţii puternice între variabile.
Valorile negative indică prezenţa unei corelaţii invers proporţionale, iar valorile pozitive
indică prezenţa unei corelaţii direct proporţionale.
Colton (1974) a indicat următoarele reguli empirice pentru interpretarea coeficienţilor de
corelaţie:
- Un coeficient de corelaţie între 0.10 şi 0.30 semnifică o corelaţie slabă,
- Un coeficient de corelaţie între 0.30 şi 0.50 semnifică o corelaţie moderată,
- Un coeficient de corelaţie peste 0.50 semnifică o corelaţie bună.
Pentru calcularea sa trebuie urmaţi paşii de mai jos:

1. Selectaţi din tabelul principal cele două coloane care conţin valorile variabilelor de analizat
şi copiaţi-le într-un tabel auxiliar, în care să fie înscrise obligatoriu în coloane vecine:
În situaţia de faţă valorile erau deja memorate în coloane învecinate, deci această etapă
nu ar fi fost necesară, dar în cazurile (foarte frecvente) în care variabilele de analizat nu sunt
înscrise în coloane învecinate, copierea lor sub această formă este obligatorie.

2. Selectaţi din meniul superior comanda Data / Data Analysis / Correlation:

3. Personalizaţi fereastra de dialog activată cu următoarele informaţii (se va ţine cont de faptul
că blocurile de celule folosite trebuie să conţină exclusiv valori numerice):
Se introduce blocul continuu de
celule în care se află valorile
celor două variabile de analizat
(de aceea ele au trebuit copiate
în prealabil în coloane
învecinate).

Se bifează atunci când primele


celule din coloanele de valori
selectate conţin numele
variabilelor pentru care se
realizează analiza (în această
situaţie este recomandat să
Se indică poziţia în care dorim să afişăm rezultatele comenzii, prin alegerea
selectăm valorile cu tot cu
uneia dintre următoarele opţiuni:
numele coloanelor aferente şi
- Output Range: rezultatele se vor afişa în foaia de lucru curentă, într-o
să bifăm opţiunea pentru o mai
regiune începând cu celula a cărei etichetă este specificată aici;
bună claritate a rezultatelor
- New Worksheet Ply: rezultatele se vor afişa pe o foaie de lucru separată,
generate).
cu nume implicit (Sheet 10) sau specificat de noi, în acelaşi registru de
calcul;
- New Workbook: rezultatele se vor afişa într-un registru de calcul separat
care se creează la lansarea comenzii.
Rezultatele comenzii sunt afişate sub formă tabelară, după cum urmează:

Glicemie Colesterol
Glicemie 1
Colesterol 0.112107 1
Comanda generează de fapt matricea coeficienţilor de corelaţie, care conţine coeficienţii
de corelaţie Pearson între toate perechile posibile de variabile selectate.
În cazul nostru coeficientul de corelaţie între glicemie şi colesterol la momentul T0 este
de 0.112107, adică foarte slab. Aşadar, conform regulilor lui Colton, corelaţia este direct
proporţională (pozitivă) dar foarte slabă.
OBSERVAŢIE: Dacă nu se doreşte utilizarea comenzilor predefinite din pachetul Data
Analysis, coeficientul de corelaţie între două variabile numerice poate fi calculat şi cu ajutorul
funcţiei CORREL(). Această funcţie nu generează matricea de corelaţie ci doar valoarea
individuală a coeficientului, însă are avantajul că nu necesită copierea în prealabil a variabilelor
în coloane învecinate, argumentele sale fiind introduse separat.

Funcţia CORREL ():


Pentru a fi calculată necesită parcurgerea paşilor de mai jos:
1. Selectaţi celula în care doriţi să inseraţi coeficientul de corelaţie şi acţionaţi din meniul
superior butonul „Formulas”/«Insert function»:

2. Căutaţi şi selectaţi funcţia „CORREL”, în categoria „All”; apăsaţi butonul OK; se va


deschide fereastra de editare a argumentelor funcţiei:
3. Selectaţi cele două blocuri de celule care conţin variabilele de interes (glicemie şi colesterol);
4. Apăsaţi butonul OK; rezultatul afişat în fereastra de editare a argumentelor funcţiei va fi
încărcat în celula selectată la pasul 1.

Observaţi sintaxa formulei de calcul folosite: = CORREL (A2: A101, B2: B101)

Calcularea coeficienţilor dreptei de regresie între 2 variabile numerice:


Comanda „Data Analysis / Regression”
Dreapta de regresie reprezintă o metodă geometrică de estimare a relaţiei liniare
identificată între două variabile numerice. Introdusă de Galton în 1886, metoda permite
stabilirea unui interval de variaţie pentru una dintre variabile atunci când valorile celeilalte sunt
cunoscute. Variabila care o influenţează pe cealaltă este definită ca „variabilă independentă”, iar
variabila influenţată este definită ca „variabilă dependentă”.
Pentru calcularea sa trebuie urmaţi paşii de mai jos:

1. Selectaţi din tabelul principal cele două coloane care conţin valorile variabilelor de analizat
şi copiaţi-le într-un tabel auxiliar, în care să fie înscrise obligatoriu în coloane vecine:

Această etapă nu este obligatorie pentru apelarea comenzii, dar o recomandăm pentru
claritate.
2. Selectaţi din meniul superior comanda Data / Data Analysis / Regression:

3. Personalizaţi fereastra de dialog activată cu următoarele informaţii (se va ţine cont de faptul
că blocurile de celule folosite trebuie să conţină exclusiv valori numerice):

Se introduce şirul de celule


în care se află valorile
variabilei DEPENDENTE
(care este influenţată de
cealaltă – în cazul nostru
Colesterolul, figurată în a
doua coloană din tabelul
auxiliar).

Se introduce şirul de celule


în care se află valorile
variabilei INDEPENDENTE
(care o influenţează pe
cealaltă – în cazul nostru
Glicemia, figurată în prima
coloană din tabelul auxiliar).

Se bifează atunci când


primele celule din coloanele
de valori selectate conţin
Se indică poziţia în care dorim să afişăm rezultatele comenzii, numele variabilelor pentru
prin alegerea uneia dintre următoarele opţiuni: care se realizează analiza (în
- Output Range: rezultatele se vor afişa în foaia de lucru această situaţie este
curentă, într-o regiune începând cu celula a cărei etichetă este recomandat să selectăm
specificată aici; valorile cu tot cu numele
- New Worksheet Ply: rezultatele se vor afişa pe o foaie de coloanelor aferente şi să
lucru separată, cu nume implicit (Sheet 14) sau specificat de bifăm opţiunea pentru o mai
noi, în acelaşi registru de calcul; bună claritate a rezultatelor
- New Workbook: rezultatele se vor afişa într-un registru de generate).
calcul separat care se creează la lansarea comenzii.

Rezultatele comenzii sunt afişate sub formă tabelară, după cum urmează:
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.112107
R Square 0.012568
Adjusted R Square 0.002492
Standard Error 49.75203
Observations 100

ANOVA
df SS MS F Significance F
Regression 1 3087.481499 3087.481499 1.247334036 0.266793009
Residual 98 242575.9085 2475.264372
Total 99 245663.39

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 176.2999 23.37683876 7.541649435 2.37873E-11 129.9093471 222.6904986 129.9093471 222.6904986
Glycemia 0.224166 0.200714211 1.116841097 0.266793009 -0.17414494 0.6224767 -0.17414494 0.6224767

Parametrii calculaţi au următoarea semnificaţie:


REGRESSION STATISTICS :
- Multiple R : este coeficientul de corelaţie calculat anterior, între Glicemie şi Colesterol;
- R Square : se mai numeşte şi coeficient de determinare, este pătratul coeficientului de
corelaţie şi reprezintă proporţia din variaţia variabilei Y (Colesterol) care este explicată
de influenţa liniară a variabilei X (Glicemie) – are valori între 0 şi 1; cu cât este mai
apropiat de 1, cu atât variaţia variabilei Y este influenţată mai mult de variabila X; în
acest caz este egal cu 0.0125, adică foarte mic. Poate fi interpretat procentual prin
înmulţirea cu 100. În cazul nostru rezultă 0.468% din variaţia colesterolului este
influenţată de variaţia glicemiei – evident un procent foarte mic.
- Adjusted R Square : este coeficientul de determinare corectat (rezultat eronat în acest
caz, deoarece este mai mic ca 0);
- Standard Error : este eroarea medie înregistrată la predicţia valorilor medii ale variabilei
Y (Colesterol) prin ecuaţia de regresie liniară; cu cât este mai mică, cu atât modelul de
regresie liniară construit este mai precis.

ANOVA : Analiza de regresie conţine şi un test cu ipoteză nulă, care verifică măsura în care
dreapta de regresie construită reprezintă o aproximare corectă pentru valorile reale ale celor
două variabile analizate în sensul că există într-adevăr o relaţie liniară între acestea. Ipoteza de
lucru este că panta dreptei de regresie este nulă (deci nu există nici un fel de corelaţie între cele
2 variabile). Pentru a se verifica această ipoteză, se calculează statistica F (= 1.24733 în cazul
nostru) şi nivelul său de semnificaţie p (= 0.26679 în cazul nostru).
Dacă p <= 0.05 înseamnă că ipoteza nulă este INFIRMATĂ, panta dreptei de regresie
este semnificativ diferită de 0, şi prin urmare există o relaţie liniară între X şi Y.
Dacă p > 0.05 înseamnă că ipoteza nulă este CONFIRMATĂ, panta dreptei de regresie
este 0 şi nu există nici o relaţie semnificativă între X şi Y (ceea ce se observă şi în cazul de faţă,
unde p = 0.636866076).
În particular, testul ANOVA calculează următoarele valori:
- Regression : este media deviaţiei pătrate a lui Y explicată de X (= 3087.48 în cazul
nostru);
- Residual : este media deviaţiei pătrate a lui Y neexplicată de X (= 242575.90, mult mai
mare decât celălalt coeficient în cazul nostru; fiind mult mai mare înseamnă că variabila
X nu poate fi utilizată eficient pentru a estima plaja de variaţie a lui Y şi respectiv pentru
a predicţiona valorile sale);
- Total : deviaţia pătrată totală a lui Y, suma între Regression şi Residual.
COEFFICIENTS : Reprezintă coeficienţii dreptei de regresie; sunt cele mai importante valori
calculate de model deoarece conţin caracterizarea precisă a acestuia. Astfel, dreapta de regresie
are ecuaţia generală y=ax+b, unde:
- a = 0.2241 reprezintă PANTA dreptei ; cu cât este mai mare, cu atât semnifică o dreaptă
mai înclinată, dar nu o legătură mai puternică între cele două variabile; când panta are o
valoare pozitivă, atestă o corelaţie direct proporţională între cele 2 variabile, iar atunci
când are o valoare negativă, atestă o corelaţie invers proporţională între cele 2 variabile.
- b = 176.29 reprezintă INTERCEPTUL CU AXA OY, adică punctul în care dreapta
intersectează axa verticală.

OBSERVAȚIE: Dacă nu dorim să utilizăm comenzile predefinite din pachetul Data Analysis,
panta și interceptul liniei de regresie pot fi calculate folosind funcțiile SLOPE() și INTERCEPT().

Funcția SLOPE ():


Pentru a fi calculată necesită parcurgerea paşilor de mai jos:
1. Selectaţi celula în care doriţi să inseraţi coeficientul de corelaţie şi acţionaţi din meniul
superior butonul „Formulas”/«Insert function»:

2. Căutaţi şi selectaţi funcţia „SLOPE”, în categoria „All”; apăsaţi butonul OK; se va deschide
fereastra de editare a argumentelor funcţiei:

3. Selectaţi cele două blocuri de celule care conţin variabilele de interes (glicemie şi colesterol):
- Known y’s: este mulțimea de valori ale variabilei DEPENDENTE, influențată de cealaltă
– în cazul nostru, Colesterolul, scris în a doua coloană a tabelului auxiliar;
- Known x’s: este mulțimea de valori ale variabilei INDEPENDENTE, care o influențează
pe cealaltă – în cazul nostru, Glicemia, scrisă în prima coloană a tabelului auxiliar.
4. Apăsaţi butonul OK; rezultatul afişat în fereastra de editare a argumentelor funcţiei va fi
încărcat în celula selectată la pasul 1.

Observaţi sintaxa formulei de calcul folosite: = SLOPE (B2:B101,A2:A101)

Coefficients Standard Error t Stat P-value


Intercept 176.2999 23.37683876 7.541649435 2.37873E-11
Glycemia 0.224166 0.200714211 1.116841097 0.266793009

Coeficientii dreptei de regresie:


panta: 0.22416588
interceptul: 176.2999229

Funcția INTERCEPT () :
Pentru a fi calculată necesită parcurgerea paşilor de mai jos:
1. Selectaţi celula în care doriţi să inseraţi coeficientul de corelaţie şi acţionaţi din meniul
superior butonul „Formulas”/«Insert function»:

2. Căutaţi şi selectaţi funcţia „INTERCEPT”, în categoria „All”; apăsaţi butonul OK; se va


deschide fereastra de editare a argumentelor funcţiei:
3. Selectaţi cele două blocuri de celule care conţin variabilele de interes (glicemie şi colesterol):
- Known y’s: este mulțimea de valori ale variabilei DEPENDENTE, influențată de cealaltă
– în cazul nostru, Colesterolul, scris în a doua coloană a tabelului auxiliar;
- Known x’s: este mulțimea de valori ale variabilei INDEPENDENTE, care o influențează
pe cealaltă – în cazul nostru, Glicemia, scrisă în prima coloană a tabelului auxiliar.
4. Apăsaţi butonul OK; rezultatul afişat în fereastra de editare a argumentelor funcţiei va fi
încărcat în celula selectată la pasul 1.

Observaţi sintaxa formulei de calcul folosite: = INTERCEPT (B2:B101,A2:A101)

Coefficients Standard Error t Stat P-value


Intercept 176.2999 23.37683876 7.541649435 2.37873E-11
Glycemia 0.224166 0.200714211 1.116841097 0.266793009

Coeficientii dreptei de regresie:


panta: 0.22416588
interceptul: 176.2999229

Grafice de tip X – Y / Scatter:


Modelul matematic calculat anterior se reprezintă vizual cel mai sugestiv prin
intermediul unui grafic de tip X – Y sau Scatter, care trebuie să însoţească obligatoriu orice
analiză regresională. Acest tip de grafic figurează într-un sistem de coordonate cartezian
diagrama de dispersie corespunzătoare celor două variabile; concret, fiecare dintre variabile
este reprezentată pe câte una dintre cele două axe de coordonate, iar graficul este format din
puncte ale căror coordonate reprezintă măsurătorile perechi ale celor două variabile pentru
fiecare dintre unităţile eşantionului.
În cazul nostru de exemplu, valorile Glicemiei, care este variabila independentă, sunt
figurate pe axa orizontală şi valorile Colesterolului, variabilă dependentă, sunt figurate pe axa
verticală. Graficul va fi format din 100 de puncte (deoarece tabelul conţine date înregistrate de
la 100 de pacienţi) definite de coordonatele (x, y), unde x este valoarea glicemiei pentru un
anume pacient şi y este valoarea colesterolului pentru acesta.
Pentru a se obţine un astfel de grafic trebuie parcurşi paşii de mai jos:

1. Selectaţi din tabelul principal cele două coloane care conţin valorile variabilelor de analizat
şi copiaţi-le într-un tabel auxiliar, în care să fie înscrise obligatoriu în coloane vecine:

În acest caz, etapa menţionată este obligatorie, deoarece este esenţial ca variabilele ce vor
fi reprezentate pe grafic să fie aşezate în ordine, în prima coloană fiind obligatoriu înscrisă
variabila independentă şi în a doua coloană fiind obligatoriu înscrisă variabila dependentă.

2. Selectaţi tabelul auxiliar realizat şi alegeţi din meniul superior comanda Insert / Charts / X Y
(Scatter) şi obligatoriu primul subtip, Scatter with only Markers:
3. Apăsaţi butonul OK; graficul va fi inserat în pagina de lucru curentă. Repoziţionaţi-l şi
redimensionaţi-l dacă este cazul.

Observaţi valorile figurate pe grafic: glicemia este reprezentată pe axa orizontală, iar
colesterolul este reprezentat pe axa verticală; graficul conţine diagrama de dispersie dorită.
Având în vedere că în exemplele anterioare am realizat o ordonare a tabelului după
variabila Diabet, se poate constata pe grafic o separare clară a punctelor în două
subgrupuri, care corespund pacienţilor sănătoşi şi respectiv diagnosticaţi cu diabet.
Nu se observă însă nici o direcţionare a norului de puncte în sus sau în jos, care ar evidenţa
existenţa unei influenţe sistematice a valorilor glicemiei asupra valorilor colesterolului,
punctele fiind aproximativ uniform distribuite.
4. Ştergeţi legenda, deoarece conţinutul ei nu este relevant pentru grafic şi modificaţi titlul său;
un titlul potrivit ar fi „Corelaţia între glicemie şi colesterol în lot”.
5. Adăugaţi nume pentru axele de coordonate orizontală (comanda Chart Tools / Layout /
Axis Titles / Primary Horizontal Axis Title / Title Below Axis) şi verticală (comanda Chart
Tools / Layout / Axis Titles / Primary Vertical Axis Title / Rotated Title) – etapă care este
necesară pentru a clarifica semnificaţia punctelor înscrise pe grafic:
6. Completaţi graficul, adăugând pe el dreapta de regresie (sau linia de tendinţă) şi
caracterizarea matematică a sa. Aceasta este o etapă obligatorie la reprezentarea corelaţiei
între două variabile prin diagrama de dispersie şi se realizează cu ajutorul comenzii Chart
Tools / Layout / Trendline / More Trendline Options), în care se bifează, în secţiunea
Trend / Regression Type opţiunea Linear şi în plus opţiunile „Display Equation on chart”,
respectiv „Display R-squared value on chart” :

Rezultatul acestei comenzi este că dreapta de regresie, determinată anterior prin


comanda Regression, este afişată pe grafic, împreună cu ecuaţia ei şi coeficientul de
determinare, ceea ce ne permite să caracterizăm suficient de precis natura corelaţiei identificate
sau nu între cele două variabile. Se urmăreşte înclinaţia dreptei de regresia faţă de axa
orizontală; faptul că dreapta este ascendentă evidenţiază o corelaţie direct proporţională, iar
faptul că dreapta este descendentă evidenţiază o corelaţie invers proporţională. În cazul nostru,
dreapta de regresie are o înclinare uşor ascendentă, ceea ce confirmă şi rezultatele numerice
anterioare potrivit cărora nu există corelaţie între glicemie şi colesterol în lotul studiat.
7. Formataţi în continuare conţinutul graficului prin următoarele acţiuni:
- Modificaţi culoarea liniilor de ghidaj (comanda Format Major Gridlines - opţiunea Line
Color / Solid Line) şi stilul acestora, transformându-le în linii punctate (comanda
Format Major Gridlines - opţiunea Line Style de unde se alege un alt stil în Dash type);
adăugaţi eventual şi linii de ghidaj verticale pe care le veţi formata în acelaşi mod;
- Modificaţi aspectul marcatorilor corespunzători punctelor din diagrama de dispersie:
o modificaţi forma punctelor de marcaj (comanda Format Data Series - opţiunea
Marker Options unde se bifează Marker Type - Built-in şi se alege o altă formă
din lista predefinită (Type) şi eventual o altă dimensiune (Size);
o modificaţi culoarea de fond a punctelor de marcaj (comanda Format Data Series
- opţiunea Marker Fill / Solid fill);
o modificaţi culoarea de contur a punctelor de marcaj (comanda Format Data
Series - opţiunea Marker Line Color / Solid line);

S-ar putea să vă placă și