Sunteți pe pagina 1din 5

LP 6 EXCEL Corelaii i regresii liniare n Data Analysis

Realizai urmtorul tabel n MS Excel :


Nr.cr NUM Sex
Vrs Greuta
t.
E
t
te
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50

AB
CA
CD
DE
MN
MA
MD
NB
NC
DC
TR
AT
LD
GF
DS
AC
DM
SG
NR
TS
CA
CD
DE
MN
MA
MD
NB
NC
DC
TR
AT
LD
GF
DS
AC
DM
SG
NR
TS
CA
CD
DE
MN
MA
MD
NB
NC
DC
TR
AT

M
M
F
F
M
F
F
M
F
F
F
M
F
M
M
F
F
F
M
M
M
F
M
M
F
M
M
F
F
M
M
M
M
M
F
F
M
M
M
M
M
M
M
F
M
M
F
M
M
M

35
24
22
53
20
37
29
56
27
21
36
38
29
44
42
32
25
29
39
40
60
58
56
55
45
30
18
31
24
22
53
20
37
29
56
27
21
36
38
29
44
42
32
25
29
39
40
24
22
53

65
70
75
80
90
100
75
98
59
55
65
87
82
94
115
97
98
100
112
85
102
101
92
91
89
88
97
75
74
76
80
65
70
80
60
58
68
85
93
94
103
111
97
58
69
76
77
78
84
96

Glicemi
e
mom.
0
132
133
118
111
112
130
125
138
129
110
113
145
138
132
130
125
124
122
127
118
121
136
118
116
135
120
127
129
126
132
133
131
139
133
128
127
124
123
145
131
130
124
119
129
128
127
129
132
127
128

Glicemi Glicemi Asigur


e3
e6
at CAS
luni
luni
125
133
113
107
101
122
115
121
110
115
111
133
132
130
126
120
124
111
114
108
115
130
110
109
128
113
120
118
115
116
124
122
123
121
121
126
122
119
135
130
128
120
108
115
120
125
126
128
120
115

119
106
109
97
95
97
105
109
108
105
99
129
130
131
128
105
116
107
108
108
98
128
105
99
126
107
102
105
103
96
116
113
111
108
109
116
113
109
135
132
118
119
106
114
109
108
112
113
117
116

T
T
F
T
T
T
T
F
F
F
T
F
T
F
T
F
T
F
F
T
T
T
T
T
T
F
T
T
T
T
F
T
F
T
F
T
T
T
T
T
T
T
F
T
F
T
T
T
T
T

1. Determinai coeficienii de corelaie ntre Vrst, Greutate i Glicemie la mom. 0, pentru a putea afla
dac vrsta sau greutatea influeneaz n vreun fel valorile Glicemiei.
Una dintre condiiile necesare pentru a putea calcula coeficienii de corelaie este ca variabilele pentru care
dorim s i calculm s fie situate n coloane nvecinate condiie realizat n cazul tabelului nostru altfel, coloanele
respective ar trebui copiate i rearanjate separat.
Se selecteaz comanda Data / Data Analysis / Correlation:

Rezultatele sunt afiate dup cum urmeaz:

Se specific irul de celule n care


se afl valorile variabilelor pentru
care
dorim
s
calculm
coeficienii de corelaie.
Se specific modul de grupare a
valorilor n coloane n cazul de
fa.
Se bifeaz cnd n prima celul
din fiecare coloan se afl numele
variabilei.
Se precizeaz locul de afiare a
rezultatelor pe foaia de calcul
curent, pe o nou foaie de calcul
sau chiar ntr-un registru de calcul
nou.

Se genereaz de fapt Matricea Coeficienilor de Corelaie, ce conine Coeficienii de corelaie Pearson ntre
toate perechile posibile de variabile selectate prin comand.
Coeficienii de corelaie Pearson reprezint msura intensitii legturii liniare ntre dou variabile i au valori
cuprinse ntre -1 i 1. Valorile apropiate de 0 indic absena corelaiei ntre variabilele respective, iar valorile apropiate
de 1 sau de -1 indic prezena unei corelaii puternice ntre variabile.
Valorile negative indic prezena unei corelaii invers proporionale (atunci cnd valorile uneia dintre variabile
cresc, valorile celeilalte variabile scad corespunztor), iar valorile pozitive indic prezena unei corelaii direct
proporionale (atunci cnd valorile uneia dintre variabile cresc, valorile celeilalte variabile cresc i ele).
Colton (1974) a indicat urmtoarele reguli empirice pentru interpretarea coeficienilor de corelaie:
Un coeficient de corelaie ntre 0,00 i 0,25, semnific o corelaie nul sau foarte slab,
Un coeficient de corelaie ntre 0,25 i 0,50 semnific o corelaie acceptabil,
Un coeficient de corelaie ntre 0,50 i 0,75 semnific o corelaie moderat spre bun,
Un coeficient de corelaie peste 0,75 semnific o corelaie foarte bun.
n cazul nostru, corelaia ntre greutate i vrst este 0.3879, deci pozitiv, acceptabil, dar corelaiile
ntre glicemie i vrst (0.0697) respectiv glicemie i greutate (0.0660) sunt practic nule.
2. Determinai coeficienii de covarian ntre Vrst, Greutate i Glicemie la mom. 0, pentru a putea afla
dac vrsta sau greutatea influeneaz n vreun fel valorile Glicemiei.
Covariana este o msur premergtoare calculului coeficienilor de corelaie ntre dou variabile, definit ca
media produselor deviaiilor pentru fiecare pereche de puncte. Spre deosebire de coeficientul de corelaie, coeficientul
de covarian nu aparine unui interval dat de valori, putnd lua ca valoare orice numr real.

Covariana se folosete pentru a determina doar natura legturii ntre cele 2 variabile: valorile pozitive ale ei
indic o legtur direct proporional ntre variabile, valorile negative indic o legtur invers proporional, iar valorile
apropiate de 0 indic absena unei influene ntre cele dou variabile.
Se selecteaz comanda Data / Data Analysis / Covariance:

Rezultatele sunt afiate dup cum urmeaz:

Se specific irul de celule n care


se afl valorile variabilelor pentru
care
dorim
s
calculm
coeficienii de corelaie.
Se specific modul de grupare a
valorilor n coloane n cazul de
fa.
Se bifeaz cnd n prima celul
din fiecare coloan se afl numele
variabilei.
Se precizeaz locul de afiare a
rezultatelor pe foaia de calcul
curent, pe o nou foaie de calcul
sau chiar ntr-un registru de calcul
nou.

ntre toate cele 3 variabile exist o legtur direct proporional, mai accentuat ntre Greutate i Vrst
(69.0012), i foarte slab ntre Glicemie i Vrst (6.3772), respectiv Greutate (7.7596).
3. Construii modelul de regresie liniar ntre Vrst i Glicemie la mom. 0, respectiv Greutate i
Glicemie la mom. 0, pentru a determina modul n care aceste variabile influeneaz valorile Glicemiei.
Comentai rezultatele obinute i realizai reprezentarea grafic corespunztoare (de tip SCATTER).
Se selecteaz comanda Data / Data Analysis / Regression:

Se specific irul de celule n


care se afl valorile variabilei
dependente / influenate Glicemia.
Se specific irul de celule n
care se afl valorile variabilei
independente
/
care
influeneaz - Vrsta.
Se bifeaz cnd n prima celul
din fiecare coloan se afl
numele variabilei.
Se vor calcula i intervalele de
ncredere 95% n jurul dreptei
de regresie.
Se precizeaz locul de afiare a
rezultatelor pe foaia de calcul
curent, pe o nou foaie de
calcul sau chiar ntr-un registru
de calcul nou.
Rezultatele sunt afiate dup cum urmeaz:

Regression Statistics :
- Multiple R : este coeficientul de corelaie calculat anterior, ntre Vrst i Glicemie ;
- R Square : se mai numete i Coeficient de Determinare, i reprezint proporia din variaia variabilei Y
(Glicemie) care este explicat de influena liniar a variabilei X (0.0048 foarte mic n cazul nostru) ;
- Adjusted R Square : Coeficientul de Determinare corectat ;
- Standard Error : eroarea medie nregistrat la predicia valorilor medii ale variabilei Y (Glicemie) prin ecuaia
de regresie liniar (7.9118 de asemeni foarte mic, dar nu pentru c modelul de regresie este bun, ci pentru
c acesta este total inadecvat).
ANOVA : Analiza de regresie conine i un test cu ipotez nul, care afirm c panta dreptei de regresie este egal cu
0 (deci nu exist nici un fel de corelaie ntre cele 2 variabile). Pentru a se verifica testul respectiv, se calculeaz
statistica F = 0.234971 i nivelul su de semnificaie p = 0.63007.
Dac p <= 0.05 nseamn c ipoteza nul este INFIRMAT, panta dreptei de regresie este semnificativ diferit de 0,
i prin urmare exist o relaie liniar ntre X i Y. Dac p > 0.05 nseamn c ipoteza nul este CONFIRMAT, panta
dreptei de regresie este 0 i nu exist nici o relaie semnificativ ntre X i Y cazul de fa, p = 0.63007.
-

Regression : variaia lui Y explicat de X (= 14.70855)


Residual : variaia lui Y neexplicat de X (= 3004.671, mult mai mare dect cellalt coeficient)
Total : variaia total a lui Y, suma ntre Regression i Residual.

Coefficients : reprezint coeficienii dreptei de regresie.


Ecuaia dreptei de regresie are forma general y=ax+b, unde :
a = 0.046128 reprezint PANTA dreptei ; cu ct este mai mare, cu att semnific o dreapt mai nclinat, deci
o legtur mai puternic ; cnd panta are o valoare pozitiv, atest o corelaie direct proporional ntre cele 2
variabile, n timp ce atunci cnd are o valoare negativ, atest o corelaie invers proporional ntre cele 2
variabile.
b = 125.544281 reprezint INTERCEPTUL CU AXA OY : punctul n care dreapta intersecteaz axa vertical.

Reprezentarea grafic se realizeaz folosind comanda SCATTER, n care pe axa Orizontal se pune variabila
independent, iar pe cea Vertical variabila dependent (influenat de cealalt).
Pentru a se figura pe acest grafic ecuaia dreptei de regresie, se selecteaz punctele din norul de puncte,
dup care se activeaz menu-ul personalizat (click dreapta) din care se alege opiunea Add trendline.
Se bifeaz tipul de regresie dorit Linear, i opiunile
- Display Equation on chart: pentru afiarea pe grafic a ecuaiei dreptei de regresie,
- Display R-squared value on chart: pentru afiarea pe grafic a coeficientului de determinare.

Graficul care se obine va fi:

Se vede clar
din
ecuaia
dreptei
de
regresie
c
practic Vrsta
nu
influeneaz
deloc
Glicemia,
dreapta fiind
paralel
cu
axa
orizontal.