Documente Academic
Documente Profesional
Documente Cultură
Noţiuni prezentate:
Regresie liniară şi corelaţie
P
( x x)( y y) .
N
Bibliografie | 1
care poate fi folosită ca o măsură fidelă a gradului de corelaţie între doi
parametri cantitativi.
Din punct de vedere grafic, această dependenţă proporţională între
două variabile este caracterizată printr-o dreaptă, care se numeşte „dreaptă
de regresie” şi de asemenea poate fi descrisă precis din punct de vedere
matematic.
Ecuaţia generală a dreptei de regresie [16], cu notaţiile de mai sus,
va fi:
y y a x ( x x) , unde a x
( x x)( y y) =
𝐶𝑂𝑉(𝑥,𝑦)
.
( x x) 2 𝜎𝑥2
ax se numeşte coeficientul liniar de regresie al lui y în raport cu x, care măsoară
panta dreptei D pe orizontala Ox. Indică de câte ori în medie y este mai mare sau
mai mic decât x. Este pozitiv sau negativ după cum dreapta are o pantă
ascendentă sau descendentă de la stânga la dreapta.
x x a y ( y y) , unde a y
( y y)( x x) 𝐶𝑂𝑉(𝑥,𝑦)
= .
( y y) 2 𝜎𝑦2
ay se numeşte coeficientul liniar de regresie al lui x în y, care măsoară panta
dreptei D pe verticala Oy. Indică de câte ori în medie x este mai mare sau mai mic
decât y.
2 | Bibliografie
proporţionale (atunci când valorile uneia dintre variabile cresc, valorile
celeilalte variabile cresc şi ele).
Exemple:
Se specifică
specificămodul decelule
şirul de grupare în
acarevalorilor
se – află
în coloane în
valorile
cazul de faţă. pentru care
variabilelor
dorim să calculăm coeficienţii
de specifică
Se corelaţie.
bifează modul
când deîngrupare
prima
acelulă
valorilor – în coloane
din fiecare coloană se în
cazulnumele
află de faţă.variabilei.
Se specifică modul
şirul dedecelule în care
grupare se află
a valorilor
valorile variabilelor pentru
– în coloane în cazul de faţă. care dorim să
calculăm coeficienţii de covarianţă.
Se specifică
bifează modul
când deîn grupare a valorilor
prima celulă din
– în coloane
fiecare în cazul
coloană denumele
se află faţă. variabilei.
4 | Bibliografie
între variabile, valorile negative indică o legătură invers proporţională, iar
valorile apropiate de 0 indică absenţa unei influenţe între cele două variabile.
Rezultatele sunt afişate după cum urmează:
Se
Se specifică
specifică şirul
şirul de
de celule
celule în
în
care
care se se aflăaflă valorile
valorile
variabilei
variabilei independente/
dependente/
care influenţează
influenţate - Vârsta.
- Glicemia.
Se bifează şirul
Se specifică cânddeîncelule
primaîn
celulă din fiecare coloană
care se află valorile se
află numele variabilei.
variabilei independente/
care influenţează - Vârsta.
Se
Se vor calcula
bifează şi intervalele
când în prima
de încredere 95% în jurul
celulă din fiecare coloană se
dreptei de regresie.
află numele variabilei.
Regression Statistics:
- Multiple R: este coeficientul de corelaţie calculat anterior, între Vârstă
şi Glicemie;
- R Square: se mai numeşte şi Coeficient de Determinare, şi reprezintă
proporţia din variaţia variabilei Y (Glicemie) care este explicată de
influenţa liniară a variabilei X (0.0048 – foarte mic în cazul nostru);
- Adjusted R Square: reprezintă Coeficientul de Determinare corectat;
- Standard Error: eroarea medie înregistrată la predicţia valorilor medii
ale variabilei Y (Glicemie) prin ecuaţia de regresie liniară (7.9118 – de
asemeni foarte mică, dar nu pentru că modelul de regresie este bun,
ci pentru că acesta este total inadecvat).
ANOVA: Analiza de regresie conţine şi un test cu ipoteză nulă, care
afirmă că panta dreptei de regresie este egală cu 0 (deci nu există nici un fel
de corelaţie între cele 2 variabile). Pentru a se verifica testul respectiv, se
calculează statistica F=0.234971 şi nivelul său de semnificaţie p=0.63007.
Dacă p <= 0.05 înseamnă că ipoteza nulă este INFIRMATĂ, panta
dreptei de regresie este semnificativ diferită de 0, şi prin urmare există o
relaţie liniară între X şi Y. Dacă p>0.05 înseamnă că ipoteza nulă este
CONFIRMATĂ, panta dreptei de regresie este 0 şi nu există nici o relaţie
semnificativă între X şi Y – cazul de faţă, p=0.63007.
- Regression: reprezintă variaţia lui Y explicată de X (= 14.70855)
- Residual: reprezintă variaţia lui Y neexplicată de X (= 3004.671, mult
mai mare decât celălalt coeficient)
- Total: reprezintă variaţia totală a lui Y, suma între Regression şi
Residual.
- Coefficients: reprezintă coeficienţii dreptei de regresie.
Ecuaţia dreptei de regresie are forma generală y=ax+b, unde:
- a = 0.046128 reprezintă PANTA dreptei; cu cât este mai mare, cu atât
semnifică o dreaptă mai înclinată, deci o legătură mai puternică; când
6 | Bibliografie
panta are o valoare pozitivă, atestă o corelaţie direct proporţională
între cele 2 variabile, în timp ce atunci când are o valoare negativă,
atestă o corelaţie invers proporţională între cele 2 variabile.
- b = 125.544281 reprezintă INTERCEPTUL CU AXA OY: punctul în
care dreapta intersectează axa verticală.
Reprezentarea grafică se realizează folosind comanda SCATTER, în
care pe axa Orizontală se pune variabila independentă, iar pe cea Verticală
variabila dependentă (influenţată de cealaltă):
150
Corelatia intre Varsta si Glicemie
140
Glicemie
130
120
110
100
90
80
0 20 40 60 80
Varsta
Figura 19-7. Reprezentarea grafică tip scatter pentru valorile vârstei şi glicemie
Bibliografie | 7
Corelatia intre Varsta si Glicemie
150
Se vede clar din ecuaţia
140 dreptei de regresie că practic
Glicemie
8 | Bibliografie
Aceste elemente sunt de asemenea confirmate de reprezentarea
grafică corespunzătoare:
100
80
60
40 y = 0.0339x + 124.34
20 R² = 0.0044
0
0 50 100 150
Greutate
Figura 19-11. Reprezentarea grafică a dreptei de regresie (greutate vs. glicemie)
Bibliografie | 9