Documente Academic
Documente Profesional
Documente Cultură
P
( x x)( y y) .
N
care poate fi folosită ca o măsură fidelă a gradului de corelaţie între doi parametri cantitativi.
Din punct de vedere grafic, această dependenţă proporţională între două variabile
este caracterizată printr-o dreaptă, care se numeşte „dreaptă de regresie” şi de asemenea
poate fi descrisă precis din punct de vedere matematic.
Ecuaţia generală a dreptei de regresie [16], cu notaţiile de mai sus, va fi:
y y a x ( x x) , unde a x
( x x)( y y) =
𝐶𝑂𝑉(𝑥,𝑦)
.
( x x) 2 𝜎𝑥2
ax se numeşte coeficientul liniar de regresie al lui y în raport cu x, care măsoară panta dreptei D
pe orizontala Ox. Indică de câte ori în medie y este mai mare sau mai mic decât x. Este pozitiv sau
negativ după cum dreapta are o pantă ascendentă sau descendentă de la stânga la dreapta.
ay se numeşte coeficientul liniar de regresie al lui x în y, care măsoară panta dreptei D pe verticala
Oy. Indică de câte ori în medie x este mai mare sau mai mic decât y.
Exemple:
Una dintre condiţiile necesare pentru a putea calcula coeficienţii de corelaţie este ca
variabilele pentru care dorim să îi calculăm să fie situate în coloane învecinate – condiţie
realizată în cazul tabelului nostru – altfel, coloanele respective ar trebui copiate şi rearanjate
separat.
Se selectează comanda Data / Data Analysis / Correlation:
Se specifică şirul de celule în
care se află valorile
variabilelor pentru care
dorim să calculăm
coeficienţii de corelaţie.
Se specifică
specifică
şirul modul
de celule de
în
grupare
care sea valorilor
află – în
valorile
coloane în cazulpentru
variabilelor de faţă. care
dorim să calculăm
coeficienţii
Se de
specifică corelaţie.
modul
bifează când în prima de
grupare a valorilor –
celulă din fiecare coloană se în
coloane
află în cazul
numele de faţă.
variabilei.
Se specifică
specificăşirulmodul
de celule
deîn grupare
care se află
a
valorile variabilelor pentru care dorim
valorilor – în coloane în cazul de faţă.
să calculăm coeficienţii de covarianţă.
Se bifează
specificăcândmodul de grupare
în prima celulă dina
valorilor – în coloane în cazul
fiecare coloană se află numele de faţă.
variabilei.
Între toate cele 3 variabile există o legătură direct proporţională, mai accentuată între
Greutate şi Vârstă (69.0012), şi foarte slabă între Glicemie şi Vârstă (6.3772), respectiv
Greutate (7.7596).
Se
Se specifică
specifică şirul
şirul de celule
de celule
în care se află valorile
în care se află valorile
variabilei
variabilei independente/
dependente/
care influenţează - Vârsta.
influenţate - Glicemia.
Se bifează când
Se specifică în celule
şirul de prima
celulă din fiecare coloană
în care se află valorile
se află numele
variabilei variabilei.
independente/
care influenţează - Vârsta.
Se
Se vor calcula
bifează şi intervalele
când în prima
de încredere
celulă 95% coloană
din fiecare în jurul
dreptei
se de regresie.
află numele variabilei.
Regression Statistics:
- Multiple R: este coeficientul de corelaţie calculat anterior, între Vârstă şi Glicemie;
- R Square: se mai numeşte şi Coeficient de Determinare, şi reprezintă proporţia din
variaţia variabilei Y (Glicemie) care este explicată de influenţa liniară a variabilei X
(0.0048 – foarte mic în cazul nostru);
- Adjusted R Square: reprezintă Coeficientul de Determinare corectat;
- Standard Error: eroarea medie înregistrată la predicţia valorilor medii ale variabilei
Y (Glicemie) prin ecuaţia de regresie liniară (7.9118 – de asemeni foarte mică, dar nu
pentru că modelul de regresie este bun, ci pentru că acesta este total inadecvat).
ANOVA: Analiza de regresie conţine şi un test cu ipoteză nulă, care afirmă că panta
dreptei de regresie este egală cu 0 (deci nu există nici un fel de corelaţie între cele 2
variabile). Pentru a se verifica testul respectiv, se calculează statistica F=0.234971 şi nivelul
său de semnificaţie p=0.63007.
Dacă p <= 0.05 înseamnă că ipoteza nulă este INFIRMATĂ, panta dreptei de
regresie este semnificativ diferită de 0, şi prin urmare există o relaţie liniară între X şi Y.
Dacă p>0.05 înseamnă că ipoteza nulă este CONFIRMATĂ, panta dreptei de regresie este 0
şi nu există nici o relaţie semnificativă între X şi Y – cazul de faţă, p=0.63007.
- Regression: reprezintă variaţia lui Y explicată de X (= 14.70855)
- Residual: reprezintă variaţia lui Y neexplicată de X (= 3004.671, mult mai mare decât
celălalt coeficient)
- Total: reprezintă variaţia totală a lui Y, suma între Regression şi Residual.
- Coefficients: reprezintă coeficienţii dreptei de regresie.
Ecuaţia dreptei de regresie are forma generală y=ax+b, unde:
- a = 0.046128 reprezintă PANTA dreptei; cu cât este mai mare, cu atât semnifică o
dreaptă mai înclinată, deci o legătură mai puternică; când panta are o valoare
pozitivă, atestă o corelaţie direct proporţională între cele 2 variabile, în timp ce atunci
când are o valoare negativă, atestă o corelaţie invers proporţională între cele 2
variabile.
- b = 125.544281 reprezintă INTERCEPTUL CU AXA OY: punctul în care dreapta
intersectează axa verticală.
Reprezentarea grafică se realizează folosind comanda SCATTER, în care pe axa
Orizontală se pune variabila independentă, iar pe cea Verticală variabila dependentă
(influenţată de cealaltă):
150
Corelatia intre Varsta si Glicemie
140
Glicemie
130
120
110
100
90
80
0 20 40 60 80
Varsta
Figura 19-7. Reprezentarea grafică tip scatter pentru valorile vârstei şi glicemie
Pentru a se figura pe acest grafic ecuaţia
dreptei de regresie, se selectează punctele din
norul de puncte, după care se activează meniu-ul
personalizat (click dreapta) din care se alege
opţiunea „Add trendline…”.
Se bifează tipul de regresie dorit – Linear, şi
opţiunile
- Display Equation on chart: pentru
afişarea pe grafic a ecuaţiei dreptei de regresie,
- Display R-squared value on chart:
pentru afişarea pe grafic a coeficientului de
determinare.
100
80
60
40 y = 0.0339x + 124.34
20 R² = 0.0044
0
0 50 100 150
Greutate
Figura 19-11. Reprezentarea grafică a dreptei de regresie (greutate vs. glicemie)