Documente Academic
Documente Profesional
Documente Cultură
Regresia şi corelaţia reprezintă două tehnici statistice utilizate pentru analiza relaţiilor
care există între două sau mai multe variabile, mai precis pentru determinarea formei legăturii
dintre variabile (regresia) şi pentru determinarea intensităţii legăturii.(corelatia)
Concepte utilizate pentru studierea celor două tehnici:
1) variabila dependentă (efect, rezultativă) este acea variabilă care urmează să fie explicată se
notează cu y;
2) variabila independentă (cauză) este acea variabilă care se presupune că exercită influenţa
asupra variabilei dependente (care explică) şi se notează cu x.
Regresia liniară unifactorială (regresia simplă) implică doar două variabile şi anume o
variabilă cauză x şi o variabilă efect y, iar relaţia dintre ele este aproximată cu o funcţie liniară.
Modelul de regresie liniară are forma:
y 01 x
unde:
- variabila reziduală (eroarea);
0 - termen liber adică reprezintă valoarea (intercept) lui y când x = 0;
1 – coeficient de regresie (panta dreptei) şi ne arată cu câte unităţi de măsură se modifică y la
modificarea cu o unitate de măsură a lui x;
1 - ne arată direcţia legăturii dintre cele două variabile, astfel dacă:
1 0 legătură directă (creşte x, creşte y);
1 0 legătură inversă (creşte x, scade y);
1 0 nu există legătură.
y
yˆ a0 a1 x
Pentru a estima parametrii ecuaţiei de regresie se foloseşte metoda celor mai mici pătrate
(MCMMP) care spune că suma pătratelor distanţelor verticale ale punctelor până la dreapta de
regresie este minimă, adică suma pătratelor abaterilor valorilor reale y de la valorile ajustate ŷ
este minimă.
y yˆ i
2
i minimă
i
a0 y a1 x
x x y y
i i
a1 i
x x
2
i
i
y yˆ i
2
i
0, 100
SSE SSR
R2 1 i 1
1
y
n
2 SST SST
i y
i 1
R R2
Corelaţia ne arată doar cât de puternică este legătura liniară dintre variabile.
Coeficientul de corelaţie liniară simplă este:
n n n
n xi yi xi yi
ry / x i 1 i 1 i 1
[1;1]
n 2 n 2
n 2 n 2
n xi xi n yi yi
i 1 i 1 i 1 i 1
i x yi y
cov( x, y ) cov( x; y )
r i 1
x y
x
n n
var .x var . y
x yi y
2 2
i
i 1 i 1
n
x (x
i 1
i x) 2
n
Varianţa lui x (numaratorul dispersiei) = (x
i 1
i x) 2 2 x
y 0 1 x1 2 x2 ... n xn i 1, N
unde:
N = numărul unităţilor din colectivitatea generală;
0 = termenul liber cunoscut sub denumirea de intercepţie;
1, 2, …, n = reprezintă coeficienţii de regresie şi ne arată cu cât se modifică variabila
rezultativă dacă cea factorială se modifică cu o unitate;
x1, x2, …, xn reprezintă valorile variabilelor factoriale înregistrate pentru unitatea i din
colectivitate ( i 1, N );
yi reprezintă valoarea variabilei rezultative pentru unitatea i din colectivitatea generală;
- reprezintă valoarea variabilei reziduale (eroarea).
Estimarea parametrilor modelului se face cu ajutorul metodei celor mai mici pătrate
(MCMMP).
Întrucât vom lucra cu date provenite dintr-un eşantion, modelul de regresie liniară
multifactorială este:
y i a 0 a 1x i1 a 2 x i 2 ... a m x im u i i 1, n
Y XA U
ŷ i a 0 a 1 x i1 a 2 x i 2 ... a m x im i 1, n
n n n
y i ŷ i 2 u i2 y i a 0 a1x i1 a 2 x i2 ... a m x im 2
i 1 i 1 i 1
O expresie este minimă când derivatele în raport cu parametrii aj j 0, m se anulează. Deci
se va obţine un sistem de (m+1) ecuaţii cu (m+1) necunoscute:
na 0 a 1 x i1 a 2 x i 2 ... a m x im y i
i i i i
a
0 i1 1 i1 2 11 i 2 m x i1 x im x i1 y i
2
x a x a x x ... a
i i i i i
a 0 x i 2 a 1 x i1 x i 2 a 2 x i 2 ... a m x i 2 x im x i 2 y i
2
i i i i i
a 0 x in a 1 x i1 x im a 2 x i 2 x im ... a m x im x im y i
2
i i i i i
Metoda celor mai mici pătrate presupune minimizarea sumei pătratului erorilor, deci în
termeni matriceali vom avea:
2 min Y X A2
n
min u i2 min U'U min Y Ŷ
i 1
min Y XA 'Y XA min Y' Y 2A'X' Y A X'X A
0 2X' Y 2X' X A 0
A
X' X A X' Y
X’ = transpusa matricei X;
X-1 = inversa matricei X.
Pentru cazul în care avem doar două variabile cauză (factoriale) X1 şi X2 atunci vom obţine
un model de regresie liniară bifactorială.
Modelul de regresie pentru un eşantion va fi:
y i a 0 a 1x i1 a 2 x i 2 u i
Pentru estimarea parametrilor modelului folosim metoda celor mai mici pătrate, şi vom
obţine:
n n
y i ŷ i 2 min y i a 0 a1x i1 a 2 x i2 2 min
i 1 i 1
n n n
0 na 0 a 1 x i1 a 2 x i 2 yi
a 0 i 1 i 1 i 1
n n n n
0 a 0 x i1 a 1 x i21 a 2 x i1 x i 2 x i1 y i
a 1 i 1 i 1 i 1 i 1
n n n n
a 0 a 0 x i 2 a 1 x i1 x i 2 a 2 x i 2 x i 2 y i
2
2 i 1 i 1 i 1 i 1
sau matriceal:
y1 1 x11 x12 u
a0 1
y 2 1 x 21 x 22 u 2
a1
a2
y 1
n x n1 x n 2 u m
n1 n3 31 n1
Y=XA+U Ŷ X A
y yˆ i
2
i
SSR SSE
R2 1 1 i 1
[0;1]
y
n
SST SST 2
i y
i 1
y i y 2
n n n
y i ŷ i 2 ŷ i y
2
i 1 i 1 i 1
i 1
cu SST;
n
y i ŷ i 2 - reprezintă suma pătratelor erorilor numită şi varianţă reziduală şi notată cu
i 1
SSE;
i 1
Deci:
SST = SSE + SSR
Pentru aprecierea calităţii ajustării, adică a validităţii modelului de regresie se utilizează
testul F:
Paşi pentru aplicarea testului F:
- pasul 1: – se stabilesc ipotezele: nulă şi alternativă:
H0: modelul de regresie nu este valid, adică împrăştierea valorilor yi datorate
factorului nu diferă semnificativ de împrăştierea aceloraşi valori datorate
întâmplării;
H1: modelul de regresie este valid, adică împrăştierea valorilor ŷ i datorate
factorului diferă semnificativ de împrăştierea aceloraşi valori datorate
întâmplării.
- pasul 2: - se aplică testul F:
s2
Fcalc x
s 2u
unde:
s 2x - este dispersia valorilor variabilei efect datorate factorului;
s 2u - este dispersia variabilei reziduale (dispersia erorilor).
ŷ i y
n n
y i ŷ i 2
2
s 2x i 1 s 2u i 1
k n k 1
k – reprezintă numărul variabilelor factoriale din model.
- pasul 3: - se compară Fcalc cu valoarea tabelară corespunzătoare repartiţiei Fisher şi se
formulează concluziile:
dacă Fcalc F, k, n-k-1 atunci se respinge H0 şi deci modelul este valid;
dacă Fcalc F, k, n-k-1 atunci ipoteza nulă H0 se acceptă şi modelul nu este valid, adică
modelul trebuie reconsiderat în sensul alegerii altui factor sau suplimentarea celor
existenţi în model sau alegerea unei alte forme a funcţiei de regresie.
- prag de semnificaţie;
k, n – k – 1 – reprezintă grade de libertate.
Valoarea tabelară Ftab pentru un prag de semnificaţie se află la intersecţia numărului de
grade de libertate k, trecute în capătul coloanelor şi numărul de grade de libertate n-k-1, trecute în
capătul rândului.
Pentru calculul testului F putem folosi tabelul ANOVA:
Grade de Media
Suma pătratelor
libertate df pătratelor (MS Testul F
Suma variaţiei (SS = sum of
(Degree of – Mean of (Fisher)
squares)
freedom) squares)
Datorată
2
n
SSR ŷ i y SSR s 2x
modelului de k s 2x Fcalc
regresie i 1 k s 2u
n
SSE y i ŷ i 2
SSE
Reziduală n – k -1 s 2u
i 1 n k 1
2
n
SST
Totală SST y i y n–1 s 2y
i 1 n 1
6.1.APLICAȚII REZOLVATE
1. În tabelul următor este prezentată distanţa parcursă de un autovehicul din momentul frânării şi
până la oprire şi respectiv viteza autovehiculului în momentul frânării:
Viteza (km/h) 40 50 60 70 80 90 100 110 120
Distanţa (m) 8 12 18 24 32 40 48 58 72
Se cere:
a) să se estimeze parametrii modelului de regresie şi să se aprecieze intensitatea legăturii;
b) să se testeze validitatea modelului de regresie;
c) să se determine raportul de corelaţie.
Rezolvare:
a) Pentru a identifica legătura care există între cele două variabile trebuie să le reprezentăm
grafic. Graficul este corelograma sau diagrama norului de puncte.
Distanţa este variabila endogenă (rezultativă, dependentă, efect) notată cu y.
Viteza este variabila exogenă (independentă, cauză) notată cu x.
OY distanta
80
70
60
50
40
30
20
10
OX
0
30 40 50 60 70 80 90 100 110 120
viteza
i 1, n
n = 9 reprezintă numărul de înregistrări.
De pe grafic se observă că între y şi x există o legătură liniară, directă.
Pentru a estima parametrii a şi b ai modelului de regresie se utilizează metoda celor mai mici
pătrate:
9 9
y i ŷ i 2 min y i a bx i 2 min
i 1 i 1
9 9
na b x i y i
i 1 i 1 a 27,970
9
b 0,783
9 9
a x b x 2 x y
i 1 i
i 1
i
i 1
i i
cov(x, y) xy 521,96
b i1 0,783
x i x
2x 2x 9 2 666,67
i 1
cov(x , y) 521,96
ry / x 0,988
x y 25,82 20,46
ŷ i y
n 9 2
3678 ,53
s 2x i 1 3678 ,53
k 1
n 9
y i ŷ i 2
86,33
s 2u i 1 12,33
n k 1 7
s 2 3678,53
Fcalc x 298,33
s 2u 12,33
ŷ i y
9 2
3678 ,53
R 2y / x i 1 0,97
y i y
9 2 3768
i 1
i 1
i 1
Interpretare: Deoarece R 2y / x 0,97 1 înseamnă că între cele două variabile este o legătură
foarte puternică.
Raportul de corelaţie:
R y / x R 2y / x 0,97 0,984 1
deci între cele două variabile există o legătură foarte puternică.
2. În tabelul următor avem date referitoare la 15 agenţi de asigurări angajaţi ai unei companii
de asigurări de viaţă şi anume: timpul mediu, în minute, petrecut de un agent cu un potenţial client
şi numărul de poliţe încheiate într-o săptămână. Dacă xi reprezintă timpul mediu, iar yi reprezintă
numărul de poliţe, avem datele sistematizate astfel:
xi yi
25 10
23 11
30 14
25 12
20 8
33 18
18 9
21 10
22 10
30 15
26 11
26 15
27 12
29 14
20 11
Se cere:
a) măsuraţi intensitatea legăturii dintre cele două variabile folosind un indicator adecvat;
b) să se determine erorile reziduale;
c) să se testeze validitatea modelului de regresie pentru un nivel de semnificaţie = 5%;
d) efectuaţi o previzionare punctuală a numărului de poliţe încheiate de un agent care
petrece în medie 24 de minute cu un potenţial client.
Rezolvare:
a) Pentru a determina forma modelului de regresie se va construi corelograma:
OY numar polite
16
14
12
10
6 O
16 18 20 22 24 26 28 30 32 34X
timpul mediu
ŷ i a 0 a 1 x i
n n
0
na a 1 i yi
x
i 1 i 1
n n n
n 15
a x a x 2 x y
0 i1 i 1
i 1
i
i 1
i i
Pentru a rezolva sistemul vom folosi următorul tabel în care sunt prezentate valorile
intermediare:
xi yi x i2 x i yi y i2 y i y2 x i x 2
25 10 625 250 100 4 0
23 11 529 253 121 1 4
30 14 900 420 196 4 25
25 12 625 300 144 0 0
20 8 400 160 64 16 25
33 18 1089 594 324 36 64
18 9 324 162 81 9 49
21 10 441 210 100 4 16
22 10 484 220 100 4 9
30 15 900 450 225 9 25
26 11 676 286 121 1 1
26 15 676 390 225 9 1
27 12 729 324 144 0 4
29 14 841 406 196 4 16
20 11 400 220 121 1 25
xi yi x i2 x i yi y i2 102 264
375 180 9639 4645 2262
ŷ i y
2
79,64
s 2x i 79,64
k 1
y i ŷ i 2
22,35
s 2u i 1,71
n k 1 15 2
15
yi
180
y i 1 12
15 15
d) Intensitatea legăturii dintre cele două variabile se face cu coeficientul de corelaţie liniară:
n n n
n xi yi xi yi
ry / x i 1 i 1
i 1
n 2 n n 2 n 2 2
n xi xi n yi yi
i 1 i 1 i 1 i 1
15 4645 375 180
0,88 0 1
15 9639 3752 15 2262 1802
Interpretare: Rezultă că între cele două variabile există o legătură directă foarte puternică.
Măsurarea intensităţii legăturii cu raportul de corelaţie R:
ŷ i y
n 2
R i 1 0,88
y i y
n 2
i 1
Regression Statistics
Multiple R 0.883621
R Square 0.780786
Adjusted R Square 0.763923
Standard Error 1.311483
Observations 15.000000
ANOVA
df SS MS F Significance F
Regression 1.000000 79.640152 79.640152 46.302727 0.000013
Residual 13.000000 22.359848 1.719988
Total 14.000000 102.000000
RESIDUAL OUTPUT
Tabel 1.
SUMMARY OUTPUT
Regression Statistics
n n
yˆ y y yˆi
2 2
i i
Multiple R
0.883621 Ry / x i 1
n
1 i 1
n
yi y y y
Raportul de corelatie (R) 2 2
i
i 1 i 1
ŷ i y
n 2
R Square 2y / x 2e
Coeficientul (gradul) de 0.780786 R2 1 i1
y i y
determinaţie 2y 2y n 2
i 1
Adjusted R Square
Valoarea ajustată a 2u / n k 1
0.763923 2
coeficientului de R 1
determinaţie 2y / n 1
Standard Error n
Tabel 2.ANOVA
MS =SS/df
df
Sursa SS (varianţa) (media pătratelor)
(grade de F Significance F
variaţiei (suma pătratelor) (dispersia
libertate)
corectată)
2 =
Regression n Testul 0.000013<
(variaţia SSR= 2x ŷ i y 2
1 (k) s 2x x = F=46.302727 0.05
datorată i 1 k 2 2 (resping H0 –
regresiei) 79.640152 79.640152 F= s x / s u model valid)
n
SSE= 2u y i ŷ i 2 2u
Residual
13 (n-k-1) s 2u =
(variaţia i 1 n k 1
reziduală) = 22.359848 1.719988
2
n
2
SST= y yi y 2y
Total 14 (n-1) i1 s 2y
(variaţia = 102.000000 n 1
totală) SST=SSR + SSE
Tabel 3
Standard
Error
Coefficients
(Abaterea t Stat P-value Lower 95% Upper 95%
(Coeficienţi)
medie
pătratică)
Limita inf. a Limita sup. a
intervalului intervalului de
de încredere încredere
Intercept
0.412843
(termenul a0= -1.731061 s a0 =2.046120 t a0 = -0.846021 > 0,05
-6.151434 2.689313
liber)
Timpul 0.000013
mediu
a1 = 0.549242 s a1 =0.080716 t a1 = 6.804611 < 0,05
0.374866 0.723619
R2 = 0.780786 arată că 78% din variaţia numărului de poliţe încheiate este explicată de
timpul mediu petrecut de un agent cu un potenţial client.
Abaterea medie pătratică a erorilor su = 1.311483. În cazul în care acest indicator este
zero înseamnă că toate punctele sunt pe dreapta de regresie.
În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât F =
46.302727, iar Significance F (pragul de semnificatie) este 0.000013 (valoare mai mica de 0.05)
atunci modelul de regresie construit este valid şi poate fi utilizat pentru analiza dependenţei dintre
cele două variabile.
Intercept este termenul liber, deci coeficientul a0 este -1.731061. Termenul liber este
punctul în care variabila explicativă (factorială) este 0. Deci numărul de poliţe încheiate,
dacă timpul petrecut este 0. Deoarece t a0 = -0.846021 iar pragul de semnificaţie P-value
este 0.412843>0,05 înseamnă că acest coeficient este nesemnificativ. De altfel faptul că
limita inferioară a intervalului de încredere (-6.151434 0 2.689313)
pentru acest parametru este negativă, iar limita superioară este pozitivă arată că parametrul
din colectivitatea generală este aproximativ zero.