Teorie Si Probleme Regresie

REGRESIA ŞI CORELAŢIA
ABORDĂRI TEORETICE. REZUMAT
Regresia şi corelaţia reprezintă două tehnici statistice utilizate pentru analiza relaţiilor
care există între două sau mai multe variabile, mai precis pentru determinarea formei legăturii
dintre variabile (regresia) şi pentru determinarea intensităţii legăturii.(corelatia)
Concepte utilizate pentru studierea celor două tehnici:
1) variabila dependentă (efect, rezultativă) este acea variabilă care urmează să fie explicată se
notează cu y;
2) variabila independentă (cauză) este acea variabilă care se presupune că exercită influenţa
asupra variabilei dependente (care explică) şi se notează cu x.
Regresia liniară unifactorială (regresia simplă) implică doar două variabile şi anume o
variabilă cauză x şi o variabilă efect y, iar relaţia dintre ele este aproximată cu o funcţie liniară.
Modelul de regresie liniară are forma:
y  01 x  
unde:
 - variabila reziduală (eroarea);
 0 - termen liber adică reprezintă valoarea (intercept) lui y când x = 0;
 1 – coeficient de regresie (panta dreptei) şi ne arată cu câte unităţi de măsură se modifică y la
modificarea cu o unitate de măsură a lui x;
 1 - ne arată direcţia legăturii dintre cele două variabile, astfel dacă:
1  0  legătură directă (creşte x, creşte y);
1  0  legătură inversă (creşte x, scade y);
1  0  nu există legătură.
Grafic, legătura liniară dintre y şi x se reprezintă astfel:
y
yˆ  a0  a1 x
Pentru a estima parametrii ecuaţiei de regresie se foloseşte metoda celor mai mici pătrate
(MCMMP) care spune că suma pătratelor distanţelor verticale ale punctelor până la dreapta de
regresie este minimă, adică suma pătratelor abaterilor valorilor reale y de la valorile ajustate ŷ
este minimă.
 y  yˆ i 
2
i minimă
i
a0  y  a1  x
 x  x  y  y 
i i
a1  i
 x  x 
2
i
i
Pentru a explica în ce măsură variaţia variabilei dependente depinde de variaţia variabilei

independente se utilizează coeficientul de determinaţie (R2= R Square).
n
 y  yˆ i 
2
i
 0, 100
SSE SSR
R2  1 i 1
 1 
 y 
n
2 SST SST
i y
i 1
SSE = suma pătratelor datorate erorilor;

SSR = suma pătratelor datorate regresiei (factorului x);
SST = suma totală a pătratelor.
Raportul de corelaţie (R = multiple R) ne arată intensitatea legăturii:
R  R2
Corelaţia ne arată doar cât de puternică este legătura liniară dintre variabile.
Coeficientul de corelaţie liniară simplă este:
n n n
n xi yi   xi   yi
ry / x  i 1 i 1 i 1
 [1;1]
 n 2  n  2
  n 2  n 2 
n xi    xi   n yi    yi  
 i 1  i 1    i 1  i 1  
Dacă: r  0 înseamnă că între cele două variabile există legătură inversă;

r  0 înseamnă că între cele două variabile există legătură directă;
r = 0 între cele două variabile nu există legătură;
r1 legătura dintre cele două variabile este foarte puternică;
r =  1 legătura dintre cele două variabile este funcţională.
 x  
n
i  x yi  y
cov( x, y ) cov( x; y )
r i 1
 
x y
 x   
n n
var .x  var . y
 x   yi  y
2 2
i
i 1 i 1
n
x   (x
i 1
i  x) 2
n
Varianţa lui x (numaratorul dispersiei) =  (x
i 1
i  x) 2  2 x
Relaţia între coeficientul de corelaţie şi parametrii modelului de regresie:

y
b  r
x
Regresia liniară multifactorială

În cazul regresiei liniare multifactoriale, variabila dependentă y este explicată cu ajutorul
mai multor variabile.
Modelul de regresie multiplă este:
y   0  1 x1   2 x2  ...   n xn   i  1, N
unde:
N = numărul unităţilor din colectivitatea generală;
0 = termenul liber cunoscut sub denumirea de intercepţie;
1, 2, …, n = reprezintă coeficienţii de regresie şi ne arată cu cât se modifică variabila
rezultativă dacă cea factorială se modifică cu o unitate;
x1, x2, …, xn reprezintă valorile variabilelor factoriale înregistrate pentru unitatea i din
colectivitate ( i  1, N );
yi reprezintă valoarea variabilei rezultative pentru unitatea i din colectivitatea generală;
 - reprezintă valoarea variabilei reziduale (eroarea).
Estimarea parametrilor modelului se face cu ajutorul metodei celor mai mici pătrate
(MCMMP).
Întrucât vom lucra cu date provenite dintr-un eşantion, modelul de regresie liniară
multifactorială este:
y i  a 0  a 1x i1  a 2 x i 2  ...  a m x im  u i i  1, n
Modelul se va scrie în formă matriceală:

 y1  1 x11 x12 ... x1m   a 0   u1 
       
 y 2  1 x 21 x 22 ... x 2m   a 1   u 2 
              
       
 y  1 x nm   a m   u m 
 n  x n1 x n 2 ...
Y XA  U
Vectorul Y are dimensiunea (n, 1).

Matricea X are dimensiunea (n, m+1).
Vectorul A are dimensiunea (m+1, 1).
Vectorul U are dimensiunea (n, 1).
Parametrii modelului de regresie liniară multiplă la nivelul colectivităţii generale se
determină ca estimatori pe baza datelor din eşantion.
Pentru estimarea parametrilor modelului se utilizează metoda celor mai mici pătrate care
spune că, “suma pătratelor abaterilor dintre valorile reale şi valorile ajustate să fie minimă”, adică:
n
 y i  ŷ i 2 minim
i 1
ŷ i = valorile ajustate.
ŷ i  a 0  a 1 x i1  a 2 x i 2  ...  a m x im i  1, n
n n n
 y i  ŷ i 2   u i2   y i  a 0  a1x i1  a 2 x i2  ...  a m x im 2
i 1 i 1 i 1

O expresie este minimă când derivatele în raport cu parametrii aj j  0, m se anulează. Deci 
se va obţine un sistem de (m+1) ecuaţii cu (m+1) necunoscute:
na 0  a 1  x i1  a 2  x i 2  ...  a m  x im   y i
 i i i i
a
 0  i1 1  i1 2  11 i 2 m  x i1  x im   x i1  y i
2
x  a x  a x x  ...  a
 i i i i i
a 0  x i 2  a 1  x i1  x i 2  a 2  x i 2  ...  a m  x i 2  x im   x i 2  y i
2
 i i i i i


a 0  x in  a 1  x i1  x im  a 2  x i 2  x im  ...  a m  x im   x im  y i
2
 i i i i i
Metoda celor mai mici pătrate presupune minimizarea sumei pătratului erorilor, deci în
termeni matriceali vom avea:
 2  min Y  X  A2 
n
min  u i2  min U'U   min Y  Ŷ
i 1
 min Y  XA 'Y  XA   min Y' Y  2A'X' Y   A  X'X A

 0   2X' Y  2X' X  A  0 
A
 X' X   A  X' Y 
 X' X 1  X' X   A  X' X 1  X' Y  
 A  X' X 1  X' Y
X’ = transpusa matricei X;
X-1 = inversa matricei X.
Pentru cazul în care avem doar două variabile cauză (factoriale) X1 şi X2 atunci vom obţine
un model de regresie liniară bifactorială.
Modelul de regresie pentru un eşantion va fi:
y i  a 0  a 1x i1  a 2 x i 2  u i
Pentru estimarea parametrilor modelului folosim metoda celor mai mici pătrate, şi vom
obţine:
n n
 y i  ŷ i 2 min   y i  a 0  a1x i1  a 2 x i2 2 min
i 1 i 1

   n n n
  0  na 0  a 1  x i1  a 2  x i 2   yi
 a 0  i 1 i 1 i 1
   n n n n
  0  a 0  x i1  a 1  x i21  a 2  x i1  x i 2   x i1 y i
 a 1  i 1 i 1 i 1 i 1
   n n n n
 a  0 a 0  x i 2  a 1  x i1  x i 2  a 2  x i 2   x i 2 y i
2
 2  i 1 i 1 i 1 i 1
sau matriceal:
 y1  1 x11 x12  u 
    a0   1 
 y 2  1 x 21 x 22     u 2 
    
  a1  
     
    a2  
 y  1
 n  x n1 x n 2     u m 
n1 n3 31 n1
Y=XA+U Ŷ  X  A
Gradul de determinaţie ne arată proporţia în care variaţia variabilei dependente este

explicată de variaţia variabilelor din model.
n
 y  yˆ i 
2
i
SSR SSE
R2   1  1 i 1
 [0;1]
 y 
n
SST SST 2
i y
i 1
Raportul de corelaţie multiplă

R  R 2  [0;1]
Raportul de corelaţie multiplă are valoarea cea mai mare în raport cu coeficienţii de corelaţie
simplă deoarece sintetizează atât influenţa fiecărui factor cât şi influenţa interacţiunii dintre factori.
Deci, cu cât se iau în considerare mai mulţi factori, cu atât valoarea raportului de corelaţie multiplă
va fi mai mare.
Aanaliza dispersională (ANOVA) pentru testarea validităţii modelului
În analiza regresiei, pe lângă mediile grupelor se mai introduc şi valorile corespunzătoare de
pe linia de regresie, adică:

y i  y  y i  ŷ i   ŷ i  y 
unde:
y i = valorile empirice;
ŷ i = valorile ajustate generate de model;
y = media valorilor empirice = media valorilor ajustate;
y i  y - reprezintă abaterea totală;
y i  ŷ i - nu poate fi explicată de model;
ŷ i  y - poate fi explicată de model.
Prin compararea acestor trei valori putem pune în evidenţă trei tipuri de abateri:
 abaterea valorilor ajustate în raport cu media ŷ i  y , abateri pe care le considerăm
datorate modificării factorului;
 abaterea valorilor empirice de la valorile ajustate y i  ŷ i care apar ca urmare a acţiunii
perturbaţiei;
 abaterea totală este suma celor două abateri precizate mai sus.
 y i  y  2
n n n
  y i  ŷ i 2   ŷ i  y
2
i 1 i 1 i 1
 y i  y  - reprezintă suma pătratelor abaterilor totale numită varianţă totală şi notată

n 2
i 1
cu SST;
n
 y i  ŷ i 2 - reprezintă suma pătratelor erorilor numită şi varianţă reziduală şi notată cu
i 1
SSE;
 ŷ i  y  - reprezintă suma pătratelor abaterilor datorită regresiei şi se notează cu SSR.

n 2
i 1
Deci:
SST = SSE + SSR
Pentru aprecierea calităţii ajustării, adică a validităţii modelului de regresie se utilizează
testul F:
Paşi pentru aplicarea testului F:
- pasul 1: – se stabilesc ipotezele: nulă şi alternativă:
 H0: modelul de regresie nu este valid, adică împrăştierea valorilor yi datorate
factorului nu diferă semnificativ de împrăştierea aceloraşi valori datorate
întâmplării;
 H1: modelul de regresie este valid, adică împrăştierea valorilor ŷ i datorate
factorului diferă semnificativ de împrăştierea aceloraşi valori datorate
întâmplării.
- pasul 2: - se aplică testul F:
s2
Fcalc  x
s 2u
unde:
s 2x - este dispersia valorilor variabilei efect datorate factorului;
s 2u - este dispersia variabilei reziduale (dispersia erorilor).
 ŷ i  y 
n n
 y i  ŷ i 2
2
s 2x  i 1 s 2u  i 1
k n  k 1
k – reprezintă numărul variabilelor factoriale din model.
- pasul 3: - se compară Fcalc cu valoarea tabelară corespunzătoare repartiţiei Fisher şi se
formulează concluziile:
 dacă Fcalc  F, k, n-k-1 atunci se respinge H0 şi deci modelul este valid;
 dacă Fcalc  F, k, n-k-1 atunci ipoteza nulă H0 se acceptă şi modelul nu este valid, adică
modelul trebuie reconsiderat în sensul alegerii altui factor sau suplimentarea celor
existenţi în model sau alegerea unei alte forme a funcţiei de regresie.
 - prag de semnificaţie;
k, n – k – 1 – reprezintă grade de libertate.
Valoarea tabelară Ftab pentru un prag de semnificaţie  se află la intersecţia numărului de
grade de libertate k, trecute în capătul coloanelor şi numărul de grade de libertate n-k-1, trecute în
capătul rândului.
Pentru calculul testului F putem folosi tabelul ANOVA:
Grade de Media
Suma pătratelor
libertate df pătratelor (MS Testul F
Suma variaţiei (SS = sum of
(Degree of – Mean of (Fisher)
squares)
freedom) squares)
Datorată
 2
n
SSR   ŷ i  y SSR s 2x
modelului de k s 2x  Fcalc 
regresie i 1 k s 2u
n
SSE   y i  ŷ i 2
SSE
Reziduală n – k -1 s 2u 
i 1 n  k 1
 2
n
SST
Totală SST   y i  y n–1 s 2y 
i 1 n 1
6.1.APLICAȚII REZOLVATE
1. În tabelul următor este prezentată distanţa parcursă de un autovehicul din momentul frânării şi
până la oprire şi respectiv viteza autovehiculului în momentul frânării:
Viteza (km/h) 40 50 60 70 80 90 100 110 120
Distanţa (m) 8 12 18 24 32 40 48 58 72
Se cere:
a) să se estimeze parametrii modelului de regresie şi să se aprecieze intensitatea legăturii;
b) să se testeze validitatea modelului de regresie;
c) să se determine raportul de corelaţie.
Rezolvare:
a) Pentru a identifica legătura care există între cele două variabile trebuie să le reprezentăm
grafic. Graficul este corelograma sau diagrama norului de puncte.
Distanţa este variabila endogenă (rezultativă, dependentă, efect) notată cu y.
Viteza este variabila exogenă (independentă, cauză) notată cu x.
OY distanta
80
70
60
50
40
30
20
10
OX
0
30 40 50 60 70 80 90 100 110 120
viteza
i  1, n
n = 9 reprezintă numărul de înregistrări.
De pe grafic se observă că între y şi x există o legătură liniară, directă.
Pentru a estima parametrii a şi b ai modelului de regresie se utilizează metoda celor mai mici
pătrate:
9 9
 y i  ŷ i 2 min   y i  a  bx i 2 min 
i 1 i 1
 9 9
na  b  x i   y i
 i 1 i 1 a  27,970
 9  
b  0,783
9 9
a  x  b  x 2   x y
 i 1 i
i 1
i
i 1
i i
De asemenea, a şi b pot fi determinaţi şi astfel:

 x i  x y i  y 
9
cov(x, y)  xy 521,96
b   i1   0,783
 x i  x 
2x 2x 9 2 666,67
i 1
a  y  b  x  34,67  0,783  80  27,970

Va trebui să calculăm:
9 9
 xi  x i2
720
x  i 1 var(x )  i 1
2
  80  x  666,67   x  25,82
9 9 9
9 9
 yi  y i2
312
y  i 1 var(y)  i 1
2
  34,67  y  418,43   y  20,46
9 9 9
Deci:
ŷ  27,970  0,783 x
9
 x i yi
cov(x, y)  i 1  x  y  521,96
9
Pentru a calcula estimatorii a şi b ai parametrilor modelului de regresie s-a utilizat următorul
tabel ajutător:
Nr.
xi yi x i2 y i2 x i yi
crt.
1 40 8 1600 64 320
2 50 12 2500 144 600
3 60 18 3600 324 1080
4 70 24 4900 576 1680
5 80 32 6400 1024 2560
6 90 40 8100 1600 3600
7 100 48 10000 2304 4800
8 110 58 12100 3364 6380
9 120 72 14400 5184 8640
Total 720 312 63600 14584 29660
Intensitatea legăturii se apreciază cu ajutorul coeficientului de corelaţie:
cov(x , y) 521,96
ry / x    0,988 
x  y 25,82  20,46
corelaţia dintre distanţa parcursă şi viteza automobilului este foarte puternică.

Deci, între cele două variabile există o legătură liniară directă foarte puternică.
b) Vom aplica analiza dispersională ANOVA pentru testarea validităţii modelului.

Funcţia de regresie este:
ŷ  27,970  0,783 x
Testarea validităţii modelului cu ajutorul testului F:
- se stabileşte ipoteza nulă:
H0: modelul de regresie nu este valid, adică împrăştierea valorilor ŷ i datorate
factorului nu diferă de împrăştierea aceloraşi valori datorate întâmplării;
- se stabileşte ipoteza alternativă:
H1: modelul de regresie este valid, adică împrăştierea valorilor ŷ i datorate factorului
diferă semnificativ de împrăştierea aceloraşi valori datorate întâmplării;
- se aplică testul F:
 ŷ i  y 
n 9 2
3678 ,53
s 2x  i 1   3678 ,53
k 1
n 9
 y i  ŷ i 2
86,33
s 2u  i 1   12,33
n  k 1 7
s 2 3678,53
Fcalc  x   298,33
s 2u 12,33
k = numărul variabilelor factoriale din model: k = 1 n = 9

Pentru a calcula valoarea testului F construim următorul tabel ajutător:
Nr.
crt.
yi ŷ i y i  ŷ i 2 ŷ i  y2
1 8 3,35 21,62 980,94
2 12 11,18 0,67 551,78
3 18 19,01 1,02 245,23
4 24 26,84 8,06 61,3
5 32 34,67 7,12 0
6 40 42,50 6,25 61,3
7 48 50,33 5,42 245,23
8 58 58,16 0,02 551,78
9 72 65,99 36,12 980,94
Total 312 312 86,33 3678,53
- se compară Fcalc cu F; k; n-k-1 = F0,05; 1; 7 = 5,58
Fcalc = 298,33  Ftab = 5,58 

ipoteza nulă se respinge, deci modelul este valid.
c) Determinarea raportului de corelaţie:
Pragul de semnificaţie utilizat este  = 5%.
Determinarea raportului de determinaţie:
 ŷ i  y 
9 2
3678 ,53
R 2y / x  i 1   0,97
 y i  y 
9 2 3768
i 1
 ŷ i  y  - l-am calculat la testarea validităţii modelului de regresie;

9 2
i 1
 y i  y  - trebuie să-l calculăm:

9 2
i 1
y  34,67 - determinat la estimarea parametrilor modelului
Vom utiliza tabelul ajutător:

Nr.
crt.
yi y i  y 2
1 8 711,28
2 12 513,92
3 18 277,88
4 24 113,84
5 32 7,12
6 40 28,40
7 48 177,68
8 58 544,28
9 72 1393,52
Total 312 3768
Interpretare: Deoarece R 2y / x  0,97  1 înseamnă că între cele două variabile este o legătură
foarte puternică.
Raportul de corelaţie:
R y / x  R 2y / x  0,97  0,984  1
deci între cele două variabile există o legătură foarte puternică.
2. În tabelul următor avem date referitoare la 15 agenţi de asigurări angajaţi ai unei companii
de asigurări de viaţă şi anume: timpul mediu, în minute, petrecut de un agent cu un potenţial client
şi numărul de poliţe încheiate într-o săptămână. Dacă xi reprezintă timpul mediu, iar yi reprezintă
numărul de poliţe, avem datele sistematizate astfel:
xi yi
25 10
23 11
30 14
25 12
20 8
33 18
18 9
21 10
22 10
30 15
26 11
26 15
27 12
29 14
20 11
Se cere:
a) măsuraţi intensitatea legăturii dintre cele două variabile folosind un indicator adecvat;
b) să se determine erorile reziduale;
c) să se testeze validitatea modelului de regresie pentru un nivel de semnificaţie  = 5%;
d) efectuaţi o previzionare punctuală a numărului de poliţe încheiate de un agent care
petrece în medie 24 de minute cu un potenţial client.
Rezolvare:
a) Pentru a determina forma modelului de regresie se va construi corelograma:
OY numar polite
16
14
12
10
6 O
16 18 20 22 24 26 28 30 32 34X
timpul mediu
Scara de reprezentare: 1 cm pe OY = 5 poliţe, 1 cm pe OX = 2 minute
ŷ i  a 0  a 1 x i
Parametrii a0 şi a1 se determină cu ajutorul metodei celor mai mici pătrate:

 y i  ŷ i 2 min   y i  a 0  a1x i 2 min 
i i
 n n
 0
na  a 1  i  yi
x 
 i 1 i 1
 n n n
n  15
a  x  a  x 2   x y
 0 i1 i 1
i 1
i
i 1
i i
Pentru a rezolva sistemul vom folosi următorul tabel în care sunt prezentate valorile
intermediare:
xi yi x i2 x i yi y i2 y i  y2 x i  x 2
25 10 625 250 100 4 0
23 11 529 253 121 1 4
30 14 900 420 196 4 25
25 12 625 300 144 0 0
20 8 400 160 64 16 25
33 18 1089 594 324 36 64
18 9 324 162 81 9 49
21 10 441 210 100 4 16
22 10 484 220 100 4 9
30 15 900 450 225 9 25
26 11 676 286 121 1 1
26 15 676 390 225 9 1
27 12 729 324 144 0 4
29 14 841 406 196 4 16
20 11 400 220 121 1 25
 xi   yi   x i2   x i yi   y i2  102 264
375 180 9639 4645 2262
15a 0  a1  375  180 a 0  1,73

  
a 0  375  a1  9639  4645 a 1  0,5492
Deci:
ŷ i  1,73  0,5492  x i
b) Erorile reziduale sunt u i  y i  ŷ i şi sunt prezentate în tabelul de mai jos:

ui -14,99 -27,57 -0,91 18,38 16,58 7,37 5,03
-20,62 9,90 27,22 -19,95 -17,48 -5,09 5,42 16,70
c) Testarea validităţii modelului de regresie:

1) se stabileşte ipoteza nulă: H0: împrăştierea valorilor ŷ t datorate factorului nu diferă
semnificativ de împrăştierea aceloraşi valori datorate întâmplării, deci modelul nu este valid;
2) se stabileşte ipoteza alternativă: H1: modelul este valid;
3) se calculează testul F:
s 2x 79,64
F   46,3
s 2u 1,71
 ŷ i  y
2
79,64
s 2x  i   79,64
k 1
 y i  ŷ i 2
22,35
s 2u  i   1,71
n  k 1 15  2
15
 yi
180
y  i 1   12
15 15
Fcalc  F;n k 1  F0,05;1,13  4,67
Deoarece Fcalc  Ftab  modelul este valid.
d) Intensitatea legăturii dintre cele două variabile se face cu coeficientul de corelaţie liniară:
n n n
n xi yi   xi   yi
ry / x  i 1 i 1
 i 1
 n 2  n    n 2  n 2  2
n xi    xi   n yi    yi  
 i 1  i 1    i 1  i 1  
15  4645  375 180
 0,88  0  1
 
15  9639  3752 15  2262  1802 
Interpretare: Rezultă că între cele două variabile există o legătură directă foarte puternică.
Măsurarea intensităţii legăturii cu raportul de corelaţie R:
 ŷ i  y 
n 2
R  i 1  0,88
 y i  y 
n 2
i 1
Interpretare: Deoarece R = r = 0,88, apreciem că există o legătură liniară, puternică şi directă

între cele două variabile.
e) ŷ n 1  1,73  0,5492  24  11,45 ~ 12 poliţe (aceasta este estimarea punctuală).

Rezolvarea problemei cu ajutorul programului informatic EXCEL:
Se selectează din meniul principal opţiunea Tools, apoi Data Analysis, apoi Regression şi se
deschide următoarea fereastră:
şi se obţin următoarele rezultate:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.883621
R Square 0.780786
Adjusted R Square 0.763923
Standard Error 1.311483
Observations 15.000000
ANOVA
df SS MS F Significance F
Regression 1.000000 79.640152 79.640152 46.302727 0.000013
Residual 13.000000 22.359848 1.719988
Total 14.000000 102.000000
Coefficients Standard t Stat P-value Lower Upper

Error 95% 95%
Intercept -1.731061 2.046120 -0.846021 0.412843 -6.151434 2.689313
X Variable 1 0.549242 0.080716 6.804611 0.000013 0.374866 0.723619
RESIDUAL OUTPUT
Observation Predicted Y Residuals

1.000000 12.000000 -2.000000
2.000000 10.901515 0.098485
3.000000 14.746212 -0.746212
4.000000 12.000000 0.000000
5.000000 9.253788 -1.253788
6.000000 16.393939 1.606061
7.000000 8.155303 0.844697
8.000000 9.803030 0.196970
9.000000 10.352273 -0.352273
10.000000 14.746212 0.253788
11.000000 12.549242 -1.549242
12.000000 12.549242 2.450758
13.000000 13.098485 -1.098485
14.000000 14.196970 -0.196970
15.000000 9.253788 1.746212
Explicitarea datelor din tabelele de mai sus:
Tabel 1.
SUMMARY OUTPUT
Regression Statistics
n n
  yˆ  y y  yˆi 
2 2
i i
Multiple R
0.883621 Ry / x  i 1
n
 1 i 1
n
  yi  y  y  y
Raportul de corelatie (R) 2 2
i
i 1 i 1
 ŷ i  y
n 2
R Square 2y / x 2e
Coeficientul (gradul) de 0.780786 R2   1  i1
 y i  y
determinaţie 2y 2y n 2
i 1
Adjusted R Square
Valoarea ajustată a 2u / n  k  1
0.763923 2
coeficientului de R  1
determinaţie 2y / n  1
Standard Error n
Abaterea medie pătratică a  y i  ŷ i 2

1.311483 2u i 1
su  
erorilor în eşantion n2 n2
Observations
15
Numărul observaţiilor (n)
Tabel 2.ANOVA
MS =SS/df
df
Sursa SS (varianţa) (media pătratelor)
(grade de F Significance F
variaţiei (suma pătratelor) (dispersia
libertate)
corectată)
 2 =
Regression n Testul 0.000013<
(variaţia SSR= 2x   ŷ i  y 2
1 (k) s 2x  x = F=46.302727 0.05
datorată i 1 k 2 2 (resping H0 –
regresiei) 79.640152 79.640152 F= s x / s u model valid)
n
SSE= 2u   y i  ŷ i 2 2u
Residual
13 (n-k-1) s 2u  =
(variaţia i 1 n  k 1
reziduală) = 22.359848 1.719988
 2
n
2
SST=  y   yi  y 2y
Total 14 (n-1) i1 s 2y 
(variaţia = 102.000000 n 1
totală) SST=SSR + SSE
Tabel 3
Standard
Error
Coefficients
(Abaterea t Stat P-value Lower 95% Upper 95%
(Coeficienţi)
medie
pătratică)
Limita inf. a Limita sup. a
intervalului intervalului de
de încredere încredere
Intercept
0.412843
(termenul a0= -1.731061 s a0 =2.046120 t a0 = -0.846021 > 0,05
-6.151434 2.689313
liber)
Timpul 0.000013
mediu
a1 = 0.549242 s a1 =0.080716 t a1 = 6.804611 < 0,05
0.374866 0.723619
Tabel 4. RESIDUAL OUTPUT

Predicted ŷi Residuals
Observation
Numărul de poliţe y i  yˆ i
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043
Interpretarea rezultatelor din tabelul SUMMARY OUTPUT:
 R = 0.883621 arată că între numărul de poliţe încheiate şi timpul mediu petrecut cu un

potenţial client există o legătură puternică.
 R2 = 0.780786 arată că 78% din variaţia numărului de poliţe încheiate este explicată de
timpul mediu petrecut de un agent cu un potenţial client.
 Abaterea medie pătratică a erorilor su = 1.311483. În cazul în care acest indicator este
zero înseamnă că toate punctele sunt pe dreapta de regresie.
Interpretarea rezultatelor din tabelul ANOVA:
În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât F =
46.302727, iar Significance F (pragul de semnificatie) este 0.000013 (valoare mai mica de 0.05)
atunci modelul de regresie construit este valid şi poate fi utilizat pentru analiza dependenţei dintre
cele două variabile.
Interpretarea rezultatelor din tabelul 4:
 Intercept este termenul liber, deci coeficientul a0 este -1.731061. Termenul liber este
punctul în care variabila explicativă (factorială) este 0. Deci numărul de poliţe încheiate,
dacă timpul petrecut este 0. Deoarece t a0 = -0.846021 iar pragul de semnificaţie P-value
este 0.412843>0,05 înseamnă că acest coeficient este nesemnificativ. De altfel faptul că
limita inferioară a intervalului de încredere (-6.151434   0  2.689313)
pentru acest parametru este negativă, iar limita superioară este pozitivă arată că parametrul
din colectivitatea generală este aproximativ zero.
 Coeficientul a1 este 0.549242, ceea ce însemnă că la creşterea timpului petrecut cu un

minut, numărul de poliţe încheiate va creşte cu 0,549242. Deoarece t a1 = 6.804611 iar
pragul de semnificaţie P-value este 0.000013<0,05 înseamnă că acest coeficient este
semnificativ. Intervalul de încredere pentru acest parametru este 0.374866  1 
0.723619.

Teorie Si Probleme Regresie

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Teorie Si Probleme Regresie

Încărcat de

Drepturi de autor:

Formate disponibile

REGRESIA ŞI CORELAŢIA

ABORDĂRI TEORETICE. REZUMAT

Grafic, legătura liniară dintre y şi x se reprezintă astfel:

Pentru a explica în ce măsură variaţia variabilei dependente depinde de variaţia variabilei

SSE = suma pătratelor datorate erorilor;

Raportul de corelaţie (R = multiple R) ne arată intensitatea legăturii:

Dacă: r  0 înseamnă că între cele două variabile există legătură inversă;

Relaţia între coeficientul de corelaţie şi parametrii modelului de regresie:

Regresia liniară multifactorială

Modelul se va scrie în formă matriceală:

Vectorul Y are dimensiunea (n, 1).

 X' X 1  X' X   A  X' X 1  X' Y  

 A  X' X 1  X' Y

Gradul de determinaţie ne arată proporţia în care variaţia variabilei dependente este

Raportul de corelaţie multiplă

 y i  y  - reprezintă suma pătratelor abaterilor totale numită varianţă totală şi notată

 ŷ i  y  - reprezintă suma pătratelor abaterilor datorită regresiei şi se notează cu SSR.

De asemenea, a şi b pot fi determinaţi şi astfel:

a  y  b  x  34,67  0,783  80  27,970

corelaţia dintre distanţa parcursă şi viteza automobilului este foarte puternică.

b) Vom aplica analiza dispersională ANOVA pentru testarea validităţii modelului.

k = numărul variabilelor factoriale din model: k = 1 n = 9

- se compară Fcalc cu F; k; n-k-1 = F0,05; 1; 7 = 5,58

Fcalc = 298,33  Ftab = 5,58 

Pragul de semnificaţie utilizat este  = 5%.

Determinarea raportului de determinaţie:

 ŷ i  y  - l-am calculat la testarea validităţii modelului de regresie;

 y i  y  - trebuie să-l calculăm:

y  34,67 - determinat la estimarea parametrilor modelului

Vom utiliza tabelul ajutător:

Scara de reprezentare: 1 cm pe OY = 5 poliţe, 1 cm pe OX = 2 minute

Parametrii a0 şi a1 se determină cu ajutorul metodei celor mai mici pătrate:

15a 0  a1  375  180 a 0  1,73

b) Erorile reziduale sunt u i  y i  ŷ i şi sunt prezentate în tabelul de mai jos:

c) Testarea validităţii modelului de regresie:

Fcalc  F;n k 1  F0,05;1,13  4,67

Deoarece Fcalc  Ftab  modelul este valid.

Interpretare: Deoarece R = r = 0,88, apreciem că există o legătură liniară, puternică şi directă

e) ŷ n 1  1,73  0,5492  24  11,45 ~ 12 poliţe (aceasta este estimarea punctuală).

Coefficients Standard t Stat P-value Lower Upper

Observation Predicted Y Residuals

Explicitarea datelor din tabelele de mai sus:

Abaterea medie pătratică a  y i  ŷ i 2

Tabel 4. RESIDUAL OUTPUT

 R = 0.883621 arată că între numărul de poliţe încheiate şi timpul mediu petrecut cu un

Interpretarea rezultatelor din tabelul ANOVA:

Interpretarea rezultatelor din tabelul 4:

 Coeficientul a1 este 0.549242, ceea ce însemnă că la creşterea timpului petrecut cu un

S-ar putea să vă placă și