Sunteți pe pagina 1din 15

Curs 2: Regresia liniară simplă

2.1. Introducere

Analiza regresională studiază legătura dintre o variabilă numită variabilă dependentă


(explicată, output) şi una sau mai multe variabile numite independente (explicative,
input-uri).

În general vom nota cu Y variabila dependentă şi cu X1, X2,..., Xn variabilele


independente.

Printre obiectivele analizei regresionale putem menţiona:


1. estimarea valorii medii a variabilei dependente cunoscând valorile
variabilelor independente;
2. testarea unor ipoteze despre natura dependenţei, ipoteze sugerate în general
de teoria economică;

Atunci când sunt implicate doar o variabilă dependentă şi o singură variabilă


independentă, iar relaţia dintre ele este una liniară, vom vorbi despre regresia linară
simplă.

2.2. Etape în analiza regresională

2.2.1. Funcţia de regresie corespunzătoare populaţiei (PRL)

Considerăm o populaţie formată din 55 de consumatori ai unui anumit produs. Avem


următoarele date:

Preţul Număr
Cererea (u.c.) Cerere medie (u.c.)
(u.m.) consumatori
45, 46, 47, 48, 49, 50,
1 7 48
51
2 44, 45, 46, 47, 48 5 46
3 40, 42, 44, 46, 48 5 44
4 35, 38, 42, 44, 46, 47 6 42
5 36, 39, 40, 42, 43 5 40
32, 35, 37, 38, 39, 42,
6 7 38
43
7 32, 34, 36, 38, 40 5 36
31, 32, 33, 34, 35, 36,
8 7 34
37
9 28, 30, 32, 34, 36 5 32

1
10 29, 30, 31 3 30

 u.m. – unități monetare;


 u.c. – unități de cantitate.
Explicarea tabelului

Tabelul de mai sus ne arată că spre exemplu la un preţ de 2 u.m., 5 consumatori


achiziţionează produsul în cantităţile 44, 45, 46, 47 şi 48 unităţi, cererea medie a celor
cinci consumatori fiind de 46 unităţi.

Evolutia cererii

60

50

40
cererea

30

20

10

0
0 1 2 3 4 5 6 7 8 9 10
pretul

Dreapta trasată printre punctele graficului poartă numele de dreaptă de regresie


corespunzătoare populaţiei (PRL) şi conţine valorile medii ale variabilei dependente
corespunzătoare fiecărei valori a variabilei independente.

Ce putem observa?

1. Fiecare valoare a cererii medii corespunzătoare unei anumite valori a preţului, valoare
pe care o vom nota cu E(YXi), se găseşte pe dreapta PRL, ceea ce ne permite să
scriem următoarea relaţie:
E(YXi)= B0 + B1*Xi (1)

 B0, B1 se numesc parametrii (coeficienţii) modelului regresional;

2
 B1 ne arată cu cât se modifică valoarea medie a lui Y atunci când X se modifică cu
o unitate.
 Funcţia definită de (1) se numeşte funcţia de regresie a populaţiei - PRF

2. Ultimul consumator care achiziţionează la preţul de 1 u.m., are o cerere de 51 unităţi


care depăşeşte cererea medie corespunzătoare, 48 de unităţi. Cum se explică această
diferenţă? Tot ce putem spune este că cererea individuală este egală cu cerea medie
plus sau minus o anumită cantitate. Acest lucru se exprimă matematic astfel:
Yi= B0 + B1*Xi + ui (2)

Observaţie
1. Termenul u se numeşte eroare aleatoare;
2. ecuaţia (1) se numeşte model deterministic (fiecărei valori al lui x îi
corespunde o singură valoare a lui y, valoare pe care y o ia cu
certitudine);
3. ecuaţia (2) se numeşte model stocastic (fiecărei valori al lui x îi corespunde
o valoare a lui y, valoare pe care y o ia cu o anumită probabilitate).

Semnificaţia erorii
1. eroarea aleatoare reprezintă influenţa acelor variabile care nu apar explicit în
modelul regresional cum ar fi spre exemplu venitul consumatorilor;
2. chiar dacă reuşim să includem în model toate variabilele relevante, acest
termen nu poate să dispară pentru că pur şi simplu el poate reprezenta
comportamentul consumatorului care nu este predictibil;
3. eroarea aleatoare poate reprezenta totodată o eroare de măsurătoare.

2.2.2. Funcţia de regresie corespunzătoare eşantionului

Este evident că în practică rareori vom lucra cu o întreagă populaţie şi asta, în special, din
raţiuni de cost ridicat al unui astfel de studiu. Tocmai de aceea studiul se va realiza pe un
eşantion extras din populaţia ce face obiectul studiului.

Va trebui astfel să estimăm PRF pe baza informaţiilor deţinute la nivel de eşantion.

Considerăm următoarele date:

Preţul
Cererea (u.c.)
(u.m.)
1 49
2 45
3 44
4 39
5 38
6 37

3
7 34
8 33
9 30
10 29

Evolutia cererii

60

50

40
cererea

30

20

10

0
0 1 2 3 4 5 6 7 8 9 10 11
pretul

Se observă că cererea la nivel de eşantion are o evoluţie aproximativ liniară raportată la


preţ, ceea ce ne permite să determină ca şi în cazul populaţiei funcţia de regresie
corespunzătoare eşantionului SRF care poate fi scrisă astfel:
ŷ i  b0  b1 x i ,
unde
 ŷ i reprezintă estimatorul lui E(YXi);
 b0, b1 reprezintă estimatorii coeficienţilor B0 şi B1.

Dacă privim graficul cu atenţie, observăm că nu toate valorile cererii se află pe dreapta de
regresie corespunzătoare eşantionului (SRL), astfel ca şi în cazul populaţiei, vom vorbi şi
aici de modelul stocastic ce poate fi exprimat astfel:
yi= b0 + b1*xi + i (3)
unde i poartă numele de reziduu.

4
2.2.3. Estimarea parametrilor. Metoda celor mai mici pătrate.

Observăm că reziduurile pot fi scrise astfel:


 i  y i  ŷ i

Determinarea parametrilor de regresie se va face astfel încât suma pătratelor reziduurilor


să fie minimă:
  i2    y i  ŷ i   min im .
2

Această metodă poartă numele de metoda celor mai mici pătrate şi conduce la
următoarele expresii ale parametrilor de regresie:

 x y  nx y
i i
b1= ; 2
 x  nx
2
i

b0= y  b 1 x.

xi yi x i2 xiyi
1 49 1 49
2 45 4 90
3 44 9 132
4 39 16 156
5 38 25 190
6 37 36 222
7 34 49 238
8 33 64 264
9 30 81 270
10 29 100 290
 55 378 385 1901
x =5,5 y =37,8

Obţinem astfel b0=49,667, b1= - 2,1576.

Aşadar ŷ i  49.667  2.1576 x i .

Deci, dacă preţul se modifică cu o unitate atunci cererea medie se modifică cu aprox.
2,16 unităţi.

Observaţie
1.   i  0 ;
2.2.4. Testarea semnificaţiei modelului regresional

5
Aşa cum arătam în paragrafele anterioare, b0 şi b1 reprezintă doar estimări ale
parametrilor modelului regresional, B0 şi B1. Se pune întrebarea ce se întâmplă la nivel de
populaţie. Pentru a vedea acest lucru va trebui ca pornind de la rezultatele obţinute la
nivel de eşantion, să derulăm un test de semnificaţie pentru parametrii modelului
regresional.

Să revenim la problema cu consumatorii. Presupunem că se sugerează ideea că preţul nu


are efect asupra cantităţii comandate. Se ajunge astfel la ipoteza următoare:
Ho: B1=0.

În analiza regresională, o astfel de ipoteză este aleasă în mod deliberat pentru a afla dacă
variabila independentă influenţează sau nu variabila dependentă. Evident că dacă această
ipoteză poate fi susţinută atunci nu are nici un rost să studiem legătura dintre cele două
variabile. În caz contrar dacă în mod logic cele două variabile sunt legate printr-o
anumită relaţie ne aşteptăm ca această ipoteză nulă să fie respinsă în favoarea ipotezei
alternative:
H1: B1≠0, B10, B1 0.

Ne vom concentra pe parametrul B1 şi vom exemplifica cele două abordări posibile


pentru verificarea ipotezelor şi anume intervale de încredere şi respectiv teste de
semnificaţie.

Vom verifica următoarele ipoteze:


Ho: B1=0;
H1: B1≠0.

Intervale de încredere

Un interval de încredere pentru parametrul B2 are următoarea formă:



B1  b1  t / 2; n2  sb1 , b1  t / 2; n2  sb1 

unde:
ESE
sb = 2 ;
1
x 2
i
 nx

  y ŷ i  y  b0  y i  b1  x i y i
2 2 2

ESE= i
= i
= i
fiind eroarea standard
n 2 n 2 n2
a estimării.

6
Obţinem astfel:
 t0,025;8=2,306;
 sb =0,1203.
1

 B1    2,435;1,8802 .
Cum acest interval nu conţine 0, respingem ipoteza nulă. Aşadar cu o probabilitate de
95% putem afirma că parametrul B2 este diferit de zero.

Este el mai mic decât zero?


Ho: B1=0; H1: B1<0.

În acest caz trebuie determinată marginea superioară a parametrului care are forma:
b1  t  ; n  2  sb 1

Cum t0,05;8=1.746 obţinem că marginea inferioară este - 1,9476. Aşadar cu o probabilitate


de 95%, B1< - 1,9476 şi în consecinţă ipoteza nulă se respinge.

Teste de semnificaţie

Test bilateral
1. Formularea ipotezelor
Ho: B1=0; H1: B1≠0.
2. Stabilirea nivelului de semnificaţie =0,05;
3. Calcularea statisticii test
b1  2 ,1576
t= s = 0 ,1203  17.94 ;
b 1

4. Determinarea valorilor critice  t  (test bilateral)


2 ;( n  2 ) gl

±t/2;(n-2)= ± t0,025;8=±2,306
5. Luarea deciziei
Deoarece valoarea calculată nu se află între valorile critice, ipoteza nulă se respinge.

Test unilateral

1. Formularea ipotezelor
Ho: B1=0; H1: B1<0.
2. Stabilirea nivelului de semnificaţie =0,05;
3. Calcularea statisticii test
b1  2 ,1576
t= s = 0 ,1203  17.94 ;
b 1

4. Determinarea valorilor critice  t  ;( n  2 ) gl (test bilateral)


-t;(n-2)= - t0,05;8= -1,86
5. Luarea deciziei
Deoarece valoarea calculată este mai mică decât valoarea critică ipoteza nulă se
respinge.
Observaţie

7
Eroarea standard ne arată cum variază valoarea parametrului de la un eşantion la altul.

2.2.5. Coeficient de corelaţie liniară. Coeficient de determinaţie

Din cele arătate mai sus reiese că SRF determinată la punctul 2.2.2. aproximează
„rezonabil” PRF. Pentru a vedea ce înseamnă „rezonabil” va trebui să vedem cât de
puternică este această legătură şi în ce măsură variabila independentă explică
variabilitatea variabilei dependente.
 coeficientul de corelaţie - dă măsura gradului de asociere dintre
cele două variabile;
 coeficientul de determinaţie - dă măsura în care variabila
independentă influenţează (determină) variabila dependentă.

 Coeficientul de corelaţie r

n x i y i   x i  y i
r=
n x i2    x i  n y i2    y i 
2 2

Valorile acestui coeficient sunt cuprinse între -1 şi 1, iar în ceea ce priveşte interpretarea
valorilor sale avem:
 dacă r[0;0,3]  legătură directă slabă;
 dacă r(0,3;0,7]  legătură directă de intensitate medie;
 dacă r (0,7;1]  legătură directă puternică;
 dacă r[-0,3;0]  legătură inversă slabă;
 dacă r[-0,7; -0,3)  legătură inversă de intensitate medie;
 dacă r [-1; -0,7)  legătură inversă puternică.

În cazul exemplului nostru vom obţine r = - 0,9878 ceea ce indică o puternică legătură
inversă între nivelul preţului şi cel al cererii.

Este evident că aceste date sunt obţinute la nivel de eşantion. Tocmai de aceea este
necesară derularea unui test de semnificaţie pentru valoarea coeficientului de corelaţie la
nivel de populaţie .

Etapele testului sunt următoarele:

1. Formularea ipotezelor

Test bilateral Teste unilaterale


Ho: =0 Ho: =0 Ho: =0
H1: ≠0 H1: 0 H1:  0.

2. Determinarea nivelului de semnificaţie 

8
r
3. Calcularea valorii statisticii test: t= 1  r 2 ;
n2
4. Determinarea valorilor critice:  t  2 ;( n  2 ) gl , t  ;( n 2 ) gl ,  t ;( n  2 ) gl ;
5. Luarea deciziei.

 În cazul testului bilateral dacă valoarea calculată se află între valorile critice
ipoteza nulă se acceptă. În caz contrar aceasta se respinge;
 În cazul testului unilateral la dreapta dacă valoarea calculată este mai mică
decât valoarea critică, ipoteza nulă se acceptă. În caz contrar aceasta se
respinge;
 În cazul testului unilateral la stânga dacă valoarea calculată este mai mare
decât valoarea critică, ipoteza nulă se acceptă. În caz contrar aceasta se
respinge.

Observaţie
În cazul regresiei liniare simple testarea semnificaţiei coeficientului de corelaţie ρ
este echivalentă cu testarea semnificaţiei modelului regresional.

Coeficientul de determinaţie r2

Acest coeficient, aşa cum spuneam şi mai devreme, arată procentul în care variabila
independentă influenţează variabila dependentă.

În cazul exemplului nostru r2=(-0,9878)2=0,9757 ceea ce arată că preţul


influenţează cererea în proporţie de 97,57%, adică preţul explică variabilitatea cererii în
proporţie de 97,57%. Diferenţa de 2,43% reprezintă influenţa pe care o au alţi factori
asupra cererii.

2.2.6. Estimări şi predicţii

Rolul cel mai important al modelului regresional este acela că ne ajută să vedem
comportamentul variabilei dependente la modificări ale variabile independente. Acest
lucru este posibil cu ajutorul unor estimări sau predicţii ale valorilor variabilei
dependente Y pentru anumite valori ale variabilei dependente X.

Astfel putem estima nivelul mediu al variabilei dependente Y pentru anumite valori ale
variabilei independente X, E(YXi), cu ajutorul intervalelor de estimare sau putem
previziona valori individuale ale variabilei dependente Y pentru anumite valori ale
variabilei independente X cu ajutorul intervalelor de predicţie.

9
Formele celor două intervale sunt următoarele:

 Interval de estimare


 1
E(YXo)  ŷ o  t 2 ;( n 2 ) gl  ESE 

x o  x  
2

 ;


 
 
n  x i  x 2  
 
 Interval de predicţie


 1
y  ŷo  t 2 ;( n 2 ) g  ESE 1  

x o  x  
2

 ,


 
 
n  x i  x 2  
 
unde valoarea yo se determină din ecuaţia de regresie pentru x=xo.

Pe baza acestor formule deducem că cu o probabilitate de 95% cerea medie


corespunzătoare unui preţ de 15 u.m. este cuprinsă între 14,77 şi 19,83 unităţi.

2.3. Consideraţii asupra metodei celor mai mici pătrate

2.3.1. Presupuneri asupra erorii aleatoare (Modelul regresional liniar


simplu CLRM)

 Variabila explicativă X nu este corelată cu u,  u i X i  0 ;

Observaţie
Dacă X nu este o variabilă stohastică, adică valorile sale sunt numere fixate,
această presupunere este automat satisfăcută.
 Valoarea medie a lui u este 0, μu=0;
 Dispersiile lui ui sunt egale,  u  
2 2
i

Observaţie
Această proprietate poartă numele de homoscedasticitate. Dacă această
proprietate nu este îndeplinită atunci vorbim de heteroscedasticitate.

 Termenii erorii ui nu sunt autocorelaţi.

2.3.2. De ce Metoda celor mai mici pătrate?

 Estimatorii b1 şi b2 sunt funcţii liniare în variabila y;


 Estimatorii b1 şi b2 sunt nedeplasaţi adică
 b  B1 ,  b  B2 , ˆ   2 ;
1 2
2

10
 Estimatorii b1 şi b2 au cea mai mică dispersie. Acest lucru înseamnă că
dispersia lor este mai mică decât a oricăror alţi estimatori nedeplasaţi ai
parametrilor B1 şi B2.

2.4. Consideraţii finale

Recapitulăm acum etapele ce sunt de parcurs în cazul regresiei liniare simple.

1. Reprezentarea grafică a datelor de observare;


2. Determinarea modelului
3. Estimarea parametrilor. Metoda celor mai mici pătrate
4. Testarea semnificaţiei modelului regresional;
5. Coeficient de corelaţie. Coeficient de determinaţie;
6. Estimări şi predicţii

2.5. Probleme

1. Următorul tabel conţine date despre rata nominală a dobânzii şi rata inflaţiei
pentru anul 1988 în următoarele nouă ţări:

RND(%
Ţara RI(%)
)
Australia 11.9 7.7
Canada 9.4 4.0
Franţa 7.5 3.1
Germani 4.0 1.6
a
Italia 11.3 4.8
Mexic 66.3 51.0
Elveţia 2.2 2.0
Anglia 10.3 6.8
SUA 7.6 4.4
Studiaţi legătura dintre RND şi RI.
2. Cheltuielile cu consumul/persoană (PCE) şi venit disponibil/persoană (PDPI).
Anu PCE
PDPI
l
198 1321 14813
0 6
198 1324 15009
1 5
198 1327 14999
2 0

11
198 1382 15277
3 9
1441 16252
198 5
4
198 1495 16597
5 4
198 1540 16981
6 9
198 1574 17106
7 0
198 1621 17621
8 1
198 1643 17801
9 0
199 1653 17941
0 2
199 1649 17756
1
199 1652 18062
2 0
199 1680 18078
3 9
199 1715 18330
4 9
199 1740 18799
5 0
3. Dividendele plătite trimestrial în industria producătoare (Y) şi profitul net în
aceeaşi industrie (X)
Anu Y
X
l
197 19,46 58,74
4 7
197 19,96 49,135
5 8
197 22,76 64,519
6 3
197 26,58 70,366
7 5
197 28,93 81,148
8 2
197 32,49 98,698
9 1
198 36,49 92,579
0 5

12
198 40,31 101,302
1 7
198 41,25 71,028
2 9
198 41,62 85,834
3 4
198 45,10 107,648
4 2
198 45,51 87,648
5 7
198 46,04 83,121
6 4
4. Câştigurile orare(Y), productivitatea orară (X)
Anu Y
X
l
197 96,8
95,9
3
197 95,4 93,
4
197 96,0 95,7
5
197 98,8 98,3
6
197 100, 100,0
7 0
197 100, 100,8
8 9
197 99,4 99,6
9
198 96,7 99,3
0
198 95,8 100,7
1
198 97,3 100,3
2
198 98,2 103,0
3
198 97,9 105,5
4
198 98,8 107,7
5
198 101, 110,1
6 2
198 101, 111,0
7 5

13
Teoria economică spune că între câştiguri orare şi productivitatea orară există o
relaţie directă. Verificaţi această ipoteză.
5. Rata de rentabilitate a unei valori mobiliare (Y), rata de rentabilitate a pieţei (X).
Y X
67,5 19,5
19,2 8,5
- -29,3
35,2
- -26,5
42,0
63,7 61,9
19,3 45,5
3,6 9,5
20,0 14,0
40,3 35,3

Studiu

S&P 500 este un indice bursier care conține 500 de companii publice mari, majoritatea
americane. Indicele este realizat de compania Standard & Poor's, divizie a McGraw-Hill.
Se pune întrebarea dacă Indicele preţurilor de consum (CPI) influenţează acest indice.

Anu CPI
S&P
l
197 65,2 96,02
8
197 72 103,01
9
198 82,4 118,78
0
198 90,9 128,05
1
198 96,5 119,71
2
198 99,6 160,41
3
198 103, 160,46
4 9
198 107, 186,84
5 9
198 109, 236,34
6 6
198 113, 286,83

14
7 6
198 118, 265,79
8 3
198 124 322,84
9
199 130, 334,59
0 7
199 136, 376,18
1 2
199 144, 451,41
2 5
199 148, 460,33
3 2
199 152, 541,64
4 4
199 156, 670,83
5 9

15

S-ar putea să vă placă și