Sunteți pe pagina 1din 50

Modelul clasic de regresie

(Partea I)

MODELUL UNIFACTORIAL
- definiie, specificare, identificare

Definiie: o relaie matematic construit pe baza teoriei economice, care


presupune c fenomenul economic Y (fenomenul efect) este rezultatul
aciunii a dou categorii de factori:

Specificarea modelului unifactorial const n precizarea variabilei


endogene Y i a celei exogene X, pe baza teoriei economice; ca orice
ipotez teoretic, ea poate fi adevrat sau fals.

prima, constituit dintr-un singur factor principal, esenial, determinant X,


a doua - format din toi ceilali factori considerai neeseniali, cu aciune
ntmpltoare (specificai prin variabila rezidual ) sau constant,
invariabil, asupra lui Y (i deci nu au sens a fi specificai n model).

y = f(x) +

Identificarea modelului const n alegerea unei funcii (sau a unui grup


de funcii) matematice, cu ajutorul creia se urmrete s se descrie
valorile variabilei endogene, doar n funcie de variaia variabilei exogene
X. Identificarea modelului se poate face prin: procedeul grafic;
procedeul conservrii ariilor; procedeul calculelor algebrice.

MODELUL UNIFACTORIAL
- definiie, specificare, identificare

Keynes: C=f(x)
Suma cheltuit pentru consum depinde de:

mrimea venitului pe de o parte


alte obiective n funcie de circumstane (de exemplu investiiile)
alte nevoi subiective

Legea psihologic fundamental: o persoan este dispus de regul

i n medie s i creasc consumul pe msura creterii venitului dar


nu n aceeai msur
Presupunerea cea mai simpl: C=+X,
determinist neadecvat.
n model trebuie inclus i factorul aleator:
C=f(X,)
Modelul cel mai simplu:
C=+X+

0<<1 este o relaie

MODELUL UNIFACTORIAL
- definiie, specificare, identificare

MODELUL UNIFACTORIAL
- definiie, specificare, identificare

MODELUL UNIFACTORIAL
- definiie, specificare, identificare

MODELUL UNIFACTORIAL
- definiie, specificare, identificare

y=a+bx
y=a+bz, z=ex
y=a+br, r=1/x
y=a+bq, q=ln(x)

1000

1
a b
x

a be

800

600

a bx

400

Sau

y=x ln(y)=+ln(x)
Forma general:
f(yi)= +g(xi)+i
Contra exemplu: y 1

200

a b ln x
0
-1

0.003

0.008 0.013 0.018

0.023 0.028

0.033 0.038

0.043 0.048 0.053

-200

-400

nu poate fi transformat n
model liniar.
Modele ce pot fi linearizate

0.058 0.063 0.068

MODELUL UNIFACTORIAL LINIAR


din colectivitatea general i din
eantion

Modelul probabilistic la nivelul colectivitii generale:

y i xi i

unde
(xi,yi) reprezint valorile numerice ale variabilelor cauz i efect
nregistrate la nivelul unitii statistice i;
, = parametri constani
= punctul de intersecie al dreptei de regresie cu axa Oy;
= panta dreptei, se mai numete i coeficient de regresie i arat
cu cte uniti de msur se modific Y dac X se modific cu o
unitate de msur;
i = componenta rezidual (eroare aleatoare) pentru unitatea
statistic i.

MODELUL UNIFACTORIAL LINIAR


din colectivitatea general i din
eantion

Valoarea real yi a caracteristicii Y din modelul


probabilistic cuprinde:
- componenta teoretic, determinist ( y i ), adic partea
din valoarea real yi care se poate determina pe baza
modelului pentru o anumit valoare xi:
y i xi
- componenta aleatoare (rezidual), numit i eroarea
aleatoare, (i), reprezentnd acea parte din valoarea real
a lui Y care nu se poate cuantifica.

yi y i i

MODELUL UNIFACTORIAL LINIAR


din colectivitatea general i din
eantion

Dac datele disponibile provin dintr-un eantion, avem n perechi


de observaii reale: (x1,y1), (x2, y2), ... , (xn, yn), pe baza crora se
vor estima parametrii ecuaiei, i .
Modelul de regresie n eantion va fi:
y i a b x i ei

y i a b xi

unde:

a = estimatorul parametrului din colectiv. general;


b = estimatorul parametrului din colectiv. general;
ei = valoarea rezidual pt. unitatea i n eantion.

ei y i y i

MODELUL UNIFACTORIAL LINIAR


din colectivitatea general i din
eantion

Estimarea parametrilor modelului


unifactorial liniar

Estimarea parametrilor modelului se poate face prin urmtoarele


metode:

Metoda punctelor empirice


Metoda punctelor medii
Metoda celor mai mici ptrate
Metoda celor mai mici ptrate generalizat
Metoda verosimilitii maxime cu informaie limitat sau complet

Metoda celor mai mici ptrate presupune maximizarea


similitudinii, a gradului de asemnare a valorilor teoretice cu
valorile reale, deci minimizarea erorilor. Cum erorile se pot
produce intr-un sens sau n altul fa de valorile reale, ea
presupune minimizarea sumei ptratelor reziduurilor:

Estimarea parametrilor
modelului unifactorial liniar
Y

Erorile pot fi pozitive sau negative, dupa cum


punctele sunt situate deasupra sau dedesubtul
dreptei de regresie

y1 y1

y 3 y 3

y 2 y 2

0
x1

x2

x3

Estimarea parametrilor modelului


unifactorial liniar
S ei2 yi y i yi a b xi minim
2

Condiiile de ordin 1 de minimizare a funciei sunt:

S
0

2 y i a b xi 1 0
y i na b xi 0
a

2
y

0
x
y

a
x

b
x
0

i
i
i
i
i
i
i

na b xi y i

2
a xi b xi xi y i

Estimarea parametrilor modelului


unifactorial liniar
Aplicnd metoda determinanilor, se obine:
y
x

a
x y x
i

xi
a
a

n
b
xi

i
2
i

x
x

i
2
i

y x x x y
n x x
i

2
i

2
i

b n xi yi xi yi
b

n xi2 xi

y
x y
i

Estimarea parametrilor modelului


unifactorial liniar

Rmne de verificat dac este verificat condiia de ordin 2, adic soluia gsit este un
punct de minim. Matricea derivatelor pariale de ordin doi trebuie s fie pozitiv
definit:

2 (S )
2 2
2 a
(S )
ba

2 ( S ) 2n

ab
2 ( S ) 2 x i

2 b 2 i

2 x i

i
2 xi2

2 n 0

2
2 xi 0
i

2
2
2
4n xi 4( xi ) 4n ( xi x) 0
i
i
i

Deci matricea este pozitiv definita.

Estimarea parametrilor modelului


unifactorial liniar

b se mai poate scrie:

b n xi y i xi y i
b

2
2

n xi xi

x y x y
i

n
2
2
xi xi
n
n

Numrtorul lui b este:

xy x y

2
x
i x2
n

x y x y

covx, y xy x y

Numitorul lui b este:


s

2
x

2
i

xi

Estimarea parametrilor modelului


unifactorial liniar
covx, y
b
s x2

Deci b se mai poate scrie:

Din expresia coeficientului de corelaie:

Rezult deci c:

s x2
sx
cov x, y
rxy
b
b
sx s y
sx s y
sy

b rxy

sy
sx

Estimarea parametrilor modelului


unifactorial liniar

Linii de regresie cu a) pant pozitiv b) pant negativ c) pant egal cu


zero

Estimarea parametrilor modelului


unifactorial liniar

Sistemul de ecuaii normale are urmtoarele proprieti:

Variabila aleatoare are media 0

Principiul conservrii informaiilor

y i 0 ei 0 ei 0

y i 0 y i yi

Dreapta de regresie trece prin punctul

a b x y

M x, y

Ipotezele modelului unifactorial de


regresie liniar
Pentru obinerea unor estimatori de calitate, se formuleaz urmtoarele presupuneri
(ipoteze):
1.

Valorile xi (fixate sau aleatoare) sunt statistic independente de variabila aleatoare


i .
i xi x
i xi x
Dac se accept c

cov , x

variabilele i x sunt independente.

2.

Variabilele aleatoare i sunt statistic independente una de alta, adic

cov i , j 0

i j

(non-autocorelarea reziduurilor).

Dac cov(i, j) 0, i j spunem c erorile sunt autocorelate.

Ipotezele modelului unifactorial de


regresie liniar
3.

Valorile variabilei reziduale i urmeaz o distribuie normal,


de medie zero ( i 0, i 1, n ) i dispersie constant i
nenul, pentru toate valorile Xi:

2 0

2 const

i 1, n

(homoscedasticitatea erorilor).
Cu alte cuvinte, ntruct distribuia variabilei reziduu este
independent de valorile variabilelor explicative, nici dispersia
perturbaiei nu difer semnificativ n raport cu valorile Xi, ceea
ce indic o stabilitate relativ a legturii dintre variabila
rezultativ i variabilele factoriale.

Normalitatea erorilor

Homoscedasticitatea /
heteroscedasticitatea erorilor

Dispersia reziduurilor a) constant; b) variabil

Homoscedasticitatea erorilor

The probability density function for yt at two levels


of household income, xt. has the same variance.

Heteroscedasticitatea erorilor

The variance of yt increases as household income, xt ,


increases.

Verificarea validitii modelului


unifactorial liniar

Se realizeaza cu ajutorul Metodei analizei dispersionale (ANOVA).


Metoda analizei dispersionale (ANOVA) (analiz de varian), este
utilizat pentru a verifica gradul n care valorile reale, empirice ale unei
caracteristici se abat de la valorile teoretice, determinate n general cu
ajutorul mediilor sau al ecuaiilor de regresie.
Ea studiaz efectul variabilei/variabilelor independente asupra celei
dependente, altfel spus, msura n care variaia caracteristicii rezultative
este dependent sau nu de factorul (factorii) cauzali.
permite separarea influenei factorilor eseniali (determinani) de influena
factorilor considerai ntmpltori (aleatori) asupra caracteristicii efect.
n funcie de numrul factorilor nregistrai ce-i exercit influena asupra
caracteristicii rezultative (unul, doi sau mai muli), analiza dispersional
se poate efectua dup un model unifactorial, bifactorial sau multifactorial.

Verificarea validitii modelului


unifactorial liniar
Se poate realiza cu ajutorul analizei dispersionale
(ANOVA) i a testului Fisher (F).

y i y y i y i y i y

Unde:

y i y este abaterea total


y i y i este abaterea neexplicat de model
este abaterea explicat de model
y y

yi y yi yi yi y
n

i 1

i 1

i 1

Verificarea validitii modelului


unifactorial liniar

Abaterea valorilor individuale yi de la medie

Verificarea validitii modelului


unifactorial liniar

n care:
n

SST ( yi y ) 2

este variana total a lui Y

i 1

SSR ( y i y ) 2
i 1

SSE ( yi y i ) 2
i 1

este variana sistematic (explicat de


model)
este variana rezidual (neexplicat de
model)

SST SSR SSE

Verificarea validitii modelului


unifactorial liniar

Dispersia corectat total:

SST
s
MST
n 1
Dispersia corectat sistematic:
SSR
2
y

MSR

Dispersia corectat rezidual:


SSE
s MSE
n k 1
2
e

unde k este numrul variabilelor independente (k=1).

Verificarea validitii modelului


unifactorial liniar

Ipotezele testate:
H0: MSR MSE (influena lui X nu este diferit de cea a

factorilor aleatori)
H1: MSR MSE (influenele lui X i ale factorilor aleatori difer
semnificativ)

Testul statistic F (Fisher):

MSR y y y y
F

:
2

MSE

n k 1

Se compar valoarea calculat a testului cu valoarea critic


F,k,n-k-1

Verificarea validitii modelului


unifactorial liniar

Regula de decizie:

Dac Fcalc F,k,n-k-1, atunci se accept H0 i deci modelul nu este


semnificativ statistic;
Dac Fcalc> F,k,n-k-1, atunci se respinge H0, se accept H1, deci
modelul este semnificativ statistic (valid).
Rezultatele obinute n testarea validitii modelului de regresie se
trec ntr-un tabel de forma:

Verificarea validitii modelului


unifactorial liniar
Surs variaiei

Datorat
regresiei

Suma ptratelor
(SS-Sum of Squares)
n

SSR y i y

Grade de libertate
(df- degree of
freedom)

Media ptratelor
(MS- Mean of
Squares)

MSR

i 1

Rezidual

2
SSE yi y i

nk1

MSE

i 1

Total

SST yi y
i 1

n1

s y2

SSR
k

SSE
n k 1

SST
MST
n 1

Testul Fisher
(testul F)

Fcalc

MSR
MSE

Verificarea validitii modelului


unifactorial liniar

Doi indicatori pot fi utilizai pentru a msura calitatea ajustrii pentru


regresia statistic :

Abaterea medie ptratic (eroarea standard) a reziduurilor


(msur absolut a calitii ajustrii pe baza regresiei n eantion)
coeficientul de determinaie (indicator relativ).

Coeficientul de determinaie este:


n

SSR
SSE
R
1
1
SST
SST
2

yi yi
i 1
n

i 1
n

y y y y
i 1

y y
n

i 1

Coeficientul de determinaie reprezint proporia din variaia total a


lui Y care este explicat de linia de regresie (de influenta lui X).

Verificarea validitii modelului


unifactorial liniar

Raportul de determinatie ia valori in intervalul [0,1].


Interpretare:

2
R = 0 dac b=0, y y, deci dac ecuaia de regresie este o dreapt
orizontal. n acest caz variabila X nu are putere explicativ (X nu
influenteaza variatia lui Y).
R2 = 1 dac punctele determinate de observaiile fcute asupra
variabilelor x i y se afl toate pe o dreapt, caz n care erorile vor fi zero.
n cazul n care toate valorile lui y se afl pe o dreapt vertical, R2 nu are
nici o semnificaie i nu poate fi calculat.
R R 2 unde R este raportul de corelatie, cu valori in intervalul [0,1].
Daca R1 legatura dintre X si Y este puternica.
Daca R 0 legatura dintre X si Y este slaba.
In cazul legaturilor liniare, R rxy

Verificarea validitii modelului


unifactorial liniar

Abaterea medie ptratic a erorilor n eantion este:


n

se se2

se2

SSE
SSE

n k 1
n2

y
i 1

y i

n2

unde
este un estimator nedeplasat al dispersiei reziduurilor 2
se este util n compararea modelelor. Dac avem la dispoziie cteva
modele dintre care trebuie s alegem, cel mai potrivit a fi utilizat
este cel pentru care se este mai sczut.
se este un indicator important n determinarea intervalului de
ncredere pentru coeficientul de regresie i pentru intercepia .

Testarea semnificaiei parametrilor


modelului unifactorial liniar

Estimatorii a i b ai coeficienilor din ecuaia de regresie n


colectivitatea general au distribuii de eantionare, cu urmtoarele
proprieti:

a i b sunt estimatori nedeplasai ai parametrilor i , adic:

Distribuiile de eantionare ale estimatorilor a i b sunt normal


distribuite, cu mediile i i dispersiile:
2 i
2

s s
2
a

2
e

n x x
2
i

1
s a2 s e2
n

x2

2
( xi x )

i 1

sa

s s
2
b

s e2

2
e

sb

1
i

y
i i

n2

Testarea semnificaiei parametrului


(panta dreptei)

Ipotezele statistice pestru testul bilateral:

Dac eantionul este de volum mare:

H0: = 0
H1: 0
b b b 0

sb
sb
Regiunea critic: dac z calc z / 2 sau z calc z / 2 se respinge H0.

Testul z:

z calc

Dac eantionul este de volum mic:


b b b 0 b

sb
sb
sb

Testul t:

Reg. Critic: dac t calc t / 2,n2 sau t calc t / 2,n2 se respinge H0.

t calc

Testarea semnificaiei parametrului


(panta dreptei)

Teste unilaterale:

Test unilateral dreapta:

Test unilateral stnga:

t calc

b b b 0 b

sb
sb
sb

H0: = 0
H1: < 0

Regiunea critic:

H0: = 0
H1: > 0

Pt. test unilat. dreapta:


Pt. test unilat. stnga:

t calc t ,n2
t calc t ,n2

Intervalul de ncredere pentru :

b t / 2,n2 sb b t / 2,n2 sb

Testarea semnificaiei parametrului

Ipotezele statistice pestru testul bilateral:

H0: = 0
H1: 0

Testul t:

t calc

Reg. Critic: dac


se respinge H0.

a a a 0 a

sa
sa
sa

t calc t / 2,n2

sau

t calc t / 2,n2

Intervalul de incredere pentru parametrul este:

a t / 2 , n 2 s a a t / 2 , n 2 s a

Exemplu:
Pentru prezentarea noii sale oferte turistice, o agenie de
turism lanseaz un spot publicitar difuzat pe mai multe canale TV.
Dup o perioad managerul ageniei dorete s studieze dac
numrul de difuzri al spotului publicitar a influenat variaia
profitului obinut. n acest scop au fost nregistrate: numrul de
difuzri ale spotului publicitar i profitul ageniei obinut din
vnzrile de pachete turistice, pentru 7 sptmni consecutive:
Sptmna
1
2
3
4
5
6
7

Nr. difuzri de
spoturi publicitare
7
5
1
8
10
2
6

Profit din vnzri


(u.m.)
22
12
8
20
40
10
15

Corelograma (Scatter Diagram)


45
40

Profit (u.m)

35
y = 2,9884x + 1,4931

30
25
20
15
10
5
0
0

Nr.difuzari spoturi

10

12

Exemplu:

SUMMARY OUTPUT
Regression Statistics
Multiple R
0,879293972
R Square
0,77315789
Adjusted R
Square
0,727789468
Standard Error 5,686932715
Observations

ANOVA
df
Regression
Residual
Total

Significance F
SS
MS
F
1 551,151124 551,151 17,0418 0,00910121
5 161,706019 32,3412
6 712,857143

Standard
Coefficients
Error
t Stat P-value Lower 95% Upper 95%
Intercept
1,493055556 4,57023275 0,32669 0,75713 -10,255102 13,2412128
Nr.spoturi publicitare
2,988425926 0,7239111 4,12817 0,0091 1,1275532 4,84929865

RESIDUAL OUTPUT
Observation Predicted Profit din vanz. Residuals
1
22,41204
-0,41204
2
16,43519
-4,43519
3
4,48148
3,51852
4
25,40046
-5,40046
5
31,37731
8,62269
6
7,46991
2,53009
7
19,42361
-4,42361

S-ar putea să vă placă și