Sunteți pe pagina 1din 26

REGRESIA UNIFACTORIAL

Modelul de regresie clasic


Ipotezele modelului de regresie liniar
Estimarea parametrilor modelului de
regresie
Testarea validitii modelului de
regresie. Metoda ANOVA

7. Regresia simpl

Modelul de regresie clasic


Se umrete crearea unui model matematic, model
care s descrie legtura dintre factorul cauzal (exigen)
x i factorul de efect (de ieire, endogen) notat y

y f(x)
Se pornete de la studiul fenomenului economic ce
face obiectul analizei i identificarea relaiei cauz
efect ntre variabilele economice
Ca surs de informaii existena, direcia i forma
legturii dintre variabile poate fi corelograma sau
diagrama de mprtiere.
7. Regresia simpl

Modelul de regresie clasic


S presupunem c din analiza corelogramei s-a
ajuns la concluzia c ntre dou variabile exist o
dependen liniar simpl de forma:

y x
Aceast legtur este ns valabil numai dac n
evoluia lui y nu mai intervin alte variabile n afara lui
x. Greu de presupus aa ceva!

7. Regresia simpl

Modelul de regresie clasic


n realitate, la nivelul unitii statistice i, dependena
dintre variabile este:

yi xi i y i i
Unde i reprezint eroarea aleatoare (componenta
rezidual) pentru unitatea statistic respectiv.

yi

= componenta predictibil (determinist) + eroarea aleatoare

yi y i i

7. Regresia simpl

Modelul de regresie clasic


Fie acum un eation din populaia total, eantion de
dimensiune n:

X {xi }i 1,n si Y { yi }i 1,n


Modelul de regresie liniar n eantion este:

yi a bxi ei
Unde a i b sunt estimatorii lui

i iar

y i a bxi

7. Regresia simpl

Ipotezele modeluli de regresie liniar


Ipoteza 1 : Forma funcional

yi xi i y i i
Ipoteza 2 : Media erorilor este 0

0
Ipoteza 3 : Homoscedasticitatea: dispersia rezuduurilor
n populaie este constant pentru toate valorile xi

2 cst i 1, n
7. Regresia simpl

Ipotezele modeluli de regresie liniar


Ipoteza 4 : Non-autocorelarea erorilor (deviaiile
observaiilor de la valorile lor ateptate sunt
necorelate)

Cov( i , j ) 0 i j

Ipoteza 5 : Necorelare ntre regresor i erori

Cov ( xi , j ) 0 i si j
Ipoteza 6 : Variabila aleatoare este normal distribuit

i ~ N (0, 2 )
7. Regresia simpl

Estimarea parametrilor modelului de regresie


Modelul de regresie liniar simpl n eantion este:

yi a bxi ei
cu componenta predictibil

y i a bxi
Criteriul ales pentru determidarea parametrilor a i b
este minimizarea sumei ptratelor deviaiilor
(rezudurilor)
n

S (a, b) min e min yi y i min yi a bxi


i 1

2
i

i 1

i 1

7. Regresia simpl

Estimarea parametrilor modelului de regresie


Condiiile de ordinul I:

S
na b xi yi

i 1
i 1

S
n
n
n

0 a xi b xi2 xi yi
i 1
b
i 1
i 1
Condiiile de ordinul II: matricea derivatelor pariale de ordinul
doi trebuie s fie pozitiv definit

7. Regresia simpl

Estimarea parametrilor modelului de regresie


Exemplu:
Un analist dorete s studieze legtura dintre cheltuielile
pentru promovarea produselor i nivelul vnzrilor realizate. n
acest scop se nregistreaz date pentru 15 mrfuri:
Nr.crt

Ch. promovare

ncasri

20,0

2190

14,8

1900

...

...

...

15

16,7

1740

7. Regresia simpl

10

Estimarea parametrilor modelului de regresie


Exemplu:
Pentru 15 ageni de asigurri, angajai ai unei companii de asigurri de via, se
cunosc datele privind timpul mediu (n minute) petrecut de un agent cu un
potenial client i numrul de polie ncheiate de fiecare ntr-o sptmn.

Timp mediu
25 23 30 25 20 33 18 21 22 30 26 26 27 29 20
(min.)

Nr. polie

10 11 14 12

18

10 10 15 11 15 12 14 11

s se estimeze parametrii modelului liniar de regresie;


s se testeze validitatea modelului de regresie pentru un nivel de semnificaie = 5%;

testai semnificaia parametrilor modelului pentru un prag de semnificaie = 5%;


s se determine erorile reziduale;
msurai intensitatea legturii dintre cele dou variabile folosind att coeficientul ct
i raportul de corelaie; testai semnificaia indicatorilor utilizai pentru un nivel de
ncredere de 0,5%;
efectuai o previzionare punctual i pe interval de ncredere a numrului de polie
ncheiate de un agent care petrece n medie 24 de minute cu un potenial client.

7. Regresia simpl

11

Estimarea parametrilor modelului de regresie


Se ntocmete tabelul
Nr.
obs.

xi2

Timpul mediu
xi
(min.)

Nr. Polie

25

10

625

250

12

14

29

14

841

406

14,1968

15

20

11

400

220

9,254

375

yi

180 xi2 9639

x i yi

x y
i

y i 1,73 0,5492 x i

4645

180

a 1,73

y i 1,73 0,5492 xi

375a 9639b 4645 b 0,5492

15a 375b 180

7. Regresia simpl

12

Estimarea parametrilor modelului de regresie


Interpretare: b = + 0,5492
se numete coeficient de regresie reprezentnd panta
liniei drepte
b> 0, deci ntre timpul mediu petrecut de un agent cu
un potenial client i numrul de polie ncheiate de
fiecare agent exist o legtur direct
la creterea cu un minut a timpul mediu petrecut de un
agent cu un potenial client, numrul de polie ncheiate
se mrete cu 0,5495 (deci ntr-un minut se
completeaz o jumtate de poli)

7. Regresia simpl

13

Testarea validitii modelului de regresie folosind metoda ANOVA

ANOVA = ANALYSIS OF VARIANCE


A fost inventat n 1920 de ctre R.A. Fischer, care a
vrut s vad diferenele semnificative dintre diferitele
tipuri de plante.
Din 1970 este cea mai folosit metod statistic n studii
de psihologie.
Aplicaiile snt dintre cele mai variate: psihologie,
biologie, sociologie, economie.
7. Regresia simpl

14

Testarea validitii modelului de regresie folosind metoda ANOVA

Se bazeaz pe descompunerea variaiei totale (suma


ptratelor abaterilor totale SST ) n variaie
explicit (suma ptratelor abaterilor datorate
regresiei SSR ) i variaie rezidual, neexpicit
(suma ptratelor erorilor SSE )

y
n

i 1

y yi y i y i y SST SSE SSR


2

i 1

i 1

unde : y i a bxi

7. Regresia simpl

15

Testarea validitii modelului de regresie folosind metoda ANOVA

Testarea validitii modelului de regresie

H0: modelul nu este valid statistic (mprtierea valorilor


t nu difer semnificativ de
datorate factorului timp y
mprtierea acelorai valori datorate ntmplrii)

H1: modelul este valid statistic

Decizia: dac

Fc F ; k ; n k 1

atunci H0 se respinge
7. Regresia simpl

16

Testarea validitii modelului de regresie folosind metoda ANOVA

7. Regresia simpl

17

Testarea validitii modelului de regresie folosind metoda ANOVA

SUMMARY OUTPUT
Regression Statistics
Multiple R
0.883621
R Square
0.780786
Adjusted R
0.763923
Square
Standard Error
1.311483
Observations
15.000000
ANOVA
df
Regression
1.000000
Residual
13.000000
Total
14.000000

Intercept
X Variable 1

SS
79.640152
22.359848
102.000000

Coefficients

Standard Error

-1.731061
0.549242

2.046120
0.080716

MS
F
79.640152 46.302727
1.719988
t Stat

P-value

-0.846021 0.412843
6.804611 0.000013

Significance F
0.000013

Lower 95%
-6.151434
0.374866

7. Regresia simpl

Upper
95%
2.689313
0.723619

18

Testarea validitii modelului de regresie folosind metoda ANOVA

Sursa variaiei

Regression

SS
(Sum of Squares)
(suma ptratelor=
variana)

y i y

(variaia
datoratregresiei)

Residual
(variaia
rezidual)

2
x

i 1

k
1

i 1

n-k-1
13

SSE=22,36
n

i 1

2u
s
n k 1
2
u

1,719988
2

SST=102
SST=SSR+SSE

n-1
14

Significance F

2x
s
k

79,640152

y i y i
2
e

F
(testul F)

2
x

SSR=79,64

2y y i y
Total (variaia
total)

MS
=SS : df
(media
ptratelor
=dispersia
corectat)

df
(degree of
freedom)
(grade de
libertate)

s
2
y

2y

Testul

se2

0,000013<0,05

s y2 / x

(resping H0
model valid)

F = 46,302727

n 1

7. Regresia simpl

19

Testarea validitii modelului de regresie folosind metoda ANOVA


Table 1 ---- SUMMARY OUTPUT
Regression Statistics
n

Multiple R
Raportuldecorelatie(R)

0.883621 Ry , x

i 1
n

y
i 1

R Square
Coeficientul(gradul)dedeterminaie
Adjusted R Square
Valoareaajustatacoeficientuluide
determinaie

yi

Observations
Numrulobservaiilor(n)

i 1
n

i 1

2e / n k 1
R 1 2
y / n 1

y
y

R
2

2
y/x

2y

2e
2y

i 1
n

1.311483

0.780786

0.763923

y i

i 1

Standard Error
Abatereamedieptraticaerorilorn
eantion

se

n2
2
e

y
i 1

y i

n2

15

7. Regresia simpl

20

Testarea validitii modelului de regresie folosind metoda ANOVA


Interpretare rezultate din tabelul SUMMARY OUTPUT:

R= 0,883621 arat c ntre numrul de polie ncheiate i


timpul mediu petrecut cu un potenial client exist o
legtur puternic.
R2 =0,780786 arat c 78% din variaia numrului de
polie ncheiate este explicat de timpul mediu petrecut
de un agent cu un potenial client.
Abaterea medie ptratic a erorilor se = 1,311483. n
cazul n care acest indicator este zero nseamn c toate
punctele sunt pe dreapta de regresie.
7. Regresia simpl

21

Testarea validitii modelului de regresie folosind metoda ANOVA


Tabel 2.---ANOVA

Sursa variaiei

Regression
(variaia
datorat
regresiei)
Residual
(variaia
rezidual)
Total (variaia
total)

Interpretare rezultate din tabelul ANOVA:

df
(grade
de
libertate)

SS
(suma ptratelor=
variana)

MS =SS/df
(media
ptratelor)
(dispersia
corectat)

k
1

SSR=79,640152

MSR=
79,640152

n-k-1
13

SSE=22,359848

n-1
14

=102,000000
SST=SSR + SSE

MSE=
1,719988

Significance F
(pragul de
semnificaie)

F=
46,302727

0,000013< 0,05
(respingH0
modelvalid)

ntruct F=46,302727, iar Significance F (pragul de semnificaie) este 0,000013 (valoare mai
mic de 0,05), atunci modelul de regresie construit este valid i poate fi utilizat pentru analiza
dependenei dintre cele dou variabile.

7. Regresia simpl

22

Testarea validitii modelului de regresie folosind metoda ANOVA


Testarea semnificaiei parametrilor modelului
Ecuaia de regresie
la nivelul colectivitii generale este: y i xi i
y i a bxi ei
la nivelul eantionului este:
Testarea semnificaiei parametrului :
H0 : = 0 (adic nu este semnificativ diferit de zero, deci nu este
semnificativ statistic)
H1 : 0, (adic este semnificativ diferit de zero, deci este
semnificativ statistic)
Deoarece n = 15 30 avem eantion de volum deci vom utiliza testul t
Decizia: dac , t calc t / 2;n 2 H0 se respinge
a a a 0
a
t calculat

Determinarea lui tcalculat se face cu relaia :


sa
sa
sa
sa se

x
n x x
2
i

1,3114877

9639
2,0461271
15 264

tcalc

1,73
0,8455
2,0461271

7. Regresia simpl

23

Testarea validitii modelului de regresie folosind metoda ANOVA


Testarea semnificaiei parametrului :
H0 : 0 (panta este zero, adic nu este semnificativ diferit
de zero, deci nu este semnificativ statistic)
H1 : 0 , (panta nu este diferit de zero, adic este
semnificativ diferit de zero, deci este semnificativ statistic)
Deoarece n = 15 30 avem eantion de volum redus i pentru
testare vom utiliza testul t
Decizia: dac ,
t calc t / 2;n 2 atunci H0 se respinge
Determinarea lui tcalculat se face cu relaia :
sb

se
n

2
xi x

1,3115
264

0,0807

t calc

b b b 0 b

sb
sb
sb

tcalc

0,5492
6,8054
0,0807

i 1

7. Regresia simpl

24

Testarea validitii modelului de regresie folosind metoda ANOVA


Coefficients

Standard Error

t Stat

P-value

Lower 95%

Upper 95%

Coeficieni

Abaterea medie
patratic

tcalc

pragul de
semnificaie

Limita inf. a
intervalului
de ncredere

Limita sup. a
intervalului
de ncredere

sa

ta

0,412843 > 0,05


coeficientula
nu este
semnificativ

-6.151434

2.689313

Tabel 3

Intercept
(termenul
liber)

Timpul
mediu

a=
-1,731061

b=
0,549242

2,046120

sb

0,080716

-0,846021

tb
6,804611

0,000013 < 0,05


coeficientulb
este
semnificativ

a t / 2;n 2 s a a t / 2;n 2 s a

0.374866

0.723619

b t / 2;n 2 sb b t / 2;n 2 s b

7. Regresia simpl

25

Testarea validitii modelului de regresie folosind metoda ANOVA


Interpretarea rezultatelor din tabelul 3:
Interceptestetermenulliber,decicoeficientula este -1.731061.Termenul
liberestepunctulncarevariabilaexplicativ(factorial)este0.Deci
numruldepoliencheiate,dactimpulpetrecuteste0vafi1,731061
polie.Deoareceta= -0,846021,iarpraguldesemnificaieP-valueeste
0,412843>0,05nseamncacestcoeficientnueste semnificativ.Dealtfel
faptulclimitainferioaraintervaluluidencredere(-6,1514342,689313)
pentruacestparametruestenegativ,iarlimitasuperioarestepozitivarat
cparametruldincolectivitateageneralesteaproximativzero.
Coeficientulbeste0,549242,ceeacensemnclacretereatimpului
petrecutcuunminut,numruldepoliencheiatevacretecu0,549242.
Deoarecetb = 6,804611,iarpraguldesemnificaieP-valueeste0,000013<
0,05nseamncacestcoeficienteste semnificativ.Intervaluldencredere
pentruacestparametrueste0,3748660,723619.
7. Regresia simpl

26

S-ar putea să vă placă și