Sunteți pe pagina 1din 12

Regresia liniar

Definiie, specificare, identificare


Legturile care exist ntre dou variabile
statistice pot fi studiate folosind dou tehnici:
regresia i corelaia.
Corelaia va arta ct de puternic este
legtura, dependena dintre variabile
Regresia reflecta forma legaturii si ajuta n
explicarea i previzionarea unui factor pe baza
valorii altuia (altora)

Norul de puncte

Procesul de regresie presupune doi pasi. Primul se refera la determinarea


ecuatiei de regresie, iar cel de-al doilea consta n utilizarea acestei ecuatii
n predictie.
Determinarea ecuatiei de regresie are loc n baza irului de date din trecut.
Plasate n sistemul de coordonate XOY, ele reprezint norul de puncte
4

Factorul dependent Y

3.5
3
2.5
2
1.5
1
0.5
0
0.5

1.5

2.5

Factorul independent X

3.5

4
3

Ecuaia de regresie
n funcie de forma amplasrii punctelor n cadrul norului de
puncte, regresia poate fi liniar (aproape de linie dreapt) sau
neliniar (curbilinie).
Forma general prin care se exprima o ecuatie de regresie
liniar este: y= a +bx
n calitate de exemple de ecuaii neliniare pot servi
y=a+bex exponential
y= a+xb putere (parabolic .a.)
y=a+b/x - hiperbolic
y=a+bln(x) logaritmic

Exermple de grafice: liniar i neliniare


Y

1000

a be x

1
a b
x
800

600

a bx
400

200

a b ln x
0
-1

0. 003

0. 008

0. 013

0. 018

0. 023

0. 028

0. 033

0. 038

0. 043

0.048

0. 053

0. 058

0. 063

0. 068

-200

-400

Ecuaia liniar: semnificaia


parametrilor a i b
Parametrul a exprim valoarea lui y cnd x=0, deci este intersecia
dreptei cu axa OY i poart denumirea de intercepie.
Parametrul b este numit coeficient de regresie sau pant i arat
cu ct se modific y cnd variabila x se modific cu o unitate.
y

y a bx
b 0

y a bx
b0

a
O

Panta egala cu zero

x O

x
Panta pozitiva

y a bx
b0

x
Panta negativa

Determinarea parametrilor a i b
1-a metod (nlocuirea direct n formul):
b

xy n x y
x nx

a Y bX

2-a metod (nlocuirea i rezolvarea sistemului


de ecuaii):
na b X Y

a X b X 2 XY

Ca rezultat se elaboreaz modelul


de regresie:
n
n

yi a bxi , astfel c i y i
i 1

i 1

Analiza regresional: exemplu


Sasemodelezelegaturadintrevolumulcheltuielilor
cupublicitateaivolumulvanzarilor,utilizand
informatiileextrasedepeunesantionde15
intreprinderi asemntoaredupprofilulde
activitateidimensiuni.
ntreprinderea
Cheltuieli
promovare
(mii lei) xi
Volumul
vnzrilor
(mii lei) yi

10

11

12

13

14

15

20.0 14.8 20.5 12.5 18.0 14.3 24.9 16.5 24.3 20.2 22.0 19.0 12.3 14.0 16.7

2190 1900 1990 1210 1500 1980 3340 1880 3100 2130 2880 3120 1860 1730 1740
8

Norul de puncte
4000

Vnzri

3500
3000
2500
2000
1500
1000
500
0
0,0

5,0

10,0

15,0

20,0

25,0

30,0

Cheltuieli publicitare

Amplasarea punctelor poate fi examinat ca liniar


9

Exemplu: Tabelul 1(calcule)


Nr.

x2

y2

x x
i

x x

xy

12,3

1860

151,29

3459600

-5,7

32,49

22878

1449

12,5

1210

156,25

1464100

-5,5

30,25

15125

1474

14

1730

196

2992900

-4

16

24220

1664

14,3

1980

204,49

3920400

-3,7

13,69

28314

1702

14,8

1900

219,04

3610000

-3,2

10,24

28120

1765

16,5

1880

272,25

3534400

-1,5

2,25

31020

1980

16,7

1740

278,89

3027600

-1,3

1,69

29058

2005

18

1500

324

2250000

27000

2170

19

3120

361

9734400

59280

2296

10

20

2190

400

4796100

43800

2423

11

20,2

2130

408,04

4536900

2,2

4,84

43026

2448

12

20,5

1990

420,25

3960100

2,5

6,25

40795

2486

13

22

2880

484

8294400

16

63360

2676

14

24,3

3100

590,49

9610000

6,3

39,69

75330

2967

15

24,9

3340

620,01

11155600

6,9

47,61

83166

3043

Total

270

32550

5086

76346500

226

614492

32549

Exemplu: Tabelul 2(calcule)


Nr.

yi y

yi y2

y y
i

y y

yi y

yi y2

12,3

1860

-310

96100

-721,2

520086,2

411,17

169058,3

12,5

1210

-960

921600

-695,9

484221,1

-264,14

69767,3

14

1730

-440

193600

-506,1

256137,2

66,1

4369,21

14,3

1980

-190

36100

-468,2

219164,4

278,15

77365,75

14,8

1900

-270

72900

-404,9

163935,9

134,89

18195,85

16,5

1880

-290

84100

-189,8

36031,6

-100,18

10035,03

16,7

1740

-430

184900

-164,5

27066,8

-265,48

70478,04

18

1500

-670

448900

-0,1

0,0

-669,94

448819,6

19

3120

950

902500

126,5

15989,6

823,55

678234,6

10

20

2190

20

400

253,0

63988,8

-232,96

54270,36

11

20,2

2130

-40

1600

278,3

77428,6

-318,26

101290,7

12

20,5

1990

-180

32400

316,2

99995,1

-496,22

246229,33

13

22

2880

710

504100

506,0

256015,8

204,02

41624,16

14

24,3

3100

930

864900

797,0

635129,3

133,05

17701,5

15

24,9

3340

1170

1368900

872,9

761884,6

297,14

88292,77

Total

270

32550

5713000

-0,9

3617075,0

0,9

2095733

Determinarea parametrilor a i b
1-a metod (nlocuirea direct n formul):
b

614492 15 18 2170
28592 / 226 126,5
5086 15 182

a Y bX 2170 18 126,5 107

Modelul de regresie este urmtorul:

yi 107 126,5xi

Testarea parametrului
Panta msoar schimbarea variabilei rezultative
care rezult n urma modificrii cu o unitate a
variabilei cauzale. Dac = 0, nseamn
c linia

de regresie este orizontal, adic Y Y


Vom testa dac panta () este diferit de zero.
Ipotezele sunt:
H0 : = 0 (b = = 0),
H1 : 0.
Dac volumul eantionului este mare, vom utiliza
testul z:
b b0
zcalc

sb
sb ,

(y y) /(nk 1)
2

unde

sb

(x x)

i1

este

abaterea standard a estimatorului b.

Testarea parametrului (continuare)


Numaratorul reprezinta estimatorul dispersiei reziduurilor Se.
Cea mai mic valoare a lui Se este zero, care apare atunci
n
2
(
y

y
) 0 , adic punctele observate se situeaz

cnd
i1

exact pe linia de regresie. Dac s e este mic, ajustarea


este foarte bun, iar modelul de regresie poate fi utilizat ca
un instrument efectiv de analiz i previzionare.
2095733 /( 15 1 1)
Sb
26 , 7
226

t calc 126,5/26,7= 4,736

Testarea parametrului b-continuare

Pentru un prag de semnificaie de 5%, valoarea


teoretic a testului este t/2;13 = 2,16 . Deoarece
t calc >t/2;13
vom concluziona c este foarte
improbabil ca estimatorul b s provin dintr-o
populaie cu =0 ( adic este semnificativ diferit
de zero).
Intervalul de ncredere pentru parametrul ,
coeficientul de regresie din colectivitatea general,
este:
b t / 2,n2 sb b t / 2,n2 sb ,
126,5 2,16 26,7 126,5 2,16 26,7 ,
adic 68,81 184,21

Testarea parametrului a
Pe baza datelor din eantion se obine, de asemenea, o
estimaie a parametrului .
Eroarea standard a coeficientului de intercepie este:
n

s a se

x
i 1

2
i

n ( xi x ) 2
i 1

Ipotezele sunt:
H0 : = 0,
H1 : 0
Statistica t este:

tcalc

a0
sa

Testarea parametrului a
n

sa se

x
i 1

2
i

n ( xi x ) 2
i 1

Statistica t este:

t calc

401,5

5086
491,8
15 226

a a 107 0

0,218
.
sa
491,8

Pentru un prag de semnificaie de 5%, valoarea teoretic a testului


este t/2;13 = 2,16 . Deoarece t calc <t/2;13 vom concluziona c este
foarte probabil ca estimatorul a s provin dintr-o populaie cu =0
( adic nu este semnificativ diferit de zero).
Intervalul de ncredere pentru parametrul este dat de:

at/ 2,n2 sa at/ 2,n2 sa ,

-1169,69 955,22.

Testarea validitii modelului de regresie


folosind metoda analizei varianei (ANOVA)

n aplicarea metodei regresiei, variabilei


dependente Y i sunt asociate dou medii: media
total ( y ) i media condiionat sau teoretic:

( yi a bxi ). Pe baza acestor dou medii diferite,


variaia (abaterea) total ( yi y ) poate fi mprit

y
n abaterea neexplicat de model ( i i ) i

y
abaterea explicat ( i y), astfel:

yi y (yi yi ) (yi y) .

Prin ridicarea la ptrat a fiecrei abateri i nsumarea


pentru toate observaiile, obinem:
n
2 n
2
(
y

y
)

(
y

y
i
i i ) ( yi y ) 2
n

i 1

i 1

i 1

Vom nota:
n

(y
i 1

y) 2 2y

abaterilor totale;
n

( y i y ) 2 2e =
i 1

variana

total,

suma

variana

neexplicat

ptratelor

(rezidual),

suma ptratelor erorilor;


n

(y
i 1

y ) 2 2y / x = variana explicat, suma ptratelor

abaterilor datorate regresiei.


Variana total este, aadar egal cu variana explicat
de model plus variana neexplicat (rezidual):

2y 2y / x 2e .

Pentru calculul statisticii F (testul F) utilizat pentru


testarea calitii ajustrii folosim tabelul ANOVA:
Tabelul 4.3

Surs
variaiei

Suma ptratelor
(SS-Sum of
Squares)

Datorat
regresiei

n
2
2y/ x yi y
i1

Rezidual

2y

nk1

n1

yi y
i 1

2e yi yi
i 1

Total

Grade de
libertate
(df- degree of
freedom)

Media
ptratelor
(MS- Mean of
Squares)

2
y/ x

s e2

2y / x
k

Testul
Fisher
(testul F)

Fcalc

s 2y / x
s e2

2e
n k 1

s y2

2y
n 1

unde k reprezint numrul variabilelor independente


luate n consideraie (pentru regresia liniar simpl,
k=1).

10

Pentru testarea validitii modelului se formuleaz cele


dou ipoteze:
H0: model nevalid statistic, cu alternativa
H1: model valid statistic
Statistica utilizat pentru a decide care dintre ipoteze se
accept este:

F calc

2
y / x
2
e

Se compar valoarea calculat a testului F cu


valoarea teoretic pentru un prag de semnificaie i k,
respectiv (n-k-1) grade de libertate, preluat din tabelul
repatiiei Fisher: F ;k ;n k 1 .
Dac Fcalc> F;k;nk1 se respinge H0, adic se
concluzioneaz c modelul este valid.

2y
2
s

y
Estimatorul dispersiei variabilei Y este:
n 1 .

Estimatorul dispersiei reziduurilor se determin ca:


n

se2

(y y)

i1
n k 1 n k 1 ,
2
e

unde k reprezint numrul variabilelor


independente considerate, iar (n-k-1) reprezint
numrul gradelor de libertate. n cazul regresiei
simple liniare, k=1 i (n-k-1)=2.

11

Exemplu: Vom valida modelul de regresie determinat n


exemplul de regresie liniar:
Surs
variaiei
Datorat
regresiei
Rezidual

Total

Suma
ptratelor

Grade de
libertate

Media
ptratelor

2y / x =3617075

k=1

s y2 / x =3617268

2e =2095732
2y =5713000

n k 1=152=13

s e2 =161210,2

Testul Fisher
(testul F)

F calc

3617075
=
161210

= 22,44

n 1=15-1=
14

Pentru testarea validitii modelului se formuleaz cele dou


ipoteze:
H0: model nevalid statistic, cu alternativa
H1: model valid statistic
Valoarea teoretic pentru un prag de semnificaie = 0,05 i 1,
respectiv 13 grade de libertate, preluat din tabelul repartiiei
Fisher este

F
;k;n k 1=4,67.

ntruct Fcalc>

F
; k ; n k 1

se respinge H0, adic se concluzioneaz c modelul este valid.

12

S-ar putea să vă placă și