Sunteți pe pagina 1din 37

STATISTIC MANAGERIAL N

TURISM
Prof.univ.dr. Simona Ghi
Modelul clasic de regresie
Curs 13
CE ESTE REGRESIA?
Regresia este o metod statistic pentru studiul relaiei ntre o
variabil dependent i una sau mai multe variabile independente

Cauze
Funcia
Efect
Variabile
independente
f
Variabila
dependent
f(x1,x2,...,xn)=Y
CND UTILIZM REGRESIA?

Pentru a determina o relaie cauzal
Pentru a testa o relaie cauzal
Pentru a previziona o variabil dependent n funcie de
una sau mai multe variabile independente
Pentru a explica efectul n funcie de cauze

Modelul unifactorial de regresie
Este o relaie matematic construit pe baza teoriei
economice, care presupune c fenomenul economic Y
(fenomenul efect) este rezultatul aciunii a dou categorii de
factori:
prima, constituit dintr-un singur factor principal, esenial,
determinant X,
a doua - format din toi ceilali factori considerai neeseniali, cu
aciune ntmpltoare (specificai prin variabila rezidual ) sau
constant, invariabil, asupra lui Y (i deci nu au sens a fi specificai
n model).

y =f(x) +
MODELUL UNIFACTORIAL
- definiie, specificare, identificare
Keynes: C=f(x)
Suma cheltuit pentru consum depinde de:
mrimea venitului pe de o parte
alte obiective n funcie de circumstane (de exemplu investiiile)
alte nevoi subiective
Legea psihologic fundamental: o persoan este dispus de regul
i n medie s i creasc consumul pe msura creterii venitului dar
nu n aceeai msur
Presupunerea cea mai simpl: C=o+|X, 0<|<1 este o relaie
determinist neadecvat.
n model trebuie inclus i factorul aleator:
C=f(X,c)
Modelul cel mai simplu:
C=o+|X+c
MODELUL UNIFACTORIAL
- definiie, specificare, identificare
MODELUL UNIFACTORIAL
- definiie, specificare, identificare
MODELUL UNIFACTORIAL
- definiie, specificare, identificare
MODELUL UNIFACTORIAL
- definiie, specificare, identificare
y=a+bx
y=a+bz, z=e
x
y=a+br, r=1/x
y=a+bq, q=ln(x)

Sau
y=x
|
ln(y)=o+|ln(x)
Forma general:
f(y
i
)= o+|g(x
i
)+c
i
Contra exemplu:

nu poate fi transformat n
model liniar.
-400
-200
0
200
400
600
800
1000
-1 0. 003 0. 008 0. 013 0. 018 0. 023 0. 028 0. 033 0. 038 0. 043 0. 048 0. 053 0. 058 0. 063 0. 068
X
Y
|
.
|

\
|
+
x
b a
1
x
be a +
bx a +
( ) x b a ln +
Modele ce pot fi linearizate
x
y
+
+ =
|
o
1
MODELUL UNIFACTORIAL LINIAR
din colectivitatea general i din
eantion
Modelul probabilistic la nivelul colectivitii generale:


unde
(xi,yi) reprezint valorile numerice ale variabilelor cauz i efect
nregistrate la nivelul unitii statistice i
, = parametri constani
= punctul de intersecie al dreptei de regresie cu axa Oy;
= panta dreptei, se mai numete i coeficient de regresie i arat
cu cte uniti de msur se modific Y dac X se modific cu o
unitate de msur;
i = componenta rezidual (eroare aleatoare) pentru unitatea
statistic i.
i i i
x y c | o + + =
MODELUL UNIFACTORIAL LINIAR
din colectivitatea general i din
eantion
Valoarea real y
i
a caracteristicii Y din modelul
probabilistic cuprinde:
- componenta teoretic, determinist ( ), adic partea
din valoarea real yi care se poate determina pe baza
modelului pentru o anumit valoare xi:

- componenta aleatoare (rezidual), numit i eroarea
aleatoare, (i), reprezentnd acea parte din valoarea real
a lui Y care nu se poate cuantifica.

i
y
i i
x y + = | o

i i i
y y c + =
MODELUL UNIFACTORIAL LINIAR
din colectivitatea general i din
eantion
Dac datele disponibile provin dintr-un eantion, avem n perechi
de observaii reale: (x
1
,y
1
), (x
2
, y
2
), ... , (x
n
, y
n
), pe baza crora se
vor estima parametrii ecuaiei, i .
Modelul de regresie n eantion va fi:


unde:
a = estimatorul parametrului din colectiv. general;
b = estimatorul parametrului din colectiv. general;
e
i
= valoarea rezidual pt. unitatea i n eantion.

i i i
e x b a y + + =
i i
x b a y + =
i i i
y y e =
MODELUL UNIFACTORIAL LINIAR
din colectivitatea general i din
eantion
Estimarea parametrilor modelului
unifactorial liniar
Estimarea parametrilor modelului se poate face prin urmtoarele
metode:
Metoda punctelor empirice
Metoda punctelor medii
Metoda celor mai mici ptrate
Metoda celor mai mici ptrate generalizat
Metoda verosimilitii maxime cu informaie limitat sau complet
Metoda celor mai mici ptrate presupune maximizarea
similitudinii, a gradului de asemnare a valorilor teoretice cu
valorile reale, deci minimizarea erorilor. Cum erorile se pot
produce intr-un sens sau n altul fa de valorile reale, ea
presupune minimizarea sumei ptratelor reziduurilor:

1 1
y y

2 2
y y

3 3
y y

x
1
x
2
x
3
X
Y
0
Estimarea parametrilor
modelului unifactorial liniar
Erorile pot fi pozitive sau negative, dupa cum
punctele sunt situate deasupra sau dedesubtul
dreptei de regresie
Estimarea parametrilor modelului
unifactorial liniar

Condiiile de ordin 1 de minimizare a funciei sunt:



( )
2
2
2


=
A
A
=
i i
i i i i i
x x n
y x x x y
a
a
( ) ( )

= = = minim
2 2
2
i i i i i
x b a y y y e S

= +
= +


i i i i
i i
y x x b x a
y x b na
2
( )
2
2


=
A
A
=
i i
i i i i
x x n
y x y x n
b
b


= A
2
i i i
i i
x y x
x y
a


= A
i i i
i
y x x
y n
b


= A
2
i i
i
x x
x n
Estimarea parametrilor modelului
unifactorial liniar
Linii de regresie cu a) pant pozitiv b) pant negativ c) pant egal cu
zero
Verificarea validitii modelului
unifactorial liniar
Ipotezele testate:
H0: Modelul de regresie nu este valid.
H1: Modelul de regresie este valid.
Testul statistic F (Fisher):


Unde:
MSR este dispersia corectat de regresie
MSE este dispersia corectat rezidual



Iar SSR este variana de regresie
SSE este varianta rezidual.
SST este variana total



k
SSR
MSR=
MSE
MSR
F =
1
=
k n
SSE
MSE
SSE SSR SST + =
K este numrul variabilelor cauzale
( k = 1 )
Verificarea validitii modelului
unifactorial liniar
Se compar valoarea calculat a testului cu valoarea critic F
critic

Regula de decizie:

Dac F
calc
F
critic
, atunci se accept H0 i deci modelul nu este
semnificativ statistic;
Dac F
calc
> F
critic,
atunci se respinge H0, se accept H1, deci
modelul este semnificativ statistic (valid).

Rezultatele obinute n testarea validitii modelului de regresie se
trec ntr-un tabel de forma:
Verificarea validitii modelului
unifactorial liniar
Surs variaiei Grade de libertate
(Df- degree of
freedom)
Suma ptratelor
(SS-Sum of Squares)
Media ptratelor
(MS- Mean of Squares)
Testul Fisher
(testul F)
Datorat
regresiei
(Regression)

k
SSR

k
SSR
MSR =

MSE
MSR
Fcalc =
Rezidual
(Residual)
n k 1
SSE

1
=
k n
SSE
MSE

Total
(Total)
n 1
SST

MST
n
SST
s
y
=

=
1
2


Msurarea intensitii legturii
Coeficientul de determinaie:

Coeficientul de determinaie reprezint proporia din variaia total a
lui Y care este explicat de linia de regresie (de influenta lui X).
Raportul de determinaie:


Raportul de determinatie ia valori in intervalul [0,1].
Daca R1 legatura dintre X si Y este puternica.
Daca R 0 legatura dintre X si Y este slaba
In cazul legaturilor liniare,

2
R R =
SST
SSE
SST
SSR
R = = 1
2
xy
r R =
Testarea semnificaiei parametrului
(panta dreptei)
Ipotezele statistice pestru testul bilateral:
H0: = 0 ( nu este semnificativ statistic)
H1: 0 ( este semnificativ statistic)
Testul t:



Reg. critic: dac sau

se respinge H0, iar parametrul este semnificativ statistic.

( )
b b b
calc
s
b
s
b
s
b b
t =

=
0
critic calc
t t <
critic calc
t t >
Intervalul de ncredere pentru :
b critic b critic
s t b s t b + s s |
Testarea semnificaiei parametrului

Ipotezele statistice pestru testul bilateral:
H0: = 0 ( nu este semnificativ statistic)
H1: 0 ( este semnificativ statistic)
Testul t:


Reg. Critic: dac sau
se respinge H0 i deci este semnificativ statistic.
Intervalul de incredere pentru parametrul este:
critic calc
t t <
( )
a a a
calc
s
a
s
a
s
a a
t =

=
0
critic calc
t t >
a critic a critic
s t a s t a + s s o
Exemplu:
Pentru prezentarea noii sale oferte turistice, o agenie de
turism lanseaz un spot publicitar difuzat pe mai multe canale TV.
Dup o perioad managerul ageniei dorete s studieze dac
numrul de difuzri al spotului publicitar a influenat variaia
profitului obinut. n acest scop au fost nregistrate: numrul de
difuzri ale spotului publicitar i profitul ageniei obinut din
vnzrile de pachete turistice, pentru 14 sptmni consecutive:

Sptmna Nr. difuzri de
spoturi publicitare
Profit din vnzri
(u.m.)
1 7 22
2 5 12
3 1 8
4 8 20
5 10 40
6 2 10
7 6 15
8 7 26
9 9 33
10 3 10
11 12 30
12 8 15
13 4 20
14 11 38

Corelograma (Scatter diagram)
y = 2,7049x + 3,3891
R
2
= 0,7251
0
5
10
15
20
25
30
35
40
45
0 4 8 12 16
Nr. difuzari
P
r
o
f
i
t

(
u
.
m
.
)
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.851530955
R Square 0.725104968
Adjusted R Square 0.702197049
Standard Error 5.793531795
Observations 14
ANOVA
df SS MS F Significance F
Regression 1 1062.434 1062.434 31.65303 0.000111
Residual 12 402.7801 33.56501
Total 13 1465.214
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 3.389080177 3.549253 0.954871 0.358483 -4.34408 11.12224
Nr.difuzari 2.704869651 0.480772 5.626102 0.000111 1.657359 3.752381
SUMMARY OUTPUT

Regression Statistics
Multiple R (R) 0,8515
R Square (R
2
) 0,7251
Adjusted R Square 0,7022
Standard Error (s
e
) 5,7935
Observations (n) 14

Interpretri:
R : legtura dintre X i Y este puternic.
R
2
: 72,51% din variaia lui Y este determinat de
influena lui X (este explicat de model)

Exemplu rezolvare n EXCEL
ANOVA
df SS MS F
Signifi-
cance F
Regression k = 1 SSR = 1062,4342 MSR = 1062,4342
F
calc
=
31,6530
minim
o
=
0,00011
Residual n-k-1 = 12 SSE = 402,7801 MSE = 33,5650
Total n-1 = 13 SST = 1465,2143

Interpretri:
Modelul de regresie este semnificativ statistic (valid) (adic se accept
H1) pentru o probabilitate de cel mult 100-0,011=99,989%>95% (100-
Significance F %)

Grade de libertate
(Degrees of Freedom)
Varian
(Sum-of-Squares)
Dispersie corectat
(Mean-of-Squares)
Valoarea calculata
a testului F
Exemplu rezolvare n EXCEL
Coefficients
Standard
Error t Stat P-value
Lower
95%
Upper
95%
Intercept a = 3,3891
s
a
=
3,5493
=
o
calc
t
0,9549
0,3585 -4,3441 11,1222
Nr.spoturi
publicitare b =2,7049
s
b

=0,4808
=
|
calc
t
5,6261
0,0001 1,6574 3,7524

Interpretri:
- Parametrul nu este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susine c este semnificativ) este de cel mult 100-35,85=64,15%<95%.
1222 , 11 3441 , 4 s s o

- Parametrul este semnificativ, deoarece probabilitatea cu care se poate accepta H1
(care susine c este semnificativ) este de cel mult 100-0,01=99,91%>95%
7524 , 3 6574 , 1 s s |

Exemplu rezolvare n EXCEL
Exemplu
rezolvare
n SPSS
Exemplu rezolvare n SPSS

S-ar putea să vă placă și