Sunteți pe pagina 1din 21

Cuprins

ELEMENTE DE ANALIZ DISPERSIONAL (ANOVA)


ANALIZA DISPERSIONAL (ANOVA)
Metoda analizei dispersionale (ANOVA) (analiz de varian)
Analiza dispersional unifactorial
Medii condiionate
Media general
Variana dintre grupe
Variana din interiorul grupelor (varian rezidual)
Variana total
dispersii corectate:
Dispersia corectat factorial (sistematic)
Dispersia corectat rezidual
Testul F (Fisher)
Modelul de analiz dispersional bifactorial
REGRESIA LINIAR UNIFACTORIAL: INFERENA STATISTIC
1.Testarea semnificaiei parametrilor modelului unifactorial liniar
Testarea semnificaiei parametrului (panta dreptei)
Testarea semnificaiei lui
Testarea semnificaiei lui
2. Coeficientul de corelaie: calcul, testarea semnificaiei
3. Estimarea valorilor variabilei dependente
4. Exemplu rezolvare n EXCEL
MODELUL CLASIC DE REGRESIE
MODELUL UNIFACTORIAL definiie, specificare, identificare
MODELUL UNIFACTORIAL LINIAR din colectivitatea general i din eantion
Estimarea parametrilor modelului unifactorial liniar
Ipotezele modelului unifactorial de regresie liniar
Verificarea validitii modelului unifactorial liniar
Abaterea medie ptratic a erorilor n eantion este:
Caracterizarea econometric a seriilor cronologice cu component sezonier
1. Trendul (componenta de lunga durata) (ytT); 15
2. Componenta sezoniera (ytS);
Componentele termenilor unei serii cronologice
3. Componenta ciclica (ytC) este mai dificil de determinat;
4. Componenta reziduala, aleatoare (ytR).
Modelul aditiv
Modelul multiplicativ
Indicii de sezonalitate
Metoda mediilor mobile
Determinarea componentei sezoniere n modelul aditiv
De aprofundat pg 17-21
1
ELEMENTE DE ANALIZ DISPERSIONAL (ANOVA)
ANALIZA DISPERSIONAL (ANOVA)
Metoda analizei dispersionale (ANOVA) (analiz de varian), este utilizat pentru a verifica gradul n
care valorile reale, empirice ale unei caracteristici se abat de la valorile teoretice, determinate n general cu
ajutorul mediilor sau al ecuaiilor de regresie.
Ea studiaz efectul variabilei/variabilelor independente asupra celei dependente, altfel spus, msura n care
variaia caracteristicii rezultative este dependent sau nu de factorul (factorii) de grupare.
are la baz metoda gruprii, prin ea separndu-se influena factorilor eseniali (determinani) de
influena factorilor considerai ntmpltori (aleatori) asupra caracteristicii efect.
n funcie de numrul factorilor nregistrai ce-i exercit influena asupra caracteristicii rezultative
(unul, doi sau mai muli), analiza dispersional se poate efectua dup un model unifactorial,
bifactorial sau multifactorial.
Pentru fiecare variant/interval de variaie a caracteristicii cauzale X, se nregistreaz o distribuie de valori ale
variabilei efect Y, distribuie pe care o putem caracteriza, de regul, prin nivelul mediu.
Dac aceste medii ale variabilei Y, pe grupe dup X sunt egale sau foarte puin diferite, atunci se
concluzioneaz c variabila independent X nu influeneaz variaia variabilei dependente Y (vezi a)
Cu ct mediile lui Y pe grupe dup X difer mai mult unele de altele, cu att X influeneaz mai mult pe Y.
Analiza dispersional unifactorial
Ipoteza nul susine egalitatea ntre mediile grupelor din colectivitatea general, alctuite dup variabila X:
Ipoteza alternativ susine c cel puin dou medii ale grupelor nu sunt egale:
Se testeaz, deci, dac diferentele intre mediile de grup nu sunt prea mari pentru a fi puse doar pe seama
ntmplrii (a factorilor aleatori), iar dac exist cel puin dou medii semnificativ diferite, nseamn c factorul
de grupare X are o influen semnificativ asupra variabilei Y.
Mediile grupelor din colectivitatea general sunt aproximate prin mediile grupelor din eantion ( , ),
Medii condiionate (medii pariale):
Media general a eantionului:
Variana dintre grupe (varian factorial, sistematic) arat influena factorului cauzal asupra variaiei lui Y:
Variana din interiorul grupelor (varian rezidual) exprim influena factorilor aleatori asupra lui Y:
2
r 2 1 0
....... : H
j i 1
: H ( ) j i
i
y
r , 1 i
i
n
1 j
ij
i
n
y
y
i

r , 1 i

r
1 i
i
r
1 i
n
1 j
ij
n
y
y
i

r
1 i
i
r
1 i
i i
n
n y

r
1 i
i
2
i 1
n ) y - y ( S

r
1 i
n
1 j
2
i ij 2
i
) y - (y S
Variana total reflect influena tuturor factorilor (sistematici X i reziduali) asupra lui Y:
Pentru a asigura comparabilitatea varianelor, ele sunt raportate la numrul gradelor de libertate, obinndu-se
Dispersii corectate:
Dispersia corectat factorial (sistematic):
Dispersia corectat rezidual:
Testul F (Fisher) este raportul ntre dispersia corectat sistematic i cea rezidual:
Presupuneri pentru aplicarea testului F:
cele r grupe din eantion sunt extrase aleator din cele r grupe ale colectivitii totale;
Fiecare grup din colectivitatea general are o distribuie normal, iar abaterile medii ptratice ale
acestora sunt egale:
Valoarea calculat a testului F se compar cu valoarea critic, corespunztoare nivelului de semnificaie i
gradelor de libertate (r-1) i (n-r): F ; r-1; n-r.
Regula de decizie este:
Dac Fcalc F ; r-1; n-r , atunci se accept H0, deci mediile de grup nu difer semnificativ unele de
altele, iar eventualele diferene ce pot apare pot fi puse pe seama ntmplrii. n acest caz, variabila Y
este independent de factorul de grupare X i analiza dispersional este punctul final al analizei.
Dac Fcalc> F ; r-1; n-r , atunci se accept H1, deci ntre mediile de grup exist o diferen
semnificativ, care nu poate fi pus pe seama aciunii factorilor aleatori. n acest caz, variabila Y
depinde semnificativ de factorul de grupare X i trebuie aplicate n continuare metodele de analiz a
legturilor dintre variabile.
3
2 1
2
r
1 i
n
1 j
ij S S ) y - (y S
i
+


1 - r
n ) y - y (
1 - r
S
s
r
1 i
i
2
i
1
2
1


r - n
) y - (y
r - n
S
s
r
1 i
n
1 j
2
i ij
2
2
2
i



2
2
2
1
s
s
F
r 2 1
...
Aplicaie:
Un productor de sucuri de mere a realizat un nou produs: concentrat lichid. Acest produs are cteva avantaje
fa de vechiul produs, printre care:
Este mai practic (uor) de utilizat;
Are o calitate cel puin la fel de bun ca i a vechiului produs;
Preul noului produs este semnificativ mai mic dect al vechiului produs.
Pentru a decide care este cea mai bun strategie de marketing, directorul acestui departament a dispus realizarea
unui studiu n 3 orae:
n oraul A, campania de publicitate s-a axat pe uurina folosirii noului produs;
n oraul B, campania de publicitate s-a axat pe calitatea net superioar a noului produs;
n oraul C, campania de publicitate s-a axat pe preul inferior al noului produs.
n toate cele 3 orae, s-au nregistrat vnzrile sptmnale, n mai multe sptmni consecutive.
Directorul de marketing ar dori s tie dac exist diferene semnificative ntre vnzrile medii sptmnale
din cele 3 orae (nivel de semnif. 5%)
Aplicaie:
Volumul mediu al vnzrilor pe fiecare strategie:
Volumul mediu al vnzrilor pe total:
Varianele:
Dispersiile corectate:
Statistica F:
Cum rezult c se respinge H0, se accept H1, deci cel puin dou medii difer semnificativ.
Aadar, pentru o probabilitate de 95%, se poate afirma c tactica de marketing aleas pentru promovare
produsului a influenat vnzrile.
4
; 3 , 2 , 1 j , i
j i , : H
: H
j i 1
3 2 1 0



62
10
620
y
1

69
8
552
y
2

58
12
696
y
3

27 , 62
30
1890
y
86 , 581 12 ) 27 , 62 58 ( 8 ) 27 , 62 69 ( 10 ) 27 , 62 62 ( n ) y - y ( S
2 2 2
r
1 i
i
2
i 1
+ +

2214 790 362 1062 ) y - (y S


r
1 i
n
1 j
2
i ij 2
i
+ +


93 , 290
1 - 3
86 , 581
1 - r
S
s
1
2
1
82
3 - 30
2214
r - n
S
s
2
2
2

55 , 3
82
93 , 290
s
s
F
2
2
2
1
calc

35 , 3 F F F
27 ; 2 ; 05 , 0 r n , 1 r , critic


critic calc
F F >
Analiza dispersional unifactorial
Formulele devin:
Modelul de analiz dispersional bifactorial
se identific doi factori de influen, iar variabilitatea caracteristicii rezultative poate s fie pus:
pe seama influenei primului factor;
pe seama influenei celui de-al doilea factor;
pe seama interaciunii celor doi factori;
pe seama ntmplrii (factorului rezidual).
Concluzii
modelele de analiz dispersional nu explic relaia dintre variabile
verific doar msura n care valorile reale ale unei caracteristici se abat de la valorile teoretice,
precum i msura n care aceste variaii sunt sau nu dependente de factorul/factorii de grupare.
metoda analizei dispersionale poate fi utilizat att naintea, ct i dup aplicarea metodelor
corelaiei i regresiei statistice.
Testul F se poate utiliza i pentru testarea validitii modelului de regresie.
n general, n analiza dispersional, nivelurile x1, x2, ..., xr sunt niveluri ale unei variabile
categoriale (numite i tratamente), dar, cum ceea ce este valabil pentru o scal inferioar (nominal) este
valabil i pentru orice alt scal superioar (ordinal, de intervale, de rapoarte), analiza se poate extinde.
5

m
1 j
ij
m
1 j
ij j
i
n
n y
y


r
1 i
i.
r
1 i
i. i
m
1 j
.j
m
1 j
.j j
n
n y
n
n y
y

r
1 i
i
2
i 1 n ) y - y ( S
ij
r
1 i
m
1 j
2
i j 2 n ) y - (y S

REGRESIA LINIAR UNIFACTORIAL: INFERENA STATISTIC


1. Testarea semnificaiei i estimarea pe interval de ncredere a parametrilor i .
2. Calculul i testarea semnificaiei coeficientului de corelaie.
3. Estimarea valorilor variabilei dependente.
4. Exemplu rezolvare i interpretare n EXCEL.
1.Testarea semnificaiei parametrilor modelului unifactorial liniar
Estimatorii a i b ai coeficienilor din ecuaia de regresie n colectivitatea general au distribuii de
eantionare, cu urmtoarele proprieti:
a i b sunt estimatori nedeplasai ai parametrilor i , adic:
Distribuiile de eantionare ale estimatorilor a i b sunt normal distribuite, cu mediile i i
dispersiile: i
Testarea semnificaiei parametrului (panta dreptei)
Ipotezele statistice pestru testul bilateral:
H0: = 0
H1: 0
Dac eantionul este de volum mare:
Testul z:
Regiunea critic: dac sau se respinge H0.
Dac eantionul este de volum mic:
Testul t:
Reg. Critic: dac sau se respinge H0.
Teste unilaterale:
Test unilateral dreapta:
H0: = 0
H1: > 0
Test unilateral stnga:
H0: = 0
H1: < 0
Regiunea critic:
Pt. test unilat. dreapta:
Pt. test unilat. stnga:
Intervalul de ncredere pentru :
Testarea semnificaiei parametrului
Ipotezele statistice pestru testul bilateral:
H0: = 0
H1: 0
Testul t:
Reg. Critic: dac sau
se respinge H0, deci este semnificativ statistic.
Intervalul de incredere pentru parametrul este:
6
( ) a ( ) b
2
a
s
2
b
s
( )


2
i
2
i 2
e
2
a
x x n
x
s s
( )



2
i
2
e
2
b
x x
1
s s
( )
2 n
y y
s
2
i i 2
e

,
_

n
1 i
2
i
2
2
e
2
a
) x x (
x
n
1
s s
( )
b b
calc
s
0 b
s
b b
z

2 / calc
z z

< 2 / calc
z z

>
( )
b b b
calc
s
b
s
0 b
s
b b
t

2 n , 2 / calc
t t

<
2 n , 2 / calc
t t

>
2 n , calc
t t

>
2 n , calc
t t

<
( )
b b b
calc
s
b
s
0 b
s
b b
t

b 2 n , 2 / b 2 n , 2 /
s t b s t b +

2 n , 2 / calc
t t

<
( )
a a a
calc
s
a
s
0 a
s
a a
t

2 n , 2 / calc
t t

>
a 2 n , 2 / a 2 n , 2 /
s t a s t a +

Exemplu:
Pentru exemplul anterior (nr. spoturi publicitare i profit din vnzri), s se testeze semnificaia parametrilor
modelului de regresie liniar i s se determine intervalele de ncredere pentru acetia.
Rezultate obinute anterior:
i i
x y + 988 , 2 493 , 1
26 , 32
2

e
s
279
2

i
x
39
i
x
7 , 61
7
39
7 279 ) (
2
2 2
1
2

,
_

x n x x x
i
n
i
i
7
Testarea semnificaiei lui
H
0
: = 0
H
1
: 0


t
/2, n-2
=t
critic
=t
0,025;5
=2,571
Cum t
calc
> t
/2, n-2
rezult c suntem in
regiunea critica, se respinge H0, se
accept H1, deci este semnificativ
statistic.
Intervalul de incredere va fi:



Testarea semnificaiei lui
H
0
: = 0
H
1
: 0


t
/2, n-2
=t
critic
=t
0,025;5
=2,571
Cum t
calc
< t
/2, n-2
rezult c suntem in regiunea de acceptare, se accept H0,
deci nu este semnificativ statistic.
Intervalul de incredere va fi:



2. Coeficientul de corelaie: calcul, testarea semnificaiei
r poate fi folosit pentru a oferi o estimaie pe interval de ncredere a parametrului , coeficientul de
corelaie din colectivitatea general.
sau, prin transformri elementare:

b se mai poate scrie:
Numrtorul lui b este:
Numitorul lui b este:
Deci b se mai poate scrie:
Din expresia coeficientului de corelaie:
Rezult deci c:
cu condiia ca cele dou variabile s aib o distribuie bivariat normal.
Media estimatoare r este i abaterea medie ptratic este
Semnificaia coeficientului de corelaie (r) poate fi testat utiliznd testul t.
H0 : = 0, cu ipoteza alternativ: H1 : 0 n cazul testului bilateral i > 0 sau < 0 n cazul testului
unilateral dreapta, respectiv testul unilateral stnga.
Statistica t este:
Se observ c statistica t pentru testarea ipotezei H0 : = 0 este identic, de fapt, cu testul t pentru testarea
ipotezei H0 : = 0, pornind de la relaia:
Ipoteza nul se respinge dac valoarea calculat tn2 t/2,n2 pentru testul bilateral i tcalc. >t,n2 sau tcalc.
< -t,n2 pentru testul unilateral dreapta, respectiv, stnga.
8
1
]
1

1
]
1

n
1 i
2
i
n
1 i
2
i
n
1 i
i i
y x
xy
y x
xy
) y y ( ) x x (
) y y )( x x (
s s
s
s s
) y , x cov(
r
1
1
]
1

,
_

1
1
]
1

,
_





n
1 i
2
n
1 i
i
2
i
n
1 i
2
n
1 i
i
2
i
n
1 i
n
1 i
n
1 i
i i i i
xy
y y n x x n
y x y x n
r
2
2
i
x
n
x
y x xy

( )
2
i
2
i
i i i i
2
i
2
i
i i i i
n
x
n
x
n
y
n
x
n
y x
x x n
y x y x n
b
b

,
_





( )
n
y
n
x
n
y x
y x xy y , x cov
i i i i

2
i
2
i 2
x
n
x
n
x
s

,
_



( )
2
x
s
y , x cov
b
( )
y
x
y x
2
x
y x
xy
s
s
b
s s
s
b
s s
y , x cov
r

x
y
xy
s
s
r b
1
]
1

1
]
1

N
i
Y i
N
i
X i
N
i
Y i X i
y x
xy
y x
y x
y x
Y X COV
1
2
1
2
1
) ( ) (
) )( (
) , (


2 n
r 1
s
2
r

2
2 n
r 1
2 n r
t

) s / s ( b r
2
y
2
x
2 2

) r (
Exemplu:
H
0
: = 0
H
1
: 0
3. Estimarea valorilor variabilei dependente
Dac presupunem c la unit. statistica i variabila independent ia valoarea specificat Xn+1,i i legtura liniar
se menine, atunci valoarea corespunztoare a variabilei dependente la acea unitate (Yn+1,i) este:
Yn+1,i = + Xn+1,i + n+1,i cu val. ajustata:
Daca (Xn+1,i) = Xn+1, atunci media tuturor valorilor Yn+1,i va fi:
(Yn+1,i/X = Xn+1) = + Xn+1.
Ecuaiile de mai sus sunt utilizate pentru estimarea mediei de rspuns i pentru estimarea unui rspuns
individual.
Pentru amndou estimaiile putem obine estimaii punctuale sau pe intervale de ncredere.
Pentru a obine estimaii punctuale, folosim ecuaia de regresie liniar n eantion:
yi = a + bxi + ei ;
i atunci, nlocuind pe xi cu valoarea dat Xn+1, obinem:
= a + bxn+1.
Construirea intervalului de ncredere pentru previzionare necesit cunoaterea distribuiei, mediei i dispersiei
pentru
. Variabila urmeaz o distribuie t cu (n 2) grade de libertate. Dispersia asociat variabilei poate fi
identificat n trei cazuri i anume:
determinarea intervalului de ncredere pentru media de rspuns, cnd xn+1 =
tim c: dar
dac xn+1 = , atunci iar estimatorul dispersiei pentru este:
Intervalul de ncredere este, n acest caz:
determinarea intervalului de ncredere pentru media de rspuns, cnd xn+1 .
n acest caz:
iar estimatorul dispersiei pentru este:
9
i , 1 n i , 1 n
X Y

+ +
+
1 n
y
+
i i
x b a y +
1 n
y
+
1 n
y
+
1 n 1 n
x b a y
+ +
+
+ x b y a x b a y
( ) x x b y bx x b y y
1 n 1 n 1 n
+ +
+ + +
x , y y
1 n

+
1 n
y
+
( )
( )
n
s
s s
2
e 2
y
2
y
1 n

+
n
s
t y
e
2 n , 2 / 1 n +
t
x
) x x ( b y y
1 n 1 n
+
+ +
( )
[ ]
( )

,
_

+
+
+
+ n
1 i
2
i
2
1 n 2
e
2
) x x ( b y
2
y
x x
) x x (
n
1
s s s
1 n
1 n
1 n
y
+
H
0
: = 0
H
1
: 0

unde

t
/2, n-2
=t
critic
=t
0,025;5
=2,571
Cum t
calc
> t
critic
rezult c suntem in regiunea critica, se respinge H0, se accept
H1, deci este semnificativ statistic.

1 n
y
+
x
Intervalul de ncredere pentru media de rspuns este:
determinarea intervalului de ncredere pentru un rspuns individual.
n acest caz trebuie s determinm dispersia diferenei adic dispersia erorii de previzionare.
Dispersia n eantion este:
Intervalul de ncredere este:
Exemplu
Proprietarul unui minihotel dezvolt o analiz statistic pentru determinarea cheltuielilor cu materialele de
curenie (y) n funcie de numrul camerelor ocupate (x). El determin ecuaia de regresie pentru
cheltuielile zilnice (pentru detergent, clor etc.) (zeci mii lei), pe baza datelor nregistrate pentru n=14 zile:
a) Proprietarul dorete s estimeze cheltuielile pentru o zi n care are 6 camere ocupate;
b) Proprietarul dorete s estimeze cheltuielile medii pentru zilele n care are 6 camere ocupate.
Dac numrul camerelor ocupate este , atunci:
t0,025;12 = 2,179
a) Intervalul de ncredere pentru cheltuielile unei zile n care sunt 6 camere ocupate este:
adic (22,89;43,11) garantat cu o probabilitate de 95%;
b) Intervalul de ncredere pentru media cheltuielilor zilnice n cazul n care au 6 camere ocupate este:
adic (26,87;39,13), garantat cu o probabilitate de 95%.
4. Exemplu rezolvare n EXCEL
10
( )
( )

+
+

+ t
n
1 i
2
i
2
1 n
e 2 n , 2 / 1 n
x x
x x
n
1
s t y
, y y
i , 1 n 1 n + +

( ) ( )

,
_

+ + +

,
_

+ + + n
1 i
2
i
2
1 n 2
e
2
e n
1 i
2
i
2
1 n 2
e
2
y y
2
y
) x x (
) x x (
n
1
1 s s
) x x (
) x x (
n
1
s s s
i , 1 n 1 n i , 1 n

+
+

+ + t
n
1 i
2
i
2
1 n
e 2 n , 2 / i , 1 n
) x x (
) x x (
n
1
1 s t y
i i
x 7 , 3 8 , 10 y +
86 , 26 ) x x (
2
i

39 , 163 ) y y (
2
i
3 , 2 x
6 x
1 n

+
. 69 , 3
12
39 , 163
s
; 179 , 2 t t
; 33 6 7 , 3 8 , 10 y
e
12 , 025 . 0 2 n , 2 /
1 n


+

+
86 . 26
) 3 , 2 6 (
14
1
1 69 , 3 179 , 2 33
2

+ + t
86 . 26
) 3 , 2 6 (
14
1
69 , 3 179 , 2 33
2

+ t
Ziua Nr. spoturi
publicitare
Profit din vanzari
(u.m.)
1 7 22
2 5 12
3 1 8
4 8 20
5 10 40
6 2 10
7 6 15

Exemplu rezolvare n EXCEL
Rezolvare folosind EXCEL:
Introducei datele pe dou coloane. n celula A1 se scrie Nr. spoturi iar n B1 Profit.
Apsai TOOLS/DATA ANALYSIS i apoi REGRESSION
La Input Y Range selectai B1:B8
La Input X Range selectai A1:A8
Daca doriti sa calculati valorile reziduale selectati Residuals.
Apsai OK
MODELUL CLASIC DE REGRESIE
MODELUL UNIFACTORIAL definiie, specificare, identificare
Definiie: o relaie matematic construit pe baza teoriei economice, care presupune c fenomenul economic Y
(fenomenul efect) este rezultatul aciunii a dou categorii de factori:
prima, constituit dintr-un singur factor principal, esenial, determinant X,
a doua - format din toi ceilali factori considerai neeseniali, cu aciune ntmpltoare (specificai prin
variabila rezidual ) sau constant, invariabil, asupra lui Y (i deci nu au sens a fi specificai n
model).
Specificarea modelului unifactorial const n precizarea variabilei endogene Y i a celei exogene X, pe baza
teoriei economice; ca orice ipotez teoretic, ea poate fi adevrat sau fals.
y = f(x) +
11
1. n scopul evalurii impactului pe care variaia preului unui
produs l are asupra variaiei cantitilor vndute din acel
produs a fost selectat un eantion reprezentativ de 10 de magazine,
n care s-au urmrit valorile urmtoarelor variabile:
Q cantitatea vndut din produsul respectiv (kg)
P preul produsului (RON)
ale crui rezultate sunt prezentate mai jos:
.
In urma aplicarii metodei regresiei in EXCEL, s-au obtinut
urmatoarele rezultate:
SUMMARY OUTPUT

Regression Statistics
Multiple R
R Square

Standard Error 10.73509502
Observations 10

ANOVA
df SS MS F
Regression . . .
Residual .
Total 9 5550

Coefficients Standard Error
Intercept -29.32363674 20.687667
Pret vanzare (mii $) 0.068972606 0.0108839

a. Testati validitatea modelului de regresie, pentru un nivel de semnificaie
de 5% (F
critic
=5.32);
b. Testati semnificatia statistica a parametrilor modelului la nivelul
populatiei totale si determinati intervalele de incredere pentru acestia.
(t
critic
= 2,896)

Identificarea modelului const n alegerea unei funcii (sau a unui grup de funcii) matematice, cu ajutorul
creia se urmrete s se descrie valorile variabilei endogene, doar n funcie de variaia variabilei exogene X.
Identificarea modelului se poate face prin: procedeul grafic; procedeul conservrii ariilor; procedeul
calculelor algebrice.
Keynes: C=f(x)
Suma cheltuit pentru consum depinde de:
mrimea venitului pe de o parte
alte obiective n funcie de circumstane (de exemplu investiiile)
alte nevoi subiective
Legea psihologic fundamental: o persoan este dispus de regul i n medie s i creasc consumul pe
msura creterii venitului dar nu n aceeai msur
Presupunerea cea mai simpl: C=+X, 0<<1 este o relaie determinist neadecvat.
n model trebuie inclus i factorul aleator:
C=f(X,)
Modelul cel mai simplu:
C=+X+
y=a+bx
y=a+bz, z=ex
y=a+br, r=1/x
y=a+bq, q=ln(x)
Sau
y=x ln(y)=+ln(x)
Forma general:
f(yi)= +g(xi)+i
Contra exemplu:
nu poate fi transformat n model liniar.
MODELUL UNIFACTORIAL LINIAR din colectivitatea general i din eantion
Modelul probabilistic la nivelul colectivitii generale:
unde
(xi,yi) reprezint valorile numerice ale variabilelor cauz i efect nregistrate la nivelul unitii statistice i;
, = parametri constani
= punctul de intersecie al dreptei de regresie cu axa Oy;
= panta dreptei, se mai numete i coeficient de regresie i arat cu cte uniti de msur se modific Y
dac X se modific cu o unitate de msur;
i = componenta rezidual (eroare aleatoare) pentru unitatea statistic i.
Valoarea real yi a caracteristicii Y din modelul probabilistic cuprinde:
- componenta teoretic, determinist ( ), adic partea din valoarea real yi care se poate determina pe baza
modelului pentru o anumit valoare xi:
- componenta aleatoare (rezidual), numit i eroarea aleatoare, (i), reprezentnd acea parte din valoarea
real a lui Y care nu se poate cuantifica.
Dac datele disponibile provin dintr-un eantion, avem n perechi de observaii reale: (x1,y1), (x2, y2), ... , (xn,
yn), pe baza crora se vor estima parametrii ecuaiei, i .
Modelul de regresie n eantion va fi:
unde:
a = estimatorul parametrului din colectiv. general;
b = estimatorul parametrului din colectiv. general;
ei = valoarea rezidual pt. unitatea i n eantion.
12
i i
x y +
i i i
y y +
i i i
e x b a y + +
i i
x b a y +
i i i
y y e
x
1
y
+
+
i i i
x y + +
Estimarea parametrilor modelului unifactorial liniar
Estimarea parametrilor modelului se poate face prin urmtoarele metode:
Metoda punctelor empirice
Metoda punctelor medii
Metoda celor mai mici ptrate
Metoda celor mai mici ptrate generalizat
Metoda verosimilitii maxime cu informaie limitat sau complet
Metoda celor mai mici ptrate presupune maximizarea similitudinii, a gradului de asemnare a valorilor
teoretice cu valorile reale, deci minimizarea erorilor. Cum erorile se pot produce intr-un sens sau n altul fa de
valorile reale, ea presupune minimizarea sumei ptratelor reziduurilor:
Condiiile de ordin 1 de minimizare a funciei sunt:
Aplicnd metoda determinanilor, se obine:
Rmne de verificat dac este verificat condiia de ordin 2, adic soluia gsit este un punct de minim.
Matricea derivatelor pariale de ordin doi trebuie s fie pozitiv definit:
Deci matricea este pozitiv definita.
b se mai poate scrie:
Numrtorul lui b este:
Numitorul lui b este:
Deci b se mai poate scrie:
13
( ) ( )

minim x b a y y y e S
2
i i
2
i i
2
i
( ) ( )
( ) ( )

'

'

'

0 x b x a y x
0 x b na y
0 x x b a y 2
0 1 x b a y 2
0
b
S
0
a
S
2
i i i i
i i
i i i
i i

'

+
+


i i
2
i i
i i
y x x b x a
y x b na



2
i i i
i i
x y x
x y
a


i i i
i
y x x
y n
b


2
i i
i
x x
x n
( )
2
i
2
i
i i i
2
i i
x x n
y x x x y
a
a

( )
2
i
2
i
i i i i
x x n
y x y x n
b
b

1
1
1
]
1

1
1
1
1
]
1

i
2
i
i
i
i
i
2 2
2 2
2
2 2
2
x 2 x 2
x 2 n 2
b
) S (
a b
) S (
b a
) S (
a
) S (

'

>
>
>

0 ) x x ( n 4 ) x ( 4 x n 4
0 x 2
0 n 2
i
2
i
2
i
i
i
2
i
i
2
i
( )
2
i
2
i
i i i i
2
i
2
i
i i i i
n
x
n
x
n
y
n
x
n
y x
x x n
y x y x n
b
b

,
_





( )
n
y
n
x
n
y x
y x xy y , x cov
i i i i

2
i
2
i 2
x
n
x
n
x
s

,
_



2
2
i
x
n
x
y x xy

( )
2
x
s
y , x cov
b
Din expresia coeficientului de corelaie:
Rezult deci c:
Sistemul de ecuaii normale are urmtoarele proprieti:
Variabila aleatoare are media 0
Principiul conservrii informaiilor
Dreapta de regresie trece prin punctul
Pentru obinerea unor estimatori de calitate, se formuleaz urmtoarele presupuneri (ipoteze):
1. Valorile xi (fixate sau aleatoare) sunt statistic independente de variabila aleatoare i .
Dac se accept c variabilele i x sunt independente.
2. Variabilele aleatoare i sunt statistic independente una de alta, adic (non-autocorelarea reziduurilor).
Dac cov(i, j) 0, i j spunem c erorile sunt autocorelate.
Ipotezele modelului unifactorial de regresie liniar
3. Valorile variabilei reziduale i urmeaz o distribuie normal, de medie zero ( ) i
dispersie constant i nenul, pentru toate valorile Xi:
(homoscedasticitatea erorilor).

Cu alte cuvinte, ntruct distribuia variabilei reziduu este independent de valorile variabilelor explicative, nici
dispersia perturbaiei nu difer semnificativ n raport cu valorile Xi, ceea ce indic o stabilitate relativ a
legturii dintre variabila rezultativ i variabilele factoriale.
Verificarea validitii modelului unifactorial liniar
Se poate realiza cu ajutorul analizei dispersionale (ANOVA) i a testului Fisher (F).
Unde:
este abaterea total
este abaterea neexplicat de model
este abaterea explicat de model
n care:
este variana total a lui Y
este variana sistematic (explicat de model)
este variana rezidual (neexplicat de model)
14
( )
y
x
y x
2
x
y x
xy
s
s
b
s s
s
b
s s
y , x cov
r

x
y
xy
s
s
r b
( )


i i i i
y y 0 y y
y x b a +
( ) y , x M
( ) ( ) ( ) 0 e 0 e 0 y y
i i i i


( ) 0 , cov
j i

( )
( )( ) ( )
0
n
x x
n
x x
x , cov
i i i i




j i
( ) , 0
i

n , 1 i
const
2

0
2

n , 1 i
y y
i

i i
y y
y y
i

( ) ( ) ( )


+
n
1 i
2
i
n
1 i
2
i i
n
1 i
2
i
y y y y y y
( ) ( ) y y y y y y
i i i i
+


n
1 i
2
i
2
y
) y y (


n
1 i
2
i i
2
e
) y y (


n
1 i
2
i
2
x / y
) y y (
2
e
2
x / y
2
y
+
Dispersia corectat total:
Dispersia corectat sistematic:
Dispersia corectat rezidual:
Abaterea medie ptratic a erorilor n eantion este:
unde k este numrul variabilelor independente (k=1).
unde este un estimator nedeplasat al dispersiei reziduurilor
se este util n compararea modelelor. Dac avem la dispoziie cteva modele dintre care trebuie s alegem, cel
mai potrivit a fi utilizat este cel pentru care se este mai sczut.
se este un indicator important n determinarea intervalului de ncredere pentru coeficientul de regresie i
pentru intercepia .
Caracterizarea econometric a seriilor cronologice cu component sezonier
Componentele termenilor unei serii cronologice sunt:
Trendul (componenta de lunga durata) (ytT);
Componenta sezoniera (ytS);
Componenta ciclica (ytC) este mai dificil de determinat;
Componenta reziduala, aleatoare (ytR).
1. TRENDUL
reprezint tendina general, ce corespunde unei evoluii sistematice, generale, fundamentale,
sesizabile pe perioade lungi de timp, generate de aciunea unor factori de lung durat.
Este componenta principal a termenilor unei serii cronologice
2. COMPONENTA SEZONIER
Oscilaiile sezoniere sunt fluctuaii regulate, cu periodicitate constant, care se repet n cadrul
unei perioade complete de pn la un an
Componentele termenilor unei serii cronologice
Sunt sesizabile cnd termenii seriei se refer la perioade mai mici dect anul (date trimestriale, lunare, zilnice,
orare etc.)
Apar sunt influena a dou categorii de factori:
- factori naturali, climatici (prod. agricol, vnzri de buturi rcoritoare, de articole de mbrcminte etc.)
- factori sociali tradiii, obiceiuri, concedii (vnzrile de rechizite colare, de ou, de pomi de iarn etc.)
3. COMPONENTA CICLIC
E format din fluctuaii regulate, manifestate pe termen mai lung, care devin complete pe parcursul ctorva ani.
Sunt cauzate de dou categorii de factori:
- naturali (oscilaiile produciei agricole, datorate ciclurilor meteo)
- economico-sociali (ciclurile de afaceri, datorate modernizrii aparatului de producie, aprovizionarea cu
materii prime etc.)
4. COMPONENTA ALEATOARE (REZIDUAL)
Fluctuaiile aleatoare apar sub forma unor abateri accidentale ale termenilor seriei de la linia de trend, sub
influena unor factori imprevizibili, accidentali (greve, conflicte de munc spontane, calamiti naturale,
rzboaie etc.)
uneori nu se identific toate cele patru componente, atunci cnd analizm o serie cronologic:
Cel mai adesea, componenta ciclic nu se poate determina
La unele serii, poate lipsi chiar trendul (serii staionare)
15
k
s
2
x / y 2
x / y

1 k n
s
2
e 2
e

1 n
s
2
y 2
y

( )
2 n
y y
2 n 1 k n
s s
n
1 i
2
i i 2
e
2
e 2
e e

2
e
s
Pentru a reconstitui termenii unei serii cronologice, cele 4 componente se pot combina dup dou modele:
MODELUL ADITIV:
Se presupune c abaterile aleatoare se compenseaz reciproc, deci suma lor e zero, iar media componentei
sezoniere este nul.
Modelul este recomandat a se folosi atunci cnd amplitudinea oscilaiilor fa de linia de trend este aproximativ
constant.
Efectul sezonier se msoar, n acest model, sub forma devierilor (abaterilor) sezoniere.
Devierile sezoniere arata cu cte unitati de masura se abate, n medie, n fiecare sezon, nivelul variabilei
analizate fa de trend; iau valori pozitive i negative, astfel nct suma devierilor sezoniere, pentru toate
sezoanele, este egal cu zero.
Componentele termenilor unei serii cronologice
MODELUL MULTIPLICATIV:
n acest model, doar componenta de trend i termenii reali au valori absolute, concrete, n timp ce componenta
sezonier i cea aleatoare au valori relative (sunt rezultatele unor rapoarte).
Media componentei aleatoare are valoarea neutr 1.
Modelul este recomandat a se folosi atunci cnd amplitudinea oscilaiilor fa de linia de trend este cresctoare
sau descresctoare (oscilaii amplificate sau atenuate).
Efectul sezonier se msoar, n acest model, sub forma indicilor de sezonalitate.
Indicii de sezonalitate msoar, n medie, de cte ori se abate nivelul variabilei, n fiecare sezon, de la trend;
iau valori supraunitare sau subunitare, astfel nct produsul lor este egal cu 1
Caracterizarea econometric a seriilor cronologice cu component sezonier
Determinarea componentei sezoniere se face prin eliminarea, din nivelul real al termenilor seriei, a celorlalte
componente ale acesteia (trendul i componenta aleatoare)
Deci, nainte, trebuie identificat trendul, cu o metod analitic sau, dintre metodele mecanice, cu metoda
mediilor mobile.
Metoda mediilor mobile
Este utilizat cu deosebire atunci cnd seria cronologic prezint fluctuaii regulate (sezoniere sau ciclice),
pentru a netezi evoluia.
Tendina pe termen lung se determin sub form unor medii, calculate din atia termeni succesivi (m), la ci
se manifest o oscilaie complet.
Mediile se numesc mobile, glisante, deoarece, n permanen, n calculul unei astfel de medii, se las n afar
primul termen al mediei anterioare i se introduce urmtorul termen.
Dac mediile mobile sunt calculate, spre exemplu, din cinci termeni, fiecare valoare ajustat va cuprinde
termenul din perioada respectiv, cei doi termeni anteriori i cei doi termeni urmtori.
n general, dac mediile sunt calculate din m termeni (m, numr impar) se vor pierde, prin calculul mediilor
mobile, (m-1) termeni; fiecare valoare ajustat va fi situat n dreptul unei valori nregistrate, deci mediile
mobile astfel calculate vor constitui chiar valorile ajustate (de trend).
Dac, ns, mediile mobile se calculeaz din m termeni (m numr par), atunci valorile medii se situeaz ntre
termenii reali i vom centra nivelurile, astfel ajustate, prin calculul unor medii de medii.
Spre exemplu, dac o oscilaie complet are loc la 6 termeni, atunci calculm medii mobile centrate:
n acest caz se vor pierde, prin calculul mediilor centrate, m termeni.
Avantaje ale metodei:
- Este flexibila, uor de aplicat
- Nu necesit ndeplinirea prealabil a unor condiii;
Dezavantaje ale metodei:
- Se pierde informaie (cu ct nr. de termeni din care se calculeaz media mobil este mai mare, cu att se
pierde mai mult informaie)
- Nu permite previzionarea fenomenului pe o perioad viitoare
16
tR tS tT t
y y y y + +
tR tS tT t
y y y y
2 n , 3 t ,
5
y y y y y
y
2 t 1 t t 1 t 2 t
tTMM

+ + + +

+ +
3 n , 4 t ,
6
2
y
y y y y y
2
y
y
3 t
2 t 1 t t 1 t 2 t
3 t
tTMM

+ + + + + +

+
+ +

Exemplu:
Numrul biletelor de odihn ntr-o staiune montan, vndute de o agenie de voiaj, a cunoscut n perioada 2004-2006
urmtoarea evoluie: Tabelul 1
Anul
Numar de bilete vandute in
trimestrul:
I II III IV
2004 32 48 64 58
2005 40 52 74 66
2006 44 60 82 74
Se cere:
a) S se reprezinte grafic seria cronologic prezentat?
b) S se determine abaterile sezoniere i coeficienii sezonieri.
c) S se previzioneze vanzarile trimestriale de bilete pentru anul 2007.
Determinarea componentei sezoniere n modelul aditiv
Pentru determinarea devierilor sezoniere se parcurg urmtorii pai:
1. Se nltur din valorile seriei cronologice (yt) componenta de trend (ytT).
2. Pentru fiecare sezon n parte, calculm media diferenelor obinute la pasul 1.
17
Calculul mediilor mobile
Tabelul 2
Perioada y
t
y
tT

MM
Abateri
y
t
- y
tT
= y
tS
+ y
tR

Serie
desezonalizata
(corectata)
y
t
- y
tS

Valori de trend
pt. seria
corectata

I 2004 32 - - 48 48
II 2004 48 - - 52 49,8
III 2004 64 51,5 12,5 50 51,6
IV 2004 58 53 5 52 53,4
I 2005 40 54,75 -14,75 56 55,2
II 2005 52 57 - 5 56 57,0
III 2005 74 58,5 15,5 60 58,8
IV 2005 66 60 6 60 60,6
I 2006 44 62 -18 60 62,4
II 2006 60 64 - 4 64 64,2
III 2006 82 - - 68 66,0
IV 2006 74 - - 68 67,8

Mediile mobile vor fi:
bilete
bilete

bilete

Reprezentarea grafica a trendului exprimat prin mediile mobile este redata in graficul anterior.

a) Din graficul prezentat se observ att existena trendului
cresctor, ct i afectarea valorilor trimestriale de ctre factorul
sezonier.

Evoluia numrului de bilete vndute de agenie n perioada 2004-2006

n felul acesta (prin calculul mediei) se nltur cea mai mare parte din variaiile reziduale (dei foarte
rar le putem nltura n ntregime).
Aceste medii ale diferenelor, calculate pentru m sezoane, msoar abaterile fenomenului, fa de linia
de tendin, date de componenta sezonier (devieri sezoniere brute).
3. Se determina media devierilor sezoniere obtinute la pasul 2.
4. Se corecteaza (prin scadere) devierile sezoniere brute cu media lor, obtinandu-se devierile sezoniere
corectate ( a caror suma este egal cu zero).
Intepretare:
In trimestrul I, factorul sezonier a determinat o scadere medie a numarului de bilete vandute cu 16
bucati, fata de linia de trend;
In trimestrul II, factorul sezonier a determinat o scadere medie a numarului de bilete vandute cu 4
bucati, fata de linia de trend;
In trimestrul III, factorul sezonier a determinat o crestere medie a numarului de bilete vandute cu 14
bucati, fata de linia de trend;
In trimestrul IV, factorul sezonier a determinat o crestere medie a numarului de bilete vandute cu 6
bucati, fata de linia de trend;
Previzionarea fenomenelor afectate de sezonalitate model aditiv
Se desezonalizeaza seria cronologic scazand din termenii reali ai seriei devierile sezoniere (yt ytS).
Rezultatele astfel obinute vor conine doar componenta de trend (ytT) i componenta rezidual (ytR).
yt ytS = ytT + ytR
Pentru seria desezonalizata se determina trendul aplicnd o metod mecanic ori analitic.
Se prelungeste trendul, determinandu-se valoarea previzionata a trendului pentru perioada viitoare ( )
Se adun valorile previzionate ale trendului pe sezoane cu devierile sezoniere (ytS) pentru a obine
previziunea final:
18
b) Pentru determinarea abaterilor sezoniere, diferentele y
t
-y
tT
se vor sistematiza astfel:
Tabelul 3
y
t
-y
tT

Trim.
Anii
I II III IV
Suma
2004 - - 12,5 5
2005 -14,75 -5 15,5 6
2006 -18 -4 - -
Devieri sez. brute
(DSB)
-16,375 -4,5 14 5,5 -1,375
Devieri sez. corectate
(DSC) (y
tS
)
-16 -4 14 6 0

Devierile sezoniere brute s-au calculat astfel:






Devierile sezoniere corectate s-au calculat astfel:

bilete
bilete
bilete
bilete

Sk T ) p n ( ) p n (
y y y +
+ +
T ) p n (
y
+
Tabelul nr. 4
Previzionarea vanzarilor trimestriale de bilete
Anul Trimestrul p ytS Previziune
0 1 2 3 4 5
2007
I
II
III
IV
1
2
3
4
67,8+1,8=69,6
69,6+1,8=71,4
71,4+1,8=73,2
73,2+1,8=75,0
-16
-4
14
6
69,6-16=53,6
71,4-4=67,4
73,2+14=87,2
75,0+6=81,0
19
c) Seria corectat de sezonalitate se va determina ca: y
t
- y
tS
(tabelul 2).

Pentru seria desezonalizata determinam trendul
prin metoda modificarii medii absolute.

bilete/an



Valorile de trend pentru perioada analizata sunt redate in ultima
coloana a tabelului 2.

Valorile previzionate de trend pentru trim. I, II, III si IV 2007 sunt:

bilete
bilete
bilete
bilete

Valorile previzionate ale vanzarilor in anul 2007 se obtin prin adunarea,
la valorile de trend calculate, a devierilor sezoniere corectate:

bilete
bilete
bilete
bilete

5./pg 224 O firm ce organizeaz licitaii pentru vnzarea unor antichiti dorete s determine relaia dintre
preul obinut pentru articolele licitate (u.m.) i numrul de persoane ce particip la licitaie. n ipoteza unui
model de regresie liniar, rezultatele prelucrrii n EXCEL sunt:
a) S se interpreteze rezultatele din tabele.
b) Determinai i interpretai intervalele de ncredere pentru parametrii modelului (tcritic = 2,896)
1/pg 221 In scopul evalurii impactului pe care variaia preului unui produs l are asupra variaiei cantitilor
vndute din acel produs a fost selectat un eantion reprezentativ de 10 de magazine, n care s-au urmrit valorile
urmtoarelor variabile:
- Q - cantitatea vndut din produsul respectiv (kg);
- P - preul produsului (RON).
A fost folosit pentru estimarea parametrilor urmtorul model, ale crui rezultate sunt prezentate mai jos:
Q = a + P - P + e .
a. Testai validitatea modelului de regresie, pentru un nivel de semnificaie de5% (F
fr
,
(
.= 5.32).
b. Testai, interpretai i determinai intervalele de ncredere pentru coeficienii modelului (tcritic = 2,896)
Regression Statistics Pr 1/pg 221
R Multiple R 0.860271 0.913173052
R
2
R Square 0.740066 0.833885023
R Adjusted R Square 0.707575 0.813120651
Se Standard Error 177.7908 10.73509502
n Observations 10 10
ANOVA
Nr. gr.
de
libertate
Suma abaterilor
df
SS
MS
2
2
2
1
s
s
F
3160956
7199795 < 0,05
df SS MS F Significa
nce F
Regression
K 1

n
1 i
2
i
2
x / y
) y y ( 719973.5
k
s
2
x / y 2
x / y

719973.5
22.77708 0.00140
4
Residual
n-K-1 8

n
1 i
2
i i
2
e
) y y ( 252876.5
1 k n
s
2
e 2
e

31609.56
Total n-1 9
2
e
2
x / y
2
y
+
972850
1 n
s
2
y 2
y

Coefficients Standard Error t Stat


P-value
Intercept
a
1086.691
S
a
174.4825
6.228079 0.000252
0.000252x100=0.0252
100-0.0252=99.974
Mrimea audientei
b
9.329102
Sb 1.954748
4.772534 0.001404
0.001404x100=0.1404
100-0.1404=99.859
df SS MS F
Regression
K 1 4628.0619 4628.0619 40.15
Residual
n-K-1 8 921.93 115.24
Total n-1 9 5550 616.66
Coefficients Standard Error
Intercept a -29.32363674 Sa 20.687667
Pre vnzare (mii $) b 0.068972606 Sb 0.0108839
20
( )
a a a
calc
s
a
s
0 a
s
a a
t


( )
b b b
calc
s
b
s
0 b
s
b b
t

57 , 4
7 , 61 7
279
26 , 32
) (
1
2
1
2
2

n
i
i
n
i
i
e a
x x n
x
s s
723 , 0
7 , 61
26 , 32
) (
1
1
2
2

n
i
i
e b
x x
s s
Problemele vor fi:
din testari de ipoteze, regresie (care include si un tabel in ANOVA), si serii cronologice (medii
mobile, sezonalitate)
21