Documente Academic
Documente Profesional
Documente Cultură
Zgomotul alb
mersul la ntmplare
procese medie mobil (MA(q))
procese autoregresive (AR(p))
procese mixate (ARMA(p,q))
seria integrat (ARIMA(p,n,q), ARFIMA(p,d,q))
serii cointegrate, procese ARCH, GARCH.
Seria cronologic reprezint un set sistematizat de valori ale unei varibile msurate la
momente sau intervale de timp egale i successive. Seria cronologic este numit i serie
dinamic sau serie de timp. Din punct de vedere matematic, seria de timp este o realizare
a unui proces stocastic X t t unde
Z sau unei mulimi din Z, iar spaiul strilor
Autocovariane i autocorelaii
Fiind dat o serie de timp staionar, X t t , numrul k Cov X t , X t k este numit a
k autocovarian, iar irul k k vzut ca o funcie definit pe Z, este numit funcia de
k
autocovarian a lui X t t . Pentru 0 0 definim k
numit a k autocorelaie
0
a lui X t t , se mai noteaz Corr X t , X t k . Evident 0 1 i k 1, k . irul
k k vzut ca funcie definit pe Z este numit funcia de autocorelaie a lui X t t .
Este mai convenabil de lucrat cu autocorelaiile deoarece ele sunt invariante la scal.
k
Cov X t , X t k k , rezult k
0
0
k 1
P.2.
Demonstraie. Avem Var 1 X t 2 X t k 0, 1 , 2 . Rezult
12 Var X t 22 Var X t k 2 1 2 Cov X t , X t k
12 2 22 2 2 1 2 k 0
Lund 1 2 1 obinem 2 2 2 k 0 , k 2 i
k
k k 2
1
0 2
2
Lund 1 1 i 2 1 obinem 2 2 2 k 0 , k 2 , k
k 2
1 . Aadar 1 k 1 .
2 2
pstrarea celorlalte q-1 valori i introducerea n subset a urmtoarei valori din irul
valorilor seriei date. Mediile mobile calculate reprezint chiar componentele (valorile)
trendului seriei cronologice date.
La stabilirea perioadei mediilor mobile trebuie avut n vedere necesitatea ca aceasta s
coincid cu lungimea ciclului natural al seriei. De exemplu, la determinarea trendului
numrului de omeri nregistrai trimestrial de-a lungul mai multor ani, perioada mediilor
mobile va fi 4; la determinarea trendului ncasrilor zilnice ale unui supermarket,
nregistrate de-a lungul mai multor luni, perioada mediilor mobile va fi 7.
n cazul exemplului de la punctul 1, mediile mobile de perioad 5 sunt :
xt
2000 2400 2600 2500 2300 2800 3000 3500 3200 3400
Totaluri
11800 12600 13200 14100 14800 15900
mobile
Medii
2360 2520 2640 2820 2960 3180
mobile
n cazul n care mediile mobile sunt folosite pentru reprezentarea grafic a trendului
i se vrea reprezentarea valorilor acestuia n anumite momente de timp, exist o
metod de centrare a mediilor mobile, metod care necesit calculul mediilor
aritmetice pentru perechile succesive de medii mobile.
Modele de serii de timp
1. Modelul aditiv al seriilor de timp
Y T S R
3. Zgomotul alb
O serie de timp X t t format din variabile aleatoare necorelate, cu media zero i
dispersia 2 0 , se numete zgomot alb. Evident, ea este staionar, avnd funcia de
autocovarian
2, k 0
0, in rest
i funcia de autocorelaie
1, k 0
k
0, in rest
2
Se noteaz WN 0, 2 (White Noise), deci X t ~ WN 0, . Zgomotul alb mai este
denumit i proces pur aleator. Dac elementele lui X t sunt i.i.d. (independente i
identic repartizate), atunci seria de timp este strict staionar (se mai scrie
X t ~ IID 0, 2 ). Cnd X t -urile au repartiia normal, spunem c zgomotul alb este
gaussian. n cazul unui zgomot alb gaussian cele dou definiii privind staionaritatea
coincid, deci seria este att staionar ct i strict staionar. Un proces X t este un
2
zgomot alb cu media m dac X t m ~ WN 0, . Cu zgomotul alb se pot construi
multe modele de serii de timp.
2
Exemplu : Seria de timp Z t unde Z t U t U t 1 , 0 i U t ~ WN 0,
este numit medie mobil de ordinul nti (ordin unu). Se noteaz Z t ~ MA1 .
Aceast serie de timp este staionar pentru orice , are media 0, funcia de
1,
1 2 2 , k 0
autocovarian
k , k 1
0,
in rest
Evident 1
i funcia autocorelaie
k 0
k 2 , k 1
1
0, in rest
1
. Procesul MA(1) este cel mai simplu exemplu de filtru liniar.
2
t Z i variabilele aleatoare
Zt
i 1
i 1
E Z t E X i m t m i
i 1
i 1
Var Z t Var X i X2 t X2
proces pur aleator care este staionar, deci X t unde X t Z t Z t 1 este staionar.
Cele mai cunoscute exemple de serii de timp care se comport foarte mult ca mersul
aleator (la ntmplare) sunt preurile aciunilor (share prices). n acest caz un model
care corespunde datelor este : Preul aciunii n ziua t = preul aciunii n ziua (t-1) +
o eroare aleatoare.
5. Procese medie mobil
Se consider Z t un zgomot alb (sau, mai restrictiv, un proces pur aleator, pentru
c n locul necorelrii se consider independena) cu media zero i dispersia Z2 .
5.1 ,
Procesul X t , unde X t 0 Z t 1 Z t 1 q Z t q
0 0, q 0, i -urile sunt constante, se numete proces medie mobil de ordin q
(abreviat MA(q)).n mod uzual Z-urile sunt scalate, astfel c 0 1 . Plasndu-ne n
ipoteza mai restrictiv ( Z t -urile independente), obinem : E X t 0 i
q
Cov 0 Z t 1 Z t 1 q Z t q , 0 Z t k 1 Z t k 1 q Z t k q
kq
0,
qk
i 0
Z2 i i k ,
qk
2 ,
Z i
ik
k 0,1, , q
k 1,2, ,q
i 0
0,
k q
1,
k 0
k q sau k q
i 0
2
i
k 1,2, , q
1 pentru k 0
1
,
2
1 1
k 1
in rest
Xt
1
Z t 1
k 0
1,
, k 1
Primul proces are funcia autocorelaie 1 k
1 2
0, in rest
1,
k 0
1
, k 1
Al doilea proces are funcia autocorelaie 2 k
2
2
1 1 1
0
in rest
Zt X t
1
1
1
1
1
Z t 1 X t X t 1 Z t 2 X t X t 1 2 X t 2
X t 0 1B 2 B 2 q B q Z t B Z t ,
5.2
se afl n afara cercului unitate. De notat c n ecuaia (5.2) B este vzut ca o variabil
complex i nu ca un operator. De asemenea, se poate aduga n (5.1) o constant
arbitrar m n membrul drept, ceea ce d un proces de medie m. Cum aceasta nu
schimb funcia autocorelaie pentru simplificare va fi omis.
Privitor la formalizarea matematic, se numete proces medie mobil finit procesul
stocastic
X t ;t
Z}, unde
Xt
j M
Z t j , M N, j R, M
0, M 0
j 0, j Z cu
j M.
Procesul definit de
latur de ordin q (mai precis este un proces medie mobil stnga de ordin q, pe scurt
proces medie mobil de ordin q). Aceasta pentru c punnd t Z t q i i i q
avem X t
j Z t j
j q
2q
2q
i 0
i 0
acest tip se obin trecnd un proces pur aleator printr-un sistem liniar.
Cteva cuvinte despre sistemele liniare. S considerm c sunt date observaii
(nregistrri) asupra intrrilor (inputurilor) i ieirilor (outputurilor) unui sistem,
notate n cazul n care timpul este discret cu xt , y t i cu x t , y t n cazul
timpului continuu.
Definiie. Fie y1 t , y 2 t ieirile corespunztoare intrrilor x1 t , x 2 t . Sistemul se
numete sistem liniar dac i numai dac orice combinaie liniar de intrri (s zicem
1 x1 t 2 x 2 t ) produce aceeai combinaie liniar de ieiri, adic
1 y1 t 2 y 2 t , 1 , 2 fiind constante.
Definiie. Dac intrarea x t produce ieirea y t , atunci sistemul se zice c este
invariant n timp dac o ntrziere de timp la intrare produce aceeai ntrziere la
ieire, adic x t produce ieirea y t , altfel zis relaia intrare-ieire nu se
schimb cu timpul.
a) Sisteme liniare n timp
xt k pentru
1 pentru k d
ntrziere. Funcia sa FIR este : h
k
0 in rest
Alt exemplu de sistem liniar este ctigul pur, adic yt c xt unde constanta c
c pentru k 0
reprezint ctigul. FIR ul acestui sistem este : h
k
0 in rest
b). Sisteme liniare n frecven
O alt cale de descriere a unui sistem liniar este prin intermediul unei funcii
denumit funcia de transfer (FRF Funcia Rspuns Frecven). Aceasta este
transformata Fourier a funciei FIR, adic este
h u e
i u
du ,
i k
cazul timpului continuu i este H hk e
, 0 .
k
0, t 0
, astfel nct
t
t0
t dt
t care este continu n t 0 , funcia delta Dirac este funcia care verific
t t dt
u e
i u
du e i
6.
Procese autoregresive
X t 1 X t 1 2 X t 2 p X t p Z t
(6.1)
Acest model seamn cu modelul regresiei multiple, dar diferena const n faptul c
X t nu este regresat peste variabile independente ci peste valorile din trecut. Se
utilizeaz abrevierea AR(p) proces.
(6.2)
Procese de ordinul nti : p 1 i X t X t 1 Z t
Prin substituii succesive obinem :
X t X t 1 Z t X t 2 Z t 1 Z t Z t Z t 1 2 Z t 2
pentru 1 1 . Deci X t poate fi exprimat ca un proces medie mobil de ordin
infinit. Utiliznd operatorul de mutare napoi (ntoarcere) B, ecuaia (6.2) se scrie
1 B X t Z t , astfel c X t 1 B 1 Z t 1 B 2 B 2 Z t
Z t Z t 1 2 Z t 2
2
2
4
Rezult : E X t 0 i Var X t Z 1
1,
Z2
caz n care avem : Var X t
X2
2
1
i
Funcia autocovarian este : k E X t X t k E Z t i
Z2
k
k X2
2
1
Z t k j
la
Pentru k 0 gsim k k .
Deoarece k nu depinde de t, un proces AR(1) este slab staionar dac 1 .
k k X2
k , k 0,1,2,
Funcia autocorelaie este : k
2
0
X
k
Pentru toi ntregii k avem k , k 0,1,2,
Mai simplu, funcia autocorelaie poate fi gsit presupunnd apriori c procesul este
staionar, n care caz E X t 0 . nmulind ecuaia (6.2) cu X t k i lund media
obinem : pentru k 0 : k k 1 presupunnd c E Z t Z t k 0
Deoarece k este o funcie par, trebuie s avem k k 1 pentru k 0.
Cum
7. Procese mixate ARMA(p,q)
Sunt procese X t autoregresive de ordin p cu reziduuri medie mobil de ordin q
care verific relaia X t 1 X t 1 p X t p Z t 1 Z t 1 q Z t q , unde Z t
-urile sunt reziduuri medie mobil de ordin q.
8. Procese nestaionare autoregresive i de medie mobil ARIMA(p,n,q)
Sunt procese nestaionare care n forma original prezint tendin i prin diferene
de ordin n pot fi aduse la forma staionar, p fiind ordinul prii autoregresive i q
ordinul prii medie mobil a modelului.
Pentru ARIMA(1,1,2) ecuaia este : y t 0 1 y t 1 y Z t 1 Z t 1 2 Z t 2
9.
Modelul ARFIMA (Autoregressive Fractionally Integrated Movie Average)
Este o variant a modelului ARIMA(p,d,q) n care d este ordinul diferenei i este o
10
O limitare important a modelelor ARMA este dat de faptul c trateaz prea rigid
variana condiionat a lui X t k . Clasa proceselor ARMA cu heteroscedasticitate
condiional autoregresiv sau ARMA-ARCH procese permite varianei condiionate a lui
X t s depind de istoria procesului. O serie de timp cu media zero, X t , este un proces
pur ARCH(1) dac X t t Yt , Yt ~ IID 0, 1 , (se scrie X t ~ARCH(1)), unde t
(volatilitatea stocastic) este un element al procesului stocastic care verific relaia
t2 2 X t21 , cu 0 i 0 . Deoarece E X t2 S t 1 t2 2 X t21 , un
2
proces ARCH(1) pentru X t corespunde unui proces AR(1) pentru X t . Dac 0 1 ,
2
.
1
2
2
Diferena dintre variana condiionat i necondiionat este t2 X t21 .
2
Avem E X t21 S t 1 E X t2
2
S
t 1
11
2
t
E X t2 k S t 1
k 1 X t21 ,
k 1,2,
Astfel, E X t2 k S t 1 k .
O generalizare simpl a procesului pur ARCH 1 este procesul pur ARCH m , unde
t2 2 1 X t21 m X t2 m cu j 0, j 1, m 1, i m 0, care corespunde unui
2
proces AR m pentru X t .
Definiie. O serie de timp X t este numit proces ARMA p, q ARCH m dac
satisface relaia B X t B Yt , Yt ~ ARCH m unde B i B sunt
polinoame n lag- operatorul de ordin p i, respectiv q.
Mai general este un proces avnd heteroscedasticitate generalizat condiional
autoregresiv (GARCH) de ordin r, m , generalizarea lui Bollerslev, unde
t2 2 1 t21 r t2 r 1 X t21 m X t2 m , cu
r , m 0, i 0, i 1, r 1, j 0, j 1, m 1 . Avem ARCH m GARCH 0, m .
2
2
Notnd Vt X t t , atunci un proces GARCH r, m poate fi scris
X t2 1 X t21 p X t2 p 1 Vt 1 r Vt r unde
p max m, r , j j j , j 0 for j m i j 0 pentru j r. Deci un proces
GARCH r , m pentru X t corespunde unui proces ARMA p, r pentru X t2 .
Definiie. O serie de timp X t este numit proces ARMA p, q GARCH r , m dac
satisface relaia B X t B Yt , Yt ~ GARCH r , m .
Pentru exemplificarea noiunilor legate de modelele autoregresive, am fcut inferen
statistic pentru determinarea coeficienilor prin metoda celor mai mici ptrate pe datele
din rapoartele anuale ale Comisiei de Supraveghere a Asigurrilor i apoi am efectuat
~
prediciile X t X t 1 , X t X t 1 X t 2 , valorilor de interes n dou cazuri
: nti predicia pas cu pas (adic datele din anul anterior sau din anii anteriori sunt cele
raportate de CSA), apoi predicia pe termen lung (caz n care, n predicie, se folosesc
prediciile anterioare i nu datele raportate, deci ar fi cazul elaborrii unor prognoze pe
termen lung).
Tabel. 1. Valoarea total a primelor de asigurare brute ncasate din asigurri directe :
An
Prime totale ncasate
Prime ncasate n
Prime ncasate
(lei noi)
asigurrile de via
asig. generale
1997
130402200
8073900
122328300
1998
241484000
19944700
221539300
1999
427393000
50569000
376824000
2000
673887300
106658600
567228700
2001
1001242500
211473300
789769200
2002
1645965600
414514000
1231451600
2003
2422508810.2
579003012
1843505798.2
2004
3216393971.5
693443836.2
2522950135.3
Sursa : Rapoartele Anuale ale CSA
Tabelul 2. Predicii pentru primele brute ncasate din asigurrile directe
Anul
Prime brute
Predicii pas cu pas
Predicii pe termen
ncasate* (Xt)
Xt
lung X t
2
12
1997
130,402,200
----1998
241,484,000
311,729,066.9
311,729,066.9
1999
427,393,000
458,654,611.1
551,566,273.3
2000
673,887,300
704,552,507.8
868,793,866.4
2001
1,001,242,500
1,030,585,298
1,288,384,085
2002
1,645,965,600
1,463,571,087
1,843,367,180
2003
2,422,508,810.2
2,316,332,676
2,577,431,565
2004
3,216,393,971.5
3,343,449,933
3,548,362,980
**
2005
4,384,987,227
4,393,505,021
4,832,593,399
*
**
Sursa : Rapoartele Anuale ale CSA, Prime brute subscrise.
Eroarea relativ pentru prediciile din 2005 este de 0.2% n cazul pas cu pas i de 2.7% pe
termen lung. Pentru predicia ndemnizaiilor brute pltite de asigurtori pentru
asigurrile directe generale i de via, att cumulate ct i separate, am folosit dou
modele lineare.
Tabelul 2. Situaia pe date deflatate
Prime brute ncasate
Predicii
Predicii
~
Anul
deflatate (Xt)
Xt
Xt
1997
130,402,200
----1998
171,752,489.3
157,729,471.75
--1999
196,368,185.8
210,083,500.22
203,946,382.41
2000
220,057,866.1
241,249,687.82
236,706,333.31
2001
250,925,319.5
271,243,436.77
267,667,960.66
2002
350,171,401
310,325,038.33
307,698,100.38
2003
451,689,130.8
435,981,527.41
434,715,398.98
2004
548,685,334.6
564,514,173.86
567,163,062.07
2005
688,799,178.4
687,322,069.45
693,961,104.10
Eroarea relativ pentru predicia din 2005 este de 0,2% la modelul de ordinul nti i de
0,75% la modelul de ordin doi, iar eroarea relativ total a prediciilor este de 2% la
ambele modele. Predicia pentru 2006 este de 875,273,474.23 pentru date deflatate
(5,990,015,464 lei).
Tabelul 3. Predicii pentru ndemnizaiile (despgubirile) brute pltite
Anul
ndemnizaii *
Predicii pas cu pas
Predicii pas cu pas
~
(Xt)
Xt
Xt
1997
69,925,100
----1998
102,212,700
114,022,130.901
---1999
189,589,900
161,229,924.099
193,403,696.19
2000
248,978,900
288,984,380.539
273,600,712.37
2001
406,293,900
375,817,208.937
420,965,932.04
2002
649,832,600
605,827,924.718
567,138,913.81
2003
842,267,901
961,906,561.258
886,204,782.46
2004
1,311,879,000
1,243,266,770.548
1,307,528,164.13
2005
1,758,745,510
1.929,886,514.498
1,765,377,520.80
*
Sursa : Rapoartele Anuale ale CSA.
Eroarea relativ a predicie X t pentru anul 2005 este de 9.7%. Definind eroarea relativ
13
Xt
4.2%. Eroarea relativ a prediciei X t pentru anul 2005 este egal cu 1.8%.
Folosind modelul autoregresiv linear de ordinul nti pentru primele brute ncasate n
contractele directe de asigurri generale (non-life) am obinut
X t 103034505.55 1.31273 X t 1 cu care am fcut prediciile din tabelul 4.
Tabelul 4. Predicii pentru primele brute ncasate din asigurrile generale directe
Anul
Prime brute
Predicii pas cu pas
Predicii pe date
ncasate* (Xt)
deflatate
X t
1997
122,328,300
-----1998
221,539,300
263,618,589.2
141,284,469.84
1999
376,824,000
393,855,889.4
186,451,070.54
2000
567,228,700
597,702,842.7
206,403,634.37
2001
789,769,200
847,652,889.3
221,905,572.13
2002
1,231,451,600
1,139,788,578.9
238,181,828.83
2003
1,843,505,798.2
1,719,598,512.4
320,287,350.82
2004
2,522,950,135.3
2,523,060,692.3
425,063,112.95
2005
3,346,997,220**
3,414,987,959.3
536,137,273.30***
*
Sursa : Rapoartele Anuale ale CSA, **Prime brute subscrise, ***3,413,121,224.82 lei.
Eroarea relativ pentru predicia din anul 2005 este de 2,03%, iar eroarea relativ total a
prediciilor este de 1,709%. Predicia pentru volumul primelor brute ncasate din
asigurrile generale directe n 2006 este de 4,496,739,655.42 lei. n cazul datelor
deflatate, eroarea relativ a prediciei pentru 2005 este de 1,975%, iar eroarea relativ
total a prediciilor este de 2,291%.
n cazul asigurrilor de via modelul obinut este X t 59577744.34 1.193007 X t 1 ,
iar pentru date deflatate este X t 12430011.13244 1.07045 X t 1 .
Tabelul 5. Predicii pentru primele brute ncasate din asigurrile de via directe
Anul
Prime brute
Predicii pas cu pas
Predicii pe date
*
ncasate (Xt)
deflatate
Xt
1997
8,073,900
-----1998
19,944,700
69,209,965.58
21,072,716.00
1999
50,569,000
83,371,916.04
27,614,791.13
2000
106,658,600
119,906,927.96
37,301,077.42
2001
211,473,300
186,822,227.40
49,713,089.73
2002
414,514,000
311,866,924.39
69,161,879.41
2003
579,003,012
554,095,951.49
106,828,585.53
2004
693,443,836.2
750,332,535.32
127,993,713.31
**
2005
1,037,990,007
886,861,268.27
139,058,586.40***
*
**
***
Sursa : Rapoartele Anuale ale CSA, Prime brute subscrise, 885,265,455.84 lei.
Eroarea relativ total a prediciilor este de 6,54%, eroarea prediciei pentru 2005 este de
14,5% (mare, deci modelul linear de ordinul 1 nu e recomandabil pentru prognoze aici),
14
iar predicia pentru 2006 este de 1,297,907,347.92 lei. n cazul datelor deflatate eroarea
relativ a prediciei pe 2005 este de 14,7%, iar eroarea relativ total a prediciilor este de
5,54%.
Folosind modelul autoregresiv linear de ordinul doi pentru primele brute ncasate n
contractele directe de asigurri generale (non-life) am obinut
X t 88208606.32 1.124101 X t 1 0.346886 X t 2 cu care am fcut prediciile din
tabelul 6.
Tabelul 6. Predicii pentru primele brute ncasate din asigurrile generale directe
Prime brute
Predicii
~
Anul
ncasate* (Xt)
Xt
1997 122,328,300
--1998 221,539,300
--1999 376,824,000
379,675,001.99
2000 567,228,700
588,645,501.15
2001 789,769,200
856,545,575.45
2002 1,231,451,600
1,172,752,146.19
2003 1,843,505,798.2
1,746,443,710.78
2004 2,522,950,135.3
2,587,667,497.91
**
2005 3,346,997,220
3,563,744,112.26
Sursa : Rapoartele Anuale ale CSA, **Prime brute subscrise.
Eroarea relativ pentru predicia din anul 2005 este de 6,4%, iar eroarea relativ total a
prediciilor este de 2,45%. Predicia pentru volumul primelor brute ncasate n asigurrile
generale directe este de 4,725,745,436.68 RON.
Folosind modelul autoregresiv linear de ordinul doi pentru ndemnizaiile brute i valorile
de rscumprare pltite n contractele directe de asigurri de via am obinut
X t 41,593,144.816 0.371383 X t 1 0.010592 X t 2 cu care am fcut prediciile din
tabelul 7.
Tabelul 7. Predicii pentru ndemnizaiile brute i rscumprrile pltite
n asigurrile de via directe
ndemnizaii brute
Predicii
~
Anul
pltite* (Xt)
Xt
1997 1,858,700
--1998
4,082,800
--1999 12,053,200
43,129,113.47
2000
8,343,700
46,112,740.37
2001 57,633,200
44,819,515.05
2002 142,947,200
63,085,501.75
2003 62,499,098
95,291,716.14
2004 75,280,471
66,318,282.14
2005 97,385,521
70,212,989.45
*
Sursa : Rapoartele Anuale ale CSA
Eroarea relativ pentru predicia din anul 2005 este de 27,9% (mare !), iar eroarea
relativ total a prediciilor este de 22,81%. Predicia pentru volumul ndemnizaiilor
brute pltite n asigurrile de via directe este de 78,557,801.97 RON. Evident, erorile
mari arat neadecvarea modelului pentru prognoze. Aceast evoluie prea sinuoas a
15
acestor sume se explic n parte i prin influena schimbrilor din legislaie, care au
rencadrat anumite produse la alt categorie de asigurri, i prin faptul c evoluia
asigurrilor de via a nregistrat explozii i prbuiri.
II.
REGRESII
(note de curs)
Termenul a fost introdus de Francis Galton (1822-1911) ntr-o lucrare din 1886 n care a
studiat legtura dintre nlimea tailor i nlimea fiilor. El a observat c din prini cu
nlime mai mare dect media grupului considerat se nasc copii cu nlime mai mic
dect a prinilor, iar din prini cu nlime mai mic dect media grupului se nasc copii
cu nlime mai mare dect a prinilor. Prin urmare exist o regresie (ntoarcere) ctre
valoarea medie. n general, este vorba de modelarea relaiei de dependen a unei
variabile de una sau mai multe variabile independente, analog n cazul dependenei unui
fenomen de unul sau mai muli factori. La stabilirea ecuaiei de regresie care s
aproximeze cel mai bine forma real a dependenei cercetate, concur o serie de procedee
statistice. Cel mai simplu este reprezentarea grafic a distribuiilor statistice corelate
(corelograma), graficul sugereaz uneori forma legturii. Alte cerine pentru un calcul
statistic corect sunt reprezentate de omogenitatea datelor i de numrul mare de
observaii. n calcule se opereaz cu mrimi medii, iar media va reflecta mai bine
proprietile tipice ale populaiei cu ct aceasta este mai omogen. Caracterul omogen sau
neomogen al populaiei reprezentate prin datele statistice se sesizeaz prin examinarea
diagramei de dispersie a unitilor de observare n raport cu valorile variabilelor corelate.
Tendina punctelor de a se strnge n dou sau mai multe grupuri ori situarea unor puncte
cu mult n afara norilor de puncte evideniaz eterogenitatea populaiei. n primul caz,
soluia este de a dezmembra distribuiile statistice conform grupelor conturate, urmnd s
se rezolve modelul pentru fiecare grup obinut. n al doilea caz, soluia este dat de
eliminarea din calcule a observaiilor aberante fa de masa observaiilor.
Notnd cu y variabila dependent de p variabile independente x1 , x 2 , , x p , legtura
stocastic poate fi redat printr-o relaie de forma y f x1 , x 2 , , x p , unde este o
variabil aleatoare ce reprezint erorile de observaie sau de msurare, iar f este o funcie
determinist denumit funcia de regresie. Se consider M 0 (operatorul M
desemneaz media, la fel ca i operatorul E, aici vom folosi pentru medie doar M).
Vom considera funcia de regresie liniar f x1 , x 2 , , x p 1 x1 2 x 2 p x p Se
p
j 1
i 1, n , unde M i 0,
t min y x y x
este dat de soluia problemei : min
i2 min
i 1
t ,
t
t P 2P
n cazul n care variabilele de selecie sunt corelate, adic avem Cov y, y 2 W unde
2 este o constant necunoscut i W este o matrice nesingular cunoscut. Avem astfel
M y x , Cov y, y 2 W , unde det W 0 i
modelul : y x ,
rang x p . n acest caz, estimaia vectorului coeficienilor de regresie se obine prin
metoda celor mai mici ptrate generalizate, adic rezolvnd problema :
t
min t W 1 min y x W 1 y x
ntr-adevr, avem : x t W 1 x x t W 1 y
1
x W ,
Cov , M
M x W x x W
x W x x W M W x x W x
x W x x W W W x x W x x W
t
W 1 x
x t W 1 x x t W 1 x
t
x xt W
n
2
n
2
1
y x t V 1 y x
2
, unde
este determinantul
Componentele vectorului M y se numesc valori ajustate ale lui y sau valori estimate
ale lui y.
n cazul n care matricea covarianelor vectorului erorilor este de forma 2 I (aa
t
1
y x y x
n p
1
2
este o estimaie nedeplasat pentru . ntr-adevr, avem : y x x x t x x t ,
2
numitul caz al msurtorilor de precizii egale), statistica
notnd L x x t x x t , K I L rezult
1
17
y x K ,
K t I Lt I L K ,
L2 L,
y x y x
t
K 2 K,
K t K t K 2 t K k ii i2 k ij i j
i 1
i j
Cum TrL Tr x x x x Tr x x x x
1
Tr I
p p
TrK TrI nn TrL n p (TrL este urma matricei L, adic suma elementelor de pe
k
i 1
ii
M i2
i j
ij
1 n
M i j
k ii 2 2
n p
i 1
estimaie * care s scurteze aceast distan, aceast estimaie este denumit estimaia
ridge. Fie 1 2 p valorile proprii ale matricei x t x (reamintim c este
valoare proprie a matricei A dac este soluie a ecuaiei A I 0, unde A este
1
t
este Tr x x
1
p
i 1
p 0
1
1
x t y x t x avem : * x t x k I p 1 x t x x t x x t x k I Z ,
unde Z I p k x t x
1 1
1
k i
i i Z
i
, unde
k i
M * x t x k I p
xt x
18
De asemenea, avem :
Cov * , *
xt x k I p
xt x xt x k I p
Cov ,
metoda jackknife, prin care se obin estimaiile cu acelai nume. Fie 1 i 2 estimaii
ale lui , atunci estimaia J 1 , 2 1 r 2 , r 1 , este numit estimaie
1 r
jackknife. Ea are deplasarea redus fa de deplasrile estimaiilor din care provine. ntradevr, considernd n volumul seleciei, parametrul estimat i
b1 n,
M i bi n, , i 1,2 unde b2 n, 0 , pentru r
1 avem
b2 n,
M J 1 , 2
b2 n,
b n,
1
M J 1 , 2
b1 n, 1
M 1 r M 2
b2 n, b1 n,
b2 n,
1 r
b2 n,
Parametrul r poate fi bine ales pentru clase ntregi de estimaii. Astfel, cnd 1 este o
estimaie deplasat a lui , bazat pe o selecie de volum n, astfel nct
M 1 b f n
M J 1 , 2
obinem r
f n
.
f n 1
M 2 b f n 1
atunci
Exerciiu :
1). Se dispune de datele lunare privind numrul polielor vndute ( Yt = numrul
polielor vndute n luna t),i cheltuielile pentru publicitate n mii u.m. ( X t ) ale unei
societi de asigurri :
Yt
250
220
300
330
Xt
20
25
32
43
a) S se scrie ecuaia de regresie a lui Y n raport cu X.
b) Folosind metoda mediilor mobile de perioad 3, s se extrag trendul seriei X t t , s
se reprezinte grafic i considernd X 0 0 , s se determine a i b din procesul
autoregresiv X t a b X t 1 Z t care s minimizeze suma ptratelor erorilor, unde
Z t ~ N 0, 1 .
19