Documente Academic
Documente Profesional
Documente Cultură
Apst 1
Apst 1
177
variabila timp poate fi înlocuita prin alte variabile, ca de exemplu spatiul.
Metodologia statistica care se ocupa cu analiza si prelucrarea numerica a unor
astfel de secvente de date se numeste analiza seriilor de timp sau analiza seriilor
dinamice. Caracteristica esentiala a acestei abordari, care o diferentiaza de alte
analize statistice, consta în recunoasterea explicita a importantei ordinii de
aparitie a observatiilor. Dupa cum s-a sugerat, scopul unei astfel de analize
cantitative, în cele mai multe dintre cazuri, este caracterizarea succinta, dar de
calitate, a sistemului investigat printr-un model matematic empiric. Acest model
poate fi utilizat, în continuare, pentru predictia evolutiei viitoare a procesului
sau, uneori, pentru studiul modului de interventie asupra sa (conducere) în cazul
aparitiei unor schimbari în mediul în care evolueaza (efectul administrarii unui
medicament asupra evolutiei unei afectiuni, impactul unui spot publicitar asupra
vânzarilor unui produs etc).
Evident, o buna cunoastere a procesului care a generat semnalele
necesita o buna întelegere a principiilor si a elementelor fundamentale care stau
la baza sa ceea ce implica din partea cercetatorului cunostinte de specialitate în
domeniul din care provin datele. Utilizarea acestor modele empirice pentru
probleme de predictie va asigura o prognoza buna numai atunci când stabilirea
modelului se bazeaza atât pe date observationale numeroase cât si pe
cunoasterea legilor care stau la baza manifestarii procesului analizat. Dar chiar si
în cazul când nu se cunosc legile care stau la baza desfasurarii unui proces dat
iar modelul empiric se deduce numai pe baza datelor experimentale se poate
dispune de o predictie utila. Calitatea modelelor va fi însa dependenta si de
cantitatea datelor disponibile. În astfel de situatii trebuie urmarita cu atentie
comportarea pe viitor a acestui model. Astfel, daca se dispune de o serie de
observatii distribuite pe un interval mic de timp, s-ar putea ca acestea sa
defineasca o dependenta liniara, sa reprezinte un arc de parabola sau sa faca
parte dintr-o curba definita printr-o functie periodica. De aceea, supravegherea
atenta a comportarii viitoare a modelului respectiv este foarte necesara. Se
impune deci sa se urmareasca modul în care prevederea este în concordanta cu
observatia si, în momentul când se constata ca datele observationale se abat mult
de la valorile prevazute, sa se refaca calculele si sa fie restabilit un nou model
care sa verifice toate datele experimentale, adica sa fie în acord si cu noile
observatii.
Generator
semnal Proces
•
Identificare
estimare
Model cauzal
θM
Predictor Decizie
Fig.11.1.
În aceasta situatie se pleaca întotdeauna de la cunostintele apriorice
despre proces ce au fost obtinute în urma analizei teoretice sau din masurari
anterioare. În continuare, se masoara marimile de intrare, u(t), marimile de
iesire, y(t), si, eventual, perturbatiile deterministe masurabile, p(t), ale sistemului
si se evalueaza, printr-o procedura de identificare, legaturile cauzale dintre
acestea. Marimile de intrare pot fi semnale din functionarea normala a sistemului
sau pot fi introduse în mod artificial.
În cazul acestei metodologii, principalul obiectiv este de a dezvolta
modele cauzale care sa descrie suficient de precis procesul analizat si de a
proiecta experimente pentru a testa capacitatea de reprezentare.
Spre deosebire de acest caz, când metodologia de analiza si modelare îsi
propune stabilirea unor relatii cauzale intrare-iesire sau perturbatie determinista -
iesire, metodologia de analiza si modelare a seriilor de timp are ca principal
obiectiv descrierea matematica a semnalului de iesire, adica modela rea si
reprezentarea relatiilor dinamice dintre componentele seriilor de timp (fig.11. 2).
p(t)
Proces
Identificare
• estimare
Model tip serie de timp
θM
Predictor Decizie
Fig.11. 2.
Modelele seriilor de timp se constituie deci în functii matematice de
descriere a evolutiei iesirii procesului (modele tip serie de timp), deduse prin
tehnici specifice de analiza si prelucrare a semnalelor (§3). De exemplu, prin
179
analiza se pot evidentia anumite tendinte neperiodice sau componente ciclice în
evolutia sistemului analizat.
Întrucât obiectivul final este de a obtine un predictor optimal, capabil sa
furnizeze o prognoza a evolutiei viitoare pe un anumit orizont de timp a
procesului furnizor de date masurate, se impune parcurgerea unor etape care sa
permita modelarea adecvata a acestuia, similare celor prezentate în fig.1.2-§1.
Identificarea mecanismelor de generare a seriei de timp are un caracter
iterativ. În general, deoarece procesul analizat are cauze necunoscute sau
insuficient cunoscute nu se poate vorbi despre o modelare analitica a modului lui
de manifestare. În acest caz, neputându-se stabili o dependenta functionala
riguroasa, informatia apriorica este slab reprezentata iar alegerea clasei de
modele pe baza analizei teoretice devine adeseori imposibila.
În ceea ce priveste protocolul de experimentare, gradele de libertate sunt
de asemenea restrânse. Deoarece multe din seriile de timp apar în unele domenii
(stiinte sociale, hidrologie etc) unde planificarea experimentelor este posibila
doar în mica masura evaluarea modelelor trebuie facuta cu mare grija. În
practica modelarii seriilor de timp, de regula, se poate obtine o singura realizare
a procesului analizat, neexistând posibilitatea reluarii unor procese de productie
si repetarea unor experimente. Proiectarea experimentului în astfel de situatii
este redusa la o observare corespunzatoare a semnalului de iesire în corelatie cu
dinamica sa de variatie.
Abordarea cu consecventa a problemelor teoretice si experimentale
dintr-un punct de vedere statistic a dus la rezultate valoroase în cele mai diverse
domenii ale stiintelor care apeleaza la prelucrarea datelor experimentale. Totusi,
trebuie facuta precizarea ca prelucrarea datelor experimentale nu se confunda cu
statistica matematica. Aceasta din urma este doar un instrument pretios, dar care
nu se poate substitui unui experiment incorect sau unor date experimentale
gresite. Nici o metoda statistica, prin ea însasi, nu poate sa împiedice greseala,
inexactitatea, rationamentul fals sau concluziile gresite. De aceea, datele primare
trebuie sa fie obtinute corect, metodele de analiza trebuie aplicate adecvat, iar
cel care interpreteaza rezultatele este necesar sa cunoasca bine nu numai
metodele statisticii ci si domeniul în care acestea sunt aplicate.
În cazul unei serii de timp este posibila masurarea valorilor acestora la
orice moment de timp. O astfel de serie este denumita serie de timp continua (de
exemplu, temperatura sau presiunea, masurate continuu într-un proces
tehnologic). Totusi, majoritatea seriilor de timp din practica contin observatii
efectuate asupra unor variabile masurate la momente de timp predeterminate,
separate prin intervale de timp egale, care pot fi, de exemplu, secunde, minute,
ore, zile, luni, ani. Astfel de secvente sunt referite drept serii de timp discrete si
pot fi obtinute în diferite moduri. Chiar daca seria de timp originala, care se
analizeaza, este continua, aceasta poate fi transformata într-una discreta, prin
masurarea valorilor seriei la intervale egale de timp. O serie de timp discreta,
obtinuta în acest mod, este denumita serie de timp esantionata. Un alt tip de serie
de timp care apare frecvent în practica este acela în care variabila de interes nu
180
poate fi masurata continuu, fiind posibila numai masurarea valorilor cumulate
(integrate) ale acesteia, dupa anumite intervale de timp egale. Astfel de serii de
timp sunt referite drept serii de timp cumulate sau serii de timp integrate (de
exemplu, cantitatea de precipitatii masurata zilnic într-o statie).
O alta clasificare a seriilor de timp, si implicit a modelelor, se poate face
dupa numarul variabilelor incluse în acestea. O serie de timp constând numai
dintr-o singura variabila este denumita monovariabila, în timp ce o serie de timp
care include evolutia mai multor variabile, în conexiunea lor, reprezinta o serie
de timp multivariabila.
În construirea unei serii de timp pentru un anumit proces trebuie sa se
asigure omogenitatea termenilor, ceea ce impune ca valorile seriei de date ce
definesc continutul procesului analizat sa se calculeze dupa aceeasi metodologie
si sa se exprime în aceeasi unitate de masura pe toata perioada de timp pe care se
constituie seria. Daca aceste cerinte sunt întrunite atunci neomegentitatea în
cadrul unei serii de timp, manifestata cel mai adesea prin aparitia de rupturi în
seria de date (de panta sau de nivel), se datoreaza unor modificari esentiale în
cadrul fenomenului analizat. Pentru seriile de timp cu astfel de rupturi de nivel
sau de panta, prezinta interes determinarea numarului de subperioade iar daca
este posibil determinarea periodicitatii de aparitie a rupturilor în cadrul seriei si a
gradului de asemanare dintre subperioade. Analiza si modelarea unei serii cu
rupturi de nivel sau panta prezinta dezavantajul major al utilizarii partiale a
acesteia în predictie.
Datele experimentale obtinute trebuie analizate si descrise cu ajutorul
unor modele matematice parametrice empirice care sa caracterizeze cât mai fidel
dinamica semnalului analizat. Modele matematice stabilite trebuie sa satisfaca o
serie de conditii: ele trebuie sa fie destul de sigure si sa asigure o predictie de
calitate, sa aiba o forma simpla pentru a putea fi utilizate cu usurinta iar structura
lor sa fie în concordanta cu existenta fizica a fenomenului respectiv. Aceasta din
urma conditie nu este totdeauna luata în considerare si de aceea anumite modele
matematice îsi pierd repede valabilitatea, iar predictia efectuata pe baza lor
devine una formala.
Desi modelele matematice obtinute nu explica întotdeauna procesul
cercetat importanta lor este foarte mare deoarece pot indica anumite trasaturi
caracteristice ale acestuia. În practica, la stabilirea unor modele matematice
parametrice trebuie avute în vedere urmatoarele doua etape mai importante:
• alegerea formei generale a expresiei analitice a modelului cu care se
doreste aproximarea datelor experimentale disponibile;
• determinarea celor mai probabile valori ale parametrilor modelului.
Pâna în prezent, însa, nu se dispune de o regula generala în baza careia
sa se aleaga cea mai potrivita forma a unei expresii analitice. De aceea, se
considera ca alegerea celei mai probabile forme, care sa fie utilizata cu usurinta
în problemele de predictie, depinde de experienta si intuitia cercetatorului.
O orientare generala pentru alegerea formei expresiei matematice cu
care se doreste sa se modeleze anumite date experimentale poate fi furnizata de
181
reprezentarea grafica. În acest scop se poate utiliza sistemul de coordonate
cartezian sau alt sistem special de coordonate (semilogaritmice, logaritmice) si,
eventual, graficul astfel obtinut sa fie comparat cu alte grafice ale caror expresii
analitice sunt cunoscute. La construirea unor astfel de grafice trebuie avut grija
sa se aleaga o scalare corespunzatoare iar graficul sa furnizeze maximul posibil
de informatii, adica sa nu fie deformat printr-o alegere nepotrivita a unitatilor.
Prin reprezentarea grafica a seriei de date se depisteaza si eventualele
valori aberante, datorate unor factori accidentali, si care trebuie sa fie înlaturate
pentru a nu afecta procesul de estimare a componentelor si parametrilor
modelului.
În ceea ce priveste determinarea parametrilor modelelor, în general nu
exista dificultati daca se alege metoda corespunzatoare fiecarui caz concret si în
corelatie cu tipul datelor experimentale disponibile. În plus, pentru fiecare
metoda se poate determina si precizia de estimare, evident în sens probabilistic.
Totusi, trebuie subliniat faptul ca structura modelului obtinut va fi aproximativa
deoarece tipul de model si situatia în care acesta apare în practica reprezinta o
propr ietate a lumii fizice, si prin urmare determinarea acestuia nu poate fi
realizata numai cu argumente pur matematice.
Un sistem poate fi descris în mai multe moduri, sau, altfel spus, cu
ajutorul diferitelor clase de modele. Pentru a formaliza problema trebuie
introduse o serie de ipoteze asupra mecanismului generator de date.
Teoria proceselor stohastice joaca un rol esential în analiza, modelarea si
predictia seriilor de timp. Din acest punct de vedere o serie de timp poate fi
tratata ca o realizare a unui proces stohastic. Multe din seriile de timp care apar
în practica pot fi descrise utilizând modele stationare. În ipoteza ca procesul
stohastic este stationar, conceptual, seria de timp poate fi tratata ca o realizare a
raspunsului procesului stohastic la o intrare necorelata de tip zgomot alb (§3.2.).
În acest fel, o serie de timp stationara poate fi considerata ca prelungindu-se pe o
durata nelimitata de timp. În analiza ei, momentul de referinta poate fi oricare.
Cercetând seria dinamica pe orice interval de timp trebuie sa se obtina aceleasi
valori tipice (medie, dispersie, functie de autocorelatie etc). Pentru descrierea
unor astfel de serii de timp se poate folosi clasa modelelor stohastice
monovariabile ARMA. Deoarece modelarea unei astfel de serii de timp se face,
în general, pe baza unei realizari unicat a procesului stohastic atunci numai
simpla ipoteza de stationaritate a procesului stohastic este insuficienta pentru ca
modelul sa fie reprezentativ. Pentru aceasta, ipoteza de stationaritate trebuie
completata cu ipoteza de ergodicitate a procesului stohastic stationar.
Proprietatea de ergodicitate a unui proces stationar consta în faptul ca fiecare
realizare separata a acestuia constituie un "reprezentant autorizat" al ansamblului
de realizari posibile, adica fiecare din realizarile posibile ale procesului stohastic
stationar are aceeasi probabilitate de aparitie. Cercetarile teoretice au demonstrat
ca o clasa destul de mare a proceselor stohastice stationare se bucura de
proprietatea de ergodicitate. Practic, verificarea ipotezei de erodicitate se poate
realiza printr-o analiza de corelatie (Anexa 2.1.)
182
De cele mai multe ori însa, ipoteza de stationaritate este în mod evident
infirmata, valorile succesive ale seriei de timp observate constituind o realizare a
unui proces stohastic nestationar. Caracteristic pentru aceste serii de timp
nestationare este faptul ca ele manifesta o anumita tendinta sistematica de
dezvoltare în timp. Din punct de vedere metodologic, astfel de serii de timp
trebuie sa fie transformate, cu ajutorul unor tehnici speciale, în serii de timp care
pot fi modelate ca realizari ale unor procese stohastice stationare.
Reprezentarea grafica a unei serii de timp evidentiaza cele mai
importante caracteristici ale datelor acesteia : prezenta sau absenta tendintei,
existenta unor discontinuitati etc. O forma de analiza a unei serii de timp este
reprezentata de descompunerea evolutiei seriei pe baza a trei componente. Sub
actiunea unui sistem complex de factori, în cadrul unei serii de timp se identifica
urmatoarele componente :
• y t [t ] - tendinta generala (componenta neperiodica/trend): este o variatie
într-o directie specifica ce se mentine o perioada îndelungata de timp. Izolata de
celelalte componente ea indica evolutia procesului.
• y c [t ] - componenta ciclica: este formata din variatii regulate care apar în
întreaga evolutie a procesului. Aceasta componenta poate fi compusa dintr-o
suma de variatii periodice de perioade diferite.
• y a [ t ] - componenta stohastica stationara (aleatoare): este formata din
fluctuatii de mare frecventa ce determina caracterul aleator al seriei de timp.
Dupa cum s-a mentionat, tendinta generala indica evolutia procesului,
fiind rezultatul actiunii factorilor de lunga durata (cresterea continua a
consumului de electricitate, cresterea populatiei globului, diminuarea populatiei
ocupata în agricultura în cadrul populatiei active etc). Pentru modelarea
conceptuala a mecanismului generator al unei astfel de serii de timp nestationare
în medie exista mai multe posibilitati. Aceste variante de modelare sunt
determinate de ipotezele introduse asupra naturii factorilor ce induc acest tip de
nestationaritate. Ipoteza cea mai putin restrictiva este de-a considera ca factorii
determinanti ai tendintei neperiodice sunt de natura aleatoare, în timp ce
considerarea acestor factori de natura pur determinista presupune restrictia cea
mai severa. Atunci când nu exista motive întemeiate pentru o optiune sau alta se
poate alege o modelare de compromis, considerându-se ca tendinta neperiodica
este determinata de actiunea simultana a factorilor de natura determinista si
stohastica.
Modelarea unui proces stohastic nestationar având numai componente
neperiodica stohastica si aleatoare se poate realiza cu ajutorul unui model mai
general decât modelul ARMA(na,nb ), asociat proceselor stohastice stationare, si
anume modelul de tip ARIMA(na,nb ,d). Forma polinomiala a acestui tip de
model este:
A(q − 1 ) y[t ] = B( q − 1 )ε[ t ] (1)
unde:
183
A( q − 1 ) = (1 − q −1 ) d (1 + a 1q −1 + a 2 q − 2 + .......+ a na q − na ) = (1 − q − 1 ) d A(q −1 )
B(q − 1 ) = (1 + b 1q − 1 + b 2 q − 2 + .......+ b nb q − nb )
Se observa ca pentru d=0 se obtine forma modelului ARMA(na,nb ).
Daca operatorul de diferentiere înapoi se noteaza cu ∇=1-q-1 atunci
ecuatia (1) poate fi rescrisa sub forma:
A( q −1 )∇ d y[t ] = B(q − 1 ) ε[ t ] (2)
sau
A(q −1 )z[ t] = B(q − 1 )ε[ t ] (3)
unde
z[ t ] = ∇ d y[ t ] (4)
Prin urmare, se poate observa ca modelul (2) nestationar poate fi
transformat într-un proces ARMA stationar daca seria initiala este diferentiata
conform relatiei (4). Prin inversarea relatiei (4 ) se obtine:
y[t ] = ∇ − d z[t ] (5)
Ecuatia (5) evidentiaza faptul ca procesul descris prin modelul (1) poate
fi obtinut prin integrarea de d ori a procesului stationar descris de modelul (3)
(fig.11. 3).
ε [t ] −1
B( q ) z[t ] 1 y[t ]
A( q −1 ) (1 − q −1 ) d
Fig.11.3
Acesta este motivul pentru care modelul (2) este denumit model
AutoRegresiv Integrat si de Medie Alunecatoare. Pentru d>0, seria de timp y[t]
reprezinta iesirea unui filtru liniar instabil, a carui intrare este o secventa de tip
zgomot alb.
În concluzie, seriile de timp care descriu o comportare nestationara în
medie pot fi stationarizate prin diferentiarea observatiilor de d ori. Evident ca pe
lânga problemele de identificare asociate modelului ARMA apare un parametru
suplimentar de estimat, si anume ordinul operatorului de diferentiere, d.
În unele aplicatii, ipoteza unei tendinte neperiodice pur stohastica nu
este pe deplin justificata. În acest caz este mai realist sa se considere ca tendinta
generala are si o componenta polinomiala determinista de ordinul d.
y td [t ] = c0 + c1 t + c 2 t 2 + ... + c d t d (6)
Si în aceasta situatie modelul de tip ARIMA(na,nb ,d) poate fi înca utilizat
prin adaugarea unui termen independent. Astfel, daca se considera ca exista si o
tendinta neperiodica pur determinista de tipul (6) se constata ca prin aplicarea
operatorului de diferentiere de ordinul unu polinomului de aproximare se obtine
184
un polinom de aproximare având un grad cu un ordin mai mic. Prin generalizare
se obtine:
p , k = d
∇ k y td [t ] = 0 (7)
0, k > d
În concluzie, introducerea constantei p0 în cadrul modelului (1) asigura
formarea automata, prin integrare, a tendintei polinomiale de ordinul d:
A (q −1 ) y[ t ] = p 0 + B(q −1 )ε[t ] (8)
Un astfel de mecanism generator de date poate fi reprezentat ca în
fig.11.4.
p0
A( q −1 )
z[t ] y[t ]
ε [t ] B ( q −1 ) 1
A( q −1 ) (1 − q −1 ) d
Fig.11.4
Numeroase serii de timp din practica prezinta o comportare periodica
(ciclica). O astfel de serie are o evolutie care se repeta dupa fiecare c intervale de
timp, unde c>0. Aceste modificari periodice sunt rezultatul actiunii unor factori
care au o regularitate începând de la o zi (traficul orar la metrou pe parcursul
unei zile) si pâna la nivelul unui an. Unul din cele mai frecvent întâlnite moduri
de comportare periodica îl constituie variatia sezoniera a seriei, în special în
cazul seriilor de timp din domeniul economiei, afacerilor si stiintelor sociale. Ele
sunt generate de diferentele naturale dintre anotimpuri, de obiceiurile specifice
din diferitele luni ale anului, de cereri si oferte cu caracter sezonier (productia si
consumul de racoritoare, productia si consumul de gaze naturale etc).
Elementul esential în cadrul unei serii de timp având componenta ciclica
de perioada c îl constituie similaritatea observatiilor separate prin c intervale de
timp:
c
y c [t ] = y c [ t − c]; ∑y j= 1
c [ j] = 0 (9)
185
va utiliza operatorul de diferentiere ciclica, ∇c=1-q-c, ce asigura diferentierea
seriei de la o perioada la alta:
∇ c y[ t ] = y[t ] − y[t − c ] (10)
Notând cu D gradul de diferentiere ciclica a seriei atunci diferentele de ordin D
ale seriei pot fi scrise sub forma:
∇ Dc y c [t ] = (1 − q − c ) y c [t ]
D
(11)
Forma generala a unui model ARIMA ciclic este similara unui model
ARIMA neperiodic, având structura din fig.11.5:
A c (q −1 )∇ Dc y[t ] = Bc ( q −1 )ε[t ] (12)
ε [t ] B c (q − 1 ) z c [t ] 1 y c [t ]
−1
Ac ( q ) (1 − q −c ) D
Fig.11. 5
În cazul când seria de timp nestationara contine atât componenta
neperiodica cât si componenta ciclica modelul (12) reprezinta numai
componenta sezoniera, având la intrare un zgomot corelat. Notând acest tip de
zgomot cu e[t], modelul devine:
A c (q −1 )∇ Dc y[t ] = Bc ( q −1 )e[t ] (13)
Prin exprimarea zgomotului corelat cu ajutorul unui model genaral ARIMA
nesezonier se obtine modelul de ansamblu:
A( q −1 )A c (q −1 )∇ d ∇ Dc y[t ] = B(q − 1 ) B c (q −1 )ε[t ] (14)
Acest model reprezinta un model multiplicativ
ARIMA(na,nb ,d)(nac ,bb c ,D), unde (na ,nb ,d) precizeaza ordinele neperiodice, iar
(nac,bb c,D) precizeaza ordinele periodice (fig.11.6).
ε [t ] B( q −1 ) e[t ] Bc (q −1 ) y 0 [t ]
∇ d A(q −1 ) ∇ D Ac (q −1 )
ARIMA( na , nb , d ) ARIMA (n ac , nbc , D)
Fig.11.6
Odata stationarizate seriile analizate etapa urmatoare consta în
identificarea modelului acestora (structura si parametri). Dupa obtinerea
modelului seriei si a valorilor de predictie ale seriei de timp stationarizate,
urmeaza sa se efectueze transformarea matematica inversa, pentru obtinerea
valorilor de predictie ale seriei originale nestationare.
O alta metodologie de analiza a seriilor de timp realizeaza într-o prima
186
etapa descompunerea aditiva a seriei nestationare în cele trei tipuri de
componente:
y 0 [ t ] = y t [t ] + y c [ t] + y a [t ] (15)
În aceste caz se presupune ca tendintele neperiodica si ciclica sunt de
natura determinista (fig.11. 7).
ε[t ] H ( q −1 )
y c [t]
y a [t ]
y0 [ t ]
y t [t]
Fig.11.7
În acest fel, în procesul de analiza si interpretare a unei serii dinamice se
introduce o ipoteza simplificatoare, considerându-se ca modul de a se comporta
al fiecareia din cele trei componente este determinat de grupe diferite de factori
cauzali independenti. În practica, o astfel de ipoteza se dovedeste, uneori,
nerealista, tendintele fiind de cele mai multe ori stohastice. Totusi, este extrem
de dificil de afirmat daca o schimbare în nivelul seriei se datoreaza unei tendinte
stohastice sau deterministe.
În acest sens, desi în scopuri strict analitice descompunerea si izolarea
componentelor seriei de timp constituie un procedeu necesar si esential aceasta
nu înseamna ca s-a reusit si identificararea si izolarea cauzelor complexe care au
dat nastere în exclusivitate la evolutia de ansamblu a procesului si determina,
totodata, variatiile locale de scurta sau lunga durata. În general, un astfel de
rezultat nu se poate obtine, data fiind conexiunea, dialectic interdependenta, a
tuturor cauzelor ce actioneaza asupra unei serii de timp.
În concluzie, un prim obiectiv al acestei metodogii de analiza si
modelare, îl constituie descompunerea seriei pe elemente componente.
Modelarea elementelor componente se realizeaza în trei etape distincte de calcul
estimativ, determinându-se componenta neperiodica, y t [t ] , componenta ciclica,
y c [t ] si componenta aleatoare y a [ t ] . Pentru modelarea acestor semnale se pot
utiliza diferite tipuri de parametrizari. Semnalele determin iste sunt analizate si
modelate cu ajutorul tehnicilor specifice de prelucrare numerica, în timp ce
semnalele stohastice, considerate realizari ale unor procese stationare ergodice,
sunt analizate si modelate cu ajutorul tehnicilor specifice analizei statistice.
În final, predictia seriei originale se realizeaza prin sumarea valorilor de
predictie obtinute pentru componentele deterministe si stohastica ale seriei.
În continuare vor fi prezentate aspectele de analiza, modelare si predictie
ale unei serii de timp, considerându-se ca mecanismul generator de date poate fi
structurat conform modelului conceptual prezentat în fig.11.7. În acest sens, se
187
considera ca alegându-se o perioada de esantionare corespunzatoare, ∆, s-a
observat evolutia unui proces de-a lungul unui interval de timp [0,T]. În acest fel
se dispune de un sir de observatii, y 0 [ t∆] , unde t = 1, N, N∆ = T. Pentru
simplificarea notatiilor se va considera perioada de esantionare normata, adica
∆ = 1 . În acest caz seria de timp initiala supusa analizei si modelarii va fi notata
{y 0 [ t ]}t =1, N . Daca aceasta serie de timp discreta contine cel putin o componenta
determinista atunci ea se constituie într-o realizare a unui proces stohastic
nestationar, monitorizat pe intervalul [0,T]. Aprioric se considera ca prin
identificarea componentelor deterministe si apoi eliminarea valorilor simulate
ale acestora se obtine o serie de timp stationara ergodica.
Conceptul general de tendinta neperiodica sintetizeaza teoretic evolutia
larga, lina si implicit continua a întregului proces analizat. Daca în urma
reprezentarii grafice a seriei se constata ca aceasta are cel putin o tendinta de
evolutie de ansamblu de medie nenula se impune modelarea si eliminarea aceste i
componente neperiodice.
11.2. Analiza si modelarea componentei deterministe neperiodice
În forma cea mai generala componenta determinista neperiodica depinde
de un numar finit de parametri a0 , a 1 , a 2 ,.....a m , fiindu-i asociata o clasa de
modele de tipul
f (t , a 0 , a 1 , a 2 ,....a m ) = f (t, θ ) , θ T [ t ] = [a 0 a 2 a 3 ....... a m ]
Clasa de modele este specificata daca se precizeaza forma analitica a
functiei f (t , θ ) si este complet specificata daca se cunosc valorile numerice ale
parametrilor, θ . Definind eroarea de modelare
e m (t, θ ) = y 0 [t ] − f (t , θ ) (1)
determinarea parametrilor se realizeaza în sensul minimizarii erorii medii
patratice de modelare
V(θ) = ∑ e 2m (t , θ ) = ∑ (y 0 [t ] − f (t, θ)) = min
1 N 1 N 2
(2)
N t=1 N t =1
Din analiza unor serii diverse de timp se ajunge la concluzia ca acestea
ar putea fi reprezentate de o clasa destul de mica de functii. În functie de modul
de dispunere a valorilor {y 0 [t ]}t =1,N în sistemul cartezian de axe pot fi
identificate diferite tendinte neperiodice de lunga durata (functii lin iare, functii
putere, functii exponentiale, functii hiperbolice, polinoame de un anumit ordin).
11.2.1. Modelarea componentei deterministe neperiodice
cu ajutorul polinoamelor algebrice
Datorita faptului ca polinoamele algebrice sunt functii ce pot aproxima
uniform orice functie continua cu suport compact (teorema Weierstrass-Stone),
modelul matematic al componentei deterministe neperiodice este ales din clasa
polinoamelor. În acest fel, chiar daca tendinta nu are, în realitate, o comportare
188
polinomiala, alegerea unui polinom algebric ca model matematic asigura o
îndepartare minima fata de situatia reala.
În consecinta descrierea matematica a componentei neperiodice pentru o
serie de timp poate fi realizata sub forma
f (t , θ) = y t [t ] = a 0 t 0 + a 1 t 1 + a 2 t 2 + .....+ a m t m = ∑ a i t i
m
(3)
i=0
Daca se precizeaza structura modelului (gradul m) atunci determinarea
parametrilor se poate realiza printr-o procedura de optimizare parametrica.
Utilizându-se aceasta functie polinomiala pentru modelarea componentei
neperiodice, criteriul de aproximare (2) conduce la ecuatiile estimatorului în
sensul celor mai mici patrate. Având în vedere ca modelul de regresie liniara
asociat modelului parametric (3) are forma
y t [t ] = ∑ a i t i = ϕ T [ t]θ; ϕT [t ] = [u 0 [ t] u 1 [t ] u 2 [t ] ... u m [ t ]]; u i [ t] = t i (4)
m
i=0
din conditiile analitice de anulare a gradientului erorii medii patratice de
modelare în raport cu vectorul de parametrii se obtine ecuatia matriceala a
estimatorului sub forma (§7.1):
−1
1 N 1 N
θˆ = ∑ ϕ[t ]ϕT [t ] ∑y 0 [t ]ϕ[ t] = R −N1 r N (5)
t =1
N N t =1
unde
T
1 N 1 N
1 N
r N = ∑ y 0 [ t ]u 0 [ t ] ∑ y 0 [t ]u 1 [ t ] ..... ∑ y 0 [t ]u m [ t ]
N t =1 N t =1 N t=1 (6)
1 N
1 N
1 N
N ∑ u 0 [t ] ∑ ∑
2
u 0 [ t ]u 1 [t ] ... u 0 [ t ]u m [t ]
N t =1 N t=1
N
t=1
N
1
∑ u 1 [t ]u 0 [t ] 1 1 N
R N = N t=1 ∑
N t=1 1
u 2
[ t ] ... ∑ u
N t =1 1
[ t ] u m
[ t ]
(7)
... ... ... ...
1 N 1 N 1 N 2
∑ u m [t ]u 0 [t ] ∑ u m [ t ]u 1 [t ] ... ∑ u m [t ]
N t=1 N t =1 N t =1
Dupa cum s-a vazut estimatorul de tipul celor mai mici patrate este
consistent, estimatiile parametrilor fiind marimi aleatoare cu distributie normala
θˆ ∈ N(θ* , λ*2 R − 1 ) N (8)
În plus, daca dispersia zgomotului nu este cunoscuta atunci un estimator
nedeviat al acesteia are forma (§7.1.1)
( )
N
1
∑
2
λˆ 2 ( m) = y 0 [ t ] − ϕ T [t ]θˆ (9)
N − (m + 1) t = 1
Ecuatiile estimatorului au fost deduse considerându-se ca struc tura
modelului este precizata. Deoarece nu se dispune de informatie suficienta asupra
mecanismului determinist de generare a componentei neperiodice trebuie
utilizata o procedura de determinare a structurii unui sir de modele
189
m
∑ â i u i [t ] cu indicii de structura m din ce în ce mai mari, ramânând sa se
i= 0 m =0 ,n
discearna care din ele este cel mai bun. Cel mai util model este cel cu cel mai
mic numar de parametri (principiul parcimoniei). În consecinta dintre doua
modele de precizie sensibil egale, va fi preferat cel de complexitate mai mica.
Eroarea medie patratica de modelare, V( θˆ ) , poate fi o masura a calitatii
m
modelului.
În cadrul procedurii de determinare a structurii optime a modelului se
determina succesiv vectorul de parametri si eroarea medie patratica de modelare
{ ( )}
pentru structuri din ce în ce mai complexe θˆ m , V θˆ m m = 0, n iar apoi se reprezinta
grafic variatia erorii medii patratice în raport cu indicele structural m. În urma
analizei acestui grafic se poate stabili indicele structural optim, mopt , pentru care
descresterea functiei criteriu este nesemnificativa. În acest fel modelul
componentei deterministe neperiodice este complet specificat:
m opt
ŷ t [t ] = ∑ â i u i [t ] (10)
i= 0
Odata determinat, acest model trebuie eliminat din seria initiala de date,
obtinându-se o noua serie ce poate include o eventuala componenta determinista
ciclica:
y[t ] = y 0 [ t] − ŷ t [t ] = y c [t ] + y a [t ] (11)
Deoarece seria initiala nu contine în mod necesar o componenta
determinista neperiodica, care sa impuna prelucrarile numerice prezentate
anterior, prin abuz de notatie, noua serie va fi notata tot cu y0 [t], adica:
y 0 [ t ] = y c [ t ] + y a [t ] (12)
Observatii:
1.Utilizarea estimatorului de tipul celor mai mici patrate pentru
determinarea coeficientilor modelului de forma (3) implica un efort de calcul
considerabil, ecuatia matriceala (5) fiind recurenta numai în anumite conditii. În
plus, modificarea indicelui structural impune recalcularea tuturor coeficientilor
modelului.
2.Alegerea indicelui structural optim al tendintei neperiodice se face pe
baza graficului erorii medii patratice de modelare, procedura fiind de slaba
precizie datorita faptului ca minimul functiei nu este suficient de pronuntat. Este
evident ca alegerea indicelui structural optim se poate realiza si în sens
()
probabilistic, pe baza descresterii relative a functiei V θ̂ (§8.2), însa statisticile
rezultate pentru acest tip de model sunt suficient de complexe.
Toate aceste dezavantaje pot fi eliminate daca tendinta determinista
neperiodica este modelata cu ajutorul unui polinom cu variabile independente
ortogonale.
190
11.2.2. Modelarea componentei deterministe neperiodice
cu ajutorul polinoamelor ortogonale
Dupa cum s-a aratat (§3.1), un semnal determinist oarecare x(t), definit
pe intervalul [a,b], poate fi aproximat printr-o combinatie liniara finita de functii
ortogonale, în sensul minimizarii erorii medii patratice:
x (t ) = a 0 ϕ 0 (t ) + a 1 ϕ1 ( t) + .....+ a m ϕ m ( t ) (13)
unde sirul de functii ortogonale satisfac, pe intervalul [a,b], conditia de
ortogonalitate:
0 , i ≠ j
b
t =1
∑ ∑ b j ϕ j [ t ] + y a [ t ]ϕi [ t ]
t =1 j= 0
σ 2i = M N − bi =
*2
∑ ϕi2 [t ]
t =1
192
2
N N N
b *i 2 ∑ ϕ 2i [ t ] + 2 ∑ ϕi2 [t ]M[ y a [ t]] + ∑ ϕ 2i [t ]M[ y 2a [t ]]
t =1 t =1 t =1 λ* 2
= 2 − b *i2 = N
N 2 ∑ ϕ [t ]
∑ ϕ i [ t ]
2
i
t =1 t =1
t =1 j= 0
Deoarece y a [t ] ∈ N(0 , λ*2 ) atunci z[t ] = a * ∈ N(0,1) , ceea ce implica:
y [ t]
λ
η = z 2 [1] + z 2 [2 ] + ......+ z 2 [ N ] =
(N − (m + 1) )λˆ 2 (m ) ∈ χ 2 ( N − (m + 1)) (32)
λ*2
adica variabila aleatoare η are o distributie "hi patrat" cu (N-(m+1)) grade de
libertate. Numarul gradelor de liberate se afla scazând din numarul valor ilor
experimentale, N, de care depinde variabila aleatoare numarul relatiilor prin
care sunt legate aceste valori, adica (m+1).
Daca se tine cont de relatiile (29), (30) si (32) se obtine:
b̂ i − b *i N 2 λ* b̂ i − b i N 2
ti =
λ*
∑ ϕ i [ t] = ∑ ϕi [ t] ∈ T( N − ( m + 1)) (33)
t =1 λˆ (m ) λˆ ( m) t =1
194
variind de la o realizare la alta. De regula sunt luate în considerare intervale
simetrice, pentru care ε1 =ε 2 =ε.
Tinând cont ca o variabila aleatoare repartizata Student are media nula
iar densitatea de repatitie este simetrica (fig.11.8), atunci − ε1 = ε 2 = ε .
Limitele de încredere se determina din conditiile:
α
P[ε 1i < t i ] = 2 = FT( N− ( m +1)) (ˆε 1i )
(34)
P[t < ε ] = 1 − α = F (εˆ 2i )
i 2i
2
T ( N − ( m +1))
α α
P= P=
2 2
P = 1− α
ε 2 = t n;1− tn
ε1 = t n; α α
2
2
Fig.11.8
Solutiile ecuatiilor (34) sunt de forma:
εˆ 1i = FT−(1N − (m +1)) ( α2 )
(35)
ˆε 2 i = FT ( N− ( m+ 1)) (1 − α2 )
−1
ˆλ (m ) ∑
ϕ2i [t ] ≤ FT−1( N− ( m+ 1)) (1 − α2 ) (38)
t =1
∑ ϕi [t] 2
t =1
∑ ϕ i [t ]
2
t =1
∑
i 2
P (41)
λˆ (i) t =1 2
având solutia
t 0i = F(−N1− (i +1) (1 − α2 ) (42)
Se obtin submultimile (fig.11.9):
V (t ) = {t / P[ t ∈ V ( t ) / H 0 : b *i = 0] = α} = {t ∈ [t 0 , ∞ )}
{ }
(43)
V (t ) = t / P[ t ∈ V ( t) / H 0 : b i = 0] = 1 − α = {t ∈ [0,t 0 )}
*
196
f ( tn )
α α
P= P=
2 2
P =1 − α
tn
V(t ) V( t ) V(t )
− t0 t0
Fig.11.9
Ipoteza nula, H 0 : b i = 0 , se accepta daca valoarea statisticii (33)
*
197
Prima abordare se bazeaza pe teoria analizei spectrale de tip Fourier
pentru a determina modelul armonic al componentei sezoniere (§3.1), în timp ce
a doua abordare releva un punct de vedere temporal natural si simplificat, ce
conduce direct la determinarea coeficientilor sezonieri si a perioadei prelucrând
corespunzator seria de date (1).
11.3.1. Modelarea componentei deterministe ciclice cu ajutorul
polinoamelor ortogonale trigonometrice. Metoda spectrogramei
Schuster
În cazul utilizarii metodei spectrogramei Schuster, componentei ciclice i
se asociaza un model armonic de forma:
y c [t ] = ∑ (a i cos(ω i t) + b i sin( ω i t) )
m
(3)
i =1
2T
i T ∫ y (t ) cos iωtdt ,
a = i = 1,2,3,...
0
2T
unde: b i = ∫ y( t ) sin iωtdt , i = 1,2,3,... (4)
T0
1
T
a 0 = ∫ y( t )dt , i=0
T0
Efectuarea analizei unui semnal periodic este, de obicei, o problema
simpla daca semnalul se exprima analitic prin functii corespunzatoare unor
segmente de dreapta sau a unor arce de parabola. În aceste conditii, calculul
integralelor (4) se face fara dificultati. În plus, cu ajutorul seriilor unor functii
elementare se pot deduce seriile altor semnale periodice care se obtin din
semnalele elementare prin operatii de translatare de-a lungul axelor sau de
derivare si integrare în raport cu timpul.
În cazul analizei seriilor de timp semnalul y0 [t] nu este precizat printr-o
expresie analitica ci printr-o serie ordonata de date, observate uniform de-a
lungul unui ciclu. În aceasta situatie va trebui ca în locul relatiilor exacte de
calcul al coeficientilor Fouriér sa se utilizeze relatiile aproximative, obtinute
printr-o metoda numerica de integrare.
Pentru specificarea completa a modelului (3) asociat componentei
ciclice trebuie precizat:
• indicele structural m care, în acest caz, precizeaza numarul armonicilor
semnalului cu putere spectrala semnificata;
• parametrii, adica amplitudinile armonicilor, definite prin coeficientii
Fourier, a 0 , a 1 , a 2 ,....a m , b 1 , b 2 ,....b m
Observatie : Notatia utilizata ai , bi nu trebuie interpretata ca facând referire la
armonica de ordin i a semnalului analizat y 0 [ t ] ci la cea de-a i-a armonica de
ordin k cu putere spectrala semnificativa, inclusa în modelul asociat
componentei ciclice.
198
Principiul metodei spectrogramei Schuster
Pentru determinarea coeficientilor sezonieri se utilizeaza seria initiala
(1). Datorita prezentei componentei aleatoare, aceasta serie de date nu are în
mod obligatoriu o variatie perfect periodica. De aceea, ea nu poate fi descrisa
matematic cu ajutorul polinoamelor ortogonale trigonometrice decât în sensul
celor mai mici patrate, sub forma:
y 0 [ t] = a 0 + ∑ [a i cos(iω 0 t ) + b i sin( iω 0 t )]
p
(5)
i= 1
Deoarece estimatorul de tipul celor mai mici patrate necesita aprioric
informatia structurala, pentru determinarea modelului armonic al seriei brute
trebuie precizata valoarea indicelui structural p. Spre deosebire de metodologia de
modelare a componentei deterministe neperiodice în aceasta situatie aceasta valoare
se poate determina pe baza unor considerente ale teoremei esantionarii (Shannon).
Potrivit acestei teoreme intervalul de observare, ∆, trebuie sa fie cel mult jumatate
din cea mai mica perioada a armonicii din cadrul modelului (5), adica:
T
∆ ≤ min (6)
2
Perioada de esantionare fiind prestabilita se poate determina valoarea
minima a perioadei reprezentabile în model sau, echivalent, valoarea maxima a
pulsatiei raportate la perioada de esantionare.
2 π 2π
ω max = ≤ (7)
Tmin 2∆
Pe de alta parte considerând ca perioada maxima reprezentabila este
întregul interval de observare (Tmax=N∆) se poate determina pulsatia minima din
cadrul modelului (5):
2π 2π
ω min = ω 0 = = (8)
Tmax N∆
Aceasta pulsatie este de fapt pulsatia fundamentala a modelului,
celelalte armonici fiind pulsatii multiple ale fundamentalei.
2π
ω i = iω0 = i (9)
N∆
Cum si pulsatia maxima reprezinta un multiplu al pulsatiei fundamentale
atunci se poate deduce indicele maxim imax=p.
2π 2 π N
p ≤ ⇒p ≤ (10)
N∆ 2∆ 2
În baza relatiei (10) se alege:
N
p = 2 -1 , N par
(11)
p = N − 1 , N impar
2
Modelul (5) poate fi reformulat în urmatoarea maniera:
199
p
2π 2π
y 0 [t ] = a 0 + ∑ a i cos i t + b i sin i t (12)
i =1 N N
Odata stabilit indicele structural p, trebuie determinati cei 2p+1
parametri folosind metoda celor mai mici patrate si conditiile de ortogonalitate
pe care le îndeplinesc functiile sin (iω0 t ) si cos (iω 0 t ) . Pentru aceste functii
conditiile de ortogonalitate (16 §11.2.2) devin:
0 ,i ≠ j
N
∑ cos i 2 π t cos j 2π t = N ,i=j ≠ 0
t =1 N N 2
N, i = j = 0
0 , i ≠ j
N 2 π 2π
∑ sin i t sin j t = N (13)
n =1 N N 2 , i = j
N 2 π 2π
∑ sin i N t cos j N t = 0
n =1
Modelul (12) se scrie în forma vectoriala:
2p
y 0 [t ] = c T2p +1 ϕ 2p +1 [t ] = ∑ c i ϕ i [t ] (14)
i= 0
unde:
c 2 p +1 =
[a a a 2 ...... a p b1 b 2 .......b p
0 1 ]
T
(15)
T
2π 2π 2 π 2π 2 π 2π
ϕ 2 p +1 = 1 cos1 t cos 2 t ... cos p t sin1 t sin 2 t ....sin p t
N N N N N N
Pentru determinarea coeficientilor se pot particulariza relatiile (17) si
(18), §11.2.2. Astfel tinând cont de relatiile (13) estimatiile coeficientilor ci
(i=0,1..2p) sunt:
1 N
∑ y 0 [ t] = â 0 , i = 0
N t =1
y 0 [ t]ϕi [ t ] N
N
∑
2 2π
ĉ i = t =1 N = ∑ y 0 [ t] cos i t = â i , i = 1,2 ..p (16)
N
∑ N t =1
ϕi [t]
2
t=1 2 N 2p
∑ y 0[t] sin (i − p) t = b̂ i − p ,i = p + 1,..2p
N t =1 N
Observatii:
1. Relatiile (16) reprezinta varianta discreta a relatiilor (4) si sunt o consecinta a
aplicarii teoremei esantionarii.
2. Varianta discreta a modelului în coordonate polare este:
200
p
2π 2π
p
2π ˆ
ŷ0 [t ] = â 0 + ∑ âi cos i t + b̂i sin i t = R̂ 0 + ∑ R̂ i cos i t + α i (17)
i=1 N N i =1 N
unde relatiile de legatura sunt:
b̂
R̂ i = â i2 + b̂ 2i αˆ i = arctg − i (18)
â i
Odata cu determinarea acestor coeficienti s-a obtinut de fapt o estimatie
a spectrului semnalului y 0 [t ] , dar care nu reprezinta în mod necesar spectrul
discret al componentei ciclice, y c [ t] . Acest spectru reprezinta o combinatie a
spectrului discret al componentei ciclice, y c [ t ] , si a celui datorat componentei
aleatoare, y a [t ] , presupusa ergodica. De aceea acest spectru trebuie analizat si
evaluate componentele spectrale de putere semnificativa, datorate componetei
ciclice, ce vor fi incluse în modelul (3). Evaluarea liniilor spectrale semnificative
se realizeaza pe baza spectrogramei Schuster, ce reprezinta spectrul de
amplitudine cumulat, datorat componetei ciclice si stohastice.
În ipoteza unei componente aleatoare ergodice de tip zgomot alb
spectrul discret al acesteia are o repartitie uniforma, adica puterea spectrala este
uniform repartizata în banda de frecventa a semnalului. Fiind vorba însa de o
realizare finita a procesului stohastic, în general, aceste linii spectrale au o
deviatie standard de pâna la 10%.
Plecând de la aceste considerente, analiza unei spectrograme Schuster
poate evidentia urmatoarele informatii (fig.11.10):
Spectrul
discret
R̂ p
pf
Fig.11.10
• un maxim global, în pozitia p f , care permite calculul perioadei optime
posibile a componentei ciclice:
2π N
cf = = (19)
ωpf p f
considerându-se ca perioada optima a componentei sezoniere este data de
perioada armonicii cu amplitudine predominanta, p f , din modelul (17).
• o serie de maxime locale, care indica si alte perioade posibile ale
componentei ciclice .
201
Daca seria de timp nu contine nici o informatie de repetabilitate,
maximul global nu difera semnificativ de maximele locale. În acest caz spectrul
discret apare ca o functie aproximativ constanta, care oscileaza strâns în jurul
unei valori medii. De regula, daca se întâlneste acesta situatie, atunci fie
componenta periodica nu mai figureaza în expresia modelului, maximele locale
fiind datorate spectrului componentei aleatoare, fie ea are o perioada foarte mare,
pentru detectarea careia ar fi necesar un numar mult mai mare de date masurate.
Pentru selectarea armonicilor semnificative ce trebuie incluse în modelul
componentei ciclice (3) se calculeaza media amplitudinilor liniilor spectrale, cu
relatia:
1 p
Rˆ = ∑ R̂ i (20)
p i= 0
Daca toate maximele spectrogramei se afla în intervalul 0 .9 Rˆ,1.1Rˆ
atunci putem considera ca seria de timp nu contine componenta ciclica.
Daca, în schimb, spectrograma contine linii spectrale de amplitudine
semnificativa atunci armonica cu amplitudinea cea mai mare este eliminata din
modelul seriei (12) si inclusa în modelul (3), reevaluându-se totodata valoarea
medie a puterii spectrale, (20).
Procedura continua pâna la extragerea tuturor armonicilor semnificative,
adica pâna când liniile spectrale ale spectrogramei Schuster se încadreaza în
banda 0 .9 Rˆ,1.1Rˆ .
Observatii:
1. Un prim dezavantaj al metodei rezida în natura discreta a spectrului.
Astfel, daca se considera relatia (19) se constata ca numai în cazul în care N este
divizibil cu p f se poate obtine o valoare întreaga a perioadei cf . De regula, este
dificil sa se cada exact peste o astfel de situatie, astfel ca perioada optima trebuie
sintetizata prin includerea unui numar de armonici adiacente, fapt care conduce
la scaderea preciziei de estimare.
2. Cel de-al doilea dezavantaj consta în faptul ca desi coeficientii
Fouriér sunt estimati cu ajutorul relatiilor (16), consecinta a proprietatii de
ortogonalitate a polinoamelor trigonometrice, efortul de calcul necesar este
considerabil. O ameliorare a acestui neajuns o constituie utilizarea algoritmului
rapid de calcul al transformatei Fourier discreta în timp si frecventa (§3.1).
202
N −1 −j
2π
N −1 2π 2π
Y0 ( jω0i) = F{y0[ t∆ ]} = ∆ ∑ y0[ t∆ ]e = ∆ ∑ y0[ t∆] cos ti − jsin ti (21)
ti
N
unde
λ*2 = D[ y a [t ]] (28)
reprezinta dispersia componentei aleatoare, iar ĉ i sunt cei din relatia (16).
Estimatia nedeviata a dispersiei componentei aleatoare, relatia (28), are
expresia:
N N 2 N 2p
λˆ2 (2 p + 1) =
1
∑ ( y0[ t] − ŷc[ t ])2 = 1
∑ y0 [ t] − N ĉ20 − ∑ ĉ2j (29)
N − ( 2 p + 1) t =1 N − ( 2p + 1) t = 1 2 j=1
Astfel, tinând cont de expresia generala a estimatorului (9 §11.2.1), de
forma modelului (14), expresiile estimatiilor coeficientilor, (16), precum si de
conditiile de ortogonalitate (13), succesiv se obtine:
203
2
N 2p
( y0 [ t] − ŷc [t ]) 2 =
1 N 1
λˆ 2 ( 2 p + 1) = ∑
N − ( 2p + 1) t =1
∑ y 0 [ t] − ∑ ĉ j ϕ j [ t] =
N − ( 2p + 1) t =1
j= 0
1 N 2 N 2p
= ∑ y 0 [ t] − Nĉ 20 − ∑ ĉ 2j
N − ( 2 p + 1) t =1 2 j =1
De asemenea, similar cazului modelului polinomial ortogonal se poate
arata ca statistica
ĉ i − c *i N
ti = ∑ ϕ2i [ t ] ∈ T( N − (2 p + 1)) (30)
λˆ ( 2p + 1) t =1
adica are o repartitie Student cu (N-(2p+1)) grade de libertate, datorate
numarului de coeficienti ai modelului.
Utilizând aceeasi metodologie de determinare a intervalelor de încredere
ca în §11.2.2., cu ajutorul statisticii (30) se poate evalua eroarea de estimare a
parametrilor. Se obtin intervalele de încredere:
λˆ (2 p + 1)FT−(1N −( 2 p+1)) (1 − α2 ) * λˆ (2 p + 1)FT−(1N −( 2p +1)) (1 − α2 )
ĉ i − ≤ c i ≤ ĉi + (31)
N N
∑ ϕi [ t ]
2
∑ ϕi [ t ]
2
t =1 t =1
adica:
λ( 2 p + 1)FT−(1N − ( 2 p +1 )) (1 − α2 ) ≤ c*i ≤ ĉ i + λ (2 p + 1) FT−1( N −( 2 p +1)) (1 − α2 ), i = 1,.. 2 p
2ˆ 2 ˆ
ĉ i −
N N (32)
ĉ − 1
λˆ ( 2 p + 1) FT−1( N −( 2 p +1)) (1 − α2 ) ≤ c *0 ≤ ĉ 0 +
1
λˆ ( 2 p + 1) FT−(1N −( 2 p +1 )) (1 − α2 ), i = 0
0 N N
204
Pe de alta parte, din ecuatia estimatorului dispersiei, relatia (29), se obtine:
2
N
2p
(N − (2p + 1))λˆ 2 (2p + 1) = ∑ y 0 [t ] − ∑ ĉ j ϕ j [ t] = y 2a [1] + y 2a [2] + .. + y 2a [N ] (35)
t =1 j= 0
fi = = ∈ F( 2, N − ( 2p + 1)) (37)
2 ζ2 4 λ*2 λˆ 2 ( 2p + 1)
adica are o repartitie Fisher cu 2 si respectiv (N-(2p+1)) grade de libertate
(fig.11.11).
f (fi )
P=α
P =1 − α
ε = f i ;1−α fi
Fig.11.11
Alegând un prag de semnificatie, α, intervalul de încredere se obtine
din conditia:
P[f i < ε i ] = 1 − α = FF (2 ,N − (2 p +1)) (εˆ i ) (38)
unde FF ( 2, N −( 2p +1)) (εˆ i ) este functia de repartitie a distributiei Fisher.
Solutia ecuatiei (38) este de forma:
εˆ i = FF−(12,( N −( 2 p+1)) (1 − α ) (39)
În baza relatiilor (37) si (39) se obtine inegalitatea:
4
(a *i − â i ) 2 + ( b *i − b̂ i ) 2 ≤ λˆ 2 ( 2p + 1)FF−(12, (N − (2 p+ 1)) (1 − α ) (40)
N
Relatia (40) reprezinta interiorul si frontiera unui cerc de încredere cu
4 ˆ2
centrul în (a *i , b *i ) si raza cercului egala cu λ (2p + 1) FF−(12 ,( N− (2 p +1)) (1 − α) .
N
Daca se tine cont ca în sistemul de coordonate polar, R *i2 = a *i2 + b *i2 si
b* 2
(
α *i = arctg − *i , totdeauna are loc inegalitatea R *i − R̂ i ≤ a *i − â i + ) ( 2
)
ai
205
(
+ b *i − b̂ i )
2
atunci cercul formeaza intervalul de încredere pentru parametrii
2π
armonici de pulsatie i:
N
4 ˆ2
R *i − R̂ i ≤ λ ( 2p + 1)FF−(12 ,( N− (2 p +1)) (1 − α) (41)
N
Relatia (41) poate fi utilizata pentru determinarea componentelor
spectrale semnificative. În acest scop, se pot formula ipotezele
H 0 : R i = 0
*
(42)
H 1 : R *i ≠ 0
Regiunea de acceptare la nivelul de semnificatie α poate fi determinata
de relatia (41), ipoteza nula fiind acceptata daca este satisfacuta inegalitatea
4 ˆ2
R̂ i ≤ λ (2p + 1) FF−(12 ,( N− ( 2p +1)) (1 − α ) (43)
N
si este respinsa în caz contrar. Recalculând expresia din membrul drept dupa
fiecare identificare a unei armonici se poate stabili care dintre liniile spectrale
ramase mai prezinta semnificatie, adica sunt mai mari decât valoarea recalculata.
11.3.2. Modelarea componentei deterministe ciclice -
metoda periodogramei Whittacker-Robinson
Efectul nedorit al împartirii inexacte dintre N si p f din cadrul abordarii
frecventiale a condus în mod natural la o noua metoda dedicata determinarii
perioadei optime posibile a componentei ciclice: metoda periodogramei
Whittacker-Robinson. Aceasta metoda reprezinta o abordare temporala, în
sensul ca nu se ma i face nici o referire la distributia energiei seriei de timp în
frecventa. Modelul utilizat este cel descris de relatia (2), care este complet
specificat daca se precizeaza perioada c precum si modul de variatie a
semnalului în cadrul unei perioade, y c [1], y c [2 ],.....y c [c ]. Evident ca în aceasta
situatie se obtine o descriere prin puncte a acestei evolutii si nu analitic ca în
cadrul metodei spectrogramei Schuster. Însa, spre deosebire de metoda
precedenta, unde coeficienti sezonieri pot fi obtinute indirect din modelul (3)
y c [k ] = ∑ a i cos ω i k + b i sin ω i k
^ m ^ ^
(44)
i =1
metoda periodogramei Whittacker-Robinson prezinta avantajul determinarii
simultane atât a perioadei (perioadelor) cât si a coeficientilor sezonieri. În plus,
datorita principiului metodei, coeficientii sezonieri sunt, în general, estimati cu o
precizie mai buna.
Principiul metodei periodogramei Whittacker-Robinson
Daca se considera o serie de timp periodica, pur determinista, având un
numar de observatii, N, multiplu al perioadei c, adica N = N c c , atunci se poate
scrie:
206
y c [ t] = y c [t + c ] = y c [t + 2 c] = ...... = y c [t + ( N c − 1)c] t = 1, c (45)
În acest fel, seria poate fi modelata complet daca este descrisa variatia sa
pe o singura perioada, celelalte perioade obtinându-se prin multiplicarea
perioadei descrise. În plus, deoarece seria ciclica se considera centrata, obtinuta
în urma modelarii componentei neperiodice cu ajutorul unui polinom cel putin
de ordin zero, atunci:
c c c
∑ y c [ j] = ∑ y c [ j + c] = ..... = ∑ y c [ j + (N c − 1)c] = 0 (46)
j =1 j=1 j=1
ŷ c [t ] = (48)
N c i=0
Analizând caracteristicile statistice ale acestui estimator se poate stabili
metodologia de determinare a perioadei optime ĉ si a coeficientilor sezonieri.
• Estimatiile coeficientilor sezonieri sunt nedeviate.
1 Nc −1 1 N c −1
M [ŷ c [t ]] = M ∑ ( y 0 [ t + ic ] ) = M ∑ (yc [ t + ic ] + y a [t + ic ]) =
Nc i= 0 Nc i=0 (49)
Nc −1
∑ M[yc [ t + ic ]] =yc [ t + ic ] = y c [t ]
1
=
Nc i= 0
• Dispersia estimatiilor coeficientilor sezonieri este:
λ*2
σ 2c = D[ŷ c [t ]] =
Nc
(50)
unde λ*2 = D[y a[ t ]] reprezinta dispersia componentei aleatoare.
[
σ 2c = D[ŷ c [t ]] = M (ŷ c [t ] − M[ŷ c [t ]]) =
2
]
1 N c −1 1
2
Nc −1 λ*2
M ∑ (y c [ t + ic ] + y a [ t + ic ] ) − y c [ t ] = 2 M ∑ y 2a [t + ic ] =
N
N c i=0 i= 0 Nc
c
207
[ ]
2
N c −1
σ = M (y 0 [t ] − ŷ c [t ]) (y c [t + ic ] + y a [t + ic ])
1
= M y c [ t] + y a [t ] − ∑ =
2 2
a
Nc i=0
2
N −1 N + 1 *2
[ ]
N c −1
1 1
∑ = M y a2 [t ] + 2 M ∑ y a2 [t + ic ] = c
c
• y 0 [ t + i c ] = M
N c i =0 N c i= 0
1 N −1
∑
c
= M y c [t + ic ] = y c [t ] + ∆y c[t ]
N c i= 0
• [
σ 2c = D[ŷ c [ t ]] = M (ŷ c [t ] − M[ŷ c [t ]])2 = ]
1 N −1
2
∑ (y c [ t + ic] + ya [t + i c]) − yc [ t ] − ∆y c [ t] =
c
= M
N c i = 0
1 N −1
2
∑ (y c [ t + ic] + ya [t + i c] − y c [ t] − ∆y c [t ]) =
c
= M
N c i = 0
1 N − 1
2
∑ (y a [ t + ic] − ∆y c [t ]) =
c
= M
N c i =0
N −1
= 2 M ∑ y 2a [ t + ic ] + M (∆y c [ t ]) =
1
N c i=0
c
2 λ*2
[ ]
+ M (∆y c [ t]) > σ 2c
2
[ ]
Nc
[ ]
2
N c −1
σ = M (y 0[t ] − ŷ c [t ]) (yc [t + ic ] + ya [t + ic ])
1
• = M yc [ t] + y a [t ] − ∑ =
2 2
a
Nc i =0
1 N −1
2
∑ y a [t + ic ] =
c
= M y c [ t] + y a [t ] − y c [t ] − ∆y c [t] −
N c i=0
[ ] [
] N + 1 *2
[ ]
N −1
1
= M y 2a [ t] + M ∆y 2c [ t] + 2 M ∑ y 2a [t + i c ] = c
c
λ + M ∆y 2c [t ] > σ2a
N c i =0 N c
208
optim care masoara eroarea patratica totala dintre seria initiala si seria modelata
cu ajutorul estimatorului coeficientilor sezonieri:
2
1 N −1
V ( ĉ) = ∑ ŷ [t ] = ∑ (y 0[ t ] − ŷ c [t ]) = ∑ y 0[ t ] −
N N N
∑
ĉ
209
teoreme, perioada de esantionare trebuie sa fie cel mult jumatate din perioada
cea mai mica a semnalului, adica:
c min = 2∆ (53)
Pe de alta parte, perioada maxima, c max , poate fi cel mult jumatate din
intervalul de observare deoarece sunt necesare cel putin doua perioade pentru a
putea determina o componenta ciclica consistenta, deci:
c max = N 2 (54)
Daca se calculeaza si se retin valorile functiei criteriu pentru toate
valorile posibile ale perioadei seriei de timp atunci se poate întocmi
periodograma Whittacker-Robinson, în fapt o reprezentare grafica a dependentei
dispersiei seriei reziduale de perioadele analizate (fig. 11.12).
V (c)
c
N
ct 2c t 3c t 2
Fig. 11.12
În acest grafic sunt puse în evidenta urmatoarele informatii:
• un punct de minim global, indicat de valoarea ct a perioadei; acest punct
indica perioada optima a componentei ciclice, pe baza careia se selecteaza
coeficienti sezonieri asociati;
• puncte de minim local, care indica alte perioade posibile ale
componentei sezoniere;
• daca seria de timp nu poseda componenta sezoniera (este pur stohastica)
sau daca perioada acesteia este prea mare atunci în grafic se evidentiaza o
colectie de valori ce oscileaza rapid si strâns în jurul unei valori medii.
Observatii:
1. Daca ct este o perioada optima a seriei ciclice analizate atunci în
periodograma sunt evidentiate minime globale si pentru perioadele 2c, 3c t ,...., ct .
Din aceste considerente daca exista mai multe minime globale, perioada optima
se alege pentru primul minim global.
2. Suspectarea altor perioade posibile ale seriei ciclice se realizeaza daca
exista alte minime sub pragul 0 .9 V , unde:
[ N / 2]
V (c i )
1
[N / 2] − 1 ∑
V= (55)
i= 2
210
y 0 [ N ] ). Daca N nu este divizibil prin ci prima linie ramâne incompleta si nu se
ia în considerare. În aceste cazuri prima linie a matricei este constituita din
prima linie plina, astfel încât numarul de date ramas sa fie divizibil prin ci .
4. Relatia de definitie a functiei criteriu, (52), implica un efort de calcul
considerabil. Daca însa se are în vedere ca, datorita necorelatiei dintre
componenta aleatoare si cea determinista,
∑ y [t ] = ∑ (ŷ [t ] + ŷ [ t]) = ∑ ŷ [t ] + ∑ ŷ [ t ]
N N N N
2 2 2 2
0 c a c a (56)
t =1 t =1 t =1 t=1
atunci:
Ncc Nc c Nc c Ncc
V(c ) = ∑ ŷ 2a[ t ] = ∑ y 20 [t ] − ∑ ŷ 2c [t ] = ∑ y02[ t ] − Nc ∑ ŷ 2c [t ]
c
(57)
t=1 t =1 t =1 t=1 t =1
Aceasta relatie ofera o metoda mai eficienta de calcul al valorilor
criteriului V( c).
(58)
N t =1 c t =1 N c c t =1 i= 0
Pe de alta parte, daca seria analizata nu contine componenta sezoniera
atunci media pe fiecare coloana, (relatia 48), este egala cu media pe sondaj,
adica toti coeficientii sezonieri sunt egali cu valoarea medie de sondaj:
ŷ c [1] = ŷ c [ 2] = ...... = ŷ c [c] = y 0 = const
(59)
În ipoteza ca seria analizata nu contine componenta determinista
periodica atunci dispersia seriei poate fi determinata cu relatia:
[
σa20 = D[ y 0 [ t ]] = M (y 0 [ t] − M[ y 0 [ t]] )2 = ] 1 Nc
(y0 [ t] − y 0 )2 = N c ∑ ( ŷ [ t] − y )
c
∑
c
c 0
2
(60)
N c c t =1 c t =1
N c c t=1 i =0
2
(62)
σˆ 2a1 = (63)
c(N c − 1) t =1 i= 0
Decizia privind necesitatea modelarii componentei periodice se poate
lua pe baza verificarii ipotezelor statistice. În acest sens se pot formula ipotezele:
Nc c
H 0 : σ
ˆ 2
a 0 = ∑ ( ŷ c [ t ] − y 0 ) 2
c − 1 t= 1
absenta componenta periodic a
(64)
c N −1
t =1 i =0
t =1 i =0
∑ ∑ 0 ( )
c
y [ t + ic ] − ŷ [ t + ic ] 2
c (N c − 1) t=1 i = 0
c
212
Interpretarea frecventiala a etapelor de modelare a componentelor
deterministe
Dupa cum se cunoaste, un semnal continuu determinist neperiodic, yt (t),
este reprezentabil în domeniul frecventa prin functia spectrala continua
neperiodica:
∞
1 ∞ 2 2
2π
y c ( t) = ∑ C(nω0 )e j nω t ;0
C(nω0 ) = ∫ y c (t )e − j nω t dt ; ω0 =
0
; (3)
2 n= −∞ T− T
2
T
are o functie spectrala discreta de forma
∞
Yc ( jω) = F{y c (t )} = π ∑ C( nω0 )δ(ω − nω0 ) (4)
n = −∞
În concluzie, functia spectrala (densitatea spectrala de amplitudine) a
unui semnal continuu determinist poate fi reprezentata dintr-o componenta
absolut continua, corespunzatoare componentei neperiodice, si un numar (finit)
de linii spectrale semnificative, asociate sinusoidelor pure ale componentei
ciclice.
∞ ∞
Y( jω) = ∫ y t (t )e − jωt dt + π ∑ C(n ω0 )δ (ω − n ω0 ) (5)
−∞ n =−∞
ω
Fya (ω) = ∫ S ya (ω)d ω (7)
−∞
Puterea medie a unui semnal neperiodic oarecare (determinist si/sau
stohastic) poate fi evaluata cu ajutorul functiei de repartitie spectrala de putere,
prin expresia:
1 T 2 1 1 ∞
T→∞ 2 T ∫ 2π −∫∞
m y ( t ) = lim y ( t ) dt = F( ∞ ) = S(ω)dω (8)
2π
2
−T
S( ω ) = F {R (τ )} = ∫ R (τ )e − j ωτ dτ
−∞
∞
(10)
R (τ ) = F −1 {S(ω)} = 1 S(ω)e jωτ dω
2π −∫∞
unde:
1 T
R (τ ) = lim ∫ y( t ) y( t + τ )dt (11)
T→ ∞ 2 T
−T
În cazul în care densitatea de repartitie a puterii este o marime constanta
atunci puterea semnalului este uniform repartizata pe toata banda de frecvente,
ceea ce rezulta, conform relatiilor (10), ca functia de autocorelatie este un impuls
Dirac. Procesul cu o astfel de proprietate se numeste zgomot alb. Faptul ca
functia de autocorelatie este nenula numai pentru τ=0 arata ca zgomotul alb este
un proces stohastic complet nepredictibil, adica evolutia lui la momentul t nu
poate fi dedusa pe baza istoriei sale pâna la momentul (t-1) inclusiv, valorile sale
anterioare fiind necorelate.
În aceasta situatie componenta reziduala nu poate fi modelata decât în
sens statistic, fiind descrisa de o repartitie normala:
y a[ t ] ∈ N(0, σ 2a ) (12)
Observatie: Deoarece componentele deterministe au fost modelate si
eliminate din seria initiala atunci componenta reziduala reprezinta un semnal
centrat, mya=0. De asemenea, fiind analizat si modelat un semnal de medie nula
atunci functia de autocorelatie are aceleasi valori numerice ca si functia de
autocovarianta.
Daca, în schimb, densitatea de repartitie este o functie rationala atunci,
conform teoremei factorizarii spectrale, exista o functie rationala unica, H(z),
strict stabila si de faza min ima, asfel încât:
S(ω) = H(e − jω )H(e j ω ) (13)
214
În aceasta situatie componenta aleatoare poate fi descrisa cu ajutorul
unui model matematic de tip functie de transfer. Astfel, în baza teoremei de
reprezentare, daca aceasta componenta reziduala are densitatea spectrala
rationala atunci ea poate fi interpretata ca fiind iesirea unui filtru asimptotic
stabil la intrarea caruia se aplica un semnal aleator de tip zgomot alb:
B(e jω ) 2
2
215
ordinelor (na ,nb ) se poate realiza în functie de forma grafica a densitatii spectrale
de putere, calculata cu ajutorul relatiei (10.1). Astfel, în cazul în care procesul
studiat se caracterizeaza printr-o densitate spectrala de putere cu maxime
"ascutite" este indicata alegerea unui model AR, stiut fiind faptul ca asemenea
maxime se obtin datorita unor poli situati în apropierea cercului de raza unitara.
Daca, din contra, densitatea spectrala de putere se caracterizeaza prin minime
pronuntate, eventual anulari, este indicata alegerea unui model MA cu zerouri
situate în apropierea sau pe cercul de raza unitara. Atunci când intervin ambele
tipuri de comportari ale densitatii spectrale de putere se va alege un model de
tipul ARMA.
În concluzie, la modul general, astfel de procese pot fi modelate cu
ajutorul unei structuri de tipul (15), adica:
B( z −1 )
Ya (z −1 ) = E(z −1 ) (17)
A( z −1 )
unde:
na nb
A ( z −1 ) = 1 + ∑ a k z − k ; B(z −1 ) = ∑ b k z − k (18)
k =1 k= 0
Pentru o structura precizata, modelul este unic determinat daca se obtine
estimatia coeficientilor modelului precum si cea a dispersiei zgomotului alb:
[
θˆ = σˆ 2 â .. â
ε
b̂ ... b̂
1 na 0 nb
]
(19)
Determinarea acestui vector nu este o problema foarte simplu de
rezolvat, dificultatea principala fiind datorata existentei partii MA a modelului,
ceea ce genereaza un sistem de ecuatii neliniare. Exista o serie de tehnici
suboptimale, bazate de obicei pe criteriul celor mai mici patrate, ce conduc la
rezolvarea unor ecuatii liniare.
Un model ARMA(na,nb ) poate fi, însa, reprezentat printr-un proces
AR(∞) sau printr-un model MA(∞):
B (z − 1 ) 1
−1
= −1
= D( z −1 ) (20)
A (z ) C (z )
∞
unde: C(z −1 ) = 1 + ∑ c k z − k (21)
k =1
∞
D( z −1 ) = ∑ d k z − k (22)
k= 0
În practica modelarii si predictiei seriilor de timp, un model ARMA este
aproximat printr-un model AR, finit, obtinut prin efectuarea împartirii
polinoamelor modelului ARMA si retinerea termenilor semnificativi (ai
secventei pondere a sistemului - FIR):
B(z −1 ) 1 1
−1
= −1
≈ nc
; nc > na (23)
A (z ) C (z )
1+ ∑ ckz −k
k =1
216
Modelarea unui proces stohastic cu ajutorul unei structuri de tip AR
simplifica în mod considerabil problema estimarii vectorului de parametri,
relatia (19), transformând-o într-o problema liniara de estimare, unde solutia
poate fi obtinuta si pe cale analitica. În acelasi timp, asa cum se va vedea, aceste
tipuri de modele sunt convenabile si pentru problema predictiei seriei de timp.
În concluzie, un proces stohastic poate fi totdeauna aproximat printr-un
model AR, având ordinul mai mare decât cel al unui model de tip ARMA.
Printr-un abuz de notatie, relatia (15) se poate scrie:
1
Ya ( z −1 ) = H(z −1 )Ε(z − 1 ) = Ε(z −1 ) (24)
A (z − 1 )
Estimarea parametrilor modelului AR prin metoda celor mai mici patrate
În domeniul temporal, modelul (24) poate fi exprimat cu ajutorul
operatorului de transfer sub forma:
y a [t ]A(q −1 ) = y a [ t] + a 1 y a [ t − 1] + ... + a na y a [t − n a ] = ε[ t ] (25)
Daca se introduc notatiile:
ϕ T [ t] = [− y a [ t − 1] − y a [ t − 2] .... − y a [ t − n a ]]
[
θ T = a 1 a 2 ... a n a
] (26)
∑ [y ]
N
1 2
σˆ 2ε = [t ] − ϕ T [ t ]θˆ (30)
N − na
a
t =1
..........................
− a r [n − 1] − a r [n − 2 ] − ... − a r [0 ] = r [ n ]
1y a a 2 y a a n y a y a a a
218
σ *ε2 = ry [0] + a 1ry [1] + ... + a na ry [n a ]
a a a
(37)
O estimatie a dispersiei zgomotului alb se obtine prin substituirea valorilor
teoretice ale functiei de autocorelatie si parametrilor modelului cu cele estimate:
σˆ 2ε = r̂y [0] + â 1 r̂y [1] + ... + â na r̂y [n a ]
a a a
(38)
Evident, estimatiile obtinute cu ajutorul celor doua metode prezentate
sunt asimptotic echivalente. Dar pentru un numar finit de date metoda Yule -
Walker ofera estimatii ale parametrilor modelului mai putin precise decât
metoda celor mai mici patrate, efortul de calcul fiind însa mult mai redus.
11.4.3. Teste de determinare a indicelui structural optim
Determinarea structurii unui model ARMA(na,nb ) se reduce în cazul
seriilor de timp monovariabile la determinarea ordinelor n̂ a si n̂ b (§8). În cazul
modelului AR(na), relatia (24), este necesara numai determinarea parametrului
n̂ a . Determinarea indicelui structural optim al modelului componentei aleatoare
nu dispune de o regula generala de alegere, fiind necesara corelarea mai multor
teste. Luarea unei decizii numai pe baza unui singur test poate conduce la
concluzii eronate.
S-a aratat ca daca structura modelului AR este precizata atunci se poate
utiliza una din metodele prezentate pentru estimarea parametrilor modelului si a
dispersiei zgomotului alb. Strategia de determinare a structurii modelului
matematic (24) este similara celei utilizate în cazul mode lului determinist al
tendintei neperiodice. Se contureaza astfel urmatoarele etape:
• indicele structural al modelului, n̂ a , se incrementeaza într-o gama finita
de valori, n a = 1, M , fiind considerat cunoscut în etapa urmatoare;
• parametrii necunoscuti se determina pentru fiecare valoare a indicelui
structural, utilizând una din cele doua metode descrise anterior. În acest fel,
pentru o valoare data a lui n̂ a se obtine un vector al parametrilor
θˆ (n ) = [σˆ 2 â ... â ]
a ε 1 (39)
na
εˆ[t ] = y [t ] − ϕ T [t ]θˆ (n )
a a (40)
• un ansamblu de teste pentru determinarea structurii optime a modelului
va conduce la alegerea celui mai bun dintre cele M modele determinate anterior.
Un prim criteriu de determinare a structurii optime a modelelor AR(na)
este criteriul bazat pe descresterea relativa a functiei criteriu (§8):
σˆ 2 ( n ) − σˆ 2ε (n a + 1)
f ( n a ) = (N − n a ) ε a 2 ∈ F(1, N − (n a + 1)) (41)
σˆ ε (n a + 1)
În acest caz, criteriul de determinare a indicelui structural este urmatorul:
• daca f ( n a ) > FF−(11, N− ( n +1)) (1 − α) indicele structural trebuie incrementat iar
a
f ( n a ) va fi recalculat si testat;
219
• daca, însa, f ( n a ) ≤ FF−(11, N− (n a +1)) (1 − α ) atunci indicele optim este
n a = na .
opt
221
însa un anumit grad de incertitudine , iar incertitudinea respectiva poate fi
conditionata de diferite cauze ce nu se cunosc suficient de bine aprioric.
Modelele utilizate pentru calculul iesirilor procesului la momentul viitor,
ŷ[t + k ] , utilizând informatii din trecut, y[ t], y[t − 1],.., se numesc predictori de
ordin k, iar k se numeste orizont de predictie. În acest sens, pentru a obtine un
model de predictor optimal pentru y[t + k ] trebuie stabilita o functie
ŷ[t + k ] = f ( y[ t ], y[ t − 1],...) (1)
astfel încât eroarea de predictie sa fie minima, adica
[ ]
M (y[t + k ] − ŷ[ t + k ])2 = min (2)
În general, problema determinarii predictorului optimal, care sa satisfaca
relatia (2), comporta doua tipuri de abordari: directa si indirecta. În primul caz,
pentru determinarea predictorului optimal se utilizeaza o metodologie de analiza
si modelare similara celei utilizate pentru analiza si modelarea seriilor de timp
(determinarea structurii si parametrilor predictorului) pe când cea de-a doua
abordare stabileste mai întâi un model al seriei si apoi, prin intermediul unor
operatii algebrice polinomiale, se deduce predictorul de anumit ordin.
Daca modelul (1) este de regresie, atunci pentru determinarea
predictorului optimal de ordin k prin metoda directa se doreste gasirea unui
model de forma y[t ] = ϕT [t − k ]θdirect astfel încât sa fie minimizata eroarea de
predictie pe orizontul k, iar pentru determinarea modelului optimal al seriei de
timp se doreste gasirea unor parametrii optimali ai modelului în spatiul
parametrilor, y[t ] = ϕ T [ t ]θ indirect , astfel încât seria de timp sa fie cât mai bine
reprezentata, adica sa fie minimizata eroarea de modelare.
Abordarea directa de stabilire a predictorului optimal ofera ca principal
avantaj eliminarea operatiilor algebrice implicate în stabilirea formei predictive a
modelului seriei de timp, pe când abordarea indirecta ofera ca avantaje utilizarea
unor modele cu structuri reduse (numar mic de parametri) si posibilitatea de-a
stabili predictori cu orizont de predictie variabil pe baza modelului unic al seriei
de timp modelate.
Din acest punct de vedere metodologia de predictie care va fi prezentata
în continuare este una de tip indirect, în etapele precedente fiind deja stabilite
modelele seriei de timp. Extrapolarea iesirii procesului se realizeaza prin
extrapolarea fiecarei componente a modelului si însumarea acestora, adica:
ŷ[t + k ] = ŷ t [t + k ] + ŷ c [t + k ] + ŷ a [t + k ] (3)
Componentele deterministe ale modelului matematic ofera în mod direct
valorile viitoare, predictiile obtinute având tot un caracter determinist. Spre
deosebire de acestea, pentru componenta aleatoare trebuie determinata forma
predictiva a modelului stohastic stabilit, valorile predictate fiind exprimate atât
cu ajutorul unor termeni nepredictibili (zgomot alb discret), εˆ[ t + k ],
εˆ[t + k − 1].., cât si cu ajutorul unor termeni dependenti de valorile experimentale
disponibile, ε[t ], ε[ t − 1].., . Termenii din cea de-a doua categorie poarta
222
denumirea de secventa de inovatii, fiind în fapt informatia noua obtinuta în urma
masurarilor efectuate, fara a fi surprinsa si în modelul seriei
(ε[i] = y[i ] − ŷ[i ],0 ≤ i ≤ t ) .
Considerând forma autoregresiva a modelului componentei aleatoare
determinat anterior, adica
1
y a [t] = ε[ t ] (4)
A(q −1 )
atunci valoarea predictata pentru orizontul de predictie k este de tipul:
1
y a [ t + k] = ε[t + k ] . (5)
A(q −1 )
Pentru a pune în evidenta în membrul drept al relatiei (5) secventa de
inovatii si valorile nepredictibile modelul se pune sub forma
−1
1 −1 − k G k (q )
= F ( q ) + q (6)
A (q −1 ) A (q −1 )
k
( )
(
)
J = M Fk ( q −1 ) ε[ t + k] + G k (q −1 ) ya [ t ] − ŷ a [ t + k] = M Fk ( q −1 ) ε[ t + k] +
2 2
(12)
( −1
) 2
[( −1
)( −1
+ M G k ( q ) y a [ t] − ŷa [ t + k] + 2M Fk ( q ) ε[ t + k] G k ( q ) ya [ t ] − ŷ a [ t + k] )]
Al treilea termen din membrul drept al relatia (12) este nul pentru ca
zgomotul alb la momentul [t+k] este independent fata de orice semnal ce apare
223
la momentele t, t-1,.... Din cei doi termeni ce ramân în criteriu primul termen nu
depinde de ŷ a [t + k ] . Rezulta ca alegerea lui ŷ a [t + k ] nu va afecta decât al
doilea termen care nu poate fi decât pozitiv sau zero. În concluzie, minimul
expresiei (12) se obtine pentru valoarea
ŷ a [t + k ] = G k (q − 1 ) y a [ t ] (13)
eroarea optimala de predictie fiind:
e p [ t + k ] = y a [t + k ] − ŷ a [t + k ] = Fk (q −1 )ε[t + k ] (14)
Dispersia erorii de predictie are valoarea
[ ] [ ]
σ*p2 (k ) = M (ep [t + k ]) = M (Fk (q −1 )ε[ t + k ]) = 1 + ∑ f i2 σ*ε2 (15)
2 2 k −1
i=1
unde σε reprezinta dispersia zgomotului alb discret rezultat în urma modelarii
*2
componentei aleatoare, y a [ t ] .
Practic, pentru un orizont de predictie de k pasi valoarea dispersiei erorii
de predictie se obtine prin înlocuirea valorilor parametrilor f i si a dispersiei σ*ε2
cu valorile estimate corespunzator:
k−1
σˆ 2p ( k ) = 1 + ∑ f̂i2 σˆ 2ε (16)
i=1
Estimatia deviatiei standard de predictie are valoarea
σˆ p ( k ) = ± 1 + ∑ f̂ i2 σˆ 2ε
k −1
(17)
i=1
Din relatia de mai sus se pot determina, pentru fiecare din valorile de
predictie, intervalele de încredere ale acestora. Astfel, deoarece eroarea de
predictie este o marime aleatoare având functia teoretica de repartitie
e p [ t + k ] = y a [t + k ] − ŷ a [ t + k ] ∈ N (0 , σ*p2 (k )) (18)
atunci variabila aleatoare
y [t + k ] − ŷ a [t + k ]
ζk = a ∈ N(0,1) (19)
σ*p ( k )
Conform metodologiei de determinare a intervalelor de încredere,
impunându-se un anumit prag de semnificatie, α, atunci intervalul de încredere
poate fi evaluat sub forma:
ζ k ≤ Φ − 1 (1 − α2 ) (20)
unde Φ −1 (1 − α2 ) reprezinta inversa functiei Laplace. În final intervalul de
încredere pentru predictorul de k pasi este:
k −1 2 *2 k −1
2 *2
ŷa [ t + k ] − Φ −1 (1 − ) 1 + ∑ f i σ ε ≤ y a [t + k ] ≤ ŷ a [ t + k ] + Φ (1 − α2 ) 1 + ∑ fi σ ε (21)
α −1
2
i=1 i =1
Observatii:
1. Limitele astfel determinate sunt valabile numai pentru valorile
individuale de predictie si nu pentru întreg ansamblul valorilor de predictie.
224
2. Daca pentru valori mici ale orizontului de predictie k efortul de calcul
pentru rezolvarea ecuatiei diofantice este modest pentru valori mari acest efort ar
putea deveni considerabil. Pentru astfel de situatii este util sa se reformuleze
ecuatia predictorului de ordin k într-o forma recursiva. În acest fel, un astfel de
predictor poate fi obtinut prin concatenarea predictorilor optimali de ordinul unu.
Daca se dispune de un predictor de ordinul unu:
y 0 [ t + 1] = −a 1 y[t ] − ... − a na y[ t + 1 − na ] (22)
atunci se poate genera un predictor de ordinul k prin înlocuirea valorilor
necunoscute cu valorile anterioare predictate iar inovatiile viitoare cu zero.
y 0 [ t + 2] = −a 1 y 0 [ t + 1] − a 2 y[t ] − .. − a na y[ t + 2 − na ] (23)
y 0[ t + 3] = −a1y 0[ t + 2] − a2 y 0[ t + 1] − a3 y[t ] − .. − a na y[t + 3 − na ] (24)
KKK
Dispersia valorii erorii de predictie, σ*p2 (k ) , poate fi calculata
nerecursiv, relatia (15), sau recursiv. Se poate astfel constata ca, pe masura ce ne
îndepartam cu orizontul de predictie de momentul t la care s-a terminat achizitia
datelor din seria de timp, dispersia de estimare a valorilor viitoare creste.
Astfel, particularizând ecuatia matriceala din anexa 11.5 pentru ecuatia
diofantica (7) si k=1, în baza relatiei (15), se obtine
0
F1 (q −1 ) = 1; σ*p2 (1) = ∑ fi 2 σ*ε 2 = σ*ε2 (25)
i =0
Pentru k=2,3 se poate scrie:
225
Se apreciaza ca pentru modelarea unei serii de timp numarul minim de observatii
al unei realizari este de 30. În cazul prezentei în datele seriei a unor variatii
ciclice este de dorit ca numarul de observatii sa fie mai mare decât 30, metoda
metoda descompunerii aditive în cele trei componente necesitând cel putin 6
perioade de date. Aceasta observatie nu reprezinta o regula stricta, în practica
fiind posibila obtinerea unor modele de calitate prin utilizarea atenta a datelor si
pentru un numar mai mic de 30 de observatii [7].
Dezvoltarea iterativa si sistematica a modelelor de tip serie de timp
implica utilizarea unor instrumente de analiza a datelor (diferite reprezentari
grafice, functii de autocorelatie ) si a unor metode eficiente pentru estimarea
parametrilor, a intervalelor de încredere si a verificarii unor ipoteze statistice.
Desi pachetele de programe destinate modelarii si predictiei seriilor de timp
sunt, în general, eficiente din punct de vedere al calculelor efectuate, rezolvarea
problemelor practice de modelare si predictie necesita un timp de lucru
semnificativ. Informatia apriorica disponibila referitoare la procesul analizat
poate contribui în mare masura la reducerea timpului de analiza.
Orice realizare poate fi analizata si modelata în diferite moduri. În ceea
ce priveste modelele finale nu se poate pretinde ca acestea sunt unice si de
necontestat. Pot fi determinate, de asemenea, si alte variante de model, care sa
asigure o reprezentare adecvata a proceselor ce au facut obiectul analizei,
modelarii si predictiei. Într-o situatie data, nivelul de precizie impus va depinde
de importanta deciziei care urmeaza a fi luata pe baza predictiei precum si de
gradul de influentare a deciziei de rezultatele predictiei.
În exemplul urmator se propune analiza, modelarea si predictia unei serii
de timp reprezentând volumul transportului aerian lunar al unei companii de
profil [4]. Din punct de vedere practic o predictie realizata pe baza modelelor
componentelor seriei prezinta importanta în ceea ce priveste planificarea alocarii
de resurse pentru a se putea rezolva cererile de astfel de servicii. Seria discreta de
timp este construita din evidentele lunare înregistrate de-a lungul a 10 ani. Pentru
verificarea calitatii predictiei, însa, vor fi analizate si modelate numai 117 valori
din cele 120, ultimii trei termeni urmând a fi comparati cu valorile predictate.
Volum transport aerian lunar de marfuri tone-mila 1969-1978
3000
2800
2600
2400
2200
2000
1800
1600
1400
1200
1000
0 20 40 60 80 100 120
timp [luni]
Fig. 11.13
226
Din analiza vizuala calitativa a reprezentarii grafice a seriei, (fig. 11.13), se
evidentiaza prezenta tuturor celor 3 componente (neperiodica, ciclica si aleatoare)
urmând ca succesiv sa se stabileasca modelele parametrice necesare predictiei.
Modelarea componentei deterministe neperiodice cu ajutorul
polinoamelor neortogonale
Determinarea modelului polinomial al componentei neperiodice se
realizeaza conform metodologiei prezentate în §11.2.1. În cazul în care seria de
timp {y0 [t]}t =1,N are o lungime de ordinul sutelor de esantioane, gradul m al polino-
mului variaza în gama 0,5 . S-a constatat ca o crestere a gradului polinomului
x 10
4 Estimatia dispersiei reziduale
12
11
10
9
Dispersie reziduri
3
0 1 2 3 4 5
Ordin polinom aproximare
Fig. 11.14
peste aceasta valoare conduce atât la un efort de calcul nejustificat de mare (cu
un câstig nesemnificativ de precizie) cât si la o înrautatire a calitatii predictiei
[6]. Pe baza variatiei estimatiei dispersiei reziduale în raport cu indicele
structural, (fig. 11.14), componenta neperiodica s-a modelat cu ajutorul unui
polinom de ordinul 1, de forma:
y t [t ] = 8.1503 t + 1347 .5 (1)
Seria initiala, y 0 [ t ] , si tendinta generala liniara, y t [t ], sunt reprezentate în fig. 11.15.
Volum transport aerian lunar de marfuri tone-mila 1969-1978
3000
2800
2600
2400
2200
2000
1800
1600
1400
1200
1000
0 20 40 60 80 100 120
timp [luni]
Fig. 11.15
227
Seria obtinuta dupa eliminarea tendintei (fig. 11.16) indica existenta
unei componente sezoniere care urmeaza a fi modelata.
Volum transport aerian lunar de marfuri tone-mila 1969-1978
800
600
400
200
-200
-400
-600
0 20 40 60 80 100 120
timp [luni]
Fig. 11.16
Modelarea componentei deterministe ciclice - metoda periodogramei
Whittacker - Robinson -
Pentru evidentierea perioadelor posibile ale componentei ciclice se
construieste periodograma Whittacker-Robinson conform metodologiei ce a fost
prezentata în §11.3.2. Atât reprezentarea grafica din fig. 11.17 cât si testul statistic
de verificare a prezentei componentei ciclice (relatia 67 §11.3.2) indica în mod
evident existenta unei componente ciclice de perioada c=12 luni si multipli ai
acesteia.
Fig.17
Utilizându-se estimatorul (48 §11.3.2), pentru coeficientii sezonieri s-au
obtinut valorile prezentate în tabelul 11.1. Dinamica acestei componente este
prezentata în fig. 11.18.
228
Tabelul 11.1. Valorile coeficientilor sezonieri
1 2 3 4 5 6 7 8 9 10 11 12
-118.1 -283.9 -72.1 -43.0 -27.42 141.3 253.6 350.8 -38.0 -36.6 -167.5 7.32
Fig. 11.18
Din analiza acesteia se poate constata ca activitatea maxima de transport
aerian de marfuri se desfasoara în trimestrele II si III ale anului.
Dupa eliminarea componentei ciclice având perioada c=12 luni se
cerceteaza daca eventual mai exista si alte perioade posibile. Daca se
construieste o noua periodograma pentru seria reziduala, (fig. 11.19), se constata
ca valorile dispersiei nu prezinta minime pronuntate.
Fig. 11.19
Deoarece nici testul statistic nu mai indica prezenta unei componente
sezoniere în cadrul seriei reziduale se poate considera ca aceasta din urma
reprezinta componenta aleatoare (prin ipoteza o realizare a unui proces stationar
ergodic). Seria modelata precum si modelul asociat componentei ciclice (linie
continua) sunt prezentate în fig. 11.20.
Seria reziduala obtinuta, (fig. 11.21), poate fi exprimata analitic sub forma :
y a [t ] = y 0 [t ] − y t [t ] − y c [ t ] (2)
229
Fig. 11.20
În acest moment se pune problema daca ea mai poate fi modelata cu
ajutorul unui filtru de tip AR sau constituie o realizare a unui proces stohastic de
tip zgomot alb. O analiza de autocorelatie este edificatoare în acest sens.
Fig. 11.21
Analiza de autocorelatie a componentei aleatoare
Functia de autocorelatie mosteneste o serie de proprietati deterministe
pe care le are sirul de date de la care s-a plecat. Astfel, daca acest sir prezinta
o medie temporala nenula (o tendinta neperiodica) atunci graficul functiei de
autocorelatie ilustreaza de asemenea existenta unei medii nenule. La fel, daca
sirul de date are periodicitate atunci sirul autocorelatiei este de asemenea
periodic, de aceeasi perioada cu a datelor. Aceste observatii permit ca,
plecând de la sirul de date al reziduurilor, sa se testeze daca tendintele
deterministe ale modelului matematic au fost corect construite si eliminate. În
acest fel, analiza de corelatie se constituie într-un mijloc de validare a
modelelor deterministe. Estimatia functiei de autocorelatie normalizata
(§5.2.2.) a seriei reziduale este prezentata în fig. 11.22. Se poate constata ca
nu exista nici o regularitate de natura celor semnalate anterior. În privinta
predictibilitatii componentei aleatoare se aplica testele statistice de "albire",
230
amintite în (§11.4.1.) si prezentate în (§8.4.).
Fig. 11.22
Verificarea ipotezei statistice bazata pe modulul autocorelatiei de
esantion se realizeaza cu ajutorul probabilitatii empirice (raportul dintre
numarului de valori ce apartin regiunii de acceptare a ipotezei nule si cel al
numarului total de valori). S-a obtinut o probabilitate de P=86.21% ca seria
reziduala sa fie zgomot alb, impredictibil. Mai mult, efectuându-se si testul
unilateral bazat pe patratul autocorelatiilor de esantion valoarea statisticii
apartine regiunii critice, de respingere a ipotezei de zgomot alb, adica:
η = 208.3874 > δ α = 40.3090 (3)
De altfel, functia de autocorelatie a componentei aleatoare, prezentata în
fig. 11.22 are o forma de unda sinusoidala amortizata, indicând pentru modelul
AR al seriei un ordin cel putin egal cu 2 (ecuatia caracteristica a modelului are o
pereche de radacini complex conjugate).
4850
4700
4800
4600
4750
4500 4700
4400 4650
4600
4300
4550
4200
4500
4100 4450
1 2 3 4 5 6 7 8 9 0 2 4 6 8 10
Ordin model - na Ordin model - na
231
Criteriul Informatiei - Akaike Criteriul Generalizat al Informatiei - Akaike
8.5 8.85
8.49
8.8
8.48
8.75
8.47
8.46 8.7
8.45 8.65
8.44 8.6
8.43
8.55
8.42
8.5
8.41
8.4 8.45
0 2 4 6 8 10 0 2 4 6 8 10
Ordin model - na Ordin model - na
Fig. 11.23
Tabelul 11.2 Testul Fisher de determinare indice structural optim
Ordin Functie descrestere Statistica Fisher
relativa
1 9.8663 3.9236
2 0.0433 3.9243
3 0.4725 3.9251
4 0.0000 3.9258
5 1.8064 3.9266
6 1.5634 3.9274
7 0.2070 3.9282
8 0.2428 3.9290
9 1.6289 3.9298
300
200
100
-100
-200
-300
-400
0 20 40 60 80 100 120
timp [luni]
Fig. 11.24
232
Testarea gradului de "albire" se realizeaza, din nou, printr-o analiza de
autocorela tie. Functia de autocorelatie normalizata a acestui zgomot este
prezentata în fig. 11.25.
Fig. 11.25
Dupa cum se cunoaste, daca secventa de date este perfect "alba", adica
necorelata, iar numarul de esantioane este foarte mare (N→∞) se obtine valoarea
unitara în origine si valori nule în rest. Spre deosebire de valorile teoretice, în
practica aceste valori sunt foarte mici, stabilite de obicei cu ajutorul testelor
statistice. Pentru simplificare, însa, de obicei se considera ca modulele valorilor
estimatiei functiei de autocorelatie a unui zgomot alb trebuie sa îndeplineasca
cerinta:
r̂ε (i ) ≤ 0.15 ∀i > 0 (5)
ceea ce este aproape evident din analiza vizuala a graficului. Daca de efectueaza
cele doua teste aminite anterior se obtine P=96.55%, respectiv:
η = 8.6302 < δ α = 40 .3090 (6)
În consecinta, ipoteza nula, potrivit careia componenta reziduala este de
tip zgomot alb, este admisa si implicit este validat si ultimul model stabilit.
3000
2800
2600
2400
2200
2000
1800
1600
105 110 115 120
timp [luni]
Fig. 11.26
Tabelul 11.3. Valorile de predictie ale seriei de timp
Orizont de Valoare Interval de Valoare
predictie predictata încredere realizata
0 2515.0 - 2515.0
1 2525.8 ± 124.8 2536.0
2 2382.7 ±143.0 2414.0
3 2533.1 ±161.1 2545.0
Bibliografie
[1] Gh. Mihoc, C.Bergthaller - Procese stohastice - elemente de teorie si
aplicatii-, Ed. stiintifica si enciclopedica, Bucuresti, 1978.
[2] G. Goodwin, K.Sang Sin, Adaptive Filtering Prediction and Control,
Prentince-Hall, Englewood Cliffs, New Jersey, 1984
[3] M.Tertisco, P.Stoica, Th. Popescu, Modelarea si predictia seriilor de timp,
Editura Academiei Republicii Socialiste România, Bucuresti, 1985
[4] Th. Popescu, S. Demetriu, Practica modelarii si predictiei seriilor de timp.
Metodologia Box-Jenkins, Editura Tehnica, Bucuresti, 1991
[5] T. Andrei, S. Stancu, Statistica. Teorie si aplicatii, Editura All, Bucuresti
1995
[6] D. Stefanoiu, Identificarea experimentala a sistemelor. Serii de timp,
Îndrumar de laborator, Facultatea “Automatica si Calculatoare”, Bucuresti,
1996
[7] Th. Popescu, Serii de timp. Aplicatii în analiza sistemelor, Editura Tehnica,
Bucuresti, 2000
234