Documente Academic
Documente Profesional
Documente Cultură
Sint Eze
Sint Eze
i
1
i
1
n n
i i i
i i
S rez Y Y e
= =
= =
unde am notat cu
i i i
e Y Y = reziduul pentru a i -a observaie.
Estimatorii pentru
0
i
1
se gsesc prin calculul prin care se determin
minimul funciei ( )
2
S rez . Egalnd cu zero derivatele pariale ale lui ( )
2
S rez n
raport cu
0
i
1
, se obine sistemul de dou ecuaii doua necunoscute (numite
ecuaii normale):
( ) 0 1
1 1
2
0 1
1 1 1
n n
i i
i i
n n n
i i i i
i i i
n X Y
X X X Y
= =
= = =
| |
+ =
|
\
| | | |
+ =
| |
\ \
Rezolvarea sistemului ecuaiilor normale conduce la sistemul de relaii:
( )( )
( )
1 1
1
2
2
1 1
0 1
n n
i i i i
i i
n n
i i
i i
X X Y Y x y
X X x
Y X
= =
= =
= =
Notm c
i i
x X X = i
i i
y Y Y = dau observaiile exprimate ca
abateri de la mediile lor simple X i respectiv Y .
Formulele mai convenabile pentru calculul sumei ptratelor i a sumei
produselor sunt:
8
2
1 2 2
1 1
1 1
1 1
n
i
n n
i
i i
i i
n n
i i
n n
i i
i i i i
i i
X
x X
n
X Y
x y X Y
n
=
= =
= =
= =
| |
|
\
=
| || |
| |
\ \
=
Prin nlocuire se obine:
1 1 1
1 2
2
1 1
n n n
i i i i
i i i
n n
i i
i i
n X Y X Y
n X X
= = =
= =
| | | || |
| | |
\ \ \
=
| | | |
| |
\ \
i astfel forma ecuaiei de regresie devine:
( )
1
i i
Y Y X X = + .
2.3. Analiza variaiei pentru variabila dependent
Reziduurile se definesc prin ecuaia
i i i
e Y Y =
ca abatere a valorilor observate fa de valorile estimate prin ecuaia de regresie.
Ca alternativ, fiecare valoare observat pentru variabila dependent
i
Y se
poate scrie ca sum ntre media populaiei estimate pentru Y pentru o valoare dat
a lui X i reziduul corespunztor, deci
i i i
Y Y e = + .
se poate mpri n mod similar. Pentru aceasta substituim fiecare
i
Y cu
i i
Y e + i
astfel avem
( )
( ) ( )
2
2 2 2
2 2
1 1 1 1
n n n n
i i i i i
i i i i
Y Y e Y e S model S rez
= = = =
= + = + = +
unde am notat
9
( )
2
2
1
n
i
i
S model Y
=
=
i relaia este valabil deoarece termenul produs ncruciat,
, 1
n
i j
i j
Ye
=
este egal cu
zero.
n construcia de mai sus componenta ( )
2
S model reprezint suma
ptratelor contabilizabile iar ( )
2
S rez este termenul necontabilizabil al sumei
ptratelor.
Formulele care convin mai mult scopurilor de calcul sunt
( ) ( )
( ) ( ) ( )
2
2 2
2 1
1
2 2 2
n
i
i
S model nY X X
S rez S tnc S model
=
= +
=
Partiionarea sumei de ptrate total necontabilizate se poate face i n
termenii sumei ptratelor contabilizate prin scderea factorul de corecie
2
nY din
ambii membrii a sumei ptratelor coreciei pentru medie. Se obine astfel relaia
( ) ( ) ( ) ( )
2 2
2 2 2
S tnc nY S model nY S rez = +
sau altfel scris
( ) ( ) ( ) ( )
2
2 2 2
2 1 2 2
1 1 1
n n n
i i i
i i i
S total y X X e S regr S rez
= = =
= = + = +
.
Notm c y este deviaia lui Y fa de Y i astfel
( )
2
1
n
i
i
S total y
=
=
este suma ptratelor total corectate. Mai sus am notat
( ) ( )
2
2
2 1
1
n
i
i
S regr X X
=
=
care indic partea din model care intervine n afara factorului de corecie.
Numrul de grade de libertate asociate fiecrei sume de ptrate
este determinat de dimensiunea studiului, n , i de numrul de parametrii din
model, 1 p + , unde p este numrul variabilelor independente.
n cazul modelului liniar considerat, numrul gradelor de libertate asociat
cu ( )
2
S model este egal cu 2.
Numrul gradelor de libertate asociate cu ( )
2
S regr este ntotdeauna cu 1
mai mic dect numrul termenilor contabilizai datorit scderii factorului de
corecie care are ntotdeauna un grad de libertate.
10
( )
2
S rez va conine 1 n p grade de libertate corespunztoare
termenilor necontabilizai din model.
O msura a contribuiei variabilelor independente n model este
coeficientul de determinare, notat
2
R , exprimat prin raportul sumei ptratelor
corectate ale ;lui Y i informaia obinut din variabilele independente, adic
( )
2 2
2
1
n
i
i
S regr
R
y
=
=
.
Coeficientul de determinare este o valoare ntre 0 i 1 i este ptratul
produselor corelaiei momentelor dintre
i
Y i
i
Y , ceea ce pentru o singur variabil
independent este ptratul coeficientului de corelaie dintre
i
Y i
i
Y .
2.4. Precizia estimrilor
Orice cantitate rezultat n urma unui calcul cu variabile aleatoare este ea
nsi o variabil aleatoare. Astfel, fiind calculate plecnd de la
i
Y , valorile
i
Y ,
i
Y ,
i
e ,
0
i
1
i
Y i reziduurile calculate sunt toate funcii liniare
de
i
Y astfel ca aceste valori pot fi caracterizate n termenii definiiilor
fundamentale pentru caracterizarea funciilor liniare.
Definiie. Fie
1
n
i i
i
U a Y
=
=
= +
unde ( ) , Cov a b desemneaz covariana dintre variabilele aleatoare a i b .
Definiie. Fie
1
n
i i
i
U a Y
=
=
i
1
n
i i
i
V bY
=
=
= +
Covariana este msurarea tendinei ca dou variabile aleatoare s creasc
sau s descreasc mpreun. Cnd variabilele aleatoare a i b sunt independente
atunci ( ) , 0 Cov a b = .
Conform presupunerilor din modelul uzual de regresie, variabilele
aleatoare
i
Y sunt independente i astfel, din formula dispersiei pentru U , dispare
termenul
( )
1 1
,
n n
i j i j
j i
j i
a b Cov Y Y
= =
i acelai lucru intervine i n cazul formulei pentru covarianta dintre U i V .
Suplimentar s-a considerat c toate variabilele aleatoare
i
Y are dispersia
comun i egal cu
2
, deci ( )
2
i
Var Y = pentru orice 1, 2,..., i n = . Astfel,
dispersia funciei liniare U se reduce la
( )
2 2
1
n
i
i
Var U a
=
=
.
De asemenea, covariana dintre funciile liniare U i V revine la
( )
2
1
,
n
i i
i
Cov U V a b
=
=
.
Rezultatele prezentate mai sus ne permit s determinm imediat dispersia
pentru
1
, plecnd de la relaia
1
1
2
1
n
i i
i
n
i
i
x y
x
=
=
=
care este echivalent cu
1
2 1
1
n
i
i n
i
i
i
x
Y
x
=
=
| |
|
| =
|
|
\
.
12
n ultima relaie identificm drept coeficieni pentru
i
Y valorile
2
1
i
n
j
j
x
x
=
,
care n modelul de regresie sunt constante. Din presupunerile modelului rezult c
avem
( )
2
2
2
2 2 1
1 2
2 2 1
2
1 1
1
n
i n
i i
n n
n
i
j i
i
j i
i
x
x
Var
x x
x
=
=
= =
=
| |
|
|
= = =
|
| |
|
|
\
\
Pentru dispersia parametrului
0
considerm ecuaia
0 1
Y X =
prin care parametrul este definit. Variabilele aleatoare din aceast ecuaie sunt Y i
1
a fost obinut
mai sus. Pentru calculul covarianei rescriem Y sub forma
1
1
1
n
i n
i
i
i
Y
Y Y
n n
=
=
| |
= =
|
\
i
1
prin
1
2 1
1
n
i
i n
i
i
i
x
Y
x
=
=
| |
|
| =
|
|
\
.
Astfel putem identifica dou funcii liniare avnd coeficienii
1
n
i, respectiv,
2
1
i
n
j
j
x
x
=
, obinem
13
( )
( )
2 1
1
2 2 1
1 1
1 1
, 0
n
i n
i i
i n n
i
j i
j i
x
x
Cov Y Var Y
n n
x x
=
=
= =
| |
|
| | | |
|
= = =
| |
|
\ \
|
\
Rezult
( ) ( ) ( )
2 2 2 2
2 2
0 1
2 2
1 1
1
n n
i i
i i
X X
Var Var Y X Var
n n
x x
= =
| |
|
| = + = + = +
|
|
\
innd cont de faptul c
( )
1
i i
Y Y X X = +
putem proceda ca mai sus pentru a determina dispersia pentru
i
Y i obinem
( ) ( ) ( ) ( )
( )
2
2
2
1
2
1
1
i
i i n
i
i
X X
Var Y Var Y X X Var
n
x
=
(
(
( = + = +
(
(
.
2.6.Modelul regresiei multiple
Modelul liniar pentru indicarea relaiei dintre o variabil dependent i
2 p variabile independente este definit prin relaia
0 1 1
...
i i p ip i
Y X X = + + + +
unde indicele i desemneaz momentul la care se consider observaiile Y i
1 i
X ,
2 i
X , ...,
ip
X , 1, 2,..., i n = , n fiind dimensiunea eantionului. Astfel trebuie
estimai 1 p + parametrii. Vom presupune c n este mult mai mare dect p .
Pentru a uura presentarea vom considera:
Y este un vector de dimensiune n cu observaiile asupra variabilei i de-a
idependente,
X este o matrice de dimensiune ( ) 1 n p + n care prima coloan este
format doar cu valoarea 1 iar celelalte p coloane conin observaiile
asupra variabilelor independente
ij
X ,
este un vector de dimensiune 1 p + al parametrilor estimai
j
,
este un vector de dimensiune n care indic erorile aleatoare care apar la
fiecare observaie din eantion.
14
Considernd toate ecuaiile modelului putem scrie:
11 12 1 0 1 1
21 22 2 1 2 2
1 2
1
1
1
1
p
p
n n np p n n
X X X Y
X X X Y
X X X Y
| || | | | | |
| | | |
| | | |
= +
| | | |
| | | |
| |
\ \ \ \
sau, n scriere matrical
Y X = + .
Vectorii Y i sunt vectori aleatori. Matricea X se consider a fi o
matrice format din constante cunoscute. Un model pentru care rangul matricii X
este egal cu 1 p + se numete model cu rang complet.
Vectorul este un vector de constante necunoscute ce urmeaz a fi
estimate pornind de la datele obinute din observaii. Fiecare valoare
i
este un
coeficient de regresie parial prin care se reflect schimbarea variabilei
dependente la schimbarea unitar a celei de-a i -a variabil independent
considernd c toate celelalte variabile independente sunt meninute constante.
Definirea fiecrui coeficient de regresie parial depinde de mulimea variabilelor
independente ale modelului.
n general se presupune c
i
sunt independente i identic distribuite prin
( )
2
~ 0,
i
N .
Datorit acestei presupuneri avem c
( )
, 0
i j
Cov =
pentru orice 1 , i j n , i j . Funcia densitate de probabilitate reunit este dat
prin relaia
( )
2
1
2
2
1 2
2
, ,...,
n
i
n
i
n
f e
| |
=
|
|
\
.
Deoarece presupunem c elementele din X i sunt constante,
( )
2
~ 0,
i
N i Y este suma dintre un vector constant i o variabil aleatoare,
rezult c
i
Y sunt independente dou cte dou i c
( )
2
~ ,
i
Y N m ,
unde
0 1 1
...
i p ip
m X X = + + + .
15
Din independena lui
i
Y rezult c
( )
, 0
i j
Cov Y Y =
pentru orice 1 , i j n , i j . Funcia densitate de probabilitate reunit pentru Y
va fi astfel:
( )
( )
2
...
0 1 1
1
2
2
1 2
2
, ,...,
n
y X X
p i ip i
n
i
Y n
f y y y e
(
+ + +
(
=
| |
=
|
|
\
.
2.7. Soluia modelul regresiei multiple
Ecuaiile normale care se obin pentru modelul de regresie multipl au
forma:
X X X Y
= .
Produsul X X conduce la o matrice ptrat de ordin 1 p + n care pe
diagonala principal, cu excepia primului element care este n , valorile sunt suma
ptratelor pentru fiecare variabil independent. Elementele nediagonale,
exceptnd prima linie i coloan, sunt suma produselor a dou variabile
independente. Forma general pentru matricea X X este
1 2
1 1 1
2
1 1 1 2 1
1 1 1 1
2
2 1 2 2 2
1 1 1 1
2
1 2
1 1 1 1
n n n
i i ip
i i i
n n n n
i i i i i ip
i i i i
n n n n
i i i i i ip
i i i i
n n n n
ip i ip i ip ip
i i i i
n X X X
X X X X X X
X X
X X X X X X
X X X X X X
= = =
= = = =
= = = =
= = = =
| |
|
|
|
|
|
| =
|
|
|
|
|
|
\
.
Elementele vectorului produs X Y , cu excepia primului element, sunt
sumele produselor dintre variabilele independente i variabila dependent0103 i are
forma general
16
1
1
1
2
1
1
n
i
i
n
i i
i
n
i i
i
n
ip i
i
Y
X Y
X Y
X Y
X Y
=
=
=
=
| |
|
|
|
|
|
| =
|
|
|
|
|
|
\
.
Vectorul mediilor estimate ale variabilei dependente Y pentru variabilele
independente din mulimea de date se calculeax prin relaia
Y X = .
Pentru calculele ulterioare este util s se exprime
Y ca o funcie liniar de
Y i nlocuid pe
cu ( ) ( )
1
X X X Y
obinem
( )
1
Y X X X X Y PY
(
= =
.
n aceast ecuaie am definit matricea P de ordin n i care este
determinat n ntregime de matricea X . Matricea P joac un rol important n
analiza regresiei. Matricea P are dou proprieti importante i anume este
simetric ( P P = ) i idempotent ( P P P = i ) i astfel reprezint o matrice de
proiecie.
Vectorul de reziduuri, e , este dat prin formula
e Y Y =
i reflect lipsa de concordan dintre valorile observate pentru Y i celel estimate,
Y , obinem relaia
( ) e Y PY I P Y = = .
La fel ca n cazul matricii P , matricea I P este simetric i
idempotent.
Utilizarea estimrii celor mai mici ptrate reprezint minimizarea sumei
ptratelor reziduurilor, iar
Y Y e = +
a lui Y ntr-o parte contabilizat de model,
Y , i reziduul e .
17
2.8. Proprietile estimaiilor din modelul regresiei multiple
Notm c
Y i e , vom da proprietile
generale pentru funciile liniare de un vector aleator.
Definiie. Fie ( )
1 2
, ,...,
n
Z z z z
= un vector aleator. Media lui Z , notat
( ) m Z , se definete ca un vector avnd dimensiunea lui Z i elementele egale cu
mediile componentelor lui Z , deci
( ) ( ) ( ) ( ) ( )
1 2
, ,...,
p
m Z m z m z m z
= .
Definiie. Fie ( )
1 2
, ,...,
n
Z z z z
= un vector aleator. Dispersia lui Z ,
notat ( ) Var Z , se definete ca o matrice ptrat de ordin egal cu dimensiunea lui
Z care are pe diagonal dispersia componentelor lui Z i n rest covarianele
dintre elementele lui Z , deci
( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( )
1 1 2 1
2 1 2 2
1 2
, ,
, ,
, ,
n
n
n n n
Var z Cov z z Cov z z
Cov z z Var z Cov z z
Var Z
Cov z z Cov z z Var z
m Z m Z Z m Z
| |
|
|
= =
|
|
|
\
| |
= ( (
|
\
Definiie. Fie ( )
1 2
, ,...,
n
Z z z z = un vector aleator cu media ( ) m Z i
dispersia ( ) Var Z , A o matrice de constante cu numr n de coloane i
transformarea liniar U AZ = (care este vector aleator). Media lui U este
vectorul dat de formula
( ) ( ) m A A m Z = i ;
dispersia lui U este matricea dat de formula
( ) ( ) Var U A Var Z A = i i
S revenim acum la estimaiile din modelul regresiei multiple, coeficienii
de regresie estimai,
Y i
reziduurile, e , care sunt funcii liniare de observaiile cunoscute Y .
18
Deoarece am presupus c
i
sunt variabile aleatoare independente cu
media zero i dispersia
2
(
( )
2
~ 0,
i
N ), obinem
( ) 0 m =
i
( )
2
Var I = .
Pornind de la formula Y X = + i de la faptul c X i sunt
constante obinem
( ) ( ) ( ) ( ) m Y m X m X m X = + = + =
i cum dispersia nu se modific prin adunarea unei constante la o variabil
aleatoare, avem
( ) ( ) ( )
2
Var Y Var X Var I = + = = .
Astfel, presupunnd c modelul considerat este corect, avem c Y are o distribuie
normal de mai multe variabile i
( )
2
~ , Y N X I .
Exprimnd
prin formula
( )
1
X X X Y
(
=
avem c estimrile coeficienii regresiei multiple sunt funcii liniare de variabila
dependent Y avnd coeficienii dai de matricea
( )
1
A X X X
= .
Deoarece matricea X este constant, rezult c matricea A este
constant.
Dac modelul Y X = + este corect, atunci pentru media lui
obinem:
( )
( )
( )
( ) ( )
( ) ( ) ( )
1 1
1 1
m m X X X Y X X X m Y
X X X X X X X X
( (
= = =
( (
= = =
ceea ce ne arat c n presupunerea utilizrii unui model corect,
este un
estimator nedeplasat pentru .
Pentru dispersia lui
obinem:
19
( )
( ) ( ) ( )
( ) ( ) ( )
( )
( ) ( )
( )
( )
( )
( )
( )
( )
( )
( )
1 1
2
1 1 1 1
2 2
1 1
1 1
2 2 2 2
Var A Var Y A X X X I X X X
X X X X X X X X X X X X
X X X X X X X X
( (
= = =
( (
(
= = =
( (
= = = =
i i i i
.
Din presupunerea c
( )
2
~ 0, N I
rezult astfel c, dac modelul este corect, avem
( )
( )
1
2
~ , N X X
.
Reamintim c vectorul mediei estimate este dat prin relaia
Y PY = , unde
( )
1
P X X X X
Y se obine:
( )
( ) ( ) ( )
( )
1
1
m Y m PY Pm Y PX X X X X X
X X X X X X
(
= = = = =
(
= =
Din nou, dac modelul este corect, rezult c
Y este un estimator
nedeplasat al mediei pentru Y .
Pentru dispersia pentru
Y PY = . Avem:
( )
( )
2 2 2 2
Var Y P Var Y P P IP PP PP P = = = = = i i ,
relaie valabil deoarece P este o matrice simetric i idempotent. Acest
raionament ne conduce la rezultatul c
( )
2
~ , Y N X P .
Sa reamintim c reziduul e este dat prin relaia ( ) e I P Y = i astfel,
pentru media reziduului se obine:
( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) 0
m e m I P Y I P m Y I P X
X PX X X
= = = =
= = =
i
( ) ( ) ( )( ) ( ) ( )
( )( ) ( )
2
2 2
Var e I P Var Y I P I P I I P
I P I P I P
= = =
= =
.
Acest lucru are loc deoarece I P este o matrice simetriv i idempotent.
Din nou, cum s-a presupus c
( )
2
~ 0, N I , dac modelul considerat
este corect, rezult c
20
( ) ( )
2
~ 0, e N I P .
III. MPRIREA N CLUSTERE
Operaia legat de clustere reprezint mprirea datelor n grupuri de
obiecte singulare. Fiecare grup, sau cluster, const din obiecte care sunt
similare unul cu altul i nu sunt similare obiectelor din alte grupuri.
La reprezentarea unei cantiti mare de date ntr-un numr relativ
mic de clustere obinem o serie de simplificri cu preul pierderii unor
detalii.
Realizarea operaiei de mprire n clustere este o modelare a datelor
prin care ele sunt puse ntr-o perspectiv istoric pe baze matematice, n
special statistice. Din perspectiva nvrii automate clusterele corespund
surselor ascunse, fiecare cluster este o nvare nesupervizat, iar sistemul
rezultat este un concent al datelor.
mprirea n clustere trebuie s fac fa la trei provocri
suplimentare, i anume:
volum foarte mare de date,
obiecte cu numr mare de atribute,
atribute de tipuri diferite.
Aceste provocri impun mai multe cerine de calcul reprezentnd
complicaii reale pentru algoritmii clasici de mprire n clustere.
3.1. Contextul analizei clusterelor
Pentru fixarea contextului i clarificarea terminologiei considerm o
mulime de date X constnd din puncte de date ( )
1 2
, ,...,
i i i id
x x x x = , 1 i n ,
din spaiul de atribute A, unde fiecare component
ik k
x A , 1 k d , este un
atributde caracterizare numeric sau categorial a punctului de date.
Acest format al datelor este de tip punct-atribut i corespunde conceptual
la o matrice de dimensiune n d . Un astfel de format este folosit n majoritatea
algoritmilor pentru mprirea n clustere.
Cea mai simpl submulime dintr-un spaiu de atribute este un produs
cartezian direct al subdomeniilor, adic
1
d
i
i
C C A
=
=
,
i i
C A , numit segment
(cub, celul sau regiune). O unitate este un segment elementar care are
subdomeniile constnd dintr-o valoare simpl de categorie sau un interval numeric
unitar.
21
Descrierea punctelor de date numerice unitare reprezint un caz extrem de
mprire a datelor, numit histogram. Acest mod de mprire este foarte costisitor
fr a fi prea util.
Alt practic comun n mprirea datelor este segmentarea condus
(controlat) care folosete cunotiinele privind importana anumitor subdomenii.
Comparativ cu cele dou tehnici de mai sus, mprirea n clustere se
presupune a se realiza automat i astfel este o operaie nesupervizat, n sensul
nvrii automate.
Scopul mpririi n clustere este de a asocia punctele de date la un sistem
finit format din k submulimi (clustere). De regul, aceste submulimi formeaz o
partiie a mulimii totale de date (cu posibile excepii specificate), adic
1
k
k ex
i
X C C
=
| |
=
|
\
,
i j
C C = pentru i j , 1 , i j k
unde
i
C , 1 i k , sunt clusterele partiiei formate iar
ex
C este submulimea
excepiilor specificate.
3.2. Clustere ierarhice
mprirea n clustere ierarhizate combin obiectivele datelor n clustere,
acestea n clustere mai mari, i aa mai departe, stabilind o ierarhie. Arborele care
reprezint aceast ierarhie poarta numele de dendrogram. Obiectivele datelor
individuale sunt frunzele acestui arbore iar noduri interioare sunt clustere nevide.
Are loc o partiionare a nodurilor pe criteriul prinilor comuni.
Metoda permite explorarea datelor pe diverse niveluri de detaliere.
mprirea n clustere ierarhizate se clasific n abordri de aglomerare (ierarhizare
buttom-up) sau de divizare (ierarhizare top-down).
O mprire n clustere prin aglomerare pornete de la un cluster cu un
punct (numit singelton) i grupeaz succesiv dou sau mai multe clustere cu cea
mai mare similaritate.
O mprire n clustere prin divizare pleac de la un singur cluster cu toate
punctele de date i spargerea succesiv a clusterelor n submulimi corespunztoare
celei mai mari similariti. Procedeul continu pn la ndeplinirea unui criteriu de
oprire (cel mai adesea, atingerea numrului de clustere de partiionare, k ).
mprirea n clustere ierarhizate include urmtoarele aventaje:
flexibilitate n ce privete nivelul de detaliere,
uurina n manipularea oricrei forme de similaritate sau distan,
aplicabilitate la orice tip de atribut.
Dintre dezavantajele mpririi n clustere ierarhizate putem aminti:
dificultatea alegerii unui criteriu corect de oprire,
cei mai muli algoritmi bazai pe clustere ierarhizate nu mai revizuiesc
clusterele intermediare deja construite.
22
3.3. Metrici de legtur
n mprirea n clustere prin ierarhizare se consider adesea c
reprezentarea normal a datelor sub forma punct-atribut nu este primordial i
poate fi nlocuit cu succes de o matrice de dimensiune n n (matrice ptrat de
ordin n ) care indic distanele (lipsa de similaritate) sau similaritatea dintre
puncte, numit matrice de conectivitate. Pe baza acestei matrici urmeaz ca n
procesul de analiz s se constituie aa numita metric de letur.
Pentru mulimi de date de dimensiuni foarte mari, memorarea matricii de
conectivitate nu este practic n aplicaii, folosindu-se n schimb tehnici prin care,
fie se elimin valorile sub o anumit limit, fie se pstreaz doar un anumit numr
de vecini, i anume doar cei mai interesani din punct de vedere al similaritilor.
Modul n care se face prelucrarea matricii de conectivitate iniial i
construcia metricilor de legtur reflect conceptele apriorice asupra modelului
datelor.
Matricii de conectivitate
( ) ( )
1 ,
ij n
i j n
A a
= M i putem putem asocia
un graf de conectivitate ponderat ( ) , G X E = , unde X este mulimea punctelor
de date, iar arcele din E i ponderile lor sunt definite conform matricii de
conectivitate. Astfel, ( ) , i j E dac i numai dac 0
ij
a i pentru : p E
ponderile definite pe G , dac ( ) , m i j E = , atunci ( )
ij
p m a = .
n acest mod stabilim o legtur ntre mprirea n clustere prin ierarhizare
i partiionarea grafurilor, cele dou problematici fiind echivalente. Se constituie
astfel o metod de mparire n clustere ierarhizate prin care se rezolv problema de
partiionare a grafului asociat i o transpune napoi la nivelul clusterelor ierarhice.
mprirea n clustere ierarhizate iniializeaz un sistem de clustere prin-o
mulime de clustere singleton (cazul aglomerrii) sau un singur cluster care conine
toate punctele de date (cazul divizrii) i produce gruparea sau spargerea iterativ
pn la satisfacerea unei condiii de oprire. Cea mai buna grupare sau spargere
depinde de similaritile sau diferenierile elementelor implicate, un exemplu
important pentru aceast dependen fiind distana dintre punctele de date.
Pentru utilizarea distanelor dintre puncte n realizarea gruprii sau
spargerii, distana trebuie generalizat la distana ntre submulimi. O astfel de
msur poart numele de metric de legtur.
Tipul metricii de legtur are un impact semnificativ n realizarea
algoritmilor de ierarhizare deoarece reflect conceptul particular al apropierii sau
conectrii. Metricile cele mai folosite sunt: legarea simpl, legarea medie i legarea
complet. Aceste metrici se obin prin aplicarea minimului, a mediei i respectiv a
maximului pentru distanele dintre dou puncte situate n clustere distincte.
Dac
1
C i
2
C sunt dou clustere, definim
mulimea ( ) { }
12 1 2
, , D d x y x C y C = , iar distana dintre cele dou clustere
este dat prin definiie prin:
23
pentru legtura simpl
( )
1 2 12
, min
s
d C C D = ;
pentru legtura complet
( )
1 2 12
, max
c
d C C D = ;
pentru legtura medie,
( )
1 2
12
12
1
,
m
a D
d C C a
D
=
.
Considernd c ( )
1
i
i p
a a
= , b i c sunt coeficinii corespunztori unei
legturi particulare, putem face o exprimare general a legturii dintre o reuniune a
dou clustere cu al treilea cluster, n termenii nodurilor, printr-o formul
( ) ( ) ( ) ( ) ( ) ( )
( ) ( )
, , , ,
, ,
i j k i k j k i j
i k j k
d C C C a i d C C a j d C C bd C C
c d C C d C C
= + + +
+
Aceast formul este cunoscut n literatura de specialitate drept formula
de actualizare Lance-Williams.
3.4. Partiionare prin divizare binar
Principiul secionrii pe baze binare este un instrument util pentru
aplucaiile n care mprirea ierarhic a datelir privete doomenii ca lingvistica,
clasificarea documentelor i recuoerarea informaiilor.. mpreun cu operaiile de
filtrare i de recuperare a informaiilor se foloses diferite metode ale algebrei
liniare, cum ar fi cel de descompunere n valori proprii (valori singulare).
De exemplu, utilizarea metodei descompunerii n valori proprii la
mprirea n clustere ierarhizate prin divizare pentru colecii de documente
produce un algoritm de partiionare prin divizare pe direcii principale.
Considerm c x este un document care n spaiul de atribute are pe
poziia k date asupra utilizrii unui cuvnt (termin de index). Matricea X msoar
prin elementul
ik
x frecvena de apariie n documentul x a termenului k .
Algoritmul de partiionare prin divizare pe direcii principale consider
matricea X ex , unde x este media lui x , adic
1
1
n
i
i
x x
n
=
=
i ( ) 1,..., e k
= .
Algoritmul aplic nti descompunerea prin valori singulare.
Partiionarea prin divizare pe direcii principale realizeaz o secionare n
planul euclidian printr-un hiperplan care trece printre domeniile de date i care este
perpendicular vectorului propriu corespunztor celei mai mari valori proprii.
Dac se consider cele mai mari k valori proprii, atunci este posibil o
spargere bazet pe grupul acestor valori proprii. Aceast mprire reprezint un
mod bun de clasificare a documentelor atunci cnd scopiul este de a obine un
24
arbore binar de clasificare. De exemplu, dac pentru secionare se folosete media
ptratelor, atunci hiperplanul de seciune este perpendicular pe linia de conectare a
dou submulimi de date.
Aplicarea procesului de mai sus privete modul de mprire a unui cluster.
O problem important este ns i alegerea clusterului care va fi supus operaiei de
spargere.
Procesul de partiionare prin divizare pe direcii principale este cunoscut
sub numele de algoritmul lui Boley.
Rezolvarea npririi prin clustere printr-un algoritm bazat pe valori priprii
este destul de realizat datorit volumului foarte mare de calcule impuse de
rezolvarea eciaiei ( ) 0 X ex I = care este o ecuaie matricial cu vectorul
de necunoscute de dimensiune egal cu dimensiunea eantionului de date.
3.5. nvare conceptual
mprirea n clustere bazat pe nvarea conceptual (sau bazat pe
un model) este o anordare alternativ comparativ cu realizarea clusterelor
prin divizare sau aglomerare.
n aceast abordare fiecare cluster este considerat ca un model ce
poate fi descris n mod intrinsec i nu ca o colecie de puncte asociate.
Dendrograma obinut prin mprirea prin nvare conceptual poart
numele de arbore de clasificare. Fiecare nod al arborelui (cluster) C este
asociat cu o probabilitate condiionat pentru perechile atribut
categorie valoare, astfel c avem
( )
i ip
P x u C = , 1, 2,..., i d = , 1, 2,...,
i
p A = .
Aceasta poate fi recunoscut drept un clasificator Bayes naiv C specific.
n timpul construciei arborelui de clasificare, fiecare punct nou este
depus n arbore, acesta fiind actualizat dac este cazul prin operaii de
inserare, grupare, spargere sau creare.
Deciziile se bazeaz pe funcia de utilitate a categoriei dat prin
relaia:
( ) ( )
1 2
1
1
, ,...,
k
CU k CU j
j
f C C C f C
k
=
=
unde
( ) ( ) ( )
( ) ( )
2 2
1 1
A
d i
CU j i ip j i ip
i p
f C P x u C P x u
= =
(
= = =
(
.
Funcia de utilitate a categoriei recompenseaz clusterele
j
C la creterea
predictibilitii valorii
ip
u de atribut al categoriei.
25
Prin mprirea n clustere prin nvarea conceptual pot rezulta
arbori puternic nebalansai, ceea ce constituie un dezavantaj important.
n afar de modul de abordare prezentat mai sus, mprirea n
clustere pe baza nvrii conecptuale poate fi mbogit cu o serie de
faciliti suplimentare i deosebit de utile, cu ar fi extinderea prelucrrii
iniiale prin scalare pentru atributele categoriei i o strategie cu dou faze
pentru monitorizarea numrului de clustere.
Un model asiciat cu un cluster acoper att atributele numerice, ct
i cele de tip categorie i constituie o combinaie ntre modelele Gaussiene i
cele multinomiale. Notm cu parametrii multinomiali corespunztori. Cu
fiecare cluster C asocien un logaritm al verosimilitii (clasificrii) sale
( ) ( )
log
C i
x C
i
L P x
=
iar algoritmul de mprire n clustere folosete estimarea verosimilitii
maxime pentru parametrul .
Distana dintre dou clustere nu mai este dat n termenii unei
metrici de legtur, ci se definete ca o descretere n verosimilitatea
logaritmic prin
( )
1 2
1 2 1 2
,
C C C C
d C C L L L = +
care este provocat de gruparea celor dou clustere considerate.
Procesul de aglomerare bazat pe aceast distan continu pn la
ndeplinirea unui criteriu de oprire. Determinarea numrului maxim de
clustere k este una automat.
3.6. Clustere probabilistice
n abordarea probabilistic a mpririi n clustere datele sunt
considerate drept construcii de caz independente dintr-un model mixt cu
mai multe distribuii de probabilitate.
Presupunem c punctele de date sunt generate prin alegerea aleatoare
a unui model j cu probabilitatea
j
, 1, 2,..., j k = i construcia unui punct
x dintr-o distribuie corespunztoare. Un cluster natural este reprezentat de
o arie n jurul mediei pentru fiecare distribuie presupus unimodal.
n aceste caz asocien un cluster cu parametrii unei distribuii
distribuii considerate, cum ar fi media, dispersia etc. Fiecare punct de date
posed nu doar atributele sale (valorile observate) ci i identificarea
clusterului (dare este ascuns).
Se presupune c un punct de date x aparine unui singur cluster
(model) cu probabilitatea
( )
j
P x C , valoare pe care ncercm s-o estimm.
26
Verosimilitatea global a unor date urmrite este probabilitatea lor
de a fi construite ntr-un model mixt dat, deci
( ) ( )
1 1
n k
j i j
j i
L X C P x C
= =
=
.
Verosimilatea logaritmic
( ) ( )
log L X C servete ca o funcie obiectiv care
conduce la construcia unei metode de rezolvare cu dou faze cunoscut sub
numele de metoda Medie-Maximizare.
Faza de Medie realizeaz estimarea probabilitilor
( )
j
P x C care
este echivalent cu o reasociere uoar (eventual de tip fuzzy).
Faza de Maximizare gsete o aproximare a modelului mixt care d
asocieera uoar curent. Aceasta permite gsirea parametrilor modelului
mixt care maximizeaz verosimilitatea logaritmic.
Procesul descris continu pn la convergena n verosimilitate
logaritmic.
n practic se folosete att fenomenul de repornire, ct i o serie de
artificii de calcul prin care s se faciliteze gsirea celui mai bun optim local.
mprirea n clustere prin intermediul metodei Medie-Maximizare
poate fi accelerat prin realizarea unui arbore binar de indexare n care
datele din fiecare nod sunt divizate n doi descendeni prin spargerea
atributului celui mai deprtat de centrul intervalului su. Fiecare nod va
memora suficiente informaii statistice (inclusiv matricea de covarian)
pentru a permite reconsiderarea deciziei de asociere a punctelor.
Accelerarea iteraiilor metodei Medie-Maximizare se obine i prin
realizarea calculului aproximativ peste un arbore retezat folost ca arbore de
indexare.
mprirea n clustere pe baze probabilistice are cteva faciliti
importante dintre care putem enumera urmtoarele:
procesul poate fi modificat pentru a manipula puncte care sunt
nregistrate n structuri complexe;
procesul poate fi oprit i reluat cu iruri consecutive de date deoarece
clusterele au reprezentrile n total independen fa de mulimile
de puncte;
n orice etap a procesului iterativ se poate folosi modelul mixt
intermediar pentri asocieera punctelor la clustere;
procesul are ca erzultat un sistem de clustere uor de interpretat.
Deoarece modelul mixt are o fundamentare probabilistic clar,
deetrminarea celui mai convenabil numr de clustere k devine mai uor de
realizat.
27
3.7. Clustere k medie
Algoritmii de mprire n clustere prin k medie sunt dintre cele mai
populare instrumente de mprire n clustere folosite curent n aplicaiile tiinifice
i industriale. Numele metodei provine de la reprezentarea fiecruia dintre cele k
clustere
j
C , 1, 2,..., j k = , prin media (sau media ponderat)
j
c a punctelor sale.
Fiecare cluster poart numele de centroid.
n timp ce aceast reprezentare nu lucreaz bine cu atributele de tip
categorie, reprezentarea are sens pe deplin pentru perspectivele geometrice i
statistice ale atributelor numerice.
Ca funcie obiectiv n analiz se folosete suma distanelor dintre
elementele unei submulimi de puncte i centroidul s, exprimat printr-o funcie
de distan aproximativ.
De exemplu, funcia obiectiv bazat pe norma euclidian, suma erorilor
dintre puncte i centroizii corespunztori este egal cu variaia total dintre
clustere:
( )
2
1
k
i j
j x C
i j
E C x c
=
=
.
Suma ptratelor erorilor poate fi privit ca verosimilitate logaritmic
negativ pentru un model mixt cu distribuie normal i este folosit pe larg n
statistic. Notm c are loc doar o estimare a mediei. O modificare simpl
normalizeaz erorile individuale prin raza clusterelor (deviaia standard a
clusterelor), ceea ce d o semnificaie foarte bogat cnd clusterele au dispersii
diferite.
`O funcie obiectiv bazat pe norma euclidian are mai ulte proprieti algebrice.
De exemplu, ea coincide cu eroarea perechilor de valori i cu diferena dintre
variaia total a datelro i variaia dintre clustere, ceea ce se poate exprima prin
relaia:
( )
1 ,
1
2
k
i i
j x y C
i i j
E C x y
=
=
.
Se ajunge astfel simultan la separarea i la compactitatea clusterelor.
mprirea n clustere prin metoda k medie are o serie de
dezavantaje, dintre care:
rezultatele depind n mare msura de ghicirea iniial a centroizilor;
optimul local calculat poate fi mult diferit de cel global;
nu este clar modul de alegere a unei bune valori pentru nurul de
clustere k ;
se poate utiliza doar pentru atribute numerice;
clusterele obinute pot fi nebalansate, unele chiar vide n anumite
condiii speciale.
28
O prim versiune a optimizrii iterative prin k medie este similar
metodei Medie-Maximizare i const din iteraii majore cu dou faze:
1. reasocierea tuturor punctelor la centroizii cei mai apropiai i
2. recompunerea centroizilor pentru grupurile asamblate cel mai recent.
Procesul continu pn la ndeplinirea unui criteriu de oprire.
Aceast versiune are mai multe avantaje, dintre care putem indica:
poate lucra cu orice norm;
permite paralelizarea direct;
nu depinde de ordinea datelor.
O alt versiune a optimizrii iterative (considerat drept clasic)
realizeaza reasocierea punctelor pe baza unei analize detaliate asupra
modului n care o mutare a punctelor din clusterul curent n orice alt cluster
afecteaz funcia obiectiv. Dac o mutare are efect pozitiv, punctul
considerat este mutat efectiv i se reconsider cei doi centroizi implicai
(surs si destinaie pentru mutare).
A doua versiune nu este foarte potrivit deoarece implic un volum
foarte mare de calcule datorit considerrii tuturor punctelor n operaia de
reasociere. Metoda se poate folosi, n special pentru norma euclidian prin
folosirea proprietilor algebrice pentru distana utilizat efectiv.
IV. ANALIZA SERIILOR DE TIMP
Obiectivul principal al analizei seriilor de timp este de a dezvolta
modele matematice care sa permit o descriere plauzibil a cazurilor de
date.
4.1. Modele stochastice definite prin serii de timp
Pentru a da o fundamentare statistic pentru descrierea caracterului
datelor care par a fluctua aleator pe o perioada de timp presupunem c o
serie de timp poate fi definit ca o colecie de variabile aleatoare indexate
conform ordinii obinerii lor n timp.
Definiie. O colecie de variabile aleatoare { }
t
x indexat prin timp
este cunoscut sub numele de proces stochastic. Spunem c un proces
stochastic este continuu dac t . Spunem c procesul stochastic este
discret dac t .
n cele ce urmeaz vom lucra doar cu procese stochastice discrete.
Valorile observate pentru un proces stochastic sunt numite realizri
ale procesului. n continuare se va utiliza termenul de serie de timp att
pentru specificarea general a unui proces stochastic, ct i pentru realizrile
individuale ale procesului, diferena urmnd a rezulta din context.
29
Una din cele mai convenabile metode de reprezentare a seriilor de
timp este cea grafic n care timpul este plasat pe una din axe, cealalt
urmnd a corespunde valorilor observate. n acest mod se obine un grafic
punctual care indic pe deplin caracterul discret a seriile cu care se lucreaz.
Pe de alt parte, n reprezentarea grafic, punctele consecutive ca
timp put fi unite prin segmente pentru a obine o aproximare continu a
seriilor de timp. Se realizeaz acest lucru deoarece din punct de vedere
teoretic i conceptual, seriile de timp continue sunt prelucrate mult mai bine.
n practic se folosesc seriile de timp discrete n special datorit
restriciilor impuse de metodele de colectare a datelor. Pentru aproximarea
ct mai bun a seriilor continue cu serii discrete este util ca datele s fie
obinute la intervale de timp egale.
De asemenea, o serie de abordri teoretice rmn la ideea de a
specifica parametrul continuu n termenii unei funcii de distribuie de
dimensiune finit peste un numr finit de puncte de timp.
Deosebit de important pentru obinerea unor rezultate corecte din
analiza seriilor de timp este rata i intervalul cazuistic. Adoptarea unei rate
de caz insuficient poate schimba complet rezultatele obinute din date.
Distorsiunile care apar in date i care sunt datorate insuficienei ratei cazului
sunt numite alias (sau schimbare de identitate).
Principala caracteristic vizual care se poate observa pentru diverse
serii de timp este gradul diferit de netezire. O explicaie posibil a nivelului
de netezire este faptul c aceasta este determinat de corelaiile dintre
punctele adiacente, n sensul c valoarea serie de timp la un moment t , s
spunem
t
x , depinde de valorile anterioare (trecute),
1 2
, ,...
t t
x x
Acest model
exprim un mod fundamental n care am putea gndi generarea unei serii de
timp realiste.
Paragraful 4.1.1. prezint modelul de serie de timp n care variabilele
aleatoare sunt necorelate. Forma seriei poate fi netezit prin diverse metode
prin care se pot diminua oscilaiile. O astfel de metod de netezire este
mediea deplasat prezentat n paragraful 4.1.2. De asemenea, pentru
apropiera de situaiile reale, n seriile de timp se introduc corelaii ntre
termenii seriei existente.
4.1.1. Modelul zgomotului alb
Un mod simplu de generare a seriilor poate fi o colecie de variabile
aleatoare necorelate
t
w , cu media 0 i dispersia finit
2
w
. Seriile de timp
generate din variabile necorelate se folosesc ca modele de serii n aplicaii
de inginerie unde sunt numite gzomot alb. Sensul este de cuprindere a
30
tuturor oscilaiilor posibile i n aceeai msura. Vom nota un proces de
tipul gzomot alb prin
( )
2
~ 0,
t w
w wn .
Un alt caz de gzomot care poate fi necesar n aplicaii este datorat
variabilelor aleatoare independente identic repartizate de medie 0 i
dispersie
2
w
. Aceste modele de zgomot vor fi noate
( )
2
~ 0,
t w
w iid . Dac
repartiia variabilelor aleatoare este repartiia normal modelul va fi notat
prin
( )
2
~ 0,
t w
w iidN .
Definiie Modelul de zgomot
( )
2
~ 0,
t w
w iidN poart numele de
zgomot alb Gaussian.
Observaie. n condiiile n care comportamentul stochastic al
tuturor seriilor de timp se poate explica prin modelul de zgomot alb, atunci
pentru analiz ar fi suficiente modelele statistice clasice.
4.1.2. Modelul zgomotului cu medie deplasat
Putem pleca de la seria zgomot alb
( )
2
~ 0,
t w
w wn i s o nlocuim
prin media deplasat care netezete seria. Pentru a exemplifica metoda
considerm media aritmetic a valorii curente i a celor doi vecini imediai
afai la dreapa i la stnga valorii curente. Obinem astfel o serie de timp
nou cu termenii definii prin
( )
1 1
1
3
t t t t
u w w w
+
= + +
Aceast serie este o versiune a seriei
( )
2
~ 0,
t w
w wn iar inspectarea
ei arat c ea este oscilaii mai ncete i se elimin oscilaiile cele mai mari.
Deplasarea mediei se poate face bilateral, cum este cazul i n relaia
de mai sus sau unilaterral, anterior sau posterior. Astfel, nlocurea valorilor
seriei
( )
2
~ 0,
t w
w wn prin seria de termeni generali
( )
1 2
1
3
y t t t
v w w w
= + +
reprezint o medie deplasat unilateral anterior.
Pentru mediile deplasate bilateral, deplasarea poate fi echilibrat sau
neechilibrat, acest lucru fiind indicat de numrul de termeni considerai la
dreapta i la stnga valorii curente. De exemplu, seria
t
u este una echilibrat
deoarece se consider acelai numr de termeni att la dreapta ct i la
stnga valorii curente. n schimb, seria derivat din zgomotul alb prin relaia
31
( )
2 1 1
1
3
t t t t t
z w w w w
+
= + + +
este neechilibrat deoarece n exprimarea ei, n afara valorii curente se
consider doi termeni din orizontul anterior i unul din orizontul posterior.
4.1.3. Modelul zgomotului autoregresiv
Modelul zgomotului autoregresiv consider la intrare modelul
zgomotului alb
( )
2
~ 0,
t w
w wn i definete po serie pentru care termenii se
calculeaz printr-o ecuaie de regresie.
De exemplu putem utiliza o ecuaie de ordinul 2 de forma
1 1 2 2 t t t t
x x x w
= + + ,
ecuaie care reprezinta o regresie sau predicie a valorii curente
t
x a seriei
de timp ca funcie de dou din valorile anterioare din seria
( )
2
~ 0,
t w
w wn .
O astfel de definiie trebuie considerat ca fiind una cu valori iniiale,
deoarece trebuie cunoscute primele dou valori seriei. Acest lucru poate fi
eliminat pentru seriile considerate infinite, cel puin n ce privete orizontul
anterior.
ntr-o astfel de abordare, valorile
1
si
2
reprezint coeficienii
ecuaiei de regresie de ordinul doi i principial sunt constante. Ca
autoregresie se poate utiliza o ecuaie de represie de orice ordin, cea
prezentat mai sus fiind doar in caz particular.
4.1.4. Modelul zgomotului cu semnal
Multe modele realiste pentru generarea seriilor de timp presupun
existena unui semnal cu o variaie periodic consistent care influeneaz
prin adugarea un ui zgomot aleator.
De exemplu, considerm modelul
2
2cos 0, 6
50
t t
t
x w
| |
= + +
|
\
unde primul termen este considerat ca semnal cu variaie periodic. Aceast
sinusoid poate fi scris n general sub forma
( ) cos 2 A t +
unde A este amplitudinea, este frecvena oscilaiei i este decalajul de
faz.
Termenul de zgomot suplimentar se adaug termenului pentru
zgomotul alb dat pentru
w
cu o distribuie normal. Gradul de acoperire
32
al semnalului depinde de mrimea amplitudinii semnalului i de mrimea
lui
w
.. Raportul dintre mrimea semnalului i
w
este numit raport
semnal-zgomot i cu ct este mai mare cu att semnalul este detectat
mai uor.
4.2. Msurarea dependenelor prin autocovarian i
corelaie ncruciat
O descriere complet a seriilor de timp observate ca o colecie de n
variabile aleatoare date la momentele ntregi de timp
1
t ,
2
t , ...,
n
t este fcut
prin funcia de distribuie reunit, evaluat ca probabilitatea ca valorile
seriei s fie mai mici sau egale cu n constante
1
c ,
2
c , ...,
n
c , deci
( )
( ) 1 2 1 2
1 2
, ,..., , ,...,
n t t t n
n
F c c c P x c x c x c = .
Din pcate funcia de distribuie multidimensional nu are o form
convenabil de prezentare dect n cazul n care toate variabilele aleatoare
sunt normal distribuite. Un caz particular se obine pentru variabile aleatoare
independente i identic distribuite cu repartiie normal standard ( ( ) 0,1 N )
pentru care funia de distribuie reunit se poate exprima ca produs al
distribuiilor marginale
( ) ( )
1 2
1
, ,...,
n
n i
i
F c c c c
=
=
unde
( )
2
2
1
2
x z
x e dz
=
este funcia de distribuie pentru o variabil aleatoare cu repartiia ( ) 0,1 N .
Cu toate c funciia de distribuie multidimensional descrie complet
datele, ea nu este un instrument util n afiarea i analiza datelor seriilor de
timp. Funcia de distribuie multidimensional trebuie evaluat ca o funcie
de n argumente i astfel o imagine grafic a sa este practic imposibil de
realizat..
Funciile de distribuie unidimensionale
( ) ( )
t t
F x P x x =
sau funcia densitate de repartiie corespunztoare
( ) ( )
t
t
F
f x x
x
,
33
cnd exist, conin informaii pentru a determina dac o coordonat
particular a seriei de timp are o repartiie cunoscut, cum ar fi repartiia
normal (Gaussian)..
Definiie. Numim funcie medie funcia definit prin relaia
( ) ( )
xt t t
M x xf x dx
+
= =
,
considernd c integrala exist, unde M este operatorul uzual al valorii
medii.
Dac nu exist posibilitatea de confuzie asupra seriei de timp la care
se refer funcia medie, aceasta va fi notat mai simplu prin
t
.
Este important s nelegem c
t
este media teoretic pentru o serie
la un moment particular de timp, media fiind considerat pentru toate
evenimentele care produc pe
t
x .
Dac
( )
2
~ 0,
t w
w wn , avem ( ) 0
wt t
M w = = pentru orice t . Atunci
putem calcula funcia medie pentru seria de timp cu medie deplasat.
Considernd pentru aceasta forma
( )
1 1
1
3
t t t t
u w w w
+
= + + ,
funcia medie va fi
( ) ( )
( ) ( ) ( ) ( )
( ) ( )
( )
1 1
1 1 1 1
1
3
1 1
0
3 3
ut t t t t
t t t wt w t w t
M u M w w w
M w M w M w
+
+ +
= = + + =
= + + = + + =
.
Dac vom considera seria de timp din modelul cu zgomot cu semnal,
dat de exemplu prin ecuaia
2
2cos 0, 6
50
t t
t
v w
| |
= + +
|
\
,
funcia medie se va obine ca
( )
( )
2
2cos 0, 6
50
2 2
2cos 0, 6 2cos 0, 6
50 50
vt t t
t
t
M v M w
t t
M w
| | | |
= = + + =
| |
\ \
| | | |
= + + = +
| |
\ \
astfel c funcia medie coincide componentei de semnal din seria de timp.
Lipsa independenei dintre dou valori componente
s
x i
t
x ale
seriei de timp se poate caracteriza numeric ca n statistica clasic prin
34
utilizarea noiunilor de covarian i corelaie. Pentru aceasta vom
presupune n continuare c dispersia lui
t
x este finit.
Definiie. Funcie definit prin relaia
( ) ( ) ( ) ( )
,
x s s t t
s t M x x =
pentru fiecare s i t se numete funcia de autocovarian.
Cnd nu exist posibilitatea de confuzie asupra seriei de timp, n
locul notaiei ( ) ,
x
s t vom folosi ( ) , s t . Notm i faptul c funcia de
autocovarian este simetric n sensul c pentru orice s i t avem
( ) ( ) , , s t t s = .
Funcia de autocovarian msoar dependena liniar dintre dou
puncte ale aceleiai serii de timp observate la momente diferite. Seriile
foarte netede etaleaz funcii de autocovarian care rmn mari chiar dac
s i t sunt relativ apropiate, n timp ce seriile variabile tind s aib funcii
de autocovarian apropiate de zero chiar i pentru distane mari ntre s i t .
Autocovariana este media produselor ncruciate relativ la
densitatea reunit ( ) ,
s t
F x x
=
=
.
Considernd modelul seriei cu medie deplasat dat de relaia
( )
1 1
1
3
t t t t
u w w w
+
= + + ,
pentru funcia de autocovarian avem
( ) ( ) ( ) ( )
( ) ( ) ( )
1 1 1 1
1 1 1 1
1 1
,
3 3
1
9
u s t s s s t t t
s s s t t t
s t M u u M w w w w w w
M w w w w w w
+ +
+ +
| |
= = + + + + =
|
\
= + + + +
i
.
Pentru a calcula aceast funcie vom considera separat cazurile
s t h = pentru h.
Pentru 0 h = avem
35
( ) ( )
( )
( ) ( ) ( ) ( )
( )
2
1 1
2 2 2
1 1
2 2
1
,
9
1
...
9
3 3
9 9
u t t t
t t t
t w
s t M w w w
M w M w M w
M w
+
+
= + + =
= + + + =
= =
Cnd 1 h = , considernd 1 s t = + se obine
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
1 2 1 1
2 2 2 2
1
1
,
9
1 2 2
...
9 9 9
u t t t t t t
t t t w
s t M w w w w w w
M w M w M w
+ + +
+
= + + + + =
= + + = =
Pentru 2 h = putem considera c 2 s t = + i avem
( ) ( ) ( ) ( )
( ) ( ) ( )
1 2 3 1 1
2 2 2
1
1
,
9
1 1 1
...
9 9 9
u t t t t t t
t t w
s t M w w w w w w
M w M w
+ + + +
+
= + + + + =
= + = =
Dac 3 h = se observ c n expresia pentru ( ) ,
u
s t nu intervine
nici un ptrat i astfel ( ) , 0
u
s t = .
Rezumnd calculele de mai sus obinem
( )
2
2
2
1
pentru
3
2
pentru s-t 1
9
,
1
pentru s-t 2
9
pentru s-t 3
0
w
w
u
w
s t
s t
Determinarea autocovarianei arat c operaia de netezire indcue o
funcie de autocovarian care descrete odat cu creterea separaiei ntre
dou puncte, disprnd complet aceasta depsete trei puncte.
Pe baza autocovarianei de poate defini urmtoarea noiune.
Definiie. Numim funcie de autocorelaie pentru seria de timp
t
x ,
funcia definit prin relaia
36
( )
( )
( ) ( )
,
,
, ,
x
x
x x
s t
s t
s s t t
= .
Funcia de autocorelaie msoar predictibilitatea seriei la momentul
t cnd se folosete doar valoarea la momentul s .
De multe ori, n practica analizei seriilor de timp, se lucreaz
simultan cu mai multe serii de timp. Acest lucru impune i realizarea unor
msuri a predictibilitii unei serii
p
y considerat la momentul t n funcie
de o serie
q
x considerat la momentul s de timp. Considernd c ambele
serii au dispersia finit, putem da urmtoarele funcii de msur a relaiei
dintre cele dou serii de timp.
Definiie. Funcia dat prin relaia
( ) ( ) ( ) ( )
,
xy s xs t yt
s t M x y =
se numete funcia de covarian ncruciat ntre seriile
t
x i
s
y .
Definiie. Funcia dat prin relaia
( )
( )
( ) ( )
,
,
, ,
xy
xy
x y
s t
s t
s s t t
=
se numete funcia de corelaie ncruciat ntre seriile
t
x i
s
y .
4.3. Serii de timp staionare
Definiiile date mai sus pentru funciile de medie i covarian sunt
considerate n contextul general al seriilor de timp pentru care nu s-au fcut
presupuneri specialedespre comportamentul seriilorchiar dac pot exista
anumite regulariti. n continuare introducem noiunea de regularitate prin
conceptul de staionaritate.
4.3.1. Definiie i caracterizri
Definiie. O serie de timp pentru care comportamentul probabilistic
al oricrei colecii de valori
{ }
1 2
, ,...,
t t t
k
x x x este identic cu cel al coleciei
decalate n timp
{ }
1 2
, ,...,
t h t h t h
k
x x x
+ + +
se numete serie de timp strict
staionar. Adic { }
t
x este o serie strict staionar dac pentru orice 1 k ,
oricare ar fi momentele de timp
1
t ,
2
t , ...,
k
t i numerele
1
c ,
2
c , ...,
k
c ,
pentru orice h are loc relaia
37
( ) ( ) 1 2 1 2
1 2 1 2
, ,..., , ,...,
t t t k t h t h t h k
k k
P x c x c x c P x c x c x c
+ + +
= .
Dac o serie de timp este strict staionar, atunci toate funciile de
distribuie de mai multe variabilepentru submulimi de variabiletrebuie s
fie egale cu perechile lor deplasate indiferent de valoarea parametrului de
salt.
De exemplu, pentru 1 k = avem
( ) ( )
s t
P x c P x c =
pentru oricare dou puncte de timp s i t . n plus, dac exist funcia medie
xt
pentru seria
t
x , atunci
t s
x x = pentru orice s i t , deci
xt
trebuie sa fie
constant.
Pentru cazul 2 k = putem scrie relaia
( ) ( )
1 2 1 2
, ,
s t s h t h
P x c x c P x c x c
+ +
=
pentru oricare dou puncte s i t i pentru orice valoare de salt h . Astfel,
dac exist funcia de dispersie pentru proces, atunci funcia de
autocovarian pentru seria de timp
t
x satisface relaia
( ) ( ) , , s t s h t h = + +
pentru orice s , t i h .
Interpretnd acest rezultat putem spune c funcia de autocovarian
pentru proces depinde doar de diferena de timp dintre s i t , fr a depinde
de termenii considerai curent.
Pentru majoritatea aplicaiilor, noiunea definit mai sus de serie de
timp strict staionar este prea puternic. n loc de a se pune condiia asupra
tuturor distribuiilor posibile pentru seria de timp, se va cere doar
satisfacerea condiiilor pentru primele dou momente.
Definiie. Dac
t
x este un proces cu dispersie finit astfel nct:
(i) funcia medie
xt
este constant i nu depinde de timpul t ;
(ii) funcia de covarian ( ) ,
x
s t depinde de s i t doar prin
diferena s t .
Atunci spunem c
t
x este o serie de timp slab staionar.
n cele ce urmeaz vom considera c o serie de timp este staionar
dac ea este slab staionar. Pentru seriile de timp strict staionare vom
folosi denumirea integral.
Din discuia de mai sus rezult n mod clar i c dac
t
x este o serie
de timp cu dispersie finit i strict staionar, atunci seria
t
x este i
38
staionar (slab). Reciproca acestei afirmaii este fals n absena impunerii
unor condiii suplimentare.
Un caz important este cel al seriei Gaussiene (toate distribuiile seriei
sunt finite i gaussiene) care este staionar dac i numai dac este strict
staionar.
Deoarece funcia medie pentru o serie de timp staionar este
independent de timp putem scrie
t
= .
De asemenea, deoarece funcia de autocovarian a unei serii de timp
staionare nu depinde direct de s i t , ci doar de distan de la s la t .
Notnd h s t = , putem scrie relaia
( ) ( )
, , 0 s t s t = .
Deoarece al doilea argument este tot timpul zero, putem considera c poate
lipsi i putem redefini noiunile de msur pentru seriile de timp staionare.
Definiie. Dac
t
x este o serie de timp staionar, funcia
( ) ( )( ) ( )
t h t
h M x x
+
=
se numete funcie de autocovarian.
Definiie. Dac
t
x este o serie de timp staionar, atunci funcia
( )
( )
( ) 0
h
h
=
se numete funcie de autocorelaie.
S considerm n primul rnd modelul seriei de timp zgomot alb,
( )
2
~ 0,
t w
w wn . Atunci pentru cazul staionar avem
( ) ( )
2
pentru 0
pentru 0 0
w
w t h t
h
h M w w
h
+
=
= =
.
Acest lucru conduce la concluzia c seria zgomot alb este staionar. Dac
n plus variaia zgomotului alb este de distribuie normal sau Gaussian,
seria este struct staionar.
Pentru seria cu medie deplasat, considerm din nou
forma ( )
1 1
1
3
t t t t
u w w w
+
= + + pentru care am stabilit anterior
39
( )
2
2
2
1
pentru 0
3
2
pentru 1
9
1
pentru 2
9
pentru 3
0
w
w
u
w
h
h
h
h
h
.
Funcia de autocovarian a unui proces staionar de medie deplasat
are o serie de proprieti utile. nti, pentru valoarea 0 h = avem
( ) ( )
( )
2
0
t
M x =
care este dispersia seriei de timp i n plus
( ) ( ) 0 h .
n al doilea rnd, deoarece
( ) ( ) ( )( ) ( )
( )( ) ( ) ( ) ( ) ( )
t h t
t t h
h t h t M x x
M x x t t h h
+
+
= + = =
= = + =
rezult c funcia de autocovarian a unei serii staionare este
simetric n jurul originii.
Dac se dispune de mai multe serii de timp, vom aplica o noiune de
staionaritate and condiii suplimentare.
Definiie. Dou serii de timp
t
x i
t
y se numesc staionare reunite
dac fiecare serie este staionar i dac funcia de covarian ncruciat
( ) ( ) ( ) ( )
xy t h x t y
h M x y
+
=
este o funcie care depinde doar de h .
Definiie. Funcia de corelaie ncruciat a seriilor de timp
t
x i
t
y staionare reunite este dat de relaia
( )
( )
( ) ( ) 0 0
xy
xy
x y
h
h
= .
Procednd ca n cazul autocovarianei unei serii de timp staionare,
pentru funcia de corelaie ncruciat a seriilor de timp
t
x i
t
y staionare
reunite se obine relaia ( ) ( )
xy xy
h h = care arat c funcia este simetric
n jurul originii.
40
4.3.2. Modelul sumei i diferenei n zgomot alb
Un exemplu de model de serii de timp staionar reunite este modelul
sumei i diferenei n zgomotul alb. Pentru a defini acest model considerm
o serie de timp de tip zgomot alb
( )
2
~ 0,
t w
w wn .
Seria
t
x se definete prin relaia
1 t t t
x w w
= + .
Funcia medie pentru seria
t
x este
( ) ( ) ( ) ( ) ( )
1 1
0
x t t t t t
t M x M w w M w M w
= = + = + = .
Pentru a calcula funcia de covarian a serie
t
x considerm cazurile
pentru s t h = + i avem:
pentru 0 h =
( ) ( )( ) ( ) ( )
( )
( )
( ) ( )
2
2
2 2 2
1 1
,
2
x t t t
t t t t w
t t M x x M x
M w w M w M w
= = =
= + = + =
;
pentru 1 h =
( ) ( )( ) ( ) ( )
( ) ( ) ( ) ( )
1 1
2 2
1 1
1,
x t t t t
t t t t t w
t t M x x M x x
M w w w w M w
+ +
+
+ = = =
= + + = =
pentru 2 h
( ) ( ) ( ) ( ) ( )
( )( ) ( )
1 1
,
0
x t h t t h t
t h t h t t
t h t M x x M x x
M w w w w
+ +
+ +
+ = = =
= + + =
Am obinut pe scurt
( )
2
2
2 pentru
, pentru 1
0
pentru 2
w
x w
s t
s t s t
s t
= =
.
Rezult astfel c seria de timp sum a seriei zgomot alb este o serie
staionar. Scriem c 0
x
= i
( )
2
2
2 pentru 0
pentru 1
0
pentru 2
w
x w
h
h h
h
= =
.
Seria
t
y se definete prin relaia
1 t t t
y w w
= .
41
Funcia medie pentru seria
t
x este
( ) ( ) ( ) ( ) ( )
1 1
0
y t t t t t
t M y M w w M w M w
= = = = .
Pentru a calcula funcia de covarian a serie
t
x considerm cazurile
pentru s t h = + i avem:
pentru 0 h =
( ) ( ) ( ) ( ) ( )
( )
( )
( ) ( )
2
2
2 2 2
1 1
,
2
y t t t
t t t t w
t t M y y M y
M w w M w M w
= = =
= = + =
;
pentru 1 h =
( ) ( ) ( ) ( ) ( )
( )( ) ( ) ( )
1 1
2 2
1 1
1,
y t t t t
t t t t t w
t t M y y M y y
M w w w w M w
+ +
+
+ = = =
= = =
pentru 2 h
( ) ( ) ( ) ( ) ( )
( ) ( ) ( )
1 1
,
0
y t h t t h t
t h t h t t
t h t M y y M y y
M w w w w
+ +
+ +
+ = = =
= =
Am obinut pe scurt
( )
2
2
2 pentru
, pentru 1
0
pentru 2
w
y w
s t
s t s t
s t
= =
.
Rezult astfel c seria de timp diferen a seriei zgomot alb este o
serie staionar. Scriem c 0
y
=
( )
2
2
2 pentru 0
pentru 1
0
pentru 2
w
y w
h
h h
h
= =
n acelai mod calculm funcia de covarian ncruciat i avem
pentru 0 h =
( ) ( )( ) ( )
( )
( )( ) ( ) ( ) ( )
2 2
1 1 1
,
0
xy t x t y t t
t t t t t t
t t M x y M x y
M w w w w M w M w
= = =
= + = =
;
pentru 1 h =
( ) ( ) ( ) ( )
( )
( )( ) ( ) ( )
1 1
2 2
1 1
1,
xy t x t y t t
t t t t t w
t t M x y M x y
M w w w w M w
+ +
+
+ = = =
= + = =
42
pentru 1 h =
( ) ( ) ( ) ( )
( )
( )( ) ( ) ( )
1 1
2 2
1 1
, 1
xy t x t y t t
t t t t t w
t t M x y M x y
M w w w w M w
+ +
+
+ = = =
= + = =
pentru 2 h
( ) ( )( ) ( )
( )
( )( ) ( )
1 1
,
0
xy t h x t y t h t
t h t h t t
t h t M x y M x y
M w w w w
+ +
+ +
+ = = =
= + =
S-a obinut n acest mod funcia
( )
2
2
0 pentru
pentru 1
,
pentru 1
pentru 2
0
w
xy
w
s t
s t
s t
s t
s t
= +
=
+ =
.
Funcia
xy
depinde doar de diferena s t i deoarece fiecare din
seriile
t
x i
t
y este staionar rezult c seriile de timp sunt staionare
reunite. n plus, scriem
( )
2
2
0 pentru 0
pentru 1
pentru 1
pentru 2
0
w
xy
w
h
h
h
h
h
=
=
Seriile de timp
t
x i
t
y sunt staionar reunite i atunci putem
determina funcia de corelaie ncruciat.i avem
( )
( )
( ) ( )
0
0 0
0 0
xy
xy
x y
= = ,
( )
( )
( ) ( )
( ) ( )
2
2 2
1
1
1
2
0 0
2 2
xy
w
xy
x y
w w
= = = ,
( )
( )
( ) ( )
( )( )
2
2 2
1
1
1
2
0 0
2 2
xy
w
xy
x y
w w
= = = ,
( )
( )
( ) ( )
0
0 0
xy
xy
x y
h
h
= = , 2 h ,
de unde se poate scre pe scurt:
43
( )
0 pentru 0
1
pentru 1
2
1
pentru 1
2
0 pentru 2
xy
h
h
h
h
h
4.3.3. Procese liniare i Gaussiene
Definiie. Fie i familia de constante
{ }
j
j
care ndeplinete
condiia c
j
j
=
= +
,
unde
( )
2
~ 0,
k w
w wn (altfel spus,
t
x este o combinaie liniar de
variabilele zgomot alb
k
w ).
Constantele
j
poart numele de coeficienii procesului liniar.
Se poate demonstra c funcia de autocovarian a unui proces liniar
n care
( )
2
~ 0,
k w
w wn este dat de relaia
( )
2
w j h j
j
h
+
+
=
=
,
pentru 0 h .
Aceast formul etaleaz funcia de autocovarian a procesului n
termenii produsului coeficienilor corespunztoare spaierii h .
Definiie. Un proces
t
x se spune a fi proces Gaussian dac pentru
orice vector de dimensiune k ,
( )
1 2
, ,...,
t t t
k
x x x
= x are o distribuie normal
multidimensional pentru orice colecie de puncte de timp
1
t ,
2
t , ...,
k
t i
orice
*
k .
44
Considerm c ( )
( )
1 2
, ,...,
t t t
k
M
= = x este vectorul de
dimensiune k al mediei a vectorului aleator x i
( ) ( ) ( )
, 1,2,...,
,
i j
i j k
Cov t t
=
= = x este matricea de covarian a vectorului
aleator x (de dimensiune k k ), atunci funcia de densitate normal
multimensional este dat de relaia
( ) ( ) ( )
( ) ( )
1
1
1
2
2 2
2 det
n
f e
=
x x
x .
4.4. Estimarea corelaiei seriilor de timp
Cu toate c funciile teoretice de autocorelaie i corelaie ncruciat
sunt utile pentru descrierea proprietilor pentru diferite modele ipotetice,
cea mai pare parte a analizei asupra datelor trebuie s prelucreze cazurile de
date. Aceast limitare semnific faptul c pentru estimarea funciilor medie,
autocovarian i autocorelaie se dispune doar de punctele din eantionul de
date studiat,
1
x ,
2
x , ...,
n
x .
Din punct de vedere al statisticii clasice, acest lucru reprezint o
provocare deoarece nu avem n mod specif copii independente i identic
distribuite pentru
t
x pentru a face estimarea funciilor de covarian i de
corelaie, n situaiile curente devenind critic ipoteza de staionaritate.
ntr-un fel trebuie s folosim mediile asupra acestei realizri unice pentru
t
x
pentru a estima funciile de medie i covarian pentru populaia studiat.
Dac o serie de timp este staionar, deci funcia medie
t
= este
constant, atunci putem estima funcia medie prin media
empiric
1
1
n
t
t
x x
n
=
=
.
Funcia de autocovarian teoretic este estimat printr-o funcie de
autocovarian empiric definit dup cum urmeaz.
Definiie. Pentru orice 1, 2,..., 1 h n = funcia definit prin
( ) ( )( )
1
1
n h
t h t
t
h x x x x
n
+
=
=
i ( ) ( ) h h = este numit funcie de autocovarian empiric.
Analog cu definiia funciei de autocorelaie teoretic intervine
urmtoarea definiie.
Definiie. Funcia de autocorelaie empiric este definit prin
relaia
45
( )
( )
( ) 0
h
h
.
Funcia de autocorelaie empiric ne va permite s stabilim cnd
datele provin dintr-o serie de timp complet aleatoare sau din una de zgomot
alb sau cnd corelaiile sunt semnificative statistic pentru un anumit vivel de
spaiere.
Atunci cnd studiul se refer la dou serii de timp, definim
urmtoarele funcii empirice.
Definiie. Funcia empiric de covarian ncruciat este definit
de relaia
( ) ( ) ( )
1
1
n h
xy t h t
t
h x x y y
n
+
=
=
,
iar funcia empiric de corelaie ncruciat este dat prin
( )
( )
( ) ( ) 0 0
xy
xy
x y
h
h
.
V. ANALIZ NELINIAR
Analiza liniar prezentat anterior este unul din instrumentele
puternice de analiz a datelor. Cu toate acestea, n practic sunt numeroase
cazuri n care exprimarea matematic a rspunsului la variabilele
predicionate este neliniar n parametrii considerai. Acest lucru face
necesar extinderea tehnicilor de regresie introducnd un grad de
complexitate sporit.
5.1. Modelul regresiei neliniare
Un model de regresie neliniar se exprim printr-o relaie
( ) ,
n n n
Y f x Z = +
unde
n
x este vectorul variabilelor independente pentru cazul n din eantion. Se
poate observa c forma general este asemntoare formei modelului liniar de
regresie. Diferena const n factul c cel puin una din derivatele funciei f a
valorilor ateptate n raport cu unul din parametrii, depinde cel puin de un
parametru.
Pentru a face distincie ntre modelul liniar i cel neliniar am notat
parametrul prin . Vom nota prin p numrul de parametrii.
46
Pentru analiza unei mulimi particulare de date considerm ca fixai
vectorii
n
x dintr-un eantion de dimensiune N i ne intereseaz dependena
rspunsului ateptat .
Pe baza vectorilor observai generm vectorii ( ) ( ) ,
n n
f x = i astfel,
n scriere matricial avem pentru model forma
( ) Y Z = +
Unde se presupune c vectorul aleatoar Z are o distribuie normal de mai multe
variabile de medie ( ) 0 M Z = i dispersie ( )
2
var Z I = , deci
( )
2
~ 0, Z N I .
Ca exemplu de funcie neliniar utilizat pentru un model de regresie
putem considera o funcie raional, cum ar fi funcia
( )
1
1 2
2
, ,
x
f x
x
=
+
Prin derivarea parial n raport cu parametrii avem
( )
1 2
1 2
, , f x
x
x
=
+
,
( )
( )
1 2
1
2
2
2
, , f x
x
x
+
i cum ambele derivate pariale depind de unul din parametrii rezult c modelul
obinut cu ajutorul acestei funcii ese unul neliniar.
Pentru modelul dat ca exemplu mai sus putem considera c expresia
funciei f poate fi rescris sub forma
2
1 2
1 1
1 1
g x x
f
= = + = +
Se obine astfel o relaia liniar pentru funcia implicat n modelul neliniar.
Este foarte important de notat c o transformare a datelor implicate ntr-un
model implic i o transformare a termenului de perturbare Z , ceea ce afecteaz i
presupunerile care se fac asupra acestui termen.
Pentru forma general a modelului neliniar am prezupus c
( )
2
~ 0, Z N I . Aceste presupuneri nu vor mai fi valabile i n cazul modelului
transformat.
O a doua observaie important asupra modelului considerat este c el
poate fi considerat ca un model liniar n
1
, deoarece prin derivarea funciei n
raport cu acest parametru, derivata nu mai depinde de
1
.
Acest considerent poate s ne fac s ne gndim la realizarea unei estimri
pentru
1
condictionat de
2
, scriind modelul de regresie liniar sub forma
47
1
2
x
Y Z
x
= +
+
considernd ca variabil independent valoarea
2
x
x +
, care este un model liniar
cu parametru condiionat.
Presupunerea de distribuie normal multidimensional pentru termenul de
perturbare Z conduce n mod natural la considerarea unei geometrii euclidiene de
dimensiune N pentru spaiul de rspuns. Vectorii ( ) care au dimensiunea N
determin n spaiul de rspuns o suprafaa de dimensiune p care este interesant
pentru estimarea
prin metoda celor mai mici ptrate care corespunde unui punct
( )
= apropiat de y . Astfel
corespunztor punctului .
Pentru cazul modelului liniar prima faz este una direct deoarece putem
scrie o expresie explicit pentru punctul din planul ce reprezint suprafaa ateptat
i care s fie apropiat de Y i anume relaia
t
QQ y =
Datorit liniaritii, faza a doua este de asemenea direct deoarece vectorul
de dimensiune p se transpine inversabil n planul reprezentat de suprafaa
asteptat i astfel dac tim unul din puncte l putem afla imediat pe cellalt printr-
o relaie:
1
t
R Q
= .
Lucrurile se schimb complet n cazul neliniar cnd determinrile din cele
dou faze pot fi foarte dificile. Dificultatea primei faze const n faptul c suprafaa
ateptat este o curb i adesea este de factur finit. Pentru faza a doua problema
este legat de faptul c putem raliza o coresponden a punctelor doar ntr-o
singur direcie, de la parametrii la suprafaa ateptat. Pentru a depi aceste
dificulti trebuie s folosim diferite metode, cum ar fi metodale iterative.
48
5.3. Estimaii prin metoda Gauss-Newton
Abordarea din aceast metod este de a folosi o aproximare liniar a
funciei f prin care, plecnd de la o valoare iniial
0
pentru s se realizeze
prin iteraii o mbuntire a estimrii pn nu se mai modific valoarea curent
pentru parametru. Pentru aceasta realizm o dezvoltare a funciei ( ) ,
n
f x ntr-o
serie Taylor de primul ordin, n jurul valorii
0
, adic o dezvoltare de forma
( ) ( ) ( ) ( ) ( )
0 0 0 0
1 1 1 2 2 2
, , ...
n n n n np p p
f x f x v v v = + + + +
unde pentru 1, 2,..., k p =
( )
0
,
n
nk
k
f x
v
Dac se iau n considerare toate cele N cazuri ale eantionului studiat,
scriem
( ) ( ) ( )
0 0 0
V = +
unde ( )
0
1
1
n N
nk
k p
V v
= este matricea de dimensiune N p a derivatelor pariale.
Relaia este echivalent cu evaluarea reziduurilor ( ) ( ) z y = prin
intermediul relaiei
( ) ( ) ( )
0 0 0 0
z y V z V = + =
unde am notat
( )
0 0
z y = i
0
= .
Metoda are la baz calculul incrementului
0
pentru care are loc
minimizarea sumei ptratelor reziduurilor
2
0 0
z V i n acest sens se folosesc
relaiile
0
1 1
V QR Q R = = ,
0
1 1
t
v Q x = ,
1
1 1
Q w = i
0
1 1
R w = .
Pentru
0
determinat avem c punctul
( ) ( )
1 1 0 0
= = + este mai
apropiat de y dect punctul
( )
0
i astfel putem trece la o valoare a
parametrilor mai bun
1 0 0
= + .
Procesul este reluat cu alt iteraie pentru a determina noile reziduuri
( )
1 1
z y = , a noii matrici a derivatelor pariale
1
V i a noului increment
1
,
urmnd a continua pn la obinerea convergenei, adic pn cnd se va obine o
valoare a incrementului care s fie att de mic nct s nu mai apar schimbri
semnificative asupra vectorului de parametrii.
Din punct de vedere geometric, o iteraie Gauss-Newton const din
urmtoarele etape
49
1. aproximarea funciei ( ) printr-o dezvoltare n serie Taylor n jurul
punctului
( )
0 0
= ;
2. determinarea vectorului reziduurilor
0 0
z y = ;
3. proiecia vectorului de reziduuri
0
z pe un plan tangent pentru a obine
1
;
4. transpunerea lui
1
ntr-un sistem liniar de coordonate pentru a gsi
incrementul
0
;
5. trecerea la urmtorul punct de iteraie dat prin
( )
0 0
+ .
Pentru detaliere trebuie s spunem c prima etap implic dou aproximri
distincte, i anume:
a. aproximarea suprafeei ateptate ( ) n jurul lui
( )
0
prin planul
tangent n
( )
0
i acest lucru se face datorit presupunerii de planeitate;
b. impunerea unui sistem liniar de coordonate
( )
0
V pentru planul
tangent aproximat la (a) i acest lucru este posibil datorit presupunerii de
coordonate uniforme.
Se observ c la etapa 5 trecerea la urmtorul vector al parametrilor se face
prin relaia
1 0 0
= + n locul relaiei
1 0 0
= + specificate mai sus. Se
realizeaz acest lucru deoarece incrementul
0
poate produce o cretere n suma
de ptrate atunci cnd incrementarea se extinde n afara regiunii n care este
valabil aproximarea liniar. se numete factor de pas i este ales astfel nct s
aib loc o descretere n suma de ptrate la nlocuirea lui
0
prin
1
.
Am afirmat anterior c iteraiile propuse de metoda Gauss-Newton
continu pn cnd se stabilizeaz valorile lui n iteraii succesive. Acest lucru
se poate msura prin mrimea fiecrei valori de incrementare relativ la fiecare din
valorile anterioare ale parametrului. Un alt criteriu posibil pentru convergen este
ca schimbarea relativ din suma de ptrate din iteraii succesive este mic.
Aceste criterii indic lipsa de progres n atingerea minimului, dar o
problem este c aceast lips de progres nu impune i atingerea efectiv a valorii
minime.
Exeminarea geometric a determinrii prin metoda celor mai mici ptrate
pentru cazul nelinar i faptul c un punct critic este atins cnd vectorul reziduurilor
( ) y este ortogonal pe suprafaa ateptat i deci pe planul tanget la acest
suprafa. Acest motiv poate s conduc la adoptarea ortogonalitii vectorului
reziduurilorla planul tangent drept criteriu de convergen..
Forma criteriului cu ortogonalitate, pentru o valoare de precizie, este
50
( ) ( )
( ) ( )
1
2
t i
t i
Q y
p
Q y
N p
<
unde
1
Q i
2
Q sunt formate cu primele p i respectiv ultimele N p coloane din
matricea Q a descompunerii matricii V sub forma QR .