Sint Eze

1
ANALIZA DATELOR, TEHNICI DATA MINING

Conf. Univ. Dr. Silviu Brz

I. TRADITIONAL SI MODERN IN ANALIZA DATELOR

Dezvoltarea fr precedent a bazelor de date n aproape toate
domeniile cunoasterii umane a creat necesitatea existenei unor instrumente
din ce n ce mai puternice pentru transformarea datelor n cunotiie utile cu
orientare clar n domeniul de interes. Eforturile de creare a acestor
instrumente de lucru s-au bazat pe explorarea ideilor i metodelor dezvoltate
n cercetrile legate de nvarea automat, recunoaterea formelor, analiza
statistic a datelor, reele neuronale, etc.Toate aceste conexiuni au dus la
apariia unor domenii noi de cercetare cunoscute sub numele data mining i
descoperirea cunotiinelor.
n urma dezvoltrii calculatoarelor electronice din ultimile dou
decenii, cea mai mare parte a datelor disponibile se gsesc nregistrate
ntr-un format specific bazelor de date din sistemele de calcul i astfel,
pentru accesaera lor se face apel la tehnici de calcul pentru care a intervenit
problematica modului de extragere a lor ntr-o form util i orientat pe
cunoatere.
Primele aspecte de care dorim s ne ocupm sunt de abordare a
tehnicilor clasice de analiz a datelor. Aceste tehnici au fost i sunt utilizate
pe scar larg pentru rezolvarea celor mai multe din problemele practice.
Aceste tehnici sunt orientate n principal pe extragerea datelor pe baza unor
caracteristici cantitative i statistice i astfel au un grad mare de limitare.
Prin data mining se doreste s extrag din datele existente acele
componente inplicite, necunoscute anterior i care s fie potenial utile.
Acest lucru face ca data mining s fie un domeniu interdisciplinar care s
regrupeze tehnici aprute iniial n domenii ca nvarea automat,
recunoaterea formelor, statistic matematic, reele neuronale i altele.
Descoperirea cunotiinelor este o terminologie aprut n finalul
secolului XX pentru a specifica ntregul proces de extragere a cunotiinelor
din date, ceea ce, n acest context, reprezint relaiile i conexiunile dintre
diversele componente ale datelor, data mining reprezentnd doar
componenta de descoperire din procesul de descoperire a cunotiinelor.
Ne dorin de asemenea s abordm subiectul descoperii cunotiinelor
cu evidenierea diferitelor etapelor ale acestuia i cu indicarea unor
probleme poteniale.

2
1.1 Tehnici tradiionale de analiza datelor

Tehnicile tradiionale de analiza datelor conin tehnici specifice de
statistic matematica dintre care putem enumera: analiza regresiei, analiza claselor,
analiza multidimensional, modelarea stochastic, analiza seriilor de timp,
estimarea neliniar.. Dm mai jos cteva exemplificri i indicm, pentru fiecare
caz n parte neajunsurile implicate de utilizarea tehnicilor date..
Analiza statistic poate determina covariana i corelaia dintre variabilele
din interiorul datelor. ns, analiza statistic nu poate da o caracterizare a
dependenelor abstracte i conceptuale pentru un nivel sau o procedur a datelor.
De asemenea, ea nu poate da o explicaie cazuistic a motivelor pentru care exist
aceste dependene.Analiza statistic nu poate nici s dezvolte o justificare a acestor
relaii sub forma unoir descrieri sau legi la un nivel ridicat de tip logic.
Se poate realiza o mbinare ntre analiza statistic prin care se poate
determina tendina central i variaia unor factori dai i o analiz de regresie prin
care de poate completa o curb pentru o mulime de puncte de date. mbinarea
acestor tehnici nu poate s produc o descriere calitativ a regularitilor. Aceast
mbinare nu poate nici s determine dependena regularitilor de factori care nu
sunt dai explicit n date. De asemenea, mbinarea acestor analize nu pot nici s
desemneze o analogie ntre regularitile descoporite i cele dintr-un alt domeniu.
Tehnicile de secionare numeric pot crea o clasificare a entitilor i s
specifice o similaritate numeric ntre entiti reunite n aceeai clas sau n
categorii diferite. Secionarea n umeric nu poate ns construi o descriere
calitativ a claselor create i nu poate da ipoteze rezonabile pentru entitile care
sunt n aceeai categorie. Suplimentar pentru a utiliza aceste tehnici este necesat ca
anterior, printr-o analiz a datelor s se stabileasc atributele care definesc
similaritile s msurile pentru acestea.
Pentru a ne putea adresa tehnicilor tradiionale de analiz a datelor este
necesar s dispunem de un istoric de o dimensiune considerabil i s putem realiza
o motivare simbolic a lucrului care implic acele cunotiine i date.
Pe scurt, tehnicile tradiionale de analiz a datelor faciliteaz interpretrile
utile ale datelor i ajut la generarea includerilor importante din prelucrrile
aferente datelor. Cunotiinele astfel obinute sunt derivate din analiza datelor
fcut de om..
Din necesitatea satisfacerii nevoilor crescute de instrumente pentru analiza
datelor care sa depeasc limitrile existente la un moment dat (dintre care i cele
specificate mai sus), cercetrile au condus la utilizarea ideilor i metodelor
dezvoltate de nvarea automat. Acest domeniu este util n cazul analizei datelor
deoarece esena cercetrilor din nvarea automat este de a dezvolta metode de
calcul pentru a ajunge la cunotiine pornind de la fapte i de la cunotiine
anterioare.
Volumul foarte mare de date folosite ca intrare pentru analiza datelor face
ca modelele de date s ajung la nivele de complexitate fr precedent. Acest lucru
necesit dezvoltarea de algoritmi robuti i eficieni prin care s se manipuleze
mulimi bogate de date cu dimensiuni ridicate.

3
Domeniul statisticii matematice a date modele cu presupuneri mai mult sau
mai puin detaliate asupra distribuiei datelor.
Teoria clasic a inferenei Bayesiene i-a demonstrat utilitatea ntr-un
numr mare de aplicaii.
n afar metodelor clasice, cele date de reelele neuronale i de nvarea
automat au contribuit i ele la analiza datelor de dimensiuni mari prin idei,
concepte i algoritmi.
Noile abordri din analiza datelor pun mpreun tehnicile speficate mai sus
pentru a obine modele sofisticate care pot include i dependenele neliniare din
mulimile de date de dimensiuni mari. ntre timp s-au adugat metode ale
recunoaterii statistice a formelor, logica fuzzy i algoritmii genetici.

1.2 Tehnici de data mining n analiza datelor

n zilele noastre, dezvoltarea internetului a reprezentat o adevrat
revoluie n ce privete schimbul i volumul datelor disponibile, creterea
manifestat fiind una de factur exponenial i fr se se ntrevad posibilitatea de
saturare deoarece multe domenii de activitate sunt la nceputurile dezvoltrii (de
exemplu, e-learning, e-commerce, e-business). n acelai timp tot mai multe
organizaii de afaceri i tiinifice au nceput s-i organizeze datele n arhive cu
structuri noi i care pot reprezenta o min de aur. Aceast dezvoltare a surselor
dedate a necesitat gsirea de metode i algoritmi, att pentru formarea i
managementul arhivelor, ct i pentru extragerea regularitilor utile. Extragerea
regularitilor se poate face fie direct sub forma de cunotiine care s caracterizeze
relaiile dintre variabilele care intereseaz, fie indirect, ca funcii care s permit
predicia, clasificarea sau reprezentarea regularitilor din distribuia datelor. Toate
acestea sunt provocri pentru noul domeniul, data mininf i descoporirea
cunotiinelor.
Pentru data mining este relavant n particular i controlul complexitii,
domeniu n care se caut caracterizri complexe dar care s rmn valabile.
Trebuie s observm faptul c prin utilizarea unr metode ca arborii de decizie cu
profunzime mare sau maini cu suport vectorial n spaii cu dimensiune mare, face
ca raia eantioanelor pentru gradele de libertate s fie mic chiar i n contextul
mulimilor mari de date.
Controlul complexitii, fie prin tehnici numerica, fie prin mrginirea
teoretic din teoria nvrii prin calcul cu rescalare empiric este indispensqabil
pentru pracxticienii din domeniul data mining.
Datorat mrimii mari a datelor i mrimea calculelor implicate n procesul
de descoperire a cunotiinelor, o component esenial pentru orice aplicaie util
de data mining este utilizarea calculului paralel.
Data mining const din numeroare metode de ultim or, dintre care putem
aminti clasificarea, mprirea i asocierea. Clasificarea se poate face prin arbori de
decizie, clasificator Bayes, nevintate apropiat sau reele neuronale. mpritrea se
poate face prin k-medii, ierarhizare sau pe baza densitii. Asocierea are la baz

4
unidimensionalitatea, multidimensionalitatea, nivelele multiple sau poate fi dt n
funcoie de anumite restricii.
Data mining reprezint un proces i aplicarea lui cu succes necesit diverse
operaii preliminare (ca reducerea dimensiuii, curarea, eliminarea zgomotului),
operaii ce urmeaz prelucrrii (nelegere, rezumare, prezentare) o bun nelegere
a domeniilor problemei i expertiza domeniului.

1.3 Conceptele pentru data mining

Definiie. Data mining este un proces de descoperire a corelaiilor,
tiparului i tendinelor sparea (mining) ntr-un spaiu mare de date memorate
folosind tehnici statistice, de nvare automat, de inteligen artificial i de
vizualizare a datelor.
In general, observatorii n cunotiin de cauz sunt de acord c suportul de
decizie n profunzime necesit tehnologii noi i c acestea trebuie s permit
descoperirea tendinelor i a tiparelor de predicie din date, crearea i testarea
ipotezelor i generarea vizualizrilorprovocate de nelegere

1.3.1. Date, informaii, cunotiine

Definiie. Datele sunt reprezentate de orice fapt, numr sau text care poate
fi prelucrat de un calculator.
Organizaiile de azi dispun de mulimi vaste i n crestere de date sub
formate i n baze de date diferite. Datele pot fi operaionale sau tranzacionale cum
ar fi cele pentru vnzri costuri, inventar, plai sau conturi. De asemenea, date mai
pot fi i neoperaionale, ca de exemplu cele ale vnzrilor industriale i cele
macroeconomice.
Metadatele sunt date despre datele nsele, cum ar fi construcia logic a
bazelor de date sau difiniiile dicionarului de date.
Tiparele, asocierile i relaiile dintre toate datele pot oferii informaii De
exemplu, datele asupra tranzaciilor punctelor de vnzare pot conine informaii
asupra produselor care se vnd i asupra momentului vnzrilor.
Informaiile pot fi transformate n cunotiine asupra tiparelor istorice i a
tendinelor viitoare. De exemplu, Rezumarea informaiilor asupra vnzrilor
permanente pot fi analizate n lumina eforturilor promoionale pentru a obine
cunotiine sau comportamentul cumprtorului consumator. Astfel un productor
sau un comerciant poate determina acele elemente care sunt susceptibile eforturilor
promoionale.

1.3.2. Definiri legate de data mining

Data mining este un domeniu interdisciplinar care grupeaz tehnicile
specifice pentru Invarea automat, recunoaterea formelor, statistica matematica,
bazele de date, vizualizarea i reelele neuronale.

5
Data mining este descoperirea eficient a informaiilor evaluabile i
neevidente dintr-o colecie mare de date.
Descoperirea cunotiinelor n bazele de date este procesul netrivial de
identificare din date a tiparelor valabile potenial utile i finalmente intelegibile.
Informaiile descoperite trebuie s creeze avantaje competitive n
activitile implicate.
Data mining reprezint inducerea modelelor i tiparelor inteligibile dintr-o
baz de date.
Data mining este o succesiune de transformri a maselor de informaii n
sensul obinerii de cunotiine semnificative. Este un proces care ajut la gsirea de
noi oportuniti prin descoperirea adevrurilor fundamentale din din date aparent
aleatoare. Tiparele descoperite pot conduce la indicarea problemelor aplicative i
s asiste n mod util la luarea unei dicizii practice.
Tehnicile specifice pentru data mining implic arbori de decizie, reele
neuronale, mprirea dup cel mai apropiat vecin, logica fuzzy i algoritmii
genetici.
Aplicaiile care folosesc tehnicile de data mining pot fi realizate n dou
moduri, fie utiliznd datele existente aa cum ele sunt nregistrate, fie prin
extragerea din datele existente a prilor din informaii care sunt interesante pentru
utilizatorul final i nregistrarea lor separat, eventual ntr-un sistem multiprocesor.
Exist mai multe tipuri de tehnici data mining i fiecare folosete sistemele
de calcul n moduri diferite.

1.3.3. Principii i tehnologii de data mining

Procedul de data mining face parte din procesul mai larg de descoperire a
cunotiinelor care cuprinde n total ase etape, i anume: selecia datelor, curirea,
mbogirea, codificarea datelor, data mining i raportarea rezultatelor.
Prin aplicarea sa data mining este o tehnologie nou puternic i cu un mare
potenial care poate s ajute companiile s se concentreze asupra informaiilor
importante coninute n datele care au fost colectate asupra comportamentului
clienilor cureni i poteniali, descoperind informaiile coninute n date dar care nu
pot fi evideniate efectiv prin sistemul de cereri i rapoarte.
Tehnicile analitice folosite n data mining sunt adesea tehnici i algoritmi
matematici foarte cunoscui. Noutatea n aplicarea acestor tehnici pentru generarea
problemelor este posibil prin creterea disponibilului de date
Unele din instrumentele folosite n data mining sunt:
reelele neuronale artificiale modele neliniare predictive care nva prin
antrenament i reasambleaz n structuri reelele neuronale biologice,
arborii de decizie structuri de factur arborescentpentru reprezentarea
mulimilor de decizii, urmnd ca deciziile s genereze reguli de clasificare
a mulimilor de date,
regula induse extragerea de reguli utile dac-atunci din bazele de date
fundamentate de semnificaia statistic,

6
algoritmii genetici tehnici de optimizare bazate pe conceptele combinrii
genetice, mutaiilor genetice i seleciei naturale,
principiul celui mai apropiat vecin o tehnic de clasificare are mparte
fiecare nregistrare funcie de nregistrrile cu similaritatea cea mai mare
cu cea curent dintr-o baz de date istoric.

II. ANALIZA REGRESIEI

O prim metod de realiza a analizei datelor, este analiza regresiei. Tehnica
face parte din metodele tradiionale de analiz a datelor i este un instrument al
statisticii matematice. Prezentm n continuare principiile i rezultatele importante
legate de acest tip de analiz a datelor.

2.1. Modelul liniar al regresiei

Cel mai simplu model liniar implic doar o singur variabil independent
i statueaz ca cresctoare sau descresctoare schimbrile mediei reale a variabilei
dependente care sunt direct proporionale cu valorile variabilei independente.
Astfel, relaia funcional dintre media real pentru
i
Y , notat prin ( )
i
m Y i
i
X
este dat de o ecuaie liniar de forma
( )
0 1 i i
m Y X = +
unde
0
este valoarea iniial a valorii ( )
i
m Y cnd 0 X = i
1
este rata de
schimbare n ( )
i
m Y la o schimbare unitar n
i
X .
Indicele i n cele de mai sus desemneaz o unitate de observaie
particular, 1, 2,..., i n = .
i
X reprezint observaiile variabilei independente care se
presupune a fi msurate fr eroare, adic valorile observate pentru X se
presupune a fi msurate fr eroare. Valorile
i
Y i
i
X sunt observaii n pereche i
fiecare sunt observate pe fiecare unitate a eantionului.
Erorile aleatoare
i
e au media zero i se presupune c au dispersia comun
2
i sunt independente de perechea considerat.
Deoarece n model singurul element aleator este
i
e , presupunerile fcute
implic faptul c
i
Y au, de asemenea, dispersia comun
2
, independent de
perechea considerat.
n general se consider c
( )
2
~ 0,
i
e N (are o distribuie normal i
independent de medie zero i dispersie
2
).

7

2.2. Estimarea prin cele mai mici ptrate

Procedura de estimare prin metoda celor mai mici ptrate folosete drept
criteriu faptul c soluia estimrii trebuie s dea cea mai mic sum posibil pentru
abaterea ptratic a valorilor
i
Y observate relativ la mediile lor reale date de
soluie.
Fie
0
i
1
estimrile numerice ale parametrilor

0
i respectiv
1
i fie
0 1

i i
Y X = +
mediile estimate pentru fiecare
i
X , 1, 2,..., i n = .
Principiul celor mai mici ptrate alege
0
i
1
care minimizeaz suma

ptratelor reziduurilor, deci
( )
( )
2
2
2
1 1
n n
i i i
i i
S rez Y Y e
= =
= =

unde am notat cu
i i i
e Y Y = reziduul pentru a i -a observaie.
Estimatorii pentru
0
i
1
se gsesc prin calculul prin care se determin
minimul funciei ( )
2
S rez . Egalnd cu zero derivatele pariale ale lui ( )
2
S rez n
raport cu
0
i
1
, se obine sistemul de dou ecuaii doua necunoscute (numite
ecuaii normale):
( ) 0 1
1 1
2
0 1
1 1 1

n n
i i
i i
n n n
i i i i
i i i
n X Y
X X X Y

= =
= = =
| |
+ =
|
\
| | | |
+ =
| |
\ \

Rezolvarea sistemului ecuaiilor normale conduce la sistemul de relaii:
( )( )
( )
1 1
1
2
2
1 1
0 1

n n
i i i i
i i
n n
i i
i i
X X Y Y x y
X X x
Y X

= =
= =
= =

Notm c
i i
x X X = i
i i
y Y Y = dau observaiile exprimate ca
abateri de la mediile lor simple X i respectiv Y .
Formulele mai convenabile pentru calculul sumei ptratelor i a sumei
produselor sunt:

8
2
1 2 2
1 1
1 1
1 1
n
i
n n
i
i i
i i
n n
i i
n n
i i
i i i i
i i
X
x X
n
X Y
x y X Y
n
=
= =
= =
= =
| |
|
\
=
| || |
| |
\ \
=

Prin nlocuire se obine:
1 1 1
1 2
2
1 1
n n n
i i i i
i i i
n n
i i
i i
n X Y X Y
n X X
= = =
= =
| | | || |
| | |
\ \ \
=
| | | |
| |
\ \

i astfel forma ecuaiei de regresie devine:
( )
1

i i
Y Y X X = + .

2.3. Analiza variaiei pentru variabila dependent

Reziduurile se definesc prin ecuaia
i i i
e Y Y =
ca abatere a valorilor observate fa de valorile estimate prin ecuaia de regresie.
Ca alternativ, fiecare valoare observat pentru variabila dependent
i
Y se
poate scrie ca sum ntre media populaiei estimate pentru Y pentru o valoare dat
a lui X i reziduul corespunztor, deci
i i i
Y Y e = + .

Y este partea contabilizat prin model a observaiei

i
Y , n timp ce
i
e
reflect partea necontabilizat.
Suma ptratelor total necorectat a lui
i
Y dat prin
( )
2
2
1
n
i
i
S tnc Y
=
=

se poate mpri n mod similar. Pentru aceasta substituim fiecare
i
Y cu
i i
Y e + i
astfel avem
( )
( ) ( )
2
2 2 2
2 2
1 1 1 1

n n n n
i i i i i
i i i i
Y Y e Y e S model S rez
= = = =
= + = + = +

unde am notat

9
( )
2
2
1
n
i
i
S model Y
=
=

i relaia este valabil deoarece termenul produs ncruciat,
, 1
n
i j
i j
Ye
=
este egal cu
zero.
n construcia de mai sus componenta ( )
2
S model reprezint suma
ptratelor contabilizabile iar ( )
2
S rez este termenul necontabilizabil al sumei
ptratelor.
Formulele care convin mai mult scopurilor de calcul sunt
( ) ( )
( ) ( ) ( )
2
2 2
2 1
1
2 2 2
n
i
i
S model nY X X
S rez S tnc S model
=
= +
=

Partiionarea sumei de ptrate total necontabilizate se poate face i n
termenii sumei ptratelor contabilizate prin scderea factorul de corecie
2
nY din
ambii membrii a sumei ptratelor coreciei pentru medie. Se obine astfel relaia
( ) ( ) ( ) ( )
2 2
2 2 2
S tnc nY S model nY S rez = +
sau altfel scris
( ) ( ) ( ) ( )
2
2 2 2
2 1 2 2
1 1 1
n n n
i i i
i i i
S total y X X e S regr S rez
= = =
= = + = +

.
Notm c y este deviaia lui Y fa de Y i astfel
( )
2
1
n
i
i
S total y
=
=

este suma ptratelor total corectate. Mai sus am notat
( ) ( )
2
2
2 1
1
n
i
i
S regr X X
=
=

care indic partea din model care intervine n afara factorului de corecie.
Numrul de grade de libertate asociate fiecrei sume de ptrate
este determinat de dimensiunea studiului, n , i de numrul de parametrii din
model, 1 p + , unde p este numrul variabilelor independente.
n cazul modelului liniar considerat, numrul gradelor de libertate asociat
cu ( )
2
S model este egal cu 2.
Numrul gradelor de libertate asociate cu ( )
2
S regr este ntotdeauna cu 1
mai mic dect numrul termenilor contabilizai datorit scderii factorului de
corecie care are ntotdeauna un grad de libertate.

10
( )
2
S rez va conine 1 n p grade de libertate corespunztoare
termenilor necontabilizai din model.
O msura a contribuiei variabilelor independente n model este
coeficientul de determinare, notat
2
R , exprimat prin raportul sumei ptratelor
corectate ale ;lui Y i informaia obinut din variabilele independente, adic
( )
2 2
2
1
n
i
i
S regr
R
y
=
=
.
Coeficientul de determinare este o valoare ntre 0 i 1 i este ptratul
produselor corelaiei momentelor dintre
i
Y i
i
Y , ceea ce pentru o singur variabil
independent este ptratul coeficientului de corelaie dintre
i
Y i
i
Y .

2.4. Precizia estimrilor

Orice cantitate rezultat n urma unui calcul cu variabile aleatoare este ea
nsi o variabil aleatoare. Astfel, fiind calculate plecnd de la
i
Y , valorile
i
Y ,
i
Y ,
i
e ,
0
i
1
vor fi la rndul lor variabile aleatoare. Msurile privind precizia,

dispersia i eroarea standard a estimaiilor constituie o baz pentru a aprecia modul
de estimare.
Coeficienii de regresie,
i
Y i reziduurile calculate sunt toate funcii liniare
de
i
Y astfel ca aceste valori pot fi caracterizate n termenii definiiilor
fundamentale pentru caracterizarea funciilor liniare.
Definiie. Fie
1
n
i i
i
U a Y
=
=
o funie liniar arbitrar de variabilele

aleatoare
i
Y , 1, 2,..., i n = , unde
i
a sunt constante. Formula general a dispersiei
funciei U este
( ) ( ) ( )
2
1 1 1
,
n n n
i i i j i j
j i i
j i
Var U a Var Y a a Cov Y Y
= = =
= +

unde ( ) , Cov a b desemneaz covariana dintre variabilele aleatoare a i b .
Definiie. Fie
1
n
i i
i
U a Y
=
=
i
1
n
i i
i
V bY
=
=
dou funcii liniare n

variabilele aleatoare
i
Y , 1, 2,..., i n = , unde
i
a i
i
b sunt coeficieni constani.
Formula general a covarianei funciilor liniare U i V este

11
( ) ( ) ( )
1 1 1
, ,
n n n
i i i i j i j
j i i
j i
Cov U V a bVar Y a b Cov Y Y
= = =
= +

Covariana este msurarea tendinei ca dou variabile aleatoare s creasc
sau s descreasc mpreun. Cnd variabilele aleatoare a i b sunt independente
atunci ( ) , 0 Cov a b = .
Conform presupunerilor din modelul uzual de regresie, variabilele
aleatoare
i
Y sunt independente i astfel, din formula dispersiei pentru U , dispare
termenul
( )
1 1
,
n n
i j i j
j i
j i
a b Cov Y Y
= =

i acelai lucru intervine i n cazul formulei pentru covarianta dintre U i V .
Suplimentar s-a considerat c toate variabilele aleatoare
i
Y are dispersia
comun i egal cu
2
, deci ( )
2
i
Var Y = pentru orice 1, 2,..., i n = . Astfel,
dispersia funciei liniare U se reduce la
( )
2 2
1
n
i
i
Var U a
=
=

.
De asemenea, covariana dintre funciile liniare U i V revine la
( )
2
1
,
n
i i
i
Cov U V a b
=
=

.
Rezultatele prezentate mai sus ne permit s determinm imediat dispersia
pentru
1
, plecnd de la relaia
1
1
2
1
n
i i
i
n
i
i
x y
x
=
=
=

care este echivalent cu
1
2 1
1
n
i
i n
i
i
i
x
Y
x
=
=
| |
|
| =
|
|
\
.

12
n ultima relaie identificm drept coeficieni pentru
i
Y valorile
2
1
i
n
j
j
x
x
=
,
care n modelul de regresie sunt constante. Din presupunerile modelului rezult c
avem
( )
2
2
2
2 2 1
1 2
2 2 1
2
1 1
1
n
i n
i i
n n
n
i
j i
i
j i
i
x
x
Var
x x
x

=
=
= =
=
| |
|
|
= = =
|
| |
|
|
\
\

Pentru dispersia parametrului
0
considerm ecuaia
0 1

Y X =
prin care parametrul este definit. Variabilele aleatoare din aceast ecuaie sunt Y i
1
, avnd coeficienii 1 i, respectiv,

( )
X . Din formula general a dispersiei
pentru o funcie liniar obinem
( ) ( ) ( ) ( ) ( ) ( )
2
0 1 1

2 , Var Var Y X Var X Cov Y = + +
Dispersia pentru Y este
( )
2
Var Y
n
= , iar cea pentru

1
a fost obinut
mai sus. Pentru calculul covarianei rescriem Y sub forma
1
1
1
n
i n
i
i
i
Y
Y Y
n n
=
=
| |
= =
|
\

i
1
prin
1
2 1
1
n
i
i n
i
i
i
x
Y
x
=
=
| |
|
| =
|
|
\
.
Astfel putem identifica dou funcii liniare avnd coeficienii
1
n
i, respectiv,
2
1
i
n
j
j
x
x
=
. Prin aplicarea formulei generale pentru covariana dintre dou funcii

liniare, deoarece
1
0
n
i
i
x
=
=
, obinem

13
( )
( )
2 1
1
2 2 1
1 1
1 1
, 0
n
i n
i i
i n n
i
j i
j i
x
x
Cov Y Var Y
n n
x x

=
=
= =
| |
|
| | | |
|
= = =
| |
|
\ \
|
\

Rezult
( ) ( ) ( )
2 2 2 2
2 2
0 1
2 2
1 1
1

n n
i i
i i
X X
Var Var Y X Var
n n
x x

= =
| |
|
| = + = + = +
|
|
\

innd cont de faptul c
( )
1

i i
Y Y X X = +
putem proceda ca mai sus pentru a determina dispersia pentru
i
Y i obinem
( ) ( ) ( ) ( )
( )
2
2
2
1
2
1
1

i
i i n
i
i
X X
Var Y Var Y X X Var
n
x

=
(
(
( = + = +
(
(

.

2.6.Modelul regresiei multiple

Modelul liniar pentru indicarea relaiei dintre o variabil dependent i
2 p variabile independente este definit prin relaia
0 1 1
...
i i p ip i
Y X X = + + + +
unde indicele i desemneaz momentul la care se consider observaiile Y i
1 i
X ,
2 i
X , ...,
ip
X , 1, 2,..., i n = , n fiind dimensiunea eantionului. Astfel trebuie
estimai 1 p + parametrii. Vom presupune c n este mult mai mare dect p .
Pentru a uura presentarea vom considera:
Y este un vector de dimensiune n cu observaiile asupra variabilei i de-a
idependente,
X este o matrice de dimensiune ( ) 1 n p + n care prima coloan este
format doar cu valoarea 1 iar celelalte p coloane conin observaiile
asupra variabilelor independente
ij
X ,
este un vector de dimensiune 1 p + al parametrilor estimai
j
,
este un vector de dimensiune n care indic erorile aleatoare care apar la
fiecare observaie din eantion.

14

Considernd toate ecuaiile modelului putem scrie:
11 12 1 0 1 1
21 22 2 1 2 2
1 2
1
1
1
1
p
p
n n np p n n
X X X Y
X X X Y
X X X Y

| || | | | | |
| | | |
| | | |
= +
| | | |
| | | |
| |
\ \ \ \

sau, n scriere matrical
Y X = + .
Vectorii Y i sunt vectori aleatori. Matricea X se consider a fi o
matrice format din constante cunoscute. Un model pentru care rangul matricii X
este egal cu 1 p + se numete model cu rang complet.
Vectorul este un vector de constante necunoscute ce urmeaz a fi
estimate pornind de la datele obinute din observaii. Fiecare valoare
i
este un
coeficient de regresie parial prin care se reflect schimbarea variabilei
dependente la schimbarea unitar a celei de-a i -a variabil independent
considernd c toate celelalte variabile independente sunt meninute constante.
Definirea fiecrui coeficient de regresie parial depinde de mulimea variabilelor
independente ale modelului.
n general se presupune c
i
sunt independente i identic distribuite prin
( )
2
~ 0,
i
N .
Datorit acestei presupuneri avem c
( )
, 0
i j
Cov =
pentru orice 1 , i j n , i j . Funcia densitate de probabilitate reunit este dat
prin relaia
( )
2
1
2
2
1 2
2
, ,...,
n
i
n
i
n
f e
| |
=
|
|
\
.
Deoarece presupunem c elementele din X i sunt constante,
( )
2
~ 0,
i
N i Y este suma dintre un vector constant i o variabil aleatoare,
rezult c
i
Y sunt independente dou cte dou i c
( )
2
~ ,
i
Y N m ,
unde
0 1 1
...
i p ip
m X X = + + + .

15

Din independena lui
i
Y rezult c
( )
, 0
i j
Cov Y Y =
pentru orice 1 , i j n , i j . Funcia densitate de probabilitate reunit pentru Y
va fi astfel:
( )
( )
2
...
0 1 1
1
2
2
1 2
2
, ,...,
n
y X X
p i ip i
n
i
Y n
f y y y e

(
+ + +
(

=
| |
=
|
|
\
.

2.7. Soluia modelul regresiei multiple

Ecuaiile normale care se obin pentru modelul de regresie multipl au
forma:
X X X Y = ,sunt ntotdeauna consistente i astfel au ntotdeauna soluie.

Dac matricea X X are invers, atunci soluia ecuaiilor normale este unic i este
de forma ( ) ( )
1
X X X Y

= .
Produsul X X conduce la o matrice ptrat de ordin 1 p + n care pe
diagonala principal, cu excepia primului element care este n , valorile sunt suma
ptratelor pentru fiecare variabil independent. Elementele nediagonale,
exceptnd prima linie i coloan, sunt suma produselor a dou variabile
independente. Forma general pentru matricea X X este
1 2
1 1 1
2
1 1 1 2 1
1 1 1 1
2
2 1 2 2 2
1 1 1 1
2
1 2
1 1 1 1
n n n
i i ip
i i i
n n n n
i i i i i ip
i i i i
n n n n
i i i i i ip
i i i i
n n n n
ip i ip i ip ip
i i i i
n X X X
X X X X X X
X X
X X X X X X
X X X X X X
= = =
= = = =
= = = =
= = = =
| |
|
|
|
|
|
| =
|
|
|
|
|
|
\

.
Elementele vectorului produs X Y , cu excepia primului element, sunt
sumele produselor dintre variabilele independente i variabila dependent0103 i are
forma general

16
1
1
1
2
1
1
n
i
i
n
i i
i
n
i i
i
n
ip i
i
Y
X Y
X Y
X Y
X Y
=
=
=
=
| |
|
|
|
|
|
| =
|
|
|
|
|
|
\

.
Vectorul mediilor estimate ale variabilei dependente Y pentru variabilele
independente din mulimea de date se calculeax prin relaia

Y X = .
Pentru calculele ulterioare este util s se exprime
Y ca o funcie liniar de
Y i nlocuid pe
cu ( ) ( )
1
X X X Y
obinem
( )
1
Y X X X X Y PY
(
= =

.
n aceast ecuaie am definit matricea P de ordin n i care este
determinat n ntregime de matricea X . Matricea P joac un rol important n
analiza regresiei. Matricea P are dou proprieti importante i anume este
simetric ( P P = ) i idempotent ( P P P = i ) i astfel reprezint o matrice de
proiecie.
Vectorul de reziduuri, e , este dat prin formula
e Y Y =
i reflect lipsa de concordan dintre valorile observate pentru Y i celel estimate,
Y . Folosind forma lui
Y , obinem relaia
( ) e Y PY I P Y = = .
La fel ca n cazul matricii P , matricea I P este simetric i
idempotent.
Utilizarea estimrii celor mai mici ptrate reprezint minimizarea sumei
ptratelor reziduurilor, iar
a fost ales astfel nct valoarea e e s fie minim.

Construcia de mai sus produce o partiionare
Y Y e = +
a lui Y ntr-o parte contabilizat de model,
Y , i reziduul e .

17
2.8. Proprietile estimaiilor din modelul regresiei multiple

Notm c
Y i e sunt vectori aleatori deoarece ei sunt funcii de

vectorul aleator Y i conform celor de mai sus funciile implicate sunt funcii
liniare.
nainte de a studea proprietile pentru
Y i e , vom da proprietile
generale pentru funciile liniare de un vector aleator.
Definiie. Fie ( )
1 2
, ,...,
n
Z z z z

= un vector aleator. Media lui Z , notat
( ) m Z , se definete ca un vector avnd dimensiunea lui Z i elementele egale cu
mediile componentelor lui Z , deci
( ) ( ) ( ) ( ) ( )
1 2
, ,...,
p
m Z m z m z m z

= .
Definiie. Fie ( )
1 2
, ,...,
n
Z z z z

= un vector aleator. Dispersia lui Z ,
notat ( ) Var Z , se definete ca o matrice ptrat de ordin egal cu dimensiunea lui
Z care are pe diagonal dispersia componentelor lui Z i n rest covarianele
dintre elementele lui Z , deci
( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( )
1 1 2 1
2 1 2 2
1 2
, ,
, ,
, ,
n
n
n n n
Var z Cov z z Cov z z
Cov z z Var z Cov z z
Var Z
Cov z z Cov z z Var z
m Z m Z Z m Z
| |
|
|
= =
|
|
|
\
| |
= ( (
|

\

Definiie. Fie ( )
1 2
, ,...,
n
Z z z z = un vector aleator cu media ( ) m Z i
dispersia ( ) Var Z , A o matrice de constante cu numr n de coloane i
transformarea liniar U AZ = (care este vector aleator). Media lui U este
vectorul dat de formula
( ) ( ) m A A m Z = i ;
dispersia lui U este matricea dat de formula
( ) ( ) Var U A Var Z A = i i
S revenim acum la estimaiile din modelul regresiei multiple, coeficienii
de regresie estimai,
, valorile variabilei dependente contabilizabile,
Y i
reziduurile, e , care sunt funcii liniare de observaiile cunoscute Y .

18
Deoarece am presupus c
i
sunt variabile aleatoare independente cu
media zero i dispersia
2
(
( )
2
~ 0,
i
N ), obinem
( ) 0 m =
i
( )
2
Var I = .
Pornind de la formula Y X = + i de la faptul c X i sunt
constante obinem
( ) ( ) ( ) ( ) m Y m X m X m X = + = + =
i cum dispersia nu se modific prin adunarea unei constante la o variabil
aleatoare, avem
( ) ( ) ( )
2
Var Y Var X Var I = + = = .
Astfel, presupunnd c modelul considerat este corect, avem c Y are o distribuie
normal de mai multe variabile i
( )
2
~ , Y N X I .
Exprimnd
prin formula
( )
1
X X X Y

(
=

avem c estimrile coeficienii regresiei multiple sunt funcii liniare de variabila
dependent Y avnd coeficienii dai de matricea
( )
1
A X X X
= .
Deoarece matricea X este constant, rezult c matricea A este
constant.
Dac modelul Y X = + este corect, atunci pentru media lui

obinem:
( )
( )
( )
( ) ( )
( ) ( ) ( )
1 1
1 1
m m X X X Y X X X m Y
X X X X X X X X

( (
= = =

( (
= = =

ceea ce ne arat c n presupunerea utilizrii unui model corect,
este un
estimator nedeplasat pentru .

Pentru dispersia lui
obinem:

19
( )
( ) ( ) ( )
( ) ( ) ( )
( )
( ) ( )
( )
( )
( )
( )
( )
( )
( )
( )
1 1
2
1 1 1 1
2 2
1 1
1 1
2 2 2 2
Var A Var Y A X X X I X X X
X X X X X X X X X X X X
X X X X X X X X

( (
= = =

( (
(
= = =
( (

= = = =
i i i i
.
Din presupunerea c
( )
2
~ 0, N I
rezult astfel c, dac modelul este corect, avem
( )
( )
1
2
~ , N X X
.
Reamintim c vectorul mediei estimate este dat prin relaia
Y PY = , unde
( )
1
P X X X X
= . Astfel, pentru media lui
Y se obine:
( )
( ) ( ) ( )
( )
1
1
m Y m PY Pm Y PX X X X X X
X X X X X X

(
= = = = =

(
= =

Din nou, dac modelul este corect, rezult c
Y este un estimator
nedeplasat al mediei pentru Y .
Pentru dispersia pentru
Y putem pleca tot de la relaia
Y PY = . Avem:
( )
( )
2 2 2 2
Var Y P Var Y P P IP PP PP P = = = = = i i ,
relaie valabil deoarece P este o matrice simetric i idempotent. Acest
raionament ne conduce la rezultatul c
( )
2
~ , Y N X P .
Sa reamintim c reziduul e este dat prin relaia ( ) e I P Y = i astfel,
pentru media reziduului se obine:
( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) 0
m e m I P Y I P m Y I P X
X PX X X

= = = =
= = =

i
( ) ( ) ( )( ) ( ) ( )
( )( ) ( )
2
2 2
Var e I P Var Y I P I P I I P
I P I P I P

= = =
= =
.
Acest lucru are loc deoarece I P este o matrice simetriv i idempotent.
Din nou, cum s-a presupus c
( )
2
~ 0, N I , dac modelul considerat
este corect, rezult c

20
( ) ( )
2
~ 0, e N I P .

III. MPRIREA N CLUSTERE

Operaia legat de clustere reprezint mprirea datelor n grupuri de
obiecte singulare. Fiecare grup, sau cluster, const din obiecte care sunt
similare unul cu altul i nu sunt similare obiectelor din alte grupuri.
La reprezentarea unei cantiti mare de date ntr-un numr relativ
mic de clustere obinem o serie de simplificri cu preul pierderii unor
detalii.
Realizarea operaiei de mprire n clustere este o modelare a datelor
prin care ele sunt puse ntr-o perspectiv istoric pe baze matematice, n
special statistice. Din perspectiva nvrii automate clusterele corespund
surselor ascunse, fiecare cluster este o nvare nesupervizat, iar sistemul
rezultat este un concent al datelor.
mprirea n clustere trebuie s fac fa la trei provocri
suplimentare, i anume:
volum foarte mare de date,
obiecte cu numr mare de atribute,
atribute de tipuri diferite.
Aceste provocri impun mai multe cerine de calcul reprezentnd
complicaii reale pentru algoritmii clasici de mprire n clustere.

3.1. Contextul analizei clusterelor

Pentru fixarea contextului i clarificarea terminologiei considerm o
mulime de date X constnd din puncte de date ( )
1 2
, ,...,
i i i id
x x x x = , 1 i n ,
din spaiul de atribute A, unde fiecare component
ik k
x A , 1 k d , este un
atributde caracterizare numeric sau categorial a punctului de date.
Acest format al datelor este de tip punct-atribut i corespunde conceptual
la o matrice de dimensiune n d . Un astfel de format este folosit n majoritatea
algoritmilor pentru mprirea n clustere.
Cea mai simpl submulime dintr-un spaiu de atribute este un produs
cartezian direct al subdomeniilor, adic
1
d
i
i
C C A
=
=
,
i i
C A , numit segment
(cub, celul sau regiune). O unitate este un segment elementar care are
subdomeniile constnd dintr-o valoare simpl de categorie sau un interval numeric
unitar.

21
Descrierea punctelor de date numerice unitare reprezint un caz extrem de
mprire a datelor, numit histogram. Acest mod de mprire este foarte costisitor
fr a fi prea util.
Alt practic comun n mprirea datelor este segmentarea condus
(controlat) care folosete cunotiinele privind importana anumitor subdomenii.
Comparativ cu cele dou tehnici de mai sus, mprirea n clustere se
presupune a se realiza automat i astfel este o operaie nesupervizat, n sensul
nvrii automate.
Scopul mpririi n clustere este de a asocia punctele de date la un sistem
finit format din k submulimi (clustere). De regul, aceste submulimi formeaz o
partiie a mulimii totale de date (cu posibile excepii specificate), adic
1
k
k ex
i
X C C
=
| |
=
|
\
,
i j
C C = pentru i j , 1 , i j k
unde
i
C , 1 i k , sunt clusterele partiiei formate iar
ex
C este submulimea
excepiilor specificate.

3.2. Clustere ierarhice

mprirea n clustere ierarhizate combin obiectivele datelor n clustere,
acestea n clustere mai mari, i aa mai departe, stabilind o ierarhie. Arborele care
reprezint aceast ierarhie poarta numele de dendrogram. Obiectivele datelor
individuale sunt frunzele acestui arbore iar noduri interioare sunt clustere nevide.
Are loc o partiionare a nodurilor pe criteriul prinilor comuni.
Metoda permite explorarea datelor pe diverse niveluri de detaliere.
mprirea n clustere ierarhizate se clasific n abordri de aglomerare (ierarhizare
buttom-up) sau de divizare (ierarhizare top-down).
O mprire n clustere prin aglomerare pornete de la un cluster cu un
punct (numit singelton) i grupeaz succesiv dou sau mai multe clustere cu cea
mai mare similaritate.
O mprire n clustere prin divizare pleac de la un singur cluster cu toate
punctele de date i spargerea succesiv a clusterelor n submulimi corespunztoare
celei mai mari similariti. Procedeul continu pn la ndeplinirea unui criteriu de
oprire (cel mai adesea, atingerea numrului de clustere de partiionare, k ).
mprirea n clustere ierarhizate include urmtoarele aventaje:
flexibilitate n ce privete nivelul de detaliere,
uurina n manipularea oricrei forme de similaritate sau distan,
aplicabilitate la orice tip de atribut.
Dintre dezavantajele mpririi n clustere ierarhizate putem aminti:
dificultatea alegerii unui criteriu corect de oprire,
cei mai muli algoritmi bazai pe clustere ierarhizate nu mai revizuiesc
clusterele intermediare deja construite.

22
3.3. Metrici de legtur

n mprirea n clustere prin ierarhizare se consider adesea c
reprezentarea normal a datelor sub forma punct-atribut nu este primordial i
poate fi nlocuit cu succes de o matrice de dimensiune n n (matrice ptrat de
ordin n ) care indic distanele (lipsa de similaritate) sau similaritatea dintre
puncte, numit matrice de conectivitate. Pe baza acestei matrici urmeaz ca n
procesul de analiz s se constituie aa numita metric de letur.
Pentru mulimi de date de dimensiuni foarte mari, memorarea matricii de
conectivitate nu este practic n aplicaii, folosindu-se n schimb tehnici prin care,
fie se elimin valorile sub o anumit limit, fie se pstreaz doar un anumit numr
de vecini, i anume doar cei mai interesani din punct de vedere al similaritilor.
Modul n care se face prelucrarea matricii de conectivitate iniial i
construcia metricilor de legtur reflect conceptele apriorice asupra modelului
datelor.
Matricii de conectivitate
( ) ( )
1 ,
ij n
i j n
A a

= M i putem putem asocia
un graf de conectivitate ponderat ( ) , G X E = , unde X este mulimea punctelor
de date, iar arcele din E i ponderile lor sunt definite conform matricii de
conectivitate. Astfel, ( ) , i j E dac i numai dac 0
ij
a i pentru : p E
ponderile definite pe G , dac ( ) , m i j E = , atunci ( )
ij
p m a = .
n acest mod stabilim o legtur ntre mprirea n clustere prin ierarhizare
i partiionarea grafurilor, cele dou problematici fiind echivalente. Se constituie
astfel o metod de mparire n clustere ierarhizate prin care se rezolv problema de
partiionare a grafului asociat i o transpune napoi la nivelul clusterelor ierarhice.
mprirea n clustere ierarhizate iniializeaz un sistem de clustere prin-o
mulime de clustere singleton (cazul aglomerrii) sau un singur cluster care conine
toate punctele de date (cazul divizrii) i produce gruparea sau spargerea iterativ
pn la satisfacerea unei condiii de oprire. Cea mai buna grupare sau spargere
depinde de similaritile sau diferenierile elementelor implicate, un exemplu
important pentru aceast dependen fiind distana dintre punctele de date.
Pentru utilizarea distanelor dintre puncte n realizarea gruprii sau
spargerii, distana trebuie generalizat la distana ntre submulimi. O astfel de
msur poart numele de metric de legtur.
Tipul metricii de legtur are un impact semnificativ n realizarea
algoritmilor de ierarhizare deoarece reflect conceptul particular al apropierii sau
conectrii. Metricile cele mai folosite sunt: legarea simpl, legarea medie i legarea
complet. Aceste metrici se obin prin aplicarea minimului, a mediei i respectiv a
maximului pentru distanele dintre dou puncte situate n clustere distincte.
Dac
1
C i
2
C sunt dou clustere, definim
mulimea ( ) { }
12 1 2
, , D d x y x C y C = , iar distana dintre cele dou clustere
este dat prin definiie prin:

23
pentru legtura simpl
( )
1 2 12
, min
s
d C C D = ;
pentru legtura complet
( )
1 2 12
, max
c
d C C D = ;
pentru legtura medie,
( )
1 2
12
12
1
,
m
a D
d C C a
D

=

.
Considernd c ( )
1
i
i p
a a

= , b i c sunt coeficinii corespunztori unei
legturi particulare, putem face o exprimare general a legturii dintre o reuniune a
dou clustere cu al treilea cluster, n termenii nodurilor, printr-o formul
( ) ( ) ( ) ( ) ( ) ( )
( ) ( )
, , , ,
, ,
i j k i k j k i j
i k j k
d C C C a i d C C a j d C C bd C C
c d C C d C C
= + + +
+

Aceast formul este cunoscut n literatura de specialitate drept formula
de actualizare Lance-Williams.

3.4. Partiionare prin divizare binar

Principiul secionrii pe baze binare este un instrument util pentru
aplucaiile n care mprirea ierarhic a datelir privete doomenii ca lingvistica,
clasificarea documentelor i recuoerarea informaiilor.. mpreun cu operaiile de
filtrare i de recuperare a informaiilor se foloses diferite metode ale algebrei
liniare, cum ar fi cel de descompunere n valori proprii (valori singulare).
De exemplu, utilizarea metodei descompunerii n valori proprii la
mprirea n clustere ierarhizate prin divizare pentru colecii de documente
produce un algoritm de partiionare prin divizare pe direcii principale.
Considerm c x este un document care n spaiul de atribute are pe
poziia k date asupra utilizrii unui cuvnt (termin de index). Matricea X msoar
prin elementul
ik
x frecvena de apariie n documentul x a termenului k .
Algoritmul de partiionare prin divizare pe direcii principale consider
matricea X ex , unde x este media lui x , adic
1
1
n
i
i
x x
n
=
=

i ( ) 1,..., e k

= .
Algoritmul aplic nti descompunerea prin valori singulare.
Partiionarea prin divizare pe direcii principale realizeaz o secionare n
planul euclidian printr-un hiperplan care trece printre domeniile de date i care este
perpendicular vectorului propriu corespunztor celei mai mari valori proprii.
Dac se consider cele mai mari k valori proprii, atunci este posibil o
spargere bazet pe grupul acestor valori proprii. Aceast mprire reprezint un
mod bun de clasificare a documentelor atunci cnd scopiul este de a obine un

24
arbore binar de clasificare. De exemplu, dac pentru secionare se folosete media
ptratelor, atunci hiperplanul de seciune este perpendicular pe linia de conectare a
dou submulimi de date.
Aplicarea procesului de mai sus privete modul de mprire a unui cluster.
O problem important este ns i alegerea clusterului care va fi supus operaiei de
spargere.
Procesul de partiionare prin divizare pe direcii principale este cunoscut
sub numele de algoritmul lui Boley.
Rezolvarea npririi prin clustere printr-un algoritm bazat pe valori priprii
este destul de realizat datorit volumului foarte mare de calcule impuse de
rezolvarea eciaiei ( ) 0 X ex I = care este o ecuaie matricial cu vectorul
de necunoscute de dimensiune egal cu dimensiunea eantionului de date.

3.5. nvare conceptual

mprirea n clustere bazat pe nvarea conceptual (sau bazat pe
un model) este o anordare alternativ comparativ cu realizarea clusterelor
prin divizare sau aglomerare.
n aceast abordare fiecare cluster este considerat ca un model ce
poate fi descris n mod intrinsec i nu ca o colecie de puncte asociate.
Dendrograma obinut prin mprirea prin nvare conceptual poart
numele de arbore de clasificare. Fiecare nod al arborelui (cluster) C este
asociat cu o probabilitate condiionat pentru perechile atribut
categorie valoare, astfel c avem
( )
i ip
P x u C = , 1, 2,..., i d = , 1, 2,...,
i
p A = .
Aceasta poate fi recunoscut drept un clasificator Bayes naiv C specific.
n timpul construciei arborelui de clasificare, fiecare punct nou este
depus n arbore, acesta fiind actualizat dac este cazul prin operaii de
inserare, grupare, spargere sau creare.
Deciziile se bazeaz pe funcia de utilitate a categoriei dat prin
relaia:
( ) ( )
1 2
1
1
, ,...,
k
CU k CU j
j
f C C C f C
k
=
=

unde
( ) ( ) ( )
( ) ( )
2 2
1 1
A
d i
CU j i ip j i ip
i p
f C P x u C P x u
= =
(
= = =
(

.
Funcia de utilitate a categoriei recompenseaz clusterele
j
C la creterea
predictibilitii valorii
ip
u de atribut al categoriei.

25
Prin mprirea n clustere prin nvarea conceptual pot rezulta
arbori puternic nebalansai, ceea ce constituie un dezavantaj important.
n afar de modul de abordare prezentat mai sus, mprirea n
clustere pe baza nvrii conecptuale poate fi mbogit cu o serie de
faciliti suplimentare i deosebit de utile, cu ar fi extinderea prelucrrii
iniiale prin scalare pentru atributele categoriei i o strategie cu dou faze
pentru monitorizarea numrului de clustere.
Un model asiciat cu un cluster acoper att atributele numerice, ct
i cele de tip categorie i constituie o combinaie ntre modelele Gaussiene i
cele multinomiale. Notm cu parametrii multinomiali corespunztori. Cu
fiecare cluster C asocien un logaritm al verosimilitii (clasificrii) sale
( ) ( )
log
C i
x C
i
L P x
=

iar algoritmul de mprire n clustere folosete estimarea verosimilitii
maxime pentru parametrul .
Distana dintre dou clustere nu mai este dat n termenii unei
metrici de legtur, ci se definete ca o descretere n verosimilitatea
logaritmic prin
( )
1 2
1 2 1 2
,
C C C C
d C C L L L = +

care este provocat de gruparea celor dou clustere considerate.
Procesul de aglomerare bazat pe aceast distan continu pn la
ndeplinirea unui criteriu de oprire. Determinarea numrului maxim de
clustere k este una automat.

3.6. Clustere probabilistice

n abordarea probabilistic a mpririi n clustere datele sunt
considerate drept construcii de caz independente dintr-un model mixt cu
mai multe distribuii de probabilitate.
Presupunem c punctele de date sunt generate prin alegerea aleatoare
a unui model j cu probabilitatea
j
, 1, 2,..., j k = i construcia unui punct
x dintr-o distribuie corespunztoare. Un cluster natural este reprezentat de
o arie n jurul mediei pentru fiecare distribuie presupus unimodal.
n aceste caz asocien un cluster cu parametrii unei distribuii
distribuii considerate, cum ar fi media, dispersia etc. Fiecare punct de date
posed nu doar atributele sale (valorile observate) ci i identificarea
clusterului (dare este ascuns).
Se presupune c un punct de date x aparine unui singur cluster
(model) cu probabilitatea
( )
j
P x C , valoare pe care ncercm s-o estimm.

26
Verosimilitatea global a unor date urmrite este probabilitatea lor
de a fi construite ntr-un model mixt dat, deci
( ) ( )
1 1
n k
j i j
j i
L X C P x C
= =
=

.
Verosimilatea logaritmic
( ) ( )
log L X C servete ca o funcie obiectiv care
conduce la construcia unei metode de rezolvare cu dou faze cunoscut sub
numele de metoda Medie-Maximizare.
Faza de Medie realizeaz estimarea probabilitilor
( )
j
P x C care
este echivalent cu o reasociere uoar (eventual de tip fuzzy).
Faza de Maximizare gsete o aproximare a modelului mixt care d
asocieera uoar curent. Aceasta permite gsirea parametrilor modelului
mixt care maximizeaz verosimilitatea logaritmic.
Procesul descris continu pn la convergena n verosimilitate
logaritmic.
n practic se folosete att fenomenul de repornire, ct i o serie de
artificii de calcul prin care s se faciliteze gsirea celui mai bun optim local.
mprirea n clustere prin intermediul metodei Medie-Maximizare
poate fi accelerat prin realizarea unui arbore binar de indexare n care
datele din fiecare nod sunt divizate n doi descendeni prin spargerea
atributului celui mai deprtat de centrul intervalului su. Fiecare nod va
memora suficiente informaii statistice (inclusiv matricea de covarian)
pentru a permite reconsiderarea deciziei de asociere a punctelor.
Accelerarea iteraiilor metodei Medie-Maximizare se obine i prin
realizarea calculului aproximativ peste un arbore retezat folost ca arbore de
indexare.
mprirea n clustere pe baze probabilistice are cteva faciliti
importante dintre care putem enumera urmtoarele:
procesul poate fi modificat pentru a manipula puncte care sunt
nregistrate n structuri complexe;
procesul poate fi oprit i reluat cu iruri consecutive de date deoarece
clusterele au reprezentrile n total independen fa de mulimile
de puncte;
n orice etap a procesului iterativ se poate folosi modelul mixt
intermediar pentri asocieera punctelor la clustere;
procesul are ca erzultat un sistem de clustere uor de interpretat.
Deoarece modelul mixt are o fundamentare probabilistic clar,
deetrminarea celui mai convenabil numr de clustere k devine mai uor de
realizat.

27
3.7. Clustere k medie

Algoritmii de mprire n clustere prin k medie sunt dintre cele mai
populare instrumente de mprire n clustere folosite curent n aplicaiile tiinifice
i industriale. Numele metodei provine de la reprezentarea fiecruia dintre cele k
clustere
j
C , 1, 2,..., j k = , prin media (sau media ponderat)
j
c a punctelor sale.
Fiecare cluster poart numele de centroid.
n timp ce aceast reprezentare nu lucreaz bine cu atributele de tip
categorie, reprezentarea are sens pe deplin pentru perspectivele geometrice i
statistice ale atributelor numerice.
Ca funcie obiectiv n analiz se folosete suma distanelor dintre
elementele unei submulimi de puncte i centroidul s, exprimat printr-o funcie
de distan aproximativ.
De exemplu, funcia obiectiv bazat pe norma euclidian, suma erorilor
dintre puncte i centroizii corespunztori este egal cu variaia total dintre
clustere:
( )
2
1
k
i j
j x C
i j
E C x c
=
=

.
Suma ptratelor erorilor poate fi privit ca verosimilitate logaritmic
negativ pentru un model mixt cu distribuie normal i este folosit pe larg n
statistic. Notm c are loc doar o estimare a mediei. O modificare simpl
normalizeaz erorile individuale prin raza clusterelor (deviaia standard a
clusterelor), ceea ce d o semnificaie foarte bogat cnd clusterele au dispersii
diferite.
`O funcie obiectiv bazat pe norma euclidian are mai ulte proprieti algebrice.
De exemplu, ea coincide cu eroarea perechilor de valori i cu diferena dintre
variaia total a datelro i variaia dintre clustere, ceea ce se poate exprima prin
relaia:
( )
1 ,
1
2
k
i i
j x y C
i i j
E C x y
=
=

.
Se ajunge astfel simultan la separarea i la compactitatea clusterelor.
mprirea n clustere prin metoda k medie are o serie de
dezavantaje, dintre care:
rezultatele depind n mare msura de ghicirea iniial a centroizilor;
optimul local calculat poate fi mult diferit de cel global;
nu este clar modul de alegere a unei bune valori pentru nurul de
clustere k ;
se poate utiliza doar pentru atribute numerice;
clusterele obinute pot fi nebalansate, unele chiar vide n anumite
condiii speciale.

28
O prim versiune a optimizrii iterative prin k medie este similar
metodei Medie-Maximizare i const din iteraii majore cu dou faze:
1. reasocierea tuturor punctelor la centroizii cei mai apropiai i
2. recompunerea centroizilor pentru grupurile asamblate cel mai recent.
Procesul continu pn la ndeplinirea unui criteriu de oprire.
Aceast versiune are mai multe avantaje, dintre care putem indica:
poate lucra cu orice norm;
permite paralelizarea direct;
nu depinde de ordinea datelor.
O alt versiune a optimizrii iterative (considerat drept clasic)
realizeaza reasocierea punctelor pe baza unei analize detaliate asupra
modului n care o mutare a punctelor din clusterul curent n orice alt cluster
afecteaz funcia obiectiv. Dac o mutare are efect pozitiv, punctul
considerat este mutat efectiv i se reconsider cei doi centroizi implicai
(surs si destinaie pentru mutare).
A doua versiune nu este foarte potrivit deoarece implic un volum
foarte mare de calcule datorit considerrii tuturor punctelor n operaia de
reasociere. Metoda se poate folosi, n special pentru norma euclidian prin
folosirea proprietilor algebrice pentru distana utilizat efectiv.

IV. ANALIZA SERIILOR DE TIMP

Obiectivul principal al analizei seriilor de timp este de a dezvolta
modele matematice care sa permit o descriere plauzibil a cazurilor de
date.

4.1. Modele stochastice definite prin serii de timp

Pentru a da o fundamentare statistic pentru descrierea caracterului
datelor care par a fluctua aleator pe o perioada de timp presupunem c o
serie de timp poate fi definit ca o colecie de variabile aleatoare indexate
conform ordinii obinerii lor n timp.
Definiie. O colecie de variabile aleatoare { }
t
x indexat prin timp
este cunoscut sub numele de proces stochastic. Spunem c un proces
stochastic este continuu dac t . Spunem c procesul stochastic este
discret dac t .
n cele ce urmeaz vom lucra doar cu procese stochastice discrete.
Valorile observate pentru un proces stochastic sunt numite realizri
ale procesului. n continuare se va utiliza termenul de serie de timp att
pentru specificarea general a unui proces stochastic, ct i pentru realizrile
individuale ale procesului, diferena urmnd a rezulta din context.

29
Una din cele mai convenabile metode de reprezentare a seriilor de
timp este cea grafic n care timpul este plasat pe una din axe, cealalt
urmnd a corespunde valorilor observate. n acest mod se obine un grafic
punctual care indic pe deplin caracterul discret a seriile cu care se lucreaz.
Pe de alt parte, n reprezentarea grafic, punctele consecutive ca
timp put fi unite prin segmente pentru a obine o aproximare continu a
seriilor de timp. Se realizeaz acest lucru deoarece din punct de vedere
teoretic i conceptual, seriile de timp continue sunt prelucrate mult mai bine.
n practic se folosesc seriile de timp discrete n special datorit
restriciilor impuse de metodele de colectare a datelor. Pentru aproximarea
ct mai bun a seriilor continue cu serii discrete este util ca datele s fie
obinute la intervale de timp egale.
De asemenea, o serie de abordri teoretice rmn la ideea de a
specifica parametrul continuu n termenii unei funcii de distribuie de
dimensiune finit peste un numr finit de puncte de timp.
Deosebit de important pentru obinerea unor rezultate corecte din
analiza seriilor de timp este rata i intervalul cazuistic. Adoptarea unei rate
de caz insuficient poate schimba complet rezultatele obinute din date.
Distorsiunile care apar in date i care sunt datorate insuficienei ratei cazului
sunt numite alias (sau schimbare de identitate).
Principala caracteristic vizual care se poate observa pentru diverse
serii de timp este gradul diferit de netezire. O explicaie posibil a nivelului
de netezire este faptul c aceasta este determinat de corelaiile dintre
punctele adiacente, n sensul c valoarea serie de timp la un moment t , s
spunem
t
x , depinde de valorile anterioare (trecute),
1 2
, ,...
t t
x x

Acest model
exprim un mod fundamental n care am putea gndi generarea unei serii de
timp realiste.
Paragraful 4.1.1. prezint modelul de serie de timp n care variabilele
aleatoare sunt necorelate. Forma seriei poate fi netezit prin diverse metode
prin care se pot diminua oscilaiile. O astfel de metod de netezire este
mediea deplasat prezentat n paragraful 4.1.2. De asemenea, pentru
apropiera de situaiile reale, n seriile de timp se introduc corelaii ntre
termenii seriei existente.

4.1.1. Modelul zgomotului alb

Un mod simplu de generare a seriilor poate fi o colecie de variabile
aleatoare necorelate
t
w , cu media 0 i dispersia finit
2
w
. Seriile de timp
generate din variabile necorelate se folosesc ca modele de serii n aplicaii
de inginerie unde sunt numite gzomot alb. Sensul este de cuprindere a

30
tuturor oscilaiilor posibile i n aceeai msura. Vom nota un proces de
tipul gzomot alb prin
( )
2
~ 0,
t w
w wn .
Un alt caz de gzomot care poate fi necesar n aplicaii este datorat
variabilelor aleatoare independente identic repartizate de medie 0 i
dispersie
2
w
. Aceste modele de zgomot vor fi noate
( )
2
~ 0,
t w
w iid . Dac
repartiia variabilelor aleatoare este repartiia normal modelul va fi notat
prin
( )
2
~ 0,
t w
w iidN .
Definiie Modelul de zgomot
( )
2
~ 0,
t w
w iidN poart numele de
zgomot alb Gaussian.
Observaie. n condiiile n care comportamentul stochastic al
tuturor seriilor de timp se poate explica prin modelul de zgomot alb, atunci
pentru analiz ar fi suficiente modelele statistice clasice.

4.1.2. Modelul zgomotului cu medie deplasat

Putem pleca de la seria zgomot alb
( )
2
~ 0,
t w
w wn i s o nlocuim
prin media deplasat care netezete seria. Pentru a exemplifica metoda
considerm media aritmetic a valorii curente i a celor doi vecini imediai
afai la dreapa i la stnga valorii curente. Obinem astfel o serie de timp
nou cu termenii definii prin
( )
1 1
1
3
t t t t
u w w w
+
= + +
Aceast serie este o versiune a seriei
( )
2
~ 0,
t w
w wn iar inspectarea
ei arat c ea este oscilaii mai ncete i se elimin oscilaiile cele mai mari.
Deplasarea mediei se poate face bilateral, cum este cazul i n relaia
de mai sus sau unilaterral, anterior sau posterior. Astfel, nlocurea valorilor
seriei
( )
2
~ 0,
t w
w wn prin seria de termeni generali
( )
1 2
1
3
y t t t
v w w w

= + +
reprezint o medie deplasat unilateral anterior.
Pentru mediile deplasate bilateral, deplasarea poate fi echilibrat sau
neechilibrat, acest lucru fiind indicat de numrul de termeni considerai la
dreapta i la stnga valorii curente. De exemplu, seria
t
u este una echilibrat
deoarece se consider acelai numr de termeni att la dreapta ct i la
stnga valorii curente. n schimb, seria derivat din zgomotul alb prin relaia

31
( )
2 1 1
1
3
t t t t t
z w w w w
+
= + + +
este neechilibrat deoarece n exprimarea ei, n afara valorii curente se
consider doi termeni din orizontul anterior i unul din orizontul posterior.

4.1.3. Modelul zgomotului autoregresiv

Modelul zgomotului autoregresiv consider la intrare modelul
zgomotului alb
( )
2
~ 0,
t w
w wn i definete po serie pentru care termenii se
calculeaz printr-o ecuaie de regresie.
De exemplu putem utiliza o ecuaie de ordinul 2 de forma
1 1 2 2 t t t t
x x x w

= + + ,
ecuaie care reprezinta o regresie sau predicie a valorii curente
t
x a seriei
de timp ca funcie de dou din valorile anterioare din seria
( )
2
~ 0,
t w
w wn .
O astfel de definiie trebuie considerat ca fiind una cu valori iniiale,
deoarece trebuie cunoscute primele dou valori seriei. Acest lucru poate fi
eliminat pentru seriile considerate infinite, cel puin n ce privete orizontul
anterior.
ntr-o astfel de abordare, valorile
1
si
2
reprezint coeficienii
ecuaiei de regresie de ordinul doi i principial sunt constante. Ca
autoregresie se poate utiliza o ecuaie de represie de orice ordin, cea
prezentat mai sus fiind doar in caz particular.

4.1.4. Modelul zgomotului cu semnal

Multe modele realiste pentru generarea seriilor de timp presupun
existena unui semnal cu o variaie periodic consistent care influeneaz
prin adugarea un ui zgomot aleator.
De exemplu, considerm modelul
2
2cos 0, 6
50
t t
t
x w

| |
= + +
|
\

unde primul termen este considerat ca semnal cu variaie periodic. Aceast
sinusoid poate fi scris n general sub forma
( ) cos 2 A t +
unde A este amplitudinea, este frecvena oscilaiei i este decalajul de
faz.
Termenul de zgomot suplimentar se adaug termenului pentru
zgomotul alb dat pentru
w
cu o distribuie normal. Gradul de acoperire

32
al semnalului depinde de mrimea amplitudinii semnalului i de mrimea
lui
w
.. Raportul dintre mrimea semnalului i
w
este numit raport
semnal-zgomot i cu ct este mai mare cu att semnalul este detectat
mai uor.

4.2. Msurarea dependenelor prin autocovarian i
corelaie ncruciat

O descriere complet a seriilor de timp observate ca o colecie de n
variabile aleatoare date la momentele ntregi de timp
1
t ,
2
t , ...,
n
t este fcut
prin funcia de distribuie reunit, evaluat ca probabilitatea ca valorile
seriei s fie mai mici sau egale cu n constante
1
c ,
2
c , ...,
n
c , deci
( )
( ) 1 2 1 2
1 2
, ,..., , ,...,
n t t t n
n
F c c c P x c x c x c = .
Din pcate funcia de distribuie multidimensional nu are o form
convenabil de prezentare dect n cazul n care toate variabilele aleatoare
sunt normal distribuite. Un caz particular se obine pentru variabile aleatoare
independente i identic distribuite cu repartiie normal standard ( ( ) 0,1 N )
pentru care funia de distribuie reunit se poate exprima ca produs al
distribuiilor marginale
( ) ( )
1 2
1
, ,...,
n
n i
i
F c c c c
=
=

unde
( )
2
2
1
2
x z
x e dz
=

este funcia de distribuie pentru o variabil aleatoare cu repartiia ( ) 0,1 N .
Cu toate c funciia de distribuie multidimensional descrie complet
datele, ea nu este un instrument util n afiarea i analiza datelor seriilor de
timp. Funcia de distribuie multidimensional trebuie evaluat ca o funcie
de n argumente i astfel o imagine grafic a sa este practic imposibil de
realizat..
Funciile de distribuie unidimensionale
( ) ( )
t t
F x P x x =
sau funcia densitate de repartiie corespunztoare
( ) ( )
t
t
F
f x x
x
,

33
cnd exist, conin informaii pentru a determina dac o coordonat
particular a seriei de timp are o repartiie cunoscut, cum ar fi repartiia
normal (Gaussian)..
Definiie. Numim funcie medie funcia definit prin relaia
( ) ( )
xt t t
M x xf x dx
+
= =

,
considernd c integrala exist, unde M este operatorul uzual al valorii
medii.
Dac nu exist posibilitatea de confuzie asupra seriei de timp la care
se refer funcia medie, aceasta va fi notat mai simplu prin
t
.
Este important s nelegem c
t
este media teoretic pentru o serie
la un moment particular de timp, media fiind considerat pentru toate
evenimentele care produc pe
t
x .
Dac
( )
2
~ 0,
t w
w wn , avem ( ) 0
wt t
M w = = pentru orice t . Atunci
putem calcula funcia medie pentru seria de timp cu medie deplasat.
Considernd pentru aceasta forma
( )
1 1
1
3
t t t t
u w w w
+
= + + ,
funcia medie va fi
( ) ( )
( ) ( ) ( ) ( )
( ) ( )
( )
1 1
1 1 1 1
1
3
1 1
0
3 3
ut t t t t
t t t wt w t w t
M u M w w w
M w M w M w

+
+ +
= = + + =
= + + = + + =
.
Dac vom considera seria de timp din modelul cu zgomot cu semnal,
dat de exemplu prin ecuaia
2
2cos 0, 6
50
t t
t
v w

| |
= + +
|
\
,
funcia medie se va obine ca
( )
( )
2
2cos 0, 6
50
2 2
2cos 0, 6 2cos 0, 6
50 50
vt t t
t
t
M v M w
t t
M w

| | | |
= = + + =
| |
\ \
| | | |
= + + = +
| |
\ \

astfel c funcia medie coincide componentei de semnal din seria de timp.
Lipsa independenei dintre dou valori componente
s
x i
t
x ale
seriei de timp se poate caracteriza numeric ca n statistica clasic prin

34
utilizarea noiunilor de covarian i corelaie. Pentru aceasta vom
presupune n continuare c dispersia lui
t
x este finit.
Definiie. Funcie definit prin relaia
( ) ( ) ( ) ( )
,
x s s t t
s t M x x =
pentru fiecare s i t se numete funcia de autocovarian.
Cnd nu exist posibilitatea de confuzie asupra seriei de timp, n
locul notaiei ( ) ,
x
s t vom folosi ( ) , s t . Notm i faptul c funcia de
autocovarian este simetric n sensul c pentru orice s i t avem
( ) ( ) , , s t t s = .
Funcia de autocovarian msoar dependena liniar dintre dou
puncte ale aceleiai serii de timp observate la momente diferite. Seriile
foarte netede etaleaz funcii de autocovarian care rmn mari chiar dac
s i t sunt relativ apropiate, n timp ce seriile variabile tind s aib funcii
de autocovarian apropiate de zero chiar i pentru distane mari ntre s i t .
Autocovariana este media produselor ncruciate relativ la
densitatea reunit ( ) ,
s t
F x x
. Este clar c pentru s t = autocovariana se

reduce la dispersie (presupus finit), deoarece
( ) ( )
( )
2
,
x t t
t t M x = .
Pentru seria zgomot alb
( )
2
~ 0,
t w
w wn tim c
avem ( )
2
pentru
,
pentru 0
w
w
s t
s t
s t
=
=

.
Considernd modelul seriei cu medie deplasat dat de relaia
( )
1 1
1
3
t t t t
u w w w
+
= + + ,
pentru funcia de autocovarian avem
( ) ( ) ( ) ( )
( ) ( ) ( )
1 1 1 1
1 1 1 1
1 1
,
3 3
1
9
u s t s s s t t t
s s s t t t
s t M u u M w w w w w w
M w w w w w w
+ +
+ +
| |
= = + + + + =
|
\
= + + + +
i
.
Pentru a calcula aceast funcie vom considera separat cazurile
s t h = pentru h.
Pentru 0 h = avem

35
( ) ( )
( )
( ) ( ) ( ) ( )
( )
2
1 1
2 2 2
1 1
2 2
1
,
9
1
...
9
3 3
9 9
u t t t
t t t
t w
s t M w w w
M w M w M w
M w
+
+
= + + =
= + + + =
= =

Cnd 1 h = , considernd 1 s t = + se obine
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
1 2 1 1
2 2 2 2
1
1
,
9
1 2 2
...
9 9 9
u t t t t t t
t t t w
s t M w w w w w w
M w M w M w
+ + +
+
= + + + + =
= + + = =

Pentru 2 h = putem considera c 2 s t = + i avem
( ) ( ) ( ) ( )
( ) ( ) ( )
1 2 3 1 1
2 2 2
1
1
,
9
1 1 1
...
9 9 9
u t t t t t t
t t w
s t M w w w w w w
M w M w
+ + + +
+
= + + + + =
= + = =

Dac 3 h = se observ c n expresia pentru ( ) ,
u
s t nu intervine
nici un ptrat i astfel ( ) , 0
u
s t = .
Rezumnd calculele de mai sus obinem
( )
2
2
2
1
pentru
3
2
pentru s-t 1
9
,
1
pentru s-t 2
9
pentru s-t 3
0
w
w
u
w
s t
s t

Determinarea autocovarianei arat c operaia de netezire indcue o
funcie de autocovarian care descrete odat cu creterea separaiei ntre
dou puncte, disprnd complet aceasta depsete trei puncte.
Pe baza autocovarianei de poate defini urmtoarea noiune.
Definiie. Numim funcie de autocorelaie pentru seria de timp
t
x ,
funcia definit prin relaia

36
( )
( )
( ) ( )
,
,
, ,
x
x
x x
s t
s t
s s t t

= .
Funcia de autocorelaie msoar predictibilitatea seriei la momentul
t cnd se folosete doar valoarea la momentul s .
De multe ori, n practica analizei seriilor de timp, se lucreaz
simultan cu mai multe serii de timp. Acest lucru impune i realizarea unor
msuri a predictibilitii unei serii
p
y considerat la momentul t n funcie
de o serie
q
x considerat la momentul s de timp. Considernd c ambele
serii au dispersia finit, putem da urmtoarele funcii de msur a relaiei
dintre cele dou serii de timp.
Definiie. Funcia dat prin relaia
( ) ( ) ( ) ( )
,
xy s xs t yt
s t M x y =
se numete funcia de covarian ncruciat ntre seriile
t
x i
s
y .
Definiie. Funcia dat prin relaia
( )
( )
( ) ( )
,
,
, ,
xy
xy
x y
s t
s t
s s t t

=
se numete funcia de corelaie ncruciat ntre seriile
t
x i
s
y .

4.3. Serii de timp staionare

Definiiile date mai sus pentru funciile de medie i covarian sunt
considerate n contextul general al seriilor de timp pentru care nu s-au fcut
presupuneri specialedespre comportamentul seriilorchiar dac pot exista
anumite regulariti. n continuare introducem noiunea de regularitate prin
conceptul de staionaritate.

4.3.1. Definiie i caracterizri

Definiie. O serie de timp pentru care comportamentul probabilistic
al oricrei colecii de valori
{ }
1 2
, ,...,
t t t
k
x x x este identic cu cel al coleciei
decalate n timp
{ }
1 2
, ,...,
t h t h t h
k
x x x
+ + +
se numete serie de timp strict
staionar. Adic { }
t
x este o serie strict staionar dac pentru orice 1 k ,
oricare ar fi momentele de timp
1
t ,
2
t , ...,
k
t i numerele
1
c ,
2
c , ...,
k
c ,
pentru orice h are loc relaia

37
( ) ( ) 1 2 1 2
1 2 1 2
, ,..., , ,...,
t t t k t h t h t h k
k k
P x c x c x c P x c x c x c
+ + +
= .
Dac o serie de timp este strict staionar, atunci toate funciile de
distribuie de mai multe variabilepentru submulimi de variabiletrebuie s
fie egale cu perechile lor deplasate indiferent de valoarea parametrului de
salt.
De exemplu, pentru 1 k = avem
( ) ( )
s t
P x c P x c =
pentru oricare dou puncte de timp s i t . n plus, dac exist funcia medie
xt
pentru seria
t
x , atunci
t s
x x = pentru orice s i t , deci
xt
trebuie sa fie
constant.
Pentru cazul 2 k = putem scrie relaia
( ) ( )
1 2 1 2
, ,
s t s h t h
P x c x c P x c x c
+ +
=
pentru oricare dou puncte s i t i pentru orice valoare de salt h . Astfel,
dac exist funcia de dispersie pentru proces, atunci funcia de
autocovarian pentru seria de timp
t
x satisface relaia
( ) ( ) , , s t s h t h = + +
pentru orice s , t i h .
Interpretnd acest rezultat putem spune c funcia de autocovarian
pentru proces depinde doar de diferena de timp dintre s i t , fr a depinde
de termenii considerai curent.
Pentru majoritatea aplicaiilor, noiunea definit mai sus de serie de
timp strict staionar este prea puternic. n loc de a se pune condiia asupra
tuturor distribuiilor posibile pentru seria de timp, se va cere doar
satisfacerea condiiilor pentru primele dou momente.
Definiie. Dac
t
x este un proces cu dispersie finit astfel nct:
(i) funcia medie
xt
este constant i nu depinde de timpul t ;
(ii) funcia de covarian ( ) ,
x
s t depinde de s i t doar prin
diferena s t .
Atunci spunem c
t
x este o serie de timp slab staionar.
n cele ce urmeaz vom considera c o serie de timp este staionar
dac ea este slab staionar. Pentru seriile de timp strict staionare vom
folosi denumirea integral.
Din discuia de mai sus rezult n mod clar i c dac
t
x este o serie
de timp cu dispersie finit i strict staionar, atunci seria
t
x este i

38
staionar (slab). Reciproca acestei afirmaii este fals n absena impunerii
unor condiii suplimentare.
Un caz important este cel al seriei Gaussiene (toate distribuiile seriei
sunt finite i gaussiene) care este staionar dac i numai dac este strict
staionar.
Deoarece funcia medie pentru o serie de timp staionar este
independent de timp putem scrie
t
= .
De asemenea, deoarece funcia de autocovarian a unei serii de timp
staionare nu depinde direct de s i t , ci doar de distan de la s la t .
Notnd h s t = , putem scrie relaia
( ) ( )
, , 0 s t s t = .
Deoarece al doilea argument este tot timpul zero, putem considera c poate
lipsi i putem redefini noiunile de msur pentru seriile de timp staionare.
Definiie. Dac
t
x este o serie de timp staionar, funcia
( ) ( )( ) ( )
t h t
h M x x
+
=
se numete funcie de autocovarian.
Definiie. Dac
t
x este o serie de timp staionar, atunci funcia
( )
( )
( ) 0
h
h

=
se numete funcie de autocorelaie.
S considerm n primul rnd modelul seriei de timp zgomot alb,
( )
2
~ 0,
t w
w wn . Atunci pentru cazul staionar avem
( ) ( )
2
pentru 0
pentru 0 0
w
w t h t
h
h M w w
h
+
=
= =

.
Acest lucru conduce la concluzia c seria zgomot alb este staionar. Dac
n plus variaia zgomotului alb este de distribuie normal sau Gaussian,
seria este struct staionar.
Pentru seria cu medie deplasat, considerm din nou
forma ( )
1 1
1
3
t t t t
u w w w
+
= + + pentru care am stabilit anterior

39
( )
2
2
2
1
pentru 0
3
2
pentru 1
9
1
pentru 2
9
pentru 3
0
w
w
u
w
h
h
h
h
h
.
Funcia de autocovarian a unui proces staionar de medie deplasat
are o serie de proprieti utile. nti, pentru valoarea 0 h = avem
( ) ( )
( )
2
0
t
M x =
care este dispersia seriei de timp i n plus
( ) ( ) 0 h .
n al doilea rnd, deoarece
( ) ( ) ( )( ) ( )
( )( ) ( ) ( ) ( ) ( )
t h t
t t h
h t h t M x x
M x x t t h h

+
+
= + = =
= = + =

rezult c funcia de autocovarian a unei serii staionare este
simetric n jurul originii.
Dac se dispune de mai multe serii de timp, vom aplica o noiune de
staionaritate and condiii suplimentare.
Definiie. Dou serii de timp
t
x i
t
y se numesc staionare reunite
dac fiecare serie este staionar i dac funcia de covarian ncruciat
( ) ( ) ( ) ( )
xy t h x t y
h M x y
+
=
este o funcie care depinde doar de h .
Definiie. Funcia de corelaie ncruciat a seriilor de timp
t
x i
t
y staionare reunite este dat de relaia
( )
( )
( ) ( ) 0 0
xy
xy
x y
h
h

= .
Procednd ca n cazul autocovarianei unei serii de timp staionare,
pentru funcia de corelaie ncruciat a seriilor de timp
t
x i
t
y staionare
reunite se obine relaia ( ) ( )
xy xy
h h = care arat c funcia este simetric
n jurul originii.

40
4.3.2. Modelul sumei i diferenei n zgomot alb

Un exemplu de model de serii de timp staionar reunite este modelul
sumei i diferenei n zgomotul alb. Pentru a defini acest model considerm
o serie de timp de tip zgomot alb
( )
2
~ 0,
t w
w wn .
Seria
t
x se definete prin relaia
1 t t t
x w w
= + .
Funcia medie pentru seria
t
x este
( ) ( ) ( ) ( ) ( )
1 1
0
x t t t t t
t M x M w w M w M w

= = + = + = .
Pentru a calcula funcia de covarian a serie
t
x considerm cazurile
pentru s t h = + i avem:
pentru 0 h =
( ) ( )( ) ( ) ( )
( )
( )
( ) ( )
2
2
2 2 2
1 1
,
2
x t t t
t t t t w
t t M x x M x
M w w M w M w

= = =
= + = + =
;
pentru 1 h =
( ) ( )( ) ( ) ( )
( ) ( ) ( ) ( )
1 1
2 2
1 1
1,
x t t t t
t t t t t w
t t M x x M x x
M w w w w M w

+ +
+
+ = = =
= + + = =

pentru 2 h
( ) ( ) ( ) ( ) ( )
( )( ) ( )
1 1
,
0
x t h t t h t
t h t h t t
t h t M x x M x x
M w w w w

+ +
+ +
+ = = =
= + + =

Am obinut pe scurt
( )
2
2
2 pentru
, pentru 1
0
pentru 2
w
x w
s t
s t s t
s t
= =
.
Rezult astfel c seria de timp sum a seriei zgomot alb este o serie
staionar. Scriem c 0
x
= i
( )
2
2
2 pentru 0
pentru 1
0
pentru 2
w
x w
h
h h
h
= =
.
Seria
t
y se definete prin relaia
1 t t t
y w w
= .

41
Funcia medie pentru seria
t
x este
( ) ( ) ( ) ( ) ( )
1 1
0
y t t t t t
t M y M w w M w M w

= = = = .
Pentru a calcula funcia de covarian a serie
t
x considerm cazurile
pentru s t h = + i avem:
pentru 0 h =
( ) ( ) ( ) ( ) ( )
( )
( )
( ) ( )
2
2
2 2 2
1 1
,
2
y t t t
t t t t w
t t M y y M y
M w w M w M w

= = =
= = + =
;
pentru 1 h =
( ) ( ) ( ) ( ) ( )
( )( ) ( ) ( )
1 1
2 2
1 1
1,
y t t t t
t t t t t w
t t M y y M y y
M w w w w M w

+ +
+
+ = = =
= = =

pentru 2 h
( ) ( ) ( ) ( ) ( )
( ) ( ) ( )
1 1
,
0
y t h t t h t
t h t h t t
t h t M y y M y y
M w w w w

+ +
+ +
+ = = =
= =

Am obinut pe scurt
( )
2
2
2 pentru
, pentru 1
0
pentru 2
w
y w
s t
s t s t
s t
= =
.
Rezult astfel c seria de timp diferen a seriei zgomot alb este o
serie staionar. Scriem c 0
y
=
( )
2
2
2 pentru 0
pentru 1
0
pentru 2
w
y w
h
h h
h
= =

n acelai mod calculm funcia de covarian ncruciat i avem
pentru 0 h =
( ) ( )( ) ( )
( )
( )( ) ( ) ( ) ( )
2 2
1 1 1
,
0
xy t x t y t t
t t t t t t
t t M x y M x y
M w w w w M w M w

= = =
= + = =
;
pentru 1 h =
( ) ( ) ( ) ( )
( )
( )( ) ( ) ( )
1 1
2 2
1 1
1,
xy t x t y t t
t t t t t w
t t M x y M x y
M w w w w M w

+ +
+
+ = = =
= + = =

42
pentru 1 h =
( ) ( ) ( ) ( )
( )
( )( ) ( ) ( )
1 1
2 2
1 1
, 1
xy t x t y t t
t t t t t w
t t M x y M x y
M w w w w M w

+ +
+
+ = = =
= + = =

pentru 2 h
( ) ( )( ) ( )
( )
( )( ) ( )
1 1
,
0
xy t h x t y t h t
t h t h t t
t h t M x y M x y
M w w w w

+ +
+ +
+ = = =
= + =

S-a obinut n acest mod funcia
( )
2
2
0 pentru
pentru 1
,
pentru 1
pentru 2
0
w
xy
w
s t
s t
s t
s t
s t
= +
=

+ =
.
Funcia
xy
depinde doar de diferena s t i deoarece fiecare din
seriile
t
x i
t
y este staionar rezult c seriile de timp sunt staionare
reunite. n plus, scriem
( )
2
2
0 pentru 0
pentru 1
pentru 1
pentru 2
0
w
xy
w
h
h
h
h
h
=

=

Seriile de timp
t
x i
t
y sunt staionar reunite i atunci putem
determina funcia de corelaie ncruciat.i avem
( )
( )
( ) ( )
0
0 0
0 0
xy
xy
x y

= = ,
( )
( )
( ) ( )
( ) ( )
2
2 2
1
1
1
2
0 0
2 2
xy
w
xy
x y
w w

= = = ,
( )
( )
( ) ( )
( )( )
2
2 2
1
1
1
2
0 0
2 2
xy
w
xy
x y
w w

= = = ,
( )
( )
( ) ( )
0
0 0
xy
xy
x y
h
h

= = , 2 h ,
de unde se poate scre pe scurt:

43
( )
0 pentru 0
1
pentru 1
2
1
pentru 1
2
0 pentru 2
xy
h
h
h
h
h

4.3.3. Procese liniare i Gaussiene

Definiie. Fie i familia de constante
{ }
j
j

care ndeplinete
condiia c
j
j

este finit. Spunem c un proces

t
x este liniar dac este
de forma
t j t j
j
x w
+
=
= +

,
unde
( )
2
~ 0,
k w
w wn (altfel spus,
t
x este o combinaie liniar de
variabilele zgomot alb
k
w ).
Constantele
j
poart numele de coeficienii procesului liniar.
Se poate demonstra c funcia de autocovarian a unui proces liniar
n care
( )
2
~ 0,
k w
w wn este dat de relaia
( )
2
w j h j
j
h
+
+
=
=

,
pentru 0 h .
Aceast formul etaleaz funcia de autocovarian a procesului n
termenii produsului coeficienilor corespunztoare spaierii h .
Definiie. Un proces
t
x se spune a fi proces Gaussian dac pentru
orice vector de dimensiune k ,
( )
1 2
, ,...,
t t t
k
x x x

= x are o distribuie normal
multidimensional pentru orice colecie de puncte de timp
1
t ,
2
t , ...,
k
t i
orice
*
k .

44
Considerm c ( )
( )
1 2
, ,...,
t t t
k
M

= = x este vectorul de
dimensiune k al mediei a vectorului aleator x i
( ) ( ) ( )
, 1,2,...,
,
i j
i j k
Cov t t
=
= = x este matricea de covarian a vectorului
aleator x (de dimensiune k k ), atunci funcia de densitate normal
multimensional este dat de relaia
( ) ( ) ( )
( ) ( )
1
1
1
2
2 2
2 det
n
f e

=
x x
x .

4.4. Estimarea corelaiei seriilor de timp

Cu toate c funciile teoretice de autocorelaie i corelaie ncruciat
sunt utile pentru descrierea proprietilor pentru diferite modele ipotetice,
cea mai pare parte a analizei asupra datelor trebuie s prelucreze cazurile de
date. Aceast limitare semnific faptul c pentru estimarea funciilor medie,
autocovarian i autocorelaie se dispune doar de punctele din eantionul de
date studiat,
1
x ,
2
x , ...,
n
x .
Din punct de vedere al statisticii clasice, acest lucru reprezint o
provocare deoarece nu avem n mod specif copii independente i identic
distribuite pentru
t
x pentru a face estimarea funciilor de covarian i de
corelaie, n situaiile curente devenind critic ipoteza de staionaritate.
ntr-un fel trebuie s folosim mediile asupra acestei realizri unice pentru
t
x
pentru a estima funciile de medie i covarian pentru populaia studiat.
Dac o serie de timp este staionar, deci funcia medie
t
= este
constant, atunci putem estima funcia medie prin media
empiric
1
1
n
t
t
x x
n
=
=

.
Funcia de autocovarian teoretic este estimat printr-o funcie de
autocovarian empiric definit dup cum urmeaz.
Definiie. Pentru orice 1, 2,..., 1 h n = funcia definit prin
( ) ( )( )
1
1
n h
t h t
t
h x x x x
n

+
=
=

i ( ) ( ) h h = este numit funcie de autocovarian empiric.
Analog cu definiia funciei de autocorelaie teoretic intervine
urmtoarea definiie.
Definiie. Funcia de autocorelaie empiric este definit prin
relaia

45
( )
( )
( ) 0
h
h

.
Funcia de autocorelaie empiric ne va permite s stabilim cnd
datele provin dintr-o serie de timp complet aleatoare sau din una de zgomot
alb sau cnd corelaiile sunt semnificative statistic pentru un anumit vivel de
spaiere.
Atunci cnd studiul se refer la dou serii de timp, definim
urmtoarele funcii empirice.
Definiie. Funcia empiric de covarian ncruciat este definit
de relaia
( ) ( ) ( )
1
1
n h
xy t h t
t
h x x y y
n

+
=
=
,
iar funcia empiric de corelaie ncruciat este dat prin
( )
( )
( ) ( ) 0 0
xy
xy
x y
h
h

.

V. ANALIZ NELINIAR

Analiza liniar prezentat anterior este unul din instrumentele
puternice de analiz a datelor. Cu toate acestea, n practic sunt numeroase
cazuri n care exprimarea matematic a rspunsului la variabilele
predicionate este neliniar n parametrii considerai. Acest lucru face
necesar extinderea tehnicilor de regresie introducnd un grad de
complexitate sporit.

5.1. Modelul regresiei neliniare

Un model de regresie neliniar se exprim printr-o relaie
( ) ,
n n n
Y f x Z = +
unde
n
x este vectorul variabilelor independente pentru cazul n din eantion. Se
poate observa c forma general este asemntoare formei modelului liniar de
regresie. Diferena const n factul c cel puin una din derivatele funciei f a
valorilor ateptate n raport cu unul din parametrii, depinde cel puin de un
parametru.
Pentru a face distincie ntre modelul liniar i cel neliniar am notat
parametrul prin . Vom nota prin p numrul de parametrii.

46
Pentru analiza unei mulimi particulare de date considerm ca fixai
vectorii
n
x dintr-un eantion de dimensiune N i ne intereseaz dependena
rspunsului ateptat .
Pe baza vectorilor observai generm vectorii ( ) ( ) ,
n n
f x = i astfel,
n scriere matricial avem pentru model forma
( ) Y Z = +
Unde se presupune c vectorul aleatoar Z are o distribuie normal de mai multe
variabile de medie ( ) 0 M Z = i dispersie ( )
2
var Z I = , deci
( )
2
~ 0, Z N I .
Ca exemplu de funcie neliniar utilizat pentru un model de regresie
putem considera o funcie raional, cum ar fi funcia
( )
1
1 2
2
, ,
x
f x
x
=
+

Prin derivarea parial n raport cu parametrii avem
( )
1 2
1 2
, , f x
x
x

=
+
,
( )
( )
1 2
1
2
2
2
, , f x
x
x

+

i cum ambele derivate pariale depind de unul din parametrii rezult c modelul
obinut cu ajutorul acestei funcii ese unul neliniar.
Pentru modelul dat ca exemplu mai sus putem considera c expresia
funciei f poate fi rescris sub forma
2
1 2
1 1
1 1
g x x
f

= = + = +
Se obine astfel o relaia liniar pentru funcia implicat n modelul neliniar.
Este foarte important de notat c o transformare a datelor implicate ntr-un
model implic i o transformare a termenului de perturbare Z , ceea ce afecteaz i
presupunerile care se fac asupra acestui termen.
Pentru forma general a modelului neliniar am prezupus c
( )
2
~ 0, Z N I . Aceste presupuneri nu vor mai fi valabile i n cazul modelului
transformat.
O a doua observaie important asupra modelului considerat este c el
poate fi considerat ca un model liniar n
1
, deoarece prin derivarea funciei n
raport cu acest parametru, derivata nu mai depinde de
1
.
Acest considerent poate s ne fac s ne gndim la realizarea unei estimri
pentru
1
condictionat de
2
, scriind modelul de regresie liniar sub forma

47
1
2
x
Y Z
x
= +
+

considernd ca variabil independent valoarea
2
x
x +
, care este un model liniar
cu parametru condiionat.
Presupunerea de distribuie normal multidimensional pentru termenul de
perturbare Z conduce n mod natural la considerarea unei geometrii euclidiene de
dimensiune N pentru spaiul de rspuns. Vectorii ( ) care au dimensiunea N
determin n spaiul de rspuns o suprafaa de dimensiune p care este interesant
pentru estimarea
prin metoda celor mai mici ptrate care corespunde unui punct
( )
= apropiat de y . Astfel
minimizeaza suma ptratelor reziduurilor dat

prin
( ) ( )
2
S y = .

5.2. Determinarea estimaiilor prin metoda celor mai mici ptrate

Problema de a gsi estimarea prin metoda celor mai mici ptrate poate fi
realizat foarte simplu dac se consider formularea geometric i acest proces
conine dou faze:
1. gsirea unui punct pe suprafaa ateptat care s fie apripiat de Y ;
2. determinarea vectorului de parametrii
corespunztor punctului .
Pentru cazul modelului liniar prima faz este una direct deoarece putem
scrie o expresie explicit pentru punctul din planul ce reprezint suprafaa ateptat
i care s fie apropiat de Y i anume relaia
t
QQ y =
Datorit liniaritii, faza a doua este de asemenea direct deoarece vectorul
de dimensiune p se transpine inversabil n planul reprezentat de suprafaa
asteptat i astfel dac tim unul din puncte l putem afla imediat pe cellalt printr-
o relaie:
1
t
R Q
= .
Lucrurile se schimb complet n cazul neliniar cnd determinrile din cele
dou faze pot fi foarte dificile. Dificultatea primei faze const n faptul c suprafaa
ateptat este o curb i adesea este de factur finit. Pentru faza a doua problema
este legat de faptul c putem raliza o coresponden a punctelor doar ntr-o
singur direcie, de la parametrii la suprafaa ateptat. Pentru a depi aceste
dificulti trebuie s folosim diferite metode, cum ar fi metodale iterative.

48
5.3. Estimaii prin metoda Gauss-Newton

Abordarea din aceast metod este de a folosi o aproximare liniar a
funciei f prin care, plecnd de la o valoare iniial
0
pentru s se realizeze
prin iteraii o mbuntire a estimrii pn nu se mai modific valoarea curent
pentru parametru. Pentru aceasta realizm o dezvoltare a funciei ( ) ,
n
f x ntr-o
serie Taylor de primul ordin, n jurul valorii
0
, adic o dezvoltare de forma
( ) ( ) ( ) ( ) ( )
0 0 0 0
1 1 1 2 2 2
, , ...
n n n n np p p
f x f x v v v = + + + +
unde pentru 1, 2,..., k p =
( )
0
,
n
nk
k
f x
v

Dac se iau n considerare toate cele N cazuri ale eantionului studiat,
scriem
( ) ( ) ( )
0 0 0
V = +
unde ( )
0
1
1
n N
nk
k p
V v

= este matricea de dimensiune N p a derivatelor pariale.
Relaia este echivalent cu evaluarea reziduurilor ( ) ( ) z y = prin
intermediul relaiei
( ) ( ) ( )
0 0 0 0
z y V z V = + =
unde am notat
( )
0 0
z y = i
0
= .
Metoda are la baz calculul incrementului
0
pentru care are loc
minimizarea sumei ptratelor reziduurilor
2
0 0
z V i n acest sens se folosesc
relaiile
0
1 1
V QR Q R = = ,
0
1 1
t
v Q x = ,
1
1 1
Q w = i
0
1 1
R w = .
Pentru
0
determinat avem c punctul
( ) ( )
1 1 0 0
= = + este mai
apropiat de y dect punctul
( )
0
i astfel putem trece la o valoare a
parametrilor mai bun
1 0 0
= + .
Procesul este reluat cu alt iteraie pentru a determina noile reziduuri
( )
1 1
z y = , a noii matrici a derivatelor pariale
1
V i a noului increment
1
,
urmnd a continua pn la obinerea convergenei, adic pn cnd se va obine o
valoare a incrementului care s fie att de mic nct s nu mai apar schimbri
semnificative asupra vectorului de parametrii.
Din punct de vedere geometric, o iteraie Gauss-Newton const din
urmtoarele etape

49
1. aproximarea funciei ( ) printr-o dezvoltare n serie Taylor n jurul
punctului
( )
0 0
= ;
2. determinarea vectorului reziduurilor
0 0
z y = ;
3. proiecia vectorului de reziduuri
0
z pe un plan tangent pentru a obine
1
;
4. transpunerea lui
1
ntr-un sistem liniar de coordonate pentru a gsi
incrementul
0
;
5. trecerea la urmtorul punct de iteraie dat prin
( )
0 0
+ .
Pentru detaliere trebuie s spunem c prima etap implic dou aproximri
distincte, i anume:
a. aproximarea suprafeei ateptate ( ) n jurul lui
( )
0
prin planul
tangent n
( )
0
i acest lucru se face datorit presupunerii de planeitate;
b. impunerea unui sistem liniar de coordonate
( )
0
V pentru planul
tangent aproximat la (a) i acest lucru este posibil datorit presupunerii de
coordonate uniforme.
Se observ c la etapa 5 trecerea la urmtorul vector al parametrilor se face
prin relaia
1 0 0
= + n locul relaiei
1 0 0
= + specificate mai sus. Se
realizeaz acest lucru deoarece incrementul
0
poate produce o cretere n suma
de ptrate atunci cnd incrementarea se extinde n afara regiunii n care este
valabil aproximarea liniar. se numete factor de pas i este ales astfel nct s
aib loc o descretere n suma de ptrate la nlocuirea lui
0
prin
1
.
Am afirmat anterior c iteraiile propuse de metoda Gauss-Newton
continu pn cnd se stabilizeaz valorile lui n iteraii succesive. Acest lucru
se poate msura prin mrimea fiecrei valori de incrementare relativ la fiecare din
valorile anterioare ale parametrului. Un alt criteriu posibil pentru convergen este
ca schimbarea relativ din suma de ptrate din iteraii succesive este mic.
Aceste criterii indic lipsa de progres n atingerea minimului, dar o
problem este c aceast lips de progres nu impune i atingerea efectiv a valorii
minime.
Exeminarea geometric a determinrii prin metoda celor mai mici ptrate
pentru cazul nelinar i faptul c un punct critic este atins cnd vectorul reziduurilor
( ) y este ortogonal pe suprafaa ateptat i deci pe planul tanget la acest
suprafa. Acest motiv poate s conduc la adoptarea ortogonalitii vectorului
reziduurilorla planul tangent drept criteriu de convergen..
Forma criteriului cu ortogonalitate, pentru o valoare de precizie, este

50
( ) ( )
( ) ( )
1
2
t i
t i
Q y
p
Q y
N p

<

unde
1
Q i
2
Q sunt formate cu primele p i respectiv ultimele N p coloane din
matricea Q a descompunerii matricii V sub forma QR .

Sint Eze

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Sint Eze

Încărcat de

Drepturi de autor:

Formate disponibile

1

ANALIZA DATELOR, TEHNICI DATA MINING

estimrile numerice ale parametrilor

care minimizeaz suma

Y este partea contabilizat prin model a observaiei

vor fi la rndul lor variabile aleatoare. Msurile privind precizia,

o funie liniar arbitrar de variabilele

dou funcii liniare n

, avnd coeficienii 1 i, respectiv,

= , iar cea pentru

. Prin aplicarea formulei generale pentru covariana dintre dou funcii

X X X Y = ,sunt ntotdeauna consistente i astfel au ntotdeauna soluie.

Y . Folosind forma lui

a fost ales astfel nct valoarea e e s fie minim.

Y i e sunt vectori aleatori deoarece ei sunt funcii de

, valorile variabilei dependente contabilizabile,

= . Astfel, pentru media lui

Y putem pleca tot de la relaia

. Este clar c pentru s t = autocovariana se

este finit. Spunem c un proces

minimizeaza suma ptratelor reziduurilor dat

S-ar putea să vă placă și