Sunteți pe pagina 1din 30

Tema 8.

Metode i tehnici de recunoatere a formelor


8.1 Importana i necesitatea recunoaterii formelor
n cele mai multe dintre activit|ile umane apare necesitatea de a ncadra, de a diferen ia, de a grupa sau de a clasifica
anumite entit|i sau obiecte sub forma unor categorii sau clase, a c |ror delimitare trebuie s | fie foarte clar | i foarte natural|.
Semnifica ia concret| a acestor categorii trebuie s | aib | o echivalen | corespunz |toare n realitatea studiat|, s | fie consistent |
i relevant | pentru procesul de cunoa tere, s| aib | un anumit grad de generalitate i s| ofere o interpretabilitate simpl| i
natural|.
Diferen ierea obiectelor pe categorii sau clase se face n func ie de propriet|ile fundamentale ale obiectelor, iar criteriile
de asociere a obiectelor sub form | de clase au la baz | gradul de asem |nare a propriet|ilor respectivelor obiecte, m |surat n
func ie de magnitudinea valorilor acestor propriet|i.
Necesitatea de a grupa sau clasifica obiecte apare foarte frecvent i n domenii foarte variate ale cunoa terii i activit|ii
umane, cum ar fi: analiza financiar |, marketingul, asigur |rile, informatica, biologia, medicina, arheologia, meteorologia,
criminalistica, psihologia, tiin a politic | sau domeniul militar.
n domeniul informaticii, cerin ele legate de cre terea performan elor n utilizarea tehnicii de calcul au determinat
necesitatea dezvolt|rii i implement |rii unor dispozitive hardware i a unor instrumente software pentru recunoa terea vocii
umane i a scrisului de mn |. De asemenea, n domeniul economic, manifestarea comportamentului ra ional al agen ilor
economici face necesar | existen a posibilit |ii de a identifica, de exemplu, activit|ile rentabile, clien ii solvabili sau pie ele
poten iale. Cele mai potrivite i cele mai eficiente instrumente utilizabile pentru solu ionarea problemelor de acest fel s-au
dovedit a fi metodele i tehnicile de clasificare sau de recunoa tere a formelor.
n general, oamenii dispun de o serie de sim uri naturale, cum ar fi auzul, v |zul, mirosul, pip |itul etc., sim uri care le permit
acestora s | perceap | anumite propriet|i ale obiectelor pe care le analizeaz | i, pe aceast | cale, s | poat | structura, clasifica sau
ierarhiza aceste obiecte sub forma unor submulimi specifice i distincte.
ntr-o activitate de clasificare, oamenii se pot folosi, n afara sim urilor naturale pe care le posed |, i de cuno tin ele pe
care le au cu privire la obiectele pe care trebuie s | le clasifice sau cu privire la propriet |ile acestor obiecte. n plus fa | de
acestea, oamenii mai pot apela i la o serie de modele, instrumente i tehnici speciale, de natur | statistico-matematic |, cu
ajutorul c |rora s | poat | clasifica mai u or i mai corect obiectele analizate.
Pe baza sim urilor naturale pe care le au ca fiin e umane i a cuno tin elor de care dispun, oamenii pot diferen ia, clasifica
sau grupa cu relativ | u urin | cele mai variate categorii de obiecte. Exist| ns | numeroase situa ii n care sim urile naturale ale
indivizilor i informa iile de care ace tia dispun nu mai sunt suficiente pentru a putea discrimina corect ntre anumite obiecte
sau pentru a face clasific |ri corecte ale acestor obiecte. Aceste situa ii sunt ntlnite n cazul obiectelor de tip multidimensional,
adic | n cazul obiectelor cu mai multe caracteristici, mai ales dac | aceste caracteristici sunt exprimabile sub o form | numeric |,
iar obiectele care trebuie clasificate sunt n num |r foarte mare.
n cazul n care obiectele sunt de tip multidimensional, cu caracteristici numeroase i preponderent cantitative, diferen ierea
acestora pe categorii specifice nu se mai poate face numai pe cale intuitiv |, exclusiv pe baza sim urilor naturale, fiind necesar
s | se apeleze la o serie de metode i tehnici specifice, de mare complexitate i cu un solid fundament statistico-matematic.

8.2 Definirea recunoaterii formelor


Activit|ile tiin ifice care au ca scop diferen ierea i structurarea unor mul imi de obiecte pe categorii sau clase specifice,
n func ie de propriet|ile fundamentale ale obiectelor, sunt cunoscute sub denumiri variate, cum ar fi: clasificare, clusterizare,
grupare sau discriminare.
Aceste denumiri sunt folosite n literatura de specialitate a domeniului cu sens terminologic diferit, n func ie de tipul colii
de care apar ine respectiva literatur |. De exemplu, n literatura anglo-saxon | termenul de clusterizare este folosit pentru a
descrie activit|ile de clasificare necontrolat|, iar termenul de clasificare este folosit pentru a defini activit|ile specifice
sistemelor de recunoa tere controlat|. n acela i timp, n literatura francez | termenul de clasificare este folosit pentru a face
referire la clasificarea de tip necontrolat, iar termenul de discriminare este folosit pentru descrierea activit|ilor de tip controlat.
n cadrul acestei teme, vom utiliza termenul de clasificare n dou | accep iuni. Prima accep iune va fi folosit| cu sens
generic, acoperind att con inutul conceptului de clasificare controlat|, ct i con inutul conceptului de clasificare necontrolat|.
Cea de-a doua accep iune va fi folosit| cu sens particular, cu referire la clasificarea de tip necontrolat. Pentru clasificarea de
tip necontrolat vom folosi ns | i termenii de clusterizare i de grupare. De asemenea, pentru referirea la clasificarea de tip
controlat vom utiliza, aproape exclusiv, termenul de discriminare.
n general, putem spune c | discriminarea i clusterizarea reprezint| activit|ile de aranjare sau de asociere a unor obiecte,
indivizi sau observa ii, sub forma unor grupe, categorii sau clase, n func ie de gradul de asem |nare sau de deosebire dintre
acestea.
Totalitatea tehnicilor de clasificare, adic | de discriminare i de clusterizare, este cunoscut| i sub numele generic de teoria
recunoa terii formelor.
75

Metodele i tehnicile de clasificare, respectiv teoria recunoa terii formelor, reprezint| una dintre cele mai moderne i
interesante probleme ale gndirii tiin ifice contemporane, constituind un domeniu tiin ific c |ruia i se acord | o importan | din
ce n ce mai mare, iar aplica iile acestora sunt din ce n ce mai numeroase i mai variate.
Domeniu bine conturat al inteligen ei artificiale, cu tendin | din ce n ce mai accentuat| de autonomizare, recunoa terea
formelor s-a dezvoltat n strns | interdependen | cu progresele nregistrate n domeniul tehnicii de calcul i informaticii, ultimele
decenii fiind caracterizate printr-o dezvoltare exploziv | a tehnicilor de acest fel.
Scopul general al teoriei recunoa terii formelor l reprezint| identificarea la nivelul unor mulimi complexe i eterogene
de forme sau obiecte a unor structuri, grup |ri, clase sau clustere existente la nivel latent n cadrul acestor mul imi i care se
contureaz | n mod natural, n func ie de asem |n |rile i deosebirile existente ntre elementele acestor mul imi.
Dezvoltarea tehnicilor de recunoa tere a formelor poate fi privit| att ca proces independent, impus de necesitatea adncirii
cunoa terii din diverse domenii de activitate i stimulat de evolu ia tehnicii de calcul, ct i ca un r |spuns la necesit|ile de
simplificare i perfec ionare a schimbului informa ional om-ma in |.
Avnd aplica ii n cele mai diverse i surprinz |toare domenii de activitate, teoria recunoa terii formelor a cunoscut n
ultimii ani progrese cu adev |rat uimitoare, ajungndu-se n prezent la un nivel de performan | tehnico-tiin ific | care permite
chiar construirea unor ma ini specializate n recunoa terea anumitor tipuri de forme.
Aflat| la intersec ia unor domenii fundamentale cum sunt tiin a calculatoarelor, teoria informa iei, teoria deciziei,
geometria, teoria probabilit|ilor i statistica matematic |, recunoa terea formelor cunoa te n prezent aplica ii a c |ror palet|
se ntinde de la cercetarea antropologic | i pn | la proiectarea harware i software.
n domeniul economico-social teoria recunoa terii formelor i g |se te o larg | utilizare mai ales n procesul de analiz| a
datelor i n activitatea de predic ie. Problema clasific |rii unei mulimi de obiecte este o problem | standard, frecvent ntlnit |
n investigarea socio-economic |, iar abordarea ei presupune utilizarea metodelor i tehnicilor specifice teoriei recunoa terii
formelor.
Numeroase probleme din domeniul analizei datelor, ncepnd cu cele legate de identificarea caracteristicilor definitorii
pentru cele mai diverse categorii de fenomene i terminnd cu cele legate de delimitarea func ional|, ierarhizarea structural|
sau sintetizarea informa ional| a unor mulimi de fenomene i procese economico-sociale, i g |sesc rezolvarea prin intermediul
aplic |rii unor concepte i instrumente a c |ror paternitate este, indiscutabil, legat| de teoria recunoa terii formelor.
Metodele i tehnicile apar innd teoriei recunoa terii formelor sunt de nenlocuit n analizele care opereaz | cu cantit|i mari
de informa ie, unde necesitatea de a esen ializa i sintetiza interdependen ele implic | un proces continuu de clasificare i
structurare a informa iilor. Practic, tehnicile de recunoa tere a formelor reprezint| instrumente cu ajutorul c |rora poate fi
st|pnit| i controlat| marea complexitate informa ional| ce caracterizeaz | fenomenele i procesele economico-sociale.
O utilizare i mai larg | a teoriei recunoa terii formelor este ntlnit | n domeniul predic iilor. Activitatea de realizare a
predic iilor poate fi privit| ca un proces ale c |rui caracteristici sunt foarte apropiate, mergnd chiar pn | la identificare, de
caracteristicile specifice ale unui proces de recunoa tere a formelor.
Evaluarea st|rilor pe care le poate avea n viitor un fenomen apar innd unei realit|i date reprezint|, de fapt, un proces
de recunoa tere a acelor forme de evolu ie a fenomenului care au cea mai mare probabilitate de realizare. Mai mult, att n
activitatea de predic ie, ct i n procesul de clasificare sau de recunoa tere a formelor, modalit|ile de abordare au o natur |
preponderent probabilistic |. Pe de alt| parte, problema recunoa terii formelor este, ea ns |i, o problem | de predic ie n care,
pornind de la anumite caracteristici ale obiectelor analizate, obiecte numite i forme, se fac predic ii cu privire la apartenen a
acestor obiecte la anumite clase. De altfel, stabilirea apartenen ei formelor la anumite clase reprezint | scopul principal al
utiliz |rii tehnicilor de recunoa tere a formelor.
Semnificativ pentru leg |tura dintre activitatea de predic ie i teoria recunoa terii formelor este faptul c |, n prezent, cele
mai moderne metode i tehnici din domeniul predic iei sunt cele bazate pe o nou | clas | de modele, specifice contur |rii unei noi
modalit|i de abordare n domeniul teoriei recunoa terii formelor, numite re ele neuronale. Modalit|ile de abordare tiin ific |
bazate pe re ele neuronale sunt mult mai concordante cu pronun ata complexitate i imprevizibilitate ce caracterizeaz |
comportamentul fenomenelor i proceselor economico-sociale i ofer | o serie de avantaje importante, n compara ie cu alte
metode i tehnici utilizate n acela i scop.
Avantajele pe care le are modelarea de tip re ea neuronal | sunt comparabile cu avantajele pe care le ofer | modelarea de
tip fuzzy n compara ie cu modelarea clasic |. Spre deosebire de modelele de tip tradiional, care opereaz | n condiii de
simplificare sever |, justificabil| sau nu, a realit|ii, modelele de analiz | i predic ie bazate pe conceptul de re ea neuronal| au
avantajul unei mai mari flexibilit|i i al unei mai mari compatibilit|i cu specificitatea realit|ii modelate, simularea realit|ii
prin intermediul lor avnd un mai mare grad de naturale e.
Pe de alt| parte, modelele de tip re ea neuronal| au avantajul unei continue adaptabilit|i n raport cu modific |rile
intervenite n evolu ia fenomenelor modelate i unei continue autoperfec ion |ri. De asemenea, modelarea bazat | pe re ele
neuronale nu presupune dezvoltarea i utilizarea unui aparat matematic foarte sofisticat, ceea ce face ca implementarea i
utilizarea tehnicilor de acest fel s | fie accesibile unor categorii foarte largi de analiti i cercet|tori.
Re elele neuronale reprezint| modele de mare generalitate i flexibilitate, a c |ror structur | func ional| este continuu
adaptabil| i configurabil| specificului evolu iei unui anumit fenomen i care ncearc | s| simuleze activit|ile de evaluare i
decizie proprii creierului uman.
Tehnicile de recunoa tere a formelor pot fi utilizate n domeniul economico-social pentru rezolvarea unor probleme cum
ar fi: analiza datelor cu grad ridicat de eterogenitate, fundamentarea criteriilor de alegere a proiectelor de dezvoltare, clasificarea
deciziilor n func ie de impactul acestora asupra diverselor compartimente ale vie ii economico-sociale, detectarea unor perioade
76

cu caracter specific din evolu ia unor sisteme economice, stabilirea politicilor de creditare n domeniul financiar-bancar,
evaluarea eficien ei activit|ilor de promovare a unor produse, determinarea perioadelor cele mai potrivite pentru vnzarea
anumitor sortimente de m |rfuri, identificarea celor mai profitabile domenii de afaceri, clasificarea i ierahizarea unor entit|i
economico-sociale etc.
Definiie: Teoria recunoa terii formelor poate fi definit| ca reprezentnd totalitatea normelor, principiilor, metodelor
i instrumentelor de analiz | i decizie utilizate n scopul de a identifica apartenen a unor forme sau obiecte (unit|i,
fenomene, evenimente, ac iuni, procese etc.) la anumite clase cu individualitate bine determinat|.
Se poate spune c | recunoa terea formelor nsumeaz | toate ncerc |rile de construire a acelor modele care simuleaz | modul
n care omul cuantific |, analizeaz |, interpreteaz | i anticipeaz | comportamentul evolutiv al fenomenelor i proceselor.
Din punct de vedere al teoriei sistemelor, recunoa terea formelor poate fi privit| ca un sistem general n care intr |rile
reprezint| mulimea caracteristicilor obiectelor ce urmeaz | a fi clasificate, ie irile reprezint| mulimea claselor posibile din care
pot face parte obiectele analizate, iar func ia de transfer exprim | mecanismul decizional prin care un anumit obiect este
identificat ca f|cnd parte dintr-o anumit| clas |.

8.3 Concepte fundamentale ale teoriei recunoaterii formelor


n teoria recunoa terii formelor se opereaz | cu o mulime de concepte care sunt specifice acestui domeniu i se utilizeaz |
o terminologie proprie. Dintre numeroasele conceptele utilizate n teoria recunoa terii formelor, trei pot fi considerate ca fiind
fundamentale i definitorii pentru esen a i scopurile teoriei recunoa terii formelor: forma, clasa i clasificatorul.
Forma reprezint| expresia numeric | a obiectului studiat n vederea clasific |rii lui ntr-o anumit| clas | i este rezultatul
cuantific |rii principalelor caracteristici posedate de obiectul respectiv.
De i utilizarea alternativ | i cu acela i sens a termenilor obiect i form | nu ridic | nici un fel de problem | legat| de
n elegere, cei doi termeni se deosebesc, totu i, ntre ei. n timp ce obiectul este o entitate cu existen | real|, forma este doar
o reprezentare matematic | a obiectului, definit| sub forma unui vector n-dimensional, ale c |rui componente definesc
caracteristicile obiectului real.
Cu toate c | exist| aceast| deosebire de esen | ntre obiect i form |, n cele mai multe din situa ii vom utiliza cele dou |
concepte n mod intervertibil, ca avnd sens echivalent, nef|cnd deosebire ntre obiect i form | dect n situa iile n care apare
necesitatea unei stricte nuan |ri a celor dou | concepte.
Definiie: Forma sau obiectul este o entitate informa ional| individual|, caracterizat| prin intermediul unui vector ndimensional, ale c |rui componente definesc valorile caracteristicilor acesteia, i care face obiectul procesului de clasificare
sau de predic ie.
Formele implicate ntr-un proces de clasificare pot fi: cump |r |tori, clien i, salaria i, votan i, produse, firme, zone
geografice, |ri, activit|i economice, titluri de valoare etc.
Una dintre ipotezele fundamentale pe care se bazeaz | teoria recunoa terii formelor este aceea c | obiectele analizate sunt
caracterizate de un anumit grad de eterogenitate. Aceasta nseamn | c | se asum |, n mod implicit, existen a posibilit|ii definirii
unor clase distincte pe mulimea obiectelor. Pe de alt| parte, se mai presupune c | anumite obiecte apar innd mulimii analizate
au ceva comun, sunt caracterizate printr-un anumit grad de omogenitate.
n virtutea acestei ultime presupuneri, variabilele explicative ce reprezint| caracteristicile obiectelor au o "substan |"
comun | pentru anumite submulimi ale obiectelor. Cele dou | cerin e impuse mul imii obiectelor analizate sunt cunoscute sub
numele de similaritate i disimilaritate.
Clasa, grupa sau clusterul reprezint| o submulime distinct| de obiecte care verific | urm |toarele dou | propriet|i: obiectele
care alc |tuiesc o clas | sunt omogene din punct de vedere al caracteristicilor lor definitorii; dou | obiecte ntre care exist|
diferen e semnificative din punct de vedere al caracteristicilor definitorii fac parte din clase diferite.
Definiie: Clasa, grupa sau clusterul reprezint| o entitate informa ional| distinct | i cu semnifica ie concret|, format|
din totalitatea obiectelor ale c |ror caracteristici sunt identice sau difer | foarte pu in i care sunt semnificativ diferite de
caracteristicile obiectelor din alte clase sau grupe.
De exemplu, n cazul n care scopul utiliz |rii tehnicilor de clasificare vizeaz | diferen ierea firmelor din punct de vedere
al riscului care afecteaz | performan ele financiare ale acestora, clasele sau grupele pot fi urm |toarele: firme s |n |toase
financiar, firme cu probleme financiare temporare, firme cu risc ridicat de faliment. Dac | tehnicile de clasificare sunt
utilizate pentru a fundamenta deciziile de acordare a creditelor, atunci pot exista dou | clase: clien i solvabili i clien i
insolvabili.
n figurile urm |toare sunt ilustrate dou | situa ii, referitoare la dou | popula ii distincte: prima popula ie este caracterizat|
printr-un grad relativ ridicat de omogenitate, astfel nct ea nu se structureaz | n mod natural sub forma unor clase i deci nu
prezint| interes din punct de vedere al tehnicilor de clasificare. Cea de-a doua popula ie are o natur | eterogen |, fiind structurat|,
cu eviden |, sub forma a dou | clase distincte.

77

Figura 8.1: Mulime relativ omogen |

Figura 8.2: Mulime structurat| pe 2 clase

Num |rul de clase care alc |tuiesc mul imea de ie ire a unui sistem de recunoa tere a formelor variaz | n func ie de specificul
domeniului pentru care se folose te acest sistem i de scopurile urm |rite.
Clasificatorul este un model statistico-matematic care, pe baza informa iilor referitoare la caracteristicile unui anumit
obiect, determin | decizia de clasificare a obiectului ntr-o anumit| clas |. Clasificatorul poate fi privit ca fiind setul de principii,
reguli sau criterii, n func ie de care obiectele analizate sunt atribuite unei clase sau alteia.
Definiie: Clasificatorul sau criteriul de clasificare reprezint| regula sau mul imea de reguli pe baza c |rora obiectele
care apar in mulimii analizate sunt afectate sau atribuite unor clase sau grupe bine definite.
n func ie de natura regulilor utilizate n procesul de clasificare, exist| mai multe categorii de clasificatori: clasificatori ierarhici, clasificatori de cost minim, clasificatori de distan | minimal|, clasificatori de tip Bayes-ian, clasificatori euristici etc.

8.4 Formularea problemei generale de clasificare


Sub cea mai general| form | a sa, problema de clasificare poate fi formulat| n termenii teoriei deciziei, iar metodele de
clasificare pot fi definite sub forma unor instrumente decizionale specifice.
Vom descrie n continuare modul n care problema de clasificare poate fi definit| ca o problem | decizional|. n acest scop,
vom presupune existen a unei popula ii de forme sau de obiecte, notat| cu
i definit| sub forma:
,
unde M reprezint| num |rul de unit|i ale popula iei analizate.
Fiecare obiect care alc |tuie te popula ia este definit prin intermediul unui num |r de N caracteristici, pe care le vom nota
cu
i care se numesc variabile explicative. n acest fel, un obiect din popula ia poate fi reprezentat sub forma
unui vector N-dimensional de forma:
.
Variabilele explicative, care definesc caracteristicile obiectelor analizate, sunt m |rimile n func ie de care se stabile te
apartenen a unui obiect din popula ia
la una dintre clasele popula iei , adic | m |rimile n func ie de care se poate face
mp |r irea acestei popula ii pe grupe sau clase. Variabilele explicative pot fi variabile de tip calitativ sau cantitativ. Ele pot fi
m |surate pe una dintre cele patru scale cunoscute, respectiv scala nominal|, scala ordinal|, scala interval sau scala raport.
n cazul n care variabilele explicative sunt de tip cantitativ, mulimea lor poate fi privit| ca o submulime a spa iului real
N-dimensional, ceea ce nseamn | c |
.
Dintre elementele care reprezint| variabilele explicative unele pot s| aib | o putere de discriminare mai redus|, iar altele
pot s| aib | o putere de discriminare mai mare. Din acest punct de vedere, n construirea algoritmilor de clasificare trebuie s |
fie selectate acele variabile care au puterea de discriminare cea mai mare. De exemplu, n clasificarea firmelor n func ie de
riscul posibil al evolu iei viitoare a acestora, este plauzibil s | consider |m c | o variabil| cum ar fi ponderea for ei de munc |
feminine are o influen | mai redus | n diferen ierea firmelor pe clase de risc, n timp ce o variabil| cum ar fi rata profitului
are o putere mult mai mare de discriminare a firmelor pe categorii de risc, n func ie de gradul de risc care poate afecta evolu ia
acestora.
Variabilele cu puterea de discriminare cea mai mare, definesc acele caracteristici ale obiectelor care permit o diferen iere
mai puternic | a claselor n care pot fi grupate respectivele obiecte i se numesc variabile descriptor. Pentru un anumit obiect,
vectorul de valori ale variabilelor descriptor reprezint| chiar forma asociat| respectivului obiect.
Vom presupune n continuare c | variabilele cu putere mare de discriminare reprezint| o submulime, pe care o vom nota
cu
, a mulimii
, respectiv:
.
Lund n considerare numai variabilele descriptor, orice obiect din popula ia
unui vector n-dimensional de forma:
,
vector cunoscut sub numele generic de form |.
78

poate s | fie reprezentat prin intermediul

Vom nota n continuare cu


mulimea formelor asociate tuturor obiectelor din popula ia , mulime cunoscut | sub
numele de spa iul formelor. Dac | cele n caracteristici ale obiectelor din popula ia
au valori numerice de tip continuu, atunci
mulimea
este o submulime a spa iului real n-dimensional, respectiv
.
Din punct de vedere concret, popula ia de obiecte
poate fi alc |tuit | din firme, b |nci, clien i, cump |r |tori, |ri, zone
economice etc. n cazul n care obiectele din popula ia
sunt firme, variabilele descriptor pot fi reprezentate de o serie de
indicatori economico-financiari, care caracterizeaz | activitatea acestor firme, cum ar fi: cifra de afaceri, m |rimea profitului, rata
pofitului, gradul de ndatorare, volumul investiiilor etc.
n raport cu o manifestare sau cu o ac iune viitoare, elementele popula iei
se pot g |si ntr-una din mai multe st |ri
poten iale, numite st|ri ale naturii. St|rile naturii reprezint| conjuncturi fizice, economice sau sociale, n raport cu care
mulimea de obiecte analizate se structureaz | sub forma unor categorii bine individualizate.
Vom nota cu
mulimea st|rilor naturii i vom presupune existen a aprioric | a K st |ri posibile ale naturii, ceea ce
nseamn | c | mulimea
este de forma:
.
Cele K st|ri posibile ale naturii se caracterizeaz | prin exhaustivitate i prin exclusivitate reciproc |. Aceasta nseamn | c |
n afara celor K st|ri ale naturii nu mai poate exista nici o alt| stare posibil| a naturii, respectiv c | dou | st|ri diferite ale naturii
nu se pot manifesta niciodat| simultan. De exemplu, din punct de vedere al perspectivelor de evolu ie n viitor, firmele dintr-o
anumit| ar | se pot g |si, la un moment dat, n trei st|ri posibile: firme performante, firme cu dificult|i temporare i firme cu
risc ridicat de faliment. Determinarea, dinainte, a st|rii posibile n care se va afla o firm | n viitor, prezint| o importan | maxim |
pentru orice decident, client sau investitor.
Caracteristica principal | a unei probleme de clasificare const | n faptul c | de i st|rile posibile ale naturii sunt cunoscute
aprioric, ca num |r, ca natur | i ca plauzibilitate a manifest |rii, iar fiecare element al popula iei
se g |se te n mod sigur ntruna, i numai ntr-una, din aceste st |ri, de obicei nu se cunoa te, cu precizie i n mod aprioric, n care dintre st|rile naturii se
g |se te fiecare dintre unit|ile popula iei.
Principala problem | care se pune n acest context const | n identificarea st|rii n care se afl| o anumit| unitate din popula ia
, adic | n stabilirea apartenen ei acestei unit|i la o anumit| categorie, clas | sau grup |. Cele K st|ri ale naturii, n care se pot
g |si elementele mulimii , definesc o mp |r ire a popula iei
n K grupe sau clase, pe care le vom nota cu
.
Spre deosebire de st |rile naturii, care pot fi privite ca fiind realiz |ri ale unei variabile aleatoare de tip discret, clasele sau
grupele reprezint| submulimi de obiecte din popula ia , toate obiectele dintr-o astfel de submulime avnd proprietatea c |
se g |sesc n aceea i stare a naturii.
n calitatea sa de submulime a popula iei
unde

, o clas | poate fi definit| sub forma urm |toare

este num |rul de obiecte din clasa k.

Ca o consecin | direct| a propriet|ilor pe care le au cele K st |ri ale naturii, clasele care trebuie identificate la nivelul
popula iei , verific | urm |toarele dou | propriet|i:
.
Prima proprietate implic | faptul c | orice obiect din popula ia
face parte, cu necesitate, dintr-una din cele K clase. Cea
de-a doua proprietate implic | faptul c | un anumit obiect nu poate s | fie afectat sau atribuit, n acela i timp, la dou | clase diferite.
Mai mult dect att, este verificat|, n plus fa | de cele dou | condiii, i condiia:
.
Modul n care mul imea st|rilor naturii poate induce o structurare pe clase a popula iei
este ilustrat n tabelul urm |tor.
Tabelul 8.1
St|ri ale naturii

...

Clase n
popula ia

Variabile
descriptor

Obiecte pe clase

...

Scopul principal al metodelor i tehnicilor de clasificare este acela de a explica apartenen a obiectelor mul imii
grupele sau clasele
, utiliznd n acest scop informa iile reprezentate de valorile variabilelor descriptor

la
.

Explicarea apartenen ei obiectelor mul imii la cele K clase presupune, de fapt, deducerea sau identificarea unui criteriu
de clasificare sau a unei reguli de clasificare, care s | descrie modul de structurare a obiectelor popula iei pe clase. Criteriul de

79

clasificare mai este cunoscut i sub numele de clasificator.


Deducerea criteriului de clasificare se face pe baza informa iilor furnizate de un e antion extras din popula ia , e antion
format din obiecte a c |ror apartenen | la clasele
poate fi cunoscut| sau necunoscut| n mod aprioric.
Avnd n vedere cele men ionate anterior, problema general| a clasific |rii poate fi formulat| sub forma urm |toare:
Problema general| a clasific |rii: Fiind dat| o mulime de obiecte, se cere s | se determine criteriul sau regula care s |
descrie apartenen a obiectelor la clasele sub forma c |rora se structureaz | respectiva mulime de obiecte.
n func ie de cunoa terea sau necunoa terea aprioric | a apartenen ei la cele K clase a obiectelor care apar in e antionului
extras din popula ia , metodele de clasificare se mpart n dou | mari categorii: de clasificare controlat| i de clasificare
necontrolat|.
Odat | ce criteriul de clasificare a fost stabilit, el poate fi folosit, n continuare, pentru efectuarea de predic ii privind
apartenen a la o anumit| clas | a unor noi obiecte, din afara e antionului existent, obiecte a c |ror apartenen | nu este cunoscut|
aprioric. Dup | ce criteriul de clasificare a fost identificat, i cu condiia ca apartenen a obiectelor apar innd e antionului
disponibil s | fie cunoscut|, el poate fi utilizat i pentru verificarea corectitudinii cu care acesta poate face clasificarea, adic |
pentru testarea calit|ii clasificatorului. Calitatea criteriului de clasificare poate fi testat| chiar pe obiectele din e antionul pe
care acest criteriu a fost identificat. n acest scop, fiecare obiect din e antion, a c |rui apartenen | la o anumit| clas | este
cunoscut| n mod efectiv, este reclasificat cu ajutorul respectivului criteriu, iar rezultatul noii clasific |ri este comparat cu
clasificarea real|.
Testarea clasificatorului poate s | conduc | la o clasificare corect| a unor obiecte din e antionul analizat i la o clasificare
incorect| a altor obiecte din acest e antion. Aceasta nseamn | c | utilizarea clasificatorului respectiv poate s | conduc | la situa ia
n care obiectele care apar in n mod real unei anumite clase s | fie clasificate fie n clasa corect|, fie incorect, n oricare din
celelalte clase.
Modul n care un clasificator asigur | clasificarea obiectelor cu apartenen | cunoscut| poate fi descris prin intermediul unei
matrici, numit| matricea corectitudinii clasific |rii sau, mai simplu, matricea clasific |rii, care con ine informa iile necesare
pentru a aprecia corectitudinea clasific |rii obiectelor.
Dac | vom considera un e antion format din T obiecte, care apar in claselor
, atunci matricea de clasificare
are forma din tabelul urm |tor.
Matricea clasific |rii
Tabelul 8.2
Clase de predic ie
Clase reale

Obiecte
de clasificat

...
...
...

...

...

...

...

...

...

...
Obiecte
clasificate
Un element

...

al matricii de clasificare arat| num |rul de obiecte apar innd n mod real clasei

tehnicilor de recunoa tere a formelor, sunt clasificate n clasa

i care, prin utilizarea

. Definind n acest fel elementele matricii de clasificare, rezult|

c | num |rul de obiecte clasificate corect este reprezentat de suma elementelor de pe diagonala principal | a matricii clasific |rii,
respectiv:
.
Similar, num |rul de obiecte clasificate incorect este reprezentat de suma elementelor aflate n afara diagonalei principale
a matricii clasific |rii, respectiv:
.
Suma valorilor dintr-o linie a matricii de clasificare reprezint| num |rul de obiecte din clasa de provenien | ce corespunde
liniei respective, indiferent de clasele n care au fost clasificate acestea. Astfel,
reprezint| num |rul de obiecte din clasa de
provenien |

, indiferent de clasa n care acestea au fost clasificate. n mod similar, suma valorilor dintr-o coloan | a matricii

de clasificare reprezint| num |rul de obiecte clasificate n clasa corespunz |toare coloanei, indiferent de clasa de provenien |
a obiectelor. Rezult| c |
reprezint| num |rul de obiecte clasificate n clasa
, indiferent de clasa de provenien | a acestora.
Pe baza informa iilor din matricea de clasificare pot fi defini i o serie de indicatori care caracterizeaz | corectitudinea
clasific |rii. Printre ace tia men ion |m:
80

gradul de clasificare corect|:


;
gradul de clasificare incorect|:
.
mpreun | cu ali indicatori specifici, cei doi indicatori definii anterior sunt folosii pentru a aprecia calitatea unui clasificator, adic | m |sura n care acesta reu e te s | detecteze n mod corect apartenen a obiectelor la clasele popula iei analizate. O
clasificare este cu att mai corect|, cu ct valoarea indicatorului
este mai mare.
Totalitatea activit|ilor desf |urate n contextul unui proces de recunoa tere a formelor, mpreun | cu mulimea de metode
i tehnici utilizate n scopul stabilirii apartenen ei formelor la anumite clase sau grupe, determin | conceptul cunoscut sub numele
de sistem de recunoa tere a formelor.

8.5 Sisteme de recunoatere a formelor


Complexitatea activit|ilor care apar n cadrul solu ion |rii oric |rei probleme de recunoa tere a formelor, succesiunea i
condiionarea fazelor care compun demersul logic ntreprins n cadrul acestor probleme, precum i func ionalitatea specific |
ce caracterizeaz | acest demers, confer | procesului de recunoa tere a formelor un pronun at caracter de sistem. Din acest motiv,
totalitatea activit|ilor implicate ntr-un proces de recunoa tere a formelor, ansamblul informa iilor manipulate n acest context
i mulimea procedurilor, algoritmilor, metodelor i tehnicilor utilizate n acest scop, sunt privite ca reprezentnd un sistem,
numit sistem de recunoa tere a formelor.
Ca sistem de prelucrare informa ional|, un sistem de recunoa tere a formelor este format dintr-o mulime de activit|i,
reguli, proceduri, metode i tehnici, care au ca scop general identificarea apartenen ei unui obiect sau unei forme la o anumit|
clas | bine determinat| din popula ia analizat|.
Func ionarea unui sistem de recunoa tere a formelor presupune existen a aprioric | a unor informa ii, care vor fi folosite
n procesul de clasificare. Aceste informa ii pot fi reprezentate, dup | caz, fie de o ntreag | popula ie de forme, fie numai de un
e antion de forme, extrase dintr-o popula ie de interes.
Intr |rile unui sistem de recunoa tere a formelor sunt reprezentate de vectorii de propriet|i ale obiectelor, adic | de formele
propriu-zise, iar ie irile sistemului de recunoa tere a formelor sunt reprezentate de clasele de apartenen | ale formelor de intrare,
clase identificate cu ajutorul unor reguli specifice de clasificare. Vectorii de propriet|i ale obiectelor sunt rezultatul unor
procese de observare, m |surare i nregistrare a nivelurilor caracteristicilor mul imilor sau submulimilor de obiecte, iar
informa iile privind apartenen a obiectelor la anumite clase sau categorii sunt rezultatul unor procese de evaluare complex |,
bazate pe utilizarea unor proceduri i instrumente specifice, de natur | statistico-matematic |.
Exist| dou | tipuri fundamentale de sisteme de recunoa tere a formelor: sisteme de recunoa tere necontrolat| i sisteme
de recunoa tere controlat|. Aceste dou | tipuri de sisteme de recunoa tere a formelor sunt determinate de scopurile urm |rite,
de natura informa iilor pe care le prelucreaz |, de specificitatea metodelor i intrumentelor utilizate, precum i de natura
rezultatelor ob inute cu ajutorul acestora.

8.5.1 Sisteme de recunoatere necontrolat|


Sistemele de recunoa tere necontrolat| a formelor sunt sistemele n cadrul c |rora nu se dispune de informa ii iniiale
referitoare la num |rul de clase i la apartenen a formelor la anumite clase, construirea claselor f|cndu-se progresiv, pe m |sura
cre terii num |rului de forme analizate, iar num |rul de clase posibile fiind stabilit doar n faza final| a procesului de
recunoa tere.
Caracteristica principal | a sistemelor de recunoa tere necontrolat| a formelor const | n faptul c | nu se cunoa te
apartenen a obiectelor analizate la o clas | sau alta. Aceasta nseamn | c |, n mod implicit, nu se cunoa te cu precizie nici
num |rul de clase. n leg |tur | cu aceast | ultim | afirma ie, consider |m c | este necesar s| facem urm |toarea precizare important |:
o serie de algoritmi de clasificare necontrolat|, cum ar fi de exemplu algoritmii de partiionare, presupun fixarea aprioric | a
num |rului de clase n care vor fi mp |r ite obiectele analizate. Aceasta nu nseamn | ns | c | este cunoscut, n mod real, i
num |rul de clase, ci doar c | se face o presupunere cu privire la acest num |r.
Principiile, procedurile, metodele i tehnicile apar innd sistemelor de recunoa tere necontrolat| a formelor sunt cunoscute
sub denumirea general| de tehnici de clasificare, clasificare nesupervizat| sau analiz| cluster.
Analiza cluster este o tehnic | de clasificare caracterizat| prin faptul c | afectarea formelor sau obiectelor n clustere sau
grupe se face progresiv i f|r | a cunoa te aprioric num |rul de clase, n func ie de verificarea a dou | criterii fundamentale:
a. obiectele sau formele clasificate n fiecare clas | s | fie ct mai similare din punct de vedere al anumitor caracteristici;
b. obiectele clasificate ntr-o clas | s | se diferen ieze ct mai mult de obiectele clasificate n oricare din celelalte clase.
Primul criteriu de afectare a formelor pe clase cere ca fiecare clas | s | fie ct mai omogen | n raport cu caracteristicile luate
n considerare pentru clasificarea obiectelor. Cel de-al doilea criteriu cere ca fiecare clas | s | difere ct mai mult din punct de
vedere al caracteristicilor de clasificare.
n func ie de caracteristicile procedurilor pe care le utilizeaz |, de ipotezele iniiale pe care se bazeaz | i de natura
rezultatelor ob inute cu ajutorul lor, metodele de analiz | cluster se mpart n dou | mari categorii: metode de clusterizare
81

ierarhic | i metode de clasificare prin partiionare sau metode iterative.


Prima categorie include metodele de clusterizare prin agregare i metodele de clusterizare prin divizare. Pentru fiecare
dintre cele dou | tipuri de clusterizare exist| mai multe proceduri specifice, ntre care men ion |m: metoda agreg |rii simple,
metoda agreg |rii complete, metoda agreg |rii medii, metoda lui Ward etc.
Cea de-a doua categorie include o serie de algoritmi, ntre care men ion |m: algoritmul celor K-medii, algoritmul celor Kmedoizi, algoritmul CLARA, algoritmul fuzzy etc.
n ceea ce prive te rezultatele furnizate de sistemele de recunoa tere necontrolat| a formelor, preciz |m c | ie irile acestor
sisteme nu se reduc, de regul|, la o unic | i simpl | configurare a obiectelor analizate pe clase, ci includ mai multe variante de
configurare a obiectelor pe clase, variante con inute ntr-o entitate informa ional| numit| structur | cluster sau ierarhie cluster.
Ierahia cluster ofer | posibilitatea cercet|torului de a alege o anumit| configurare a obiectelor pe clase, ceea ce nseamn |,
implicit, i alegerea unui anumit num |r de clase.
Sistemele de recunoa tere necontrolat| sunt utilizate mai mult pentru scopuri de sistematizare, grupare i sintetizare
informa ional|, n situa iile n care sunt analizate cantit|i foarte mari de date i aceste date se caracterizeaz | printr-un grad
ridicat de eterogenitate. n acest sens, tehnicile de recunoa tere necontrolat| a formelor sunt foarte utile i eficiente n activit|ile
de analiz | preliminar| a datelor. Utilizarea analizei cluster n aceast | faz | a analizei datelor este important | deoarece ea permite
organizarea mai eficient | a datelor eterogene. Reg |sirea informa iilor n cadrul masivelor de date structurate cu ajutorul
tehnicilor de analiz | cluster devine mult mai u oar |, iar datele pot fi interpretate mult mai consistent.

8.5.2 Sisteme de recunoatere controlat|


Sistemele de recunoa tere controlat| a formelor sunt acele sisteme n cadrul c |rora se presupune existen a aprioric | a unui
num |r dat de clase i a unui set de forme, numite prototipuri sau referin e, a c |ror apartenen | la aceste clase este cunoscut|.
Acest set de forme este reprezentat de e antionul de obiecte extrase din popula ia supus | studiului, e antion cunoscut i sub
numele de set de formare sau set de nv |are.
Definiie: Setul de formare sau setul de nv |are este un e antion de forme extrase din popula ia studiat|, forme a c |ror
apartenen | la clasele popula iei este cunoscut| i pe baza c |rora sunt deduse criteriile formale de clasificare.
n cadrul sistemelor de recunoa tere controlat| a formelor, datele reprezentate de setul de formare includ att informa ii
referitoare la propriet|ile esen iale ale obiectelor supuse analizei, ct i informa ii referitoare la apartenen a acestor obiecte la
clasele existente. Pe baza acestor informa ii iniiale, se deduc regulile i criteriile de decizie pentru parti ionarea sub form | de
regiuni sau clase a mulimii de obiecte supus | studiului sau a spa iului n care iau valori caracteristicile obiectelor.
De fapt, n cazul tehnicilor de acest fel informa iile con inute n setul de formare sunt folosite pentru a face inferen e cu
privire la mp |r irea popula iei totale pe clase. Mai mult dect att, din aplicarea tehnicilor de clasificare controlat| rezult| i
un set de reguli i criterii formale de clasificare, adic | un clasificator. Aceste reguli i criterii sunt folosite, n continuare, pentru
clasificarea unor noi forme neclasificate nc |, forme a c |ror apartenen | este necunoscut|, adic | pentru a face predic ii cu privire
la apartenen a noilor forme.
n mod uzual, setul iniial de forme este mp |r it n dou | subseturi folosite n scopuri diferite: primul subset este numit set
de formare i con ine acele forme utilizate pentru deducerea regulilor i criteriilor de clasificare, adic | pentru construirea
clasificatorului propriu-zis; al doilea subset este numit set de predic ie i con ine acele forme utilizate pentru testarea
clasificatorului construit pe baza setului de formare.
Definiie: Sistemul de recunoa tere controlat| a formelor reprezint| totalitatea activit|ilor i procedurilor care au ca
scop deducerea unor criterii de partajare a unei popula ii de entit|i informa ionale (obiecte sau variabile), sub forma unui
num |r cunoscut de clase, pe baza cunoa terii caracteristicilor i a apartenen ei elementelor unui e antion provenit din
respectiva popula ie.
Spre deosebire de tehnicile de clasificare necontrolat|, care se bazeaz |, n principal, pe utilizarea conceptului de distan |,
elementul fundamental al tehnicilor de clasificare controlat| este un model formal, numit clasificator. n cazul analizei
discriminante, clasificatorul este reprezentat de func iile discriminat sau de func iile de clasificare.

8.6 Analiza cluster


Preocup |rile legate de metodele i tehnicile de analiz | cluster dateaz | de peste o jum |tate de secol. Primele i cele mai
sistematice studii dedicate acestui domeniu sunt reprezentate de lucr|rile elaborate de Sokal i Sneath n anul 1963 i de Lance
i W illiams n anul 1967. Ulterior, preocup |rile tiin ifice din domeniul analizei cluster s-au nmulit aproape exponen ial i s-au
diversificat extrem de mult.
n multitudinea preocup |rilor i lucr|rilor dedicate domeniului analizei cluster pot fi identificate dou | importante curente
tiin ifice, reprezentate de coala american | i de coala francez |. Printre cei mai de seam | reprezentan i ai colii franceze se
num |r |: J. P. Benzecri, M. Jambu, L. Lebart, A. Morineau, B. Escofier, G. Saporta i M. Bardos.
Analiza cluster are ca scop c |utarea i identificarea de clase, grupe sau clustere n cadrul unor mulimi de obiecte sau
forme, astfel nct elementele care apar in aceleia i clase s | fie ct mai asem |n |toare, iar elementele care apar in la clase diferite
s | fie ct mai deosebite ntre ele. Altfel spus, analiza cluster este o modalitate de examinare a similarit|ilor i disimilarit|ilor
dintre obiectele apar innd unei anumite mulimi, n scopul grup |rii acestor obiecte sub forma unor clase distincte ntre ele i
omogene n interior.

82

Aceasta nseamn | c | n toate situa iile, criteriul general de clasificare este, de fapt, un criteriu combinat, care poate fi
formulat sub urm |toarea form |:
Criteriu general de clasificare: Clasificarea obiectelor n clase se face n a a fel nct s| se asigure o variabilitate
minim | n interiorul claselor i o variabilitate maxim | ntre clase.
Termenul de analiz| cluster a fost utilizat pentru prima oar | n anul 1939, de c |tre R. C. Tyron, n lucrarea Cluster
Analysis. Acest termen este folosit n prezent ca nume generic pentru o mulime variat| de proceduri i algoritmi de clasificare
de tip necontrolat.
Prin intermediul analizei cluster fiecare obiect din mulimea analizat| este atribuit unei singure clase, iar mul imea claselor
este o mulime discret| i neordonabil|. Clasele rezultate n urma utiliz |rii analizei cluster au o semnifica ie concret| i
generalizatoare, pe baza c |reia pot fi efectuate o serie de interpret|ri i pot fi formulate o serie de concluzii importante pentru
procesul de cunoa tere.
Clasele sau grupele sub forma c |rora se structureaz | mul imile de obiecte se mai numesc i clustere. Un cluster este o
submulime format| din obiecte similare, adic | din obiecte care sunt suficient de asem |n |toare ntre ele din punct de vedere
al caracteristicilor care le definesc.
Definiie: Clusterul este o submulime format| din obiecte care au proprietatea c | gradul de disimilaritate dintre oricare
dou | obiecte apar innd clusterului este mai mic dect gradul de disimilaritate dintre orice obiect care apar ine clusterului
i orice obiect care nu apar ine clusterului respectiv.
Clusterul poate fi privit i ca reprezentnd o regiune a unui spa iu multidimensional, caracterizat| printr-o densitate relativ
mare de puncte sau de obiecte. De exemplu, n cazul aplica iilor informatice, clusterul poate s | fie reprezentat de o submulime
de documente de acela i tip sau cu con inut asem |n |tor. Aceste documente pot fi programe surs |, pagini W EB, fiiere de tip
text, fiiere HTML etc. Un astfel de document poate fi privit ca un punct dintr-un spa iu multidimensional, n care fiecare
dimensiune a spa iului este asociat| cu un anumit cuvnt. Coordonatele care definesc pozi ia unui document n acest spa iu sunt
reprezentate de frecven ele cu care apar diferitele cuvinte n cadrul documentului.
Din punct de vedere geometric, ca mulimi de puncte dintr-un anumit spa iu, clusterele pot avea forme foarte diferite, mai
mult sau mai pu in regulate. Astfel, forma clusterelor poate s| fie de tip convex sau concav, de tip compact sau de tip alungit
etc. n figura urm |toare sunt ilustrate cteva dintre formele posibile ale clusterelor, pentru cazul particular al obiectelor de tip
bidimensional.

Figura 8.3: Forme posibile ale clusterelor de obiecte bidimensionale


Tipurile de forme pe care le pot avea clusterele n realitate sunt foarte importante n analiza cluster, deoarece att eficien a
procesului de clasificare, ct i calitatea solu iilor, depind foarte mult de formele clusterelor, mai ales n cazul unor algoritmi
de clasificare ierarhic | prin agregare.
De regul|, analizele de tip cluster reprezint| proceduri de clasificare de tip necontrolat, n care nu este cunoscut| aprioric
nici apartenen a anumitor obiecte la anumite clase, nici num |rul de clase posibile. Num |rul de clase sau clustere este variabil
i este stabilit concomitent cu activitatea de clasificare propriu-zis|.
Definiie: Analiza cluster poate fi definit| ca reprezentnd o mulime de principii, metode i algoritmi de clasificare,
avnd ca scop organizarea datelor sub forma unor structuri informa ionale semnificative, relevante.
Analiza cluster este o analiz| explorativ |, de tip multidimensional, care are ca scop gruparea unor entit|i informa ionale,
cu natur | fizic | sau abstract|, n clase sau clustere alc |tuite din entit|i inform ionale cu grad ridicat de similaritate.
Din punct de vedere concret, efectuarea unei clasific |ri cu ajutorul metodelor i tehnicilor de analiz | cluster const | n
ob inerea unor solu ii cluster sau a unor partiii, reprezentate de o mulime de clase sau clustere notate cu
, care
verific | propriet|ile men ionate anterior. n cazul anumitor metode de clasificare, rezultatele clasific |rii sunt reprezentate de
solu ii cluster unice, n timp ce n cazul altor metode de clasificare, cum ar fi metodele de clasificare ierarhic | de tip
aglomerativ, sunt reprezentate de mulimi de solu ii cluster, numite ierarhii de solu ii cluster sau ierarhii de partiii. n aceste
situa ii, este necesar s| se aleag | din mulimea de solu ii cluster, adic | din ierarhia de parti ii, o singur | solu ie cluster sau o
singur | parti ie.
De i alegerea unei anumite parti ii se face, n principal, n func ie de scopurile urm |rite n analiz |, pentru a se ob ine o
clasificare consistent | i semnificativ |, este necesar alegerea parti iei s| se bazeze pe o evaluare ct mai riguroas | a calit|ii
tuturor parti iilor care alc |tuiesc ierarhia cluster.

83

Din punct de vedere strict teoretic, analiza cluster poate fi privit| ca reprezentnd o modalitate specific | de construire a
uneia sau a mai multor partiii pe mulimea obiectelor analizate. Orice parti ie de acest fel define te o solu ie cluster, adic | un
anumit mod de grupare pe clase a obiectelor mul imii supuse studiului.
Din punct de vedere strict matematic, analiza cluster poate fi privit| ca o modalitate de alegere a celei mai adecvate partiii
sau submulimi din cadrul familiei de p |r i a mulimii de obiecte analizate.
n analiza cluster, ierarhiile cluster sunt formate dintr-un num |r de T solu ii cluster, fiecare solu ie con innd clustere din
ce n ce mai mari, respectiv clustere cu niveluri de agregare din ce n ce mai ridicate. O ierarhie cluster are o structur | de forma
urm |toare:

unde T este num |rul de obiecte, iar

este num |rul de clustere din solu ia cluster de la nivelul i.

n cazul metodelor ierarhice aglomerative, num |rul de clustere din prima parti ie este egal cu num |rul de obiecte, adic |
. De asemenea, num |rul de clustere dintr-o parti ie de la un anumit nivel este mai mic cu 1 dect num |rul de clustere din
parti ia de la nivelul inferior i mai mare cu 1 dect num |rul de clustere din parti ia de la nivelul superior, respectiv:
.
Avnd n vedere c | prima parti ie ob inut| dintr-o clasificare ierarhic | aglomerativ | este solu ie cluster de tip banal,
reprezentat| chiar de lista obiectelor supuse clasific |rii, rezult| c | num |rul de parti ii propriu-zise, ob inute ca solu ii ale
clasific |rilor de acest tip, este egal cu T-1.
Analiza cluster se deosebe te n mod fundamental de procedurile de natur | statistic |, cum ar fi cele care au ca scop
verificarea semnifica iei, prin faptul c | ea nu se bazeaz | i nu presupune ndeplinirea aprioric | a nici unei ipoteze specifice. n
consecin |, prin esen a sa, analiza cluster constituie un important i eficient instrument de analiz| exploratorie.
Se poate spune c | scopul general al analizelor de tip cluster este acela de creare a a a-numitelor taxonomii sau tipologii.
Construc ia tipologiilor este bazat| pe analiza asem |n |rilor i deosebirilor existente ntre obiectele unei mulimi date.
Necesitatea de a construi tipologii apare n cele mai diverse domenii de activitate, existen a tipologiilor oferind largi
posibilit|i pentru analiza i interpretarea fenomenelor apar innd acestor domenii.
De i folosirea tehnicilor de analiz | cluster nu este specific | doar pentru anumite domenii de activitate, totu i, utilizarea
cea mai frecvent | a acestora este ntlnit | n domeniul marketingului, n investiga iile de natur | psihosocial| sau n evalu |rile
econo-micosociale la nivel teritorial.
n domeniul marketingului, se deta eaz | aplica iile tehnicilor de analiz | cluster n studierea comportamentului
consumatorilor. Aceste aplica ii vizeaz | evaluarea anselor pe care poate s | le aib | lansarea unui produs nou, identificarea unor
noi pie e, modalit|ile de segmentare a pie ii sau identificarea poziion |rii pe pia | a produselor diferiilor produc |tori.
Posibilitatea de a deduce tipologii specifice pe mulimea clienilor unei firme este deosebit de important | pentru fundamentarea
i stabilirea politicilor comerciale ale firmei.
n cazul determin |rii pozi ion |rii pe pia | a diferitelor m |rci ale unui produs, analiza cluster este folosit| pentru a clasifica
m |rcile de fabrica ie, n func ie de similitudinea sau disimilitudinea percep iilor pe care le manifest | consumatorii fa | de aceste
m |rci. Pe baza modului n care se clasific | m |rcile i a caracteristicilor consumatorilor care i manifest | preferin ele, un
produc |tor poate identifica m |rcile concurente i tr |s |turile specifice ale categoriilor de consumatori care prefer | produsul
acestui produc |tor. De exemplu, m |rcile aflate n aceea i clas| cu marca unui produc |tor sunt m |rci concurente, deoarece ele
se adreseaz | aceluia i segment de consumatori.
Tehnicile specifice analizei cluster sunt deosebit de necesare i utile n orice proces de analiz | a datelor, nu numai n cele
care vizeaz | n mod direct necesit |i legate de clasificare. De exemplu, utilizarea acestor tehnici este extrem de important |
pentru acele procese de analiz | n care cantitatea de informa ie ce trebuie prelucrat| este att de mare i variat| nct extragerea
a ceea ce este legic, esen ial i semnificativ n aceast| cantitate informa ional |, devine imposibil| dac | nu sunt folosite
instrumente corespunz |toare de sintetizare i structurare a informa iei brute. n acest context, tehnicile de analiz | cluster sunt
utilizate, cu prec |dere, pentru sistematizarea informa iilor supuse analizei, activitate care este strict necesar | n faza de analiz |
preliminar| a datelor.
Identificarea pe o mare cantitate de informa ii brute a unor categorii, clase sau grupe informa ionale reprezint| unul dintre
scopurile generale i, n acela i timp, principale ale oric |rei analize cluster.
n mod sintetic, efectuarea unei analize cluster, avnd ca scop clasificarea unei mulimi de obiecte, cuprinde urm |toarele
etape:
alegerea caracteristicilor n func ie de care se va face clasificarea;
alegerea tipului de m |sur | pentru evaluarea proximit|ii dintre obiecte;
stabilirea regulilor de formare a claselor sau clusterelor;
construirea claselor, adic | ncadrarea obiectelor n clase;
verificarea consisten ei i semnifica iei clasific |rii;
84

alegerea unui num |r optimal de clustere, n func ie de natura problemei de clasificare i de scopurile care se
urm |resc;
interpretarea semnifica iei clusterelor;
Rezultatele unei analize cluster sunt reprezentate fie de o singur | solu ie cluster, fie de ierarhii cluster, care con in diferite
modalit|i de configurare a obiectelor pe clase, adic | mai multe solu ii cluster. n cel de-al doilea caz, pe baza efectu |rii unei
t|ieturi n ierarhia cluster, utilizatorul are posibilitatea alegerii unei configura ii a obiectelor pe un anumit num |r dorit de clase.
Pe baza rezultatelor ob inute n urma efectu |rii unei analize cluster, pot fi deduse anumite legit|i care guverneaz | evolu ia
unor popula ii de fenomene, pot fi identificate anumite principii utile pentru procesul de cunoa tere sau pot fi formulate o serie
de concluzii tiin ifice cu caracter de generalitate. n acest sens, analiza cluster i rezultatele ob inute pe baza acesteia pot
contribui la:
definirea unor scheme de clasificare formal| i a unor tipologii, pe baza c |rora realit|ile complexe pot fi mai
bine cunoscute i n elese;
identificarea unor modele statistico-matematice cu ajutorul c |rora mulimi complexe i eterogene de fenomene
i procese pot fi sintetizate i reprezentate sub o form | simplificat| i inteligibil|;
definirea mai corect| i mai complet| a caracteristicilor fundamentale ale unor popula ii de fenomene i
procese;
deducerea unor m |suri numerice adecvate pentru caracterizarea dimensiunilor popula iilor de fenomene i
pentru eviden ierea modific |rilor care au loc n nivelul i structura acestora;
identificarea unor entit|i individuale care sunt reprezentative pentru clase i categorii complexe de fenomene
i procese.
Din cele de mai sus, rezult| c | analiza cluster poate fi privit |, n general, ca un instrument care are ca scop reducerea unor
mulimi de obiecte, sau chiar de variabile, la un num |r mai restrns de entit|i informa ionale, care sunt clasele sau clusterele.
Din acest punct de vedere, se poate face o analogie ntre analiza cluster i analiza componentelor principale, cu men iunea c |
n analiza componentelor principale reducerea vizeaz |, de regul|, variabilele.
n sensul s|u obinuit, ca ansamblu de metode i tehnici de clasificare a obiectelor, analiza cluster este o analiz | efectuat|
n spa iul variabilelor. ntr-adev |r, cele mai multe utiliz |ri ale tehnicilor de analiz | cluster sunt cele care au ca scop clasificarea
obiectelor, i nu clasificarea variabilelor.
Exist| ns | i situa ii n care analiza cluster este folosit| pentru clasificarea variabilelor care caracterizeaz | obiectele, adic |
situa ii n care analiza este efectuat| n spa iul obiectelor. n aceste situa ii, analiza cluster poate servi ca instrument de agregare
a caracteristicilor obiectelor, sub forma unor caracteristici generale i cu relevan | ridicat| din punct de vedere al posibilit|ilor
de interpretare.
Remarc |: Analiza cluster poate fi utilizat| att pentru clasificarea obiectelor, ct i pentru clasificarea variabilelor care
definesc obiectele.
Spre deosebire de utilizarea analizei cluster pentru clasificarea obiectelor, situa ie n care specificitatea este reprezentat|
de faptul c | distan ele sunt evaluate pentru perechi de obiecte, n cazul utiliz |rii analizei cluster pentru clasificarea variabilelor,
evaluarea distan elor se face pentru perechi de variabile.

8.6.1 Tipul informaiilor primare utilizate n analiza cluster


Problema cea mai important | a oric |rui tip de analiz | cluster este aceea a modului n care poate fi m |surat| proximitatea,
respectiv gradul de apropiere sau gradul de dep |rtare, dintre obiecte i dintre clustere.
Orice proces de clasificare a obiectelor este definit n raport cu o anumit| m |sur | a gradului de apropiere sau de dep |rtare
dintre obiectele analizate, indiferent de metoda sau algoritmul pe care se bazeaz | acest proces. Aceast | m |sur | poate fi
reprezentat| fie de un indicator de similaritate, fie de un indicator de disimilaritate. Fiecare dintre cele dou | categorii de
indicatori va fi definit| i analizat| n continuare.
n general, m |surarea gradului de proximitate dintre obiecte se face cu ajutorul a dou | grupe de indicatori, cunoscute sub
numele de indicatori de similaritate i indicatori de disimilaritate. Indicatorii de similaritate i indicatorii de disimilaritate pot
fi utiliza i att n analizele cluster efectuate pe obiecte, ct i n analizele cluster efectuate pe variabile.
Indicatorii de similaritate i de disimilaritate pot fi utiliza i ca baz | informa ional| n orice proces de clasificare datorit |
faptului c | ei pot induce o rela ie de ordine pe mulimea perechilor de obiecte sau de variabile i, n consecin |, pot contribui
la clasificarea obiectelor sau variabilelor.
Cu ct valoarea unui indicator de similaritate este mai mare, cu att obiectele sau variabilele pentru care acest indicator
se evalueaz | pot fi considerate a fi mai asem |n |toare, respectiv mai apropiate. De asemenea, o valoare foarte mic | a
indicatorului de similaritate eviden iaz | faptul c | cele dou | obiecte sau cele dou | variabile sunt mai dep |rtate ntre ele.
Indicatorii de disimilaritate sunt m |rimi numerice care exprim | ct de deosebite sau ct de dep |rtate sunt dou | obiecte
sau dou | variabile. Indicatorii de disimilaritate se mai numesc i indicatori sau coeficien i de deosebire sau de distan are a
obiectelor sau variabilelor. Cu ct valoarea unui indicator de disimilaritate este mai mare, cu att cele dou | obiecte sau cele dou |
variabile pentru care se calculeaz | sunt mai diferite, adic | mai distan ate ntre ele.
Cea mai important | i cea mai utilizat| categorie de indicatori de disimilaritate este reprezentat| de indicatorii de tip
distan |. De multe ori ns |, conceptul de distan | este utilizat i pentru a desemna indicatori de similaritate, cu toate c | ace tia
exprim | gradul de apropiere dintre dou | entit|i informa ionale.
Spre deosebire de indicatorii de similaritate, care pot fi cel mai bine utiliza i pentru exprimarea gradului de proximitate
85

dintre obiectele cu caracteristici de tip calitativ, indicatorii de disimilaritate sunt m |rimi mai potrivite pentru m |surarea
proximit|ii n cazul obiectelor cu caracteristici de tip cantitativ.
n leg |tur | cu aceast| deosebire, facem precizarea c | exist| situa ii n care indicatorii de similaritate pot fi utiliza i nu numai
n cazul variabilelor de tip calitativ, ci i n cazul variabilelor de tip cantitativ. Acest lucru este posibil n situa iile n care
variabilele de tip cantitativ sunt supuse unor transform |ri adecvate.
Cu toate c | indicatorii de similaritate i indicatorii de disimilaritate sunt privii, de regul|, ca fiind dou | categorii distincte,
putem face afirma ia c | ambele categorii exprim |, ntr-un anumit fel, dou | fa ete ale aceluia i lucru. Mai mult dect att, n
anumite condiii, indicatorii de similaritate pot fi transforma i n indicatori de disimilaritate. Diferen ele dintre aceste categorii
de indicatori in de natura variabilelor n raport cu care sunt evalua i i de modalit|ile de calcul specifice fiec |rui tip de
indicator.
Informa iile utilizate, n ultim | instan |, n analiza cluster sunt reprezentate sub forma unor matrici simetrice de tip
obiecteobiecte, numite, dup | caz, matrici de proximitate, matrici de similaritate, matrici de asociere, matrici de inciden |,
matrici de disimilaritate sau matrici de distan e. Att liniile, ct i coloanele matricilor de acest fel se refer | la obiectele
analizate, astfel nct num |rul lor este egal cu num |rul de obiecte supuse analizei. Elementele acestor matrici sunt m |rimi
numerice care exprim | proximitatea dintre perechile de obiecte care eticheteaz | rndurile i coloanele matricilor.
n cazul particular al clasific |rii variabilelor, informa iile utilizate efectiv n analiz | sunt reprezentate sub forma unor
matrici de tipul variabilevariabile. Elementele acestor matrici sunt m |rimi numerice care exprim | gradul de proximitate dintre
perechile de variabile aflate n liniile i coloanele acestor matrici.
Rezult| c | matricile de proximitate con in indicatori de disimilaritate (distan e) sau indicatori de similaritate pentru toate
perechile posibile de obiecte sau de variabile. n construirea matricilor de proximitate pot fi utilizate, n func ie de propriet|ile
obiectelor la care se refer |, att variabile de tip cantitativ, ct i variabile de tip calitativ.
Tipurile indicatorilor de similaritate sau de disimilaritate utiliza i n evaluarea proximit|ilor trebuie s | fie adecvate i
compatibile cu natura datelor existente. De asemenea, n evaluarea proximit|ilor trebuie s | se ia n considerare toate variabilele
care au o relevan | ridicat| din punct de vedere al clasific |rii. Omiterea unor variabile din calculul proximit|ilor poate conduce
la ob inerea unor solu ii inconsistente.
Datele din matricile de proximitate pot fi reprezentate sub forma unui graf specific, care eviden iaz | pozi ionarea spa ial|
relativ | a obiectelor sau a variabilelor i care ofer | o imagine sugestiv |, de ansamblu, asupra distan |rii respectivelor entit|i
informa ionale.
Baza informa ional| pentru determinarea matricilor de proximitate o reprezint| a a-numitele matrici de observa ii, care
sunt matrici de tipul obiectevariabile sau matrici de tipul variabileobiecte, n func ie de tipul analizei efectuate. n primul
caz, rndurile matricilor de observa ii reprezint| obiectele analizate, iar coloanele acestor matrici reprezint| caracteristicile
re inute n analiz |, adic | variabilele descriptor. n cel de-al doilea caz, interpret|rile rndurilor i coloanelor sunt inversate.
Entit|ile informa ionale supuse procesului de clasificare cu ajutorul metodelor i tehnicilor de analiz | cluster sunt
reprezentate de obiecte sau variabile. Obiectele implicate ntr-o analiz | cluster se mai numesc indivizi, observa ii, articole sau
nregistr |ri. Din punct de vedere al modului de reprezentare extern |, mulimile de informa ii referitoare la aceste entit|i sunt
organizate sub forma unor fiiere sau baze de date. Fiecare nregistrare din cadrul unui fiier sau unei baze de date define te
un anumit obiect. De obicei, n analiza cluster se presupune c | toate obiectele sunt caracterizate prin intermediul aceleia i
mulimi de variabile descriptor. Variabilele descriptor utilizate n analiza cluster pot s| fie de acela i tip, cantitativ sau calitativ,
sau pot s| fie de tipuri diferite. n fiecare dintre cele dou | cazuri, evaluarea gradului de proximitate dintre obiecte se face n mod
diferit.
Cele mai mari probleme apar n cazul n care variabilele descriptor sunt de tipuri diferite, deoarece n acest caz proximit|ile
par iale, evaluate n raport cu variabile diferite, au natur | incompatibil| i nu pot fi agregate n mod direct n scopul ob inerii
unui indicator de proximitate la nivelul ansamblului de variabile. O astfel de situa ie apare, de exemplu, cnd unele variabile
sunt de tip interval sau raport, iar altele sunt de tip nominal. A a cum o s | vedem n cadrul paragrafului 10.3.3.4, situa iile de
acest fel impun utilizarea unor proceduri specifice de construire a indicatorilor de proximitate.
Matricile de observa ii pot con ine fie rezultatele m |sur |torilor directe, efectuate asupra variabilelor originale, fie
rezultatele ob inute n urma unor transform |ri specifice, efectuate asupra variabilelor originale. M |rimile din cea de-a doua
categorie sunt reprezentate de scorurile componentelor principale sau de scorurile factorilor i se ob in prin efectuarea, pe
observa iile originale existente, a unei analize a componentelor principale sau a unei analize factoriale.
n analiza cluster, matricile de observa ii con in informa ii cu caracter complet, adic | informa ii referitoare la ntreaga
mulime de obiecte supuse clasific |rii. Spre deosebire de aceasta, n cazul analizei discriminante informa iile con inute n
matricea de observa ii sunt informa ii cu caracter par ial, referitoare la un e antion de obiecte extrase din popula ia de obiecte
supus | analizei.

8.6.2 Evaluarea distanelor dintre obiecte i tipuri de distane


Prin natura lor numeric |, variabilele de tip cantitativ, adic | variabilele m |surate pe scalele de tip raport, interval i,
eventual, ordinal, permit o definire mai natural| a conceptului de distan |. Pentru variabilele de tip nominal, inclusiv variabilele
de tip binar, distan ele se calculeaz | ntr-un mod specific, compatibil cu natura acestor variabile.
Pentru evaluarea disimilarit|ilor dintre obiectele ale c |ror caracteristici sunt de tip cantitativ sau dintre variabile de tip cantitativ, pot fi folosite mai multe tipuri de distan e, cum ar fi: distan a Euclidian | (simpl |, ponderat| sau p |trat|), distan a Manhattan, distan a Cebev, distan a Minkovski, distan a Camberra, distan a Mahalanobis, distan a Pearson, distan a Jambu etc.
86

Distana Euclidian|
Distan a Euclidian |, care mai este cunoscut| i sub numele de norm | de tip

, este distan a cea mai frecvent utilizat| n

problemele de analiz | cluster. Ea se calculeaz | ca r |d |cin | p |trat| a sumei p |tratelor diferen elor coordonatelor celor dou |
obiecte sau variabile pentru care se evalueaz | distan a.
Distan a Euclidian | m |soar | dep |rtarea dintre dou | obiecte sau dintre dou | variabile n linie dreapt| i este definit| sub
forma urm |toare:
.
Distan a Euclidian | exprim | proximitatea dintre obiecte ca distan | ntre dou | puncte din spa iul Euclidian, respectiv ca
distan | m |surat| n linie dreapt|. n acest sens, de exemplu, distan a dintre ora ul Bucure ti i ora ul New-York nu este o
distan | de tip Euclidian deoarece ea este exprimat | de-a lungul curburii sau rotunjimii globului p |mntesc, i nu n linie
dreapt|.

Distana Manhattan
Distan a Manhattan, numit| i distan | rectangular |, distan | City-Block sau norm | de tip

, se calculeaz | ca sum |

a valorilor absolute ale diferen elor coordonatelor celor dou | obiecte sau celor dou | variabile analizate i este definit| de
rela iile:
.
Deoarece diferen ele de coordonate utilizate n calculul s |u nu sunt amplificate printr-o ridicare la o putere, distan a
Manhattan este mai robust | n raport cu prezen a n date a valorilor aberante.
Distan a Manhattan poate fi calculat| i n varianta ponderat|, calculul f |cndu-se n mod similar cu cel al distan ei
Euclidiene ponderate. De asemenea, distan a Manhattan poate fi utilizat| n cazul n care obiectele au caracteristici care sunt
m |surate pe scala de tip interval i pe scala de tip raport.

Distana Cebev
Distan a Cebev, cunoscut| i sub numele de maxim al dimensiunilor sau norm | de tip

, este o distan | de tip valoare

absolut| i se determin | ca fiind valoarea maxim | a valorilor absolute ale diferen elor dintre coordonatele obiectelor sau
variabilelor, respectiv:
.
Distan a Cebev poate fi utilizat| atunci cnd se dore te ca dou | obiecte sau variabile s | apar| ca fiind diferite, dac | ele
difer | chiar i doar din punct de vedere al unei caracteristici, respectiv al unui obiect. n alte situa ii, nu este recomandabil s |
se foloseasc | acest tip de distan |.

Distana Mahalanobis
Distan a Mahalanobis este una dintre cele mai cunoscute, mai importante i mai frecvent utilizate distan e. Ea este o form |
generalizat| a conceptului de distan | i se calculeaz | sub formele urm |toare:
,
unde

sunt vectori coloan | reprezentnd liniile i i j din matricea de observa ii X,

sunt vectori coloan |

reprezentnd liniile p i q din matricea de observa ii Y, iar


este nota ia pentru inversa matricii de covarian |, matrice
calculat| n spa iul variabilelor - n primul caz, respectiv n spa iul observa iilor - n al doilea caz. Se poate observa c |, n cazul
n care matricea de covarian |
este egal| cu matricea unitate, distan a Mahalanobis se reduce la distan a Euclidian | p |trat|.
Distan a M ahalanobis reprezint| singurul tip de distan | care ia n considerare, ntr-o manier | complet|, gradul de
dispersare al mulimii de obiecte sau al mulimii de variabile analizate, precum i gradul de corelare al respectivelor entit|i
informa ionale. Utilizarea distan ei Mahalanobis este recomandat|, mai ales n situa iile n care variabilele care descriu obiectele
sunt corelate ntre ele. Distan a Mahalanobis este utilizat| i n cazul tehnicilor de clasificare controlat|, pe baza acestei distan e
fiind dezvoltat chiar un criteriu opera ional de discriminare.

8.6.3 Evaluarea distanelor dintre clustere


O problem | dificil| care apare n analiza cluster, este legat| de necesitatea evalu |rii distan elor dintre clase sau clustere.
Dificultatea acestei probleme este dat| de faptul c | distan ele dintre clase sau clustere sunt, de fapt, distan e ntre mulimi de
obiecte sau distan e ntre mulimi de variabile.
Problema evalu |rii distan elor dintre clustere apare n special n cazul analizei cluster de tip ierarhic, n care construirea
87

arborelui de clustere poate fi f|cut | pe baza comas |rii succesive sau diviz |rii succesive a clusterelor. Comasarea clusterelor este
numit| amalgamare sau agregare, iar divizarea clusterelor este numit| dezagregare.
Teoretic, procesul de agregare sau dezagregare succesiv | a clusterelor se bazeaz | pe definirea unei distan e limit| ntre
clustere, distan | numit| i prag de agregare, respectiv prag de dezagregare. n principiu, decizia de comasare a dou | clustere
sau de divizare a unui cluster este luat| numai dac | distan a dintre aceste clustere este mai mic |, respectiv mai mare dect
distan a limit| fixat|.
Dac | n cazul evalu |rii gradului de apropiere sau dep |rtare dintre dou | obiecte lucrurile sunt relativ simple, fiind suficient
s | se calculeze una din distan ele men ionate mai sus, n cazul n care este necesar a fi evaluat gradul de apropiere sau dep |rtare
dintre dou | clustere lucrurile devin ceva mai complicate i presupun existen a unei metode specifice de evaluare.
Distan a dintre dou | clustere este, de fapt, o distan | dintre dou | mulimi de puncte, adic | o distan | mai dificil de evaluat.
Ca distan | ntre dou | mulimi de puncte, distan a dintre dou | clustere poate fi m |surat| cu ajutorul uneia dintre mai multe
metode posibile.
Dintre metodele propuse pentru evaluarea distan elor dintre clustere men ion |m: metoda celor mai apropia i vecini, metoda
celor mai dep |rta i vecini, metoda distan ei medii ntre perechi, metoda centroidului i metoda lui Ward etc.

8.6.3.1 Metoda celor mai apropiai vecini


Metoda celor mai apropiai vecini evalueaz| distana dintre dou| clustere ca fiind distana minim| dintre toate perechile posibile de
forme din cele dou| clustere. Aceasta nseamn| c| distana dintre dou| clustere este m|surat| prin distana dintre cele mai apropiate obiecte
aparinnd celor dou| clase.
Definiie: Metoda celor mai apropia i vecini evalueaz | distan a dintre dou | clustere ca distan | ntre dou | obiecte, unul
din primul cluster, iar cel|lalt din cel de-al doilea cluster, care sunt cele mai apropiate ntre ele n sensul distan ei utilizate.
n figura urm|toare este vizualizat| distana dintre dou| clustere, evaluat| dup| metoda celor mai apropiai vecini.

Figura 8.4: Distan a dintre dou | clustere n cazul metodei celor mai
apropia i vecini

8.6.3.2 Metoda celor mai dep|rtai vecini


Metoda celor m ai dep |rta i vecini este metoda dup | care distan a dintre dou | clase este m |surat| prin distan a dintre cele
mai dep |rtate obiecte apar innd celor dou | clustere. Pe baza acestei metode, dou | clustere sunt considerate a fi mai apropiate
sau mai dep |rtate, n func ie de proximitatea dintre cele mai dep |rtate obiecte din cele dou | clustere.
Definiie: Metoda celor mai dep |rta i vecini evalueaz | distan a dintre dou | clustere ca distan | ntre dou | obiecte, unul
din primul cluster, iar cel|lalt din cel de-al doilea cluster, care sunt cel mai dep |rtate ntre ele n sensul distan ei utilizate.
Calculul distan ei dintre dou | clustere cu ajutorul metodei celor mai dep |rta i vecini se face pe baza datelor din matricea
distan elor dintre obiectele din cele dou | clustere, prin identificarea n aceast | matrice a elementului cu valoarea cea mai mare.

Figura 8.5: Distan a dintre dou | clustere n cazul metodei celor mai
dep |rta i vecini
Pentru evaluarea distan elor dintre obiectele cele mai dep |rtate din cele dou | clustere poate fi utilizat| oricare dintre
metodele cunoscute de calcul a distan elor dintre obiecte, n func ie de natura variabilelor care definesc obiectele supuse
clasific |rii.

8.6.3.3 Metoda distanei medii dintre perechi


Metoda distan ei medii dintre perechile de obiecte evalueaz | distan a dintre dou | clustere prin intermediul distan ei medii
dintre toate perechile posibile de obiecte care apar in celor dou | clustere.
88

Definiie: Metoda distan ei medii dintre perechi evalueaz | distan a dintre dou | clustere ca medie a distan elor dintre
oricare dou | obiecte care apar in celor dou | clustere, unul primului cluster, iar cel|lalt din celui de-al doilea cluster.
Evaluarea distan ei dintre dou | clustere cu ajutorul metodei distan ei medii ntre perechile de obiecte se face pe baza datelor
din matricea distan elor dintre obiectele din cele dou | clustere, calculnd media acestor distan e.
n figura urm |toare este sugerat| o interpretare geometric | a modului de calcul a distan ei dintre clustere cu ajutorul
metodei distan ei medii dintre perechi.

Figura 8.6: Ilustrarea grafic | a metodei distan ei medii dintre perechi


Ca i n cazul celorlalte dou | metode, pentru evaluarea distan elor dintre obiectele celor dou | clustere, poate fi utilizat|
oricare dintre metodele cunoscute de calcul al distan elor dintre obiecte.

8.6.3.4 Metoda centroidului


Metoda centroidului este metoda dup | care distan a dintre dou | clustere este m |surat| ca distan | ntre centroizii celor
dou | clustere. n acest fel, dou | clustere sunt considerate mai apropiate sau mai dep |rtate, n func ie de gradul de apropiere sau
de dep |rtare dintre centroizii lor.
Centroidul sau centrul de greutate al unui cluster reprezint| obiectul, real sau abstract, ale c |rui caracteristici au ca valori
chiar mediile caracteristicilor obiectelor care compun clusterul respectiv.
Definiie: Metoda centroidului evalueaz | distan a dintre dou | clustere ca distan | ntre centroizii celor dou | clustere.
Evaluarea distan ei dintre dou | clustere cu ajutorul metodei centroidului se face calculnd mai nti centroizii celor dou |
clustere, dup | care se evalueaz | distan a dintre clustere ca distan | ntre ace ti centroizi.
Figura urm |toare ilustreaz| interpretarea geometric | a calculului distan elor dintre clustere cu ajutorul metodei centroidului.
n aceast | figur |, centroizii celor dou | clustere sunt marca i prin cele dou | puncte de dimensiune mai mare.

Figura 8.7: Distan a dintre clustere n cazul metodei centroidului


Deoarece centroidul este vectorul mediilor corespunz |toare tuturor obiectelor dintr-un cluster, n calculul distan ei dintre
dou | clustere cu ajutorul metodei centroidului sunt luate n considerare, n mod implicit, toate obiectele din fiecare cluster.

8.6.3.5 Metoda lui Ward


Metoda lui Ward este o metod | de evaluare a distan ei dintre dou | clustere, care se bazeaz | pe maximizarea gradului de
omogenitate a clusterelor sau, ceea ce este acela i lucru, pe minimizarea variabilit|ii intracluster. De regul|, gradul de omogenitate a unui cluster se consider | a fi cu att mai mare, cu ct suma total| a p |tratelor abaterilor intracluster este mai mic |.
Elementul caracteristic al metodei lui W ard este reprezentat de faptul c | prin comasarea a dou | clustere se urm |re te
ob inerea unei omogenit|i maxime la nivelul tuturor clusterelor care apar in unei configura ii date a obiectelor pe clustere. n
acest sens, se poate spune c | distan a W ard dintre dou | clustere m |soar | variabilitatea intracluster cumulat|, pe care o induce
comasarea celor dou | clustere la nivelul configura iei cluster rezultate. n acest sens, distan a W ard poate fi definit| sub forma
urm |toare:
Definiie: Metoda lui Ward evalueaz | distan a dintre dou | clustere sum | total| a p |tratelor abaterilor la nivelul
configura iei cluster rezultate din comasarea celor dou | clustere pentru care se evalueaz | distan a.
Spre deosebire de alte metode de calcul a distan elor ntre clustere, distan a W ard ofer | o serie de avantaje. Aceste avantaje
decurg din faptul c | ea este singura dintre metodele de evaluare a distan elor dintre clustere, care exprim | distan ele din punct
de vedere al minimiz |rii variabilit|ii intracluster sau, ceea ce nseamn | acela i lucru, din punct de vedere al maximiz |rii
variabilit|ii intercluster.

89

8.6.4 Metode i tehnici de analiz| cluster


Analiza cluster are ca scop c |utarea i identificarea n datele supuse analizei a unor grupuri sau clustere, n func ie de
similarit|ile i disimilarit|ile dintre obiectele la care se refer | respectivele date.
Cea mai important | etap | din cadrul unei analize cluster este cea a form |rii clusterelor sau claselor. Algoritmii care pot
fi utiliza i pentru realizarea activit|ii de construire a clusterelor cunosc o mare varietate, care include algoritmi euristici,
algoritmi de optimizare i algoritmi fuzzy. Diferen ele dintre modul de construire a clusterelor dup | un algoritm sau altul, sunt
determinate, n principal, de natura metodei utilizate pentru evaluarea distan elor ntre clustere. Mai mult, chiar tipul analizei
cluster rezult| din natura algoritmului utilizat pentru construirea clusterelor.
Din punct de vedere al naturii lor, al modului de operare i al tipului de solu ii pe care le furnizeaz |, metodele de analiz |
cluster pot fi mp |r ite n dou | mari categorii: metode de tip ierarhic i metode de tip iterativ sau de partiionare.
Algoritmii sau metodele de tip ierarhic au ca scop producerea mai multor solu ii cluster, solu ii numite ierarhii cluster.
Caracteristica principal | a acestor algoritmi const | n faptul c | num |rul de clustere nu este cunoscut aprioric.
Remarc |: n cazul metodelor de clasificare ierarhic |, num |rul de clustere nu este cunoscut aprioric.
Exist| dou | categorii de algoritmi de clasificare ierarhic |: algoritmi de agregare i algoritmi de dezagregare.
Rezultatele furnizate de algoritmii de clasificare ierarhic | includ mai multe variante de clasificare a obiectelor, fiecare
variant | de clasificare con innd structuri cluster cu un num |r variabil de clustere. Structurile cluster ob inute cu ajutorul
algoritmilor de acest fel se numesc structuri cluster multinivel.
Remarc |: Algoritmii de clasificare ierarhic | furnizeaz | mai multe solu ii, de tip multinivel, care se numesc ierarhii
cluster i care difer | ntre ele prin num |rul de clustere pe care le includ i prin gradul de agregare al clusterelor.
Cea mai sintetic | solu ie a unei structuri cluster ob inute cu ajutorul metodelor de clasificare ierarhic | este format| dintr-un
singur cluster, care include toate obiectele analizate. Cea mai detaliat| solu ie a unei structuri cluster de acest fel include un
num |r maxim de clustere, egal cu num |rul de obiecte analizate, fiecare cluster con innd un singur obiect. Aceasta nseamn |
c | num |rul posibil de solu ii dintr-o structur | cluster ob inut | cu ajutorul algoritmilor ierarhici este mai mic cu unu dect
num |rul de obiecte supuse clasific |rii. Acest num |r este determinat de num |rul de nivele ierarhice ale solu iei i este dat de
rela ia urm |toare:
.
Alegerea dintre cele
solu ii ale unei structuri cluster a celei mai potrivite solu ii cluster r |mne la latitudinea
cercet|torului i se face, n principal, n func ie de obiectivele urm |rite n analiz |.
Algorimii sau metodele de tip iterativ au ca scop producerea unei structuri cluster format| dintr-o singur | solu ie cluster.
O astfel de structur | cluster se nume te structur | cluster uninivel i con ine o singur | cluster, care include un num |r fixat de
clustere.
Remarc |: Algoritmii de clasificare prin parti ionare furnizeaz | solu ii unice, adic | solu ii de tip uninivel.
Caracteristica principal | a algoritmilor de parti ionare este dat| de faptul c | num |rul de clustere este fixat aprioric de c |tre
analistul de informa ii. Algoritmii din aceast | categorie mai sunt cunoscu i i sub numele de algoritmi de partiionare.
Remarc |: n cazul metodelor de clasificare prin parti ionare, num |rul de clustere este cunoscut aprioric.
n func ie de natura criteriului utilizat n procesul propriu-zis de clasificare, metodele de analiz | cluster pot fi mp |r ite n
dou | categorii: metode euristice i metode algoritmice.
Metodele euristice includ procedurile de clasificare dezvoltatea pe baza unei anumite euristici. O euristic | este o modalitate
intuitiv | de solu ionare a unei anumite probleme particulare. Euristicile reprezint| seturi de reguli sau de recomand |ri cu caracter
general, deduse pe baza unor ra ionamente teoretice sau pe baza unor observa ii statistice. n general, conceptul de euristic | este
opus conceptului de algoritm i este utilizat pentru a defini metode i tehnici non-algoritmice.
Prin natura lor, metodele de clasificare ierarhic | sunt metode euristice. Astfel, metoda agreg |rii simple, metoda agreg |rii
complete, metoda agreg |rii medii, metoda centroidului sau metoda lui W ard, sunt metode de tip euristic.
Metodele algoritmice includ procedurile de clasificare de tip formal, bazate pe existen a unui anumit algoritm de solu ionare
a problemei. Un algoritm este o mulime de finit| i complet definit| de opera ii, pa i sau proceduri, a c |ror execu ie determin |
ob inerea unui anumit rezultat sau a unei anumite solu ii. Orice algoritm se compune din trei p |r i esen iale: ini ializarea,
procedura sau schema iterativ | i criteriul de oprire.
Deoarece includ toate componentele caracteristice unui algoritm, metodele de clasificare prin parti ionare sunt metode cu
natur | preponderent algoritmic |. Spre deosebire de aceste metode, cele trei componente ale unui algoritm nu se reg |sesc n mod
explicit i n cazul metodelor de clasificare ierarhic |.

8.6.4.1 Analiza cluster de tip ierarhic


Analiza cluster de tip ierarhic sau arborescent este o metod | de clasificare bazat| pe gruparea obiectelor pe baz | de
agregare succesiv | n clase din ce n ce mai largi de obiecte sau de dezagregare succesiv | n clase din ce n ce mai mici.
Ipoteza fundamental| a analizei cluster de tip ierarhic este aceea la nivelul mulimilor supuse studiului exist| mai multe
niveluri de structurare natural| a obiectelor pe grupe sau clase, eviden iindu-se o imbricare sau o includere, de tip arborescent,
a structurilor con inute la nivel latent n cadrul acestor mul imi.
Ipoteza de baz | a clasific |rii ierarhice: n cadrul mulimilor de obiecte analizate se diferen iaz | o multitudine de
structuri de tip latent, care sunt caracterizate printr-o imbricare de natur | arborescent|.
90

n cea mai mare parte a lor, algoritmii de clasificare ierahic | sunt algoritmi de tip euristic. Exist| ns | i o categorie aparte
de algoritmi de clasificare ierarhic |, reprezentat| de algoritmii de tip model formal, care genereaz | structurile cluster pe baza
maximiz |rii verosimilit|ii.
Rezultatul utiliz |rii analizei cluster de tip ierarhic l reprezint| o mulime de structuri particulare de clustere, numit| arbore
al clasific |rii sau arbore ierarhic.
Structurile cluster care alc |tuiesc arborerele de clasificare includ un num |r de clustere diferit. O solu ie cluster ce
corespunde unui nivel mai ridicat de agregare con ine un num |r de clustere mai mic cu 1 dect o solu ie cluster corespunz |toare
proximului nivel ierarhic inferior. Aceasta nseamn | c | structurile cluster de tip ierarhic sunt caracterizate prin nivele diferite
de agregare, cuprinse ntre un nivel minim i un nivel maxim.
Structura cluster cu cel mai nalt nivel de agregare este format | dintr-un singur cluster, care include toate obiectele supuse
clasific |rii. Structura cluster cu cel mai redus nivel de agregare este format| dintr-un num |r de clustere egal cu num |rul de
obiecte analizare, fiecare cluster incluznd un singur obiect.
Num |rul de clustere din dou | structuri cluster succesive difer | printr-o unitate, structura cluster cu nivel mai nalt de
agregare con innd cu un cluster mai pu in dect structura cluster precedent |.
Cu ct nivelul de agregare al structurilor cluster este mai ridicat, cu att similarit|ile dintre obiectele unui cluster sunt mai
reduse, adic | clusterele sunt mai eterogene. Acest lucru se explic | prin faptul c | un cluster de la un nivel de agregare mai nalt
con ine un num |r mai mare de obiecte dect un cluster de la un nivel de agregare mai redus.
n funcie de condiiile iniiale de la care se pornete n construirea structurilor cluster i de sensul n care se desf|oar| construirea
acestora, algoritmii de clasificare de tip ierarhic pot fi mp|rii n dou| mari categorii:
algoritmi de clasificare prin agregare, amalgamare sau combinare;
algoritmi de clasificare prin dezagregare sau divizare.
Algoritmii de dezagregare construiesc clusterele ntr-o manier| descendent|, pornind cu toate obiectele ntr-un singur cluster i
continund, prin divizarea succesiv| a acestuia, pn| la obinerea unor clustere care conin cte un singur obiect.
Algoritmii de agregare sau de amalgamare construiesc clustere ntr-o manier| ascendent|, pornind de la clustere care conin cte un
singur obiect i continund, prin comasare succesiv| a clusterelor, pn| la obinerea unui cluster care include toate obiectele.
n cazul procedurilor de clasificare prin agregare, n fiecare pas se comaseaz| ntr-un singur cluster fie dou| obiecte, fie un obiect i
un cluster, fie dou| clustere diferite. n fiecare etap| a procedurilor divizative, un cluster este divizat fie sub forma a dou| clustere, fie sub
forma unui cluster i unui obiect, fie sub forma a dou| obiecte.
Num|rul de pai necesari pentru obinerea unei soluii cluster de tip ierarhic depinde de num|rul de obiecte supuse clasific|rii i este
diferit pentru cele dou| categorii de metode de clasificare ierarhic|.
Procesele de agregare i de dezagragare a clusterelor, specifice celor dou| categorii de proceduri de clasificare ierahic|, presupun
utilizarea unor metode specifice de evaluare a distanelor dintre clustere.

8.6.4.1.1 Metode de clasificare ierarhic| prin agregare


Algoritmii de agregare sau amalgamare se bazeaz | n mod exclusiv pe evaluarea disimilarit|ilor dintre clustere, adic | pe
evaluarea de distan e intercluster. Datorit | simplit|ii lor, rezultat| din naturale ea ideii de comasare, algoritmii de agregare sunt
mai frecvent utiliza i n activit|ile de clasificare, n compara ie cu algoritmii baza i pe dezagregare. Indiferent de tipul
algoritmului concret care este utilizat, n orice procedur | bazat| pe agregare construc ia arborelui ierarhic de clustere presupune
parcurgerea urm |toarelor etape generale:
iniial se porne te cu un num |r de clustere egal cu num |rul de obiecte, fiecare cluster fiind alc |tuit dintr-un singur
obiect, respectiv:
;
ulterior, de-a lungul a mai multor etape, clusterele iniiale sunt succesiv agregate n vederea ob inerii unor clase din ce
n ce mai complexe. Num |rul total de etape ale procedurii este egal cu
. Agregarea este f|cut | pe baza unei m |suri
de disimilaritate ntre clusterele existente la un moment dat, respectiv pe baza uneia dintre distan ele specifice. n fiecare
etap |, pe care o vom nota cu t, sunt agregate doar dou | clustere, respectiv acele clustere pentru care distan a dintre ele este
minim |, n compara ie cu distan ele dintre orice dou | clustere existente n acea etap |. Aceast | distan | se nume te distan |
de agregare i poate fi definit| astfel:
,
unde

reprezint| num |rul de clustere existente n etapa t. Cele dou | clustere care se comaseaz | ntr-unul singur sunt

clusterele pentru care se ob ine distan a de agregare. Distan a de agregare se nume te prag de agregare i este specific |
fiec |rei etape ntre care exist| o distan | egal| cu distan a de agregare. Structura cluster ob inut| n etapa t este de forma:
.
Pe m |sura construirii ierarhiei cluster, pragul de agregare cre te continuu, iar num |rul de clustere se reduce cu 1 n
fiecare etap |. Ca urmare a relax |rii succesive a pragului de agregare, gradul de agregare a obiectelor n clustere cre te
continuu.
n ultima etap | a agreg |rii toate obiectele sunt incluse ntr-un singur cluster, respectiv:
.
Aceast | procedur | de clasificare pe baz | de agregare este comun | tuturor algoritmilor din aceast | categorie. Diferen ele
91

dintre algoritmii de clasificare ierarhic | prin agregare sunt date doar de modul specific n care sunt evaluate distan ele dintre
clustere.
n cadrul figurii urm |toare sunt vizualizate etapele necesare pentru o clasificare de tip ierarhic prin metode de agregare.

Etapa 0

Etapa 1
Etapa 2
Etapa 3
Etapa 4
Figura 8.8: Ilustrarea grafic | a etapelor clasific |rii ierarhice prin agregare

Evaluarea distan elor dintre clusterele ob inute la un moment dat din desf |urarea analizei cluster de tip agregare ierarhic |,
exceptnd prima etap | n care clasele sunt alc |tuite din cte un singur obiect, poate fi f|cut | folosind oricare dintre metodele
de m |surare a distan elor dintre clustere, metode prezentate anterior.
Spre deosebire de cazul clasific |rii ierarhice prin agregare, n cazul procedurii bazate pe dezagregare se procedeaz |
oarecum invers. Se porne te cu un cluster care include toate obiectele i din acesta sunt diferen iate clustere din ce n ce mai
mici, pn | cnd se ob in clustere formate din cte un singur obiect.
Datorit | faptului c | tehnicile de clusterizare bazate pe agregare sunt cele mai frecvent utilizate, vom prezenta n continuare
principalele tipuri ale acestora. Construirea arborilor de clustere prin dezagregare este similar | celei ob inute prin agregare.
n func ie de tipul distan elor utilizate pentru agregarea clusterelor, exist| patru metode euristice de clasificare ierahic |:
metoda agreg |rii simple, metoda agreg |rii complete, metoda agreg |rii medii, metoda centroidului i metoda lui Ward sau
metoda varian ei.
8.8.4.1.1.1 Metoda agreg|rii simple
n analiza cluster bazat| pe agregare simpl| afectarea unui obiect la un cluster se face numai dac | acel obiect are un anumit
grad de disimilaritate cu unul dintre obiectele care apar in deja clusterului. Clusterizarea de acest tip se mai nume te i analiz|
cluster de distan | minim | sau analiz| cluster de tip MIN.
Metoda agreg |rii simple se bazeaz | pe exprimarea proximit|ii dintre dou | clustere prin intermediul distan ei dintre cele
mai apropiate obiecte din cele dou | clustere. Evaluarea acestei distan e se face cu ajutorul metodei celor mai apropia i vecini.
Definiie: Metoda agreg |rii simple este o metod | de clasificare ierarhic | de tip ascendent, care comaseaz | n fiecare
etap | a clasific |rii acele dou | clustere pentru care distan a dintre cei mai apropia i vecini este cea mai mic |, n compara ie
cu alte perechi de clustere.
n figura urm |toare, este ilustrat felul n care sunt comasate dou | clustere n cazul utiliz |rii metodei agreg |rii simple.

Figura 8.9: Comasarea clusterelor dup | metoda agreg |rii simple


Cea mai mic | distan | ntre cei mai apropia i vecini din cele trei perechi posibile de clustere este distan a

, care

corespunde perechii de clustere


. Ca urmare, clusterul 1 va fi comasat cu clusterul 2, rezultnd un nou cluster,
care va con ine obiectele din cele dou | clustere.
8.8.4.1.1.2 Metoda agreg|rii complete
Aceast | metod | de clusterizare este similar | cu metoda agreg |rii simple, cu deosebirea c | agregarea a dou | clustere se face
pe baza unei distan e de agregare care este distan a dintre cele mai dep |rtate obiecte din acele clustere. Clusterizarea de acest
tip se mai nume te i analiz| cluster de distan | maxim | sau analiz| cluster de tip MAX.
92

n cazul metodei agreg |rii complete evaluarea distan elor dintre clustere se face cu ajutorul metodei celor mai dep |rta i
vecini. Aceasta nseamn | c | distan a dintre dou | clustere este considerat| a fi n acest caz distan a cea mai mare dintre oricare
dou | puncte apar innd celor dou | clustere.
Definiie: Metoda agreg |rii complete este o metod | de clasificare ierarhic | de tip ascendent, care comaseaz | n fiecare
etap | a clasific |rii acele dou | clustere pentru care distan a dintre cei mai dep |rta i vecini este cea mai mic |, n compara ie
cu alte perechi de clustere.

Figura 8.10: Comasarea clusterelor dup | metoda agreg |rii complete

8.8.4.1.1.3 Metoda agreg|rii medii


Metoda agreg |rii medii este o metod | de clusterizare similar | celor dou | metode men ionate anterior, cu deosebirea c |
evaluarea distan ei dintre dou | clustere este considerat | a fi media distan elor care separ | obiectele apar innd celor dou |
clustere.
Agregarea clusterelor cu ajutorul metodei agreg |rii medii se face pe baza determin |rii unui grad de conectivitate medie
dintre clustere, grad evaluat ca distan | medie corespunz |toare unei perechi de obiecte, primul obiect apar innd unui cluster,
iar al doilea obiect apar innd celuilalt cluster.
Definiie: Metoda agreg |rii medii este o metod | de clasificare ierarhic | de tip ascendent, care comaseaz | n fiecare
etap | a clasific |rii acele dou | clustere pentru care distan a medie dintre toate perechile formate cu obiecte din cele dou |
clustere este cea mai mic |, n compara ie cu alte perechi de clustere.
8.8.4.1.1.4 Metoda centroidului
Metoda centroidului este o metod | de clasificare ierahic | ascendent|, n care distan ele dintre clustere sunt evaluate cu
ajutorul metodei centroidului. Ideea de baz | a metodei centroidului este aceea de ob inere a unui nou cluster prin comasarea
a dou | clustere existente, n func ie de distan a cea mai mic | dintre centroizii clusterelor care sunt verificate n scopul comas |rii.
Definiie: Metoda centroidului este o metod | de clasificare ierarhic | de tip ascendent, care comaseaz | n fiecare etap |
a clasific |rii acele dou | clustere pentru care distan a dintre centroizii celor dou | clustere este cea mai mic |, n compara ie
cu alte perechi de clustere.
Dou | clustere sunt comasate ntr-un nou cluster dac | i numai dac | distan a dintre centroizii lor este cea mai mic | dintre
toate distan ele dintre centroizii oric |ror dou | clustere care apar in configura iei cluster disponibile. n figura urm |toare este
vizualizat modul de comasare a dou | clustere folosind metoda centroidului.

Figura 8.11: Ilustrarea metodei centroidului

93

8.8.4.1.1.5 Metoda lui Ward


Metoda lui W ard, cunoscut| i sub numele de metoda minimei varian e intracluster, este una dintre cele mai cunoscute i
mai eficiente metode de clasificare ierarhic | prin agragare.
n virtutea acestei metode atribuirea unui obiect la un cluster se face numai dac | aceast| atribuire minimizeaz | varian a
din cadrul clusterului. Pe post de criteriu general de afectare a obiectelor la clustere este considerat| minimizarea sumelor
elementelor de pe diagonala matricii comune de covarian | a clusterelor, adic | minimizarea trasei matricii de covarian |
intraclase.
Metoda lui Ward este o metod | de evaluare a distan ei dintre dou | clustere care se bazeaz | pe maximizarea gradului de
omogenitate a clusterelor.
Definiie: Metoda lui Ward este o metod | de clasificare ierarhic | de tip ascendent, care comaseaz | n fiecare etap | a
clasific |rii acele dou | clustere pentru care suma p |tratelor abaterilor la nivelul clusterului rezultat din comasare este cea
mai mic |, n compara ie cu alte perechi de clustere.
Metoda lui W ard nu este o metod | propriu-zis | de calcul a distan elor dintre clustere, ci o metod | de formare a clusterelor
pe baza maximiz |rii gradului de omogenitate a clusterelor.
Ca m |sur | a gradului de omogenitate a clusterelor este utilizat| suma p |tratelor abaterilor, numit | suma p |tratelor
abaterilor intracluster. Gradul de omogenitate a unui cluster se consider | a fi cu att mai mare cu ct suma abaterilor intracluster
este mai mic |.
Distan a W ard se evalueaz | pentru toate combina iile posibile de comasare ntr-un singur cluster a oric |ror dou | clustere
din configura ia iniial|.

8.6.4.1.2 Metode de divizare


Metodele de clasificare prin divizare, numite i metode de tip descendent, sunt analoage cu metodele aglomerative, cu
deosebirea c | derularea acestora se desf |oar | ntr-o manier | invers |. Ca i n cazul metodelor de agregare, solu iile ob inute
cu ajutorul metodelor divizative sunt ierarhii de clustere, care pot fi reprezentate prin intermediul arborilor cluster sau
dendrogramelor.
Algoritmii de clasificare ierarhic | pe baz | de divizare se caracterizeaz | prin faptul c |, iniial, se porne te cu un singur
cluster, care con ine toate obiectele care trebuie supuse clasific |rii. Ulterior, clusterul iniial este divizat succesiv, pn | cnd
se ob in clustere formate dintr-un singur obiect.
Spre deosebire de metodele de clasificare ierarhic | prin agregare, care sunt, ntr-un anumit fel mai naturale, metodele de
clasificare ierarhic | prin divizare sunt caracterizate de o complexitate mai ridicat|. O metod | de clasificare ierarhic | prin
divizare produce o structur | cluster n
etape, unde T este num |rul de obiecte clasificate.
Datorit | existen ei unui num |r suficient de mare de algoritmi de clasificare ierarhic | prin agregare, num |rul de algoritmi
dezvolta i pentru clasificarea ierarhic | prin divizare este extrem de mic. Unul dintre cei mai cunoscu i algoritmi din aceast |
categorie este algoritmul DIANA. Un alt algoritm de acest tip este cel bazat pe metoda clasific |rii monotetice, ns | acesta poate
fi utilizat numai n cazul n care variabilele care descriu obiectele sunt de tip binar. Vom prezenta n cele ce urmeaz | fiecare
dintre cei doi algoritmi de divizare men iona i.

8.6.4.2 Algoritmi de partiionare


Algoritmii de parti ionare includ o serie de metode de analiz | cluster, cu mult mai performante dect metodele de clasificare
ierarhic |. Dintre cei mai importan i algoritmi de parti ionare, men in |m: algoritmul celor K-medii i algoritmul celor K-medoizi.

8.7. Recunoaterea formelor cu ajutorul tehnicilor de analiz| discriminant|


n mod frecvent, n analiza datelor apare necesitatea studierii unor popula ii care sunt eterogene din punct de vedere al
caracteristicilor analizate, fapt care complic | procesul de cunoa tere a acestor popula ii i impune efectuarea unui demers
tiin ific specific. Expresia cea mai semnificativ | a popula ilor de tip eterogen este ntlnit| n special n domeniul statisticii,
econometriei i analizei datelor, fiind reprezentat| chiar de cantit|ile foarte mari de informa ie care trebuie prelucrat |,
sintetizat| i interpretat|.
n cazul cercet|rii unor popula ii de acest tip, pentru ca rezultatele investig |rii s | capete consisten | i relevan |, este
necesar | o mp |r ire, o divizare a acestor popula ii n subpopula ii cu un anumit grad de omogenitate, urmnd ca analizele i
procesul de modelare implicate n studierea respectivei popula ii s | se fac | n mod diferen iat, pentru fiecare subpopula ie n
parte.
Formularea unor concluzii corecte i robuste cu privire la manifestarea popula iilor caracterizate de un grad mai mare sau
mai mic de eterogenitate nu este posibil| dect dac | analiza ia n considerare structurarea acestor popula ii pe categorii.
n alte situa ii, cum sunt cele n care sunt analizate diverse entit|i economico-sociale, considerate a proveni din popula ii
cu caracteristici foarte diferite, exist| interesul de a identifica, de a recunoa te, originea acestor entit|i, i de a ob ine o ncadrare
corect | a acestora n anumite clase reprezentative pentru popula ia de origine. Situa iile acest fel dep |esc sfera economicofinanciar |, ele ntlnindu-se n mod frecvent ntr-o mare varietate de alte domenii importante ale tiin ei, cum ar fi: informatica,
biologia, antropologia, medicina, sociologia, geologia, meteorologia etc.
94

n domeniul economico-financiar, entit|ile care fac obiectul problemelor legate de stabilirea apartenen ei la o anumit|
grup | sau clas | pot fi firme, clien i ai unei b |nci, cump |r |tori ai unui produs, unit|i administrativ-teritoriale, pie e de bunuri
sau servicii etc.
Procedura general| de stabilire, pe baza unor caracteristici definitorii i utiliznd metode i tehnici specifice, a apartenen ei
unor obiecte la anumite grupe sau clase dinainte cunoscute poart| numele de analiza discrim inant|.
Analiza discrim inant| reprezint| procesul de utilizare a unei game variate de metode, tehnici i algoritmi n scopul de a
determina care dintre caracteristicile unor anumite obiecte au cea mai mare relevan | din punct de vedere al recunoa terii
apartenen ei acestor obiecte la anumite clase aprioric definite i de a stabili apartenen a cea mai probabil| a obiectelor la diferite
clase.
Stabilirea apartenen ei obiectelor unei popula ii la anumite clase are la baz | propriet|ile sau caracteristicile obiectelor
respective, care sunt reprezentate la nivel formal prin intermediul unor variabile, notate cu
.
n general, se poate spune c | analiza discriminant | se ocup | cu rezolvarea urm |toarelor trei categorii de probleme:
determinarea acelui set optimal de caracteristici ale unor obiecte, care s | permit| cea mai bun | discriminare
ntre dou | sau mai multe tipuri de obiecte;
utilizarea variabilelor din setul optimal de caracteristici pentru deducerea unor criterii sau reguli pe baza c |rora
se poate face separarea popula iei studiate pe clase sau grupe distincte;
utilizarea setului de caracteristici cu cea mai mare putere discriminatorie i a criteriilor de separare identificate
pentru clasificarea unor obiecte, a c |ror apartenen | nu este cunoscut|, n clasele grupele sau clasele popula iei
studiate; clasificarea de noi obiecte, pe baza variabilelor discriminant i a criteriilor de separare, este cunoscut| sub
numele de predic ie.
Variabilele din setul optimal de caracteristici se numesc variabile descriptor i pot fi reprezentate fie de ntreaga mulime
de variabile care descriu obiectele, fie doar de o submulime a acesteia. Aceasta nseamn | c | mulimea variabilelor descriptor
este o mulime de forma:
.
Variabilele descriptor nu sunt folosite n procesul de clasificare n mod direct, ca atare, ci sub o form | transformat|,
reprezentat| de variabilele discriminant.
Criteriile care trebuie deduse n vederea separ |rii claselor din popula ia analizat| sunt utilizate pentru construirea unor
ecua ii sau func ii, care definesc puncte, curbe sau suprafe e de separare a acestor clase. Ecua iile sau func iile utilizate pentru
separarea claselor sunt cunoscute i sub numele de clasificatori.
Func iile pe baza c |rora se face separarea claselor se numesc func ii discriminant, func ii de clasificare sau func ii scor,
sunt definite n raport cu variabilele descriptor ale obiectelor i servesc la determinarea unor noi variabile, numite variabile
discriminant sau variabile scor.
Leg |tura dintre cele trei categorii de elemente informa ionale ale analizei discriminante, respectiv variabilele descriptor,
variabilele discriminat i func ia discriminat este dat| de rela ia:
,
unde

reprezint| variabilele descriptor,

este func ia discriminant.

este variabila discriminant, iar

Dup | cum o s | vedem n continuare, n majoritatea covr itoare a cazurilor de folosire a analizei discriminante, func iile
discriminant sunt func ii liniare de forma:
.
Num |rul de func ii discriminant, adic | p, este determinat de num |rul variabilelor descriptor i de num |rul claselor existente
la nivelul popula iei studiate.
Variabilele discriminant
determin | un nou spa iu p-dimensional, numit spa iu discriminant, ale c |rui axe sunt
reprezentate de vectorii

i n contextul c |ruia se va face clasificarea efectiv | obiectelor. Valorile variabilelor discriminant

sunt rezultatul evalu |rii func iilor discriminat

pentru un anumit obiect fixat i se numesc scoruri discriminat. Scorurile

discriminant sunt utilizate ca indicatori n clasificarea propriu-zis | a obiectelor.


Func iile discriminant se identific | pe baza unor criterii specifice de discriminare, iar parametrii acestor func ii se estimeaz |
pe baza informa iilor con inute de un e antion particular de observa ii (obiecte, forme etc.), extras din popula ia analizat|.
Dup | ce au fost selectate variabilele discriminant i au fost construite func iile discriminant, acestea pot s| fie utilizate n
efectuarea de predic ii cu privire la apartenen a la o clas | sau alta a unor noi obiecte.
Din formularea acestor trei categorii de probleme, rezult| c | analiza discriminant | poate fi folosit| att n scopul descrierii
i studierii unor popula ii eterogene, prin intermediul unor variabile relevante, ct i n scopul realiz|rii de predic ii cu privire
la apartenen a unor obiecte la clasele acestor popula ii.
Prin con inutul s |u i prin natura procedurilor i tehnicilor pe care le utilizeaz |, analiza discriminant | este echivalent | cu
rezolvarea unei probleme de predic ie, rezultatul predic iei constnd din identificarea apartenen ei unui obiect la o anumit| clas |
dintr-o mulime cunoscut| de clase posibile.
Facilit|ile deosebite pe care le ofer | analiza discriminant|, ca instrument de investigare tiin ific |, au o importan | special|
pentru problematica domeniului economico-financiar, domeniu n care utilizarea acestui instrument prevaleaz | n raport cu alte
instrumente similare.
95

De la domeniul financiar-bancar, n care analiza discriminant| este utilizat|, cu prec |dere, pentru clasificarea firmelor
solicitatoare de credite, i pn | la domeniul marketingului, n care analiza discriminant | este utilizat|, printre altele, n probleme
de segmentare a pie ii, analiza discriminant | ofer | multiple i interesante posibilit|i de analiz | i cunoa tere.
n domeniul economic, cele mai multe, mai utile i mai interesante aplica ii ale analizei discriminate sunt cele legate de
evaluarea anselor de viabilitate pe care le au diferite activit|i sau firme n care se pot face investiii sau c |rora b |ncile le pot
acorda credite. n acest sens, analiza discriminant | poate fi folosit| pentru fundamentarea unor decizii cum ar fi: vnzarea sau
cump |rarea de ac iuni, acordare de credite, cump |rarea sau vnzarea de firme etc.

8.7.1. Definirea problemei analizei discriminante


Privit| ntr-un mod foarte general, rezolvarea unei probleme de clasificare cu ajutorul analizei discriminate presupune
deducerea unor reguli sau criterii astfel nct, dup | cunoa terea vectorului x de propriet|i ale unui obiect care apar ine unei
popula ii , s | se poat | lua o decizie cu privire la clasificarea respectivului obiect ntr-una din cele K clase posibile sub care
poate fi structurat| popula ia .
Ipoteza fundamental| a analizei discriminate este aceea c | mulimea
este format| din elemente eterogene i c |, n mod
implicit, n cadrul mulimii exist| un num |r de K clase, notate cu
i numite clase reale sau clase iniiale, a c |ror
alc |tuire nu este cunoscut| complet i care au urm |toarele propriet|i:
.
Reamintim faptul c |, n general, clasele iniiale ale mulimii

sunt considerate a fi nedisjuncte, adic | exist| posibilitatea

ca:
.
Distribu ia statistic | a obiectelor n cadrul fiec |rei clase reale
de probabilitate condiionat| ale claselor, adic | cu ajutorul func iilor

este descris | cu ajutorul densit|ilor multidimensionale


, a c |ror form | se presupune a fi cunoscut|.

n cadrul analizei discriminate, cea mai mare importan |, att din punct de vedere teoretic, ct i din punct de vedere
practic, o au nu clasele reale, ci clasele de predic ie, pe care le vom defini n continuare.
Vom considera mul imea
i clasele reale
din care aceasta este format| iniial. Scopul principal al analizei
discriminate este acela de a identifica o modalitate eficient | de structurare a mulimii
sub forma unui num |r de K regiuni sau
clase. Regiunile sub forma c |rora trebuie partajat| mulimea
n cazul problemei analizei discriminante, pe care le vom nota
cu
se numesc clase de predic ie sau clase de clasificare i au urm |toarele propriet|i:

Cea de-a doua proprietate se refer | la faptul c | orice obiect din mulimea
trebuie s | fie clasificat. Proprietatea a treia
impune necesitatea ca oricare dintre obiectele mulimii
s | fie clasificat numai ntr-o singur | clas |.
O clasificare poate fi considerat| ca fiind perfect |, adic | neafectat| de erori, dac | i numai dac | exist| o coinciden |
perfect| ntre orice clas | de predic ie
i clasa real| omoloag |
. Acest lucru nu este totdeauna posibil din cauza
consecin elor pe care le implic | proprietatea de disjunc ie a claselor de predic ie. Dup | cum se poate observa, spre deosebire
de clasele reale
, care pot avea anumite suprapuneri, clasele de predic ie
trebuie s | fie disjuncte dou |
cte dou |, adic | s | nu aibe obiecte comune.
Deoarece clasele de predic ie

sunt disjuncte dou | cte dou |, ele apar ca fiind nite trunchieri ale claselor reale

, ceea ce nseamn | c | ele pot fi privite ca fiind definite sub forma unor restric ii impuse asupra claselor reale. Ca
rezultat al trunchierii claselor reale omoloage, clasele de predic ie vor diferi, mai mult sau mai pu in, de clasele reale, astfel nct
ntre o clas | de predic ie i o clas | real| omoloag | vom avea rela ia:
.
Diferen ele care exist| ntre clasele de predic ie i clasele reale, rezultate din faptul o clas | de predic ie este ob inut| prin
trunchierea unei clase reale, reprezint| expresia posibilit|i ca anumite obiecte s | fie clasificate incorect.
O consecin | imediat| a modului n care sunt definite clasele de predic ie este aceea c | fiecare clas | de predic ie reprezint|,
de fapt, o submulime a clasei reale omoloage, adic |:
.
Pe de alt| parte, deoarece clasele de predic ie trebuie s | includ | toate obiectele mulimii
.

, se verific | rela ia:

n aceste condiii, este evident c |, atta timp ct fiecare clas | real| reprezint| un cmp complet de evenimente, orice clas |
de predic ie, care este o submulime a clasei reale omoloage, apare ca fiind un cmp incomplet de evenimente.

96

8.7.2 Separarea claselor n spaiul formelor


Prima i cea mai dificil| problem | care trebuie rezolvat| n analiza discriminat| este aceea a separ |rii claselor de predic ie
n cadrul mulimii . Modalitatea cea mai direct| de separare a claselor mul imii
este reprezentat| de definirea n spa iul
a unor suprafe e de separare sau suprafe e de decizie. Aceste suprafe e de separare sunt cele care determin | trunchierea claselor
de predic ie
i ele trec, cu necesitate, prin mulimea de obiecte care apar in intersec iei claselor pe care le separ |.
Din considerente legate de simplificarea proceselor de clasificare, sunt utilizate, de regul|, suprafe ele de separare de tip
liniar, cum ar fi dreptele, planele sau hiperplanele. Suprafe ele de separare sunt definite prin intermediul unor func ii cunoscute
sub numele de func ii discriminant.
Informa iile necesare construirii suprafe elor de separare a claselor de predic ie sunt reprezentate de un e antion de volum
T de obiecte extrase din popula ia , obiecte a c |ror apartenen | la clasele
este cunoscut| aprioric i cu exactitate.
G |sirea unei modalit|i eficiente de separare pe clase disjuncte a elementelor mul imii
constituie o problem | dificil|,
mai ales din cauza existen ei n mulimea a unor obiecte care apar in simultan la dou | clase reale diferite. Afectarea obiectelor
de acest tip la o clas | sau alta se poate face numai sub rezerva calculului probabilistic.
Dup | identificarea unei modalit |i corespunz |toare de separare a elementelor mul imii
pe clasele de predic ie
, sarcina principal | a analizei discriminante este aceea de a decide cu privire la apartenen a la cele K clase a unor
noi obiecte din mulimea
sau de a face predic ii privind apartenen a acestor obiecte. Aceasta nseamn | c | problema de
clasificare cu ajutorul analizei discriminante poate fi formultat| astfel: dndu-se un obiect pentru care se cunoa te vectorul x
de valori ale caracteristicilor acestuia, se cere s | se determine apartenen a acestui obiect la una dintre cele K clase posibile,
, ale mulimii .
Principala problem | care trebuie rezolvat| n cadrul analizei discriminate este aceea a construirii criteriilor sau regulilor
de clasificare, pe baza c |rora se pot face predic ii privind apartenen a unor forme noi, cu apartenen | iniial| necunoscut|.Criteriile de clasificare mai sunt cunoscute i sub numele de clasificatori, iar deducerea acestor criterii se nume te formare a clasificatorului.
Clasificatorul este, de fapt, un algoritm cu ajutorul c |ruia se stabile te apartenen a cea mai probabil| a unei forme la o
anumit| clas | de predic ie. Formarea clasificatorului se face pe baza informa iilor con inute ntr-un e antion de forme a c |ror
apartenen | este cunoscut| aprioric i care se mai nume te set de formare.
E antionul care reprezint| setul de formare este extras din popula ia analizat| i con ine datele primare utilizate n orice
analiz | discriminat |. n anumite situa ii, pentru formarea clasificatorului poate fi folosit|, n mod efectiv, numai o parte a
e antionului disponibil, cealalt| parte urmnd s | fie utilizat | pentru testarea i validarea abilit|ii pe care o are clasificatorul
ob inut pe baza setului de formare de a clasifica n mod corect forme a c |ror apartenen | este cunoscut|. n acest fel, setul de
formare poate s | reprezinte doar o parte a e antionului disponibil. Partea e antionului utilizat| pentru testarea i validarea puterii
de discriminare a clasificatorului se nume te set de predic ie. De multe ori, ntregul e antion disponibil poate fi folosit att ca
set de formare, ct i ca set de predic ie, ceea ce nseamn | c | cele dou | seturi pot s| coincid |.
Exist| mai multe modalit|i de abordare care pot fi utilizate pentru formarea clasificatorului. Printre acestea men ion |m:
criteriul minimiz |rii costului clasific |rii, criteriul lui Bayes sau criteriul probabilit|ilor aposteriorice, criteriul func iilor
discriminant liniare ale lui Fisher, criteriul metric sau criteriul distan ei M ahalanobis, criteriul raportului de verosimilitate etc.
Utilizarea fiec |ruia dintre criteriile men ionate conduce la ob inerea unui clasificator, a c |rui esen | este n principiu aceea i
pentru majoritatea criteriilor men ionate.

8.7.3 Clasificatorii de tip liniar


Prima modalitate de abordare a problemelor de clasificare cu ajutorul tehnicilor de analiz | discriminant | dateaz | din anul
1933 i a fost propus | de Fisher. Ulterior abord |rile de acest tip s-au dezvoltat n mod constant, iar aplica iile bazate pe analiza
discriminant | s-au extins la din ce n ce mai multe domenii de activitate i s-au diversificat din ce n ce mai mult.
Cele mai multe i cele mai utile aplica ii ale analizei discriminant bazat| pe criteriul lui Fisher sunt ntlnite n domeniul
financiar-bancar, domeniu n care tehnicile de tip se numesc tehnici de credit-scoring i constituie cele mai importante
instrumente pentru fundamentarea deciziilor privind acordarea de credite.
Metoda de analiz | discriminant | propus | de Fisher este o metod | parametric |, caracterizat| prin simplitate i robuste e,
i care ofer | posibilit|i de interpretare foarte utile pentru analiz |. Simplitatea acestei metode decurge din faptul c | utilizarea
sa nu necesit| dect evaluarea unor estima ii pentru parametrii popula iei i claselor acesteia, parametri reprezenta i de medii,
varian e sau covarian e. Aceasta reprezint| un avantaj foarte important al analizei discriminante de tip Fisher, n compara ie,
de exemplu, cu tehnicile de analiz | discriminant | bazate pe criteriul Bayes-ian, tehnici a c |ror utilizare presupune cunoa terea
probabilit|ilor apriorice.
Fundamentul teoretic al analizei discriminante de tip Fisher este reprezentat de analiza varian ei. Criteriul lui Fisher
define te o modalitate de deducere a func iilor discriminant pe baza analizei comparative dintre variabilitatea intragrupal| i
variabilitatea intergrupal|, la nivelul claselor sau grupelor popula iei analizate. Func iile discriminant deduse pe baza criteriului
lui Fisher se mai numesc i func ii scor i sunt func ii liniare.
Dup | cum am mai men ionat, criteriul fundamental care st| la baza mp |r irii mulimii de obiecte
n submulimile
este un criteriu mixt, care urm |re te minimizarea variabilit|ii intragrupale i maximizarea variabilit|ii
97

intergrupale. Utilizarea acestui criteriu combinat asigur | cea mai bun | diferen iere a claselor sau grupelor popula iei .
Ideea care st| la baza criteriului lui Fisher este aceea a determin |rii unor direc ii sau axe, astfel nct, de-a lungul acestora,
clasele mulimii
s | se diferen ieze ct mai mult ntre ele i, n acela i timp, fiecare clas | s | aib | un grad de omogenitate ct
mai mare. Cu alte cuvinte, criteriul lui Fisher are ca scop determinarea unor direc ii de-a lungul c |rora variabilitatea intergrupal|
s | fie ct mai mare, iar variabilitatea intragrupal| s | fie ct mai mic |. Proiec iile obiectelor pe axele definite de aceste direc ii
reprezint| sunt noi coordonate ale obiectelor i se numesc scoruri discriminant.
Dintr-un anumit punct de vedere, analiza discriminant | poate fi considerat| ca fiind asem |n |toare cu analiza componentelor
principale, care are ca scop general identificarea unor axe n raport cu care variabilitatea obiectelor s| fie maxim |. Deosebirea
principal | dintre analiza discriminant | i analiza componentelor principale este legat| de faptul c | n cadrul analizei
componentelor principale spa iul cauzal este considerat n integralitatea sa, f|r | a se face nici o diferen iere ntre elementele
acestuia din punct de vedere al unui anumit criteriu.
n cazul analizei componentelor principale variabilitatea este privit| ca o caracteristic | general| a popula iei analizate, f|r |
a se ine seama de existen a unei eventuale structur |ri a acestei popula ii pe grupe sau clase. n consecin |, variabilitatea care
face obiectul analizei componentelor principale este considerat | ca un tot unitar, f|r | a exista posibilitatea descompunerii
acesteia n raport cu o anumit| structur | a spa iului cauzal analizat.
Spre deosebire de aceasta, n cazul analizei discriminante se consider | c | popula ia analizat| este structurat| pe grupe sau
clase, iar variabilitatea acestei popula ii poate fi descompus | sub forma a dou | componente importante: variabilitatea
intergrupal| i variabilitatea intragrupal|.
n plus, fa | de diferen a men ionat|, n analiza discriminant| noile direc ii care trebuie identificate nu trebuie s | fie n mod
obligatoriu ortogonale, spre deosebire de analiza componentelor principale n care direc iile de variabilitate maxim | trebuie s |
verifice proprietatea de ortogonalitate.
Cea mai important | problem | a criteriului lui Fisher de discriminare ntre clasele unei popula ii
este legat| de
descompunerea variabilit|ii acestei popula ii. Vom detalia modul n care poate fi descompus | variabilitatea popula iei n raport
cu cele dou | sensuri ale acesteia: variabilitatea simpl| - exprimat | prin intermediul sumei totale a p |tratelor abaterilor i
variabilitatea mixt| sau compus | - m |surat| prin intermediul matricii produselor mixte ale abaterilor. Este evident c |
variabilitatea mixt| poate fi definit| numai pentru cazul obiectelor multidimensionale.
A a cum am precizat mai nainte, determinarea func iilor discriminant este echivalent | cu g |sirea unor direc ii, sau vectori,
n raport cu care variabilitatea intragrupal| s | fie minim |, iar variabilitatea intergrupal| s | fie maxim |. Aceste direc ii vor defini
axele spa iului discriminat i pot fi identificate sub forma unor combina ii liniare de variabilele descriptor selectate n analiz |.
Pentru determinarea acestor direc ii, vom considera c | variabilele descriptor implicate n analiz | sunt
variabilele

, ale c |ror medii sunt

variabilele centrate corespunz |toare

. Vom nota cu

variabilelor descriptor, adic |:


,
ceea ce nseamn | c |:
.
Vom nota matricea de covarian | a vectorului aleator centrat
abaterilor, corespunz |toare realiz |rilor vectorului aleator

, cu

cu

, iar matricea produselor mixte ale

Problema care se pune n cadrul analizei discriminate este aceea de a determina o nou | variabil|
de forma:

, ca o combina ie liniar |

,
unde ponderile

se determin | n a a fel nct pentru noua variabil| suma p |tratelor abaterilor intraclas | s | fie

minim |, iar suma p |tratelor abaterilor interclas | s | fie maxim |. Acest| variabil| se nume te variabil| discriminant (centrat|).
Dac | vom nota cu vectorul ponderilor
, atunci variabila
poate fi scris | sub forma:
.
Privit| ca o func ie de vectorul
de forma:

, aceast| combina ie liniar | define te, de fapt, o func ie discriminant sau o func ie scor,

.
Prin urmare, procedura de construire a unei func ii discriminant se reduce la determinarea vectorului
.

, adic | a ponderilor

Trebuie s | facem precizarea c | natura liniar | a func iei discriminant este impus | ca ipotez | ini ial | i ea nu trebuie
considerat| ca rezultnd din impunerea unui anumit criteriu de performan | privind separabilitatea claselor.
Deoarece variabila
este definit| ca o combina ie liniar| de variabile care au media nul|, rezult| c | i media acesteia este
nul|, adic |:
.

98

n aceste condiii, suma total| a p |tratelor abaterilor pentru noua variabil| discriminant

este definit| de rela ia:

,
reprezint| varian a variabilei

unde

la nivel de popula ie.

Considernd popula ia
structurat| pe clase, suma total| a p |tratelor abaterilor variabilei
poate fi descompus | sub
forma sumei dintre suma p |tratelor abaterilor intragrupale i suma p |tratelor abaterilor intergrupale, respectiv:
.
n mod similar, varian a variabilei discriminant
intergrupal|, adic |:

poate fi descompus | ca sum | dintre varian a intragrupal| i varian a


.

Pe de alt| parte, avnd n vedere rela ia care define te variabila discriminant


sub forma:

, rezult| c | varian a acesteia poate fi scris |

.
, respectiv de rela ia:

innd seama de rela ia de descompunere a matricii de covarian |


,
varian a variabilei scor

devine:
.

Lund n considerare descompunerea de mai sus a varian ei variabilei scor

, rezult| c | m |rimile scalare

reprezint| varian a intragrupal|, respectiv varian a intergrupal|, corespunz |toare variabilei


n aceste condiii, coeficien ii combina iei liniare care define te variabila discriminant
variabila

se determin | astfel nct

s | aib | o varian a intragrupal| minim | i o varian | intergrupal| maxim |, adic | astfel nct raportul:
,

s | fie maxim.
Rezult| c | determinarea coeficien ilor func iei discriminant
extrem:

poate fi formulat| sub forma urm |toarei probleme de

.
Condiiile necesare de extrem pentru aceast | problem | sunt date de anularea derivatelor par iale ale func iei
cu componentele vectorului , ceea ce n exprimare vectorial| nseamn |:

n raport

.
nmul ind condiia ob inut| cu

i innd seama de definirea lui

, rezult| urm |toarea form | a condiiei de extrem:

.
n concluzie, se poate spune c | vectorul

asigur | maximizarea raportului


,

dac | el este solu ie a ecua iei:

sau a ecua iei:


.
Aceast | ultim | form | a condiiei necesare de extrem arat| c |
proprii a aceleia i matrici. Pentru ca vectorul
ca valoarea proprie
s | verifice condiia:

este un vector propriu al matricii

, asociat valorii

, ca solu ie a unui sistem omogen, s | fie diferit de vectorul nul, este necesar
.

Deoarece, ca matrici de covarian |, matricile

sunt simetrice, rezult| c | i matricea

este simetric |, ceea

ce nseamn | c | valorile proprii ale acesteia sunt reale.


n aceste condiii, a maximiza raportul de mai sus echivaleaz | cu a alege cea mai mare valoare proprie a matricii

i vectorul propriu corespunz |tor.


99

Dac |

este cea mai mare valoare proprie a matricii

este vectorul propriu asociat acesteia, adic |:

atunci raportul este maxim, iar valoarea de maxim | a acestuia este

, adic |:
.

Componentele vectorului
discriminant are forma:

reprezint| coeficien ii func iei discriminant liniare

, ceea ce nseamn | c | func ia

.
nlocuind variabilele centrate

cu

, vom ob ine exprimarea func iei discriminat n func ie de variabilele

discriminant originale, respectiv:


.
Izolnd termenii care con in mediile variabilelor descriptor, func ia discriminant poate fi scris | sub forma:
.
n concluzie, putem spune c | func iile discriminant ale lui Fisher sunt func ii liniare de forma urm |toare:
,
reprezint| termenul liber, iar coeficien ii

unde
propriu al matricii

sunt componente ale unui vector

n consecin |, variabila discriminant corespunz |toare func iei discriminant


,

este definit| astfel:

iar valoarea acesteia pentru o anumit| form | , adic | scorurul discriminant, reprezint| evaluarea func iei discriminat
punctul respectiv. Media i varian a variabilei discriminant (necentrat|) sunt definite de urm |toarele rela ii:

.
Din modul n care este definit| func ia discriminant de tip Fisher, rezult| c | num |rul posibil de func ii discriminant este
egal, n principiu, cu num |rul de vectori proprii ai matricii

. Teoretic, se poate defini cte o variabil| i o func ie

discriminant pentru fiecare vector propriu relevant al acestei matrici. Vectorii proprii ai matricii

vor defini axele

spa iului discriminant.


O problem | important| legat| de definirea variabilelor discriminant i a func iilor discriminat este aceea c | matricea
nu este o matrice simetric |, ceea ce nseamn | c | este posibil ca nu toate valorile ei proprii s | fie reale. Mai mult dect att,
vectorii proprii ai acestei matrici nu mai au proprietatea de ortogonalitate, ceea ce nseamn | c | axele spa iului discriminat nu
sunt ortogonale.

8.7.4 Definirea funciilor discriminant ale lui Fisher


Am prezentat mai nainte modul n care poate fi dedus | o func ie discriminant de tip Fisher. Criteriul pe baza c |ruia a fost
dedus | o func ie discriminant de acest tip este un criteriu mixt, care vizeaz | n mod simultan dou | aspecte: minimizarea
variabilit|ii intragrupale i maximizarea variabilit|ii intergrupale.
O func ie discriminat de tip Fisher se determin | ca o combina ie liniar | de variabilele discriminant, combina ie ai c |rei
coeficien i sunt componente ale unui vector propriu al matricii

. Din aceast | modalitate de definire rezult|, n mod

implicit, c | pot fi identificate mai multe func ii discriminant.


Num |rul maxim posibil de func ii discriminant care pot fi identificate pe baza criteriului lui Fisher este egal cu num |rul
de valori proprii distincte i strict pozitive ale matricii

. Deoarece aceast| matrice este de dimeniune

, n situa ia n

care ea este strict pozitiv definit| i are rangul maxim, rezult| c | num |rul total de func ii discriminant care pot fi determinate
este egal cu n.
Vom prezenta n continuare modul n care pot fi determinate toate func iile discriminant posibile. Pentru aceasta vom nota
cele n valori proprii ale matricii

cu

i vom presupune c | ele sunt ordonate din punct de vedere al valorilor

pe care le au astfel:
.
100

Vom nota cu

, asocia i, n ordine, cu valorile proprii

cei n vectori proprii ai matricii

Prima func ie discriminat se define te cu ajutorul vectorului propriu


i are forma urm |toare:

, care corespunde celei mai mari valori proprii,


.

Deoarece aceast| func ie corespunde celei mai mari valori posibile a raportului dintre varian a intergrupal| i varian a
intragrupal|, ea asigur | cea mai bun | separabilitate a claselor, din punct de vedere al criteriului mixt men ionat mai sus. Aceasta
nseamn | c | proiec iile obiectelor pe noua ax | determinat | de vectorul de coeficien i
pot fi separate pe clase care se
diferen iaz | n cel mai mare grad posibil i care au cel mai mare grad posibil de omogenitate.
n mod similar, cea de-a doua func ie discriminat se define te cu ajutorul vectorului propriu care corespunde celei de-a doua
valori proprii, respectiv:
.
Fiind determinat| pe baza celei de-a doua valori proprii a matricii

, aceast| func ie discriminat corespunde unei

valori mai reduse a raportului dintre varian a intergrupal| i varian a intragrupal|. n consecin |, ea asigur | o rezolu ie mai mic |
din punct de vedere al separabilit|ii claselor mul imii . Din acest punct de vedere, este posibil ca proiec iilor obiectelor pe
noua ax | care are ca suport vectorul de
s | le corespund | clase care sunt i mai pu in omogene i se diferen iaz | i mai pu in
ntre ele.
n sfr it, cu ajutorul vectorului propriu asociat cu cea mai mic | valoare proprie, adic | vectorul
, se determin | ultima
func ie discriminant, respectiv:
.
Prin compara ie cu celelalte func ii discriminant, aceast| ultim | func ie discriminat asigur | cea mai proast | separabilitate
ntre clasele mulimii .
Puterea de separabilitate din ce n ce mai mic | pe care o au func iile discriminant
, conduce la ideea necesit|ii
de a selecta n analiz | numai un anumit num |r de func ii discriminant, n ordinea puterii lor de discriminare.
Num |rul efectiv al func iilor discriminant care trebuie re inute n analiz |, depinde n mod direct de num |rul de clase i de
num |rul de variabile discriminant.
n concluzie la cele ar |tate mai nainte, putem defini func iile discriminant liniare i variabilele discriminant sub forma
urm |toare:
Func iile discrim inant (Fisher) sunt combina ii liniare de variabilele descriptor, de forma:
,
unde

este vectorul variabilelor descriptor, iar

. Valorile func iilor discriminant se

este vector propriu al matricii

numesc scoruri discriminant.


Variabilele discrim inant sunt combina ii liniare de variabilele descriptor, de forma:
,
unde

au semnifica ia din definiia precedent |. Media i varian a variabilelor discriminant sunt:


.

Odat | ce func iile discriminat au fost estimate, ele pot fi utilizate pentru efectuarea de predic ii cu privire la apartenen a unor
noi obiecte la clasele de predic ie.
Exem plul 8.1
n scopul evidenierii modului clasificare cu ajutorul clasificatorilor liniari, vom considera cazul unei populaii de firme comerciale care
se grupeaz| n dou| clase: firme performante i firme neperformante. Vom presupune c| performanele firmelor sunt apreciate pe baza a
doi indicatori economico-financiari: rata profitului i rata profitului investit. De asemenea, vom mai presupune c| dispunem de un eantion
de 10 firme din populaia de firme analizate, dintre care 6 sunt firme performante, iar 4 sunt firme neperformante. Valorile convenionale
ale celor doi indicatori de performan| pentru firmele din cele dou| categorii se g|sesc n tabelul urm|tor.
Firme performante
Firma

Firme neperformante

Rata profitului

Rata profitului
investit

Rata profitului

Rata profitului
investit

13,0

43,0

4,0

31,0

19,0

28,0

7,0

36,0

12,0

35,0

2,0

11,0

Firma

101

9,0

38,0

9,0

56,0

17,0

39,0

Media

13,17

39,83

Variana

16,9667

87,7667

11,0

17,0

Media

6,00

23,75

Variana

15,33

136,917

Vom mai presupune c| densit|ile de probabilitate ale claselor sunt de tip normal, adic| sunt de forma urm|toare:

n graficul din figura urm|toare sunt reprezentate densit|ile de probabilitate bidimensionale ale celor dou| clase de predicie, n ipoteza
de normalitate, i planul de decizie care asigur| separarea acestor clase.

Figura 8.12: Separarea claselor de predicie cu ajutorul planului de decizie


Planul de decizie care separ| cele dou| clase a fost determinat cu ajutorul funciilor discriminant pe care le vom calcula n continuare.
Pentru a calcula valorile proprii ale matricii
, va trebui s| calcul|m, mai nti, inversa matricii de covarian| intragrupal|
. Vom
avea:
,
i deci:
.
Vectorii proprii i valorile proprii pentru matricea

sunt:
,

iar termenii liberi ai funciilor discriminant sunt:

.
Pe baza termenilor liberi i a celor doi vectori proprii

vom putea defini cele dou| funcii discriminant liniare astfel:

.
Deoarece cea de-a doua funcie discriminant corespunde unei valori aproape neglijabile, relevana sa este minim| i se poate renuna la
ea. Ecuaiile discriminat care definesc planele de separare a celor dou| clase sunt:

.
Dup| cum se poate observa, centroidul populaiei de obiecte aparine primului plan de separare, deoarece el verific| prima ecuaie
discriminat:

102

n figura urm|toare sunt reprezentate grafic elementele eseniale legate de separarea claselor cu ajutorul primei funcii discriminant.

Figura 8.13: Graficul separ|rii claselor de predicie


Prima ax| a spaiului discriminat, respectiv

, are ca suport vectorul propriu

i este ortogonal| cu dreapta de decizie

. n

raport cu acest| ax| se determin| scorurile obiectelor, ca proiecii ale obiectelor pe aceast| ax|. Aceste scoruri sunt valori ale variabilei
disciminant . Scorurile celor 10 obiecte n spaiul discriminat, calculate cu ajutorul funciilor discriminant
, sunt pezentate
n tabelul urm|tor.
Firme performante

Firma

Firme neperformante

Scoruri
discriminant

Scor discriminant
Firma

5,851

1,443

-6,741

4,777

6,298

-10,145

-2,198

4,073

2,148

-0,901

-15,530

-1,542

0,370

3,060

-5,011

-7,318

6,590

10,391

8,222

-3,838

Media

4,913

0,002

Media

-7,370

-0,003

Variana

8,970

47,579

Variana

33,097

31,778

Mediile scorurilor pentru toate cele 10 obiecte sunt nule, iar varianele sunt egale cu cu 56,250, n cazul variabilei discriminant

respectiv cu 37,025, n cazul variabilei discriminant

. Estimaiile pentru matricile de covarian| ale variabilelor discriminant

calculate pe baza scorurilor, la nivel de ansamblu i pe clase, sunt urm|toarele:


.
Estimaiile pentru matricile de covarian| intraclas| i interclas| ale variabilelor discriminat sunt urm|toarele:
.
Figura urm|toare conine reprezentarea grafic| a obiectelor n spaiul discriminant, ale c|rui axe sunt
reprezentate i curbele de nivel ale densit|ilor de probabilitate ale celor dou| clase.

103

. n cadrul figurii sunt

Figura 8.14: Reprezentarea obiectelor n spaiul discriminant


Pentru variabila discriminat

, care este cea mai semnificativ|, varianele intragrupal| i intergrupal| sunt:

.
Ca m|rime care aproximeaz| calitatea separ|rii claselor, raportul dintre variana intergrupal| i variana intragrupal| este:
.
Pentru a evidenia avantajele pe care le are utilizarea scorurilor discriminant n raport cu observaiile originale, vom compara raportul
n care se afl| variana intergrupal| i variana intragrupal| la nivelul observaiilor originale, pe de o parte, cu raportul n care se afl| variana
intergrupal| i variana intragrupal| la nivelul scorurilor discriminant, pe de alt| parte.
Deoarece n varianta spaiul iniial obiectele sunt reprezentate exprimate prin intermediul a dou| variabile descriptor, iar n spaiul
discriminat prin intermediul unei singure variabile, pentru a putea face comparaia va trebui s| exprim|m variabilitatea din spaiul iniial n
mod unic, prin intermediul varianei totale. n cazul spaiului cauzal iniial, variana total| intergrupal| este reprezentat| de suma elementelor
de pe diagonala principal| a matricii de covarian| intergrupal| , respectiv:
,
iar variana total| intragrupal| este reprezentat| de suma elementelor de pe diagonala principal| a matricii de covarian| intragrupal|

respectiv:
.
Este evident c| suma celor dou| variane este egal| cu variana total| din spaiul iniial, adic| suma elementelor de pe diagonala principal|
a matricii de covarian| , respectiv:
.
Raportul dintre variana total| intergrupal| i variana total| intragrupal|, corespunz|toare spaiului iniial, este:
.
Deoarece

, putem spune c| n spaiul discriminant se obine o mai mare omogenitate intraclas| i o mai mare

eterogenitate interclas|, ceea ce corespunde cu criteriul dee optimalitate a clasific|rii.


n concluzie, se poate spune c| n spaiul discriminant, att omogenitatea intraclas|, ct i eterogenitatea interclas|, sunt sensibil mai mari,
n comparaie cu spaiul iniial.
Evaluarea scorurilor pentru noi obiecte, pe baza funciilor discriminat, poate permite stabilirea clasei de apartenen| a acestor obiecte.
Dac| scorurile obiectelor vor fi negative, obiectele vor aparine clasei situate la stnga n raport cu centroidul populaiei, iar dac| vor fi
pozitive, obiectele vor fi atribuite clasei situate la dreapta fa| de centroidul populaiei.

104

S-ar putea să vă placă și