Documente Academic
Documente Profesional
Documente Cultură
ANALIZA
MULTIDIMENSIONAL{ A
DATELOR
Bucure ti
2005
Cuprins
Tema 1. Probleme ale m|sur|rii i cuantific|rii economico-sociale . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Necesitatea i rolul analizei datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Specificitatea dom eniului econom ico-social i modalit|i de abordare . .
1.2.1 Abordarea sistemic | . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Abordarea statistic | . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Abordarea bazat| pe modelarea matematic | i inform atic | . . . . .
1.3 M |surarea i cuantificarea n dom eniul econom ico-social . . . . . . . . . .
1.3.1 Unit|ile de m |sur | . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Par ialitatea informa iilor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.3 Erorile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Erorile cu caracter sistem atic . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Erorile cu caracter accidental . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.4 M |surarea indirect| . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4. Definirea analizei datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Clasificarea metodelor de analiz| a datelor . . . . . . . . . . . . . . . . . . . . . . .
1.5.1 Metode de analiz| a dependen ei . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.2 Metode de analiz| a interdependen ei . . . . . . . . . . . . . . . . . . . . . .
1.6 Analiza prelim inar | a datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 Suportul software n analiza datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
1
1
3
3
3
4
4
5
5
5
5
6
6
7
8
8
9
9
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
10
10
10
11
12
12
12
12
12
13
13
13
13
14
14
14
14
15
15
16
16
16
17
17
...
...
...
...
...
...
...
...
a
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
18
18
18
18
18
18
19
20
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
..
..
..
..
..
..
..
..
..
..
..
..
..
21
21
22
23
23
24
24
26
26
26
26
27
27
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
..
..
..
..
..
..
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
..
..
..
..
..
..
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
..
..
..
..
..
..
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
..
..
..
..
..
..
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
..
..
..
..
..
..
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
..
..
..
..
..
..
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
..
..
..
..
..
..
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
..
..
..
..
..
..
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
28
28
29
30
30
31
31
32
36
37
37
37
39
39
39
40
40
40
41
41
42
42
43
45
47
49
49
50
51
52
54
54
55
55
55
56
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
...
.
.
.
.
...
...
...
...
.
.
.
.
...
...
...
...
.
.
.
.
...
...
...
...
.
.
.
.
...
...
...
...
.
.
.
.
...
...
...
...
.
.
.
.
...
...
...
...
.
.
.
.
..
..
..
..
58
58
58
59
....
....
....
....
....
....
....
...
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
60
60
60
63
63
64
65
65
66
68
68
68
69
74
74
74
74
Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
multidimensional| a datelor.
Dintre toate elementele de specificitate a domeniului economico-social, dou | consider |m a fi mai importante i mai
relevante din punct de vedere al utiliz |rii analizei datelor: complexitatea ridicat| a fenomenelor economico-sociale i natura
cantitativ | a acestor fenomene. mpreun | cu multe alte caracteristici specifice, aceste dou | caracteristici fundamentale impun
modalit|i specifice de abordare pentru cunoa terea tiin ific | din domeniul economico-social.
Necesitatea de a sintetiza i de a simplifica n procesul de cunoa tere a realit|ii, este impus | att de faptul c | datele
utilizabile ntr-o analiz | mascheaz |, ascund, anumite aspecte, ci i de faptul c | realitatea analizat| este caracterizat| de o
complexitate foarte ridicat|, care nu poate fi cuprins | i n eleas| numai pe baza intuiiei.
n activitatea de analiz | cantitativ |, pe care se bazeaz | n mod direct cunoa terea tiin ific | din cele mai multe domenii de
activitate, sunt implicate trei categorii esen iale de elemente: teorii i principii teoretice generale i specifice domeniului
investigat, informa ii cantitative i calitative referitoare la fenomenele supuse studiului, metode i tehnici de cuantificare,
evaluare, estimare i testare a m |rimilor specifice i a rela iilor existente la nivelul realit|ii investigate.
Teoriile i principiile teoretice care stau la baza oric |rei analize cantitative sunt reprezentate de mulimea cuno tiin elor
tiin ifice acumulate n decursul timpului, de realiz |rile ob inute pe plan tiin ific, att la nivelul general al cunoa terii umane,
ct i la nivelul cunoa terii n domeniul abordat.
Inform a iile cantitative i calitative referitoare la fenomenele i procesele studiate exprim | o mulime de st |ri i evolu ii
concrete din realitatea investigat| i sunt rezultatul unui laborios proces de observare, m |surare i evaluare, proces n care
intervin o serie de norme, principii, metodologii i instrumente specifice procesului de m |surare. Informa iile ob inute din
realitatea investigat|, n urma unor procese de observare i de m |surare, sunt cunoscute sub numele de date. Datele reprezint|
materialul brut, empiric, care st | la baza tuturor deciziilor din orice domeniu de activitate, iar de calitatea acestora depinde, n
mod direct, calitatea respectivelor decizii.
Metodele i tehnicile reprezint| un set de reguli, principii i proceduri de analiz|, prelucrare i interpretare a datelor.n
analiza datelor, metodele i tehnicile se refer | la cuantificare, evaluare, estimare i testare, i sunt reprezentate de o mulime
extins | i variat| de proceduri i instrumente statistico-matematice. Aceste proceduri sunt aplicate, sub o form | sau alta,
informa iilor cantitative i calitative, datelor de intrare, n scopul deducerii anumitor rezultate i concluzii. De calitatea
metodelor i tehnicilor utilizate ntr-o activitate de analiz | i de eficien a utiliz |rii lor depind, n mod direct i ntr-o propor ie
foarte mare, att semnifica ia i validitatea concluziilor ob inute, ct i calitatea rezultatelor ob inute.
Combinarea, la nivelul analizei cantitative, a celor trei categorii de elemente men ionate anterior, conduce la ob inerea unor
rezultate i concluzii, care contribuie la adncirea procesului de cunoa tere a realit|ii studiate i care se pot concretiza sub mai
multe forme:
ob inerea de informa ii relevante suplimentare privind starea, evolu ia i conexiunile componentelor realit|ii investigate;
relevarea unor noi principii i legit|i care guverneaz | micarea fenomenelor i proceselor din aceast | realitate;
formularea unor concluzii cu privire la existen a unor leg |turi i specificit|i ce caracterizeaz | realitatea studiat|;
validarea unor ipoteze formulate cu privire la popula iile reprezentate de fenomenele i procesele studiate;
identificarea unor tipologii i structuri specifice pe mulimea de fenomene i procese analizate;
estimarea unor efecte i influen e caracteristice interdependen elor dintre fenomene i procese;
deducerea unor modele statistico-matematice, care s | descrie comportamentul fenomenelor i proceselor;
efectuarea de predic ii cu privire la evolu ia fenomenelor i proceselor;
efectuarea de simul|ri privind evolu ia fenomenelor i a interdepende elor manifestate ntre acestea.
Fenomenele economico-sociale i micarea acestora n timp i spa iu, adic | procesele, au o caracteristic | ce le face s | se
deosebeasc | n mod esen ial, fundamental, de fenomene i procese specifice altor domenii de activitate. Aceast | caracteristic |
este dat| de faptul c | manifestarea la nivel observabil a acestor fenomene i a mic |rii lor, este extrem de complex | i mbrac |
o deosebit de mare varietate de forme, fiecare fenomen sau proces economico-social existnd sub form | multiplicat| pe o scar|
foarte m are. Proprietatea de multiplicitate la o scar | foarte mare, pe care o au existen a i manifestarea fenomenelor economice
i sociale, este cunoscut| n literatura domeniului sub numele de caracter de mas | al fenom enelor econom ico-sociale.
Formele sub care se manifest | fenomenele economice i sociale apar, de regul|, ca o amalgamare de aspecte esen iale i
neesen iale, legate direct sau indirect de con inutul fenomenului, de ceea ce este esen ial i stabil n comportamentul acestuia,
fiind caracterizate n timp, cel pu in la suprafa |, de un grad relativ ridicat de instabilitate. Partea consistent |, semnificativ | i
stabil| a unui fenomen economico-social este, de obicei, ascuns | de aceast | multitudine de manifest |ri, astfel nct cunoa terea
acesteia nu se poate face dect rareori prin observare direct|, fiind necesar, de cele mai multe ori, un demers logic extrem de
complex, n cadrul c |ruia se urm |re te eliminarea a ceea ce este accidental, conjunctural, neesen ial i nesemnificativ n
manifestarea fenomenului, re inndu-se ceea ce este trainic, cu caracter de regularitate, esen ial i semnificativ.
O alt| caracteristic | a fenomenelor economico-sociale este cea legat| de multitudinea i eterogenitatea acestor fenomene,
de dimensiunile la care are loc desf |urarea acestora, de numeroasele leg |turi func ionale existente ntre acestea i de multiplele
interdependen e i condiion |ri dintre fenomenele economico-sociale i fenomenele specifice altor domenii. Gradul ridicat de
interconectare a elementelor i multitudinea factorilor de influen |, implica i n manifestarea rela iilor de cauzalitate, reprezint|
caracteristici definitorii pentru majoritatea fenomenelor i proceselor de natur | socio-economic |.
Amploarea complexit|ii din domeniul economico-social rezult| i din faptul c | natura i intensitatea rela iilor de interdependen | cunosc o m are variabilitate n tim p i spa iu, c | sensul rela iilor de cauzalitate este reversibil, chiar contradictoriu,
i c |, din cauza gradului ridicat de interconectare, manifestarea cauzalit|ii are loc, n multe situa ii, sub forma unor "reac ii
n lan ". Specificitatea domeniului economico-social i caracteristicile care l fac s | se diferen ieze fundamental de celelalte
domenii de activitate, impun ca procesul de cunoa tere n acest domeniu, investigarea tiin ific | a fenomenelor i proceselor
de natur | economico-social| s | poarte o amprent| specific |, particular |.
Caracterul complex al manifest |rii fenomenelor economice i sociale face ca activitatea de cunoa tere n acest domeniu
s | fie puternic condiionat| att de m odalitatea concret| de abordare a obiectului studiat, ct i de natura i puterea metodelor,
tehnicilor i instrumentelor de investigare utilizate.
Faptul c | fenomenele economice i sociale se caracterizeaz | printr-un grad de complexitate foarte ridicat face ca activitatea
de investigare a comportamentului acestora s | fie deosebit de dificil| i rezultatele acesteia s | aib | un grad ridicat de relativitate
din punct de vedere al semnifica iei i exactit|ii. n aceste condiii, succesul investiga iilor socio-economice, valabilitatea i
stabilitatea concluziilor rezultate din analizele efectuate, depind n mod direct de compatibilitatea dintre natura instrumentelor
de investigare folosite i specificul fenomenelor investigate.
Alegerea modalit|ilor de abordare i a celor mai potrivite metode i tehnici de analiz | sau predic ie reprezint| condiia
de baz | pentru ob inerea unor rezultate satisf|c |toare n activitatea de cunoa tere a fenomenelor din domeniul economico-social.
n ceea ce prive te modalit|ile de abordare, cele mai des utilizate n analiza datelor sunt: abordarea sistemic |, abordarea
statistic | i abordarea bazat| pe modelarea matematic | i informatic |.
n acest domeniu s | presupun |, cu necesitate, utilizarea unor metode i tehnici de lucru corespunz |toare.
Din rndul instrumentelor de investigare tiin ific |, a c |ror utilitate n contracararea dificult|ilor ridicate de gradul sporit
de complexitate al domeniului studiat este de nenlocuit i a c |ror utilizare nso e te ast|zi demersul tiin ific din aproape oricare
domeniu al cunoa terii umane, se deta eaz | m odelarea matem atic | i tehnica de calcul.
Ca unul dintre cele mai utile i eficiente instrumente de cunoa tere a realit|ii, m odelarea matem atic | reprezint| procesul
de descriere a comportamentului unor fenomene din natur | i societate sub o form | sintetic |, logic | i formalizat| matematic.
Descrierea sub o form | matematic | a comportamentului fenomenelor i proceselor din cele mai diverse domenii de activitate
a devenit ast |zi dorin a i, de cele mai multe ori, scopul oric |rui cercet|tor, indiferent de domeniul n care acesta activeaz |.
Surprinderea interdependen elor, a legit|ilor i func ionalit|ilor ce caracterizeaz | fenomenele sau procesele din lumea
ce ne nconjoar |, sub forma sintetic | a unui model matematic, este, probabil, cea mai relevant | m |sur | a nivelului la care a ajuns
gradul de cunoa tere uman |.
Din punct de vedere informa ional, modelul matematic, n forma sa final|, poate fi privit ca un "concentrat informa ional",
avnd att calitatea de acumulator al informa iei receptate din segmentul de realitate economic | sau social| pe care l descrie,
ct i de generator de informa ie nou |, inexistent | n momentul construirii lui.
1.3.3 Erorile
Impactul numeroaselor imperfec iuni legate de m |surarea i cuantificarea din domeniul economico-social este concretizat,
din punct de vedere al proceselor de analiz | a datelor, n manifestarea unor distorsiuni i inexactit|i informa ionale.
n mai toate cazurile, informa iile disponibile pentru efectuarea unor analize sau prognoze sunt afectate de erori. Faptul
c | informa iile disponibile sunt puternic afectate de erori, ale c |ror surse sunt numeroase, variate i dificil de controlat, impune
utilizarea unor modalit|i specifice de abordare i a unor instrumente de lucru corespunz |toare.
Erorile ce nso esc observa iile rezultate din m |surarea i cuantificarea fenomenelor i proceselor economice sau sociale
pot fi grupate n dou | mari categorii: erori cu caracter sistematic i erori cu caracter accidental, aleator.
n principal, sursele erorilor cu caracter accidental, ntmpl|tor, in de o serie de factori cum ar fi: imperfec iunile instrumentelor de m |surare, deficien e n nregistrarea valorilor caracteristicilor urm |rite, efectuarea inexact| a unor calcule etc.
O nsemn |tate cu adev |rat excep ional| pentru procesele de m |surare i cuantificare n care intervin erori cu caracter
ntmpl|tor, o are faptul c | erorile de acest tip sunt distribuite dup | legea normal|, de medie nul|.
Aceast | proprietate este deosebit de util| att pentru m |surarea impactului pe care erorile l au asupra informa iilor ob inute
n urma proceselor de m |surare, de cuantificare i de analiz | a datelor, ct i pentru dezvoltarea unor proceduri specifice care
au ca scop minimizarea influen ei erorilor asupra rezultatelor ob inute n analiza datelor.
Formarea valorii unei m |sur |tori individuale, sub influena erorilor sistematice i accidentale, poate fi descris | cu ajutorul
rela iei urm |toare:
Efectuarea analizelor de date n condiiile existen ei i manifest |rii erorilor de tip accidental, determin | necesitatea utiliz |rii
unor metode i tehnici adecvate, de natur | statistico-matematic |.
Privit ntr-un mod foarte general, procesul de analiz | a datelor poate fi prezentat ca o succesiune de opera ii sintetizate sub
forma urm |toarelor activit|i:
form ularea ipotezelor cu privire la comportamentul fenomenului ce constituie obiectul studiului;
organizarea experim entelor necesare m |sur|rii caracteristicilor fenomenului studiat;
culegerea datelor privind comportamentul fenomenului ;
analiza i interpretarea datelor disponibile;
form ularea concluziilor, efectuarea predic iilor i luarea deciziilor.
Scopul urm |rit n cele mai multe probleme de analiz | a datelor este legat de crearea condiiilor informa ionale necesare
pentru efectuarea de predic ii cu privire la comportamentul fenomenelor investigate.
De i ntre activitatea de analiz | a datelor i activitatea de predic ie exist| numeroase deosebiri, legate n primul rnd de
natura celor dou | activit|i, totu i, ntre cele dou | genuri de activit|i exist| o important | suprapunere. Aceast | suprapunere
este determinat| de existen a unor modalit|i comune de abordare, de utilizarea unor concepte teoretice identice i de folosirea
aceleia i game de instrumente de lucru.
Cu toate c | obiectivele intermediare urm |rite n activitatea de predic ie sunt similare celor urm |rite n analiza datelor,
totu i, scopul final al oric |rei activit|i de predic ie este legat n mod direct de prefigurarea evolu iei viitoare a fenomenelor i
proceselor economice sau sociale, a modific |rilor structurale ce pot fi nregistrate n viitor de aceste fenomene i procese.
Atingerea acestui scop este ns | condiionat| de desf |urarea unei laborioase activit|i de analiz | a datelor cu privire la
realitatea fenomenului care face obiectul predic iei, activitate care, de regul|, precede procesul de predic ie propriu-zis.
Con inutul activit|ii de analiz | a datelor din domeniul economico-social este strns legat de natura claselor de probleme
supuse rezolv |rii. n func ie de aceast | natur |, analiza datelor poate presupune o anumit| succedare de activit|i specifice,
utilizarea unei anumite game de metode i tehnici de lucru, urm |rirea anumitor obiective.
n rndul categoriilor de probleme a c |ror rezolvare conduce la efectuarea unui proces de analiz | a datelor men ion |m:
identificarea legit|ilor ce guverneaz | micarea fenomenelor i proceselor economice sau sociale, a principalelor
tendin e i regularit |i specifice evolu iei acestora;
identificarea principalilor factori sub a c |ror influen | se formeaz | comportamentul unor fenomene i procese;
stabilirea sensului i intensit|ii leg |turilor cauzale manifestate ntre diferite fenomene i procese;
determinarea gradului n care o mulime de factori de influen | contribuie la formarea unui anumit efect;
verificarea unor ipoteze cu privire la existen a unor leg |turi de tip cauzal, la posibilitatea ca anumite caracteristici
ale unor fenomene s | nregistreze anumite valori specifice etc;
ierarhizarea factorilor ce determin | un anumit efect n func ie de importan a i semnifica ia influen ei acestora;
stabilirea modului n care comportamentul fenomenelor este afectat de anumite decizii sau m |suri de politic |
economic | i social|;
identificarea principalelor posibilit|i prin intermediul c |rora comportamentul fenomenelor s| poat | fi influen at ntrun sens dorit;
determinarea sensurilor n care comportamentul unui anumit fenomen poate evolua, a st |rilor posibile n care acesta
se poate afla n spa iu i timp sau efectuarea de predic ii privind st|rile i evolu ia acestui fenomen.
n func ie de specificul fiec |reia din aceste clase de probleme, activitatea de analiz | a datelor se poate concretiza printr-un
anumit gen de opera ii de modelare statistico-matematic | i prelucrare informa ional| viznd:
simplificarea i sintetizarea rela iilor de cauzalitate;
m |surarea interdependen elor, cuantificarea influen elor i verificarea semnifica iei acestora;
descrierea statistico-matematic | a comportamentului fenomenelor;
efectuarea de predic ii;
m |surarea gradului de omogenitate sau eterogenitate pentru anumite categorii de fenomene;
clasificarea i ierarhizarea fenomenelor.
Fiecare din aceste tipuri de opera ii presupune utilizarea unor instrumente de lucru corespunz |toare, eficiente n raport cu
specificul problemei considerate. Dintre principalele metode i tehnici proprii analizei multidimensionale a datelor i utilizate
pentru rezolvarea problemelor enumerate anterior men ion |m: analiza componentelor principale, analiza factorial|, analiza
coresponden elor, tehnicile de scalare multidimensional|, metodele i tehnicile de estimare, analiza corela iilor canonice,
analiza varian ei, analiza regresiei liniare i neliniare, metodele i tehnicile de recunoa tere a formelor.
leg |turilor (directe sau inverse) sau chiar m |sura intensitatea acestor leg |turi. Ceea ce nu se poate stabili cu ajutorul metodelor
i tehnicilor statistice este natura, sensul rela iilor de cauzalitate, respectiv, care sunt variabilele dependente i care sunt
variabilele independente ce determin | evolu ia, micarea celor dependente. Pentru a stabili cu exactitate rela ia cauz|-efect este
nevoie de informa ii suplimentare, apriorice, exogene n raport cu metodele i tehnicile statistice utilizate.
Exist| un anumit context al analizei datelor, n cadrul c |ruia delimitarea variabilelor dependente de variabilele independente
este foarte clar |, neechivoc |. Acest context este ntlnit n cadrul experimentelor controlate, cnd, n urma stabilirii unor
combina ii de nivele ale variabilelor independente, sunt m |surate nivelele nregistrate pentru variabilele dependente, ca urmare
a influen ei exercitate de fiecare combina ie de nivele ale variabilelor dependente.
n multe situa ii, analiza datelor este efectuat| pe mulimi de variabile pentru care nu exist| nici interesul i nici posibilitatea
conceptual| de a separa din mulimea variabilelor analizate o submulime care s | reprezinte variabilele dependente i o alt|
submulime care s | reprezinte variabile independente. n aceste situa ii, sunt utilizate metode de analiz | specifice, cunoscute
sub numele de metode de analiz| a interdependen ei.
Metodele de analiz| a interdependen ei sunt metodele statistice utilizate n cazul n care nu exist| posibilitatea de a
identifica n mulimea variabilelor analizate variabile dependente i variabile independente i care au scopul de a stabili din ce
cauz| i n ce m |sur | variabilele analizate sunt legate ntre ele. Utilizarea acestor metode are o mare varietate de scopuri, dintre
care, printre cele mai importante, amintim: m |surarea gradului de interdependen |, identificarea variabilelor cu semnifica ie
relevant|, identificarea unor categorii sau clase de variabile.
O variabil|
Mai multe
variabile
Scal| nonmetric |
Scal|
metric |
Scal| metric|
Scal| non-metric|
Scal| metric|
Analiza multigrup a
discriminantului
(discret|)
Analiza
Regresie
discriminantului
simpl|
Regresie logistic|
Analiza multigrup a
discriminantului
Analiza corelaiilor
canonice
Scal| nonmetric |
Analiza multigrup a
discriminantului
(discret|)
Scal|
metric |
Analiza
Regresie
discriminantului
multipl|
Regresie logistic|
Analiza multigrup a
discriminantului
Analiza corelaiilor
canonice
testul t
Tipul scalei
Scal| non-metric |
Scal| metric |
Dou | variabile
Tabele de contingen|
(bidimensionale)
Modele log-liniare
Mai multe
variabile
Analiza corespondenelor
Modele log-liniare
Tabele de contingen|
(multidimensionale)
Analiza componentelor
principale
Analiza factorial|
2.1.1 Data
Conceptul cel mai important i cel mai frecvent ntlnit n analiza datelor, care, de fapt, intr | i n alc |tuirea numelui acestui
tip de activitate tiin ific |, este reprezentat de dat|. Importan a acestui concept pentru domeniul analizei datelor este, cu
adev |rat, covr itoare, deoarece el este cel care define te att intr |rile oric |rui proces de analiz | a datelor, materia prim | supus |
prelucr|rii, ct i, ntr-un sens general, ie irile sale, rezultatele i concluziile ob inute.
Datele pot fi privite ca reprezentnd semnale i mesaje provenite din realitatea nconjur |toare, pe baza c |rora receptorul
i poate forma o anumit| imagine despre respectiva realitate, poate ob ine un anumit grad de cunoa tere a acelei realit|i.
Imaginea format| este cu att mai fidel| n raport cu realitatea, cu ct cantitatea semnalelor i mesajelor este mai mare, respectiv,
cu ct acestea sunt mai pu in afectate de perturba ii i de distorsiuni. De regul |, datele nu sunt recep ionate n mod pasiv de
beneficiarul lor, f|r | nici un efort din partea acestuia. Aproape f|r | excep ie, ob inerea datelor necesare pentru orice activitate
de analiz | constituie un proces costisitor i laborios.
n analiza datelor, datele reprezint| expresia cantitativ | sau calitativ | a unor fapte reale, care sunt manifest |ri ale
fenomenelor i proceselor investigate. Eterogenitatea fenomenelor i a manifest |rii concrete a acestora face ca datele referitoare
la ele s | fie extrem de variate.
Definiie: Datele reprezint| expresii cantitative i calitative ale unor fenomene i procese din realitatea nconjur |toare.
Datele pot s| difere n func ie de mai muli factori: de sursa care le-a generat, de tipul i de natura lor. Indiferent de
varietatea lor, datele pot fi grupate n trei categorii fundamentale: date cantitative, date calitative i date mixte. Toate cele trei
tipuri de date pot fi, ns |, exprimate sub form | cantitativ |.
11
calitative sunt variabile de tip discret. Variabile de tip discret pot fi ns | i unele variabile cantitative.
Definiie: Variabilele de tip continuu sunt variabile care pot lua valori apar innd unui interval continuu.
Practic, mulimea valorilor posibile ale variabilelor de tip continuu este o mulime infinit |. De regul|, variabilele calitative
nu sunt variabile de tip continuu.
2.1.4 Observaii
Strns legat de conceptul de variabil|, este un alt concept, la fel de important i frecvent utilizat n analiza datelor, i anume,
conceptul de observa ie.
Definiie: Observa ia este reprezentat| de valoarea sau setul de valori nregistrate pentru o anumit| unitate elementar |
a popula iei, la una sau mai multe caracteristici ale acesteia.
De fapt, observa iile sunt valori pe care le iau variabilele supuse analizei, valori care sunt rezultate din m |sur |torile
efectuate asupra caracteristicilor unit|ilor apar innd popula iei investigate.
Observa ia reprezint| n procesul de analiz | a datelor unitatea elementar | de informa ie utilizat| n procesele de prelucrare,
mulimea observa iilor constituind baza informa ional| a analizei datelor. Practic, mulimea de observa ii supuse procesului
de analiz | este echivalent | cu e antionul, care, la rndul s|u, nu este altceva dect tot o mulime de observa ii.
De cele mai multe ori, prin observa ie se n elege chiar entitatea elementar | care intr | n alc |tuirea popula iei analizate i
de la care se ob in informa ii. n acest sens, observa ia este sinonim | cu cazul, obiectul, individul, subiectul, articolul.
12
Definiie: Datele non-experim entale reprezint| informa ii ob inute prin observarea liber | a mic |rii fenomenelor i
proceselor studiate, f|r | interven ia direct| a investigatorului asupra condiiilor n care se desf |oar | acest | micare.
Ob inerea datelor de tip non-experimental reprezint| rezultatul observ |rii pasive, constat|rii. Interven ia observatorului,
a celui care face m |sur |torile, este de tip ex-post, are loc dup | ce desf |urarea fenomenelor i proceselor reale a avut loc.
Datele de tip non-experimental sunt datele specifice domeniului economico-social, domeniu n care organizarea de
experimente este fie dificil|, fie imposibil|. Mai mult dect att, complexitatea influen elor din domeniul economico-social,
multitudinea interac iunilor din acest domeniu, determin | o relevan | foarte sc |zut | pentru eventualele date de natur |
experimental|.
cu axa timpului. n cazul datelor de tip panel, observarea se face ntr-o not| de simultaneitate: att asupra mai multor unit|i
ale popula iei, ct i asupra evolu iei n timp a acestor unit|i. Exemplul cel mai sugestiv pentru datele de tip panel este cel al
bugetelor de familie, n contextul c |rora se fac nregistr |ri pe perioade de mai muli ani a veniturilor i cheltuielilor tuturor
familiilor care alc |tuiesc e antionul respectiv.
14
Tot pe aceast | scal|, caracteristicilor li se pot atribui i numere, numai c | aceste numere nu au sensul propriu-zis de num |r,
avnd practic aceea i semnifica ie ca i simbolurile. Att simbolurile propriu-zise, ct i numerele cu rol de simbol, atribuite
caracteristicilor pe aceast | scal| de m |surare, au numai rol de clasificare n anumite grupe a subiec ilor sau de contorizare a
num |rului de subiec i din fiecare categorie, neputnd fi folosite n nici un tip de calcul numeric. Prin intermediul valorilor
m |surate pe scala nominal| subiec ii se diferen iaz | ntre ei doar din punct de vedere al apartenen ei la o anumit| clas | sau al
apartenen ei la o anumit| categorie. Aceasta nseamn | c | utilizarea scalei nominale pentru m |surarea caracteristicilor
m |surabile pe aceast | scal| genereaz | clase sau categorii de subiec i.
Pentru caracteristicile m |surate pe scala nominal|, poate fi calculat un num |r limitat de indicatori statistici, care reprezint|,
de fapt, contoriz |ri ale simbolurilor ap |rute pe scala nominal|. Ace ti indicatori sunt modulul i frecven a. n cazul
caracteristicilor m |surate pe scala nominal| poate fi eviden iat| i distribu ia de frecven |.
ntr-o analiz | de date, variabilele nominale pot fi reprezentate de o serie de variabile cum ar fi: sexul, categoria social|,
tipul familiei, profesia, marca unui produs etc.
Unica transformare de tip invariant a scalei nominale este reprezentat| de opera ia de recodificare, aceast| opera ie
neafectnd apartenen a la o anumit| clas | a valorilor m |surate pe acest| scal|.
Definiie: Scala interval este o scal| quasi-metric |, prin intermediul c |reia valorilor posibile ale caracteristicilor
m |surate li se atribuie valori numerice, f|r | ca pentru aceste valori numerice s | existe o origine prestabilit|.
Variabilele m |surate pe scala interval se numesc variabile tip interval i sunt variabile cantitative. Ele pot fi utilizate n
compara ii al c |ror rezultat permite o exprimare numeric |.
n cazul m |sur |rii pe scala interval, diferen a dintre dou | valori succesive ale scalei are o semnifica ie numeric | sigur |,
permind m |surarea modului n care subiec ii se distan eaz| din acest punct de vedere. O astfel de scal| este, de exemplu, cea
n contextul c |reia m |surarea caracteristicilor const | n acordarea unui num |r de puncte sau n acordarea unei note, n func ie
de importan a pe care o are caracteristica respectiv | la nivelul unui subiect, n func ie de magnitudinea sa.
O caracteristic | a scalei de tip interval este aceea c | evaluarea caracteristicii m |surate nu este afectat| dac | scala este
translatat| sau dac | scala este multiplicat| cu o anumit| constant|. Translatarea este echivalent | cu o schimbare a originii, care,
oricum, este o origine arbitrar |. Multiplicarea este echivalent | cu o m |rire propor ional| a distan elor dintre valorile scalei, adic |
o m |rire care conserv | propor iile ntre aceste distan e. n consecin |, se poate spune c | transformarea pn | la care scala interval
r |mne invariant |, este transformarea de tip liniar urm |toare:
unde a i b reprezint| dou | constante reale, iar x i y reprezint| valorile scalei originale, respectiv cele ale scalei transformate.
Opera iile care pot fi efectuate cu valorile m |surate pe scala de tip interval sunt mai numeroase dect cele care sunt posibile
pe scala nominal| i ordinal |. n plus fa | de opera iile permise pe primele dou | scale, scala interval mai permite: calculul
mediei, calculul abaterii standard, calculul momentelor, calculul coeficien ilor de corela ie Pearson. Ca exemplu de variabil|
tip interval, putem men iona variabila reprezentat| de durata programului de lucru, timpul, ca variabil| specific | seriilor
cronologice etc.
unde un element x ij reprezint| valoarea nregistrat| pentru cea de-a j-a caracteristic | a obiectului i. O linie i a matricii de
observa ii X define te un obiect O i i reprezint| valorile nregistrate de acest obiect la cele n caracteristici pe care le posed |.
O coloan | j a matricii de observa ii X reprezint| valorile nregistrate de caracteristica j pe mulimea tuturor celor T obiecte
supuse analizei. De regul|, n analiza de date, fiecare linie a matricii de observa ii X este numit| observa ie i fiecare coloan |
a acestei matrici este numit| variabil|.
16
n multe situa ii, nu pot fi ob inute informa ii despre toate caracteristicile tuturor obiectelor supuse analizei. n cazul n care
datele ce definesc obiectele nu sunt complete, matricea de observa ii definit| mai sus poart| numele de m atrice de observa ii
cu valori om ise.
. Acest element arat| la cte obiecte cele dou | variabile analizate au simultan valorile
Sunt matrici p |tratice de dimensiune nn, utilizate pentru reprezentarea datelor cu privire la similaritatea sau nesimilaritatea
unor obiecte. Ordinul matricilor de proximitate este determinat de num |rul obiectelor supuse studiului.Elementele unei matrici
de proximitate reprezint| coeficien i de similaritate, coeficien i de nesimilaritate sau distan e. Un element
din aceast | matrice
m |soar | gradul de proximitate dintre obiectul i i obiectul j.
Matricile de proximitate se mai numesc i matrici de tip "obiecteobiecte" i sunt utilizate n problemele de clasificare cu
ajutorul tehnicilor de tip cluster i n problemele de scalare multidimensional|.
17
Sunt situa ii n care, din diferite motive, este imposibil| utilizarea datelor sub forma lor brut|, primar |. Pentru a putea fi
utilizate, datele primare trebuie s | fie supuse mai nti unui proces de purificare, de rafinare, care s | le asigure consisten |,
relevan | i comparabilitate.
Necesitatea rafin |rii datelor este determinat| de numero i factori, ns | cei mai importan i dintre ace tia sunt cei lega i de
existen a datelor omise i a datelor necomparabile.
Un exemplu care poate s | sugereze necesitatea i utilitatea opera iilor de rafinare este cel reprezentat de necesitatea de a
asigura comparabilitatea unor date privind indicatorii macroeconomici.
Deoarece majoritatea indicatorilor macroeconomici sunt exprima i sub form | valoric |, m |rimea acestora este artificial i
puternic influen at| de evolu ia pre urilor. Aceast | influen | face ca valorile din diferite perioade ale acestor indicatori s | nu
fie comparabile ntre ele, deoarece influen a perturbatorie a evolu iei pre urilor nu este uniform | de la o perioad | la alta. De
aceea, seriile de timp referitoare la evolu ia indicatorilor macroeconomici trebuie supuse unor opera ii de cur|ire, de rafinare.
Rafinarea datelor include o serie de opera ii specifice, dintre care mai frecvent utilizate sunt cele de interpolare, de extrapolare
i de ajustare.
18
opera ia de centrare a valorilor observa iilor efectuate asupra unei caracteristici va face ca variabilele centrate s | aib | media
nul|:
.
n cazul n care variabilele originale sunt centrate, ca urmare a faptului c | aceste variabile sunt de medie nul|, varian a unei
variabile este propor ional| cu p |tratul lungimii vectorului reprezentat de observa iile respectivei variabile, iar abaterea standard
este propor ional| cu lungimea aceluia i vector.
Dac | v este o variabil| centrat |, atunci cele T observa ii ale acesteia,
, definesc un punct sau un vector v n
spa iul T-dimensional al observa iilor. Varian a variabilei centrate v este, n acest caz:
.
Aceasta nseamn | c | varian a variabilei centrate v poate fi scris | n func ie de lungimea vectorului v, astfel:
,
unde
Dac | v i w sunt dou | variabile centrate, atunci covarian a dintre aceste variabile poate fi exprimat | n func ie de produsul
scalar al vectorilor v i w care reprezint| observa iile celor dou | variabile. Covarian a dintre variabilele centrate v i w este dat|
de rela ia:
.
Rezult| c |, n cazul variabilelor centrate v i w, covarian a este propor ional| cu produsul scalar al vectorilor v i w care
reprezint| observa iile celor dou | variabile:
,
reprezint| produsul scalar al vectorilor v i w.
Coeficien ii de corela ie de tip Pearson pentru variabile centrate pot fi i ei exprima i n aceea i manier |. Coeficientul de
corela ie dintre variabilele centrate v i w este dat de rela ia:
unde
Rezult| c |, n cazul variabilelor centrate, coeficientul de corela ie dintre dou | variabile este raportul dintre produsul scalar
al vectorilor ce reprezint| observa iile asupra variabilelor i produsul lungimilor acestor vectori:
.
Deoarece raportul dintre produsul scalar a doi vectori i produsul lungimilor acestor doi vectori este egal cu cosinusul
unghiului dintre cei doi vectori, rezult| c |:
,
unde
19
.
n cazul n care covarian a are valoarea egal| cu 1, se consider | c | exist| o perfect| asociere liniar | direct| ntre cele dou |
variabile, iar n cazul n care covarian a are valoarea egal| cu -1 se consider | c | ntre cele dou | variabile exist| o perfect|
asociere liniar | indirect|. De asemenea, dac | valoarea covarian ei este nul|, se consider | c | nu exist| asociere de tip liniar ntre
cele dou | variabile. O consecin | important| a acestei ultime propriet|i este reprezentat| de faptul c |, n cazul variabilelor
standardizate, covarian ele sunt chiar coeficien i de corela ie Pearson.
Dac | este o variabil| standardizat|, atunci cele T observa ii ale acesteia,
, definesc un punct sau un vector z
n spa iul T-dimensional al observa iilor. Varian a variabilei standardizate z este, n acest caz:
.
n aceste condiii, varian a variabilei standardizate z poate fi scris | n func ie de lungimea vectorului z astfel:
,
unde
proprietatea conform c |reia, lungimea vectorului ce reprezint| observa iile unei variabile standardizate este egal| cu
adic |:
.
Cele de mai sus arat| c | pentru a normaliza vectorii observa iilor standardizate este suficient a mp |r i fiecare component |
a acestora cu m |rimea
, adic |:
.
Tot n condiiile stabilite anterior, covarian a dintre dou | variabile standardizate z i w poate fi exprimat | n func ie de
vectorii z i w care reprezint| observa iile celor dou | variabile. Covarian a dintre variabilele standardizate z i w este dat| de
rela ia:
20
.
Rezult| c |, n cazul variabilelor standardizate z i w, covarian a este propor ional| cu produsul scalar al vectorilor z i w,
care reprezint| observa iile celor dou | variabile:
,
reprezint| produsul scalar al vectorilor z i w.
i n cazul variabilelor standardizate, coeficien ii de corela ie de tip Pearson pot fi exprima i prin intermediul produsului
scalar i lungimilor vectorilor corespunz |tori. Astfel, coeficientul de corela ie dintre variabilele standardizate z i w este dat
de rela ia:
unde
.
Rezult| c |, n cazul variabilelor standardizate, coeficientul de corela ie dintre dou | variabile este identic cu covarian a i
este propor ional cu produsul scalar al vectorilor ce reprezint| observa iile asupra variabilelor:
.
21
n mod concret, varian a reprezint| suma p |tratelor abaterilor valorilor individuale n raport cu media ce revine, n medie,
pe fiecare valoare individual|, adic | pe fiecare observa ie efectuat| asupra variabilei.
Ca rezultat al faptului c | variabilitatea poate exista sau nu poate exista, varian a, ca m |sur | a acestei variabilit |i, este
totdeauna o m |rime nenegativ |. Acesta este i unul din motivele pentru care varian a poate fi considerat| ca o m |sur |
informa ional|, ca o m |sur | a cantit|ii de informa ie con inut | n observa iile disponibile.
Pornind de la modul n care varian a m |soar | variabilitatea i de la importan a pe care o are aceast| variabilitate n analiza
datelor, se poate face afirma ia c |, ntr-un anumit sens, varian a reprezint| o m |sur | a informa iei con inute n datele analizate.
Aceast | proprietate remarcabil| a varian ei poate fi foarte simplu intuit | dac | ne gndim c | o mulime de date cu variabilitate
nul|, pentru care, implicit, varian a este egal| cu zero, nu spune nimic din punct de vedere statistic, nu explic | nimic din ceea
ce se ntmpl| cu fenomenul la care se refer |. De fapt, n acest caz, deoarece toate observa iile sunt egale, exist| o redundan |
informa ional| maxim |, toate observa iile reprezentnd, n fond, aceea i informa ie.
Pe de alt| parte, o mare variabilitate a datelor este semnul faptului c | fiecare observa ie este purt|toarea unei informa ii
specifice, diferit| de informa ia con inut| n celelalte observa ii. Cu ct variabilitatea este mai mare, cu att observa iile difer |
mai mult ntre ele i fiecare din ele eviden iaz | o informa ie cu relevan | mai mare, explicnd ntr-o m |sur | din ce n ce mai
mare natura fenomenului analizat i modul de micare a acestuia.
O deficien | major | a varian ei, ca indicator de m |surare a variabilit|ii, a cantit|ii de informa ie con inut| n datele
primare, este legat| de faptul c | varian ele a dou | caracteristici sau a dou | variabile exprimate n unit|i de m |sur | diferite nu
pot fi comparate. Compara ia varian elor este, totui, posibil| numai n cazul n care m |sur |torile caracteristicilor sunt exprimate
n acelea i unit|i de m |sur |.
Tot n acest sens, exist| i o alt| deficien | important | a varian ei: aceea c | ea este o m |rime nescalat|. Cu toate c |
m |rimea varian ei este limitat| inferior, ea avnd o margine inferioar | reprezentat| de valoarea zero i eviden iind lipsa
variabilit|ii sau constan |, ea nu este limitat| superior, nu are o margine superioar |:
.
Din acest motiv, apar dificult|i legate de interpretarea magnitudinii varian ei i de utilizarea acesteia pentru efectuare de
compara ii.
O alt| problem | dificil|, care apare n leg |tur | cu varian a, este aceea c | unit|ile de m |sur | n care aceasta este exprimat |
sunt diferite de unit|ile de m |sur | ale caracteristicii a c |rei variabilitate o m |soar |.
De fapt, varian a este m |surat| n unit|i de m |sur | care reprezint| p |trate ale unit|ilor de m |sur | ale observa iilor
efectuate asupra caracteristicii considerate. Aceast | tr |s |tur | a varian ei creaz | o serie de dificult|i legate de interpretarea
concret| a m |rimii acestui indicator al varia iei.
Datorit | lipsei de semnifica ie a unit|ilor de m |sur | ale varian ei, pentru m |surarea varia iei se utilizeaz | i un alt
indicator, derivat din varian | i reprezentat de r |d |cina p |trat| a varian ei. Acest indicator este cunoscut sub numele de abatere
standard i se calculeaz | cu ajutorul rela iei:
22
.
Spre deosebire de varian |, exprimat | n unit|i de m |sur | nefire ti, nenaturale, abaterea standard este exprimat | n acelea i
unit|i de m |sur | ca i observa iile efectuate asupra caracteristicii.
Covarian a este o m |sur | a varia iei simultane a dou | variabile, ea fiind, n valoare absolut|, cu att mai mare cu ct valorile
absolute ale varia iilor celor dou | variabile n jurul mediei sunt mai apropiate ca magnitudine, eviden iind o anumit| proporionalitate pe mulimea subiec ilor studia i. Covarian a este considerat| a fi o expresie numeric | a gradului de asociere a dou |
caracteristici ca urmare a faptului c |, n toate cazurile n care dou | variabile sunt semnificativ legate ntre ele, o varia ie ntr-un
sens a uneia dintre ele va determina o varia ie propor ional| de acela i sens (n cazul leg |turii directe) sau de sens contrar (n
cazul leg |turii inverse) a celeilalte variabile.
n mod similar cu varian a, i n cazul exprim |rii covarian ei apare problema unor unit|i de m |sur | nefire ti, nenaturale.
Dup | modul n care este definit|, covarian a este exprimat | n unit|i de m |sur | care sunt de fapt produs al unit|ilor de m |sur |
ale caracteristicilor considerate. Ca i n cazul varian ei, exist| o dificultate i mai mare n leg |tur | cu m |sura numit| covarian |.
Aceasta const| n faptul c | ea este o m |rime nescalat|. De i, n valoare absolut|, covarian a are o margine inferioar |,
reprezentat| de valoarea zero i care eviden iaz | lipsa asocierii de tip liniar, ea nu este limitatat| superior, nu are o margine
superioar |:
.
Ca urmare a acestei propriet|i, apar dificult|i legate de interpretarea magnitudinii covarian ei i de utilizarea acesteia
pentru efectuare de compara ii.
O m |sur | scalat| a gradului de asociere liniar | ntre dou | variabile, care elimin | unele deficien e ale covarian ei ca
indicator de m |surare a asocierii de tip liniar, o reprezint| coeficientul de corela ie Pearson. Pentru cazul a T observa ii
existente cu privire la dou | variabile
, coeficientul de corela ie Pearson este dat de rela ia:
Spre deosebire de covarian |, coeficientul de corela ie este o m |rime scalat| n intervalul nchis
.
O valoare nul| a coeficientului de corela ie eviden iaz | absen a leg |turii de tip liniar ntre cele dou | variabile, dup | cum
o valoare absolut| egal| cu unitatea eviden iaz | o leg |tur | liniar | perfect|, leg |tur | care este direct| dac | valoarea este egal|
cu 1 i invers | dac | valoarea este egal| cu -1.
i mai sintetic variabilitatea con inut| n observa iile variabilelor analizate const| n definirea altor doi indicatori ai varian ei:
varian a total| i varian a generalizat|.
Cu toate c | varian a total| ofer | o imagine cuprinz |toare asupra variabilit|ii globale ce caracterizeaz | observa iile
variabilelor analizate, ea m |soar | aceast| variabilitate doar n sens individual, nelund n considerare variabilitatea comun |,
simultan | a observa iilor, adic | variabilitatea interac iunilor.
O m |sur | interesant| a variabilit|ii totale, care ine seama att de variabilitatea individual|, ct i de variabilitatea rezultat|
din interac iuni, este reprezentat| de varian a generalizat|.
intermediul vectorilor
sunt variabile centrate, adic | de medie nul|, atunci p |tratul lungimii vectorilor
24
.
n cazul lipsei de corela ie, eviden iat| prin ortogonalitatea celor doi vectori, aria paralelogramului este maxim |. Aceasta
corespunde unei situa ii n care redundan a informa ional| aferent| observa iilor efectuate asupra celor dou | variabile este nul|.
n cazul n care corela ia este perfect|, adic | cei doi vectori sunt coliniari, aria paralelogramului este minim |. n aceast | situa ie
redundan a informa ional| corespunz |toare observa iilor efectuate asupra celor dou | variabile, este maxim |. n figura 3.3, este
reprezentat| aria paralelogramului avnd ca laturi vectorii ce definesc cele dou | variabile analizate.
, adic | de m |rimea
, iar
Se poate ar |ta c | varian a generalizat| este reprezentat| de determinantul matricii de covarian | ce corespunde variabilelor
supuse studiului, respectiv:
.
Varian a generalizat| este o m |sur | extrem de important| a variabilit|ii totale, format| att ca urmare a variabilit|ii
25
individuale ce caracterizeaz | variabilele, ct i ca urmare a variabilit|ii comune ce caracterizeaz | interac iunea variabilelor.
rezult| urm |toarele trei tipuri de matrici foarte importante n analiza datelor:
matricea observa iilor centrate;
matricea observa iilor standardizate;
matricea produselor ncruci ate,
pe care le vom defini n continuare.
Utiliznd scrierea bazat| pe lungimile vectorilor de observa ii i pe produsele scalare ale acestora, matricea produselor
ncruciate pentru situa ia n care variabilele sunt sub forma original| poate fi scris | sub forma:
unde
n cazul n care variabilele sunt centrate, matricea produselor ncruciate poate fi determinat| astfel:
26
Folosind lungimile vectorilor de observa ii centrate i produsele scalare ale acestora, matricea produselor ncruciate pentru
situa ia n care variabilele sunt centrate poate fi scris | sub forma:
, unde
n condiiile nota iilor anterioare, matricea de covarian | pentru variabilele originale poate fi scris | cu ajutorul matricii
produselor ncruciate pentru cazul variabilelor centrate, sub forma:
, unde
Matricea de corela ie a variabilelor originale poate fi scris | cu ajutorul matricii produselor ncruciate pentru cazul
variabilelor standardizate, astfel:
27
n spa iul variabilelor, un obiect, de exemplu cel de-al i-lea, este reprezentat prin intermediul vectorului n-dimensional:
ntr-un astfel de spa iu, pot fi determinate distan ele dintre obiecte, poate fi eviden iat| i m |surat| variabilitatea obiectelor
de-a lungul axelor, pot fi determinate i m |surate eventuale leg |turi ntre obiecte etc.
Reprezentarea obiectelor n spa iul variabilelor este foarte util| i sugestiv | pentru n elegerea tehnicilor de analiz | a
discriminantului i de analiz | cluster, metodelor i tehnicilor de analiz | a leg |turilor etc.
Figura urm |toare con ine reprezentarea grafic | a celor dou | obiecte n spa iul variabilelor, ale c |rui axe sunt reprezentate
de caracteristicile obiectelor.
n spa iul variabilelor, obiectele analizate sunt reprezentate sub forma unui nor de puncte, centrul de greutate al norului
de puncte fiind chiar punctul care reprezint| mediile caracteristicilor obiectelor, punct care se nume te centroid al obiectelor.
Definiie: Se nume te centroid n spa iul variabilelor punctul ale c |rui coordonate sunt reprezentate de mediile celor
n variabile analizate, adic | punctul
Cele n coordonate ale centrului de greutate sau ale centroidului obiectelor n spa iul variabilelor sunt date de rela iile
urm |toare:
28
,
unde
reprezint| coordonata celui de-al t-lea obiect n raport cu cea de-a j-a ax | a spa iului variabilelor.
Dac | obiectele din spa iul variabilelor sunt privite ca vectori din acest spa iu, atunci cosinusul unghiului dintre doi vectori
ce definesc dou | obiecte reprezint| m |sura leg |turii liniare ce exist| ntre cele dou | obiecte.
Ceea ce are importan | pentru caracterizarea obiectelor este poziia pe care fiecare obiect o are n spa iul variabilelor,
poziie att n raport cu axele spa iului, ct i n raport cu alte obiecte.
Cea mai important | opera ie n spa iul variabilelor este aceea a determin |rii gradului de apropiere sau de dep |rtare dintre
obiecte, astfel nct, m |rimea cea mai relevant | pentru caracterizarea obiectelor reprezentate n spa iul variabilelor este distan a.
Definirea i evaluarea distan ei n spa iul variabilelor sunt posibile numai n condiiile n care pe spa iul respectiv este
definit| o anumit| metric |.
Conceptul care st| la baza definirii unei metrici ntr-un anumit spa iu este produsul scalar. n cazul spa iului real ndimensional
, produsul scalar dintre doi vectori x i y este num |rul real definit astfel:
.
Cu ajutorul produsului scalar poate fi definit| lungimea unui vector din spa iul n-dimensional
, respectiv:
.
Metrica n spa iul variabilelor este introdus | prin intermediul distan ei euclidiene, n conformitate cu care, distan a dintre
dou | obiecte
este dat| de r |d |cina p |trat| a sumei p |tratelor diferen elor coordonatelor celor dou | obiecte:
.
Analiza varian ei obiectelor de-a lungul axelor este extrem de important | deoarece, n cazul n care de-a lungul unei axe,
varian a este nesemnificativ | n raport cu varian ele obiectelor n raport cu celelalte axe, se poate renun a la acest | ax |,
considerndu-se c | variabila ce reprezint| respectiva ax | nu are o semnifica ie relevant | n definirea obiectelor. Aceasta este
de fapt ideea central| care st | la baza tehnicilor de simplificare i de reducere a dependen elor cauzale.
n spa iul observa iilor, pot fi determinate i m |surate leg |turile de tip liniar dintre variabile, poate fi stabilit modul n care
variabilele sau caracteristicile obiectelor se asociaz |, pot fi stabilite distan e ntre variabile etc. Ca i n cazul reprezent |rii
obiectelor n spa iul variabilelor, reprezentarea variabilelor n spa iul observa iilor este util| n numeroase analize de tip
multidimensional, ntre cele dou | tipuri de reprezentare fiind o leg |tur | de tip dual.
Variabilele analizate reprezint| n spa iul observa iilor un nor de puncte, al c |rui centru de greutate este numit centroid
al variabilelor.
29
Definiie: Se nume te centroid n spa iul observa iilor punctul ale c |rui coordonate sunt reprezentate de mediile celor
T observa ii analizate, adic | punctul
Cele T coordonate ale centroidului variabilelor n spa iul observa iilor sunt date de rela iile:
,
unde
reprezint| valoarea medie nregistrat| de cele n variabile la cel de-al t-lea obiect. Reprezentarea variabilelor n spa iul
observa iilor i a centroidului acestora sunt eviden iate n figura urm |toare.
Ca i n cazul spa iului variabilelor, definirea produsului scalar n spa iul observa iilor permite definirea conceptului de
distan | euclidian | ntre dou | variabile. De i aceast| distan | nu are relevan a pe care o are n cazul obiectelor, exist| situa ii
n care m |surarea distan ei dintre variabile are o importan | practic |. Distan a euclidian | dintre variabilele
n spa iul
observa iilor este:
.
, verific |
b. este simetric |:
c. verific | inegalitatea triunghiului:
n func ie de modul n care distan a este evaluat|, adic | n func ie de modul n care se evalueaz | gradul de dep |rtare sau
apropiere dintre dou | obiecte, exist| mai multe tipuri importante de distan e: distan a euclidian |, distan a statistic |, distan a
standadizat|, distan a Mahalanobis etc.
30
Definiie: Se nume te distan | euclidian | ntre dou | puncte x i y din spa iul n-dimensional
astfel:
,
unde
Pentru a ilustra geometric distan a euclidian |, vom considera cazul unui spa iu bidimensional
puncte x i y sunt reprezentate de vectorii x i y din figura urm |toare.
Calculul distan ei euclidiene ponderate este echivalent cu calculul distan ei euclidiene, dar pentru cazul n care observa iile
fiec |rei a i-a caracteristici au fost multiplicate cu m |rimea
31
, distan a
unde r reprezint| coeficientul de corela ie dintre cele dou | variabile ce reprezint| caracteristicile obiectelor,
reprezint| varian ele, iar
Este important s| observ |m c | distana standardizat| i distan a euclidian | sunt cazuri particulare ale distan ei Mahalanobis.
ntr-adev |r, dac | cele dou | variabile ce caracterizeaz | obiectele sunt necorelate, adic |
, distan a Mahalanobis coincide cu
distan a standardizat|. Pe de alt| parte, dac | varian ele variabilelor sunt egale cu unitatea i variabilele sunt necorelate, distan a
Mahalanobis coincide cu distan a euclidian |.
Definiie: n cazul obiectelor multidimensionale, adic | al obiectelor caracterizate prin intermediul a n variabile,
distan a Mahalanobis este definit| de m |rimea:
unde
obiectelor
sunt vectori n-dimensionali ale c |ror componente sunt reprezentate de valorile caracteristicilor
, iar S este matricea de covarian |.
Dac | cele n variabile ce caracterizeaz | obiectele sunt necorelate, matricea de covarian | S este o matrice diagonal|, elemenele diagonale ale acesteia reprezentnd varian ele variabilelor. n cazul n care variabilele sunt standardizate i necorelate,
matricea de covarian | S este matricea unitate, ceea ce nseamn | c | distan a Mahalanobis se reduce la distan a euclidian |.
32
M atricea com un | de covarian | este definit| ca fiind matricea rezultat| din mp |r irea elementelor matricii comune a
produselor ncruciate la num |rul gradelor de libertate:
,
adic | matricea:
unde
Matricea comun | de covarian | exprim | cantitatea de varia ie prezent | n observa iile fiec |reia din cele G grupe de
observa ii. M atricea comun | de covarian | este foarte important| n analiza datelor grupate, deoarece ea furnizeaz | informa ia
cu privire la omogenitatea sau similaritatea din interiorul grupelor, adic | omogenitatea intragrupal|.
De exemplu, dac | obiectele reprezentate de observa iile fiec |rei grupe sunt identice din punct de vedere al tuturor
variabilelor, adic | toate observa iile unei variabile coincid cu media, atunci elementele matricii comune de covarian | vor fi
nule, ceea ce eviden iaz | omogenitate perfect| n interiorul grupelor. Valori mai mari dect zero ale elementelor matricii comune
de covarian | eviden iaz | un anumit grad de eterogenitate a observa iilor n cadrul grupelor, eterogenitate care este cu att mai
mare cu ct valorile elementelor matricii comune de covarian | sunt mai mari.
define te i se calculeaz | pentru fiecare din variabilele analizate. Pentru cea de-a i-a variabil|, suma p |tratelor abaterilor dintre
grupe este dat| de rela ia:
,
unde G reprezint| num |rul grupelor,
de cea de-a i-a variabil| la nivelul celei de-a j-a grupe, iar
Matricea produselor ncruci ate intergrupal| este extrem de important | n analiza grupelor sau a caracteristicilor de
grupare, deoarece ea furnizeaz | informa ia cu privire la eterogenitatea grupelor de observa ii.
Ea reprezint| o m |sur | a diferen elor care exist| ntre grupele de observa ii, ar |tnd care este rolul variabilelor n
diferen ierea grupelor de observa ii.
Cu ajutorul matricii produselor ncruciate intergrupale poate fi calculat| m atricea de covarian | intergrupal|:
Matricea de covarian | intergrupal| exprim | informa ia referitoare la eterogenitatea intergrupal|, ar |tnd ct de mult se
diferen iaz | grupele dup | fiecare din variabilele analizate.
Considernd c | num |rul total de observa ii este T i notnd cu
matricea produselor ncruci ate pentru totalitatea
observa iilor centrate, indiferent de mp |r irea lor pe grupe, adic | matricea:
).
n termeni informa ionali, rela ia precedent | eviden iaz | faptul c | informa ia total|, exprimat | de variabilitatea ce
caracterizeaz | toate observa iile, poate fi mp |r it| pe dou | componente:
informa ia reprezentat| de variabilitatea existent| n interiorul grupelor i care este m |surat| prin matricea
comun | a produselor ncruci ate
;
34
informa ia reprezentat| de variabilitatea existent| ntre grupe i care este m |surat| prin intermediul matricii
produselor ncruci ate intergrupale
;
A a cum am mai men ionat, cu ajutorul matricii comune de covarian | se exprim | similaritatea, omogenitatea intragrupal|,
iar cu ajutorul matricii de covarian | intergrupal| se exprim | eterogenitatea intergrupal|.
Din punct de vedere al unei singure variabile, se poate spune c |, exist| diferen e cu att mai mari ntre grupe cu ct suma
p |tratelor abaterilor intergrupale este mai mare n compara ie cu suma p |tratelor abaterilor intragrupale.
Aceast | afirma ie furnizeaz | implicit criteriul teoretic ideal pentru construirea celui mai bun algoritm de clasificare:
maximizarea sumei p |tratelor abaterilor intergrupale i minimizarea sumei p |tratelor abaterilor intragrupale.
n mod similar cu descompunerea matricii totale a produselor ncruci ate pe cele dou | componente, se poate defini i o
rela ie de descompunere a gradelor de libertate ce corespund totalit|ii observa iilor, notate cu df, astfel:
,
unde
iar
observa ii:
.
Analiza caracteristicilor de grupare i matricile definite n leg |tur | cu aceasta sunt utilizate frecvent n probleme de
clasificare i discriminare. n capitolul destinat prezent|rii tehnicilor de recunoa tere a formelor, vom discuta, detaliat, modul
n care pot fi folosite procedurile de analiz | a grupelor.
35
s | fie minim |. Realizarea acestei cerin e impuse transform |rii caracteristicilor presupune definirea unei performan e, unei func ii
obiectiv specifice, astfel nct transformarea s | asigure, dup | caz, fie minimizarea, fie maximizarea acestei func ii obiectiv.
n cazul concret al analizei componentelor principale, performan a este reprezentat| de maximizarea varian ei
caracteristicilor obiectelor, iar transformarea este o transformare de tip liniar.
Sintetiznd cele men ionate anterior, putem spune c | analiza componentelor principale este utilizabil| pentru rezolvarea
a dou | categorii generale de probleme: simplificarea structurii dependen ei cauzale i reducerea dimensionalit|ii spa iului
cauzal.
noile caracteristici nu preiau, ntr-un fel sau altul, con inutul informa ional al caracteristicilor iniiale. Mai mult dect att, noua
reprezentare se construie te n a a fel nct conservarea informa ional| s | fie maxim |, acceptndu-se, totu i, o pierdere
informa ional| minimal|.
Din punct de vedere geometric, analiza componentelor principale este echivalent | cu o rescriere a unit|ilor unei
popula ii ntr-un nou sistem de axe, cu o reprezentare mai adecvat| din punct de vedere informa ional a acestor unit|i. Noul
sistem de coordonate rezultat din analiza componentelor principale este caracterizat prin trei tr |s |turi fundamentale:
are o dimensiune redus|;
axele sale sunt ortogonale;
coordonatele n acest sistem sunt maximizatoare de varian |.
Problema reprezent |rii ntr-un spa iu mai redus este cunoscut | sub numele de problem | a reducerii dimensionalit|ii. Din
acest motiv, analiza componentelor principale este cunoscut| i ca tehnic | de reducere a dimensionalit|ii.
Dac | vom considera c | exist| n variabile originale, reprezentate de elementele mulimii
, esen a analizei
componentelor principale poate fi reprezentat| n mod simplificat prin intermediul transform |rii urm |toare:
,
unde
intermediul componentelor principale, conservarea variabilit|ii din spa iul cauzal iniial ntr-o propor ie maxim posibil|.
Pentru a ilustra restric iile sub care poate fi f|cut | reducerea dimensionalit|ii, vom considera reprezent |rile grafice din
figura urm |toare, referitoare la un num |r de 10 obiecte care posed | cte dou | caracteristici. Obiectele au fost alese astfel s |
sugereze att con inutul procesului de reducere a dimensionalit|ii, ct i necesitatea acestui proces.
n aceast | figur | sunt eviden iate dou | modalit|i de reprezentare a celor 10 obiecte: prima este cea original|, adic | aceea
n care obiectele sunt reprezentate n coordonatele iniiale, netransformate, iar cea de-a doua este cea rezultat| n urma reducerii
dimensionalit|ii.
deranjant n contextul acestei reprezent |ri iniiale a obiectelor este faptul c | rezolu ia acestor obiecte de-a lungul axei
este
foarte mic |. Obiectele pot fi distinse cu dificultate unele de altele, unele fiind chiar confundabile. n termeni statistici, rezolu ia
sc |zut | a obiectelor n sistemul de coordonate ini ial este echivalent | cu o variabilitate sc |zut | a primei caracteristici, de-a
lungul obiectelor. Mai departe, aceast| variabilitate sc |zut | poate fi interpretat| ca nsemnnd o semnifica ie redus | a primei
caracteristici, din punct de vedere ale puterii ei de a diferen ia obiectele analizate.
Reducerea dimensionalit|ii const |, n acest caz, n trecerea de la dou | dimensiuni la o singur | dimensiune. Ca urmare a
reducerii dimensionalit|ii, se trece de la reprezentarea obiectelor prin intermediul a dou | coordonate la reprezentarea obiectelor
prin intermediul unei sinngure coordonate. Aceasta nseamn | trecerea de la reprezentarea n plan la reprezentarea pe o dreapt|.
Noua ax | rezultat| n urma reducerii dimensionalit|ii, notat| n grafic cu W, poate fi interpretat| ca fiind expresia unei
caracteristici noi, rezultat| din combinarea ntr-o anumit| form |, a celor dou | caracteristici originale.
Se poate observa c | reprezentarea rezultat| n urma reducerii dimensionalit|ii cre te rezolu ia obiectelor. Aceasta nseamn|
c | noua caracteristic |, simbolizat| prin intermediul variabilei W , este caracterizat| de o mai mare variabilitate de-a lungul
obiectelor, comparativ cu caracteristica simbolizat| prin intermediul variabilei
. Noua variabil| W poate fi interpretat| ca
38
39
a calculului chiar n raport cu ridicatele performan e ale configura iilor hardware actuale, presupunnd implicit costuri foarte
ridicate de prelucrare.
Avnd n vedere cele men ionate, rezult| c | procesul de construire a modelului presupune necesitatea efectu |rii unor
simplific |ri i unor transform |ri corespunz |toare asupra mul imii de variabile independente.
n toate situa iile de acest fel, analiza componentelor principale poate servi ca un puternic instrument complementar, att
n faza de construire a modelelor, ct i n faza de estimare a parametrilor acestor modele.
zentate de ace ti indicatori i pentru cre trea relevan ei acestora este necesar | utilizarea analizei componentelor principale;
o investiga ie tiin ific | n domeniul social are ca scop identificarea unor tipologii socio-culturale, specifice unor
zone geografice; informa iile de natur | social| i cultural| disponibile pot fi utilizate pentru construirea acestor tipologii
numai n condiiile existen ei unor metode i tehnici adecvate, n rndul c |rora analiza componentelor principale ocup |
cel mai important loc;
n activitatea de control al calit|ii produc iei se dore te ca, pe baza a numeroase informa ii privitoare la desf |urarea
procesului de fabrica ie, s | se defineasc | un num |r mic de indicatori relevan i pentru a aprecia dac | procesul se desf |oar |
n parametrii calitativi corespunz |tori; ace ti indicatori pot fi ob inu i prin utilizarea tehnicilor specifice analizei
componentelor principale;
ntr-o cercetare din domeniul economico-financiar a fost identificat un model n care variabilele independente sunt
afectate de fenomenul de colinearitate; n aceste condi ii este posibil ca erorile standard ale estima iilor parametrilor s|
fie foarte mari, astfel nct calitatea modelului s| fie negativ afectat|; pentru a putea ob ine estima ii corespunz |toare este
necesar ca variabilele originale s | fie substituite cu alte variabile noi, necorelate, cum ar fi componentele principale.
Analiza datelor, indiferent dac | respectivele date sunt de natur | economic |, social|, medical|, biologic | sau tehnic |, reprezint| domeniul predilect al utiliz |rii analizei componentelor principale. Utilizarea analizei componentelor principale n analiza
datelor are loc att n sens individual, ca tehnic | independent| de analiz | a datelor, ct i mpreun |, n complementaritate, cu
alte metode i tehnici de analiz |.
Analiza componentelor principale este folosit| n probleme de analiz | a datelor att n faza iniial| a acestora, ca tehnic |
de analiz| preliminar |, ct i n fazele ulterioare ale acestor analize, n special n faza de interpretare a rezultatelor.
n cele ce urmeaz |, vom preciza cteva dintre cele mai importante domenii i activit|i ale analizei datelor, n care utilizarea
analizei componentelor principale este nu numai posibil|, ci i strict necesar |.
analiza preliminar| a datelor;
construirea modelelor matematice;
solu ionarea problemelor de analiz | factorial|;
scalarea multidimensional|;
recunoa terea formelor;
analiza grafic |;
prezentarea i interpretarea rezultatelor.
Anterior, am eviden iat necesitatea simplific |rii spa iului cauzal i am men ionat unele din situa iile n care aceast |
simplificare se impune. Tehnica specific | folosit| pentru reducerea dimensiunii spa iului cauzal iniial, n sensul prezentat
anterior, poart| numele de analiza com ponentelor principale, iar noile variabile care definesc spa iul redus de cauzalitate se
numesc com ponente principale. n cadrul paragrafelor urm |toare, vom face o definire a analizei componentelor principale,
precum i a noilor variabile construite n contextul acestei analize, respectiv a componentele principale.
Sintetiznd cele men ionate pn | acum n leg |tur | cu componentele principale, putem da urm |toarea definiie a acestora:
Definiie: Com ponentele principale sunt variabile vectoriale abstracte, definite sub forma unor combina ii liniare de
variabilele originale i care au urm |toarele dou | propriet|i fundamentale:
sunt necorelate dou | cte dou | i suma p |tratelor coeficien ilor care definesc combina ia liniar | ce corespunde
unei componente principale este egal| cu unitatea;
prima component | principal | este o combina ie liniar | normalizat| a c |rei varian | este maxim |, cea de-a doua
component | principal | este o combina ie liniar | necorelat| cu prima component | principal | i care are o varian | ct
mai mare posibil|, ns | mai mic | dect cea a primei componente etc.
Verificarea primei propriet|i de c |tre coeficien ii combina iilor liniare ce definesc componentele principale face ca ace ti
coeficien i, privii sub form | vectorial|, s | alc |tuiasc | un sistem ortonormal.
Componentele principale sunt vectori ortogonali care preiau ct mai mult din varian a variabilelor vector originale astfel:
prima component | principal | preia maximul posibil din varian a variabilelor originale, a doua component | principal | preia
maximul din varian a r |mas | dup | ce este eliminat| varian a preluat| de prima component | .a.m.d.
Verificarea primei propriet|i de c |tre coeficien ii combina iilor liniare ce definesc componentele principale face ca ace ti
coeficien i, privii sub form | vectorial|, s | alc |tuiasc | un sistem ortonormal.
Componentele principale sunt vectori ortogonali care preiau ct mai mult din varian a variabilelor vector originale astfel:
prima component | principal | preia maximul posibil din varian a variabilelor originale, a doua component | principal | preia
maximul din varian a r |mas | dup | ce este eliminat| varian a preluat| de prima component | .a.m.d.
observaiile iniiale disponibile pentru cele dou| variabile, precum i valorile centrate ce corespund acestor observaii.
42
Valori iniiale
Observaia
O1
O2
O3
O4
O5
O6
O7
O8
O9
O10
Media
Variana
7,0
5,0
10,0
2,0
5,0
6,0
7,0
9,0
7,0
6,0
10,0
11,0
15,0
5,0
10,0
13,0
12,0
11,0
8,0
10,0
0,6
-1,4
3,6
-4,4
-1,4
-0,4
0,6
2,6
0,6
-0,4
-0,5
0,5
4,5
-5,5
-0,5
2,5
1,5
0,5
-2,5
-0,5
6,4
10,5
4,933
7,389
4,933
7,389
Variana individual| pentru fiecare din cele dou| variabile este 4,933, respectiv 7,389, iar variana total|, corespunz|toare celor dou|
variabile,
, este 12,322:
.
n aceste condiii, se poate spune c| rolul informaional al celor dou| variabile este aproximativ acelai, c| cele dou| variabile au
aproximativ aceeai contribuie la formarea variabilit|ii totale ce caracterizeaz| spaiul cauzal iniial. Prima variabil| are o contribuie la
formarea varianei totale de 46,45%, iar cea de-a doua variabil| contribuie cu 53,55% la formarea varianei totale:
.
Pentru observaiile din tabelul anterior, matricea produselor ncruciate, matricea de covarian| i matricea de corelaie, corespunz|toare
celor dou| variabile
, sunt urm|toarele:
.
n cazul observaiilor centrate, matricea produselor ncruciate, matricea de covarian| i matricea de corelaie sunt urm|toarele:
.
Dup| cum se poate observa, n urma operaiei de centrare se modific| doar matricea produselor ncruciate, matricea de covarian| i
matricea de corelaie r|mnnd neschimbate. Matricea de corelaie evideniaz| faptul c| cele dou| variabile sunt corelate, la nivelul unui
coeficient de corelaie de 0,736, adic|:
.
Avnd n vedere intensitatea relativ ridicat| a leg |turii dintre cele dou | variabile originale, este de a teptat ca aceste variabile s | poat | fi sintetizate prin intermediul unei singure componente principale, n condiiile unei pierderi informa ionale minime.
atunci rota ia axelor cu un anumit unghi va determina o modificare a coordonatelor acestui punct, respectiv a valorilor celor
dou | observa ii.
n cazul n care unghiul de rota ie este , noile coordonate ale punctului
, notate
i
, sunt date de rela iile
urm |toare:
.
Prin intermediul exemplului urm |tor se eviden iaz | modul n care se schimb | varian a fiec |rei variabile odat | cu efectuarea
unei rota ii a axelor originale.
Exem plul 6.2
Considernd datele din Exemplul 6.1, pentru o rotaie a axelor cu un unghi de 10 grade, coordonatele primei observaii centrate,
respectiv coordonatele punctului (0,6; -0,5), devin 0,504 i -0,597:
.
n tabelul urm|tor sunt prezentate coordonatele celor dou| variabile ntr-un sistem de axe n care axele sunt rotite cu 10, 30, 45, 60 i
90 grade. Penultima linie a tabelului conine varianele celor dou| variabile, calculate pentru fiecare poziie obinut| din rotaia axelor cu
un num|r de grade.
Dup| cum se poate observa, varianele celor dou| variabile sunt diferite pentru diferitele poziii ale axelor, dei suma acestor variane,
adic| variana total|, r|mne neschimbat| prin rotaia axelor. Aceasta nseamn| c| variabilitatea coninut| n observaiile corespunz|toare
sistemului de axe iniial este integral conservat| odat| cu rotaia axelor.
Coordonatele observaiilor variabilelor n condiiile rotaiei axelor
Tabelul 6.2
Coordonatele variabilelor pentru diferite unghiuri de rotaie
Observaia
10 grade
0,504
-1,292
4,327
-0597
30 grade
45 grade
0,269 -0,733
60 grade
0,736 -0,962
1,133 -0,636
1,343 -0,267
3,806
2,097
0,636
5,368
5,728
-0,60
0,500 1,400
4,500
-3,60
0,267 -1,343
0,636 -1,133
0,040
2,531
0,904
2,365
1,485
2,051
1,965
1,596
2,500 0,400
0,851
1,373
1,269
0,999
1,485
0,636
1,599
0,230
1,500
-0,60
2,647
0,041
2,502 -0,867
1,733 -2,002
0,500
-2,60
-0,60
6,527
Variana total|
1,462
5,697 -0,868
2,192 -1,485
90 grade
5,795
12,322
9,396
2,926 10,606
12,322
1,716 10,624
12,322
12,322
7,389 4,933
12,322
Este evident c| rotaia axelor cu 90 de grade, determin| interschimbarea valorilor observaiilor celor dou| variabile. n mod
corespunz|tor, are loc i interschimbarea valorilor varianelor celor dou| variabile.
Pentru a ilustra modificarea valorilor pe care le iau varianele, n tabelul urm|tor sunt prezentate varianele individuale ale celor dou|
variabile, variana total| i ponderile varianelor individuale n variana total|, pentru coordonatele calculate corespunz|tor unor rotaii ale
axelor iniiale din 5 n 5 grade.
Schimbarea varianelor individuale pentru diferite unghiuri de rotaie a axelor
Tabelul 6.3
Procent fa| de variana
Variana individual|
Unghi
Varian|
total| (%)
de rotaie
total|
0
4,9333
7,3888
12,3221
46,45
53,55
5,7237
6,5984
12,3221
52,97
47,03
10
6,5274
5,7947
12,3221
59,41
40,59
44
Unghi
de rotaie
Variana individual|
Varian|
total|
15
7,3200
5,0021
12,3221
65,55
34,45
20
8,0774
4,2448
12,3221
71,23
28,77
25
8,7765
3,5456
12,3221
76,25
23,75
30
9,3962
2,9259
12,3221
80,49
19,51
35
9,9175
2,4046
12,3221
83,79
16,21
40
10,3248
1,9973
12,3221
86,07
13,93
45
10,6055
1,7166
12,3221
87,25
12,75
50
10,7512
1,5709
12,3221
87,30
12,70
52,7214
55
10,7720
10,7574
1,5501
1,5647
12,3221
12,3221
87,42
86,22
12,58
13,78
60
10,6240
1,6982
12,3221
84,03
15,97
65
10,3549
1,9672
12,3221
80,82
19,18
70
9,9584
2,3637
12,3221
76,66
23,34
75
9,4466
2,8756
12,3221
71,70
28,30
80
8,8349
3,4872
12,3221
66,08
33,92
85
8,1420
4,1802
12,3221
59,96
40,04
90
7,3888
4,9333
12,3221
81,59
18,41
. Aceast| rotaie a axelor cu un unghi de 52,7 grade este chiar transformarea de care este nevoie pentru a maximiza
sunt rotite n aa fel nct s| asigure maximizarea varianei primei variabile. Coordonatele noilor punctelor, reprezentate de observaiile celor
dou| variabile n sistemul de axe rotit cu un unghi de 52,7 grade, sunt prezentate n tabelul urm|tor.
Coordonatele observaiilor n sistemul de axe rotit cu 52,7 grade
Tabelul 6.4
Coordonate transformate
Observaia
-0,344
-7,803
-4,502
14,168
57,611
-1,388
-70,414
1,696
-12,458
8,111
17,469
18,325
15,569
4,312
19,727
-17,659
-16,258
-19,917
-6,401
0,154
10,7720
1,5501
Media
Variana
Dac| vom presupune c| cele dou| serii de observaii din tabel, rezultate n urma transform|rii reprezentate de rotaia axelor cu un unghi
de 52,7 grade, sunt observaiile corespunz|toare unor noi variabile, notate cu
, vom putea spune c| am definit dou| noi variabile,
care sunt necorelate i care au varianele n aa fel nct variana primei variabile este maximal|. Aceste noi variabile sunt chiar
componentele principale, iar observaiile corespunz|toare acestora i definite de relaiile:
,
reprezint| scorurile componentelor principale.
Prima component| principal| are variana 10,772, iar cea de-a doua component| principal| are variana 1,5501. n acest fel, prima
component| principal| preia 87,42% din variana total| i deci sintetizeaz|, explic| ntr-o proporie suficient de mare cele dou| variabile
originale. Matricea produselor ncruciate, matricea de covarian| i matricea de corelaie pentru cele dou| componente principale sunt:
.
n consecin|, n locul observaiilor ce corespund celor dou| variabile originale, n analiz| pot fi utilizate observaiile corespunz|toare
primei componente principale, adic| scorurile acesteia, n condiiile unei pierderi informaionale de 12,78%.
Axele noului spaiu, rezultate din rotaia axelor iniiale cu 52,7 grade, sunt definite, n mod similar, de urm|torii doi vectori:
,
Cei doi vectori,
respectiv:
, care definesc noile axe, sunt vectori de lungime unitar| i sunt ortogonali, adic| verific| urm|toarele relaii:
.
Unghiul dintre vectorul
de rotaie a axelor, respectiv 52,72 grade. n virtutea ortogonalit|ii, aceeai valoare o are i unghiul dintre vectorul
i vectorul
Cosinusurile unghiurilor dintre vectorii fiec|reia dintre cele cele dou| perechi vor fi:
46
Referitor la exemplificarea anterioar | cu privire la logica determin |rii componentelor principale, putem face urm |toarele
observa ii finale:
rota ia axelor iniiale cu un anumit unghi, n vederea maximiz |rii varian ei de-a lungul unei axe, nu modific | pozi ia
sau configura ia punctelor reprezentate de observa iile originale; ceea ce se schimb | sunt doar coordonatele acestora n
raport cu noile axe;
noile axe rezultate n urma rora iei care maximizeaz | varian a dup | prima ax | definesc dou | noi variabile, numite
com ponente principale i care au proprietatea c | au media nul|;
cele dou | variabilele numite componente principale reprezint| combina ii liniare de variabilele originale i sunt
necorelate ntre ele;
coordonatele noilor variabile sunt proiec iile punctelor reprezentate de observa iile iniiale i se numesc scoruri ale
com ponentelor principale;
cele dou | componente principale conserv | integral varian a total| corespunz |toare variabilelor originale, adic |
suma varian elor celor dou | componente principale este egal| cu suma varian elor celor dou | variabile originale;
prima component | principal | are varian | maxim al|, prelund maximum posibil din varian a total| ce
caracterizeaz | variabilele originale.
47
Valorile proprii pentru aceast| matrice de corelaie i semnificaiile lor relative se g|sesc n tabelul urm|tor.
Informaii cu privire la valorile proprii ale matricii de corelaie
Tabelul 6.5
Valori proprii
Pondere (%)
Pondere
cumulat| (%)
1,292867
25,857
25,857
1,112724
22,255
48,112
0,965477
19,309
67,421
0,893816
17,877
85,298
0,735115
14,702
100,000
Nr. Crt.
Analiza valorilor proprii prezentate n tabel arat| c| exprimarea prin intermediul componentelor principale a celor 5 variabile originale
poate fi satisf|c|toare numai dac| se folosesc 4 sau chiar 5 componente principale. Acest lucru se ntmpl| deoarece chiar contribuia
ultimelor componente principale la explicarea varianei totale este relativ ridicat|, astfel nct renunarea la ele este echivalent| cu o pierdere
semnificativ| de informaie.
Cazul limit| pentru situaia de necorelare a variabilelor originale este cel n care matricea de corelaie este egal| cu matricea unitate.
n acest caz, toate valorile proprii sunt egale cu unitatea, iar contribuia fiec|reia la formarea varianei totale este de 20%, adic| un procent
relativ ridicat. Rezult| c| pentru a asigura conservarea varianei totale n proporie de peste 80% este necesar| luarea n considerare a tuturor
componentelor principale.
Vom considera acum o a doua situaie, opus| celei precedente, i anume aceea n care toate variabilele originale sunt puternic corelate.
Matricea de corelaie presupus| pentru acest caz este:
.
Tabelul urm|tor conine situaia celor 5 valori proprii corespunz|toare matricii de corelaie considerate.
Informaii cu privire la valorile proprii ale matricii de corelaie
Tabelul 6.6
Nr.
Crt.
Valori proprii
Pondere (%)
Pondere
cumulat| (%)
4,828053
96,561
96,561
0,082870
1,657
98,218
0,067152
1,343
99,561
0,017526
0,351
99,912
0,004399
0,088
100,000
n acest caz, o singur| component| principal|, i anume prima, poate fi folosit| pentru a sintetiza din punct de vedere informaional toate
cele 5 variabile originale. Prin intermediul acestei componente principale se asigur| conservarea a peste 96% din variabilitatea coninut| n
spaiul cauzal iniial, determinat de cele 5 variabile.
i n aceast| situaie exist| un caz limit|, anume acela n care matricea de corelaie are toate elementele egale cu unitatea, expresie a
unei corel|ri perfecte a oric|ror dou| variabile originale. n acest caz, prima valoare proprie este egal| cu 5,0, iar celelalte patru valori proprii
sunt nule. Aceasta nseamn| c| prima component| principal| asigur| captarea ntregii variabilit|i individuale, variana ei fiind egal| cu
variana total| din spaiul cauzal iniial.
Rezult| c| prima component| principal| exprim| din punct de vedere informaional toate cele 5 variabile originale, f|r| pierdere de
informaie. Acest lucru este natural deoarece corelarea perfect| a oric|ror dou| variabile originale nu nseamn| altceva dect c| aceste
variabile sunt identice.
n sfrit, o a treia situaie pe care vrem s-o lu|m n considerare este aceea n care pe mulimea variabilelor originale se evideniaz| grupe
de variabile puternic corelate.Vom considera cazul a 6 variabile originale, pe mulimea c|rora se evideniaz| trei grupe de variabile puternic
corelate. Matricea de corelaie care exprim| o astfel de situaie este urm|toarea:
48
Din analiza matricii de corelaie se poate observa c| exist| trei grupe de variabile corelate puternic:
, respectiv
. Pe de alt| parte, ntre cele trei grupe exist| leg|turi foarte slabe. Aceasta nseamn| c| pentru a exprima cele 6 variabile sunt suficiente, practic, doar trei componente principale, care vor acoperi variabilitatea din spaiul celor 6 variabile ntr-o proporie foarte mare. n
tabelul urm|tor sunt prezentate cele 6 valori proprii ale acestei matrici de corelaie i informaiile privind ponderea fiec|rei valori proprii.
Informaii cu privire la valorile proprii ale matricii de corelaie
Tabelul 6.7
Nr.
Pondere
Valori proprii
Pondere (%)
Crt.
cumulat| (%)
1
2,308133
38,469
38,469
1,766032
29,434
67,903
1,750709
29,178
97,071
0,132365
2,206
99,287
0,042761
0,713
100,000
0,000000
100,000
100,000
ntr-adev|r valorile proprii i ponderea lor n variana total| arat| c| primele trei componente principale preiau din variabilitatea spaiului
iniial 97,071%. Fiecare dintre aceste trei componente principale exprim| variabilele originale din fiecare cele trei grupe de varibile corelate.
Astfel, se justific| ideea c| num|rul de componente principale este egal cu num|rul de submulimi de variabile originale puternic corelate.
,
unde A este o matrice de numere reale, de dimensiune
.
Rezolvarea problemei const | n determinarea matricii A, astfel nct un obiect w s| constituie o reprezentare ct mai bun |
pentru obiectul x.
49
Fiecare coordonat|
, care definesc
, iar varian ele componentelor principale sunt chiar valorile proprii ale acestei
matrici.
Conform definiiei componentelor principale, determinarea acestor coeficien i trebuie s | se fac | n a a fel nct componenta
principal |
s | aib | varian a maxim |.
Considernd c | cei n coeficien i
, respectiv:
presupus a fi repartizat normal, de medie : i matrice de covarian | G, rezult| c | aceast| component | principal | este ea ns |i,
de asemenea, o variabil| aleatoare, repartizat| normal.
Pe baza rela iei (6.2), care define te componenta principal |
, pot fi deduse media i varian a acestei componente
principale astfel:
.
Rezult| c |:
.
Avnd f|cute preciz |rile de mai sus, vom trece n continuare la descrierea modelului matematic pe care se bazeaz | analiza
componentelor principale.
De asemenea, vom presupune c | x este vectorul ale c |rui coordonate sunt variabilele originale
50
i c | w este
Pe baza acestor nota ii, m odelul matem atic al analizei com ponentelor principale poate fi definit astfel:
(6.3)
A a cum vom vedea n continuare, cele n coloane ale matricii A reprezint| de fapt vectorii proprii normaliza i ai matricii
de covarian | G, iar varian a fiec |rei componente principale
, care este o varian | maximal | n raport cu varian ele
componentelor principale anterioare, este reprezentat| chiar de valoarea proprie
modalitate de determinare a elementelor matricii A este echivalent | cu calculul proiec iilor obiectelor de tip
liniar generat de vectorii coloanelor matricii A.
Am v |zut anterior c | cele n componente principale ale spa iului cauzal determinat de variabilele originale
pe subspaiul
, sunt
n scopul simplific |rii nota iilor, vom renun a, temporar, la unii dintre indicii care apar n rela ii. Astfel, vom considera
n continuare c | w este nota ia generic | pentru o anumit| component | principal |, iar " este nota ia generic | pentru vectorul
coeficien ilor ce definesc combina ia liniar | pentru aceast | component | principal |.
n acest sens, vom avea grij | s | specific |m explicit, la fiecare apariie a nota iei w, dac | este vorba de vectorul w sau de
componenta principal | w i s| men ion |m explicit indicele componentei principale atunci cnd o privim ca pe un element al
vectorului componentelor principale w.
51
(6.4)
unde variabilele de alegere sau necunoscutele problemei sunt reprezentate de componentele vectorului ". Vectorul , care este
solu ie a acestei probleme, define te o component | principal| de varian | maximal |.
Rezolvarea problemei de extrem condiionat precedente poate fi f|cut | cu ajutorul metodei multiplicatorilor lui Lagrange,
metod | care reduce problema de extrem condiionat la o problem | de extrem liber. Func ia Lagrangean asociat| problemei de
extrem (6.4), folosit| pentru rezolvarea indirect| a acestei probleme de extrem, are forma urm |toare:
(6.5)
Condiiile necesare de extrem pentru func ia Lagrangean definit| de rela ia (6.5) sunt date de anularea derivatelor par iale
n raport cu componentele vectorului " i cu multiplicatorul 8, respectiv:
(6.6)
Din prima condiie necesar | de extrem, care mai poate fi scris | i sub forma urm |toare:
.
rezult| c | solu ia
a problemei de extrem (6.4) este chiar unul din vectorii proprii ai matricii de covarian | G, anume cel
asociat valorii proprii
de extrem
, egal| cu
este, n punctul
, respectiv:
.
Aceast | ultim | rela ie eviden iaz | faptul c | varian a unei componente principale este egal| cu o valoare proprie a matricii
de covarian |.
Presupunnd c | cele n valori proprii ale matricii de covarian | G sunt ordonate n a a fel nct:
,
prima component | pricipal | w 1, care va avea varian a maxim | 81, este dat| de combina ia liniar |:
.
Vectorul "
(1)
este acel vector propriu al matricii de covarian | G c |ruia i corespunde valoarea proprie cea mai mare,
, face
Dup | determinarea primei componente principale w 1, urmeaz | determinarea celei de-a doua componente principale w,
component | care trebuie s | fie caracterizat|, la rndul s |u, de urm |toarele propriet|i: s | aib | varian | maximal| i s | fie
necorelat| cu prima component| principal| w 1.
Exem plul 6.5
Pentru a ilustra modul de calcul implicat de analiza componentelor principale, vom considera cazul unui num|r de 10 obiecte, fiecare
obiect avnd un num|r de 5 caracteristici exprimate prin intermediul variabilelor
. M|sur|torile efectuate asupra
caracteristicilor celor 10 obiecte sunt presupuse a fi cele din tabelul urm|tor.
52
Observaii iniiale
Tabelul 6.8
Caracteristici
Obiecte
O1
3,31
3,02
4,27
5,31
4,24
O2
2,76
3,94
4,14
8,07
11,08
O3
10,86
15,16
15,19
6,42
6,55
O4
9,29
9,71
10,94
8,15
11,34
O5
8,36
9,12
11,91
7,13
8,33
O6
12,07
11,12
13,69
8,05
11,01
O7
4,73
2,99
4,76
18,12
28,21
O8
8,77
14,13
13,56
6,17
5,99
O9
18,10
21,00
13,67
11,16
23,39
O10
Medie
4,58
8,83
7,43
14,84
16,97
8,283
9,902
9,957
9,342
12,711
Abatere
4,716
5,798
4,378
4,150
7,845
standard
Estimaia pentru matricea de covarian| corespunz|toare celor 5 variabile originale este urm|toarea:
Cei 5 vectori proprii sunt de lungime egal| cu unitatea i sunt ortogonali doi cte doi, astfel nct matricea U este ortogonal|. Deoarece
suma varianelor primelor dou| componente principale reprezint| 96,623% din variana celor 5 variabile originale, adic|:
,
se poate considera c| cele 5 variabile originale pot fi reexprimate suficient de bine din punct de vedere informaional - n limita unei pierderi
de 3,4% - prin intermediul primelor dou| componente principale ale c|ror ecuaii sunt:
.
Coordonatele celor 10 obiecte n spaiul redus, ale c|rui axe sunt reprezentate de primii doi vectori ai matricii de covarian| E, sunt
prezentate n tabelul urm|tor:
Scorurile principale ale obiectelor
Tabelul 6.9
Coordonatele obiectelor
Obiectele
O1
-54,037
53
-101,762
Coordonatele obiectelor
Obiectele
O2
7,284
-82,893
O3
-78,067
44,211
O4
-17,385
3,534
O5
-44,532
-7,746
O6
-29,873
33,017
O7
174,078
-34,196
O8
-76,982
21,818
O9
56,611
144,532
O10
62,904
-20,515
n analiza componentelor principale coordonatele obiectelor n spaiul redus se mai numesc i scoruri principale ale obiectelor.
Dac| vom presupune c| au fost reinute p componente principale i dac| vom nota cu matricea de dimensiune
, ale c|rei coloane
sunt cei p vectori proprii care definesc cele p componente principale, atunci matricea scorurilor poate fi determinat| astfel:
.
Liniile matricii W reprezint| scorurile corespunz|toare noilor variabile sau observaiile celor p componente principale. O dat|
determinate, scorurile principale pot fi folosite n analiz| ca substitut al observaiilor originale, simplificnd, n acest fel, baza informaional|
iniial|. n leg|tur| cu aceast| problem|, consider|m c| este extrem de important s| facem precizarea c| scorurile principale sunt mai potrivite
pentru a fi folosite n analize deoarece sunt mai puin afectate de erori, n comparaie cu m|sur|torile originale. Faptul c| scorurile principale
sunt mai robuste n raport cu perturbaiile introduse de erori, c| au o anumit| invarian| n raport cu erorile, le face s| devin| mai importante
din punct de vedere informaional dect observaiile originale. Deoarece noul spaiu redus are numai dou| axe, cele 10 obiecte pot fi reprezentate grafic n acest spaiu. Reprezentarea grafic| din figura urm|toare arat| poziionarea celor 10 obiecte n raport cu axele noului spaiu.
54
norm al cu media
,
unde 7 este matricea diagonal| ale c |rei elemente sunt valorile proprii
Normalitatea celor n variabile reprezentnd componentele principale rezult| din faptul c | acestea sunt combina ii liniare
de cele n variabile originale, care, prin ipotez |, sunt variabile normale. Pentru a ar |ta c | matricea de covarian | a vectorului
w este matricea 7 este suficient s| ar |t|m c | dac |:
,
x fiind repartizat normal, cu matricea de covarian | G, atunci matricea de covarian | a transform |rii liniare w este:
.
Elementele diagonale ale acestei matrici reprezint| varianele corespunz|toare celor trei variabile originale, respectiv:
.
Cele trei valori proprii corespunz|toare acestei matrici de covarian| au valorile urm|toare:
.
Aa cum se poate observa imediat, este verificat| proprietatea menionat| anterior, respectiv:
.
. Aceasta nseamn | c |:
.
Aceast | proprietatea eviden iaz | calitatea informa ional| pe care o au componentele principale de a reprezenta o
reexprimare a variabilelor originale.
Exem plul 6.7
Considernd matricea de covarian| din exemplul precedent, se poate observa c| determinantul acestei matrici este egal cu produsul
celor trei valori proprii, respectiv este egal cu determinantul matricii de covarian| ce corepunde celor trei componente principale:
.
i varian ele acestora depind de unit|ile de m |sur | n care sunt m |surate variabilele
. Aceasta nseamn | c |, odat | cu schimbarea unit|ilor de m |sur| ale variabilelor originale se schimb | att
55
un element generic
, adic | elementul
Intensit|ile factorilor sunt indicatori ai m |surii n care variabilele originale particip | la formarea componentelor principale
sau, mai corect, ai m |surii n care componentele principale sintetizeaz | informa ia con inut| n variabilele originale. Cu ct este
56
mai mare valoarea coeficientului de corela ie dintr o variabil| original| i o component | principal |, cu att este mai adecvat|
i mai complet| exprimarea informa ional| a variabilei originale prin intermediul componentei principale respective.
Matricea factor este foarte important | deoarece, pe baza analizei valorilor elementelor ei, pot fi identificate o serie de
partiii sau cluster-e pe mulimea variabilelor, parti ii sau clustere care, asociate cu anumite componente principale, pot conduce
la stabilirea unor semnifica ii intuitive pentru acele componente. Aceasta nseamn | c | analiza elementelor matricii factor
poate permite identificarea acelor variabile originale care sunt reprezentate prin intermediul unei anumite componente principale
i, pe aceast | baz |, crearea posibilit|ii de atribuire a unei semnifica ii concrete pentru fiecare component| principal|.
n cazul n care variabilele care intr | n componen a vectorului x sunt standardizate, varian ele acestora sunt egale cu
unitatea, ceea ce nseamn | c | matricea
este egal| cu matricea unitate. Rezult| c |:
.
n acest caz, coeficientul de corela ie dintre ce-a de-a i-a variabil| original| i cea de-a j-a component | principal | este
definit sub forma:
.
n aceast | variant |, matricea factor are o proprietate important | care const | n aceea c | suma p |tratelor elementelor din
fiecare coloan | a sa coincide cu varian a componentei principale care se asociaz | cu respectiva coloan |, respectiv:
.
Ca rezultat al acestei propriet|i, p |tratul unui coeficient de corela ie din matricea factor poate fi interpretat ca m |sur | a
contribu iei pe care o are fiecare variabil| original| la formarea varian ei componentei principale.
Exem plul 6.8
Vom presupune c| pentru cazul a patru variabile originale matricea de covarian| este de forma urm|toare:
corespunz|tori acestor valori proprii sunt reprezentai sub forma coloanelor matricii
. Vectorii proprii
Leg|tura foarte puternic| exprimat| de primii doi coeficieni de corelaie din prima coloan| evideniaz| faptul c| prima component|
principal| exprim| coninutul informaional al variabilelor originale
. n mod similar, corelaia foarte puternic| exprimat| de ultimii
doi coeficieni din cea de-a doua coloan| arat| c| cea de-a doua component| principal| sintetizeaz| informaional variabile originale
. Din faptul c| primele dou| valori proprii reprezint| 99,77% din suma tuturor valorilor proprii rezult| c| cele patru variabile
originale pot fi exprimate prin intermediul primelor dou| componente principale, cu pierdere neglijabil| de informaie.
57
58
se consider| c| respectivii indicatori au o capabilitate mai ridicat| de a servi la exprimarea, indirect|, a factorului latent. Astfel, pentru un
exemplu de tipul celui menionat anterior, se poate considera c| volumul produsului intern brut, ritmul creterii economice, productivitatea
social| a muncii, nivelul de instruire a populaiei, volumul schimburilor economice externe etc., sunt rezultate ale unui anumit nivel de
dezvoltare, sunt expresii ale acestui nivel de dezvoltare i, n consecin|, pot servi la evaluarea acestuia.
n ceea ce privete leg|tura dintre valoarea unei variabile indicator i factorul comun, facem precizarea c| m|rimea nregistrat| de
valoarea unui indicator nu este determinat| n mod exclusiv de factorul comun, ea depinznd, n afar| de acesta, i de influena altor factori,
cunoscui sub numele de factori specifici. Influena acestor factori este diferit| de la un indicator la altul i nu este comparabil| pe mulimea
acestor indicatori. Dat| fiind natura lor, din rndul factorilor specifici fac parte i erorile sau reziduurile.
De exemplu, produsul intern brut i volumul schimburilor economice externe au o determinare comun|, dat| de nivelul de dezvoltare
a economiei, dar au i o determinare specific|, dat| de m|rimea |rii, n cazul primului indicator, respectiv de poziia geografic| a |rii, n
cazul celui de-al doilea indicator. M|rimea |rii este factor specific pentru produsul intern brut, iar poziia geografic| a |rii este indicator
specific pentru volumul schimburilor externe.
Schematic, leg|turile dintre indicatori, pe de o parte, i factorul comun i specifici, pe de alt| parte poate fi prezentat| schematic sub
forma din figura urm|toare.
M |surarea influen ei specificului local asupra volumului vnz |rilor dintr-un produs, evaluarea aptitudinilor manageriale
ale unei persoane, cuantificarea imaginii pe care o firm | o are pe pia |, m |surarea for ei financiare a unei firme, aprecierea
gradului de dezvoltare economic | a |ri, evaluarea gradului de profitabilitate a unei firme etc., reprezint| probleme care conduc
la necesitatea efectu |rii unor evalu |ri de tip indirect, pe baz | de intermediere, f|cndu-se apel la o serie de entit|i observabile,
cunoscute sub numele de teste sau indicatori.
Pe baza informa iilor colaterale i cu ajutorul unor instrumente specifice, pot fi ob inute dimension |ri de natur | cantitativ |
pentru factorii neobservabili i pot fi construite scale de m |surare pe care ace tia s | poat | fi evalua i.
Un rol unic n acest sens, rol bine determinat i extrem de important n activitatea de evaluare i cuantificare a factorilor
de natur | neobservabil| i de construire a unor scale de m |surare pentru ace ti factori, revine tehnicilor de analiz | cunoscute
sub numele generic de analiz| factorial|.
Deducerea, pe cale indirect|, a informa iilor referitoare la factorii neobservabili se bazeaz | pe identificarea unor variabile
indicator sau pe construirea unor teste, care s | furnizeze informa iile necesare aplic |rii tehnicilor de analiz | factorial|.
Pe baza informa iilor referitoare la variabilele de tip indicator, analiza factorial| i propun | de deduc | substan a
informa ional| con inut| n observa iile acestor variabile indicator, substan | comun | tuturor acestor variabile.
Ob inerea de informa ii necesare pentru deducerea unor aproxim |ri cantitative pentru factorii comuni este bazat| pe
existen a unor variabile speciale denumite indicatori, teste sau m |suri.
Definiie: Indicatorul sau testul este o variabil| ale c |rei observa ii, cunoscute sub numele de scoruri, sunt utilizate
n cadrul analizei factoriale n scopul de a produce evalu |ri numerice pentru factorul sau factorii comuni.
n analiza factorial| se presupune c | leg |tura dintre variabilele indicator i factorii comuni poate fi exprimat | sub o form |
liniar |, exprimare care conduce la necesitatea estim |rii coeficien ilor care intervin n definirea respectivei forme.
Prin raportare la contextul terminologiei utilizate n cadrul analizei componentelor principale, se poate spune c | indicatorii
sau testele sunt reprezentate de variabilele originale. Vom presupune n continuare c | n analiz | exist| n indicatori sau n teste
i vom simboliza ace ti indicatori cu
.
Observa iile existente cu privire la cei n indicatori, observa ii ob inute prin extragerea unui e antion aleator de volum T
din popula ia ale c |rei unit|i sunt caracterizate de cei n indicatori, reprezint| scorurile indicatorilor sau scorurile testelor.
O ipotez | important | a analizei factoriale const | n presupunerea conform c |reia nivelul unei variabile indicator se
formeaz | ca urmare a unor influen ei conjugate, exercitate att de factorul sau factorii comuni, ct i de un factor unic. n afara
acestor influen e cu natur | semnificativ |, asupra nivelului unei variabile indicator se mai exercit| i influen a erorilor de
m |surare, influen | considerat| a fi neglijabil|.
Departe de a avea o semnifica ie m |car comparabil| cu aceea a factorilor comuni, factorul unic are, totu i, o natur | similar |
cu cea a acestor factori: influen eaz | nivelul unei variabile indicator i are natur | neobservabil|. Spre deosebire de factorul
comun, a c |rui influen | se manifest | la nivelul tuturor variabilelor indicator, factorul unic este caracterizat prin aceea c |
influen a sa are o natur | particular |, unilateral|, considerat| a se exercita sau exprima numai la nivelul unei singure variabile
indicator. Din acest motiv, num |rul de factori unici coincide cu num |rul de indicatori sau de teste.
Vom folosi pentru notarea celor n factori unici, care sunt asocia i celor n indicatori, simbolurile
. Factorul unic
poate fi definit sub forma urm |toare:
Definiie: Factorul unic reprezint| o entitate informa ional| de natur | particular |, care i exercit| influen a n mod
unilateral, asupra unei singure variabile indicator, i care nu poate fi supus | unei proces direct de observare i m |surare.
n analiza factorial| variabilele indicator sunt considerate a fi dependente de factorii comuni i de factorul unic, n mod
similar cu dependen a descris | de modelele de regresie, n care variabila dependent| este reprezentat| de indicator sau test,
variabilele independente sunt reprezentate de factorii comuni, iar termenul eroare este reprezentat de factorul unic i de factorul
rezidual. Considernd cazul celei de-a i-a variabile indicator, un astfel de model de regresie are forma urm |toare:
Deosebirea acestui tip de model fa | de un model de regresie autentic, const | n aceea c | variabilele sale independente,
, sunt variabile aleatoare neobservabile.
Vom ilustra i vom concretiza con inutul celor trei m |rimi fundamentale definite anterior, respectiv indicator, factor comun
i factor unic, prin intermediul urm |torului exemplu.
Exem plul 7.2
n scopul evalu|rii nivelului de inteligen| general| i a capacit|ii de memorare ce caracterizeaz| fiecare dintre cei 10 studeni ai unei
grupe ipotetice, vom presupune c| dispunem de notele obinute de acetia la 5 examene: Matematic|, Informatic|, Economie, Istorie, Englez|.
Rezultatele se g|sesc n tabelul urm|tor.
Situaia notelor obinute de studenii unei grupe
Tabelul 7.1
Student
Note obinute
Matematic|
Informatic|
Economie
Istorie (h)
Englez| (g)
Medie
student
7,65
6,85
9,00
8,50
7,45
8,00
9,30
9,35
8,75
7,15
S1
S2
S3
S4
S5
S6
S7
S8
S9
S10
6,25
5,50
9,25
8,00
5,75
7,50
10,00
9,50
6,50
5,25
8,25
7,50
9,75
7,75
6,00
8,00
9,25
9,75
8,25
6,75
7,25
7,50
9,25
9,00
7,25
6,75
9,00
8,50
9,25
7,00
8,00
6,75
8,50
8,50
10,00
8,75
9,00
10,00
9,75
8,25
8,50
7,00
8,25
9,25
8,25
9,00
9,25
9,00
10,00
8,50
Media
7,350
8,125
8,075
8,750
8,700
3,1139
1,5035
1,0285
1,0139
0,6500
Variana
n limbajul analizei factoriale, cele cinci examene reprezint| variabilele indicator sau testele. Factorii comuni sunt, n acest caz,
inteligena i memoria. Notele obinute de studeni la examene reprezint| scorurile testelor.
61
Ipoteza raionamentului specific analizei factoriale este aceea c| rezultatele obinute de studeni sunt intercorelate, ca urmare a faptului
c| ele sunt influenate de dou| caracteristici care sunt comune tuturor studenilor: inteligena i capacitatea de memorare.
n tabelul urm|tor sunt prezentai coeficienii de corelaie dintre cele cinci variabile indicator. Faptul c| notele obinute la cele cinci
discipline sunt corelate, ntre ele, ntr-o m|sur| mai mare sau mai mic|, constituie suportul pentru a considera c| n obinerea acestor note
se manifest| ceva care este comun tuturor disciplinelor, indiferent de natura acestora. n aceste condiii, este natural a presupune c| elementele
comune, care determin| corelarea rezultatelor, in de inteligena nativ| a indivizilor i de capacitatea lor de memorare.
Matricea de corelaie a variabilelor indicator
Tabelul 7.2
Discipline
Matematic|
Informatic|
Economie
Istorie
Englez|
Matematic|
1,00
0,86
0,77
0,15
0,30
Informatic|
0,86
1,00
0,73
0,09
0,24
Economie
0,77
0,73
1,00
0,23
0,39
Istorie
0,15
0,09
0,23
1,00
0,73
Englez|
0,30
0,24
0,39
0,73
1,00
Inteligena i capacitatea de memorare reprezint| doi factori care influeneaz| notele obinute de fiecare student la fiecare dintre
examenele susinute, cu diferene de la student la student, n funcie de inteligena i memoria proprii fiec|ruia dintre studeni.
n afara celor doi factori comuni, nota obinut| de studeni la fiecare dintre examene este influenat| i de un factor unic, factor care
reprezint| aptitudinile studentului pentru domeniul de care aparine disciplina respectiv|. De exemplu, separat de nivelul de inteligen| i
de capacitatea de memorare, un student poate avea aptitudini speciale pentru domeniul Informaticii. Influena acestor aptitudini asupra notei
obinute la informatic| se va concretiza prin intermediul factorului unic asociat cu acest indicator, adic| prin intermediul factorului unic .
Rezult| c| performanele obinute de studeni la fiecare examen pot fi descrise cu ajutorul unor ecuaii de regresie de forma:
,
unde
influeneaz| notele, iar
reprezint| coeficienii
62
Definiie: Analiza factorial| exploratorie reprezint| acea modalitate de utilizare a analizei factoriale care are ca scop
detectarea unei structuri a dependen ei i generarea unor construc ii teoretice, cunoscute sub numele de factori comuni.
n varianta sa de analiz | exploratorie, analiza factorial| reprezint| o tehnic | de identificare a structurii dependen ei, de
generare a unor construc ii teoretice. Analiza factorial| de tip exploratoriu nu presupune cunoa terea aprioric | a structurii
dependen ei cauzale sau cunoa terea aprioric | a factorilor.
Definiie: Analiza factorial| confirm atorie reprezint| acea modalitate de utilizare a analizei factoriale, care are ca
scop confirmarea unor ipoteze i teorii privind structura unei dependen e cauzale.
n analiza factorial| confirmatorie, structura dependen ei cauzale sau construc ia cauzal| teoretic | sunt presupuse a fi
cunoscute, adic | date prin ipotez |. Prin intermediul teoriei de acest tip se urm |re te confirmarea unei anumite teorii, verificarea
acestei teorii pe cale empiric |.
fiecare factor unic influen nd una i numai una dintre variabilele considerate;
o mulime de n factori reziduali,
, a c |ror influen | se consider | a fi exercitat| tot n mod individual,
fiecare factor rezidual influen nd cte o singur | variabil|.
Din punct de vedere statistic, se consider | c | influen ele semnificative, care trebuie re inute n analiz |, sunt cele exercitate
de factorii comuni i unici, n timp ce influen ele factorilor reziduali, se consider | a avea caracter accidental, nesemnificativ.
La nivelul fiec |rei variabile, influena factorului rezidual corespunz |tor poate fi considerat| a fi neglijabil| i este asimilabil|
erorilor de m |surare. Din acest motiv, factorii reziduali se mai numesc i erori.
n ceea ce prive te factorii comuni, exist| posibilitatea ca n cazul anumitor variabile influen a lor asupra acestor variabile
s | fie neglijabil| sau chiar nul|, ceea ce nseamn | c | factorii respectivi pot fi elimina i din lista factorilor pentru variabila
respectiv |. n aceste condiii, este posibil ca schema de influen| pentru anumite variabile s | con in | mai muli factori comuni,
iar pentru alte variabile mai pu ini. Num |rul de factori comuni cu influen | semnificativ | asupra variabilei indicator determin |
complexitatea variabilei indicator respective.
Faptul c | influen ele considerate sunt structurate pe cele trei categorii de factori, determin | o anumit| structur | a modelului
factorial general, structur | eviden iat| de rea iile urm |toare:
sunt func ii reale de p+1 variabile, func ii care pot fi liniare sau nelininare n raport cu variabilele.
pot fi, n principiu, liniare sau neliniare, aproape n toate cazurile, att n cele legate de teoria
analizei factoriale, ct i n cele legate de utilizarea acesteia n aplica ii, este considerat| varianta liniar |, ceea ce nseamn | c |
rela iile care definesc modelul au forma urm |toare:
Coeficien ii factorilor sunt cunoscu i sub numele de intensit|iale factorilor. Prin magnitudinea sa coeficientul m |soar |
intensitatea influen ei exercitate de factorul corespunz |tor asupra nivelului variabilei indicator, iar prin semnul s |u m |soar |
sensul influen ei exercitate.
Definiie: Se nume te intensitate a unui factor comun
cu cte unit|i se modific | nivelul variabilei indicator
m |rimea
, care arat|
cre te cu o unitate.
Cea de-a doua ipotez | pe care se fundamenteaz | analiza factorial| este aceea c | n con inutul informa ional al variabilelor
aleatoare
se reg |sesc informa ii cu privire la factorii comuni i unici, ceea ce nseamn | c | ele pot fi folosite ca
indicatori ai acestor factori, ca semnale informa ionale generate de ace ti factori.
64
Avnd n vedere c | la nivelul unei variabile indicator, nu se poate face, sub nici o form |, o distinc ie clar | ntre factorul
unic i factorul rezidual, din motive legate de simplificare i de crearea posibilit|ilor de solu ionare efectiv | a problemei de
analiz | factorial|, factorul rezidual este neglijat sau, ceea ce nseamn | acela i lucru, este unificat cu factorul unic. n consecin |,
modelul factorial cap |t| forma urm |toare:
Deoarece, de regul| variabilele indicator sunt considerate a fi centrate, matricea de corela ie a acestora coincide cu matricea
de covarian |. n ceea ce prive te cei n factori comuni, vom nota matricea de covarian | a acestora sub forma urm |toare:
reprezin-
se folose te nota ia
, adic |
. Dac | factorii comuni sunt m |rimi standardizate, atunci matricea de corela ie a factorilor comuni coincide cu matricea
de covarian | a acestor factori. n aceast| situa ie, elementele diagonale sunt egale cu unitatea, respectiv
comuni. mpreun | cu factorul unic, ace ti factori determin | un spa iu (p+1)-dimensional numit spa iul test sau spa iul factor.
Definiie: Spa iul test sau spa iul factor este un spa iu real, de dimensiune (p+1), ale c |rui axe sunt ortogonale dou |
cte dou | i sunt reprezentate de factorii comuni
i de factorul unic .
65
Variabilitatea ce caracterizeaz | celor dou | spa ii implicate n analiz |, spa iul original i spa iul test, este m |surat| prin
intermediul varian ei sau dispersiei.
n analiza datelor se consider | c |, pentru oricare dintre variabilele care definesc spa iul cauzal original, varian a este o
m |sur | a informa iei con inut| n observa iile efectuate asupra respectivei variabile.
ntre gradul de variabilitate specific unei variabile i semnifica ia informa ional-statistic | produs | de observa iile f|cute
asupra respectivei variabile exist| un stabil raport de direct| propor ionalitate, considerndu-se c | o variabil| este cu att mai
semnificativ | cu ct variabilitatea sa este mai mare.
, poate fi
unde m |rimile
reprezint|, a a cum o s | ar |t|m n continuare, tot varian e. Aceast | rela ie define te descompunerea
varian ei unei variabile indicator n func ie de varian ele celor trei categorii factori care influen eaz | variabila respectiv |. De i
cele trei componente ale descompunerii au natur | de varian e, ele nu trebuie identificate ca reprezentnd varian e ale factorilor,
deoarece descompunerea este f|cut | doar n func ie de varian ele factorilor. Cu excep ia celei de-a treia componente a
descompunerii, care este chiar varian a factorului rezidual, primelor dou | componente nu li se poate atribui calitatea de varian e
ale factorilor.
Primele dou | componente sunt determinate de coeficien ii care pondereaz | varian elor factorilor, ceea ce nseamn | c | ele
reprezint| contribu ii ale varian elor factorilor la formarea varian ei variabilei indicator. De fapt, n condiiile unor ipoteze
privind necorelarea factorilor, forma complet| a rela iei de descompunere a varian ei variabilei indicator poate fi scris | astfel:
.
Este evident c | p |tratele coeficien ilor care pondereaz | varian ele factorilor reprezint| contribu ii ale factorilor la formarea
varian ei variabilei indicator. Forma simplificat| a descompunerii rezult| din impunerea ipotezei c | varian ele factorilor comuni
i unic sunt egale cu unitatea i din definirea comunalit|ii ca sum | a contribu iilor factorilor comuni la formarea varian ei
indicator, respectiv:
.
Componenta cea mai important | a varian ei variabila indicator
comuni la formarea varian ei variabilei indicator i care poate fi privit|, la rndul s|u, ca o varian |.
Definiie: Com unalitatea este acea parte a varian ei unei variabile indicator, care exprim | variabilitatea indus | de
influen a factorilor comuni
.
Avnd n vedere c | la formarea variabilit |ii unei variabile indicator contribuie, n principiu, to i cei n factori comuni,
comunalitatea poate fi descompus |, la rndul s|u, n raport cu cele n influen e.
Cea de-a doua component | a varian ei variabilei indicator, numit| unicitate, exprim | contribu ia factorului unic la formarea
varian ei variabilei indicator i are, de asemenea, natur | de varian |. Ea se mai nume te i varian | unic |, i se define te astfel:
Definiie: Unicitatea este acea parte a varian ei unei variabile indicator, care exprim | variabilitatea indus | de influen a
factorului unic i care nu poate fi explicat| prin intermediul factorilor comuni.
66
Ultima component | a varian ei variabilei indicator, respectiv cea datorat| factorului rezidual, reflect| influen a erorilor de
m |surare asupra form |rii variabilit|ii variabilei indicator i se mai nume te i varian | rezidual| sau varian | eroare. De cele
mai multe ori, aceast| influen | este considerat| a fi neglijabil| n raport cu celelalte influen e.
Cu excep ia varian ei reziduale, care exprim | influen a factorilor cu natur | accidental|, a cauzelor aleatorii, imprevizibile
i nesemnificative, celelalte dou | componente, comunalitatea i unicitatea, exprim | influen e de natur | sistematic | asupra
form |rii variabilit|ii variabilei indicator, influen e cu caracter permanent i stabil. Din acest punct de vedere, varian a variabilei
indicator poate fi privit| ca fiind suma a dou | tipuri de varian e: varian a sistematic | i varian a rezidual|. Dac | vom nota
varian a sistematic | cu
, adic |:
,
direc ionalitate specific |, bine determinat|, fiind raportate numai la o anumit| variabil| indicator. Din acest punct de vedere,
contribu ia celor doi factori la formarea varian ei variabilei indicator este numit| specificitate, care se define te sub forma:
.
Pe baza acestei noi redefiniri a componentelor, varian a variabilei indicator poate fi rescris | sub forma urm |toare:
,
ceea ce nseamn | c |:
.
Exem plul 7.3
Pentru a evidenia componentele prin intermediul c|rora poate fi descompus| variana variabilelor indicator, vom considera datele din
exemplul 7.1 i vom efectua analiza factorial| pe matricea de corelaie urm|toare:
Valorile proprii corespunz|toare matricii de corelaie evideiaz| faptul c| exist| doi factori comuni importani, care explic| un procent
de 78,30% din variana total| a variabilelor indicator. n tabelul urm|tor sunt prezentate informaiile referitoare la contribuia varianelor
factorilor la formarea varianei totale a variabilelor indicator.
Contribuiile iniiale ale varianelor factorilorla formarea varianei totale a variabilelor indicator
Tabelul 7.3
Factor
comun
Varian| explicat|
Valoare
proprie
Individual
Cumulat
Individual
Cumulat
2,679102
2,358245
2,679102
53,58204
53,58204
1,235815
1,556673
3,914917
24,71630
78,29835
Diferen|
1,085083
5,000000
21,70164
100,00000
Dup| rotaia structurii factor, efectuat| n scopul asigur|rii unei interpretabilit|i mai corecte pentru cei doi factori, varianele factorilor
i contribuiile acestora la formarea varianei variabilelor indicator se modific| astfel:
Contribuiile modificate ale varianelor factorilor la formarea varianei totale a variabilelor indicator
Tabelul 7.4
Factor
comun
Varian| explicat|
Valoare
proprie
Individual
Cumulat
Individual
Cumulat
2,358245
2,358245
2,679102
47,16490
47,16490
1,556673
1,556673
3,914917
31,13346
78,29836
Diferen|
1,085083
5,000000
21,70164
100,00000
n ceea ce privete descompunerea varianei variabilelor indicator pe componente, vom considera c| cele dou| componente sunt
reprezentate de comunalitate i specificitate, ceea ce nseamn| c| presupunem o comasare a factorului unic cu factorul rezidual. Rezultatele
67
Variabila
indicator
Intensit|i
Tipuri de variane
Inteligen|
Memorie
Total|
Comunalitate
Specificitate
Matematic|
0,93797
0,13158
1,00000
0,89710
0,10290
Informatic|
0,90689
0,06630
1,00000
0,82685
0,17315
Economie
0,78539
0,25461
1,00000
0,68167
0,31833
Istorie
0,05008
0,78158
1,00000
0,61338
0,38662
Englez|
0,19147
0,92696
1,00000
0,89592
0,10408
Varian|
2,358245
1,556673
5,00000
3,91492
1,08508
Pentru fiecare variabil| indicator, prima component| a varianei, comunalitatea, reprezint| suma p|tratelor intensit|ilor celor doi factori.
De exemplu, pentru prima variabil| indicator, comunalitatea se obine astfel:
.
Informaiile referitoare la specificitate, adic| datele din ultima coloan|, au fost determinate prin diferen| ntre variana fiec|rei variabile
i comunalitatea corespunz|toare celor doi factori. De exemplu, pentru cazul primei variabile indicator, specificitatea se determin| astfel:
.
Facem precizarea c| aceast| component| a varianei include influena combinat| a factorului unic i a factorului rezidual. De asemenea,
se poate verifica faptul c| suma p|tratelor intensit|ilor care apar n coloana fiec|rui factor comun reprezint| variana factorului comun
respectiv. n cazul primului factor, vom avea:
.
68
variabilele indicator i factorii comuni i faciliteaz | interpretarea esen ei factorilor comuni, prin prisma naturii pe care o au
variabilele indicator. Spre deosebire de configura ia factorial| care sintetizeaz | exprimarea variabilelor indicatori sub form |
de combina ii liniare de factorii comuni i specifici, structura factorial| eviden iaz | schema leg |turilor existente ntre indicatori
i factori.
Structura factorial| este considerat| n cadrul analizei factoriale ca fiind una dintre numeroasele solu ii posibile pentru o
anumit| problem | concret|. De altfel, structura factorial| mai este cunoscut| n literatura de specialitate i sub numele de solu ie
factor sau solu ie factorial|.
n numeroase situa ii practice, solu ia factorial| ob inut| iniial nu ntrune te toate condiiile necesare pentru a permite o
interpretare facil | a factorilor. De multe ori, se poate ntmpla, ca elementele structurii factor s| sugereze interpret|ri ale
factorilor care s | vin | n contradic ie cu posibila esen | ce poate fi atribuit|, n mod logic, factorilor.
n aceste situa ii este necesar | g |sirea altor solu ii factor, care s | permit| o mai bun | interpretare i o mai consistent |
interpretare a factorilor. n scopul cre terii posibilit|ilor de interpretare i a consisten ei acestor interpret|ri, structura factor
poate fi supus | unei proces de rota ie, n urma c |ruia rezult| structura factor rotit|.
i matricea factor F definit| mai sus, atunci matricea Z de dimensiune pT definit| astfel:
,
se nume te m atricea scorurilor factor. Scorurile factor determinate n acest fel pot fi folosite n analize ulterioare, n locul
valorilor variabilelor originale.
Exem plul 7.4
n cadrul unei cercet|ri avnd ca obiectiv determinarea nivelului de dezvoltare economico-social| a 10 zone geografice din ar|, a fost
selectat un num|r de 6 indicatori de natur| economico-social|: capitalul industrial, cifra de afaceri a firmelor, profiturile obinute,
cheltuielile pentru nv||mnt, cheltuielile pentru cultur| i cheltuielile pentru s|n|tate. Valorile nregistrate, la nivelul unui an, de cele 10
zone geografice la cei ase indicatori sunt cuprinse n tabelul urm|tor.
Indicatori economico-sociali ai zonelor geografice
Tabelul 7.6
Capital
Cifra
Cheltuieli
Cheltuieli
Cheltuieli
Zona
Profituri
industrial
afaceri
nva|mnt
cultur|
s|natate
Z1
Z2
Z3
Z4
Z5
Z6
Z7
2148,900
1056,550
2198,990
2632,350
1636,510
2267,880
1906,490
1210,550
1213,010
1088,890
1820,490
1067,480
1647,610
1853,010
545,600
531,790
565,130
670,400
459,570
554,970
855,100
69
588,560
1045,790
956,020
925,580
635,510
737,490
656,820
257,860
424,770
418,230
292,300
263,940
255,550
290,810
501,650
631,150
698,470
679,330
451,970
520,530
628,740
Zona
Capital
industrial
Cifra
afaceri
Profituri
Cheltuieli
nva|mnt
Cheltuieli
cultur|
Cheltuieli
s|natate
Z8
Z9
Z10
2756,080
1299,630
1160,220
1708,620
1077,580
1059,650
724,730
401,760
305,210
754,030
768,900
459,540
320,480
205,690
206,590
454,930
592,250
477,780
1906,361
1374,690
561,427
752,824
293,622
563,680
600,378
338,329
158,985
180,565
76,285
93,416
Media
Abatere std
Matricea de corelaie corespunz|toare valorilor celor 6 variabile indicator din tabel, este urm|toarea:
acestor valori proprii, factori care justific| un procent de 73,02% din variana variabilelor indicator.
n tabelul urm|tor sunt prezentate informaii cu privire la modul n care variana total| a variabilelor indicator poate fi explicat| prin
intermediul a doi factori comuni.
Contribuiile iniiale ale varianelor factorilor la formarea varianei totale a variabilelor indicator
Tabelul 7.7
Factor
comun
Varian| explicat|
Valoare
proprie
Individual
Cumulat
Individual
Cumulat
2,72029
2,72029
2,72029
45,3381
45,3381
1,66104
1,66104
4,38132
27,6839
73,0220
Diferen|
1,61868
6,00000
26,79797
100,00000
n tabelul urm|tor sunt prezentate informaii referitoare la o prim| soluie obinut| din aplicarea analizei factoriale. Tabelul conine
informaii cu privire la intensit|ile factorilor, la descompunerea varianei variabilelor indicator ntre factorii comuni i factorul specific,
dprecum i la coeficientul de corelaie multipl| dintre fiecare variabil| indicator i cei doi factori comuni.
Coeficienii factorilor comuni i componena varianei variabilelor indicator
Tabelul 7.8
Varian|
Indicatori
Total
Coeficienii
factorilor
Total|
Comun|
E
E+S
Specific|
0,60126 -0,37631
1,00000
0,36152
0,14161
0,50313
0,49687 0,50461
0,76731 -0,53782
1,00000
0,58876
0,28925
0,87801
0,12199 0,84882
0,85686 -0,34414
1,00000
0,73421
0,11843
0,85264
0,14736 0,87266
0,63448 0,69868
1,00000
0,40256
0,48815
0,89072
0,10928 0,81838
0,56859 0,61254
1,00000
0,32329
0,37521
0,69850
0,30150 0,80812
0,55673
0,49837
1,00000
0,30995
0,24837
0,55832
0,44168 0,60667
6,00000
2,72029
1,66103
4,38132
1,61868
Procent
100,0% 45,34% 27,68% 73,02% 26,98%
Avnd n vedere natura variabilelor indicator utilizate i rezultatele obinute, se poate trage concluzia c| cei doi factori comuni pot fi
interpretai ca reprezentnd gradul de dezvoltare economic| (E) i gradul de dezvoltare social| (S). Configuraia factorial| i structura factor,
corespunz|toare soluiei iniiale, sunt prezentate n tabelul urm|tor.
Descompunerea varianei variabilelor indicator
Tabelul 7.9
Configuraia
factor
Structura
factor
Varian|
comun|
Variabila
indicator
E
S
E
S
E
S
0,60126
-0,37631
0,60126
-0,37631
0,36152
0,14161
0,76731
-0,53782
0,76731
-0,53782
0,58876
0,28925
0,85686
-0,34414
0,85686
-0,34414
0,73421
0,11843
70
0,63448
0,69868
0,63448
0,69868
0,40256
0,48815
0,56859
0,61254
0,56859
0,61254
0,32329
0,37521
0,55673
0,49837
0,55673
0,49837
0,30995
0,24837
Total
Coeficienii
factorilor
Total|
Comun|
E
E+S
Specific|
0,70639
0,06434
1,00000
0,49899
0,00414
0,50313
0,49687 0,50461
0,93632
0,03627
1,00000
0,87669
0,00132
0,87801
0,12199 0,84882
0,89039
0,24465
1,00000
0,79279
0,05985
0,85264
0,14736 0,87266
0,08221
0,94019
1,00000
0,00676
0,88396
0,89072
0,10928 0,81838
0,08190
0,83174
1,00000
0,00671
0,69179
0,69850
0,30150 0,80812
0,14155
0,73368
1,00000
0,02004
0,53829
0,55832
0,44168 0,60667
6,00000
2,20198
2,17935
4,38190
1,61868
Procent
100,00 36,70% 36,32% 73,02% 26,98%
Analiza soluiei obinute n urma rotaiei structurii factor, evideniaz| cu claritate c| primul factor comun este puternic corelat cu primele
trei variabile indicator, iar cel de-al doilea factor este puternic corelat cu ultimele trei variabile indicator. n ambele situaii, coeficienii de
corelaie au valori pozitive i mai mari dect 0,70, justificnd ideea de corelaie puternic|.
Faptul c| primele trei variabile indicator, respectiv capitalul industrial, cifra de afaceri i profiturile, sunt de natur| economic|, iar
ultimele trei variabile indicator, respectiv cheltuielile pentru nv||mnt, cheltuielile pentru cultur| i cheltuielile pentru s|n|tate, sunt de
natur| social|, permite ca primului factor comun s| i se atribuie semnificaia de factor economic, iar celui de-al doilea factor comun s| i se
atribuie semnificaia de factor social. Corelarea foarte puternic| dintre cele dou| grupe de variabile indicator i cei doi factori comuni
constituie un temei pentru a considera c|, ntr-adev|r, primul factor comun reprezint| gradul de dezvoltare economic|, iar cel de-al doilea
factor comun reprezint| gradul de dezvoltare social|.
n afara celor doi factori comuni, nivelul variabilelor indicator se formeaz| i sub influena factorilor specifici. M|sura n care factorii
specifici influeneaz| variabilele indicator este reflectat| de m|rimea varianei specifice. Modelul factorial, corespunz|tor informaiilor
definite anterior, este reprezentat de urm|toarele ecuaii factoriale:
.
Efectund analiza factorial| pe datele coninute n tabelul de mai sus, am obinut urm|toarea form| estimat| a ecuaiilor modelului
factorial:
.
n graficul din figura urm|toare sunt prezentate leg|turile dintre variabilele indicatori i factori i sunt evideniate intensit|ile cu care
aceste leg|turi se manifest|.
71
72
Coeficienii
factorilor
Total|
Comun|
E
E&S
Total
Specific|
0,61824 -0,02381
1,00000
0,38223
0,62468
0,82509 -0,07497
1,00000
0,68077
0,34503
0,76058
0,11483
1,00000
0,57848
0,01319
0,04438 0,63604
0,36396
-0,03472
0,82326
1,00000
0,00120
0,33555
-0,02259
0,72725
1,00000
0,00051
0,47895
0,04146
0,63358
1,00000
0,00172
0,40142
0,01335 0,41649
0,58351
Total
6,00000
1,64491
2,73170
Procent
100,00
27,42%
45,53%
Deoarece factorii comuni sunt corelai, structura factorial| este diferit| de configuraia factorial|. n tabelul urm|tor sunt prezentate
informaiile referitoare la configuraia factor i la structura factor, corespunz|toare rezultatelor anterioare.
Configuraia factor i structura factor
Tabelul 7.12
Indicatori
Configuraia factor
Structura factor
0,70639
0,06434
0,61824
-0,02381
0,93632
0,03627
0,82509
-0,07497
0,89039
0,24465
0,76058
0,11483
73
0,08221
0,94019
-0,03472
0,82326
0,08190
0,83174
-0,02259
0,72725
0,14155
0,73368
0,04146
0,63358
74
Metodele i tehnicile de clasificare, respectiv teoria recunoa terii formelor, reprezint| una dintre cele mai moderne i
interesante probleme ale gndirii tiin ifice contemporane, constituind un domeniu tiin ific c |ruia i se acord | o importan | din
ce n ce mai mare, iar aplica iile acestora sunt din ce n ce mai numeroase i mai variate.
Domeniu bine conturat al inteligen ei artificiale, cu tendin | din ce n ce mai accentuat| de autonomizare, recunoa terea
formelor s-a dezvoltat n strns | interdependen | cu progresele nregistrate n domeniul tehnicii de calcul i informaticii, ultimele
decenii fiind caracterizate printr-o dezvoltare exploziv | a tehnicilor de acest fel.
Scopul general al teoriei recunoa terii formelor l reprezint| identificarea la nivelul unor mulimi complexe i eterogene
de forme sau obiecte a unor structuri, grup |ri, clase sau clustere existente la nivel latent n cadrul acestor mul imi i care se
contureaz | n mod natural, n func ie de asem |n |rile i deosebirile existente ntre elementele acestor mul imi.
Dezvoltarea tehnicilor de recunoa tere a formelor poate fi privit| att ca proces independent, impus de necesitatea adncirii
cunoa terii din diverse domenii de activitate i stimulat de evolu ia tehnicii de calcul, ct i ca un r |spuns la necesit|ile de
simplificare i perfec ionare a schimbului informa ional om-ma in |.
Avnd aplica ii n cele mai diverse i surprinz |toare domenii de activitate, teoria recunoa terii formelor a cunoscut n
ultimii ani progrese cu adev |rat uimitoare, ajungndu-se n prezent la un nivel de performan | tehnico-tiin ific | care permite
chiar construirea unor ma ini specializate n recunoa terea anumitor tipuri de forme.
Aflat| la intersec ia unor domenii fundamentale cum sunt tiin a calculatoarelor, teoria informa iei, teoria deciziei,
geometria, teoria probabilit|ilor i statistica matematic |, recunoa terea formelor cunoa te n prezent aplica ii a c |ror palet|
se ntinde de la cercetarea antropologic | i pn | la proiectarea harware i software.
n domeniul economico-social teoria recunoa terii formelor i g |se te o larg | utilizare mai ales n procesul de analiz| a
datelor i n activitatea de predic ie. Problema clasific |rii unei mulimi de obiecte este o problem | standard, frecvent ntlnit |
n investigarea socio-economic |, iar abordarea ei presupune utilizarea metodelor i tehnicilor specifice teoriei recunoa terii
formelor.
Numeroase probleme din domeniul analizei datelor, ncepnd cu cele legate de identificarea caracteristicilor definitorii
pentru cele mai diverse categorii de fenomene i terminnd cu cele legate de delimitarea func ional|, ierarhizarea structural|
sau sintetizarea informa ional| a unor mulimi de fenomene i procese economico-sociale, i g |sesc rezolvarea prin intermediul
aplic |rii unor concepte i instrumente a c |ror paternitate este, indiscutabil, legat| de teoria recunoa terii formelor.
Metodele i tehnicile apar innd teoriei recunoa terii formelor sunt de nenlocuit n analizele care opereaz | cu cantit|i mari
de informa ie, unde necesitatea de a esen ializa i sintetiza interdependen ele implic | un proces continuu de clasificare i
structurare a informa iilor. Practic, tehnicile de recunoa tere a formelor reprezint| instrumente cu ajutorul c |rora poate fi
st|pnit| i controlat| marea complexitate informa ional| ce caracterizeaz | fenomenele i procesele economico-sociale.
O utilizare i mai larg | a teoriei recunoa terii formelor este ntlnit | n domeniul predic iilor. Activitatea de realizare a
predic iilor poate fi privit| ca un proces ale c |rui caracteristici sunt foarte apropiate, mergnd chiar pn | la identificare, de
caracteristicile specifice ale unui proces de recunoa tere a formelor.
Evaluarea st|rilor pe care le poate avea n viitor un fenomen apar innd unei realit|i date reprezint|, de fapt, un proces
de recunoa tere a acelor forme de evolu ie a fenomenului care au cea mai mare probabilitate de realizare. Mai mult, att n
activitatea de predic ie, ct i n procesul de clasificare sau de recunoa tere a formelor, modalit|ile de abordare au o natur |
preponderent probabilistic |. Pe de alt| parte, problema recunoa terii formelor este, ea ns |i, o problem | de predic ie n care,
pornind de la anumite caracteristici ale obiectelor analizate, obiecte numite i forme, se fac predic ii cu privire la apartenen a
acestor obiecte la anumite clase. De altfel, stabilirea apartenen ei formelor la anumite clase reprezint | scopul principal al
utiliz |rii tehnicilor de recunoa tere a formelor.
Semnificativ pentru leg |tura dintre activitatea de predic ie i teoria recunoa terii formelor este faptul c |, n prezent, cele
mai moderne metode i tehnici din domeniul predic iei sunt cele bazate pe o nou | clas | de modele, specifice contur |rii unei noi
modalit|i de abordare n domeniul teoriei recunoa terii formelor, numite re ele neuronale. Modalit|ile de abordare tiin ific |
bazate pe re ele neuronale sunt mult mai concordante cu pronun ata complexitate i imprevizibilitate ce caracterizeaz |
comportamentul fenomenelor i proceselor economico-sociale i ofer | o serie de avantaje importante, n compara ie cu alte
metode i tehnici utilizate n acela i scop.
Avantajele pe care le are modelarea de tip re ea neuronal | sunt comparabile cu avantajele pe care le ofer | modelarea de
tip fuzzy n compara ie cu modelarea clasic |. Spre deosebire de modelele de tip tradiional, care opereaz | n condiii de
simplificare sever |, justificabil| sau nu, a realit|ii, modelele de analiz | i predic ie bazate pe conceptul de re ea neuronal| au
avantajul unei mai mari flexibilit|i i al unei mai mari compatibilit|i cu specificitatea realit|ii modelate, simularea realit|ii
prin intermediul lor avnd un mai mare grad de naturale e.
Pe de alt| parte, modelele de tip re ea neuronal| au avantajul unei continue adaptabilit|i n raport cu modific |rile
intervenite n evolu ia fenomenelor modelate i unei continue autoperfec ion |ri. De asemenea, modelarea bazat | pe re ele
neuronale nu presupune dezvoltarea i utilizarea unui aparat matematic foarte sofisticat, ceea ce face ca implementarea i
utilizarea tehnicilor de acest fel s | fie accesibile unor categorii foarte largi de analiti i cercet|tori.
Re elele neuronale reprezint| modele de mare generalitate i flexibilitate, a c |ror structur | func ional| este continuu
adaptabil| i configurabil| specificului evolu iei unui anumit fenomen i care ncearc | s| simuleze activit|ile de evaluare i
decizie proprii creierului uman.
Tehnicile de recunoa tere a formelor pot fi utilizate n domeniul economico-social pentru rezolvarea unor probleme cum
ar fi: analiza datelor cu grad ridicat de eterogenitate, fundamentarea criteriilor de alegere a proiectelor de dezvoltare, clasificarea
deciziilor n func ie de impactul acestora asupra diverselor compartimente ale vie ii economico-sociale, detectarea unor perioade
76
cu caracter specific din evolu ia unor sisteme economice, stabilirea politicilor de creditare n domeniul financiar-bancar,
evaluarea eficien ei activit|ilor de promovare a unor produse, determinarea perioadelor cele mai potrivite pentru vnzarea
anumitor sortimente de m |rfuri, identificarea celor mai profitabile domenii de afaceri, clasificarea i ierahizarea unor entit|i
economico-sociale etc.
Definiie: Teoria recunoa terii formelor poate fi definit| ca reprezentnd totalitatea normelor, principiilor, metodelor
i instrumentelor de analiz | i decizie utilizate n scopul de a identifica apartenen a unor forme sau obiecte (unit|i,
fenomene, evenimente, ac iuni, procese etc.) la anumite clase cu individualitate bine determinat|.
Se poate spune c | recunoa terea formelor nsumeaz | toate ncerc |rile de construire a acelor modele care simuleaz | modul
n care omul cuantific |, analizeaz |, interpreteaz | i anticipeaz | comportamentul evolutiv al fenomenelor i proceselor.
Din punct de vedere al teoriei sistemelor, recunoa terea formelor poate fi privit| ca un sistem general n care intr |rile
reprezint| mulimea caracteristicilor obiectelor ce urmeaz | a fi clasificate, ie irile reprezint| mulimea claselor posibile din care
pot face parte obiectele analizate, iar func ia de transfer exprim | mecanismul decizional prin care un anumit obiect este
identificat ca f|cnd parte dintr-o anumit| clas |.
77
Num |rul de clase care alc |tuiesc mul imea de ie ire a unui sistem de recunoa tere a formelor variaz | n func ie de specificul
domeniului pentru care se folose te acest sistem i de scopurile urm |rite.
Clasificatorul este un model statistico-matematic care, pe baza informa iilor referitoare la caracteristicile unui anumit
obiect, determin | decizia de clasificare a obiectului ntr-o anumit| clas |. Clasificatorul poate fi privit ca fiind setul de principii,
reguli sau criterii, n func ie de care obiectele analizate sunt atribuite unei clase sau alteia.
Definiie: Clasificatorul sau criteriul de clasificare reprezint| regula sau mul imea de reguli pe baza c |rora obiectele
care apar in mulimii analizate sunt afectate sau atribuite unor clase sau grupe bine definite.
n func ie de natura regulilor utilizate n procesul de clasificare, exist| mai multe categorii de clasificatori: clasificatori ierarhici, clasificatori de cost minim, clasificatori de distan | minimal|, clasificatori de tip Bayes-ian, clasificatori euristici etc.
Ca o consecin | direct| a propriet|ilor pe care le au cele K st |ri ale naturii, clasele care trebuie identificate la nivelul
popula iei , verific | urm |toarele dou | propriet|i:
.
Prima proprietate implic | faptul c | orice obiect din popula ia
face parte, cu necesitate, dintr-una din cele K clase. Cea
de-a doua proprietate implic | faptul c | un anumit obiect nu poate s | fie afectat sau atribuit, n acela i timp, la dou | clase diferite.
Mai mult dect att, este verificat|, n plus fa | de cele dou | condiii, i condiia:
.
Modul n care mul imea st|rilor naturii poate induce o structurare pe clase a popula iei
este ilustrat n tabelul urm |tor.
Tabelul 8.1
St|ri ale naturii
...
Clase n
popula ia
Variabile
descriptor
Obiecte pe clase
...
Scopul principal al metodelor i tehnicilor de clasificare este acela de a explica apartenen a obiectelor mul imii
grupele sau clasele
, utiliznd n acest scop informa iile reprezentate de valorile variabilelor descriptor
la
.
Explicarea apartenen ei obiectelor mul imii la cele K clase presupune, de fapt, deducerea sau identificarea unui criteriu
de clasificare sau a unei reguli de clasificare, care s | descrie modul de structurare a obiectelor popula iei pe clase. Criteriul de
79
Obiecte
de clasificat
...
...
...
...
...
...
...
...
...
...
Obiecte
clasificate
Un element
...
al matricii de clasificare arat| num |rul de obiecte apar innd n mod real clasei
c | num |rul de obiecte clasificate corect este reprezentat de suma elementelor de pe diagonala principal | a matricii clasific |rii,
respectiv:
.
Similar, num |rul de obiecte clasificate incorect este reprezentat de suma elementelor aflate n afara diagonalei principale
a matricii clasific |rii, respectiv:
.
Suma valorilor dintr-o linie a matricii de clasificare reprezint| num |rul de obiecte din clasa de provenien | ce corespunde
liniei respective, indiferent de clasele n care au fost clasificate acestea. Astfel,
reprezint| num |rul de obiecte din clasa de
provenien |
, indiferent de clasa n care acestea au fost clasificate. n mod similar, suma valorilor dintr-o coloan | a matricii
de clasificare reprezint| num |rul de obiecte clasificate n clasa corespunz |toare coloanei, indiferent de clasa de provenien |
a obiectelor. Rezult| c |
reprezint| num |rul de obiecte clasificate n clasa
, indiferent de clasa de provenien | a acestora.
Pe baza informa iilor din matricea de clasificare pot fi defini i o serie de indicatori care caracterizeaz | corectitudinea
clasific |rii. Printre ace tia men ion |m:
80
82
Aceasta nseamn | c | n toate situa iile, criteriul general de clasificare este, de fapt, un criteriu combinat, care poate fi
formulat sub urm |toarea form |:
Criteriu general de clasificare: Clasificarea obiectelor n clase se face n a a fel nct s| se asigure o variabilitate
minim | n interiorul claselor i o variabilitate maxim | ntre clase.
Termenul de analiz| cluster a fost utilizat pentru prima oar | n anul 1939, de c |tre R. C. Tyron, n lucrarea Cluster
Analysis. Acest termen este folosit n prezent ca nume generic pentru o mulime variat| de proceduri i algoritmi de clasificare
de tip necontrolat.
Prin intermediul analizei cluster fiecare obiect din mulimea analizat| este atribuit unei singure clase, iar mul imea claselor
este o mulime discret| i neordonabil|. Clasele rezultate n urma utiliz |rii analizei cluster au o semnifica ie concret| i
generalizatoare, pe baza c |reia pot fi efectuate o serie de interpret|ri i pot fi formulate o serie de concluzii importante pentru
procesul de cunoa tere.
Clasele sau grupele sub forma c |rora se structureaz | mul imile de obiecte se mai numesc i clustere. Un cluster este o
submulime format| din obiecte similare, adic | din obiecte care sunt suficient de asem |n |toare ntre ele din punct de vedere
al caracteristicilor care le definesc.
Definiie: Clusterul este o submulime format| din obiecte care au proprietatea c | gradul de disimilaritate dintre oricare
dou | obiecte apar innd clusterului este mai mic dect gradul de disimilaritate dintre orice obiect care apar ine clusterului
i orice obiect care nu apar ine clusterului respectiv.
Clusterul poate fi privit i ca reprezentnd o regiune a unui spa iu multidimensional, caracterizat| printr-o densitate relativ
mare de puncte sau de obiecte. De exemplu, n cazul aplica iilor informatice, clusterul poate s | fie reprezentat de o submulime
de documente de acela i tip sau cu con inut asem |n |tor. Aceste documente pot fi programe surs |, pagini W EB, fiiere de tip
text, fiiere HTML etc. Un astfel de document poate fi privit ca un punct dintr-un spa iu multidimensional, n care fiecare
dimensiune a spa iului este asociat| cu un anumit cuvnt. Coordonatele care definesc pozi ia unui document n acest spa iu sunt
reprezentate de frecven ele cu care apar diferitele cuvinte n cadrul documentului.
Din punct de vedere geometric, ca mulimi de puncte dintr-un anumit spa iu, clusterele pot avea forme foarte diferite, mai
mult sau mai pu in regulate. Astfel, forma clusterelor poate s| fie de tip convex sau concav, de tip compact sau de tip alungit
etc. n figura urm |toare sunt ilustrate cteva dintre formele posibile ale clusterelor, pentru cazul particular al obiectelor de tip
bidimensional.
83
Din punct de vedere strict teoretic, analiza cluster poate fi privit| ca reprezentnd o modalitate specific | de construire a
uneia sau a mai multor partiii pe mulimea obiectelor analizate. Orice parti ie de acest fel define te o solu ie cluster, adic | un
anumit mod de grupare pe clase a obiectelor mul imii supuse studiului.
Din punct de vedere strict matematic, analiza cluster poate fi privit| ca o modalitate de alegere a celei mai adecvate partiii
sau submulimi din cadrul familiei de p |r i a mulimii de obiecte analizate.
n analiza cluster, ierarhiile cluster sunt formate dintr-un num |r de T solu ii cluster, fiecare solu ie con innd clustere din
ce n ce mai mari, respectiv clustere cu niveluri de agregare din ce n ce mai ridicate. O ierarhie cluster are o structur | de forma
urm |toare:
n cazul metodelor ierarhice aglomerative, num |rul de clustere din prima parti ie este egal cu num |rul de obiecte, adic |
. De asemenea, num |rul de clustere dintr-o parti ie de la un anumit nivel este mai mic cu 1 dect num |rul de clustere din
parti ia de la nivelul inferior i mai mare cu 1 dect num |rul de clustere din parti ia de la nivelul superior, respectiv:
.
Avnd n vedere c | prima parti ie ob inut| dintr-o clasificare ierarhic | aglomerativ | este solu ie cluster de tip banal,
reprezentat| chiar de lista obiectelor supuse clasific |rii, rezult| c | num |rul de parti ii propriu-zise, ob inute ca solu ii ale
clasific |rilor de acest tip, este egal cu T-1.
Analiza cluster se deosebe te n mod fundamental de procedurile de natur | statistic |, cum ar fi cele care au ca scop
verificarea semnifica iei, prin faptul c | ea nu se bazeaz | i nu presupune ndeplinirea aprioric | a nici unei ipoteze specifice. n
consecin |, prin esen a sa, analiza cluster constituie un important i eficient instrument de analiz| exploratorie.
Se poate spune c | scopul general al analizelor de tip cluster este acela de creare a a a-numitelor taxonomii sau tipologii.
Construc ia tipologiilor este bazat| pe analiza asem |n |rilor i deosebirilor existente ntre obiectele unei mulimi date.
Necesitatea de a construi tipologii apare n cele mai diverse domenii de activitate, existen a tipologiilor oferind largi
posibilit|i pentru analiza i interpretarea fenomenelor apar innd acestor domenii.
De i folosirea tehnicilor de analiz | cluster nu este specific | doar pentru anumite domenii de activitate, totu i, utilizarea
cea mai frecvent | a acestora este ntlnit | n domeniul marketingului, n investiga iile de natur | psihosocial| sau n evalu |rile
econo-micosociale la nivel teritorial.
n domeniul marketingului, se deta eaz | aplica iile tehnicilor de analiz | cluster n studierea comportamentului
consumatorilor. Aceste aplica ii vizeaz | evaluarea anselor pe care poate s | le aib | lansarea unui produs nou, identificarea unor
noi pie e, modalit|ile de segmentare a pie ii sau identificarea poziion |rii pe pia | a produselor diferiilor produc |tori.
Posibilitatea de a deduce tipologii specifice pe mulimea clienilor unei firme este deosebit de important | pentru fundamentarea
i stabilirea politicilor comerciale ale firmei.
n cazul determin |rii pozi ion |rii pe pia | a diferitelor m |rci ale unui produs, analiza cluster este folosit| pentru a clasifica
m |rcile de fabrica ie, n func ie de similitudinea sau disimilitudinea percep iilor pe care le manifest | consumatorii fa | de aceste
m |rci. Pe baza modului n care se clasific | m |rcile i a caracteristicilor consumatorilor care i manifest | preferin ele, un
produc |tor poate identifica m |rcile concurente i tr |s |turile specifice ale categoriilor de consumatori care prefer | produsul
acestui produc |tor. De exemplu, m |rcile aflate n aceea i clas| cu marca unui produc |tor sunt m |rci concurente, deoarece ele
se adreseaz | aceluia i segment de consumatori.
Tehnicile specifice analizei cluster sunt deosebit de necesare i utile n orice proces de analiz | a datelor, nu numai n cele
care vizeaz | n mod direct necesit |i legate de clasificare. De exemplu, utilizarea acestor tehnici este extrem de important |
pentru acele procese de analiz | n care cantitatea de informa ie ce trebuie prelucrat| este att de mare i variat| nct extragerea
a ceea ce este legic, esen ial i semnificativ n aceast| cantitate informa ional |, devine imposibil| dac | nu sunt folosite
instrumente corespunz |toare de sintetizare i structurare a informa iei brute. n acest context, tehnicile de analiz | cluster sunt
utilizate, cu prec |dere, pentru sistematizarea informa iilor supuse analizei, activitate care este strict necesar | n faza de analiz |
preliminar| a datelor.
Identificarea pe o mare cantitate de informa ii brute a unor categorii, clase sau grupe informa ionale reprezint| unul dintre
scopurile generale i, n acela i timp, principale ale oric |rei analize cluster.
n mod sintetic, efectuarea unei analize cluster, avnd ca scop clasificarea unei mulimi de obiecte, cuprinde urm |toarele
etape:
alegerea caracteristicilor n func ie de care se va face clasificarea;
alegerea tipului de m |sur | pentru evaluarea proximit|ii dintre obiecte;
stabilirea regulilor de formare a claselor sau clusterelor;
construirea claselor, adic | ncadrarea obiectelor n clase;
verificarea consisten ei i semnifica iei clasific |rii;
84
alegerea unui num |r optimal de clustere, n func ie de natura problemei de clasificare i de scopurile care se
urm |resc;
interpretarea semnifica iei clusterelor;
Rezultatele unei analize cluster sunt reprezentate fie de o singur | solu ie cluster, fie de ierarhii cluster, care con in diferite
modalit|i de configurare a obiectelor pe clase, adic | mai multe solu ii cluster. n cel de-al doilea caz, pe baza efectu |rii unei
t|ieturi n ierarhia cluster, utilizatorul are posibilitatea alegerii unei configura ii a obiectelor pe un anumit num |r dorit de clase.
Pe baza rezultatelor ob inute n urma efectu |rii unei analize cluster, pot fi deduse anumite legit|i care guverneaz | evolu ia
unor popula ii de fenomene, pot fi identificate anumite principii utile pentru procesul de cunoa tere sau pot fi formulate o serie
de concluzii tiin ifice cu caracter de generalitate. n acest sens, analiza cluster i rezultatele ob inute pe baza acesteia pot
contribui la:
definirea unor scheme de clasificare formal| i a unor tipologii, pe baza c |rora realit|ile complexe pot fi mai
bine cunoscute i n elese;
identificarea unor modele statistico-matematice cu ajutorul c |rora mulimi complexe i eterogene de fenomene
i procese pot fi sintetizate i reprezentate sub o form | simplificat| i inteligibil|;
definirea mai corect| i mai complet| a caracteristicilor fundamentale ale unor popula ii de fenomene i
procese;
deducerea unor m |suri numerice adecvate pentru caracterizarea dimensiunilor popula iilor de fenomene i
pentru eviden ierea modific |rilor care au loc n nivelul i structura acestora;
identificarea unor entit|i individuale care sunt reprezentative pentru clase i categorii complexe de fenomene
i procese.
Din cele de mai sus, rezult| c | analiza cluster poate fi privit |, n general, ca un instrument care are ca scop reducerea unor
mulimi de obiecte, sau chiar de variabile, la un num |r mai restrns de entit|i informa ionale, care sunt clasele sau clusterele.
Din acest punct de vedere, se poate face o analogie ntre analiza cluster i analiza componentelor principale, cu men iunea c |
n analiza componentelor principale reducerea vizeaz |, de regul|, variabilele.
n sensul s|u obinuit, ca ansamblu de metode i tehnici de clasificare a obiectelor, analiza cluster este o analiz | efectuat|
n spa iul variabilelor. ntr-adev |r, cele mai multe utiliz |ri ale tehnicilor de analiz | cluster sunt cele care au ca scop clasificarea
obiectelor, i nu clasificarea variabilelor.
Exist| ns | i situa ii n care analiza cluster este folosit| pentru clasificarea variabilelor care caracterizeaz | obiectele, adic |
situa ii n care analiza este efectuat| n spa iul obiectelor. n aceste situa ii, analiza cluster poate servi ca instrument de agregare
a caracteristicilor obiectelor, sub forma unor caracteristici generale i cu relevan | ridicat| din punct de vedere al posibilit|ilor
de interpretare.
Remarc |: Analiza cluster poate fi utilizat| att pentru clasificarea obiectelor, ct i pentru clasificarea variabilelor care
definesc obiectele.
Spre deosebire de utilizarea analizei cluster pentru clasificarea obiectelor, situa ie n care specificitatea este reprezentat|
de faptul c | distan ele sunt evaluate pentru perechi de obiecte, n cazul utiliz |rii analizei cluster pentru clasificarea variabilelor,
evaluarea distan elor se face pentru perechi de variabile.
dintre obiectele cu caracteristici de tip calitativ, indicatorii de disimilaritate sunt m |rimi mai potrivite pentru m |surarea
proximit|ii n cazul obiectelor cu caracteristici de tip cantitativ.
n leg |tur | cu aceast| deosebire, facem precizarea c | exist| situa ii n care indicatorii de similaritate pot fi utiliza i nu numai
n cazul variabilelor de tip calitativ, ci i n cazul variabilelor de tip cantitativ. Acest lucru este posibil n situa iile n care
variabilele de tip cantitativ sunt supuse unor transform |ri adecvate.
Cu toate c | indicatorii de similaritate i indicatorii de disimilaritate sunt privii, de regul|, ca fiind dou | categorii distincte,
putem face afirma ia c | ambele categorii exprim |, ntr-un anumit fel, dou | fa ete ale aceluia i lucru. Mai mult dect att, n
anumite condiii, indicatorii de similaritate pot fi transforma i n indicatori de disimilaritate. Diferen ele dintre aceste categorii
de indicatori in de natura variabilelor n raport cu care sunt evalua i i de modalit|ile de calcul specifice fiec |rui tip de
indicator.
Informa iile utilizate, n ultim | instan |, n analiza cluster sunt reprezentate sub forma unor matrici simetrice de tip
obiecteobiecte, numite, dup | caz, matrici de proximitate, matrici de similaritate, matrici de asociere, matrici de inciden |,
matrici de disimilaritate sau matrici de distan e. Att liniile, ct i coloanele matricilor de acest fel se refer | la obiectele
analizate, astfel nct num |rul lor este egal cu num |rul de obiecte supuse analizei. Elementele acestor matrici sunt m |rimi
numerice care exprim | proximitatea dintre perechile de obiecte care eticheteaz | rndurile i coloanele matricilor.
n cazul particular al clasific |rii variabilelor, informa iile utilizate efectiv n analiz | sunt reprezentate sub forma unor
matrici de tipul variabilevariabile. Elementele acestor matrici sunt m |rimi numerice care exprim | gradul de proximitate dintre
perechile de variabile aflate n liniile i coloanele acestor matrici.
Rezult| c | matricile de proximitate con in indicatori de disimilaritate (distan e) sau indicatori de similaritate pentru toate
perechile posibile de obiecte sau de variabile. n construirea matricilor de proximitate pot fi utilizate, n func ie de propriet|ile
obiectelor la care se refer |, att variabile de tip cantitativ, ct i variabile de tip calitativ.
Tipurile indicatorilor de similaritate sau de disimilaritate utiliza i n evaluarea proximit|ilor trebuie s | fie adecvate i
compatibile cu natura datelor existente. De asemenea, n evaluarea proximit|ilor trebuie s | se ia n considerare toate variabilele
care au o relevan | ridicat| din punct de vedere al clasific |rii. Omiterea unor variabile din calculul proximit|ilor poate conduce
la ob inerea unor solu ii inconsistente.
Datele din matricile de proximitate pot fi reprezentate sub forma unui graf specific, care eviden iaz | pozi ionarea spa ial|
relativ | a obiectelor sau a variabilelor i care ofer | o imagine sugestiv |, de ansamblu, asupra distan |rii respectivelor entit|i
informa ionale.
Baza informa ional| pentru determinarea matricilor de proximitate o reprezint| a a-numitele matrici de observa ii, care
sunt matrici de tipul obiectevariabile sau matrici de tipul variabileobiecte, n func ie de tipul analizei efectuate. n primul
caz, rndurile matricilor de observa ii reprezint| obiectele analizate, iar coloanele acestor matrici reprezint| caracteristicile
re inute n analiz |, adic | variabilele descriptor. n cel de-al doilea caz, interpret|rile rndurilor i coloanelor sunt inversate.
Entit|ile informa ionale supuse procesului de clasificare cu ajutorul metodelor i tehnicilor de analiz | cluster sunt
reprezentate de obiecte sau variabile. Obiectele implicate ntr-o analiz | cluster se mai numesc indivizi, observa ii, articole sau
nregistr |ri. Din punct de vedere al modului de reprezentare extern |, mulimile de informa ii referitoare la aceste entit|i sunt
organizate sub forma unor fiiere sau baze de date. Fiecare nregistrare din cadrul unui fiier sau unei baze de date define te
un anumit obiect. De obicei, n analiza cluster se presupune c | toate obiectele sunt caracterizate prin intermediul aceleia i
mulimi de variabile descriptor. Variabilele descriptor utilizate n analiza cluster pot s| fie de acela i tip, cantitativ sau calitativ,
sau pot s| fie de tipuri diferite. n fiecare dintre cele dou | cazuri, evaluarea gradului de proximitate dintre obiecte se face n mod
diferit.
Cele mai mari probleme apar n cazul n care variabilele descriptor sunt de tipuri diferite, deoarece n acest caz proximit|ile
par iale, evaluate n raport cu variabile diferite, au natur | incompatibil| i nu pot fi agregate n mod direct n scopul ob inerii
unui indicator de proximitate la nivelul ansamblului de variabile. O astfel de situa ie apare, de exemplu, cnd unele variabile
sunt de tip interval sau raport, iar altele sunt de tip nominal. A a cum o s | vedem n cadrul paragrafului 10.3.3.4, situa iile de
acest fel impun utilizarea unor proceduri specifice de construire a indicatorilor de proximitate.
Matricile de observa ii pot con ine fie rezultatele m |sur |torilor directe, efectuate asupra variabilelor originale, fie
rezultatele ob inute n urma unor transform |ri specifice, efectuate asupra variabilelor originale. M |rimile din cea de-a doua
categorie sunt reprezentate de scorurile componentelor principale sau de scorurile factorilor i se ob in prin efectuarea, pe
observa iile originale existente, a unei analize a componentelor principale sau a unei analize factoriale.
n analiza cluster, matricile de observa ii con in informa ii cu caracter complet, adic | informa ii referitoare la ntreaga
mulime de obiecte supuse clasific |rii. Spre deosebire de aceasta, n cazul analizei discriminante informa iile con inute n
matricea de observa ii sunt informa ii cu caracter par ial, referitoare la un e antion de obiecte extrase din popula ia de obiecte
supus | analizei.
Distana Euclidian|
Distan a Euclidian |, care mai este cunoscut| i sub numele de norm | de tip
problemele de analiz | cluster. Ea se calculeaz | ca r |d |cin | p |trat| a sumei p |tratelor diferen elor coordonatelor celor dou |
obiecte sau variabile pentru care se evalueaz | distan a.
Distan a Euclidian | m |soar | dep |rtarea dintre dou | obiecte sau dintre dou | variabile n linie dreapt| i este definit| sub
forma urm |toare:
.
Distan a Euclidian | exprim | proximitatea dintre obiecte ca distan | ntre dou | puncte din spa iul Euclidian, respectiv ca
distan | m |surat| n linie dreapt|. n acest sens, de exemplu, distan a dintre ora ul Bucure ti i ora ul New-York nu este o
distan | de tip Euclidian deoarece ea este exprimat | de-a lungul curburii sau rotunjimii globului p |mntesc, i nu n linie
dreapt|.
Distana Manhattan
Distan a Manhattan, numit| i distan | rectangular |, distan | City-Block sau norm | de tip
, se calculeaz | ca sum |
a valorilor absolute ale diferen elor coordonatelor celor dou | obiecte sau celor dou | variabile analizate i este definit| de
rela iile:
.
Deoarece diferen ele de coordonate utilizate n calculul s |u nu sunt amplificate printr-o ridicare la o putere, distan a
Manhattan este mai robust | n raport cu prezen a n date a valorilor aberante.
Distan a Manhattan poate fi calculat| i n varianta ponderat|, calculul f |cndu-se n mod similar cu cel al distan ei
Euclidiene ponderate. De asemenea, distan a Manhattan poate fi utilizat| n cazul n care obiectele au caracteristici care sunt
m |surate pe scala de tip interval i pe scala de tip raport.
Distana Cebev
Distan a Cebev, cunoscut| i sub numele de maxim al dimensiunilor sau norm | de tip
absolut| i se determin | ca fiind valoarea maxim | a valorilor absolute ale diferen elor dintre coordonatele obiectelor sau
variabilelor, respectiv:
.
Distan a Cebev poate fi utilizat| atunci cnd se dore te ca dou | obiecte sau variabile s | apar| ca fiind diferite, dac | ele
difer | chiar i doar din punct de vedere al unei caracteristici, respectiv al unui obiect. n alte situa ii, nu este recomandabil s |
se foloseasc | acest tip de distan |.
Distana Mahalanobis
Distan a Mahalanobis este una dintre cele mai cunoscute, mai importante i mai frecvent utilizate distan e. Ea este o form |
generalizat| a conceptului de distan | i se calculeaz | sub formele urm |toare:
,
unde
arborelui de clustere poate fi f|cut | pe baza comas |rii succesive sau diviz |rii succesive a clusterelor. Comasarea clusterelor este
numit| amalgamare sau agregare, iar divizarea clusterelor este numit| dezagregare.
Teoretic, procesul de agregare sau dezagregare succesiv | a clusterelor se bazeaz | pe definirea unei distan e limit| ntre
clustere, distan | numit| i prag de agregare, respectiv prag de dezagregare. n principiu, decizia de comasare a dou | clustere
sau de divizare a unui cluster este luat| numai dac | distan a dintre aceste clustere este mai mic |, respectiv mai mare dect
distan a limit| fixat|.
Dac | n cazul evalu |rii gradului de apropiere sau dep |rtare dintre dou | obiecte lucrurile sunt relativ simple, fiind suficient
s | se calculeze una din distan ele men ionate mai sus, n cazul n care este necesar a fi evaluat gradul de apropiere sau dep |rtare
dintre dou | clustere lucrurile devin ceva mai complicate i presupun existen a unei metode specifice de evaluare.
Distan a dintre dou | clustere este, de fapt, o distan | dintre dou | mulimi de puncte, adic | o distan | mai dificil de evaluat.
Ca distan | ntre dou | mulimi de puncte, distan a dintre dou | clustere poate fi m |surat| cu ajutorul uneia dintre mai multe
metode posibile.
Dintre metodele propuse pentru evaluarea distan elor dintre clustere men ion |m: metoda celor mai apropia i vecini, metoda
celor mai dep |rta i vecini, metoda distan ei medii ntre perechi, metoda centroidului i metoda lui Ward etc.
Figura 8.4: Distan a dintre dou | clustere n cazul metodei celor mai
apropia i vecini
Figura 8.5: Distan a dintre dou | clustere n cazul metodei celor mai
dep |rta i vecini
Pentru evaluarea distan elor dintre obiectele cele mai dep |rtate din cele dou | clustere poate fi utilizat| oricare dintre
metodele cunoscute de calcul a distan elor dintre obiecte, n func ie de natura variabilelor care definesc obiectele supuse
clasific |rii.
Definiie: Metoda distan ei medii dintre perechi evalueaz | distan a dintre dou | clustere ca medie a distan elor dintre
oricare dou | obiecte care apar in celor dou | clustere, unul primului cluster, iar cel|lalt din celui de-al doilea cluster.
Evaluarea distan ei dintre dou | clustere cu ajutorul metodei distan ei medii ntre perechile de obiecte se face pe baza datelor
din matricea distan elor dintre obiectele din cele dou | clustere, calculnd media acestor distan e.
n figura urm |toare este sugerat| o interpretare geometric | a modului de calcul a distan ei dintre clustere cu ajutorul
metodei distan ei medii dintre perechi.
89
n cea mai mare parte a lor, algoritmii de clasificare ierahic | sunt algoritmi de tip euristic. Exist| ns | i o categorie aparte
de algoritmi de clasificare ierarhic |, reprezentat| de algoritmii de tip model formal, care genereaz | structurile cluster pe baza
maximiz |rii verosimilit|ii.
Rezultatul utiliz |rii analizei cluster de tip ierarhic l reprezint| o mulime de structuri particulare de clustere, numit| arbore
al clasific |rii sau arbore ierarhic.
Structurile cluster care alc |tuiesc arborerele de clasificare includ un num |r de clustere diferit. O solu ie cluster ce
corespunde unui nivel mai ridicat de agregare con ine un num |r de clustere mai mic cu 1 dect o solu ie cluster corespunz |toare
proximului nivel ierarhic inferior. Aceasta nseamn | c | structurile cluster de tip ierarhic sunt caracterizate prin nivele diferite
de agregare, cuprinse ntre un nivel minim i un nivel maxim.
Structura cluster cu cel mai nalt nivel de agregare este format | dintr-un singur cluster, care include toate obiectele supuse
clasific |rii. Structura cluster cu cel mai redus nivel de agregare este format| dintr-un num |r de clustere egal cu num |rul de
obiecte analizare, fiecare cluster incluznd un singur obiect.
Num |rul de clustere din dou | structuri cluster succesive difer | printr-o unitate, structura cluster cu nivel mai nalt de
agregare con innd cu un cluster mai pu in dect structura cluster precedent |.
Cu ct nivelul de agregare al structurilor cluster este mai ridicat, cu att similarit|ile dintre obiectele unui cluster sunt mai
reduse, adic | clusterele sunt mai eterogene. Acest lucru se explic | prin faptul c | un cluster de la un nivel de agregare mai nalt
con ine un num |r mai mare de obiecte dect un cluster de la un nivel de agregare mai redus.
n funcie de condiiile iniiale de la care se pornete n construirea structurilor cluster i de sensul n care se desf|oar| construirea
acestora, algoritmii de clasificare de tip ierarhic pot fi mp|rii n dou| mari categorii:
algoritmi de clasificare prin agregare, amalgamare sau combinare;
algoritmi de clasificare prin dezagregare sau divizare.
Algoritmii de dezagregare construiesc clusterele ntr-o manier| descendent|, pornind cu toate obiectele ntr-un singur cluster i
continund, prin divizarea succesiv| a acestuia, pn| la obinerea unor clustere care conin cte un singur obiect.
Algoritmii de agregare sau de amalgamare construiesc clustere ntr-o manier| ascendent|, pornind de la clustere care conin cte un
singur obiect i continund, prin comasare succesiv| a clusterelor, pn| la obinerea unui cluster care include toate obiectele.
n cazul procedurilor de clasificare prin agregare, n fiecare pas se comaseaz| ntr-un singur cluster fie dou| obiecte, fie un obiect i
un cluster, fie dou| clustere diferite. n fiecare etap| a procedurilor divizative, un cluster este divizat fie sub forma a dou| clustere, fie sub
forma unui cluster i unui obiect, fie sub forma a dou| obiecte.
Num|rul de pai necesari pentru obinerea unei soluii cluster de tip ierarhic depinde de num|rul de obiecte supuse clasific|rii i este
diferit pentru cele dou| categorii de metode de clasificare ierarhic|.
Procesele de agregare i de dezagragare a clusterelor, specifice celor dou| categorii de proceduri de clasificare ierahic|, presupun
utilizarea unor metode specifice de evaluare a distanelor dintre clustere.
reprezint| num |rul de clustere existente n etapa t. Cele dou | clustere care se comaseaz | ntr-unul singur sunt
clusterele pentru care se ob ine distan a de agregare. Distan a de agregare se nume te prag de agregare i este specific |
fiec |rei etape ntre care exist| o distan | egal| cu distan a de agregare. Structura cluster ob inut| n etapa t este de forma:
.
Pe m |sura construirii ierarhiei cluster, pragul de agregare cre te continuu, iar num |rul de clustere se reduce cu 1 n
fiecare etap |. Ca urmare a relax |rii succesive a pragului de agregare, gradul de agregare a obiectelor n clustere cre te
continuu.
n ultima etap | a agreg |rii toate obiectele sunt incluse ntr-un singur cluster, respectiv:
.
Aceast | procedur | de clasificare pe baz | de agregare este comun | tuturor algoritmilor din aceast | categorie. Diferen ele
91
dintre algoritmii de clasificare ierarhic | prin agregare sunt date doar de modul specific n care sunt evaluate distan ele dintre
clustere.
n cadrul figurii urm |toare sunt vizualizate etapele necesare pentru o clasificare de tip ierarhic prin metode de agregare.
Etapa 0
Etapa 1
Etapa 2
Etapa 3
Etapa 4
Figura 8.8: Ilustrarea grafic | a etapelor clasific |rii ierarhice prin agregare
Evaluarea distan elor dintre clusterele ob inute la un moment dat din desf |urarea analizei cluster de tip agregare ierarhic |,
exceptnd prima etap | n care clasele sunt alc |tuite din cte un singur obiect, poate fi f|cut | folosind oricare dintre metodele
de m |surare a distan elor dintre clustere, metode prezentate anterior.
Spre deosebire de cazul clasific |rii ierarhice prin agregare, n cazul procedurii bazate pe dezagregare se procedeaz |
oarecum invers. Se porne te cu un cluster care include toate obiectele i din acesta sunt diferen iate clustere din ce n ce mai
mici, pn | cnd se ob in clustere formate din cte un singur obiect.
Datorit | faptului c | tehnicile de clusterizare bazate pe agregare sunt cele mai frecvent utilizate, vom prezenta n continuare
principalele tipuri ale acestora. Construirea arborilor de clustere prin dezagregare este similar | celei ob inute prin agregare.
n func ie de tipul distan elor utilizate pentru agregarea clusterelor, exist| patru metode euristice de clasificare ierahic |:
metoda agreg |rii simple, metoda agreg |rii complete, metoda agreg |rii medii, metoda centroidului i metoda lui Ward sau
metoda varian ei.
8.8.4.1.1.1 Metoda agreg|rii simple
n analiza cluster bazat| pe agregare simpl| afectarea unui obiect la un cluster se face numai dac | acel obiect are un anumit
grad de disimilaritate cu unul dintre obiectele care apar in deja clusterului. Clusterizarea de acest tip se mai nume te i analiz|
cluster de distan | minim | sau analiz| cluster de tip MIN.
Metoda agreg |rii simple se bazeaz | pe exprimarea proximit|ii dintre dou | clustere prin intermediul distan ei dintre cele
mai apropiate obiecte din cele dou | clustere. Evaluarea acestei distan e se face cu ajutorul metodei celor mai apropia i vecini.
Definiie: Metoda agreg |rii simple este o metod | de clasificare ierarhic | de tip ascendent, care comaseaz | n fiecare
etap | a clasific |rii acele dou | clustere pentru care distan a dintre cei mai apropia i vecini este cea mai mic |, n compara ie
cu alte perechi de clustere.
n figura urm |toare, este ilustrat felul n care sunt comasate dou | clustere n cazul utiliz |rii metodei agreg |rii simple.
, care
n cazul metodei agreg |rii complete evaluarea distan elor dintre clustere se face cu ajutorul metodei celor mai dep |rta i
vecini. Aceasta nseamn | c | distan a dintre dou | clustere este considerat| a fi n acest caz distan a cea mai mare dintre oricare
dou | puncte apar innd celor dou | clustere.
Definiie: Metoda agreg |rii complete este o metod | de clasificare ierarhic | de tip ascendent, care comaseaz | n fiecare
etap | a clasific |rii acele dou | clustere pentru care distan a dintre cei mai dep |rta i vecini este cea mai mic |, n compara ie
cu alte perechi de clustere.
93
n domeniul economico-financiar, entit|ile care fac obiectul problemelor legate de stabilirea apartenen ei la o anumit|
grup | sau clas | pot fi firme, clien i ai unei b |nci, cump |r |tori ai unui produs, unit|i administrativ-teritoriale, pie e de bunuri
sau servicii etc.
Procedura general| de stabilire, pe baza unor caracteristici definitorii i utiliznd metode i tehnici specifice, a apartenen ei
unor obiecte la anumite grupe sau clase dinainte cunoscute poart| numele de analiza discrim inant|.
Analiza discrim inant| reprezint| procesul de utilizare a unei game variate de metode, tehnici i algoritmi n scopul de a
determina care dintre caracteristicile unor anumite obiecte au cea mai mare relevan | din punct de vedere al recunoa terii
apartenen ei acestor obiecte la anumite clase aprioric definite i de a stabili apartenen a cea mai probabil| a obiectelor la diferite
clase.
Stabilirea apartenen ei obiectelor unei popula ii la anumite clase are la baz | propriet|ile sau caracteristicile obiectelor
respective, care sunt reprezentate la nivel formal prin intermediul unor variabile, notate cu
.
n general, se poate spune c | analiza discriminant | se ocup | cu rezolvarea urm |toarelor trei categorii de probleme:
determinarea acelui set optimal de caracteristici ale unor obiecte, care s | permit| cea mai bun | discriminare
ntre dou | sau mai multe tipuri de obiecte;
utilizarea variabilelor din setul optimal de caracteristici pentru deducerea unor criterii sau reguli pe baza c |rora
se poate face separarea popula iei studiate pe clase sau grupe distincte;
utilizarea setului de caracteristici cu cea mai mare putere discriminatorie i a criteriilor de separare identificate
pentru clasificarea unor obiecte, a c |ror apartenen | nu este cunoscut|, n clasele grupele sau clasele popula iei
studiate; clasificarea de noi obiecte, pe baza variabilelor discriminant i a criteriilor de separare, este cunoscut| sub
numele de predic ie.
Variabilele din setul optimal de caracteristici se numesc variabile descriptor i pot fi reprezentate fie de ntreaga mulime
de variabile care descriu obiectele, fie doar de o submulime a acesteia. Aceasta nseamn | c | mulimea variabilelor descriptor
este o mulime de forma:
.
Variabilele descriptor nu sunt folosite n procesul de clasificare n mod direct, ca atare, ci sub o form | transformat|,
reprezentat| de variabilele discriminant.
Criteriile care trebuie deduse n vederea separ |rii claselor din popula ia analizat| sunt utilizate pentru construirea unor
ecua ii sau func ii, care definesc puncte, curbe sau suprafe e de separare a acestor clase. Ecua iile sau func iile utilizate pentru
separarea claselor sunt cunoscute i sub numele de clasificatori.
Func iile pe baza c |rora se face separarea claselor se numesc func ii discriminant, func ii de clasificare sau func ii scor,
sunt definite n raport cu variabilele descriptor ale obiectelor i servesc la determinarea unor noi variabile, numite variabile
discriminant sau variabile scor.
Leg |tura dintre cele trei categorii de elemente informa ionale ale analizei discriminante, respectiv variabilele descriptor,
variabilele discriminat i func ia discriminat este dat| de rela ia:
,
unde
Dup | cum o s | vedem n continuare, n majoritatea covr itoare a cazurilor de folosire a analizei discriminante, func iile
discriminant sunt func ii liniare de forma:
.
Num |rul de func ii discriminant, adic | p, este determinat de num |rul variabilelor descriptor i de num |rul claselor existente
la nivelul popula iei studiate.
Variabilele discriminant
determin | un nou spa iu p-dimensional, numit spa iu discriminant, ale c |rui axe sunt
reprezentate de vectorii
De la domeniul financiar-bancar, n care analiza discriminant| este utilizat|, cu prec |dere, pentru clasificarea firmelor
solicitatoare de credite, i pn | la domeniul marketingului, n care analiza discriminant | este utilizat|, printre altele, n probleme
de segmentare a pie ii, analiza discriminant | ofer | multiple i interesante posibilit|i de analiz | i cunoa tere.
n domeniul economic, cele mai multe, mai utile i mai interesante aplica ii ale analizei discriminate sunt cele legate de
evaluarea anselor de viabilitate pe care le au diferite activit|i sau firme n care se pot face investiii sau c |rora b |ncile le pot
acorda credite. n acest sens, analiza discriminant | poate fi folosit| pentru fundamentarea unor decizii cum ar fi: vnzarea sau
cump |rarea de ac iuni, acordare de credite, cump |rarea sau vnzarea de firme etc.
ca:
.
Distribu ia statistic | a obiectelor n cadrul fiec |rei clase reale
de probabilitate condiionat| ale claselor, adic | cu ajutorul func iilor
n cadrul analizei discriminate, cea mai mare importan |, att din punct de vedere teoretic, ct i din punct de vedere
practic, o au nu clasele reale, ci clasele de predic ie, pe care le vom defini n continuare.
Vom considera mul imea
i clasele reale
din care aceasta este format| iniial. Scopul principal al analizei
discriminate este acela de a identifica o modalitate eficient | de structurare a mulimii
sub forma unui num |r de K regiuni sau
clase. Regiunile sub forma c |rora trebuie partajat| mulimea
n cazul problemei analizei discriminante, pe care le vom nota
cu
se numesc clase de predic ie sau clase de clasificare i au urm |toarele propriet|i:
Cea de-a doua proprietate se refer | la faptul c | orice obiect din mulimea
trebuie s | fie clasificat. Proprietatea a treia
impune necesitatea ca oricare dintre obiectele mulimii
s | fie clasificat numai ntr-o singur | clas |.
O clasificare poate fi considerat| ca fiind perfect |, adic | neafectat| de erori, dac | i numai dac | exist| o coinciden |
perfect| ntre orice clas | de predic ie
i clasa real| omoloag |
. Acest lucru nu este totdeauna posibil din cauza
consecin elor pe care le implic | proprietatea de disjunc ie a claselor de predic ie. Dup | cum se poate observa, spre deosebire
de clasele reale
, care pot avea anumite suprapuneri, clasele de predic ie
trebuie s | fie disjuncte dou |
cte dou |, adic | s | nu aibe obiecte comune.
Deoarece clasele de predic ie
sunt disjuncte dou | cte dou |, ele apar ca fiind nite trunchieri ale claselor reale
, ceea ce nseamn | c | ele pot fi privite ca fiind definite sub forma unor restric ii impuse asupra claselor reale. Ca
rezultat al trunchierii claselor reale omoloage, clasele de predic ie vor diferi, mai mult sau mai pu in, de clasele reale, astfel nct
ntre o clas | de predic ie i o clas | real| omoloag | vom avea rela ia:
.
Diferen ele care exist| ntre clasele de predic ie i clasele reale, rezultate din faptul o clas | de predic ie este ob inut| prin
trunchierea unei clase reale, reprezint| expresia posibilit|i ca anumite obiecte s | fie clasificate incorect.
O consecin | imediat| a modului n care sunt definite clasele de predic ie este aceea c | fiecare clas | de predic ie reprezint|,
de fapt, o submulime a clasei reale omoloage, adic |:
.
Pe de alt| parte, deoarece clasele de predic ie trebuie s | includ | toate obiectele mulimii
.
n aceste condiii, este evident c |, atta timp ct fiecare clas | real| reprezint| un cmp complet de evenimente, orice clas |
de predic ie, care este o submulime a clasei reale omoloage, apare ca fiind un cmp incomplet de evenimente.
96
intergrupale. Utilizarea acestui criteriu combinat asigur | cea mai bun | diferen iere a claselor sau grupelor popula iei .
Ideea care st| la baza criteriului lui Fisher este aceea a determin |rii unor direc ii sau axe, astfel nct, de-a lungul acestora,
clasele mulimii
s | se diferen ieze ct mai mult ntre ele i, n acela i timp, fiecare clas | s | aib | un grad de omogenitate ct
mai mare. Cu alte cuvinte, criteriul lui Fisher are ca scop determinarea unor direc ii de-a lungul c |rora variabilitatea intergrupal|
s | fie ct mai mare, iar variabilitatea intragrupal| s | fie ct mai mic |. Proiec iile obiectelor pe axele definite de aceste direc ii
reprezint| sunt noi coordonate ale obiectelor i se numesc scoruri discriminant.
Dintr-un anumit punct de vedere, analiza discriminant | poate fi considerat| ca fiind asem |n |toare cu analiza componentelor
principale, care are ca scop general identificarea unor axe n raport cu care variabilitatea obiectelor s| fie maxim |. Deosebirea
principal | dintre analiza discriminant | i analiza componentelor principale este legat| de faptul c | n cadrul analizei
componentelor principale spa iul cauzal este considerat n integralitatea sa, f|r | a se face nici o diferen iere ntre elementele
acestuia din punct de vedere al unui anumit criteriu.
n cazul analizei componentelor principale variabilitatea este privit| ca o caracteristic | general| a popula iei analizate, f|r |
a se ine seama de existen a unei eventuale structur |ri a acestei popula ii pe grupe sau clase. n consecin |, variabilitatea care
face obiectul analizei componentelor principale este considerat | ca un tot unitar, f|r | a exista posibilitatea descompunerii
acesteia n raport cu o anumit| structur | a spa iului cauzal analizat.
Spre deosebire de aceasta, n cazul analizei discriminante se consider | c | popula ia analizat| este structurat| pe grupe sau
clase, iar variabilitatea acestei popula ii poate fi descompus | sub forma a dou | componente importante: variabilitatea
intergrupal| i variabilitatea intragrupal|.
n plus, fa | de diferen a men ionat|, n analiza discriminant| noile direc ii care trebuie identificate nu trebuie s | fie n mod
obligatoriu ortogonale, spre deosebire de analiza componentelor principale n care direc iile de variabilitate maxim | trebuie s |
verifice proprietatea de ortogonalitate.
Cea mai important | problem | a criteriului lui Fisher de discriminare ntre clasele unei popula ii
este legat| de
descompunerea variabilit|ii acestei popula ii. Vom detalia modul n care poate fi descompus | variabilitatea popula iei n raport
cu cele dou | sensuri ale acesteia: variabilitatea simpl| - exprimat | prin intermediul sumei totale a p |tratelor abaterilor i
variabilitatea mixt| sau compus | - m |surat| prin intermediul matricii produselor mixte ale abaterilor. Este evident c |
variabilitatea mixt| poate fi definit| numai pentru cazul obiectelor multidimensionale.
A a cum am precizat mai nainte, determinarea func iilor discriminant este echivalent | cu g |sirea unor direc ii, sau vectori,
n raport cu care variabilitatea intragrupal| s | fie minim |, iar variabilitatea intergrupal| s | fie maxim |. Aceste direc ii vor defini
axele spa iului discriminat i pot fi identificate sub forma unor combina ii liniare de variabilele descriptor selectate n analiz |.
Pentru determinarea acestor direc ii, vom considera c | variabilele descriptor implicate n analiz | sunt
variabilele
. Vom nota cu
, cu
cu
Problema care se pune n cadrul analizei discriminate este aceea de a determina o nou | variabil|
de forma:
, ca o combina ie liniar |
,
unde ponderile
se determin | n a a fel nct pentru noua variabil| suma p |tratelor abaterilor intraclas | s | fie
minim |, iar suma p |tratelor abaterilor interclas | s | fie maxim |. Acest| variabil| se nume te variabil| discriminant (centrat|).
Dac | vom nota cu vectorul ponderilor
, atunci variabila
poate fi scris | sub forma:
.
Privit| ca o func ie de vectorul
de forma:
, aceast| combina ie liniar | define te, de fapt, o func ie discriminant sau o func ie scor,
.
Prin urmare, procedura de construire a unei func ii discriminant se reduce la determinarea vectorului
.
, adic | a ponderilor
Trebuie s | facem precizarea c | natura liniar | a func iei discriminant este impus | ca ipotez | ini ial | i ea nu trebuie
considerat| ca rezultnd din impunerea unui anumit criteriu de performan | privind separabilitatea claselor.
Deoarece variabila
este definit| ca o combina ie liniar| de variabile care au media nul|, rezult| c | i media acesteia este
nul|, adic |:
.
98
n aceste condiii, suma total| a p |tratelor abaterilor pentru noua variabil| discriminant
,
reprezint| varian a variabilei
unde
Considernd popula ia
structurat| pe clase, suma total| a p |tratelor abaterilor variabilei
poate fi descompus | sub
forma sumei dintre suma p |tratelor abaterilor intragrupale i suma p |tratelor abaterilor intergrupale, respectiv:
.
n mod similar, varian a variabilei discriminant
intergrupal|, adic |:
.
, respectiv de rela ia:
devine:
.
s | aib | o varian a intragrupal| minim | i o varian | intergrupal| maxim |, adic | astfel nct raportul:
,
s | fie maxim.
Rezult| c | determinarea coeficien ilor func iei discriminant
extrem:
.
Condiiile necesare de extrem pentru aceast | problem | sunt date de anularea derivatelor par iale ale func iei
cu componentele vectorului , ceea ce n exprimare vectorial| nseamn |:
n raport
.
nmul ind condiia ob inut| cu
.
n concluzie, se poate spune c | vectorul
, asociat valorii
, ca solu ie a unui sistem omogen, s | fie diferit de vectorul nul, este necesar
.
Dac |
, adic |:
.
Componentele vectorului
discriminant are forma:
.
nlocuind variabilele centrate
cu
unde
propriu al matricii
iar valoarea acesteia pentru o anumit| form | , adic | scorurul discriminant, reprezint| evaluarea func iei discriminat
punctul respectiv. Media i varian a variabilei discriminant (necentrat|) sunt definite de urm |toarele rela ii:
.
Din modul n care este definit| func ia discriminant de tip Fisher, rezult| c | num |rul posibil de func ii discriminant este
egal, n principiu, cu num |rul de vectori proprii ai matricii
discriminant pentru fiecare vector propriu relevant al acestei matrici. Vectorii proprii ai matricii
, n situa ia n
care ea este strict pozitiv definit| i are rangul maxim, rezult| c | num |rul total de func ii discriminant care pot fi determinate
este egal cu n.
Vom prezenta n continuare modul n care pot fi determinate toate func iile discriminant posibile. Pentru aceasta vom nota
cele n valori proprii ale matricii
cu
pe care le au astfel:
.
100
Vom nota cu
Deoarece aceast| func ie corespunde celei mai mari valori posibile a raportului dintre varian a intergrupal| i varian a
intragrupal|, ea asigur | cea mai bun | separabilitate a claselor, din punct de vedere al criteriului mixt men ionat mai sus. Aceasta
nseamn | c | proiec iile obiectelor pe noua ax | determinat | de vectorul de coeficien i
pot fi separate pe clase care se
diferen iaz | n cel mai mare grad posibil i care au cel mai mare grad posibil de omogenitate.
n mod similar, cea de-a doua func ie discriminat se define te cu ajutorul vectorului propriu care corespunde celei de-a doua
valori proprii, respectiv:
.
Fiind determinat| pe baza celei de-a doua valori proprii a matricii
valori mai reduse a raportului dintre varian a intergrupal| i varian a intragrupal|. n consecin |, ea asigur | o rezolu ie mai mic |
din punct de vedere al separabilit|ii claselor mul imii . Din acest punct de vedere, este posibil ca proiec iilor obiectelor pe
noua ax | care are ca suport vectorul de
s | le corespund | clase care sunt i mai pu in omogene i se diferen iaz | i mai pu in
ntre ele.
n sfr it, cu ajutorul vectorului propriu asociat cu cea mai mic | valoare proprie, adic | vectorul
, se determin | ultima
func ie discriminant, respectiv:
.
Prin compara ie cu celelalte func ii discriminant, aceast| ultim | func ie discriminat asigur | cea mai proast | separabilitate
ntre clasele mulimii .
Puterea de separabilitate din ce n ce mai mic | pe care o au func iile discriminant
, conduce la ideea necesit|ii
de a selecta n analiz | numai un anumit num |r de func ii discriminant, n ordinea puterii lor de discriminare.
Num |rul efectiv al func iilor discriminant care trebuie re inute n analiz |, depinde n mod direct de num |rul de clase i de
num |rul de variabile discriminant.
n concluzie la cele ar |tate mai nainte, putem defini func iile discriminant liniare i variabilele discriminant sub forma
urm |toare:
Func iile discrim inant (Fisher) sunt combina ii liniare de variabilele descriptor, de forma:
,
unde
Odat | ce func iile discriminat au fost estimate, ele pot fi utilizate pentru efectuarea de predic ii cu privire la apartenen a unor
noi obiecte la clasele de predic ie.
Exem plul 8.1
n scopul evidenierii modului clasificare cu ajutorul clasificatorilor liniari, vom considera cazul unei populaii de firme comerciale care
se grupeaz| n dou| clase: firme performante i firme neperformante. Vom presupune c| performanele firmelor sunt apreciate pe baza a
doi indicatori economico-financiari: rata profitului i rata profitului investit. De asemenea, vom mai presupune c| dispunem de un eantion
de 10 firme din populaia de firme analizate, dintre care 6 sunt firme performante, iar 4 sunt firme neperformante. Valorile convenionale
ale celor doi indicatori de performan| pentru firmele din cele dou| categorii se g|sesc n tabelul urm|tor.
Firme performante
Firma
Firme neperformante
Rata profitului
Rata profitului
investit
Rata profitului
Rata profitului
investit
13,0
43,0
4,0
31,0
19,0
28,0
7,0
36,0
12,0
35,0
2,0
11,0
Firma
101
9,0
38,0
9,0
56,0
17,0
39,0
Media
13,17
39,83
Variana
16,9667
87,7667
11,0
17,0
Media
6,00
23,75
Variana
15,33
136,917
Vom mai presupune c| densit|ile de probabilitate ale claselor sunt de tip normal, adic| sunt de forma urm|toare:
n graficul din figura urm|toare sunt reprezentate densit|ile de probabilitate bidimensionale ale celor dou| clase de predicie, n ipoteza
de normalitate, i planul de decizie care asigur| separarea acestor clase.
sunt:
,
.
Pe baza termenilor liberi i a celor doi vectori proprii
.
Deoarece cea de-a doua funcie discriminant corespunde unei valori aproape neglijabile, relevana sa este minim| i se poate renuna la
ea. Ecuaiile discriminat care definesc planele de separare a celor dou| clase sunt:
.
Dup| cum se poate observa, centroidul populaiei de obiecte aparine primului plan de separare, deoarece el verific| prima ecuaie
discriminat:
102
n figura urm|toare sunt reprezentate grafic elementele eseniale legate de separarea claselor cu ajutorul primei funcii discriminant.
. n
raport cu acest| ax| se determin| scorurile obiectelor, ca proiecii ale obiectelor pe aceast| ax|. Aceste scoruri sunt valori ale variabilei
disciminant . Scorurile celor 10 obiecte n spaiul discriminat, calculate cu ajutorul funciilor discriminant
, sunt pezentate
n tabelul urm|tor.
Firme performante
Firma
Firme neperformante
Scoruri
discriminant
Scor discriminant
Firma
5,851
1,443
-6,741
4,777
6,298
-10,145
-2,198
4,073
2,148
-0,901
-15,530
-1,542
0,370
3,060
-5,011
-7,318
6,590
10,391
8,222
-3,838
Media
4,913
0,002
Media
-7,370
-0,003
Variana
8,970
47,579
Variana
33,097
31,778
Mediile scorurilor pentru toate cele 10 obiecte sunt nule, iar varianele sunt egale cu cu 56,250, n cazul variabilei discriminant
103
.
Ca m|rime care aproximeaz| calitatea separ|rii claselor, raportul dintre variana intergrupal| i variana intragrupal| este:
.
Pentru a evidenia avantajele pe care le are utilizarea scorurilor discriminant n raport cu observaiile originale, vom compara raportul
n care se afl| variana intergrupal| i variana intragrupal| la nivelul observaiilor originale, pe de o parte, cu raportul n care se afl| variana
intergrupal| i variana intragrupal| la nivelul scorurilor discriminant, pe de alt| parte.
Deoarece n varianta spaiul iniial obiectele sunt reprezentate exprimate prin intermediul a dou| variabile descriptor, iar n spaiul
discriminat prin intermediul unei singure variabile, pentru a putea face comparaia va trebui s| exprim|m variabilitatea din spaiul iniial n
mod unic, prin intermediul varianei totale. n cazul spaiului cauzal iniial, variana total| intergrupal| este reprezentat| de suma elementelor
de pe diagonala principal| a matricii de covarian| intergrupal| , respectiv:
,
iar variana total| intragrupal| este reprezentat| de suma elementelor de pe diagonala principal| a matricii de covarian| intragrupal|
respectiv:
.
Este evident c| suma celor dou| variane este egal| cu variana total| din spaiul iniial, adic| suma elementelor de pe diagonala principal|
a matricii de covarian| , respectiv:
.
Raportul dintre variana total| intergrupal| i variana total| intragrupal|, corespunz|toare spaiului iniial, este:
.
Deoarece
, putem spune c| n spaiul discriminant se obine o mai mare omogenitate intraclas| i o mai mare
104
Bibliografie
105