Sunteți pe pagina 1din 148

Cuprins

1. Tehnici de explorare a datelor ................................................................... 4


1.1. Matrice de date – exemple practice ................................................................................. 4
1.2. Scări de măsurare ale caracteristicilor .......................................................................... 7
1.3. Explorarea variabilelor continue ....................................................................................... 9
1.4. Explorarea variabilelor categoriale .................................................................................. 18
1.4.1. Test de bonitate a ajustării ................................................................................. 20
1.4.2. Test de independenţă ............................................................................................ 25
1.5. Explorarea variabilelor ordinale ........................................................................................ 29
1.6. Transformări în matricele de date ................................................................................... 31
1.6.1. Transformări pe coloane: standardizarea ......................................................... 31
1.6.2. Matricea corelaţiilor .............................................................................................. 33
2. Metode de învăţare în analiza datelor – clasificare .............................. 34
3. Metode de învăţare nesupervizată ............................................................ 39
3.1. Analiza componentelor principale ...................................................................................... 39
3.1.1. Reprezentări geometrice ale datelor. Cantitatea de informaţie din norul
39
de puncte ........................................................................................................................................
3.1.2. Combinaţii liniare standardizate ......................................................................... 46
3.2. Analiza factorilor ................................................................................................................. 54
3.2.1. Modelul factorilor ortogonali .............................................................................. 54
3.3. Analiza clasificării. Algoritmi ierarhici de agregare ................................................... 58
3.3.1. Indicatori de proximitate între indivizi ............................................................ 59
3.3.2. Indicatori de proximitate între clase. Algoritmi de agregare .................... 65
4. Metode de învăţare supervizată ................................................................ 70
4.1. Analiza canonică .................................................................................................................... 70
4.2. Analiza discriminării ............................................................................................................ 74
4.2.1. Analiza discriminării decizionale. Reguli de alocare ....................................... 76
4.2.2. Analiza discriminării factoriale .......................................................................... 80
5. Aplicaţii economice ........................................................................................ 85
5.1. Analiza şi clasificarea firmelor pe baza indicatorilor financiari ............................... 85
5.2. Modele de „credit scoring” – analiza discriminantă utilizată pentru diagnoza
100
financiară ........................................................................................................................................
5.3. Analize pe tabele de contingenţă. Analiza corespondenţelor în marketing ........... 109
Anexa 1 – Matrice de date ......................................................................................................... 121
A 1.1. Date privind autoturismele .................................................................................. 121
A 1.2. Date (indicatori financiar-contabili) privind firmele .................................... 123
A 1.3. Date privind calitatea vieţii ................................................................................ 127
A 1.4. Repartiţia bugetului .............................................................................................. 129
A 1.5. Date privind evoluţia unor active pe piaţa de capital .................................... 131
A 1.6. Date pentru analiza riscului returnării unui credit ........................................ 134
Anexa 2 – Date dintr-un chestionar ........................................................................................ 137
Anexa 3 – Incursiune în domeniile matematicii şi statisticii ............................................. 139
A 3.1. Concepte de bază ale calculului matriceal ........................................................ 139
A 3.2. Aspecte geometrice într-un spaţiu vectorial ................................................. 143
A 3.3. Indicatori statistici elementari ......................................................................... 144
Bibliografie .......................................................................................................... 148
Capitolul 1. Tehnici de explorare a datelor
Într-o cercetare a lumii înconjurătoare ne bazăm, de regulă, pe
existenţa unui număr de indivizi distincţi ai unei populaţii studiate. În
legătură cu aceşti indivizi (obiecte sau cazuri) urmărim una sau mai multe
mărimi care, credem noi, îi caracterizează; acestea sunt numite caracteristici.
Cercetarea poate fi făcută fie în mod exhaustiv, luând în studiu toată
populaţia – ceea ce este foarte costisitor atunci când populaţia este
numeroasă – fie prin eşantion alegând, după reguli bine precizate, un grup
„reprezentativ” al populaţiei. Cercetătorul în analiza datelor nu este însă
interesat de aceste detalii; lui i se oferă „nişte informaţii” prezentate în
general sub forma unui tabel (matrice) de date. El are ca sarcină să extragă
din acest tabel de date cât mai multă „informaţie semnificativă” – sub formă
numerică şi/sau grafică – şi s-o prezinte într-o formă cât mai restrânsă – cât
mai puţine linii şi coloane. Odată acest deziderat realizat, orice decizie
viitoare privind comportamentul populaţiei studiate poate fi explicată prin
argumente ştiinţifice.

1.1 Matrice de date – exemple practice


În această secţiune ne vom referi la exemplele prezentate în Anexele
1 şi 2 ale materialului. Toate acestea conţin informaţii primare, din diverse
domenii economice, prezentate sub forma unei matrice de date. Vom descrie
natura informaţiei din aceste exemple şi posibile analize efectuate asupra
lor.
Exemplul 1. Problema unui dealer de autoturisme
Informaţiile de care dispune un dealer de autoturisme sunt
prezentate în tabelul 1 din Anexa 1. Acest tabel conţine caracteristicile unor
mărci de autoturisme oferite spre vânzare. Tabelul (matrice) are 26 de linii –
corespunzătoare mărcilor de autoturisme analizate şi 7 coloane,
reprezentând preţul şi alte caracteristici tehnice şi de confort ale
autoturismelor. Dealerul doreşte să afle, folosind tabelul de date, ce
caracteristici ale maşinilor sunt definitorii în decizia unui client de a
cumpăra un autoturism. Există oare în viziunea cumpărătorului clase
(grupuri) de autoturisme? Dacă da, care sunt acestea?

Exemplul 2. Problema unui investitor


Un investitor are informaţii privind principalii indicatori financiar-
contabili calculaţi din bilanţurile contabile ale unui lot de firme

4
(vezi tabelul 2 din Anexa 1). Aceştia pot fi însă foarte numeroşi. Investitorul
nu ar renunţa în analiza lui, fără argumente bine precizate, la nici unul dintre
indicatori. Singur, nu are capacitatea de a-i selecta pe cei mai importanţi, şi
nici nu poate să ordoneze firmele după potenţialul (bonitatea) lor ţinând
seama de toţi indicatorii. Dacă, s-ar putea calcula nişte scoruri ale firmelor
pe seama unor „indicatori sintetici” deduşi din indicatorii iniţiali, atunci
decizia investitorului nu ar mai fi pur subiectivă, ea ar avea un suport
ştiinţific şi probabil că riscul asociat deciziei de a investi ar fi mai mic.

Exemplul 3. Studiul indicatorilor de calitate a vieţii


În plin proces de globalizare este important să ştim la ce „distanţă”
suntem de alte ţări ale Europei sau chiar faţă de alte ţări ale lumii.
Indicatorul sintetic numit „calitatea vieţii”, bine definit de specialişti, ne
poate ajuta să răspundem la această întrebare. Putem folosi informaţii ca
cele din tabelul 3 al Anexei 1 în care sunt prezentate principalele elemente
ce stau la baza calculului indicatorului de calitate a vieţii pentru un număr
de 23 de ţări ale lumii. În tabel (matrice) sunt prezentate următoarele date (la
nivelul anului 1992): sporul natural al populaţiei, mortalitatea infantilă,
gradul de urbanizare, numărul de medici la mia de locuitori, numărul de
receptoare de televiziune la mia de locuitori, rata inflaţiei, cheltuielile pentru
educaţie, cele pentru apărare, importul şi exportul precum şi consumul de
energie pe locuitor. Oare toţi aceşti indicatori au aceeaşi importanţă în
exprimarea indicatorului sintetic „calitatea vieţii”? Dacă nu, se pot identifica
doi sau trei indicatori sintetici pe baza cărora să putem ordona ţările din
punctul de vedere al calităţii vieţii locuitorilor? Care ar fi poziţionarea
României în această clasificare, ce ţări ne-ar fi apropiate din acest punct de
vedere?

Exemplul 4. Studiul repartiţiei bugetului


Dacă dispunem de informaţii anuale – pe o perioadă mare de timp –
privind repartiţia bugetului unei ţări, putem oare identifica momentele
strategice importante privind politica ţării respective? Ca exemplu tipic vom
folosi datele prezentate în tabelul 4 al Anexei 1, tabel (matrice) ce conţine
repartiţia bugetului Franţei în perioada 1872-1971. Folosind tehnicile
analizei datelor pot fi puse în evidenţă momentele premergătoare celor două
războaie mondiale, care au fost precedate de alocări mai mari din buget spre
cheltuielile militare, dar şi momentele de acalmie între cele două războaie
mondiale şi după al doilea război mondial, când bugetul a fost repartizat cu
predilecţie spre activităţi de învăţământ şi asistenţă socială.

5
Exemplul 5. Analiza rentabilităţii unui portofoliu
În constituirea unui portofoliu putem să folosim informaţii de tipul
celor conţinute în tabelul 5 al Anexei 1.
Dispunem de un număr de 13 companii din domeniul ITC, companii
listate pe S&P 500. Ele apar ca linii în tabelul de date; fiecare linie conţine
informaţii privind evoluţia tranzacţiilor acţiunilor pe piaţa de capital în doi
ani consecutivi, adică: preţul la deschidere, preţul la închidere, preţul minim
şi preţul maxim, volumul tranzacţiilor, câştigul (în %) etc. (toate ca valori
medii ale anului respectiv). Ne mai interesează să estimăm rentabilităţi ale
activelor şi eventualele riscuri în constituirea unui portofoliu. În acest scop
putem apela tehnici de clasificare care să evidenţieze factorii latenţi care au
guvernat tranzacţia activelor din portofoliu pe perioada analizată, de
asemenea putem clasifica companiile în grupuri cât mai omogene în ceea ce
priveşte evoluţia indicatorilor analizaţi în dinamică, etc.

Exemplul 6. Analiza riscului returnării unui credit


Tabelul 6 din Anexa 1 conţine informaţii sub forma unei matrice de
date. Pe linii sunt clienţii unei bănci (selecţie din totalul clienţilor) ) ce au
solicitat credite. Pe coloane avem o serie de elemente privind informaţii
financiare şi demografice pentru fiecare client. În matricea datelor o
importanţă aparte o are coloana nouă în care se specifică, într-o formă
codificată, dacă clientul a avut înainte probleme de rambursare a vreunui
credit sau nu. Astfel, din start clienţii sunt grupaţi în două clase: una a celor
cu probleme de rambursare, iar cealaltă a celor fără antecedente. Tehnicile
de clasificare şi analiză a discriminării ne permit să precizăm prin ce
combinaţii de atribute financiare şi demografice pot fi caracterizaţi clienţii
din fiecare clasă şi să facem previziuni asupra comportării unor clienţi noi al
băncii privind încadrarea lor într-o clasă sau alta.

Exemplul 7. Informaţii dintr-un chestionar


Analiza datelor constituie un suport foarte important pentru deciziile
privind marketingul ştiinţific. Perceperea unui produs de către un segment
de cumpărători, gradul de saturare al pieţei produsului şi decizia de lansare a
unui produs nou (sau într-o formă nouă) sunt materializate folosind tehnica
chestionarului şi analiza datelor. Prezentăm în Anexa 2 un asemenea
chestionar realizat în scopul identificării stării actuale privind dotarea
populaţiei cu aparate audio-video, mărcile de televizoare mai cunoscute şi
cele preferate la o eventuală achiziţionare de către cumpărători.

6
1.2 Scări de măsurare ale caracteristicilor
Putem afirma că toate exemplele date anterior conţin informaţii într-
un tabel –matrice de date – (vezi tabelul 1). În general, fiecare linie
reprezintă un individ (obiect) din mulţimea celor studiaţi, pe coloane
regăsindu-se caracteristicile urmărite. Să presupunem că avem n indivizi
asupra cărora studiem p caracteristici notate C1, C2, …, Cp. Matricea de date
o putem scrie X = xij ( )
i =1, 2,..., n; j =1, 2,..., p
. În această matrice un element xij
exprimă valoarea caracteristicii j măsurată pentru individul i. De exemplu,
dacă folosim datele din tabelul 1 al Anexei 1, autoturismul Opel Corsa
Swing este al 10-lea individ (obiect) în tabelul de date, iar elementul
x10,1 = 13050 reprezintă caracteristica preţ (în $) a maşinii respective.
Datele din tabelul 1 al Anexei 1 sunt, prin urmare, un exemplu de
matrice (tabel) de forma indivizi × caracteristici.

Tabelul 1. Forma generală a matricei indivizi × caracteristici


Caracteristicile
C1 C2 … Cj … Cp
1 x11 x12 … x1j … x1p
2 x21 x22 … x2j … x2p
Indivizii

… … … … … … …
i xi1 xi2 … xij … xip
… … … … … … …
n xn1 xn2 … xnj … xnp

Precizarea scărilor de măsurare ale caracteristicilor observate, pe


grupul de indivizi, este esenţială în identificarea tehnicii de modelare şi
analiză. Fiecărei caracteristici i se asociază o scară de măsurare conform cu
natura informaţiei conţinute şi cu modul în care o percepem. După
precizarea scării de măsurare, caracteristica respectivă va fi reprezentată
printr-o aşa numită variabilă. Explorând tabelele de date prezentate în
exemplele anterioare putem afirma că există o mare diversitate în a exprima
ansamblul indivizi × caracteristici. În exemplul 1 avem ca indivizi tipurile
de autoturisme, iar caracteristicile sunt preţul, viteza, consumul de carburant
etc. Remarcăm faptul că aceste caracteristici sunt transformate în variabile
prin exprimarea în unităţi clasice de măsură: monetare, kilometri la oră, litri
la suta de kilometri etc. În exemplul 2 indicatorii de bonitate calculaţi pentru
firme sunt rate, adică rapoarte ale diverselor mărimi din documentele
contabile. Aceste mărimi – indicatorii – devin variabile numerice

7
cantitative; evident, încadrarea valorilor fiecărui indicator într-un anumit
interval este foarte importantă. Bineînţeles, exemplele pot continua.
În general, variabilele pot fi clasificate în: variabile continue
(cantitative) şi variabile categoriale (calitative).

A) Variabilele continue provin din caracteristici ce exprimă atribute


cantitative ale indivizilor. Scara lor de măsură este continuă, putând acoperi
– în general – un interval de valori. De exemplu, preţul – unui autoturism
sau unui activ financiar – este o variabilă continuă; de obicei ia valori
numerice (exprimate în lei, euro etc.) cuprinse între un minim şi un maxim.
Cu aceste valori se pot efectua cele patru operaţii aritmetice clasice, iar
indicatorii statistici relevanţi, calculaţi pe baza valorilor observate, sunt
media şi abaterea medie pătratică. Şi variabilele ale căror valori sunt
exprimate în procente sau în rate (vezi aplicaţia 2) sunt variabile continue.

B) Variabilele categoriale provin din caracteristici care exprimă


atribute calitative. Aceste variabile au două sau mai multe nivele de valori,
nivele numite modalităţi sau categorii. Există o subclasificare a lor în trei
grupe, astfel:
B1) Variabilele nominale au de obicei mai mult de două nivele. De
exemplu, caracteristica Nivelul educaţiei din Exemplul 6 al Anexei 1, este o
variabilă nominală având modalităţile:
Fără liceu – codificată prin 1
Doar cu liceu – codificată prin 2
Facultate neterminată – codificată prin 3
Licenţiat – codificată prin 4
Postuniversitare – codificată prin 5
B2) Variabilele binare au doar două valori-nivele. În Exemplul 6
din Anexa 1 variabila Probleme anterioare de rambursare are două nivele
(modalităţi):
Nu codificat prin 0
Da codificat prin 1.
B3) Variabilele ordinale sunt variabile ale căror nivele, de obicei
mai mult de două, pot fi comparate între ele. În general, în situaţiile întâlnite
în cercetarea de marketing, la aceste variabile respondentul unui chestionar
alege un răspuns din câteva răspunsuri posibile, ordonate calitativ; el îşi
exprimă astfel, în mod preferenţial, opinia sa despre un anumit atribut.

8
Putem da ca exemplu de variabilă ordinală răspunsul la o întrebare din
chestionarul din Anexa 2, şi anume la întrebarea:
În alegerea unei anumite mărci de aparat, în ce măsură vă
influenţează reclama? Mă influenţează
foarte mult mult potrivit puţin deloc
1 2 3 4 5
Se observă că acestor răspunsuri de natură calitativă li se asociază câte
un cod numeric (1, 2 ş.a.m.d.).

1.3 Explorarea variabilelor continue


În exemplele prezentate în §1.2 apar o serie de caracteristici ale unor
grupuri de indivizi cărora li se asociază scări de măsurare continue. O
asemenea scară acoperă, de regulă, un interval de valori. Putem vorbi în
acest sens de preţul (în lei sau valută) al unor autoturisme, de preţul în
dinamică al unui activ financiar tranzacţionat pe piaţa de capital dar şi de
ratele financiare asociate în analiza bonităţii unor firme sau de diverse valori
procentuale. În exemplele prezentate informaţiile apar ca matrice de date de
forma indivizi × caracteristici iar prelucrarea lor primară se realizează, de
regulă, în două etape şi anume:
A) prelucrarea independentă a câte unei variabile;
B) prelucrarea comună a două sau mai multe variabile.
Să analizăm, pe rând, cele două etape.
A) Prelucrarea independentă a câte unei variabile presupune
selectarea, din matricea de date X = xij ( )i=1,2,...,n; j =1,2,..., p
, a câte unei
coloane ce reprezintă valori observate asupra unei variabile de tip continuu.
Pentru simplificare, să notăm elementele matricei corespunzătoare acestei
variabile selectate cu ( x1 , x 2 ,..., x n ) T . Secvenţa aleasă reprezintă valori
observate asupra celor n indivizi din analiza noastră. Primele informaţii
statistice legate de valorile x1 , x 2 ,..., x n se referă la evaluări ale tendinţei
centrale; acestea sunt:
n

∑ x , ea fiind un
1
a) Media, notată m x , se calculează cu formula i
n
i =1
indicator important al tendinţei centrale.

9
b) Mediana este asociată secvenţei x(1) , x( 2) ,..., x( n ) ce reprezintă
valorile x1 , x 2 ,..., x n ordonate crescător. Ea este acea valoare (nu
neapărat dintre valorile x1 , x 2 ,..., x n ) pentru care numărul valorilor
din secvenţa x (1) , x ( 2) ,..., x ( n ) care-i sunt mai mici este acelaşi cu
numărul valorilor care-i sunt mai mari.
c) Modul este acea valoare cu frecvenţa cea mai mare de apariţie. (El
nu este în mod necesar unic.)

modul modul

mediana mediana
media media

a) Repartiţie asimetrică (right skewed) b) Repartiţie asimetrică (left skewed)

modul=mediana=media

c) Repartiţie simetrică
Figura 1. Evaluări ale tendinţei centrale

Pentru a evalua împrăştierea datelor se folosesc următorii indicatori:


a) Varianţa (dispersia), notată s x2 , este calculată cu formula
n

∑ (x − m )
1 2
i x . (1)
n −1
i =1
b) Abaterea standard, notată s x , este calculată cu formula
n

∑ (x − m )
1 2
i x . (2)
n −1
i =1

10
c) Amplitudinea este calculată ca diferenţă între valoarea maximă şi
valoarea minimă a valorilor x1 , x 2 ,..., x n .
Este important ca, pentru diverse tipuri de distribuţii ale frecvenţelor
valorilor x1 , x 2 ,..., x n , să punem în evidenţă relaţii de ordine între cei trei
indicatori ai tendinţei centrale. Prezentăm în figura 1 cele trei situaţii
posibile. Astfel, în figura 1 c) prezentăm o repartiţie simetrică pentru care
cei trei indicatori ai tendinţei centrale coincid. În figura 1 a) şi 1 b) avem
repartiţii asimetrice, prima fiind „skewed dreapta” iar cea de-a doua fiind
„skewed stânga”. Relaţiile de ordine între cele trei valori pentru mod,
mediană şi medie sunt evidenţiate clar în graficele menţionate.
Exemplu: Fie secvenţa de şase numere 2, 5, 0, 9, 0, 7 reprezentând
observaţii asupra a şase indivizi. Secvenţa ordonată crescător o obţinem
imediat, ea este 0, 0, 2, 5, 7, 9. Valorile ce măsoară tendinţa centrală sunt:
media = 3.83, mediana se află între valorile 2 şi 5, prin interpolare putem
lua valoarea 3.5. Se observă faptul că mediana separă secvenţa de valori
ordonate în jumătate, 50% dintre valori fiind mai mici decât ea şi 50% dintre
valori fiind mai mari decât ea. Modul valorilor 2, 5, 0, 9, 0, 7 – adică
valoarea cu frecvenţa cea mai mare – este 0 (aici frecvenţa maximă este 2).
Media, mediana şi modul sunt trei indicatori ai localizării „centrului”
valorilor dintr-o secvenţă de date. În analiza repartiţiei valorilor observate,
la fel de importante sunt şi alte măsuri ale localizării datelor. Acestea sunt
cunoscute sub numele de percentile şi cuartile, şi sunt asociate secvenţei de
valori x (1) , x ( 2) ,..., x ( n ) .
1) Percentila de ordinul p este acea valoare, notată aici Pp , care are
proprietatea că p% dintre valorile secvenţei sunt mai mici decât ea şi
(100 – p)% dintre valori sunt mai mari decât ea.
2) Cuartila inferioară, notată Q1 , este percentila 25.
3) Cuartila de mijloc, notată Q2 , este percentila 50. Se observă faptul
că cuartila Q2 este tocmai mediana.
4) Cuartila superioară, notată Q3 este percentila 75.
Cuartilele se folosesc pentru a analiza dispersia valorilor secvenţei
x1 , x 2 ,..., x n calculându-se cu ajutorul lor aşa-numitul indicator inter-
quartile (notat IQR). El este calculat ca diferenţa dintre percentila 75 ( Q3 )
şi percentila 25 ( Q1 ). În cazul unei repartiţii normale a datelor acest interval
trebuie să fie aproximativ 1.35 din abaterea standard a datelor.

11
Tratarea punctelor aberante. Uneori, în secvenţa de valori
x1 , x 2 ,..., x n este semnalată prezenţa unor valori outliers (aberante ca
mărime în raport cu celelalte). În aceste situaţii unii indicatori de localizare
centrală sunt mult denaturaţi (deplasaţi) şi este indicat să calculăm aşa
numitele medii „robuste”. Acestea încearcă să elimine efectul valorilor
aberante (fără a afecta rezultatele). Dintre mediile robuste amintim:
1) Media winsorizată 95%, în calculul căreia primele 2.5% dintre
valorile ordonate sunt înlocuite cu „percentila 2.5” şi ultimele 2.5%
dintre valori sunt înlocuite cu „percentila 97.5”.
2) Media trunchiată 95%, trimmed mean, este calculată excluzând
primele 2.5% şi ultimele 2.5% dintre valorile secvenţei ordonate.
Tehnicile grafice sunt foarte relevante şi în cazul variabilelor
continue. Putem reprezenta datele sub formă de histograme, box plot-uri
(vezi figura 3), high-low plot-uri.
Exemplu. Să considerăm variabila Preţul la deschidere (coloana
corespunzătoare anului 2000 din Exemplul 5, Anexa 1). Aceasta este o
variabilă continuă, valorile ei exprimând preţul la deschiderea bursei pentru
acţiunile celor 13 companii (sunt valori medii anuale). Pentru a face o
apreciere generală asupra evoluţiei unui portofoliu compus din aceste
acţiuni, ne interesează indicatorii de centrare şi de împrăştiere ai variabilei
preţ. Prezentăm în tabelul 2 valorile indicatorilor prezentaţi mai sus,
outputul fiind de tip SPSS.

Tabelul 2. Preţul la deschidere – indicatori statistici


N Valid 13

Mean 60.63
Median 50.16
Mode 14.93
Percentiles 25 38.43
50 50.16
75 92.68

a) Media, mediana, modul şi cuartilele


N Minimum Maximum Mean Std. Dev. Variance
Open 2000 13 14.93 109.14 60.6344 30.4471 927.026
Valid N
13
(listwise)
b) Valoarea minimă, maximă, media, abaterea medie pătratică şi varianţa

12
Evident, ne-ar interesa şi repartiţia valorilor de preţ, prezentată sub
formă de histogramă, evidenţiind frecvenţa pe subintervale date. Luând
subintervale constante (de mărime de exemplu 20), prezentăm în figura 2 o
histogramă a frecvenţelor valorilor variabilei Preţul la deschidere.
Se observă că cele mai multe dintre valorile preţului au fost între 40
şi 60 iar în subintervalul 60 – 80 nu avem nici o valoare de preţ.

Figura 2. Preţul la deschidere – histograma frecvenţelor

B) Prelucrarea a două variabile continue presupune selectarea,


din matricea de date X = xij ( )
i =1, 2,...,n; j =1, 2,..., p
, a câte două coloane ce
reprezintă valori observate asupra celor două variabile. Să notăm aceste
variabile cu x şi y iar valorile observate asupra lor cu ( x1 , x 2 ,..., x n ) şi
( y1 , y 2 ,..., y n ) respectiv.
1) Pentru a studia corelaţia (legătura liniară) între aceste două
variabile considerăm cele n perechi de valori ( xi , y i ) i =1,2,...,n cu ajutorul
cărora calculăm aşa-numitul coeficient de corelaţie Pearson. Acesta se
calculează cu formula:
s x, y
rx, y = (3)
sx s y
în care s x şi s y sunt abaterile standard iar s x, y este covarianţa dintre
valorile x şi valorile y calculată cu formula:
1 (4)
s x, y = ∑ ( xi − m x )( yi − m y )
n −1

13
Valorile coeficientului de corelaţie sunt cuprinse în intervalul [–1, 1].
Cele n perechi de valori ( xi , y i ) pot fi reprezentate prin puncte
într-un plan. Atunci când avem impresia că punctele au tendinţa de a se
alinia unei drepte, ne exprimăm spunând că există o corelaţie liniară între
variabilele x şi y. Dacă valorile lui y au acelaşi sens de creştere cu valorile
lui x, se spune că avem o corelaţie pozitivă. Dimpotrivă, dacă valorile lui y
descresc atunci când valorile lui x cresc, se vorbeşte despre o corelaţie
negativă.

120.00

IBM

100.00

80.00

60.00

40.00

20.00

0.00

2000 2001
year

Figura 3. Preţul la deschidere (box-plot)

Coeficientul Pearson este folosit pentru a măsura gradul de corelare


între variabilele x şi y; anume, lipsa corelării este indicată de valori
apropiate de 0, corelarea „pozitivă” este indicată printr-o valoare a
coeficientului apropiată de 1, în timp ce corelarea „negativă” este indicată
printr-o valoare a coeficientului apropiată de –1.
2) Pentru compararea comportamentului comun al celor două
variabile, pe baza percentilelor (calculate pentru fiecare variabilă), se
foloseşte graficul de tip box-plot şi graficul de tip Q-Q plot. Pe graficul
box-plot se marchează, de regulă, valorile minim, maxim şi mediana alături

14
de cuantilele Q1 şi Q3 pentru secvenţele de valori ( x1 , x 2 ,..., x n ) şi
( y1 , y 2 ,..., y n ) .
Pe graficul Q-Q plot se prezintă în plan perechile de valori conţinând
percentile calculate pentru cele două variabile. O aliniere a acestora
aproximativ pe o dreaptă înseamnă că repartiţiile celor două variabile sunt
asemănătoare.

No rm al Q- Q Plot o f O p en 2000

120

100
Expected Normal Value

80

60

40

20

0
0 20 40 60 80 100 120
Observed V alue

Figura 4. Preţul la deschidere (Q-Q plot)

Observaţie. Graficul Q-Q plot poate fi folosit şi pentru a verifica


faptul că o secvenţă de valori, de exemplu ( x1 , x 2 ,..., x n ) , urmează sau nu o
repartiţie normală. În aceste situaţii se analizează perechile de valori
constând din percentilele variabilei normale şi percentilele secvenţei
( x (1) , x ( 2) ,..., x ( n ) ) .
Exemplu. Putem continua analiza grafică din exemplul anterior
prezentând sub formă de box-plot (pentru cei doi ani 2000 şi 2001) evoluţia
în ansamblu a principalilor indicatori de centrare şi împrăştiere. Prezentăm
în figura 3 un asemenea box-plot în care au fost evidenţiate minimul,
maximul, percentilele de 25, 50 (mediana) şi 75 pentru valorile preţurilor în

15
cei doi ani consecutivi. O analiză importantă asupra valorilor preţurilor este
şi cea dată de graficul Q-Q plot (vezi figura 4); acesta permite compararea
valorilor observate pentru anul 2000 cu cele care ar rezulta dintr-o repartiţie
(teoretică) normală.
În analiză putem folosi funcţia grafică high-low plot (vezi figura 5 şi
apoi figura 6).

Mean
120.00 Low 2000 -
High 2000
Low 2001 -
High 2001

100.00

80.00

60.00

40.00

20.00

0.00

AAPL CPQ DELL EMC GTW HWP IBM LXK NCR NTAP PALM SUNW UIS
Trading symbol

Figura 5. Evoluţia preţului minim şi maxim (în anii 2000 şi 2001), pe companii

Prelucrarea a mai mult de două variabile continue presupune


analizarea simultană a tuturor coloanelor din matricea de date
( )
X = xij
i =1, 2,...,n; j =1, 2,..., p
. Asociem în acest fel matricei X (de dimensiune
n × p) o altă matrice, notată de obicei cu R, de dimensiune p × p, ce conţine
coeficienţii de corelaţie liniară Pearson, calculaţi între toate perechile de
variabile. Avem, prin urmare, matricea R de forma:
⎛1 r12 ... r1p ⎞
⎜ ⎟
⎜ r21 1 ... r2 p ⎟
R =⎜ (5)
... ... ... ... ⎟
⎜ ⎟
⎜ rp1 rp 2 ... 1 ⎟⎠

16
cu toate elementele de pe diagonala principală egale cu unu ( rii = 1 pentru
i = 1,2,..., p ) şi rij = r ji pentru i = 1,2,..., p şi j = 1,2,..., p .

Mean
1.00 Fund avg % gain 2000 -
zero
Fund avg % gain 2001 -
zero

0.50

0.00

-0.50

-1.00

-1.50

-2.00

AAPL CPQ DELL EMC GTW HWP IBM LXK NCR NTAP PALM SUNW UIS
Trading symbol

Figura 6. Rentabilităţile companiilor în anii 2000 şi 2001

Se urmăreşte în principal identificarea perechilor de variabile – ce


corespund coloanelor x i , x j din matricea X – pentru care, în matricea R a
corelaţiilor, coeficienţii rij = r ji sunt „mari” (adică peste 0.8 în valoare
absolută).
Să facem observaţia că, în cazul apariţiei unei valori rij mai mari de
0.95 în valoare absolută, corelaţia foarte puternică constatată între
variabilele respective ne permite să eliminăm din studiu una dintre ele (ea
fiind reprezentată foarte bine de cealaltă).

17
1.4 Explorarea variabilelor categoriale

În prelucrarea variabilelor categoriale aflate într-o matrice de date de


forma indivizi × caracteristici distingem de asemenea două etape, şi
anume:
A) Analiza, pe rând, a câte unei variabile categoriale;
B) Analiza comportamentului comun a două sau mai multe variabile
categoriale.
A) Aşa cum am mai menţionat, o variabilă categorială este descrisă
prin modalităţi (nivele de valori). Să notăm cu k numărul acestor modalităţi
şi să presupunem că dispunem de n observaţii asupra variabilei analizate.
Primele informaţii obţinute despre variabila categorială sunt date de
frecvenţele pe modalităţi şi apoi de frecvenţele relative observate. Sintetic,
ni
dacă notăm cu ni frecvenţa observată şi cu frecvenţa relativă pe
n
modalitatea i (evident, 1 ≤ i ≤ k ), putem construi un tabel ca cel de mai jos.

Total
Modalitatea 1 2 … i … k
(valori observate)
Frecvenţa n1 n2 … ni … nk n
absolută
Frecvenţa n1 n2 … ni … nk 1
relativă
n n n n
(proporţia)

Exemplul 1. O firmă doreşte să estimeze cota de piaţă a produsului


său. Să presupunem că piaţa este concurenţială existând 6 competitori
(firme) care comercializează produsul respectiv. Departamentul de cercetare
în marketing al firmei efectuează un studiu pe baza de chestionar pe un
eşantion reprezentativ de n consumatori (aleşi independent unul de celălalt)
cărora li se cere să-şi exprime preferinţa unică faţă de cele 6 firme.
Identificăm în experimentul nostru o variabilă categorială cu 6
modalităţi – numărul firmelor. Dacă dispunem de observaţii pe un eşantion
de volum n = 120, rezultatul experimentului poate fi cel din tabelul următor:
Firma 1 2 3 4 5 6 Total
Valori observate 16 22 15 23 24 20 120
(preferinţe)

18
Grafic, informaţia privind răspunsul consumatorilor, adică profilul
dat de linia frecvenţelor, este importantă pentru cercetătorul în marketing
(vezi figura 7).

30

25

20

15

10

0
1 2 3 4 5 6

Figura 7. Histograma preferinţelor cumpărătorilor

Analizând graficul din figura 7 şi cunoscând rezultatele unor


cercetări anterioare privind cotele de piaţă, pe alte eşantioane, cercetătorul
de marketing se poate întreba dacă preferinţele consumatorilor sunt sau nu
egal repartizate spre cele 6 firme. Oare diferenţele între frecvenţele
observate pentru modalităţi sunt semnificative statistic? În general,
considerând întreaga populaţie de consumatori, să notăm cu p i
probabilitatea ca să fie selectată firma i (pentru 1 ≤ i ≤ 6 ). Evident,
6

∑p
1
i = 1 şi putem să considerăm perechea de ipoteze:

1
H0 : p1 = p 2 = ... = p 6 = (adică preferinţele sunt echiprobabile)
6
1
H1 : cel puţin o probabilitate p i are o valoare ce diferă de .
6

Ce argumente avem pentru a accepta sau a respinge ipoteza H0 ?


În cele ce urmează vom încerca să răspundem la această întrebare,
prezentând un test hi-pătrat de verificare a „bonităţii ajustării”.

19
1.4.1 Test de bonitate a ajustării

Să considerăm o variabilă categorială cu k modalităţi. Teoretic, o


putem considera variabilă aleatoare discretă, dată de tabelul de forma
k
⎛1 2 ... k ⎞
⎜⎜
⎝ p1
⎟ în care
p 2 ... p k ⎟⎠ ∑p1
i = 1.

Practic, putem face orice ipoteze legate de valorile probabilităţilor


p1 ,..., p k . Sunt însă aceste ipoteze susţinute de realitate? Folosind
eşantioane reprezentative, pe baza frecvenţelor relative care estimează
probabilităţile – sau folosind un test de bonitate a ajustării – putem accepta
sau respinge ipotezele făcute. Pentru a avea un suport statistic al deciziei,
trebuie ca experimentul realizat în scopul obţinerii informaţiilor despre
variabilă să fie un experiment multinomial, adică:
1) Cele n observaţii din eşantion să fie independente.
2) Rezultatul fiecărei observaţii să fie clasificat doar într-unul dintre
cele k nivele posibile. (Fiecare nivel este numit celulă.)
Dacă frecvenţele observate în cele k nivele sunt n1 , n 2 ,..., n k , atunci
evident avem n1 + n2 + ... + nk = n .
Atunci când efectuăm un test de bonitate a ajustării, bazat pe un
experiment multinomial, asociem nivelelor (celulelor) aşa-numitele
frecvenţe aşteptate. Dacă ele sunt notate cu e1 , e2 ,.., ek , atunci formula de
calcul este ei = n ⋅ pi unde pi este valoarea precizată a probabilităţii pi .
k
(Avem 1 ≤ i ≤ k şi ∑p
1
i = 1 ). Evident, suma frecvenţelor aşteptate va fi

egală cu n, adică e1 + e2 + ... + ek = n . Tabelul asociat experimentului


multinomial este următorul.

Nivelul (celula) 1 2 … i … k Total


Valori observate n1 n2 … ni … nk n
Valori aşteptate e1 e2 … ei … ek n

Observaţie. Pentru k = 2 experimentul este de tip binomial, avem


doar două nivele, cu probabilităţile asociate p şi respectiv 1 − p .

20
În general, într-un experiment multinomial valorile observate ni
diferă de cele aşteptate ei şi trebuie să decidem când diferenţele sunt
semnificative şi când nu. Putem folosi următoarea formulă, ce dă o măsură a
abaterii între valorile observate şi cele aşteptate
(ni − ei ) 2
X2 = ∑ i
ei
. (6)

Evident, în caz că X 2 = 0 , rezultă că în fiecare celulă valorile ni şi


ei coincid şi, în consecinţă, există identitate deplină între cele două serii de
valori (adică între cele observate şi cele aşteptate) iar ipoteza făcută asupra
valorilor probabilităţilor p1 ,..., p k este adevărată. Această situaţie este însă
foarte rară, de regulă X 2 > 0 . Pentru a discerne (între abateri mici şi mari),
ne folosim de faptul că, într-un experiment multinomial, valorile X 2
urmează la limită o repartiţie de tip χ 2 cu k − 1 grade de libertate. Această
afirmaţie este susţinută de următoarea
Teoremă. Presupunem că ( X 1 , X 2 ,..., X k ) este un vector aleator
repartizat multinomial cu parametrii n, p1 , p 2 ,..., p k . Atunci când n tinde
spre infinit, repartiţia la limită a statisticii
k
( X i − npi ) 2
V ( n) = ∑
i =1
npi

este o variabilă aleatoare χ 2 cu k − 1 grade de libertate.

Testul statistic clasic este bazat prin urmare pe o distanţă χ 2 , iar


etapele sunt următoarele:
1) Se formulează cele două ipoteze statistice (ipoteza nulă H0 şi
ipoteza alternativă H1).
H0 : p1 = p1 , p 2 = p 2 ,..., p k = p k (adică probabilităţile au valorile
precizate p1 , p 2 ,..., p k )

H1 : cel puţin o probabilitate pi are o valoare ce diferă de valoarea


specificată pi pentru ea în ipoteza nulă.

21
2) Se fixează un nivel al erorii respingerii ipotezei nule atunci când
ea este de fapt adevărată, fie acesta α = 0.05, şi se identifică în tabelele
statistice α–cuantila χ α2 a repartiţiei χ 2 cu k − 1 grade de libertate.
3) Se calculează valoarea X 2 a abaterilor, adică:
k
(ni − npi ) 2
X 2
= ∑
i =1
npi
. (7)

4) Valoarea X 2 se compară cu χ α2 .
Regula de decizie este următoarea:
Dacă X 2 < χ α2 acceptăm ipoteza nulă; dimpotrivă, dacă X 2 > χ α2
nu avem motive s-o acceptăm (vezi şi figura 8).

Figura 8. Ilustrarea regulii de decizie pentru testul de


bonitate a ajustării

Revenind la studierea cotei de piaţă pe un eşantion de 120 de


respondenţi precum şi la ansamblul de ipoteze
1
H0 : p1 = p 2 = ... = p 6 = (adică preferinţele sunt echiprobabile)
6
1
H1 : cel puţin o probabilitate p i are o valoare ce diferă de ,
6
tabelul obţinut este următorul.

22
Firma 1 2 3 4 5 6 Total
Valori observate 16 22 15 23 24 20 120
(preferinţe) ni
Valori aşteptate ei 20 20 20 20 20 20 120
Prin aplicarea testului hi-pătrat de bonitate a ajustării obţinem
valoarea statisticii X 2 = 3.5 . Pentru un nivel de eroare acceptat de 5%,
cuantila corespunzătoare repartiţiei χ 2 cu 5 grade de libertate este
χ α2 = 1.145 . Cum X 2 > χ α2 , suntem în zona de neacceptare a ipotezei H0,
prin urmare, pe baza experimentului respingem ipoteza conform căreia toate
firmele au aceeaşi cotă de piaţă.
B) Să considerăm acum matricea de date de forma indivizi ×
caracteristici în care avem informaţii despre variabile categoriale. Când
dorim să analizăm comportamentul comun a câte două asemenea variabile,
construim aşa-numitele tabele de contingenţă (tabele cu dublă, triplă
intrare).
Mai concret, să presupunem că analizăm comportamentul comun a
două variabile categoriale notate X1 şi X2, variabila X1 având r modalităţi iar
variabila X2 având c modalităţi. Asupra acestei perechi de variabile se fac n
observaţii de tip multinomial adică observaţiile sunt independente una de
altă iar răspunsurile se încadrează unic pe celule. Un tabel de contingenţă
asociat va conţine o matrice cu r linii şi respectiv c coloane, fiecare celulă a
matricei conţinând frecvenţa absolută pentru celula respectivă. De exemplu,
celula (i, j) va conţine numărul de observaţii pentru care variabila X1 are
modalitatea i iar variabila X2 are modalitatea j.
Prin urmare, pentru variabilele selectate dispunem de n observaţii ce
se distribuie în celulele tabelului cuantificând în acest mod frecvenţele în
celule; să le notăm cu n ij ( i = 1,2,..., r şi j = 1,2,..., c ).
Tabelul de contingenţă se obţine prin bordarea matricei cu o coloană
ce conţine totalurile pe linii n• j şi cu o linie ce conţine totalurile pe coloane
ni • calculate astfel:
c r
ni • = ∑n
j =1
ij şi n• j = ∑n
i =1
ij

pentru ( i = 1,2,..., r şi j = 1,2,..., c ).

23
În tabel mai introducem celula totalului general ce conţine
r c
n •• = ∑∑ n
i =1 j =1
ij = n (vezi şi tabelul 3).

Tabelul 3. Tabel de contingenţă


Modalităţi Total pe
1 2 … j … c
X1\X2 linii
1 n 11 n 12 … n1 j … n 1c n1•
2 n 21 n 22 … n2 j … n 2c n2•
… … … … … … … …
i n i1 n i2 … n ij … n ic ni •
… … … … … … … …
r n r1 nr2 … n rj … n rc nr •
Total coloane n •1 n •2 n• j … n •c n ••

Pentru exemplificare, să revenim la Exemplul 1 privind analiza cotei


de piaţă pentru produsul firmei. În chestionarul lansat, respondenţii s-au
identificat şi prin categoria de vârstă şi categoria socio-profesională
(repartiţia în celule fiind cea din tabelul următor).

Categoria de vârstă – Variabila 2


Modalităţi 1 2 3 4 5 Total
Categoria socio-profesională

X1\X2
1 1 5 4 2 3 15
2 1 7 12 3 3 26
Variabila 1

3 2 4 4 2 4 16
4 1 2 2 3 2 10
5 2 1 2 8 1 14
6 4 2 3 3 2 14
7 2 1 9 10 3 25
Total 13 22 36 31 18 120

Exemplul 2. Să revenim la Exemplul 6 din Anexa 1, ce se referă la


analiza riscului returnării unui credit. Printre variabilele financiare şi
demografice ce caracterizează clienţii selectăm două variabile care sunt
categoriale, şi anume Nivelul educaţiei (cu 5 modalităţi) şi Probleme

24
anterioare cu rambursarea ? (cu 2 modalităţi). Tabelul următor conţine pe
linii modalităţile variabilei Nivelul educaţiei şi pe coloane modalităţile
variabilei Probleme anterioare cu rambursarea?. Celulele tabelului conţin
frecvenţele absolute pe modalităţi.
Probleme anterioare
de rambursare Total linie
Valori observate Nu Da
Fără liceu 293 79 372
Doar cu liceu 139 59 198
Nivelul Facultate
educaţiei neterminată 57 30 87
Facultate 24 14 38
Postuniversitare 4 1 5
Total coloane 517 183 700
În analiza riscului returnării unui credit ar fi interesant să identificăm
toţi factorii de risc împreună cu gradul lor de implicare. În acest context,
dorim să vedem în ce măsură antecedentele privind rambursarea unui credit
depind sau nu de nivelul educaţiei. Vom folosi datele din tabelul de
contingenţă aplicând un test de verificare a independenţei statistice a celor
două variabile Nivelul educaţiei şi Probleme anterioare cu rambursarea?

1.4.2 Test de independenţă


Să considerăm cele două variabile categoriale X1 şi X2 prima având r
modalităţi iar cea de a doua având c modalităţi. Putem considera vectorul
aleatoriu discret (X1, X2) descris prin următorul tabel:

Modalităţi Probabilităţi
X1\X2
1 2 … j … c marginale
1 p11 p12 … p1 j … p1c p1•
2 p 21 p 22 … p2 j … p 2c p2•
… … … … … … … …
i pi1 pi 2 … p ij … pic pi •
… … … … … … … …
r pr1 pr 2 … p rj … p rc pr•
Probabilităţi …
p•1 p •2 p• j p •c
marginale

25
Am folosit următoarele notaţii relativ la populaţia studiată:
1) p ij este probabilitatea ca un individ ales la întâmplare să aparţină
r c
celulei (i, j). Evident avem ∑ ∑ p ij = 1 ;
i =1 j =1

2) pi• este probabilitatea ca un individ ales la întâmplare să aparţină


c
liniei i; avem p i• = ∑ p ij ;
j=1

3) p • j este probabilitatea ca un individ ales la întâmplare să aparţină


r
coloanei j; avem p • j = ∑ p ij
i =1

Putem formula următoarele ipoteze statistice, şi anume:


ipoteza de independenţă (statistică) a celor două variabile are forma:
H0 : pij = pi• p• j pentru orice i = 1,2,..., r şi j = 1,2,..., c
iar ipoteza alternativă o putem exprima astfel:
H1 : pij ≠ pi• p• j pentru cel puţin o celulă (i, j).
Să presupunem acum că efectuăm un experiment multinomial de
volum n şi dispunem de informaţiile din tabelul de contingenţă. Putem să
calculăm expresia
r c ( n ij − np ij ) 2
V= ∑∑
i =1 j=1 np ij
care, atunci când ipoteza nulă este adevărată, se scrie
r c (n ij − np i• p • j ) 2
V= ∑∑
i =1 j=1 np i• p • j
Vom folosi, pentru probabilităţile pi• şi respectiv p• j estimaţiile
(de verosimilitate maximă)
ni • n• j
p i• = şi p• j =
n n
caz în care putem estima valoarea V prin statistica:
r c (n ij − n i• n • j / n ) 2
X2 = ∑ ∑ (8)
i =1 j=1 n i• n • j / n

26
Valoarea X 2 , atunci când n tinde la infinit, este repartizată χ 2 cu
( r − 1)(c − 1) grade de libertate.

Observaţie: Pentru fiecare celulă (i, j) putem identifica valoarea


aşteptată atunci când ipoteza nulă este adevărată. Astfel, dacă H0 este
ni • n• j
adevărată, valoarea este valoarea aşteptată pentru celula (i, j).
n

Figura 9. Ilustrarea regulii de decizie pentru testul de independenţă

Testul statistic clasic pentru verificarea independenţei statistice a


două variabile, test bazat pe repartiţia hi-pătrat, presupune:
1) Formularea celor două ipoteze statistice (ipoteza nulă H0 şi
ipoteza alternativă H1), adică.
H0 : pij = pi• p• j pentru orice i = 1,2,..., r şi j = 1,2,..., c
iar ipoteza alternativă o putem exprima astfel:
H1 : pij ≠ pi• p • j pentru cel puţin o celulă (i, j).

2) Fixarea unui nivel al erorii respingerii ipotezei nule atunci când ea


este de fapt adevărată, fie acesta α = 0.05; identificarea în tabelele statistice
a α–cuantilei χ12−α repartiţiei χ 2 cu k − 1 grade de libertate.

27
3) Calcularea valorii X 2 a abaterilor, adică:
r c
(nij − ni• n• j / n) 2
X2 = ∑∑
i =1 j =1
ni• n• j / n
.

4) Valoarea X 2 se compară cu χ12−α .

Regula de decizie este următoarea:


Dacă X 2 > χ12−α atunci respingem ipoteza nulă, dimpotrivă dacă
X 2 < χ12−α atunci acceptăm ipoteza nulă (vezi şi figura 9).

Să revenim la Exemplul 2 din acest paragraf pentru care avem în


figura 10 un bar-chart al frecvenţelor pentru cele două variabile. Să aplicăm
testul pentru verificarea independenţei statistice a variabilelor Nivelul
educaţiei şi Probleme anterioare la rambursare? Valoarea X 2 = 11.49 iar
pentru α = 0.05 obţinem χ 02.95 = 9.49 (aici χ 2 are 4 grade de libertate).

80

70

60

50

40

30

20

10

0
Yes
Did not complete
High s chool No
high s chool Some college
degr ee
College degr ee
P os t-
under gr aduate
degr ee

Figura 10. Frecvenţele relative din Exemplul 2,


reprezentate grafic (bar-chart)

28
Suntem în situaţia X 2 > χ12−α (11.49 > 9.49) adică respingem
ipoteza nulă şi acceptăm alternativa, concluzionând că:
a) variabila Probleme anterioare la rambursare? depinde statistic
de variabila Nivelul educaţiei şi
b) valorile variabilei Nivelul educaţiei influenţează valorile
variabilei Probleme anterioare la rambursare?

1.5 Explorarea variabilelor ordinale


Variabilele categoriale de tip ordinal pot fi analizate numeric şi
grafic ca şi cele de tipul categorii nominal sau binar. Totuşi, asupra lor se
pot aplica şi alte analize. Parte din ele le vom prezenta în cele ce urmează.

Relaţii de preordine şi de ordine


Să presupunem că în dorinţa de a ordona indicatorii financiar-
contabili I1 - I7 următori (vezi şi datele din Anexa 1)
I1: Total datorii/capital social;
I2: Cifră de afaceri/total activ;
I3: Profit brut/total activ;
I4: Capital social/cifră de afaceri;
I5: Datorii/total activ;
I6: log(Activ);
I7: Rata de creştere a activului.
se foloseşte un grup de experţi în domeniu. Un expert l oarecare din acest
grup, prin preferinţele sale (evident subiective dar bazate pe experienţa sa)
va determina o relaţie de preordine POl în clasificarea indicatorilor, de
exemplu următoarea:
POl : I1 > I2 = I3 > I4 = I5 > I6 > I7
(ceea ce înseamnă că expertul l preferă indicatorul I1 indicatorului I2 care
este la fel apreciat ca şi I3, care este preferat lui I4 etc.).
Relaţia stabilită pentru indicatorii financiar-contabili, prin
preferinţele expertului l, este o relaţie de preordine deoarece oricare doi
indicatori i şi j se pot afla, în preferinţa expertului, doar în următoarele
situaţii: sau i este preferat lui j, sau j este preferat lui i, sau i este preferat la
fel ca şi j.

29
Aceste preferinţe pot fi exprimate completând o matrice U ale cărei
elemente sunt: Uij = 1 şi Uji = 0 dacă indicatorul i este preferat lui j şi
Uij = Uji = ½ dacă i şi j sunt apreciaţi la fel (vezi tabelul 4).

Tabelul 4. Scoruri medii şi ranguri


Scor mediu Rang mediu
I1 I2 I3 I4 I5 I6 I7 u(i) r(i)
I1 – 1 1 1 1 1 1 6 1
I2 0 – ½ 1 1 1 1 4,5 2,5
I3 0 ½ – 1 1 1 1 4,5 2,5
I4 0 0 0 – ½ 1 1 2,5 4,5
I5 0 0 0 ½ – 1 1 2,5 4,5
I6 0 0 0 0 0 – 1 1 6
I7 0 0 0 0 0 0 – 0 7

Aşadar, pentru fiecare expert putem să construim o matrice a


preferinţelor. Pe baza preferinţelor expertului se poate calcula un scor mediu
şi apoi un rang mediu pentru indicatorul respectiv, astfel:

scorul mediu al indicatorului i este u (i ) = ∑U


j
ij iar rangul mediu asociat

este r (i ) = k − u (i ) . (Aici k este numărul de indicatori analizaţi, în exemplul


nostru k = 7. Se observă că un rang mic indică o bună apreciere!)
O relaţie de ordine totală între indicatorii analizaţi se obţine atunci
când expertul alege doar una dintre situaţiile: indicatorul i este preferat
indicatorului j sau indicatorul j este preferat indicatorului j. Similar situaţiei
anterioare, putem asocia o matrice U ale cărei elemente sunt Uij = 1 şi
Uji = 0 dacă indicatorul i este preferat lui j. Analog, se calculează un scor
mediu şi apoi un rang mediu pentru fiecare indicator.
Dacă dorim să măsurăm corelarea a două variabile ordinale pentru
care observaţiile sunt ranguri, vom calcula aşa-numitul coeficient de
corelaţie Spearman:
1 2
ro = 1 − 2
∑ di (9)
n(n − 1)
unde d i este diferenţa rangurilor obţinute de către individul i. Coeficientul
de corelaţie Spearman, la fel ca şi coeficientul de corelaţie Pearson, are
valori între –1 şi 1, valori apropiate de 1 indicând concordanţa celor două
aprecieri, iar valori apropiate de –1 indicând o discordanţă.

30
1.6 Transformări în matricele de date
Să revenim la exprimarea informaţiilor în forma unei matrice
X ( n × p ) ce reprezintă n indivizi asupra cărora s-au evaluat p caracteristici,
de fapt p variabile. Matricea X o putem privi fie pe linii, obţinând informaţii
despre cei n indivizi, fie pe coloane obţinând informaţii despre cele p
variabile. Prin urmare :
(1) fiecărui individ i îi corespunde în matricea X o linie, adică un
vector cu p elemente; acesta va fi scris: Li = ( xi1 , xi 2 ,..., xip ) ∈ R p
(2) fiecărei variabile j îi corespunde în matricea X o coloană cu n
elemente, care va fi notată: C j = ( x1 j , x 2 j ,..., x nj ) T ∈ R n .

1.6.1 Transformări pe coloane: standardizarea

Este normal să calculăm, pentru fiecare variabilă din tabelul de date,


valoarea medie şi respectiv abaterea medie pătratică (abaterea standard).
Să notăm cu m j media şi cu s j abaterea medie pătratică pentru
variabila j, pentru care putem scrie formulele clasice:
n n

∑ ∑ (x
1 1
mj = xij şi sj = ij − m j )2
n n −1
i =1 1

Din orice matrice X se poate obţine o nouă matrice, fie ea X ' = ( xij' ) ,
xij − m j
ale cărei elemente sunt calculate astfel: xij' = pentru orice linie i şi
sj
coloană j
Această transformare asupra variabilelor este recomandată pentru a
evita discrepanţele între valori ce ar putea fi datorate unităţilor de măsură
diferite. Se obişnuieşte a se spune că, prin această transformare, exprimăm
informaţiile în formă standardizată, în unităţi de abatere medie pătratică
(unităţi standard). Se observă că, prin această transformare, centrăm mai
întâi valoarea (adică scădem din ea media) iar apoi o împărţim la abaterea
medie pătratică.
Observaţie: Un calcul matematic simplu ne conduce la faptul că
media valorilor standardizate este zero, iar dispersia este unu.
Exemplu: Fie datele din tabelul 1 al Anexei 1. Să considerăm doar
primele 4 caracteristici ale autoturismelor exprimate prin variabilele: preţul,

31
capacitatea cilindrică, viteza şi consumul. Printr-un calcul elementar
obţinem mediile şi respectiv abaterile medii pătratice ale acestor variabile
(folosind datele tuturor celor 26 mărci de autoturisme):
Capacitatea
Preţul Viteza Consumul
cilindrică
Media 16118 1172 155 7.18
Abaterea medie
4148 205 22.17 1.13
pătratică
Folosim acum formula de standardizare pe care o aplicăm fiecărui
element al matricei. Obţinem ca rezultat informaţiile standardizate
prezentate în tabelul 5. Se observă că, deşi cele 4 variabile selectate se
exprimă în unităţi de măsură diferite, în forma standard valorile sunt perfect
comparabile între ele.
Tabelul 5. Valori standardizate

Preţul Cap. cil. Viteza Consumul


standardizat standardizată standardizată standardizat
1.A -0.99 -0.85 -0.67 -0.86
2.C -0.681 -1.06 -0.44 -1.39
3.D -0.364 -0.87 -0.44 -0.42
4.Fl -0.64 -0.84 -0.44 -0.86
5.F2 2.14 0.63 2.04 1.52
6.F3 0.42 0.63 0.46 0.46
7.F4 -0.74 -0.27 -0.80 -0.15
8.FS 1.36 2.07 1.13 1.87
9.N -0.89 -0.89 -0.66 -0.68
10.O -0.74 -0.87 -0.53 0.02
11.P1 -0.69 -1.06 -0.94 -0.33
12.P2 -0.08 -0.23 -0.58 -1.21
13.P3 0.67 0.91 0.68 1.78
14.P4 2.18 1.99 1.59 1.34
15.Ri -0.76 -1.05 -1.79 -0.77
16.R2 -0.56 -0.31 -1.57 -0.77
17.R3 -0.47 -0.31 -0.53 -1.21
18.R4 0.27 1.09 0.55 0.64
19.RS 2.22 1.09 2.04 1.34
20.SI 0.76 1.41 0.91 1.43
21.S2 -1.24 -1.31 -1.07 0.11

32
Preţul Cap. cil. Viteza Consumul
standardizat standardizată standardizată standardizat
22.S3 -0.96 -0.87 -0.44 -0.681
23.S4 -0.35 0.74 0.37 -0.59
24.Ti -0.51 -0.84 -0.22 -0.95
25.T2 0.18 0.59 0.68 -0.33
26.V 0.46 0.49 0.68 0.72

1.6.2 Matricea corelaţiilor


Aşa cum am mai spus, corelaţia (liniară) între două variabile este
măsurată prin coeficientul de corelaţie Pearson. Pentru două variabile i şi j
extragem din matricea de date X = xij ( )i=1,2,...,n; j =1,2,..., p
coloanele i şi j apoi
calculăm coeficientul de corelaţie Pearson ri , j . Calculând pe rând, pentru
toate cele p variabile, coeficienţii de corelaţie liniară, putem înlocui matricea
iniţială cu o matrice de dimensiune p × p (reamintim că am notat-o R) având
ca elemente coeficienţii de corelaţie respectivi. (Matricea este simetrică şi
are toate elementele de pe diagonala principală egale cu unu).
Analiza elementelor matricei corelaţiilor este foarte importantă în
prelucrarea informaţiilor din matricea X de date. Astfel, analizând
elementele extra-diagonale ale matricei, identificăm perechi de variabile
între care există dependenţe liniare puternice (în general, extragem acele
variabile pentru care coeficientul de corelaţie depăşeşte 0,8), dar identificăm
şi perechi de variabile cu coeficienţi de corelaţie foarte mici (aproape de
zero). Aceste informaţii ne sunt utile în prelucrările ulterioare!
Matricea corelaţiilor poate fi tratată însă algebric prin proprietăţile
sale (de simetrie şi pozitivitate), ea fiind o sursă de alte informaţii utile în
prelucrarea ulterioară a datelor. Reamintim următoarele două teoreme:
Teorema 1 (descompunerea Jordan). Fie o matrice pătratică A
(p × p). Ea poate fi scrisă sub forma: A = ΛΓΛ−1 unde matricea Λ conţine
vectori proprii ai matricei A iar matricea Γ este o matrice diagonală ce
conţine valorile proprii ale matricei A.
Teorema 2. Fie o matrice simetrică A (p × p). Ea poate fi scrisă sub
forma A = ΛΓΛT unde matricea Λ conţine vectori proprii ai matricei A,
matricea Γ este o matrice diagonală ce conţine valorile proprii ale matricei
A iar ΛT este transpusa matricei Λ .

33
Capitolul 2. Metode de învăţare în analiza datelor –
clasificare
În ultimii ani au crescut simţitor aplicaţiile în domeniul analizei
datelor. Prezenţa unui soft performant a făcut ca să apară solicitări pentru
prelucrarea datelor din diverse medii economice, de afaceri, bancare, etc.
Evident că existenţa unor baze de date care conţin informaţii la zi din
domeniul afacerilor, bancar, al prospectării pieţei, face accesibilă extragerea
unor seturi de date, în general de dimensiuni mari, care să se preteze la
tehnici de analiză a datelor. În cele ce urmează vom enumera câteva aplicaţii
mai recente.
1) Un analist în afaceri este interesat să ordoneze un număr mare de
fonduri mutuale asupra cărora are informaţii privind evoluţia lor în ultimii
ani. Sunt cunoscute nivelele unor indicatori financiari relevanţi, precum şi o
serie de rate (rapoarte) calculate pe baza acestora. Analistului îi va veni
foarte greu să acorde scoruri fondurilor ţinând seamă de un mare număr de
indicatori. El va standardiza matricea informaţiilor sale şi apoi va apela la
tehnici ACP. Dacă presupunem că primele două componente principale
găsite vor acoperi 70% din informaţia totală, atunci analistul se va declara
mulţumit cu acestea, iar calculul scorurilor şi ordonarea fondurilor vor fi
făcute în raport cu aceste componente.
2) O companie de librării deţine numeroase informaţii la zi privind
vânzările anuale de cărţi, CD-uri, DVD-uri, precum şi informaţii despre
clienţii săi. Conducerea companiei este interesată să găsească asemănări
între cumpărători, aşa încât strategiile privind reclama să se facă spre clase
sau grupuri de cumpărători. Ea va folosi analiza factorilor pentru
identificarea unui factori latenţi care sunt responsabili de gruparea clienţilor
în clase. Clienţii vor fi grupaţi în funcţie de scorurile obţinute, adoptându-se
apoi strategii de piaţă adecvate în raport cu grupele formate.
3) O bancă deţine şi actualizează o mare bază de date ce se referă la
clienţii săi. Pe o perioadă lungă de timp sunt contabilizate serviciile oferite,
şi anume: conturi curente, depozite, împrumuturi, carduri de credit.
Conducerea băncii ar dori să grupeze clienţii săi în raport cu serviciile
oferite, şi să scoată în evidenţă fidelitatea acestora. Ar fi interesată în a
identifica grupul clienţilor foarte activi, al celor „moderaţi” şi al celor
„pasivi”. Odată făcută această identificare, conducerea băncii va apela la
diverse strategii de promovare a serviciilor sale în raport cu caracteristicile
claselor formate.

34
4) Într-un studiu lunar privind consumul populaţiei, studiu efectuat
asupra a n gospodării, se cunosc informaţii despre p bunuri de consum
diferite înregistrate asupra fiecărei familii. Corelaţiile dintre nivelele de
consum ale celor p bunuri pot fi explicate printr-un număr relativ mic de
„factori”, în general de natură socială ce stau la baza deciziei de consum.
Cum identificăm aceşti factori neobservaţi, latenţi şi ce corelaţii au ei cu
nivelele de consum ale celor p bunuri?

Evident, aplicaţiile pot fi diverse, dar o întrebare apare acum cu


insistenţă: Cum răspundem problemelor deosebit de complexe existente în
diverse domenii? În cele ce urmează vom prezenta pe scurt o clasificare şi
apoi o prezentare succintă a câtorva metode folosite azi cu succes în
domeniul afacerilor.

Clasificarea metodelor de analiză a datelor

În Capitolul 1 am arătat că în analiza datelor se studiază informaţii


conţinute în diverse matrice X = xij ( )i=1,2,...,n; j =1,2,..., p
având liniile
corespunzătoare indivizilor (sau cazurilor) iar coloanele asociate
variabilelor. Atunci când ne alegem tehnica de analiză a datelor pe care
dorim să o aplicăm, având ca suport informaţiile oferite de matricea X,
trebuie să avem în vedere ceea ce urmărim în aplicaţia noastră. În cele ce
urmează vom prezenta o clasificare a tehnicilor de analiză a datelor şi o
propunere de etapizare a aplicării lor, în funcţie de scopul urmărit.
De regulă, în analiza pe care dorim să o facem – atât numărul
indivizilor cât şi cel al variabilelor fiind mare – suntem confruntaţi cu o
analiză multivariată. Dispunem însă de informaţii asupra celor p variabile,
informaţii colectate de la n indivizi. Din punct de vedere geometric, aceste
observaţii pot fi reprezentate prin n puncte în spaţiul p-dimensional al
variabilelor. Dacă am analiza doar două variabile, atunci configuraţia celor n
puncte ar fi uşor de vizualizat „plan”, iar dificultatea analizei s-ar reduce
foarte mult. Însă numărul variabilelor urmărite este – de regulă – mare, iar
configuraţia punctelor este dificil de imaginat.
Mai precizăm faptul că într-o primă etapă a modelării toate cele p
variabile sunt tratate ca variabile input şi nu am stabilit nici o variabilă scop
(output). Prin urmare, sintetizând cele afirmate anterior, un prim obiectiv în
analiza realizată ar fi acela de a reduce controlat dimensiunea matricei
(reducând numărul de linii sau/şi de coloane) şi de a găsi un număr mai mic
de variabile care să explice „trăsăturile” indivizilor. În acelaşi timp, în unele
aplicaţii se doreşte atât asocierea unor scoruri indivizilor, aşa încât să-i

35
putem ordona, cât şi o clasificare a acestora în clase cât mai omogene. În
aceste situaţii vom apela la tehnici descriptive de analiză, tehnici numite
nesupervizate. Acestea presupun că toate variabilele urmărite au acelaşi rol
în explicarea fenomenului, neprecizându-se iniţial nici o distincţie între ele.
Totuşi, vom presupune că ar exista factori ascunşi (latenţi) comuni tuturor
variabilelor, factori pe care încercăm să-i scoatem la iveală. În categoria
metodelor nesupervizate se regăsesc, după cele mai recente clasificări din
domeniul data mining, următoarele patru:
1) Analiza componentelor principale, având ca scop reducerea
dimensionalităţii datelor iniţiale.
2) Analiza factorilor, având ca scopuri principale identificarea
factorilor latenţi şi asocierea de scoruri indivizilor.
3) Analiza clasificării, ce are ca scop gruparea în clase cât mai
omogene, uneori de indivizi, alteori de variabile.
4) Analiza coşului de piaţă, având ca scop determinarea grupelor de
produse care sunt achiziţionate împreună de către cumpărători.
Dacă în matricea de date putem identifica o variabilă a cărei evoluţie
depinde de celelalte, fie conform legităţii fenomenului, fie ca o constatare a
unei analize anterioare, atunci aceasta va fi numită variabilă dependentă
sau variabilă răspuns, iar variabilele care o influenţează vor fi numite
variabilele predictor sau variabile de influenţă. Evident, în aceste situaţii
ne-ar interesa să cuantificăm, printr-o expresie matematică,
legătura/legăturile dintre variabila răspuns şi variabilele predictor. Vom
recurge la aşa-numitele metode supervizate care sunt metode explicative
de analiză a datelor. În afară de funcţia explicativă, ele au de regulă şi o
funcţie predictivă privind comportarea variabilei răspuns. Ele se
caracterizează prin faptul că, pe baza unui set de date de învăţare
(antrenament), este construit un model care va fi apoi aplicat pentru a
previziona comportamentul variabilei răspuns pentru diverse situaţii noi,
similare celor analizate. În categoria metodelor supervizate se regăsesc atât
tehnicile de explicare a clasificării, cât şi diversele tipuri de regresie. Să le
enumerăm:
1) Clasificarea prin arbori de regresie (CART) are ca scop obţinerea
de submulţimi de date cât mai omogene în raport cu variabila
răspuns. (O variabilă răspuns poate fi continuă sau categorială.)
2) Detectarea automată a interacţiunilor (CHAID) este o metodă de
clasificare folosită pentru a studia relaţiile dintre o variabilă de
răspuns de tip categorial şi o mulţime de variabile predictor ce
pot interacţiona unele cu altele.

36
3) Analiza discriminării este o metodă de clasificare ce pune în
evidenţă acele variabilă predictor care discriminează cel mai
mult între două sau mai multe grupări formate natural. (Variabila
răspuns acceptată este de tip categorial în timp ce variabilele
predictor pot fi atât variabile continue cât şi variabile ordinale.)
4) Regresia liniară multiplă prin care se descrie, printr-un model
liniar, legătura dintre variabila răspuns şi variabilele predictor.
(De regulă toate variabilele implicate sunt continue.)
5) Regresia logistică este un model particular de regresie liniară ce
presupune că variabila răspuns este binară sau ordinală.
6) Folosirea reţelelor neurale prin intermediul cărora se modelează
un fenomen complex cu multe variabile predictor şi multiple
interacţiuni. Reţelele neurale folosesc un set de date de instruire
pe baza căruia se propune un model, care este apoi testat şi
validat pe un alt subset de date. (Variabilele răspuns pot fi
codificate ca variabile binare.)
Sintetizând, putem afirma că este indicat a se aplica tehnicile
descriptive, nesupervizate, după etapa primară de explorare a datelor
matricei. Ele pot fi tehnici de analiză a componentelor principale, de analiză
a factorilor sau de analiză a clasificării. Toate au ca scop reducerea
controlată a dimensionalităţii matricei iniţiale. Tehnicile explicative,
supervizate, se aleg după natura variabilei răspuns şi a variabilelor predictor.
Putem întâlni următoarele situaţii:
I) Variabila răspuns este continuă şi toate variabilele predictor sunt
de asemenea continue; pentru a estima dependenţa dorită se
folosesc tehnici de regresie (simplă sau multiplă);
II) Variabila răspuns este binară, iar predictorii sunt variabile
continue. În acest caz se apelează la regresia logit;
III) Variabila răspuns este nominală, iar variabilele predictor sunt
continue. Se va apela, în general, la tehnici de discriminare;
III) Variabila răspuns este continuă, dar variabilele predictor sunt de
tip categorial; se vor aplica tehnici de analiză a varianţei;
IV) Atât variabila răspuns, cât şi variabilele predictor sunt de tip
categorial. Vom folosi tehnici de analiză de tip „conjoint”.

Prezentăm în tabelul 1 o clasificare elocventă a tehnicilor de analiză


a datelor.

37
Tabelul 1. Clasificarea tehnicilor de analiză a datelor

Variabila răspuns Variabilele predictor


Tipul Denumirea
tehnicii
cantitativă calitativă cantitative calitative

• Analiza
componentelor Nu are Nu are Da -
principale
Nesupervizată
(descriptivă)

• Analiza factorială Nu are Nu are Da -


• Analiza Nu are Nu are Da -
clasificării
• Analiza Nu are Nu are - Da
corespondenţelor
• Regresia liniară Da - Da -
simplă şi multiplă
• Regresia logistică - Da Da -
• ANOVA/
Supervizată (explicativă)

- Da Da -
MANOVA
• Analiza - Da Da Da
discriminării
o Tehnica arbo-
rilor de decizie Da Da - Da
(CART)
o Tehnica - Da Da -
CHAID

• Analiza canonică Da/Mai - Da -


multe
variabile

38
Capitolul 3. Metode de învăţare nesupervizată

În cele ce urmează vom prezenta pe scurt câteva dintre tehnicile de


învăţare nesupervizată. Reamintim că aceste tehnici au ca scop construirea
unui model al datelor iniţiale în care toate variabilele fiind tratate ca
inputuri, nefiind precizate nici un fel de variabile de tip output.

3.1 Analiza componentelor principale

Aşa cum am mai menţionat, datele multivariate sunt greu de


vizualizat. Din acest motiv ar fi necesară reducerea dimensiunilor matricei
lor. De cele mai multe ori este dorită reducerea numărului de coloane.
Tehnica numită „Analiza componentelor principale” (Principal Component
Analysis – PCA) are ca scop reducerea controlată a numărului de variabile
(coloane) ale matricei de date, pe cât posibil la două sau trei. Astfel, în loc
de p variabile – corelate între ele – am dori să avem doar două sau trei
variabile noi, numite componente. Acestea exprimă atribute noi ale
indivizilor şi sunt construite în aşa fel încât să fie necorelate între ele, fiecare
dintre aceste noi variabile fiind o combinaţie liniară de variabilele originale.
Scopul PCA este acela de a extrage cel mai mic număr de
componente care să recupereze cât mai mult din informaţia totală
conţinută în datele originale.

3.1.1 Reprezentări geometrice ale datelor. Cantitatea de informaţie


din norul de puncte
Să prezentăm mai întâi cazul în care folosim matricea de date
X ( n × p ) ce conţine informaţii asupra celor p variabile urmărite pe cei n
indivizi (cazuri). În această abordare nu facem nici o ipoteză legată de
repartiţiile valorilor celor p variabile, doar aplicăm standardizarea datelor.
Soluţia obţinută pentru reducerea dimensiunilor matricei datelor se bazează
pe considerente strict geometrice şi algebrice.
Fie matricea X ( n × p ) ce reprezintă n indivizi asupra cărora s-au
măsurat p variabile. Matricea X o putem privi fie linie cu linie exprimând
informaţii despre cei n indivizi, fie coloană cu coloană exprimând informaţii
despre cele p variabile.

39
Prin urmare:
(1) oricărui individ i îi corespunde în matricea X o linie, adică un
vector cu p elemente, care va fi scris: Li = ( xi1 , xi 2 ,..., xip ) ∈ R p ;

(2) oricărei variabile j îi corespunde în matricea X o coloană cu n


elemente, care va fi notată: C j = ( x1 j , x 2 j ,..., x nj ) T ∈ R n .

Dacă matricea este privită pe linii, atunci avem n linii ce pot fi


reprezentate în spaţiul Rp al variabilelor. Se obţine, în spaţiul variabilelor,
un nor de n puncte de coordonate ( xi1 , xi 2 ,..., xip ) , câte un punct pentru
fiecare individ i.
Dacă matricea este privită pe coloane, atunci avem p coloane ce pot
fi reprezentate în spaţiul Rn al indivizilor. Se obţine, în spaţiul indivizilor,
un nor de p puncte de coordonate ( x1 j , x 2 j ,..., x nj ) , câte un punct pentru
fiecare variabilă j.
Atunci când n sau/şi p sunt mari (mult mai mari decât 2 sau 3), nu
mai putem să interpretăm grafic norul de puncte. Ideea ar fi să dezvoltăm
nişte tehnici care să ne permită, fără a pierde prea multă informaţie
conţinută în norul de puncte, să aproximăm atât spaţiul coloanelor cât şi
spaţiul liniilor prin nişte subspaţii de dimensiuni mai mici. Vom prezenta în
cele ce urmează o asemenea tehnică.
Să notăm cu m = ( m1 , m 2 ,..., m p ) vectorului mediilor celor p
variabile. Punctul de coordonate ( m1 , m 2 ,..., m p ) din Rp este numit centrul
de greutate al norului de puncte. Informaţia I k cu care participă un individ
oarecare k în norul de puncte poate fi exprimată prin distanţa (euclidiană) de
la punctul ce-l reprezintă – de coordonate ( x k1 , x k 2 ,..., x kp ) – până la centrul
de greutate, adică:
p
I k= ∑ (x
j =1
kj − m j )2 . (1)

În acelaşi timp, putem să scriem informaţia totală I a norului de


puncte ca fiind suma informaţiilor cu care participă toate punctele
(indivizii), adică:
n n p
I= ∑ I = ∑∑ ( x
k =1
k
k =1 j =1
kj − m j )2 . (2)

40
Observaţie: Este important, atunci când analizăm norul de puncte,
să identificăm punctele ce participă cu informaţia cea mai mare!
Exemplu: Să presupunem că avem trei indivizi şi două variabile
măsurate asupra lor. Coordonatele acestor indivizi, în planul variabilelor
sunt următoarele: x1 = (0, 0), x 2 = (1, 0), x3 = (5, 5) . Centrul de greutate al
norului de puncte descris de cei trei indivizi este dat de punctul de
coordonate (m1 = 2, m2 = 1.6666) .
Folosind formulele de mai sus, obţinem informaţiile corespunzătoare
indivizilor: I1 = 6.75, I2 = 3.75 şi I3 = 20.15 şi informaţia totală oferită de
norul de puncte I = 30.65. Se observă faptul că punctul al treilea deţine
informaţia cea mai mare în cadrul norului de puncte analizat.
A ajusta norul de puncte înseamnă a exprima datele din matrice prin
mai puţine coloane, pierzând cât mai puţin posibil din informaţia de
ansamblu oferită de norul de puncte.
a) Subspaţiu cu o dimensiune
Considerăm datele exprimate prin norul de puncte din spaţiul
variabilelor Rp. Acest nor are un „centru”, anume centrul de greutate.
Presupunem că – eventual în urma unei operaţiuni de centrare – originea
spaţiului este exact acest centru. Fie, în acest spaţiu Rp, o dreaptă Δ ce trece
prin origine şi este determinată de versorul u = (u1 , u 2 ,..., u p ) T . Putem să
alegem o infinitate de asemenea drepte; evident, fiecare dreaptă astfel
precizată este un subspaţiu de dimensiune 1 al spaţiului variabilelor.
Există oare o asemenea dreaptă care să ajusteze „optim” norul de
puncte? Pentru a răspunde la
această întrebare, să considerăm un
individ k ale cărui coordonate Pk(x1,x2,...)
(centrate) în spaţiul variabilelor
sunt ( x k1 , x k 2 ,..., x kp ) . Δ
Să proiectăm acest individ ck Pk’(y1,y2,…)
pe dreapta Δ de versor u. Proiecţia
sa se află la distanţa ck de origine; 0
numărul ck reprezintă unica
„coordonată” a individului k pe Figura 1. Proiecţia pe o dreaptă
dreapta Δ. Coordonata ck,, obţinută
prin proiecţie ortogonală, este dată de formula:
c k = x k1 ⋅ u1 + x k 2 ⋅ u 2 + ... + x kp ⋅ u p .
(Pentru edificare putem urmări şi desenul din figura 1.)

41
Folosind definiţia informaţiei oferite de norul de puncte din spaţiul
Rp, putem să exprimăm informaţia totală oferită de către proiecţiile
punctelor din nor pe dreapta Δ prin:
n n
Iu = ∑ I' = ∑c
k =1
k
k =1
2
k (3)

Putem să formulăm acum următoarea


Problemă: Să se identifice, dintre dreptele Δ, acea dreaptă Δ*, adică
acel versor u * = (u1* ,.u 2* ,.., u *p ) T , care să maximizeze expresia (3) cu alte
cuvinte, să recupereze maxim posibil din informaţia norului de puncte.
Ca problemă de programare matematică (3) se rescrie astfel:
n
max I u =
u
∑ (x
k =1
k1 ⋅ u1 + ... + x kp ⋅ u p ) 2
(4)
u12 + u 22 + ... + u 2p = 1.

Versorul u * = (u1* ,.u 2* ,.., u *p ) T , soluţie a problemei (4), pentru care


se obţine maximul expresiei informaţiei totale, va fi notat
f 1 = ( f11 , f 21 ,..., f p1 ) T . El poartă numele de prima axă factorială.

Se observă că numerele c k* – ce determină proiecţiilor celor n puncte


(indivizi) pe această primă axă factorială – se obţin prin înmulţirea
matriceală X ⋅ f 1 ∈ R n . Să notăm cu C1 acest vector. El se numeşte prima
componentă factorială sau prima variabilă factorială. Prin urmare, în loc
să analizăm p variabile asupra celor n indivizi, putem analiza doar o singură
variabilă nouă, dată de vectorul C1 obţinut prin formula
C1 = X ⋅ f 1 (5)
De menţionat faptul că această componentă este o combinaţie liniară
de coloanele matricei X, iar coeficienţii acestei combinaţii sunt daţi de
elementele versorului axei factoriale. (Cât de bine va înlocui ea ansamblul
variabilelor rămâne însă de văzut!)
Observaţie: Din punct de vedere geometric, folosind criteriul „celor
mai mici pătrate”, problema aflării unui subspaţiu de dimensiune 1 poate fi
formulată astfel (vezi notaţiile din figura 1).

42
Să se găsească acea dreaptă Δ* de versor u * = (u1* ,.u 2* ,.., u *p ) T
pentru care se realizează minimul expresiei


2
Pk − Pk ' (6)

Se observă imediat faptul că aflarea minimului expresiei (6) este


echivalentă cu aflarea maximului problemei (4).
Soluţia problemei de optim (4) este justificată de următoarea:
Propoziţia 1. Versorul u * = (u1* ,.u 2* ,.., u *p ) T soluţie a problemei de
optimizare (4) este un vector propriu asociat celei mai mari valori proprii,
fie ea λ1, a matricei X T X . Cantitatea totală de informaţie recuperată de axa
factorială asociată versorului u * este tocmai λ1.
Demonstraţie. Dacă datele din matricea X sunt standardizate în
raport cu mediile şi abaterile standard ale variabilelor, atunci matricea
X T X este tocmai matricea coeficienţilor de corelaţie (vezi Anexa 3). Să o
notăm cu R. Cum informaţia totală recuperată de dreapta de versor u este
I u = C T ⋅ C unde C este variabila factorială asociată axei factoriale u (adică
C = X ⋅ u ), această informaţie o putem scrie: I u = C T ⋅ C = u T R u , iar
problema de optim (4) devine:
max I u = u T ⋅ R ⋅ u
(7)
T
u ⋅ u = 1.
Pentru a rezolva problema de optimizare (7) vom face apel la
lagrangeanul asociat ei. (Avem o singură restricţie de tip egalitate, prin
urmare vom avea un singur multiplicator Lagrange asociat ei – fie acesta λ.)
Lagrangeanul este:
L(u, λ) = u T R u + λ(1 − u T u ).
∂L
Din condiţia necesară de optim = 0 rezultă că vectorul u şi
∂u
multiplicatorul λ trebuie să fie soluţii ale sistemului de ecuaţii
R ⋅ u = λu (8)

adică multiplicatorul Lagrange λ este o valoare proprie a matricei R, iar u *


(soluţia optimă a problemei) este un vector propriu asociat.

43
Acum putem să afirmăm că, din punct de vedere practic, prima axă
factorială f 1 este dată de vectorul propriu (de normă 1) asociat primei
valori proprii a matricei R a corelaţiilor.
Se mai observă faptul că, dacă înmulţim ambii membri ai relaţiei (8)
T
cu u , obţinem:
uT ⋅ R ⋅u = λ uT ⋅u
şi, cum vectorul u verifică condiţia u T ⋅ u = 1 (este de normă 1), rezultă că

uT ⋅ R ⋅u = λ (9)
Din expresia (9) rezultă că informaţia totală recuperată de prima axă
factorială f 1 (dată de versorul u * , optimul problemei (7)) este tocmai λ
(adică valoarea proprie maximă a matricei corelaţiilor).
Observaţie. Cum matricea hessian (a derivatelor de ordinul doi)
asociată este R, suntem asiguraţi că din condiţia necesară de optim se va
obţine un punct de maxim pentru problema (7).

b) Subspaţiu de două dimensiuni


A ajusta norul de puncte Rp printr-un (sub)spaţiu cu două dimensiuni
înseamnă a găsi un plan în spaţiul Rp. Se poate arăta că un asemenea
subspaţiu care ajustează „optim” norul de puncte este un plan determinat de
prima axă factorială f 1 = ( f11 , f 21 ,..., f p1 ) T obţinută ca soluţie a problemei
de optim (4) şi de un vector u = (u1 , u 2 ,..., u p ) T ortogonal pe aceasta, vector
care satisface:
n
max I u = ∑ (x
k =1
k1 ⋅ u1 + ... + x kp ⋅ u p ) 2

T
u u =1 (10)
1 T
( f ) ⋅u = 0

Soluţia problemei (10), fie ea u* = (u1* ,.u 2* ,.., u *p ) T , va fi notată, prin


2
analogie cu soluţia problemei (4), cu f = ( f12 , f 22 ,..., f p2 ) T şi va fi numită
a doua axă factorială. Aplicând din nou propoziţia 1 pentru problema (10),
putem să concluzionăm că f 2 este vectorul propriu al matricei R asociat

44
2
celei de-a doua valori proprii. Cum matricea R este simetrică, f este
ortogonal pe f 1 .
În ceea ce priveşte coordonatele celor n indivizi pe această nouă axă,
grupate în vectorul C 2 ∈ R n , vor fi obţinute la fel ca şi în cazul primei axe,
adică printr-un produs matriceal:
C2 = X ⋅ f 2 (11)
Caracteristica „sintetizată” C2 astfel obţinută se numeşte a doua
componentă sau a doua variabilă factorială. Ea este o a doua combinaţie
liniară a variabilelor iniţiale.
c) Subspaţiu de q dimensiuni (q < p)
În cazul q-dimensional (cu q < p), a ajusta „optim” norul de puncte
p
din R înseamnă a maximiza expresia (3), de această dată prin puncte
proiectate pe un subspaţiu (din Rp) de dimensiune q. Prin generalizarea
cazului bidimensional, ar trebui să identificăm, iterativ, axele factoriale
f 1 , f 2 , ..., f q mutual ortogonale – perpendiculare două câte două – ca
soluţii ale problemei (4). Folosind din nou propoziţia 1, axele factoriale
căutate vor fi vectori proprii asociaţi valorilor proprii ale matricei R a
corelaţiilor. Dacă λ1 ≥ λ 2 ≥ ... ≥ λ q sunt primele q valori proprii, atunci
axele factoriale f 1 , f 2 , ..., f q sunt vectorii proprii corespunzători.
d) Aspecte practice privind ajustarea norului de puncte în
spaţiul p-dimensional al variabilelor
Pentru a realiza scopul propus în PCA se calculează mai întâi
matricea R a corelaţiilor variabilelor (care este o matrice de dimensiune
p × p) şi apoi valorile proprii şi vectorii proprii ai acesteia. Componentele
principale sunt extrase în ordinea descrescătoare a „importanţei” lor, aşa
încât prima componentă extrasă recuperează cea mai mare parte a cantităţii
de informaţie din datele iniţiale. Procesul de extragere a componentelor
principale este unul iterativ. Dacă s-a reuşit extragerea unui număr de q
componente, iar acestea acoperă 80-90% din informaţia totală a datelor
iniţiale, ne putem declara mulţumiţi de rezultatul obţinut. În continuare,
analistul problemei va încerca să interpreteze componentele obţinute în
termenii variabilelor iniţiale, pentru a oferi mai multă „înţelegere”
rezultatelor obţinute.
Putem să prezentăm acum un algoritm pentru obţinerea primelor q
axe factoriale şi a cantităţii totale de informaţie recuperată de ele.

45
Paşii algoritmului sunt următorii:
Pasul 1. Se standardizează datele din matricea de date, folosind mediile şi
abaterile medii pătratice ale variabilelor.
Pasul 2. Se calculează, din datele standardizate, matricea corelaţiilor, fie ea
R.
Pasul 3. Se identifică primele q valori proprii ale matricei R a corelaţiilor (în
ordine descrescătoare). Fie ele λ1 ≥ λ 2 ≥ ... ≥ λ q .

Pasul 4. Prima axă factorială f 1 este dată de vectorul propriu de normă 1


asociat valorii proprii λ1 . A doua axă factorială f 2 este dată de
vectorul propriu de normă 1 asociat valorii proprii λ 2 , ş.a.m.d.
Formăm matricea F = ( f 1 , f 2 ,..., f q ) a vectorilor proprii.

Pasul 5. Matricea C = (C 1 , C 2 ,..., C q ) a componentelor principale –


variabilelor factoriale – se obţine din matricea vectorilor proprii F
ai matricei R şi din matricea X, adică
C = X ⋅F (12)
Pasul 6. După parcurgerea pasului 5 pentru toate cele q (< p) axe factoriale,
cantitatea totală de informaţie din norul de puncte recuperată de
subspaţiul factorial descris de axele f 1 , f 2 , ..., f q este
λ1 + λ 2 + .. + λ q .

Un mod practic de apreciere a calităţii ajustării norului de puncte


prin acest subspaţiu este calculul raportului
λ1 + λ 2 + .. + λ q
τq = × 100 . (13)
λ1 + λ 2 + .. + λ p

Cum 0 ≤ τ q ≤ 100 , acest raport exprimă, procentual, cantitatea de


informaţie recuperată. Evident, cu cât τ q este mai apropiat de valoarea
maximă 100, cu atât norul de puncte este ajustat mai bine prin subspaţiul de
dimensiune q.

3.1.2 Combinaţii liniare standardizate


Soluţia geometrică a problemei aflării componentelor principale
prezentată în §3.1.1 este uşor de aplicat, ea nu presupune ipoteze

46
suplimentare asupra variabilelor urmărite. Are la bază matricea observaţiilor
iar tehnicile folosite sunt doar de natură algebrică si geometrică. Însă putem
aborda problema reducerii numărului de variabile prin componente
principale şi în alt mod.
Să presupunem că avem identificate cele p variabilele ce descriu un
fenomen. Evident, în dorinţa noastră de a reduce numărul acestora am putea
să considerăm, pe rând, doar câte o variabilă importantă. Deşi, reducând
astfel drastic problema, am greşi cu siguranţă, neştiind pe care s-o alegem.
Am putea însă să acordăm ponderi egale celor p variabile şi să considerăm
p

∑x
1
ca nouă variabilă media aritmetică a celor p variabile, adică j ,
p
j =1
⎛1 1 1⎞
ponderile folosite fiind ⎜⎜ , .,.., ⎟⎟ . Am greşi însă din nou acordând
⎝p p p⎠
aceleaşi ponderi tuturor variabilelor, nediscriminându-le în nici un fel.
Soluţia cea mai rezonabilă ar fi să considerăm o combinaţie liniară a
p
variabilelor cu ponderile necunoscute, anume δ x = T
∑δ x
j =1
j j , unde

p
δ = (δ1 , δ 2 ,..., δ p ) sunt ponderi normate (cu proprietatea ∑δ j =1
2
j = 1,

combinaţia fiind standardizată). Noua variabilă „generică” δ T x este cea


care ne interesează; ea este o componentă sau o nouă variabilă dacă vom
identifica unic ponderile (δ1 , δ 2 ,..., δ p ) .
Să presupunem că cele p variabile urmărite sunt aleatoare, grupate în
vectorul x = ( x1 , x 2 ,..., x p ) . Fie μ vectorul medie (avem E (x) = μ ) şi Σ
matricea de covarianţă (avem Var (x ) = Σ ). Mai ştim că matricea de
covarianţă se scrie în descompunere Jordan Σ = ΓΛΓ T (cu Λ matricea
diagonală a valorilor proprii iar Γ o matrice ortogonală formată cu vectori
proprii ai matricei Σ ). Acum, la rândul ei, noua variabilă δ T x este şi ea o
variabilă aleatoare având media δ T μ şi varianţa Var (δ T x) = δ T ⋅ Σ ⋅ δ .
Precizarea unui criteriu de optim în aflarea ponderilor (δ1 , δ 2 ,..., δ p ) este
acum foarte clară: vom alege acea combinaţie liniară standardizată care
are cea mai mare varianţă. Deci, ponderile alese (δ1 , δ 2 ,..., δ p ) vor fi
acelea care rezolvă următoarea problemă de optimizare.

47
max Var (δ T x) = δ T ⋅ Var ( x) ⋅ δ
(14)
δ T δ = 1.
Problema (14) este analoagă cu problema de optimizare (7), în locul
matricei R a corelaţiilor avem matricea Σ a covarianţei. Ponderile optime
δ * , de normă 1, sunt vectorii proprii asociaţi pe rând valorilor proprii ale
matricei Σ . Fie valoarea proprie maximă λ1 , căreia îi corespunde vectorul
propriu γ1 de normă 1. Avem δ* = γ1 şi deci noua variabilă va fi γ1T x cu
media γ1T μ . Dacă dorim ca noua variabilă să aibă media zero, atunci,
printr-o transformare de variabilă obţinem
y = γ1T ( x − μ) (15)
unde am notat cu y componenta principală asociată ponderilor δ* = γ1 .
Repetând procedeul, luând pe rând valorile proprii ale matricei Σ şi
folosind notaţiile din descompunerea Jordan a matricei Σ putem scrie:
Y = Γ T ( x − μ) (16)
unde am notat cu Y matricea noilor variabile principale.
Exemplul 1. Să analizăm datele din tabelul 1 al Anexei 1. Dealerul
ştie că unii cumpărători se ghidează, în achiziţionarea unui autoturism nou,
doar după preţul acestuia. Lista de mai jos, obţinută printr-o simplă ordonare
după preţ, le va fi de folos.
Preţ Preţ
SEATMarbella GL 10970 DaihatsuCharadeTS 14625
Austin Metro Special 12000 SuzukiSwiftGL 14655
SuzukiSwiftGA 12115 Peugeot205GL 15780
Nissan Micra 1.0 DX 12400 ToyotaStarlettXL 16850
Renault4TL 12981 Renault5GTS 17250
FordFiestaJunior 13050 FiatUno70SL 17845
Opel Corsa Swing 13050 Volkswagen Polo 18045
Peugeot205XE 13260 Peugeot205GT 18965
CitroenAX 10RE 13275 SEATIbizaGLX 19283
FiatUno45Fire 13475 FordFiestaXR-2 21743
Renault4GTL 13806 FiatUnoTurboTE 25005
ToyotaStarlettL 14000 Peugeot205GTI 25175
Renault5SL 14156 Renault5GTTurbo 25319

48
Alţi cumpărători se ghidează, în achiziţionarea unui autoturism nou,
doar după viteza maximă. Şi pentru aceştia se poate obţine o listă analoagă.
Există însă cumpărători care ar dori să se orienteze după ambele
variabile, Preţul de achiziţie dar şi Viteza maximă. Acestora le va fi de folos
graficul următor.

220

FiatUnoTur boTE
200 Renault5GTTur bo

P eugeot205GTI
For dFies taXR-2
180 SEATIbizaGLX
Volks wagen P olo
ToyotaStar lettXL
P eugeot205GT
SuzukiSwif tGL
Renault5GTS FiatUno70SL
160
ToyotaStar lettL
SuzukiSwif tGA Daihats uChar adeTS
140 Aus tin Metr o Special Renault5SL P eugeot205GL

P eugeot205XE
SEATMar bella GL
120 RenauIt4GTL

Renault4TL

100
10000 12000 14000 16000 18000 20000 22000 24000 26000 28000

P re t ( $ )

S-ar putea obţine oare o ordonare a tipurilor de autoturisme, ţinând


seamă de ambele variabile? Oare cum am putea înlocui aceste două
variabile prin una singură?
Pentru început, să centrăm datele în raport cu mediile celor două
variabile (16118 $, resp. 155 km/h):
(date centrate) Preţ Vit. max. Preţ Vit. max.
Austin Metro Special -4118 -14.8 Peugeot205GTI 9057 35.2
CitroenAX 10RE -2843 -9.8 Renault4TL -3137 -39.8
DaihatsuCharadeTS -1493 -9.8 Renault4GTL -2312 -34.8
FiatUno45Fire -2643 -9.8 Renault5SL -1962 -11.8
FiatUnoTurboTE 8887 45.2 Renault5GTS 1132 12.2
FiatUno70SL 1727 10.2 Renault5GTTurbo 9201 45.2
FordFiestaJunior -3068 -17.8 SEATIbizaGLX 3165 20.2
FordFiestaXR-2 5625 25.2 SEATMarbella GL -5148 -23.8
Nissan Micra 1.0 DX -3718 -14.8 SuzukiSwiftGA -4003 -9.8
Opel Corsa Swing -3068 -11.8 SuzukiSwiftGL -1463 8.2
Peugeot205XE -2858 -20.8 ToyotaStarlettL -2118 -4.8
Peugeot205GL -338 -12.8 ToyotaStarlettXL 732 15.2
Peugeot205GT 2847 15.2 Volkswagen Polo 1927 15.2

49
Să acceptăm ideea că, în viziunea cumpărătorului, se acordă o
importanţă dublă variabilei Viteza maximă în raport cu Preţul de achiziţie,
astfel că ponderile sunt p = (1 / 3, 2 / 3) . Norma vectorului ponderilor fiind
5 / 3 , versorul asociat este u = (1 / 5 , 2 / 5 ) . Proiectăm acum punctele ce
reprezintă tipurile de maşini pe dreapta având acest versor şi care trece prin
origine (centrul de greutate!). Coordonatele calculate pentru această dreaptă
sunt prezentate în următorul tabel:
Austin Metro Special -1855.04 Peugeot205GTI 4081.72
CitroenAX 10RE -1280.37 Renault4TL -1438.69
DaihatsuCharadeTS -676.63 Renault4GTL -1065.26
FiatUno45Fire -1190.93 Renault5SL -888.17
FiatUnoTurboTE 4014.64 Renault5GTS 516.98
FiatUno70SL 781.28 Renault5GTTurbo 4155.06
FordFiestaJunior -1388.15 SEATIbizaGLX 1433.32
FordFiestaXR-2 2537.94 SEATMarbella GL -2323.72
Nissan Micra 1.0 DX -1676.16 SuzukiSwiftGA -1799.14
Opel Corsa Swing -1382.78 SuzukiSwiftGL -647.12
Peugeot205XE -1296.92 ToyotaStarlettL -951.67
Peugeot205GL -162.79 ToyotaStarlettXL 340.78
Peugeot205GT 1286.63 Volkswagen Polo 875.20
Cantitatea de informaţie recuperată din norul de puncte este de doar
91×10 din totalul de 447×106, adică aproximativ 20%! Se pierde prea multă
6

informaţie pentru ca să putem accepta ordonarea tipurilor de autoturisme


folosind aceste ponderi.
Observăm şi că datele din acest ultim tabel sunt mai apropiate, ca
ordin de mărime, de datele din coloana Preţ decât de datele din coloana
Viteza maximă. Motivul este evident discrepanţa între numerele ce
reprezintă Preţul şi cele ce reprezintă Viteza maximă. Deşi înlocuirea celor
două variabile (Preţul şi Viteza maximă) prin una singură, aşa cum a fost
efectuată mai sus, pare naturală, nici din acest motiv ea nu este indicată. Se
impune aducerea celor două seturi de date la unităţi de măsură
comparabile, iar acest lucru poate fi făcut prin standardizare.
Să reluăm exemplul folosind acum datele standardizate:
(date standardizate) Preţ Vit. max. Preţ Vit. max.
Austin Metro Special -0.9736 -0.6549 Peugeot205GTI 2.1411 1.5565
CitroenAX 10RE -0.6722 -0.4338 Renault4TL -0.7417 -1.7606
DaihatsuCharadeTS -0.3530 -0.4338 Renault4GTL -0.5467 -1.5395

50
FiatUno45Fire -0.6249 -0.4338 Renault5SL -0.4639 -0.5222
FiatUnoTurboTE 2.1009 1.9988 Renault5GTS 0.2675 0.5392
FiatUno70SL 0.4082 0.4508 Renault5GTTurbo 2.1751 1.9988
FordFiestaJunior -0.7254 -0.7876 SEATIbizaGLX 0.7481 0.8931
FordFiestaXR-2 1.3297 1.1142 SEATMarbella GL -1.2171 -1.0530
Nissan Micra 1.0 DX -0.8791 -0.6549 SuzukiSwiftGA -0.9464 -0.4338
Opel Corsa Swing -0.7254 -0.5222 SuzukiSwiftGL -0.3460 0.3623
Peugeot205XE -0.6757 -0.9203 ToyotaStarlettL -0.5008 -0.2126
Peugeot205GL -0.0800 -0.5665 ToyotaStarlettXL 0.1730 0.6719
Peugeot205GT 0.6730 0.6719 Volkswagen Polo 0.4555 0.6719
În ideea că ponderile variabilelor, în viziunea cumpărătorului, sunt
p = (1 / 3, 2 / 3) , coordonatele calculate pentru caracteristica „sintetică” sunt
prezentate în următorul tabel:
Austin Metro Special -1.0212 Peugeot205GTI 2.3496
CitroenAX 10RE -0.6886 Renault4TL -1.9064
DaihatsuCharadeTS -0.5459 Renault4GTL -1.6214
FiatUno45Fire -0.6675 Renault5SL -0.6745
FiatUnoTurboTE 2.7273 Renault5GTS 0.6019
FiatUno70SL 0.5857 Renault5GTTurbo 2.7605
FordFiestaJunior -1.0289 SEATIbizaGLX 1.1333
FordFiestaXR-2 1.5913 SEATMarbella GL -1.4861
Nissan Micra 1.0 DX -0.9789 SuzukiSwiftGA -0.8112
Opel Corsa Swing -0.7915 SuzukiSwiftGL 0.1693
Peugeot205XE -1.1253 ToyotaStarlettL -0.4141
Peugeot205GL -0.5424 ToyotaStarlettXL 0.6783
Peugeot205GT 0.9020 Volkswagen Polo 0.8046

Cantitatea de informaţie recuperată este de 43.2 din totalul de 50,


adică 86.4%, ceea ce ar părea mulţumitor.
(Să observăm că procentul informaţiei recuperate depinde în mod
esenţial de unităţile de măsură folosite!)
În viziunea unui alt cumpărător ambele variabile ar putea avea
aceeaşi importanţă (adică p = ( 1 , 1 ) ). În această situaţie coordonatele
2 2
calculate pentru caracteristica „sintetică” sunt prezentate în următorul tabel.

51
Austin Metro Special -1.1516 Peugeot205GTI 2.6146
CitroenAX 10RE -0.7820 Renault4TL -1.7694
DaihatsuCharadeTS -0.5564 Renault4GTL -1.4751
FiatUno45Fire -0.7486 Renault5SL -0.6973
FiatUnoTurboTE 2.8989 Renault5GTS 0.5705
FiatUno70SL 0.6074 Renault5GTTurbo 2.9514
FordFiestaJunior -1.0699 SEATIbizaGLX 1.1605
FordFiestaXR-2 1.7281 SEATMarbella GL -1.6052
Nissan Micra 1.0 DX -1.0847 SuzukiSwiftGA -0.9760
Opel Corsa Swing -0.8822 SuzukiSwiftGL 0.0116
Peugeot205XE -1.1286 ToyotaStarlettL -0.5045
Peugeot205GL -0.4571 ToyotaStarlettXL 0.5974
Peugeot205GT 0.9510 Volkswagen Polo 0.7972

Cantitatea totală de informaţie recuperată din norul de puncte este


acum de 47.84 din totalul de 50, adică 95.7%. Aceste date ar putea servi
dealerului, cu destul de multă certitudine, pentru ordonarea tipurilor de
autoturisme în caz că întâlneşte un cumpărător cu aceste preferinţe
(importanţă egală acordată preţului şi vitezei maxime). Ordonarea ar fi
următoarea:
(valori)
Renault4TL -1.9065 Peugeot205GL -0.5424
Renault4GTL -1.6214 ToyotaStarlettL -0.4142
SEATMarbella GL -1.4861 SuzukiSwiftGL 0.1694
Peugeot205XE -1.1253 FiatUno70SL 0.5857
FordFiestaJunior -1.0289 Renault5GTS 0.6020
Austin Metro Special -1.0212 ToyotaStarlettXL 0.6783
Nissan Micra 1.0 DX -0.9789 Volkswagen Polo 0.8047
SuzukiSwiftGA -0.8112 Peugeot205GT 0.9020
Opel Corsa Swing -0.7915 SEATIbizaGLX 1.1334
CitroenAX 10RE -0.6886 FordFiestaXR-2 1.5913
Renault5SL -0.6746 Peugeot205GTI 2.3497
FiatUno45Fire -0.6675 FiatUnoTurboTE 2.7273
DaihatsuCharadeTS -0.5459 Renault5GTTurbo 2.7605

sau, după ranguri.

52
(ranguri) Preţ ½P, ½Vm Preţ ½P, ½Vm
Austin Metro Special 2 6 Peugeot205GTI 25 24
CitroenAX 10RE 9 10 Renault4TL 5 1
DaihatsuCharadeTS 14 13 RenauIt4GTL 11 2
FiatUno45Fire 10 12 Renault5SL 13 11
FiatUnoTurboTE 24 25 Renault5GTS 18 18
FiatUno70SL 19 17 Renault5GTTurbo 26 26
FordFiestaJunior 6 5 SEATIbizaGLX 22 22
FordFiestaXR-2 23 23 SEATMarbella GL 1 3
Nissan Micra 1.0 DX 4 7 SuzukiSwiftGA 3 8
Opel Corsa Swing 7 9 SuzukiSwiftGL 15 16
Peugeot205XE 8 4 ToyotaStarlettL 12 15
Peugeot205GL 16 14 ToyotaStarlettXL 17 19
Peugeot205GT 21 21 Volkswagen Polo 20 20
Termeni folosiţi în PCA
Vom enumera câţiva dintre termenii folosiţi în etapele unei analize a
componentelor principale. (Vom indica şi denumirile uzuale, pentru a uşura
folosirea şi înţelegerea softului de specialitate.)
o Valori proprii şi vectori proprii (eigenvalues, eigenvectors). Sunt
asociaţi matricei corelaţiilor variabilelor iniţiale. O valoare proprie mai
mare decât 1, pentru o componentă, indică faptul că acea componentă
are o contribuţie mai mare decât a unei variabile iniţiale, deci este
indicat a fi extrasă. Vectorii proprii, asociaţi valorilor proprii, vor
constitui ponderile în calculul combinaţiilor liniare respective.
o Scorurile componentelor principale (PC scores). Sunt coordonatele
indivizilor în noile axe, date de vectorii proprii selectaţi. Media unei
coloane de scoruri este 0.
o Graficul descreşterii (scree plot). Oferă informaţii privind valorile
proprii, dar şi ratele lor de descreştere.
o Regula Kaiser-Guttman. Este folosită în stabilirea numărului de
componente principale: avem atâtea componente câte valori proprii
sunt mai mari decât 1. (Totuşi, numărul final de componente va fi
stabilit în funcţie de interpretarea concretă pe care acestea o primesc.)
o Coeficienţii de încărcare (PC loadings). Sunt exact coeficienţii de
corelaţie dintre variabilele originale şi scoruri. Aceştia exprimă
importanţa fiecărei variabile originale în explicarea fiecărei noi
componente.

53
3.2 Analiza factorilor

Analiza factorilor este o tehnică statistică multivariată care are ca


scop extragerea unui număr mic de factori ascunşi (latenţi) responsabili de
corelaţiile dintre variabilelor originale. Dacă aceste corelaţii sunt
semnificative, se poate presupune că ar fi cauzate de existenţa unuia sau mai
multor factori „ascunşi” comuni tuturor variabilelor. Analiza factorilor ne
permite să confirmăm statistic un rezultat privind modul de grupare al
variabilelor originale. Variabilele care se grupează împreună şi, ca atare, pot
fi privite ca formând un grup omogen, vor fi considerate asociate unui
acelaşi factor. Vom prezenta câteva tehnici care pun în evidenţă factorii
comuni şi alţi factori responsabili de valorile observate asupra variabilelor
studiate.

3.2.1 Modelul factorilor ortogonali


Aşa cum am mai afirmat, scopul analizei factorilor este acela de a
explica valorile celor p variabile printr-un număr mai mic de variabile, aşa
numiţii „factori”. Aceştia sunt interpretaţi ca fiind caracteristici comune,
latente, ale variabilelor observate. Ideal, orice observaţie x identificată prin
valorile ( x1 , x 2 ,..., x p ) ∈ R p ar putea fi caracterizat de un număr mai mic de
valori, anume de valorile factorilor ( f1 , f 2 ,..., f k ) ∈ R k cu k < p , unde
x j = f1q1 j + f 2 q 2 j + ... + f k q kj + μ j , j = 1,2,..., p (17)

Se poate arăta că relaţia (17) o putem explicita prin intermediul


componentelor principale în cazul în care matricea de covarianţă Σ are
ultimele p − k valori proprii negative, adică ea este o matrice singulară.
Într-adevăr, considerând vectorul aleatoriu ( x1 , x 2 ,..., x p ) ∈ R p de medie
μ = (μ1 , μ 2 ,..., μ p ) şi matrice de covarianţă Var (x ) = Σ , expresia (17) o
putem scrie
⎛ x1 ⎞ ⎛ q11 q12 ... q1k ⎞ ⎛ f1 ⎞ ⎛ μ1 ⎞
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ x 2 ⎟ ⎜ q 21 q 22 ... q 2 k ⎟ ⎜ f 2 ⎟ ⎜ μ 2 ⎟
⎜ ... ⎟ = ⎜ ... ...
⋅ +
... ... ⎟ ⎜ ... ⎟ ⎜ ... ⎟
(18)
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ x p ⎟ ⎜ q p1
⎝ ⎠ ⎝ q p2 ... q pk ⎟⎠ ⎜⎝ f k ⎟⎠ ⎜⎝ μ p ⎟⎠

sau, matriceal
x = Q⋅F +μ (19)

54
folosind notaţiile Q = ( qij ) şi F = ( f i ) , pentru i = 1,2,..., p şi j = 1,2,..., k .
Mai precizăm faptul că factorii grupaţi în F sunt presupuşi a fi de medie 0,
necorelaţi între ei şi având dispersiile egale cu 1 fiecare.
Folosim descompunerea spectrală Σ = ΓΛΓ T în care partiţionăm
matricele corespunzător ultimelor p − k valori proprii nule. Vom putea
scrie:
⎛ Λ 0 ⎞⎛ Γ1 ⎞
Σ = (Γ1 Γ2 )⎜⎜ 1 ⎟⎟⎜⎜ ⎟⎟ (20)
⎝ 0 0 ⎠⎝ Γ2 ⎠
Soluţia oferită de componentele principale în cazul structurii (20) a matricei
covarianţelor este Y = Γ T ( x − μ) , de unde x − μ = ΓY = Γ1Y1 + Γ2Y2 .

⎛ Y ⎞ ⎛ ΓT ⎞ ⎛ ⎛Λ 0⎞⎞
Cum Y = ⎜⎜ 1 ⎟⎟ = ⎜ 1T ⎟( x − μ) ~ ⎜ 0, ⎜ 1
⎜ ⎜ 0 ⎟ ⎟ , putem scrie că

⎝ Y2 ⎠ ⎝ Γ2

⎠ ⎝ ⎝ 0 ⎟⎠ ⎟⎠

x = ΓY = Γ1Y1 + μ (21)

Definind Q⋅ = Γ1Λ11/ 2 şi F = Λ−11/ 2Y1 avem o interpretare în termenii


componentelor principale pentru matricea Q şi vectorul F din (18).

În situaţiile concrete rareori matricea de covarianţă este singulară. În


general, un model de analiză a factorilor, generalizare a modelului (19) este
următorul:

x = Q ⋅ F +U + μ (22)
unde Q ( p × k ) sunt „loadings” (ne-aleatori) ai factorilor comuni F ( k × 1)
iar U ( p × 1) sunt factori aleatori specifici. Presupunem că variabilele factor
F formează un vector aleatoriu cu componente necorelate. În ceea ce
priveşte grupul factorilor specifici aceştia au mediile zero, sunt necorelaţi
între ei şi în acelaşi timp necorelaţi cu factorii comuni:
E(F ) = 0
Var ( F ) = I k
E (U ) = 0 pentru i ≠ j (23)
Cov (U i , U j ) = 0
Cov ( F , U ) = 0.

55
Pentru o componentă x j a vectorului x putem scrie, folosind (22), că
k
xj = ∑q
l =1
jl f l +U j + μ j (24)

De aici obţinem
k
Var ( x j ) = ∑q
l =1
2
jl + ψ jj (25)

k
Numărul ∑q
l =1
2
jl se numeşte comunalitate, iar numărul ψ jj se

numeşte varianţa specifică, ambele fiind asociate variabilei x j .

În general, covarianţa vectorului x este descompusă, evidenţiindu-se


matricea de comunalitate, astfel:
Σ = QQ T + Ψ . (26)

Comparaţie între Analiza componentelor principale şi Analiza


factorilor
Analiza componentelor principale caută combinaţii liniare între
variabile, ordonându-le după valorile proprii ale matricei covarianţelor
(corelaţiilor). În analiza factorilor se modelează variaţiile variabilelor x prin
transformări liniare a unui număr fixat, limitat de factori numiţi „ascunşi” –
latenţi.
Obiectivul analizei factorilor este de a găsi matricea Q de încărcare
şi matricea varianţei specifice Ψ .
Factorii „ascunşi” determină variabilele, în sensul că fiecare dintre
variabile se poate scrie ca o combinaţie liniară de factorii latenţi, la care se
adaugă un reziduu. Coeficienţii din combinaţia liniară se estimează prin
tehnici statistice clasice (de exemplu prin metoda celor mai mici pătrate),
ipoteza fundamentală fiind aceea de independenţă a reziduurilor.

Termeni folosiţi în Analiza factorilor


o Comunalitatea (communality) este acea parte din varianţa unei variabile
iniţiale, exprimată procentual, ce este datorată ansamblului factorilor

56
găsiţi. Restul varianţei variabilei este numită unicitate (uniqueness).
Evident, suma celor două părţi este 100%. Există mai multe metode
pentru a estima comunalităţile variabilelor. Atunci când presupunem că
toate comunalităţile variabilelor sunt egale cu 100% – adică atunci când
toate variabilele iniţiale sunt complet „previzionate” de către factori –
rezultatul analizei factorilor coincide de fapt cu cel al analizei
componentelor principale. (Reamintim însă că PCA are scopul de a
reduce dimensiunea şi nu cel de a „explica” corelaţiile variabilelor cu
factorii principali.) În cazul general comunalităţile sunt estimate pe baza
unui model de regresie.
o Coeficienţii de încărcare a factorilor (factor loadings) formează o
matrice de dimensiune p × k, fiecare element al ei exprimând corelaţia
dintre o variabilă iniţială şi un factor. (Avem p variabile şi k factori
latenţi, iar k < p.)
o Rotaţia factorilor (factor rotation) este o transformare a spaţiului
variabilelor, prin care se rotesc simultan factorii în scopul de a se obţine
cât mai multe elemente 0 în matricea coeficienţilor de încărcare a
factorilor. (Suma valorilor proprii nu este afectată în timpul acestei
transformări, dar rotaţia va afecta vectorii proprii.)
o Scorurile standardizate (standardized scores) sunt valori-scor asociate
fiecărui individ (fiecărei linii din matricea de date). Standardizarea este
făcută în aşa fel încât marea majoritate a acestor scoruri se plasează între
–3 şi +3, permiţând astfel ordonarea indivizilor.
o Testul hi-pătrat foloseşte ipoteza nulă (H0): nu există factori comuni.
Ipoteza se consideră respinsă dacă valoarea p este < 0.05.
o Valorile proprii exprimă partea din varianţa totală care este asociată
fiecărui factor.

57
3.3 Analiza clasificării. Algoritmi ierarhici de agregare

Metodele de clasificare sau de analiză „cluster” au ca scop gruparea


indivizilor, identificaţi printr-o serie de atribute – variabile numerice –
într-un număr cât mai restrâns de clase omogene. Ceea ce le caracterizează
este faptul că realizează o analiză globală a indivizilor ce sunt studiaţi printr-
un număr mare de variabile, iar ipotezele cerute sunt minime. Mai precizăm
faptul că obiectul clasificării nu-l reprezintă numai indivizii (liniile matricei
de date) ci poate fi şi variabilele (coloanele matricei de date).
Se doreşte a se realiza clase (grupuri) în aşa fel încât indivizii
aparţinând unei aceleiaşi clase să fie cât mai asemănători între ei prin
valorile variabilelor lor (adică să fie similari) în timp ce clasele constituite să
fie cât mai diferite. Putem spune că efectuarea unei analize „cluster”
presupune parcurgerea a două etape:
a) alegerea unei măsuri de proximitate, mai precis, definirea unei
măsuri de apropiere dintre indivizi pe baza tuturor variabilelor
observate;
b) precizarea unor reguli de construire a claselor aşa încât diferenţa
între acestea să fie cât mai mare, în timp ce indivizii aflaţi în
acelaşi grup să fie cât mai apropiaţi.
În ceea ce priveşte aplicaţiile analizei clasificării, acestea sunt foarte
numeroase, în diverse domenii economice cum ar fi: cercetarea de
marketing, clasificarea unor companii după rezultatele obţinute şi structurile
lor organizatorice etc. Aplicaţii interesante ale analizei clasificării întâlnim
în domeniul psihologiei, pentru identificarea tipurilor sau tipologiilor de
indivizi în funcţie de răspunsurile la chestionare, dar şi în alte ştiinţe cum ar
fi medicina, biologia, arheologia, antropologia sau lingvistica.
Analiza claselor disjuncte este o tehnică statistică de grupare a
cazurilor (indivizilor) în clase sugerate de matricea de date. Distingem:
1) Analiza claselor ierarhice (Hierarhical Cluster Analysis – HCA)
este o metodă de grupare „ierarhică” în care fiecare clasă este în
totalitate conţinută în altă clasă. Nu este cerută nici o informaţie
a priori despre numărul claselor, iar odată ce un individ a fost
asociat unei clase, el va rămâne acolo. Nu este recomandată a fi
utilizată pentru baze de date mari, cu mulţi indivizi.
2) Analiza claselor disjuncte (Disjoint Cluster Analysis – DCA)
este o tehnică ne-ierarhică, ce recurge la o clasificare iterativă.
Iniţial toţi indivizii se grupează arbitrar în clase. Urmează apoi o
repartizare a fiecărui individ la o clasă, în funcţie de similaritatea

58
individului respectiv cu cei din clasa respectivă. Procedeul este
iterativ şi se termină atunci când nu mai constatăm realocări între
clase. Procedeul este mai eficient pentru baze de date mari, iar
pentru rapiditate s-ar impune cunoaşterea a priori a numărului de
clase.
3) Clasificarea pe baza mediei (k-mean clustering). Este o tehnică
de clasificare în clase disjuncte, centrul fiecărei clasei fiind
obţinut „dinamic” ca medie a indivizilor din clasa respectivă.
Tehnica k-mean are ca obiectiv, la fiecare iteraţie, reducerea
varianţei indivizilor din interiorul fiecărei clase şi maximizarea
varianţei dintre clase.

3.3.1 Indicatori de proximitate între indivizi


Să presupunem că vrem să comparăm trei ţări notate simbolic A, B
şi C după două variabile, şi anume procentul forţei de muncă din industrie şi
procentul forţei de muncă din agricultură (din totalul populaţiei active).
Putem să afirmăm, fără să greşim, că două ţări care au acelaşi procent de
forţă de muncă în industrie şi acelaşi procent de forţă de muncă în
agricultură sunt perfect similare. Dar, ce se întâmplă dacă valorile
variabilelor sunt diferite? Cum putem să asociem diverselor situaţii un
indicator (o măsură) a asemănării? Să considerăm situaţia din tabelul
următor:

Ţara % în industrie % în agricultură


A 20 60
B 30 30
C 10 50

Analizând graficul corespunzător prezentat în figura 2 se observă că,


poziţia celor trei puncte A, B şi C în plan – ce au coordonate liniile din tabel
– reprezintă cele trei ţări având cele două variabile. Lungimile segmentele
AB, AC şi BC exprimă distanţele euclidiene între punctele respective şi se
observă că acestea pot fi folosite ca măsuri de comparare a ţărilor. Cu cât
distanţa dintre puncte este mai mare cu atât punctele sunt mai puţin
asemănătoare. Deci, putem afirma faptul că distanţele măsoară mai degrabă
disimilaritatea între puncte. Cum distanţele se află în următoarea ordine:
AB > BC > AC,

59
putem afirma că: ţara A este similară cu ţara C (distanţa dintre A şi C fiind
cea mai mică); ţara B este disimilară cu ţara A (distanţa de la A la B fiind cea
mai mare). Putem trage concluzia că distanţa (euclidiană) poate fi folosită ca
indicator al disimilarităţii.

60 A
AC2 = 102 +102=200
C
50
AB2 = 102 + 302 = 1000
40 BC2 = 202 + 202 = 800

B
30

20

10

0
0 10 20 30 40 50 60 70 80 90 100 110 120
% in indus trie

Figura 2. Distanţe euclidiene

Să revenim la exprimarea datelor în forma unei matrice X (n × p ) ce


reprezintă cei n indivizi asupra cărora s-au măsurat p variabile.
Indicele (indicatorul) de proximitate este un număr ce exprimă
asemănarea (similaritatea) – sau deosebirea (disimilaritatea) – existentă între
doi indivizi, luând în considerare toate valorile observate asupra variabilelor
lor. Astfel, putem să spunem că proximitatea între indivizi este măsurată
printr-o matrice D(n × n) în care un element d ij exprimă similaritatea
(disimilaritatea) între individul i şi individul j.
Există mai multe moduri de construire a matricei de proximitate, să
exemplificăm prin următoarele trei situaţii:
1) Să presupunem că datele iniţiale sunt exprimate printr-o matrice
de forma indivizi × variabile. Fie doi indivizi i şi j şi liniile corespunzătoare
lor în matricea de date. Mai precis, fie xi linia corespunzătoare individului i
şi xj linia corespunzătoare individului j. Pentru cei doi indivizi putem calcula
distanţa dată de norma Lr.

60
1/ r
⎧⎪ p ⎫⎪

d ij =|| xi − x j || r = ⎨ | xik − x jk | r ⎬
⎪⎩ k =1 ⎪⎭
(27)

Să considerăm în expresia (27) distanţa euclidiană (obţinută pentru


r = 2). Aşa cum am văzut în exemplul anterior, această distanţă poate fi
folosită ca o măsură de proximitate, ea măsurând disimilaritatea între
indivizi. Mai precis, cu cât distanţa între indivizi este mai mare, cu atât
disimilaritatea între aceştia este mai mare (sau similaritatea este mai mică).
Se mai observă faptul că distanţa astfel calculată ne va conduce la o matrice
de proximitate simetrică, având 0 pe diagonala principală. De la caz la caz,
se poate folosi una dintre distanţele date de expresia (27), aşa cum putem
vedea şi din exemplul următor.

Exemplul 1. Să presupunem că avem trei indivizi şi două variabile


măsurate asupra lor, şi anume: x1 = (0, 0), x 2 = (1, 0), x3 = (5, 5) . În relaţia
(27) considerăm r = 1 şi calculăm, de exemplu, distanţa dintre individul 1 şi
individul 3. Obţinem d = 5 + 5 = 10 (aceeaşi cu distanţa de la individul 3
13

la individul 1). Pentru toţi cei trei indivizi avem, utilizând formula (27),
matricea distanţelor date de norma L1:
⎛ 0 1 10 ⎞
(1) ⎜ ⎟
D =⎜ 1 0 9 ⎟.
⎜10 9 0 ⎟
⎝ ⎠
Dacă vom calcula acum distanţele euclidiene (pentru r = 2, date de
norma L2), atunci pătratul distanţei dintre individul 1 şi individul 3 este
d 2 = 5 2 + 5 2 = 50 (aceeaşi ca şi cea dintre individul 3 şi individul 1).
13
Pentru toţi cei 3 indivizi avem următoarea matrice a distanţelor:
⎛ 0 1 50 ⎞
⎜ ⎟
D ( 2) =⎜ 1 0 41 ⎟
⎜⎜ ⎟
⎝ 50 41 0 ⎟⎠

Putem remarca, de asemenea, că distanţele pot fi înlocuite cu


pătratele lor, însă similaritatea, respectiv disimilaritatea între indivizi se
păstrează.

61
Exemplul 2. Să presupunem că vrem să comparăm trei mărci de
autoturisme după două variabile observate, şi anume după consumul de
combustibil la 1000 de km şi după preţul de achiziţionare (în $). Datele sunt
cele prezentate în tabelul următor:

Autoturismul Consumul (litri/1000 km) Preţul de achiziţionare ($)


1 45 30000
2 43 35000
3 47 34000
Media 45 33000
Ab. standard 2 2645.75

Distanţele euclidiene calculate pentru cele trei autoturisme sunt


prezentate în tabelul următor:
Autoturismul Distanţele euclidiene/datele originale
1 2 3
1 0 ≈ 5000 ≈ 4000
2 ≈ 5000 0 ≈ 1000
3 ≈ 4000 ≈ 1000 0

Ele se ordonează astfel: d12 > d13 > d 23 indicând faptul că cele mai
similare sunt autoturismele 2 şi 3 şi cele mai disimilare sunt autoturismele 1
şi 2. Se observă faptul că distanţele au fost calculate din datele originale, în
care pentru cele două variabile s-au folosit unităţi de măsură foarte diferite
ca ordin de măsură (litri de combustibil la 1000 km şi preţul în $). Evident,
distanţele obţinute sunt influenţate de acest aspect. Pentru a elimina această
influenţă suntem conduşi spre ideea standardizării datele. În procesul de
standardizare folosim mediile şi abaterile standard. Prezentăm în tabelul
următor datele corespunzătoare în formă standardizată.
Consumul litri/1000 km. Preţul de achiziţie ($)
Autoturismul
(în abaterea standard) (în abaterea standard)
1 0 -1,134
2 -1 0,756
3 1 0,378
Media 0 0
Abaterea standard 1 1

62
Distanţele euclidiene calculate pe datele normate sunt prezentate în
tabelul următor:
Distanţele euclidiene/datele standardizate
Autoturismul 1 2 3
1 0 ≈ 2.137 ≈ 1.812
2 ≈ 2.137 0 ≈ 2.035
3 ≈ 1.812 ≈ 2.035 0
Acum distanţele se ordonează astfel: d12 > d 23 > d13 , şi observăm
faptul că, autoturismule 1 şi 3 devin cele mai similare, însă autoturismele 1
şi 2 rămân cele mai disimilare.
2) Să presupunem că televiziunea şi radioul publice au, în cursul
unei zile, un fond total de timp rezervat pentru reclamă. Conform contracte-
lor realizate, acest fond de timp s-a împărţit între 4 produse, notate simbolic
A, B, C şi D. Dacă datele sunt cele din tabelul următor, ne-ar interesa să
apreciem dacă fondul de timp a fost repartizat similar pentru cele patru
produse sau nu. Ce indicator ar trebui folosit pentru a exprima asemănarea
sau neasemănarea între obiectele matricei de date în această situaţie?
Produsul Minute reclamă Total minute
TV Radio
A 2 5 7
B 1 3 4
C 3 8 11
D 4 4 8
Total minute 10 20 30
Se observă faptul că informaţiile din matricea de date exprimă
numărul de apariţii ale unui eveniment (aici timp reclamă). În acest caz este
indicat să asociem datelor iniţiale o matrice de contingenţă.
Să revenim la notaţiile generale, matricea cu n indivizi şi p variabile
X (n × p) exprimând acum numărul de apariţii ale unui eveniment. Dacă i1
şi i2 sunt două linii ale unei asemenea matrice, o distanţă între ele se poate
defini astfel:
2
p
⎛ xi j xi j ⎞
d 2 (i1 , i2 ) =∑j =1
bj⎜ 1 − 2
⎜ xi • xi •
⎝ 1 2



(28)

x••
unde b j = .
x• j

63
Se observă faptul că distanţa (28) este de fapt o distanţă euclidiană
xi j xi j
„ponderată” între vectorii linie x1 = 1 şi x 2 = 2 . Elementele acestor
xi1• xi2 •
noi linii reprezintă frecvenţe condiţionate. Prezenţa în formula (28) a
coeficienţilor b j , de fapt ponderi, ne conduce la concluzia că distanţele sunt
−1
⎧⎪ ⎛ x• j ⎞⎫⎪
calculate folosind o matrice a ponderilor, şi anume A = ⎨diag ⎜⎜ ⎟⎬ .

⎪⎩ ⎝ •• ⎠⎪⎭
x
Să revenim la exemplul repartizării fondului de timp pentru reclamă.
Folosind formula (28) putem calcula distanţele dintre produse. Mai întâi
vom transforma datele primare, construind o matrice de contingenţă folosind
frecvenţele marginale pe linii. Noile date, exprimând pe linii profilul
fiecărui individ (produs) sunt prezentate în tabelul următor.
Produsul Frecvenţele condiţionate
TV Radio
A 2/7 5/7
B 1/4 3/4
C 3/11 8/11
D 4/8 4/8
Ponderile 3 1.5
Se observă imediat că un calcul elementar ne permite să obţinem
distanţa între produsul A şi produsul B.
Mai întâi d 2 ( A, B) = 3 ⋅ (2 / 7 − 1 / 4) 2 + (3 / 2) ⋅ (5 / 7 − 3 / 4) 2 = 0.0058 ,
apoi d ( A, B) = 0.076 .
Aici distanţa măsoară similaritatea între cele două produse în ceea ce
priveşte fondul total de timp repartizat. Celelalte distanţe calculate în acelaşi
mod sunt următoarele: d ( A, C ) = 0.027 şi d ( B, C ) = 0.048 . Gruparea
produselor este acum evidentă! Cum distanţa cea mai mică este între
produsul A şi produsul C, putem spune că acestea sunt cele mai similare în
ceea ce priveşte fondul total de timp pentru reclamă.
Pentru aplicaţiile în care dorim să grupăm variabilele între ele putem
folosi o măsură de similaritate identică cu cea folosită în cazul grupării
indivizilor (liniilor matricei). Fie două coloane j1 şi j2 precizate; distanţa
între ele se calculează cu formula:
2
p
⎛ xi j1 xi j2 ⎞
d 2 ( j1 , j 2 ) = ∑
j =1
bi ⎜
⎜ x• j
⎝ 1

x • j2



(29)

64
x••
unde bi = .
xi •
3) În afara distanţelor date de normele Lr amintite, se mai poate
folosi ca măsură a proximităţii şi coeficientul de corelaţie liniară. Folosind
formulele cunoscute se construieşte matricea coeficienţilor de corelaţie
R( p × p) asociată celor p variabile, iar analiza similarităţii se poate face
acum folosind elementele acestei matrice.
3.3.2 Indicatori de proximitate între clase. Algoritmi de agregare
Atunci când dorim să evaluăm proximitatea între clase (grupuri) de
indivizi, putem recurge la mai multe proceduri. Iată trei dintre acestea:
a) Metoda vecinilor celor mai apropiaţi. Prin aceasta, distanţa
dintre două clase este asimilată cu distanţa dintre elementele cele
mai apropiate între ele (elemente aparţinând, evident, la grupuri
diferite). Utilizarea acestei metode poate conduce la riscul
apariţiei de grupuri foarte eterogene, deoarece nu luăm în calcul
elementele extreme ale clasei.
b) Metoda vecinilor celor mai depărtaţi. Prin aceasta, distanţa
dintre două clase este asimilată cu distanţa dintre elementele cele
mai depărtate între ele. (Ca mai sus, elementele vor aparţine la
clase diferite.)
c) Metoda agregării prin medii. Aceasta constă în evaluarea
distanţei între două clase pornind de la „centrele lor de greutate”.
Deşi această metodă este foarte logică, ea cere multe calcule
suplimentare în comparaţie cu primele două. De aceea, de multe
ori este mai indicat a se utiliza una dintre metodele anterioare.

Distanţa între
vecinii depărtaţi

Distanţa P O2 R
B între centre
O1 C
A
Q
Distanţa între vecinii
D apropiaţi

65
Să explicăm cele trei metode pe exemplul din figura anterioară. Aici
avem deja constituite două clase: prima formată din elementele A, B, C, şi
D, iar a doua formată din elementele P, Q şi R. Am mai marcat în prima
clasă centrul de greutate O1 iar în clasa a doua centrul de greutate O2.
a) După metoda vecinilor celor mai apropiaţi, distanţa dintre cele
două clase este dată de distanţa de la punctul C la punctul P.
b) După metoda vecinilor celor mai depărtaţi, distanţa între clase este
dată de distanţa dintre A şi R.
c) După metoda agregării prin medii, distanţa dintre clase este
distanţa dintre centrele lor de greutate, marcate cu O1 şi O2.

Se pot lua în considerare două strategii de clasificare constând în:


1) precizarea apriorică a numărului de clase, urmând ca algoritmul să
distribuie fiecare element spre clasa ce-l reprezintă;
2) folosirea unei metode ierarhice de clasificare.
Metodele ierarhice de formare a claselor se caracterizează prin faptul
că numărul de clase nu este cunoscut dinainte, ci este determinat pe parcurs,
prin algoritmul de clasificare. Se disting două categorii de algoritmi ierarhici
de clasificare, şi anume algoritmii ascendenţi (sau de agregare) şi algoritmii
descendenţi.
În cele ce urmează vom prezenta paşii principali pentru un algoritm
de agregare. Presupunem că avem n indivizi pe care dorim să-i clasificăm.
Pasul 1. Se consideră n0 = n, adică partiţia cea mai fină, formată
iniţial din clase cu un singur individ fiecare. În această mulţime de
indivizi/clase se selecţionează doi, cei mai apropiaţi după indicele de
proximitate folosit. Aceştia vor forma primul grup.
Pasul 2. Se calculează o nouă matrice de proximitate ce conţine
n0 - 1 linii, corespunzătoare celor n0 – 2 obiecte/clase încă negrupate şi
primului grup creat.
Pe baza acestei noi matrice se identifică alte două obiecte, cele mai
apropiate între ele, şi cu acestea se va forma un nou grup. Iterativ, aceste
obiecte pot fi fie doi indivizi, fie un individ şi un grup deja constituit, fie
două grupuri deja constituie.
Descreştem n0 (= n0 – 1) şi repetăm pasul 2 până când toţi indivizii
au fost grupaţi.

66
Să presupunem că avem un grup format din două obiecte P şi Q (ce
pot fi indivizi sau grupuri) şi un alt obiect (individ sau grup), fie el R. O
formulă generală de calcul a distanţei dintre grupul P + Q şi R este
următoarea:
d ( R, P + Q) = δ1d ( R, P) + δ 2 d ( R, Q) + δ 3 | d ( R, P) − d ( R, Q) |
unde coeficienţii δ j sunt factori de ponderare descrişi în tabelul următor
(tabelul 2).
Tabelul 2. Indicatori de proximitate
Algoritmul δ1 δ2 δ3
Vecinilor celor mai apropiaţi ½ ½ –½
(Single linkage)
Vecinilor celor mai depărtaţi ½ ½ ½
(Complete linkage)
Agregării prin medii nP nQ 0
(Average linkage – weighted)
n P + nQ n P + nQ

În tabelul 2 am notat cu n P numărul de elemente din grupul P şi cu


nQ numărul de elemente din grupul Q. Se poate observa că formula de
calcul, în cazul vecinilor celor mai apropiaţi, este
d ( R, P + Q) = min{d ( R, P), d ( R, Q)} .
Exemplul 3. Să examinăm paşii parcurşi pentru gruparea indivizilor
din exemplul 1. Aici cele trei puncte, corespunzătoare celor trei indivizi,
sunt: x1 = (0, 0), x 2 = (1, 0), x3 = (5, 5) .
Algoritmul începe cu n0 = 3, clasele iniţiale fiind chiar indivizii
notaţi prin P = {x1} , Q = {x 2 }, R = { x3 } . Analizând distanţele euclidiene
dintre aceştia obţinem matricea
⎛ 0 1 50 ⎞
⎜ ⎟
D=⎜ 1 0 41 ⎟ ,
⎜⎜ ⎟
⎝ 50 41 0 ⎟⎠
aşadar primul grup se va constitui din indivizii P şi Q, adică
P + Q = {x1 , x 2 } .
În algoritmul vecinilor celor mai apropiaţi, distanţa de la grupul
P + Q = {x1 , x 2 } la individul negrupat R este:
d ( R, P + Q) = 0.5 ⋅ 50 + 0.5 ⋅ 41 − 0.5 | 50 − 41 |= 41 ,

67
⎛ 0 41 ⎞
iar noua matrice asociată va fi: ⎜⎜ ⎟.
⎝ 41 0 ⎟⎠
Dacă folosim metoda vecinilor celor mai depărtaţi, vom avea:
d ( R, P + Q) = 0.5 ⋅ 50 + 0.5 ⋅ 41 + 0.5 | 50 − 41 |= 50

⎛ 0 50 ⎞
iar matricea asociată este ⎜⎜ ⎟.
⎝ 50 0 ⎟⎠
Dacă folosim metoda agregării prin medii, avem un compromis între
cele două situaţii extreme. Distanţa calculată este:
d ( R, P + Q) = 0.5 ⋅ 50 + 0.5 ⋅ 41 = 6.737 .
În finalul clasificării, punctul R se alătură grupului P + Q ,
deosebirea fiind dată de nivelul agregării ultimului punct
( 50 = 7.071 , 41 = 6.403 sau 6.737). Prezentăm în figura 3 o asemenea
dendrogramă pentru cazul agregării medii. Pe ordonată avem marcat nivelul
de agregare între obiecte, şi anume distanţa euclidiană. În softul de
specialitate existente se poate alege ca indicator de clasificare şi pătratul
distanţei.

1
R Q P
Figura 3. Exemplu de dendrogramă

68
Nivelul de agregare al obiectelor este reprezentat pe ordonata
dendrogramei, acesta fiind un element important în analiza constituirii
constituirea claselor. De exemplu, dacă mai sus alegem nivelul de agregare
subunitar, vom distinge trei clase formate din cele trei puncte iniţiale
P = {x1} , Q = {x 2 }, R = { x3 } . Dacă nivelul de agregare este ales între 1 şi
7, vom avea două clase P + Q = {x1 , x 2 } şi R = { x3 } . Evident, dacă
nivelul de agregare este mai mare decât 7, vom avea o singură clasă.

69
Capitolul 4. Metode de învăţare supervizată

În cele ce urmează vom prezenta pe scurt tehnici de învăţare


supervizată. Reamintim că aceste tehnici au ca scop construirea unui model
al datelor iniţiale în care o parte dintre variabile sunt explicative (variabile
predictor) şi una sau mai multe variabile sunt variabile răspuns. Dintre
tehnicile supervizate amintim: regresia liniară multiplă, regresia logistică,
analiza canonică şi analiza discriminării.

4.1 Analiza canonică

Este bine cunoscut faptul că, pentru a evalua „legătura” (liniară)


între două variabile cantitative, putem alege să calculăm coeficientul de
corelaţie Pearson şi să interpretăm valoarea obţinută. Dar dacă am dori să
evaluăm legătura liniară între două seturi de variabile (cantitative)? O idee
ce pare raţională este cea a evaluării corelaţiei între două combinaţii liniare,
care reprezintă „optimal” cele două seturi de variabile. Aceasta este ideea
exploatată în cadrul analizei canonice, introdusă de către Hotelling în 1936!.
De obicei, analiza canonică este folosită în următorul context: asupra
unor indivizi ai populaţiei s-au făcut atât măsurători obiective, cât şi
aprecieri subiective (exprimate însă cantitativ, sub forma unor note). Aşadar,
primul set de variabile este format din cele „obiective”, fie acestea
x1 , x 2 ,..., x p . Datele obţinute de la cei n indivizi vor forma matricea X (de
dimensiuni n × p ). Al doilea set de variabile este format din cele
„subiective”, fie acestea y1 , y 2 ,..., y q , iar datele obţinute de la cei n indivizi
vor forma matricea Y (de dimensiuni n × q ).
De exemplu, indivizii ar putea fi un ansamblu de firme, variabilele
obiective ar putea fi indicatorii financiar-contabili, iar variabilele subiective
ar putea fi nota acordată (de către un panel de specialişti) politicii de
promovare a produselor, preferinţa acţionarilor pentru active etc.
În spaţiul R p+ q al variabilelor x1 , x 2 ,..., x p , y1 , y 2 ,..., y q , varia-
bilele „obiective” vor determina un subspaţiu, pe care să-l notăm cu O.
Analog, subspaţiul variabilelor „subiective” va fi notat cu S.
Odată aleasă o variabilă, indiferent de ce tip (obiectivă sau
subiectivă), valorile ei prelevate de la cei n indivizi formează un vector din
spaţiul R n . În acest spaţiu se poate considera o distanţă între vectori care să

70
ţină seama de eventuala pondere wi asociată individului i, distanţă definită
de formula
d( z1 , z 2 ) = ( z1 − z 2 ) T W ( z1 − z 2 ) în care W = diag( w1 , w2 ,..., wn )
Odată stabilite cele două seturi de variabile, ne putem imagina
diverse combinaţii liniare (cu coeficienţi a j , bk reali)

ξ = a1 x1 + a 2 x 2 + ... + a p x p ,
η = b1 y 1 + b2 y 2 + ... + b p y q .
care sunt vectori în subspaţiul O, respectiv S. Odată prelevate datele de la
cei n indivizi (ceea ce înseamnă că matricele X şi Y sunt cunoscute), valorile
acestor combinaţii liniare se obţin prin formulele
ξ = Xa , η = Yb (1)
unde a este vectorul coloană al coeficienţilor a1 , a 2 ,..., a p iar b este vectorul
coloană al coeficienţilor b1 , b2 ,..., bq .

Pentru fiecare pereche de combinaţii liniare, putem calcula


coeficientul de corelaţie rξ ,η . Scopul analizei canonice – asupra acestor date
– constă în găsirea acelei perechi ξ * ∈ O , η * ∈ S pentru care coeficientul
de corelaţie (sau pătratul său) este maxim în valoare absolută, adică
rξ2*,η * = max rξ2,η . (2)
ξ ∈O
η∈S

S
η*
y2

y1
x2 O
ξ*
x1 x3

Figura 1. Caracteristicile canonice

71
Valoarea pătratului coeficientului de corelaţie rξ2*,η * este o măsură a
modului în care notele subiective acordate indivizilor reflectă caracteristicile
obiective ale lor. Evident, valori apropiate de 0 indică faptul că în aprecierea
subiectivă nu se ţine seamă deloc de caracteristicile obiective alese.
Pentru a ne asigura de unicitatea perechii ξ *,η * , vom presupune că
avem de-a face cu versori, adică ξ *T Wξ * = η *T Wη* = 1 . Despre aceşti
ξ * = Xa * şi η * = Yb * se spune că sunt caracteristicile canonice, despre
vectorii coeficienţilor a * şi b * se spune că sunt factorii canonici, iar
valoarea rξ *,η* este numită corelaţia canonică. În analiza canonică se
încearcă, în cazul detectării unei valori „mari” a corelaţiei canonice,
determinarea caracteristicilor canonice – care vor înlocui grupele de
variabile iniţiale – apoi explicarea acestor caracteristici canonice prin
variabilele iniţiale, ceea ce implică aflarea factorilor canonici.
Formulele de calcul sunt uşor de dedus geometric, întrucât
coeficientul de corelaţie între doi vectori poate fi interpretat drept cosinusul
unghiului dintre ei. Dacă presupunem că-l cunoaştem pe η * ∈ S , atunci
orice vector ξ * ∈ O pentru care coeficientul de corelaţie rξ *,η* este maxim
va fi unul dintre cei pentru care unghiul (vezi figura 2) este minim, în
particular îl vom putea alege ca proiecţie a lui η * pe subspaţiul O. Dacă
vom impune condiţia ca η * ∈ S şi ξ * ∈ O să fie versori, atunci proiecţia lui
η * pe subspaţiul O va fi exact r ξ * unde r = rξ *,η * este corelaţia canonică.

η*

O
ξ*
ξ rξ* ξ*

Figura 2. Proiecţia unei caracteristici canonice pe subspaţiul celeilalte

72
În general, proiecţia z a unui vector z ∈ R n pe subspaţiul O (vezi
figura 3) se obţine prin înmulţire cu o matrice de proiecţie:
z = projO ( z ) = Pz . (3)

Să exprimăm pe z ca o combinaţie liniară de vectorii x1 , x 2 ,..., x p


(cu coeficienţii formând vectorul a ):
z = Xa .
Dat fiind că diferenţa z − z este un vector ortogonal pe subspaţiul O,
el este ortogonal pe fiecare vector x j , iar din aceste condiţii de
ortogonalitate deducem
T T T
x j Wz = x j Wz = x j WXa pentru j ∈ {1, 2, ..., p} ,
condiţii ce se exprimă unitar astfel
X TWz = X TWXa . (4)

xj

Figura 3. Calculul proiecţiei unui vector

Admiţând că matricea X are rangul maxim (= p), drept consecinţă


matricea X TWX (de ordin p × p ) este inversabilă, iar ca urmare

a = ( X TWX ) −1 X TWz şi astfel z = X ( X TWX ) −1 X TWz .

Am stabilit astfel că matricea de proiecţie este P = X ( X TWX ) −1 X TW .


Dat fiind că proiecţia Pη * a lui η * este exact rξ * , obţinem:

X ( X TWX ) −1 X TWη* = rξ * . (5)

73
În mod dual (inversând rolurile subspaţiilor O şi S şi admiţând că şi
matricea Y are rangul maxim q),
Y (Y TWY ) −1Y TWξ * = rη * . (6)
Din ultimele două relaţii vom obţine
X ( X TWX ) −1 X TWY (Y TWY ) −1Y TWξ * = r 2ξ * . (7)
Pentru simplificarea scrierii, să facem notaţiile:
V XX = X TWX , V XY = X TWY , VYX = Y TWX =V XYT , VYY = Y TWY ,
ceea ce conduce la re-exprimarea relaţiei (7) în forma ce urmează:
XV XX −1V XY VYY −1Y TWξ * = r 2ξ * , (8)
ceea ce înseamnă că r 2 este valoare proprie a matricei
XV XX −1V XY VYY −1Y TW , iar ξ * este versorul propriu corespunzător.
Analog, η * este versor propriu al matricei YVYY −1VYX V XX −1 X TW .
Determinarea corelaţiei canonice şi a caracteristicilor canonice este astfel
încheiată prin rezolvarea a două probleme de valori/vectori proprii.
Pentru a afla şi factorii canonici, vom folosi exprimările:
ξ * = Xa * şi η * = Yb *
precum şi relaţiile de mai sus. Rezultă imediat că a * este vector propriu al
matricei A = V XX −1V XY VYY −1VYX iar b * este vector propriu al matricei
B = VYY −1VYX V XX −1V XY , valoarea proprie corespunzătoare fiind aceeaşi
r2 .
Implementarea algoritmică a formulelor de mai sus va putea să ţină
1
seamă de relaţia b* = VYY −1VYX a * precum şi de altele asemănătoare.
r
De asemenea, se pot programa cu uşurinţă exprimări ale
caracteristicilor iniţiale x j (sau y k ) în raport cu cele canonice. Softul
statistic oferă, de regulă, toate aceste informaţii.

4.2 Analiza discriminării

Metodele de analiză a discriminării se aplică unei populaţii de


indivizi caracterizaţi prin variabile continue sau categoriale care sunt a

74
priori (uneori natural) împărţiţi în grupuri. Scopul analizei discriminării este
acela de a clasifica una sau mai multe observaţii în aceste grupuri deja
precizate. De exemplu, sunt bine-cunoscute modelele de credit scoring
folosite de bănci. Acestea presupun că o bancă importantă dispune de
informaţii privind clienţii săi, atât despre cei buni platnici (care rambursează
creditul fără probleme) cât şi despre cei rău platnici (care au avut probleme
cu rambursarea creditului pe parcurs). Aceste informaţii se pot referi la
vârstă, salariu, starea socială, stabilitatea slujbei, alte probleme cu
rambursarea – vezi şi exemplul 6 din Anexa 1. Când apare un client nou
care solicită un credit, banca trebuie să decidă dacă să-i acorde sau nu
împrumutul solicitat. Pentru bancă, acest posibil nou client este un individ
descris prin caracteristicile sale: vârstă, salariu, starea socială etc. Banca va
decide dacă îi acordă sau nu creditul aplicând o regulă de discriminare. În
urma aplicării acestei reguli solicitantul va primi un scor şi, pe baza
acestuia, va fi clasificat într-una dintre grupurile deja existente. Analiza
discriminării oferă modalitatea de a discerne, adică de a formula regula de
discriminare folosind istoricul clienţilor băncii dar, în acelaşi timp, oferă şi o
măsură a evaluării riscului unei decizii greşite.
Sintetizând, putem să afirmăm că, în analiza discriminării populaţia
de indivizi care au fost cercetaţi este împărţită în grupuri şi că dispunem de
datele observate pentru aceşti individ. (În unele situaţii grupurile apar în
mod natural, în altele ele sunt rezultatul unei analize anterioare.)
Scopul unei metode de discriminare variază după domeniul în care
se aplică. Să exemplificăm cu următoarele două exemple.
Exemplul 1. Presupunem că ne aflăm în domeniul poştal şi avem în
vedere punerea la punct a unui sistem de recunoaştere şi de triere automată a
unor coduri poştale scrise manual. În acest caz, populaţia analizată este
constituită din secvenţe de 6 cifre (scrise manual) – 10 grupuri posibile
pentru fiecare cifră a secvenţei – având fiecare caracteristicile sale
morfologice. Scopul unei analize de separare (discriminare) în acest context
este pur decizional, fiind vorba de a elabora reguli de decizie pentru
recunoaşterea celor 10 cifre cu minim de eroare.
Exemplul 2 1 . În septembrie 1992 francezii s-au pronunţat prin
referendum asupra ratificării tratatului de la Maastricht privind actul de
înfiinţare a Uniunii Europene. Votul a împărţit votanţii în două grupuri: unii
au fost pentru, alţii împotriva tratatului. Comentatorii politici au fost
interesaţi, la vremea respectivă, să descrie din punct de vedere social/

1
Jean-Pierre NAKACHE, Analyse Discriminante sur Variables Qualitatives, Polytechnica
Paris, 1994.

75
economic portretul partizanilor, dar şi pe cel al opozanţilor tratatului. În
acest exemplu suntem confruntaţi cu o problemă discriminantă dar, de
această dată, scopul ei nu este decizional, ci explicativ: se urmăreşte să se
descopere cât mai bine care au fost motivaţiile electorilor în decizia de vot.
În concluzie, putem afirma că, în general, analiza discriminantă are
două scopuri bine precizate, şi anume:
– Un scop decizional, destul de frecvent, ce are în vedere
construirea unei reguli de afectare a indivizilor la un grup, regulă
ce poate fi aplicată şi în viitor. Această regulă se construieşte în
funcţie de ansamblul de variabile predictor observate asupra
indivizilor. O regulă bună de afectare este aceea care va conduce
în viitor la erori de clasare a observaţiilor viitoare cât mai mici
posibile.
– Un scop explicativ, prin care se urmăreşte să se descopere
variabilele cele mai pertinente în descrierea diferenţelor dintre
grupurile formate a priori.
4.2.1 Analiza discriminării decizionale. Reguli de alocare
Să presupunem că avem o populaţie Π de indivizi împărţită în J
grupuri (subpopulaţii) disjuncte Π1 , Π 2 ,..., Π J – prin valorile 1, 2, ..., J ale
unei variabile categoriale. Fiecare individ al populaţiei este descris prin p
variabile continue, notându-se valorile ce-l caracterizează cu
x = ( x1 ,..., x p ) , deci poate fi identificat cu un punct din R p .

O regulă de discriminare produce o separare a spaţiului R p în


mulţimile R1 , R2 ,..., R J astfel încât dacă x ∈ R j atunci individul
caracterizat de x va fi considerat ca aparţinând grupului (subpopulaţiei)
Π j . Sarcina principală în construirea unei reguli de discriminare este aceea
de a găsi regiuni „bune” R j astfel încât eroarea de clasificare greşită a unui
individ să fie cât mai mică. Vom prezenta în continuare câteva reguli de
discriminare, pentru cazul în care sunt cunoscute repartiţiile populaţiilor.
A) Regula de discriminare prin verosimilitate maximă
Notăm cu f i ( x ) densitatea de probabilitate a populaţiei Π i ,
i ∈ {1, 2, ..., J } . Regula de discriminare prin verosimilitate maximă (ML =
maximum likelihood) alocă un individ descris prin punctul x la acea
populaţie Π j pentru care se realizează probabilitatea maximă, adică:

76
x este alocat lui Π j ⇔ j = arg max f i ( x) . (9)
i =1,... J
Să notăm cu L j ( x ) acea densitate de probabilitate f j ( x) care
realizează maximul (9). Matematic, mulţimea R j este definită astfel

R j = {x ∈ R p | f j ( x) > f i ( x), i = 1, 2,..., J , i ≠ j} .


Să evaluăm eroarea de clasificare greşită. Să presupunem că avem
două clase, adică J = 2. Putem calcula probabilitatea de a aloca pe x la
grupul 2 atunci când el este de fapt în grupul 1 astfel:

p 21 = P( x ∈ R2 | Π1 ) =
∫R2
f1 ( s )ds (10)

şi similar, probabilitatea de a aloca pe x la grupul 1 atunci când el este de


fapt în grupul 2 este

p12 = P( x ∈ R1 | Π 2 ) =
∫R1
f 2 ( s )ds . (11)

Putem să construim o regulă de alocare asociind costuri unei


clasificări eronate. Astfel, o clasificare greşită determină un cost C ( j | i ) al
erorii de clasificare a unui individ din populaţia Π i în regiunea R j . Fie πi
probabilitatea a priori asociată populaţiei Πi , adică probabilitatea ca un
individ oarecare, ales aleatoriu, să fie din populaţia Πi . (Această
probabilitate a priori poate fi estimată pe baza experienţei anterioare asupra
populaţiei studiate!).
Folosind noţiunile precizate mai sus, putem să calculăm un cost
mediu CM al erorii de clasificare prin:
CM = C (2 | 1) p 21π1 + C (1 | 2) p12 π 2 . (12)
Evident, vom încerca să construim reguli de alocare pentru care
expresia (12) să aibă valoare minimă. Pentru gruparea în două populaţii
regula de discriminare bazată pe realizarea unui cost mediu minim este dată
de următoarea
Teoremă. Formula lui CM conduce la construirea următoarelor
regiuni de alocare:

⎧ f ( x) C (1 | 2)π2 ⎫ ⎧ f1 ( x) C (1 | 2)π2 ⎫
R1 = ⎨ x 1 ≥ ⎬ , R2 = ⎨ x < ⎬.
⎩ f 2 ( x) C (2 | 1)π1 ⎭ ⎩ f 2 ( x) C (2 | 1)π1 ⎭

77
Observaţie. Regula de alocare prin verosimilitate maximă este un
caz particular al regulii de alocare pe baza costului mediu minim. Ea se
obţine luând costurile erorilor egale între ele, C ( 2 | 1) = C (1 | 2) = 1 , şi de
asemenea probabilităţile a priori egale, π1 = π 2 .
Exemplu. Să considerăm cazul în care cele două populaţii sunt
repartizate normal Π1 ~ N (μ1, σ12 ) , Π 2 ~ N (μ 2 , σ22 ) , cunoscând că
densităţile de probabilitate sunt:
1 ⎛ ( x − μi ) 2 ⎞
fi ( x) = exp⎜ − ⎟ , i ∈ {1, 2}
2 πσi ⎜ 2 σ 2 ⎟
⎝ i ⎠
Astfel, x va fi alocat la Π1 – prin regula verosimilităţii maxime –
dacă x ∈ R1 = {x | f1( x) > f 2 ( x)} . În acest caz, condiţia f1( x) > f 2 ( x) este
echivalentă cu
⎛ 1
2⎜ 1 ⎞⎟ ⎛ μ1 μ 2 ⎞ ⎛ μ12 μ 22 ⎞ σ
x − − 2 x⎜ 2 − 2 ⎟ + ⎜ 2 − 2 ⎟ < 2 log 2 (13)
⎜ σ2 σ2 ⎟ ⎜σ ⎟ ⎜ ⎟ σ1
⎝ 1 2⎠ ⎝ 1 σ 2 ⎠ ⎝ σ1 σ 2 ⎠
1
Să presupunem că μ1 = 0 , σ1 = 1 şi μ 2 = 1 , σ 2 = . Aplicarea
2
formulei (13) ne conduce la definirea regiunilor de alocare astfel:
{
R1 = x x <
1⎛
⎜4 −
3⎝
4 + 6 log(2) ⎞⎟⎠ sau x >
1⎛
⎜4 +
3⎝
4 + 6 log(2) ⎞⎟⎠ }
R2 = R p \ R1 .
În cazul în care densităţile de repartiţie au aceleaşi dispersii şi să
presupunem că μ1 < μ 2 , regula de verosimilitate maximă conduce la
definirea următoarelor regiuni:
1 1
R1 = {x | x ≤ (μ1 + μ1 )}, R2 = {x | x > (μ1 + μ1 )} .
2 2
Să presupunem acum că avem un număr oarecare de subpopulaţii,
fie ele J şi că densităţile de probabilitate pe spaţiul R p sunt normale cu
media μ = (μ1 ,..., μ J ) şi matricea de varianţă-covarianţă Σ . Avem
următoarea
Teoremă. Prin regula de verosimilitate maximă (ML) un punct x se
alocă la populaţia Π j dacă şi numai dacă

78
j = arg min ( x − μ i ) T Σ −1 ( x − μ i ) ,
i =1,... J

adică punctul se alocă acelei populaţii pentru care distanţa Mahalanobis


între punct şi valoarea medie este cea mai mică.
Observaţie. În practică, vectorul mediilor este estimat prin centrele
de greutate ale grupurilor respective, iar matricea de varianţă-covarianţă este
estimată prin matricea inerţiei între grupuri.

B) Regula de discriminare Bayes

În regula de discriminare prin verosimilitate maximă am considerat


πi probabilitatea a priori asociată populaţiei Πi (pentru i ∈ {1, 2, ..., J } ),
J
evident cu proprietatea ∑π1
i = 1.

Prin regula de alocare bayesiană x se alocă acelui grup (populaţii


Π j ) corespunzător probabilităţii a posteriori maxime, adică:

x este alocat lui Π j ⇔ j = arg max f i (Π i | x) , (14)


i =1,... J

f i (Π i | x) fiind probabilitatea a posteriori asociată populaţiei Π i .


Prin formula lui Bayes avem:
π i f i ( x)
f i (Π i | x ) = J
(15)

∑ π f ( x)
l =1
l l

şi putem folosi regula de alocare:

x este alocat lui Π j ⇔ j = arg max π i f i ( x) (16)


i =1,... J
Prin urmare, regiunea corespunzătoare regulii de alocare (16) se
poate descrie astfel:
R j = {x ∈ R p | π j f j ( x ) ≥ π i f i ( x ), i = 1, 2,..., J } (17)

Observaţie: Regula Bayes este identică cu regula de discriminare


1
ML dacă probabilităţile a priori sunt π i = .
J

79
4.2.2 Analiza discriminării factoriale

În § 4.2.1 am prezentat modele de analiză a discriminării ce au doar


un scop decizional. În acest paragraf vom prezenta tehnici de analiză a
discriminării care au şi un scop explicativ. Tehnica discriminării factoriale
este asemănătoare cu tehnica componentelor principale prezentată în
Capitolul 3.
Dacă avem de rezolvat o problemă de discriminare, atunci avem
indicată şi o variabilă răspuns de tip categorial. Să presupunem că aceasta
are q modalităţi; prin urmare, eşantionul de n indivizi va fi grupat, după
variabila categorială în q clase. Reamintim că:
a) matricea X ( n × p ) a datelor reprezintă n indivizi asupra cărora s-
au măsurat p variabile, aici variabile predictor. Această matrice o putem
privi fie linie cu linie exprimând informaţii despre cei n indivizi, fie coloană
cu coloană exprimând informaţii despre cele p variabile. Prin urmare:
– oricărui individ i îi corespunde în matricea X o linie, adică un
vector cu p elemente, care va fi scris: xi = ( xi1 , xi 2 ,..., xip ) ∈ R p ;
– oricărei variabile j îi corespunde în matricea X o coloană cu n
elemente, care va fi notată: x j = ( x1 j , x 2 j ,..., x nj ) T ∈ R n ;
b) am notat cu m = ( m1 , m 2 ,..., m p ) vectorului mediilor celor p
variabile, iar punctul de coordonate ( m1 , m 2 ,..., m p ) din Rp este numit
centrul de greutate al norului de puncte;
c) am notat cu s = ( s1 , s 2 ,..., s p ) vectorul abaterilor standard
calculate cu vectorii coloană ai matricei X.
Mai considerăm :
d) matricea V = ( sij ) i =1, 2,...,n; j =1, 2,... p de varianţă-covarianţă estimată
pentru cele p variabile predictor;
e) vectorul mediilor variabilelor predictor pentru fiecare dintre cele q
clase. Corespunzător clasei l, fie m l = ( m1l , m 2l ,..., m lp ) vectorul mediilor
celor p variabile predictor calculat pe baza indivizilor din clasa l; el se
numeşte centrul de greutate al clasei l; evident l = 1,2,..., q ;

80
f) matricea de covarianţă W l a celor p variabile predictor, matrice
calculată pentru indivizii clasei l, l = 1,2,..., q ;
g) matricea W = W 1 + W 2 + ... + W p , care este numită matricea de
covarianţă pentru interiorul claselor;
h) matricea B = V − W , care este numită matricea de covarianţă
între clase.
Fie în spaţiul Rp o dreaptă Δ de versor u = (u1 , u 2 ,..., u p ) T . Dacă în
analiza componentelor principale alegeam acea dreaptă care să recupereze
cea mai mare cantitate de informaţie din informaţia totală a norului de
puncte, în analiza discriminării vom alege acea dreaptă care permite o
separare „optimă” a proiecţiilor în clase. Să vedem la ce ne conduce acest
obiectiv!
Fie un individ k ale cărui coordonate în spaţiul variabilelor sunt
( x k1 , x k 2 ,..., x kp ) şi care se identifică cu un punct în Rp. Proiectând acest
punct pe dreapta Δ obţinem valoarea
c k = x k1 ⋅ u1 + x k 2 ⋅ u 2 + ... + x kp ⋅ u p (18)
ce reprezintă distanţa proiecţiei punctului pe dreapta Δ faţă de centrul de
greutate al norului de puncte m. Valoarea c k asociată individului k se mai
numeşte scor asociat dreptei Δ. Pentru ansamblul indivizilor putem scrie
vectorul coloană al scorurilor
C = Xu (19)
Vectorul u = (u1 , u 2 ,..., u p ) T , versor al dreptei Δ, se numeşte factor
de discriminare iar C se mai numeşte componenta de discriminare.
Un model liniar al problemei de discriminare poate fi următorul:
z = α1 x1 ⋅ + α 2 x 2 + ... + α p x p (20)
în care z este o nouă variabilă, exprimată printr-o funcţie liniară de cele p
variabile predictor. Dacă α1 = u1 , α 2 = u 2 ,..., α p = u p , expresia din (20)
este numită funcţie de discriminare iar coeficienţii săi se mai numesc şi
coeficienţi de discriminare.
Tehnica discriminării factoriale se bazează pe descompunerea
varianţei totale V în cele două componente ale sale şi anume W varianţa
pentru interiorul claselor şi B pentru varianţa între clase, avem V = W + B .

81
Analog tehnicii componentelor principale, înlocuind indivizii prin
proiecţiilor lor pe o axă de versor u = (u1 , u 2 ,..., u p ) T , avem:

u T Vu = u T Wu + u T Bu . (21)
Scopul unei tehnici de discriminare este acela de a găsi acea axă Δ
pentru care discriminarea proiecţiilor pe ea să fie maximă. Un caz ideal ar fi
acela în care covarianţa pentru interiorul claselor este nulă, u T Wu = 0
corespunzând situaţiei în care toate punctele dintr-un grup sunt proiectate în
centrul de greutate al grupului respectiv. Am avea în acest caz
u T Vu = u T Bu iar alegerea celei mai bune axe de discriminare revine la
maximizarea expresiei u T B u (pentru soluţionarea problemei vezi Capitolul
3, §3.1).
În practică se maximizează însă raportul
u T Bu
λ= . (22)
u T Vu
Se observă că acesta ia valori în intervalul [0, 1] şi exprimă, în
procente, bonitatea discriminării.
Aflarea versorului u soluţie a problemei (22) se reduce la aflarea
soluţiei sistemului algebric de ecuaţii:
V −1 Bu = λu (23)
cu alte cuvinte, u va trebui să fie unul dintre vectorii proprii ai matricei
V −1 B , corespunzător valorii proprii maxime. Dacă notăm cu f 1 un
asemenea vector propriu, el ne va determina primul factor de
discriminare. Apare o primă componentă de discriminare C 1 = Xf 1 .
Luând în continuare următoarea valoare proprie obţinem al doilea factor de
discriminare f 2 şi, corespunzător lui, a doua componentă de discriminare
C 2 = Xf 2 , etc.
Să considerăm că variabila categorială ce împarte populaţia în clase
are doar două modalităţi, deci q = 2. Se poate demonstra că vectorii proprii
diferiţi de 0 ai matricei V −1 B sunt în număr de q – 1. Avem aşadar doar o
singură funcţie de discriminare şi un singur factor de discriminare
f 1 = V −1 (m 2 − m1 ) .

82
Clasificarea indivizilor pe baza funcţiei de discriminare găsite se
face folosind relaţia (18) pentru proiectarea centrelor de greutate ale celor
două clase pe axa de discriminare. Fie aceste proiecţii c1 , c 2 . Scorul de
separare (cutting score) al indivizilor pe axa de discriminare se obţine cu
formula:
n1c1 + n2 c 2
cCS = (24)
n1 + n2
(în care am notat cu n1 , n2 frecvenţele celor două clase).
Regula de decizie în reclasificare, pentru un individ cu scorul c k ,
este următoarea
– dacă c k < cCS , atunci individul k este repartizat primei clase,
dimpotrivă
– dacă c k ≥ cCS , atunci individul k este repartizat celei de-a doua
clase.
Rata succesului discriminării se calculează cu formula:
n + n22
p S = 11 (25)
n1 + n2
în care am folosit notaţiile din următorul tabel:
Grupul Număr de indivizi în Grupul după reclasificare
iniţial grupul iniţial 1 2
1 n1 n11 n12
2 n2 n21 n22
Pentru două clase cu frecvenţe egale, o procedură aleatoare de
repartizare în clase ar avea o rată a succesului de 50%; aşadar, diferenţa
dintre p S şi 50% poate fi folosită ca indicator al calităţii discriminării.
Unul dintre obiectivele analizei discriminării este şi acela de a repera
şi explica contribuţia variabilelor predictor în separarea în clase. Acest
obiectiv se realizează prin indicatori statistici specifici, în următoarele etape:

83
1) Se verifică mai întâi importanţa fiecărei variabile predictor
folosind de exemplul testul statistic F de verificare a omogeneităţii
claselor.
2) Se calculează pentru fiecare variabilă predictor statistica λ a lui
Wilks ca raport între suma pătratelor variaţiilor în interiorul
claselor şi variaţia totală. Valori apropiate de 0 indică faptul că
variabila predictor este discriminată.
3) O variabilă este cu atât mai discriminată cu cât ei îi corespunde o
valoare mai mare pentru statistica F şi o valoare mai mică pentru
statistica λ a lui Wilks.
În softul statistic sunt disponibile următoarele abordări în analiza
discriminării prin tehnici factoriale:
1. Selectarea forward în care se începe cu un model „vid”, fără
nici o variabilă predictor, adăugându-se pe rând câte o
variabilă predictor, anume aceea care contribuie cel mai mult
la discriminare. (Pentru alegerea ei se foloseşte statistica λ a
lui Wilks.)
2. Eliminarea backward în care se porneşte cu un model
complet, cu toate variabilele predictor prezente. Se elimină
pe rând, la fiecare pas, variabila predictor care contribuie cel
mai puţin la discriminare. (În alegere se foloseşte din nou
statistica λ a lui Wilks.)
Cele două abordări sunt metode pas cu pas şi încearcă să găsească
cel mai bun model de discriminare.

84
Capitolul 5. Aplicaţii economice
Vom descrie în acest capitol câteva aplicaţii economice ale tehnicilor
prezentate în Capitolele 1–4. Vom folosi exemplul 2 din Anexa 1, dar vom
prezenta şi alte aplicaţii noi, utile pentru un economist, cum ar fi modelul de
„credit scoring” dar şi unele tehnici de analiză pe tabele de contingenţă.

5.1 Analiza şi clasificarea firmelor


pe baza indicatorilor financiari
Să considerăm problema descrisă în exemplul 2 din Anexa 1. În
acest exemplu sunt prezentaţi 7 indicatori financiar-contabili, calculaţi
pentru un lot de 12 firme, indicatorii fiind următorii:
I1: Total datorii/capital social; I2: Cifră de afaceri/total activ;
I3: Profit brut/total activ; I4: Capital social/cifră de afaceri;
I5: Datorii/total activ; I6: log(Activ);
I7: Rata de creştere a activului.
Matricea de date conţinând valori ale acestor indicatori pentru cele
12 firme este prezentată în tabelul următor:

Firma I1 I2 I3 I4 I5 I6 I7
1 0,414 0,032 0,000 5,59 0,677 7,03 0,62
2 0,231 0,324 0,034 2,45 0,165 7,45 0,40
3 0,432 0,684 0,054 1,05 0,204 7,32 0,40
4 0,156 0,326 0,020 2,59 0,129 7,16 0,47
5 0,227 0,124 -0,080 7,49 0,149 7,54 0,43
6 0,295 0,176 0,026 4,33 0,199 7,72 0,45
7 0,261 0,470 0,023 1,77 0,147 7,62 0,46
8 0,446 0,343 0,020 2,17 0,240 8,08 0,38
9 0,352 0,831 0,036 0,82 0,243 7,18 0,37
10 0,267 0,141 0,003 5,20 0,258 8,27 0,31
11 0,703 0,185 0,002 3,27 0,268 8,15 0,42
12 0,206 0,969 0,029 0,72 0,26 8,38 0,36
Scopul analizei matricei de date în acest exemplu este acela de a afla
câţiva „indicatori relevanţi” (de regulă doi sau trei), pe baza cărora să putem

85
obţine o clasificare cât mai elocventă a firmelor. Problema formulată în
acest mod ne conduce spre ideea utilizării tehnicii analizei componentelor
principale, dublată şi de o analiză a clasificării (vezi Capitolul 3, §3.1).
Să începem analiza. Mai întâi constatăm că toate caracteristicile
urmărite (anume indicatorii financiar-contabili) sunt variabile continue,
scara lor de măsură fiind uşor de identificat. Prin urmare, într-o primă
analiză putem calcula – pentru fiecare dintre aceste variabile – indicatorii de
centrare şi de împrăştiere, cum ar fi media, valoarea minimă şi valoarea
maximă, precum şi abaterea standard (vezi tabelul următor).
Descriptive Statistics
Valid N Mean Minimum Maximum Std.Dev.
I1 12 0.332 0.156 0.703 0.149
I2 12 0.383 0.032 0.969 0.298
I3 12 0.014 -0.08 0.054 0.033
I4 12 3.120 0.72 7.49 2.127
I5 12 0.244 0.13 0.67 0.144
I6 12 7.658 7.03 8.38 0.463
I7 12 0.422 0.31 0.62 0.077
Remarcăm faptul că elementele matricei de date iniţiale ar necesita o
standardizare, deoarece abaterile standard ale celor şapte indicatori sunt
destul de diferite.
Pentru a vedea dacă indicatorii calculaţi sunt independenţi sau nu,
vom analiza matricea coeficienţilor de corelaţie din tabelul următor:
I1 I2 I3 I4 I5 I6 I7
I1 1 -0.165 0.073 -0.052 0.351 0.165 0.092
I2 -0.165 1 0.559 -0.837 -0.265 0.078 -0.443
I3 0.073 0.559 1 -0.842 -0.050 -0.059 -0.174
I4 -0.052 -0.837 -0.842 1 0.274 -0.048 0.341
I5 0.351 -0.265 -0.050 0.274 1 -0.192 0.608
I6 0.165 0.078 -0.059 -0.048 -0.192 1 -0.619
I7 0.092 -0.443 -0.174 0.341 0.608 -0.619 1
Identificăm în matrice coeficienţi de corelaţie mari şi anume: între
indicatorii I2 şi I4 (în sens negativ), între indicatorii I3 şi I4 (în sens
negativ); de asemenea, apare un coeficient de corelaţie destul de mare între

86
indicatorii I5 şi I7 (în sens pozitiv) şi între indicatorii I6 şi I7 (în sens
negativ). Pe baza acestor constatări am putea trage concluzia renunţării la
unii indicatori, dar la care? Pentru a elimina subiectivismul deciziei, vom
folosi tehnicile de analiză a componentelor principale implementate într-un
mediu de analiză statistică. Ne propunem să identificăm trei indicatori
sintetici cu care ne-am mulţumi în atingerea scopului propus. În acest
context obţinem următoarele o serie de categorii de informaţii ce sunt utile
pentru eliminarea subiectivismului în ierarhizarea firmelor.
A) Informaţiile privind calitatea ajustării sunt exprimate cu ajutorul
valorilor proprii ale matricei corelaţiilor şi a proprietăţilor acestora.
λ1
Reamintim faptul că raportul τ1 = exprimă cantitatea de informaţie
∑ λi
i =1,...,7
recuperată (sau „varianţa explicată”) de prima axă factorială, apoi
λ +λ
τ 2 = 1 2 exprimă cantitatea de informaţie recuperată („varianţa
∑ λi
i =1,...,7
explicată”) de primele două axe factoriale ş.a.m.d.
Vom putea analiza astfel calitatea ajustării norului de puncte (în
cazul nostru firmele) urmărind informaţiile din tabelul următor:
Eigenvalues
% total Cumul. Cumul.
Eigenval Variance Eigenval %
1 2.914 41.636 2.914 41.636
2 1.689 24.134 4.603 65.771
3 1.275 18.228 5.879 83.999
În coloana „Eigenval” identificăm cele trei valori proprii, în ordine
descrescătoare, şi anume: λ1 = 2.914, λ2 = 1.689, λ3 = 1.275. Cum rangul
matricei corelaţiilor este 7, putem să explicăm uşor conţinutul coloanei „%
total Variance” şi anume: ajustând norul de puncte printr-o singură axă
factorială (adică acceptând doar un singur indicator sintetic), se explică
41.636% din totalul varianţei datelor; apoi, ajustând norul de puncte prin
două axe factoriale (adică acceptând doi indicatori sintetici) recuperăm încă
24.134% din varianţa totală, adică un total de 65.771% din această varianţă
(vezi şi coloana „Cumul. %”). În sfârşit, dacă solicităm trei axe factoriale
(adică ceea ce ne-am propus, trei indicatori sintetici) explicăm 84% din
varianţa totală (ceea ce este un rezultat foarte bun!)

87
B) Informaţiile despre axele principale sunt prezentate în tabelul
următor:
Factor Score Coefficients
Factor 1 Factor 2 Factor 3
I1 -0.051 -0.152 0.676
I2 -0.316 -0.0049 -0.0981
I3 -0.384 0.113 0.124
I4 0.388 -0.024 -0.051
I5 -0.021 0.218 0.422
I6 0.105 -0.535 0.257
I7 0.013 0.445 0.069

Coloana unui factor ne oferă informaţii despre ponderile


(„coeficienţii”) cu care participă fiecare indicator financiar-contabil (I1, …,
I7) la descrierea factorului respectiv. Acest factor poate fi exprimat, prin
urmare, ca o combinaţie liniară de indicatorii financiar-contabili (cu
coeficienţii respectivi).
C) Informaţii despre scorurile firmelor, care sunt proiecţiile acestor
firme (considerate ca puncte în spaţiul indivizilor) pe cele trei axe principale
sunt prezentate în tabelul următor:
Factor Scores
Rotation: Varimax raw
Factor 1 Factor 2 Factor 3
1 0.782 2.366 1.463
2 -0.294 0.170 -0.717
3 -1.265 0.253 0.222
4 -0.132 0.882 -1.316
5 2.177 -0.223 -1.184
6 0.340 0.087 -0.160
7 -0.405 0.230 -0.559
8 -0.150 -0.823 0.753
9 -1.271 0.320 -0.239
10 0.902 -1.326 -0.030
11 0.355 -0.963 2.030
12 -1.037 -0.974 -0.262

Cele trei coloane (Factor 1, 2 şi 3) conţin componentele principale


sau noii indicatori sintetici calculaţi pentru cele 12 firme. Devine posibilă
acum reprezentarea grafică în spaţiul tri- sau bidimensional pentru a observa

88
gruparea firmelor. În figura 1 prezentăm cele 12 firme reprezentate în planul
primelor două axe principale. Observăm un grup destul de compact de firme
ce par a avea un comportament asemănător în raport cu noii indicatori, dar şi
două firme, anume F5 şi F1, care se detaşează de grup.

1 2
F1
3

F4 1

F9 F7
F3 F2 F6
0
-2 -1 0 1 2 3
F5

F8
-1 F11
F12
2 F10 4
-2

Figura 1. Scorurile firmelor în planul axelor principale 1 şi 2

D) Informaţii privind interpretarea componentelor principale se


obţin analizând coeficienţii de corelaţiile calculaţi între cele trei componente
principale şi indicatorii financiari-contabili.
Reamintim faptul că dacă C este o componentă principală (deci un
vector din R n ) obţinută plecând de la o valoare proprie λ şi un vector
propriu u = (u1 ,..., u j ,..., u p ) , atunci coeficientul de corelaţie dintre
componenta principală C şi variabila j iniţială având valorile observate
x j = ( x1 j ,..., x 2 j ,..., x nj ) este:

rC , x j = λu j ( j ∈ {1,2,..., p} ).

Dacă, de exemplu, avem două componente principale C1 şi C2,


obţinem pentru fiecare variabilă j perechea de coeficienţi de corelaţie
( rC1 , x j , rC 2 , x j ) . Aceste perechi, reprezentate în planul axelor principale sunt
puncte în interiorul aşa-numitului cerc al corelaţiilor (în rare cazuri chiar şi
pe cercul unitate!). În acest context, interpretarea componentelor principale
este relativ simplă. Anume, o componentă principală poate fi „explicată”

89
prin acea variabilă iniţială pentru care coeficientul de corelaţie este maxim
dar, în acelaşi timp, variabila iniţială are cu celelalte componente principale
coeficienţi de corelaţie mici.
Revenind la exemplul nostru, se obţin aşa-numiţii „Factor Loadings”
se apar într-un tabel de forma următorului.

Factor Loadings (Unrotated)


(Marked loadings are > .700000)
Factor 1 Factor 2 Factor 3
I1 -0.13 -0.25 -0.87
I2 0.86 -0.22 0.10
I3 0.71 -0.57 -0.09
I4 -0.89 0.41 0.05
I5 -0.54 -0.56 -0.37
I6 0.31 0.64 -0.59
I7 -0.70 -0.61 0.16
Expl.Var 2.91 1.69 1.28
Prp.Totl 0.42 0.24 0.18

Aşadar, componenta principală 1 fiind puternic corelată (pozitiv) cu


indicatorul financiar-contabil I2 (care, la rândul său este „slab corelat” cu
celelalte două componente), se interpretează ca fiind un „indicator sinteză”
al rentabilităţii (I2 este „Cifra de afaceri/total activ”, adică un indicator al
rentabilităţii).
A doua componentă principală este greu de interpretat. Ea are un
coeficient de corelaţie relativ mare (negativ) cu indicatorul I7, dar acesta nu
are coeficienţi de corelaţie mici cu celelalte două componente rămase.
Aceeaşi situaţie este întâlnită şi pentru a treia componentă principală.
De aceea, pentru o analiză mai relevantă şi o interpretare mai
apropiată de realitate, se recomandă folosirea unei opţiuni de „rotire a
axelor” ce are ca scop obţinerea unor coeficienţi de corelaţie cât mai mici pe
una sau două componente principale. Una dintre cele mai utilizate „rotiri”
este cunoscută ca „tehnica Varmax”. În acest fel, interpretarea
componentelor principale devine mai semnificativă.
În exemplul nostru, apelând la opţiunea de rotire a axelor (Varmax),
obţinem informaţiile din tabelul „Factor Loadings” următor.

90
Factor Loadings (Rotated)
(Marked loadings are > .700000)
Factor 1 Factor 2 Factor 3
I1 -0.04 -0.11 0.90
I2 -0.84 -0.19 -0.22
I3 -0.90 0.06 0.11
I4 0.97 0.13 0.02
I5 0.16 0.53 0.66
I6 0.07 -0.89 0.23
I7 0.27 0.87 0.23
Expl.Var 2.57 1.89 1.42
Prp.Totl 0.37 0.27 0.20
Se observă că de data aceasta am obţinut coeficienţi de corelaţie
mari pe câte o componentă dar mici pentru celelalte. Acum „componenta
principală 1” este interpretată în termenii indicatorului I3 sau eventual I4.
(De fapt, matricea corelaţiilor ne arată că aceştia sunt puternic corelaţi între
ei, deci putem renunţa la unul.) Oricare dintre ei este încă un indicator
sinteză al rentabilităţii.
„Componenta principală 2” este interpretată în termenii indicatorului
I6 (corelaţie negativă), adică este un indicator sintetic al mărimii firmei
(reamintim că I6 este logaritmul activului firmei). Se observă faptul că
„componenta principală 2” se poate interpreta şi în termenii indicatorului I7
(rata de creştere a activului), cu o corelaţie pozitivă! Preferăm explicarea
prin indicatorul I7, ce exprimă dinamica activului firmei.
„Componenta principală 3” este interpretată în termenii indicatorului
financiar-contabil I1 (adică „Total datorii/capital social”) care este un
indicator al structurii financiare.
După ce am dat o interpretare acestor trei componente principale,
putem să obţinem o clasificare a firmelor, utilizând proiecţiile în planul
axelor principale. Ne folosim de scorurile acestor firme şi de graficul din
figura 1. Conform semnificaţiei „componentei principale 1” se observă
faptul că scorul este cu atât mai bun cu cât este mai mic (căci corelaţia cu
indicatorul I3 este inversă). Pe de altă parte, în funcţie de „componenta
principală 2” (care este corelată pozitiv cu rata de creştere a activului), un
scor pozitiv pe această componentă este bun. Prin urmare, clasificăm cele 12

91
firme în planul indicatorilor sintetici de „rentabilitate” şi „dinamică a
activului” astfel:
Clasa 1. Conţine firmele F2, F3, F4, F7 şi F9 ce au scoruri bune pe
ambele componente;
Clasa 2. Conţine firmele F8 şi F12 ce au scoruri bune la indicatorul
de rentabilitate dar au o dinamică proastă a activului;
Clasa 3. Conţine firmele F1 şi F6 ce au un scor mai slab la
indicatorul de rentabilitate dar au o dinamică a activului bună;
Clasa 4. Conţine firmele F5, F10 şi F11 care au scoruri slabe la
ambii indicatori sinteză, atât la rentabilitate cât şi la dinamica activului.
Evident, analiza poate fi completată luând în calcul şi „componenta
principală 3”, care este o componentă a structurii financiare, însă
interpretarea grafică se îngreunează.
Să aplicăm acum, pentru aceeaşi matrice de date (a indicatorilor
financiar-contabili) tehnici de clasificare bazate pe algoritmi ierarhici (vezi
Capitolul 3, §3.3). Folosind aceste tehnici putem să exemplificăm atât
gruparea firmelor cât şi gruparea indicatorilor.
A) Gruparea firmelor în clase cât mai omogene, luând în considerare
toţi cei 7 indicatori. Vom folosi un algoritm ierarhic de agregare.
Mai întâi trebuie calculată matricea de proximitate (de
dimensiune 12×12, simetrică). Ea este prezentată în tabelul
următor:
0.00 3.24 4.63 3.08 2.06 1.54 3.93 3.63 4.87 1.41 2.64 5.17
3.24 0.00 1.47 0.34 5.05 1.91 0.72 0.73 1.73 2.88 1.19 2.07
4.63 1.47 0.00 1.62 6.47 3.35 0.83 1.40 0.32 4.30 2.44 1.17
3.08 0.34 1.62 0.00 4.92 1.84 0.96 1.06 1.86 2.85 1.34 2.33
2.06 5.05 6.47 4.92 0.00 3.17 5.73 5.36 6.72 2.41 4.29 6.88
1.54 1.91 3.35 1.84 3.17 0.00 2.58 2.20 3.61 1.04 1.22 3.76
3.93 0.72 0.83 0.96 5.73 2.58 0.00 0.66 1.12 3.51 1.68 1.40
3.63 0.73 1.40 1.06 5.36 2.20 0.66 0.00 1.70 3.05 1.14 1.63
4.87 1.73 0.32 1.86 6.72 3.61 1.12 1.70 0.00 4.57 2.74 1.22
1.41 2.88 4.30 2.85 2.41 1.04 3.51 3.05 4.57 0.00 1.99 4.56
2.64 1.19 2.44 1.34 4.29 1.22 1.68 1.14 2.74 1.99 0.00 2.72
5.17 2.07 1.17 2.33 6.88 3.76 1.40 1.63 1.22 4.56 2.72 0.00
Fiecare element al matricei de proximitate reprezintă distanţa
euclidiană între firmele corespunzătoare, distanţă calculată în funcţie de toţi

92
cei 7 indicatori observaţi. (Folosim distanţa euclidiană ca măsură a
disimilarităţii.)

Dendrograma
- distante euclidiene -
2.5 2.5

2 2

1.5 1.5
Single linkage

1 1

0.5 0.5

0 0
5 10 6 12 11 9 3 3 7 4 2 1

Figura 2. Dendrograma (metoda vecinilor celor mai apropiaţi)

În continuare, pentru constituirea claselor, vom folosi o metodă de


agregare considerând cele trei tehnici descrise în §3.3. Prezentăm sintetizat
în tabelul de mai jos etapele de grupare a firmelor pentru cele trei metode de
agregare Single linkage (vecinii cei mai apropiaţi), Complete linkage
(vecinii cei mai îndepărtaţi) şi Average linkage (înlănţuirea prin medii).
Nivelul de Single linkage. Complete linkage. Average linkage.
agregare Clase Clase Clase
< 0.5 C1=(9,3); C1=(9,3); C2=(4,2) C1=(9,3); C2=(4,2)
C2=(4,2)
0.5 – 1 C3=(8,7); C3=(8,7); C3=(8,7);
C4=(C2,C3); C4=(C2,C3); C4=(C2,C3);
C5=(C1,C4); C5=(10,6) C5=(10,6)
C6=(10,6);
1 – 1.5 C7=(C5,11); C6=(12,C1); C6=(12,C1);
C8=(12,C7); C7=(1,C5); C7=(11,C4):
C9=(C6,C8); C8=(1,C5);.
C10=(1,C9);.
1.5 – 2 – C8=(11,C4); –
2–4 C11=(5,C10); C9=(C7,C8); C9=(C6,C7);
C10=(5,C6); C10=(C8,5);
>4 – C11=(C9,C10); C11=(C10,C9);

93
Dendograma
-distante euclidiene-
7 7

6 6

5 5
Complete linkage

4 4

3 3

2 2

1 1

0 0
12 9 3 11 8 7 4 2 5 10 6 1

Figura 3. Dendrograma (metoda vecinilor celor mai îndepărtaţi)

Pentru completarea analizei grupării firmelor, în figurile 2, 3 şi 4


sunt prezentate dendrogramele pentru cele trei tehnici de agregare. Câteva
concluzii sunt evidente: în dendrograma din figura 2 nu distingem grupe,
firmele par a fi destul de omogene (cu excepţia uneia); în schimb în
dendrogramele din figurile 3 şi 4 apar clase distincte. Mai precis, în figura 3
dendrograma prezintă două grupe dezechilibrate ca număr de firme, în timp
ce în dendrograma din figura 4 se disting trei grupe destul de echilibrate.
Pentru exemplificarea agregării firmelor prezentăm în tabelul
următor etapele de constituire a claselor. Se observă modul de formare a
unui grup precum şi nivelul de agregare corespunzător (pentru algoritmul
Single linkage.)
Nivelul
agregării 1 2 3 4 5 6 7 8 9
0.321 C_3 C_9
0.340 C_2 C_4
0.661 C_7 C_8
0.719 C_2 C_4 C_7 C_8
0.831 C_2 C_4 C_7 C_8 C_3 C_9
1.041 C_6 C_10
1.143 C_2 C_4 C_7 C_8 C_3 C_9 C_11
1.170 C_2 C_4 C_7 C_8 C_3 C_9 C_11 C_12
1.217 C_2 C_4 C_7 C_8 C_3 C_9 C_11 C_12 C_6
1.412 C_1 C_2 C_4 C_7 C_8 C_3 C_9 C_11 C_12
2.057 C_1 C_2 C_4 C_7 C_8 C_3 C_9 C_11 C_12

94
Evident, un utilizator poate folosi orice algoritm de agregare: cel al
vecinilor celor mai apropiaţi, cel al vecinilor celor mai îndepărtaţi sau un
algoritm de agregare prin medii. Pentru a decide care este indicat a se folosi
analizăm tabelul de mai sus şi dendrogramele din figurile 2 – 4. Se observă
faptul că algoritmul Complete linkage se aseamănă mai mult cu algoritmul
Average linkage; fixând, de exemplu, nivelul de agregare în intervalul
(2; 3.5), avem deja constituite două clase: prima formată din firmele {12, 9,
3, 11, 8, 7, 4, 2} iar a doua formată din firmele {5, 10, 6, 1}; diferă doar
nivelul agregării finale al acestora. După cum am mai spus, algoritmul
vecinilor celor mai apropiaţi nu este indicat în acest caz.

Dendograma
-distantele euclidiene-
5 5

4 4
Average linkage

3 3

2 2

1 1

0 0
12 9 3 11 8 7 4 2 5 10 6 1

Figura 4. Dendrograma (înlănţuirea pe baza mediilor)

Este interesant de văzut dacă clasele obţinute prin aceste tehnici


bazate pe distanţa euclidiană, pornind de la matricea iniţială de date, ne
conduc sau nu la aceleaşi clasificări ca şi cele obţinute în planul compo-
nentelor principale.
Să ne reamintim clasele de firme formate în planul primelor două
axe factoriale: clasa 1 conţinea firmele F2, F3, F4, F7 şi F9, clasa 2 conţinea
firmele F8 şi F12, clasa 3 conţinea firmele F1 şi F6 şi clasa 4 conţinea
firmele F5, F10 şi F11. Există şi firme ale căror poziţionare în clase se
păstrează, dar în general clasificarea realizată conform analizei compo-
nentelor principale este mult mai elocventă şi explicativă!

95
B) Gruparea celor 7 indicatori financiar-contabili în clase cât mai
omogene se realizează prin tehnici de clasificare ierarhică,
pornind tot de la matricea de date iniţială. Mai întâi calculăm
matricea distanţelor euclidiene între coloanele matricei şi
obţinem următoarea matrice simetrică a disimilarităţilor (matrice
de ordinul 7 × 7):

0.0 1.2 1.2 12.0 0.6 25.4 0.6


1.2 0.0 1.6 12.3 1.3 25.3 1.1
1.2 1.6 0.0 12.9 0.9 26.5 1.4
12.0 12.3 12.9 0.0 12.1 17.3 11.7
0.6 1.3 0.9 12.1 0.0 25.7 0.7
25.4 25.3 26.5 17.3 25.7 0.0 25.1
0.6 1.1 1.4 11.7 0.7 25.1 0.0

Pentru agregarea în clase putem folosi de asemenea algoritmul vecinilor


celor mai apropiaţi (Single linkage), algoritmul vecinilor celor mai îndepărtaţi
(Complete linkage) şi algoritmul înlănţuirii prin medii (Average linkage).
Dendrogramele rezultate sunt prezentate în figurile 5 – 7.

Dendrograma
- distantele euclidiene-
18 18
17 17
16 16
15 15
14 14
13 13
12 12
11 11
Single linkage

10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
I6 I4 I2 I3 I5 I7 I1

Figura 5. Dendrograma (metoda vecinilor celor mai apropiaţi)

96
Dendrograma
- distante euclidiene -
28 28
27 27
26 26
25 25
24 24
23 23
22 22
21 21
20 20
19 19
18 18
Complete linkage

17 17
16 16
15 15
14 14
13 13
12 12
11 11
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
I6 I4 I3 I2 I5 I7 I1

Figura 6. Dendrograma (metoda vecinilor celor mai îndepărtaţi)

Dendrograma
- distante euclidiene -
25 25
24 24
23 23
22 22
21 21
20 20
19 19
18 18
17 17
16 16
Average linkage

15 15
14 14
13 13
12 12
11 11
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
I6 I4 I2 I3 I5 I7 I1

Figura 7. Dendrograma (înlănţuirea pe baza mediilor)

97
Pentru a trage câteva concluzii privind omogeneitatea celor 7
indicatori financiar-contabili putem urmări etapele de constituire a claselor.
Acestea vor fi exemplificate folosind algoritmul agregării vecinilor celor
mai apropiaţi (Single Linkage). Matricea de mai jos conţine etapele de
agregare (în număr de 6), nivelele de agregare şi constituirea claselor.
Nivelul Etape
agregării 1 2 3 4 5 6 7
0.621 I1 I7
0.633 I1 I7 I5
0.942 I1 I7 I5 I3
1.136 I1 I7 I5 I3 I2
11.662 I1 I7 I5 I3 I2 I4
17.328 I1 I7 I5 I3 I2 I4 I6
Cei mai apropiaţi, la un nivel de agregare minim, sunt indicatorul I1
şi indicatorul I7, adică „Total datorii/capital social” şi „Rata de creştere a
activului”. Aceştia se agregă la nivelul 0.621. În etapa următoare, la un nivel
de agregare destul de apropiat de primul, adică 0.633, li se asociază
indicatorul I5, mai precis indicatorul „Datorii/total activ”. La o distanţă
(nivel de agregare) ceva mai mare de clasa deja formată se asociază
indicatorul I3, adică „Profit brut/total activ” (nivelul de agregare 0.942).
Nici indicatorul I2 (adică „Cifră de afaceri/total activ”) nu este departe de
primii grupaţi! El se va agrega la nivelul 1.136. Un salt calitativ, evidenţiat
clar cantitativ, se obţine prin ataşarea în etapa 5 a indicatorului I4, adică
„Capital social/cifră de afaceri”, de grupa deja formată. Acesta este agregat
Plot of Linkage Distances across Steps
Euclidean distances
20

15
Linkage Distance

10

-5 Linkage
0 1 2 3 4 5 6 7 Distance
Step

Figura 8. Nivele de agregare a indicatorilor

98
la un nivel de 11.662, şi putem să afirmăm că este, sub acest aspect, diferit
de primii. În final se asociază, la un nivel de asemenea destul de ridicat,
ultimul indicator negrupat încă, şi anume I6 („log(Activ)”). În figura 8 se
pot urmări, grafic, nivelele de agregare, regăsind pe etape explicaţiile date
anterior.
Folosind algoritmul de clasificare putem spune că indicatorii
financiar-contabili urmăriţi prin nivelele lor pentru cele 12 firme se pot
grupa în trei clase:
A) clasa formată din indicatorii I1, I7, I5, I3 şi I2 (a se vedea
interpretarea lor!),
B) clasa formată din indicatorul I4 („Capital social/cifră de
afaceri”),
C) clasa formată din indicatorul I6 („log(Activ)”).
Este interesant de comparat clasele de indicatori obţinute pe baza
metricii euclidiene cu gruparea indicatorilor după coeficienţii lor de
corelaţie liniară calculaţi în etapa de analiză a componentelor principale!

Indicator I1 I2 I3 I4 I5 I6 I7
I1 C1
Corelaţie
I2 C1
puternică
Corelaţie
I3 C1
puternică
I4 C2
Corelaţie
I5 C1
puternică
Corelaţie
I6 C3
puternică
I7 C1
Pentru comparaţie putem urmări tabelul anterior ce ne informează
atât despre corelaţiile puternice între indicatorii financiar-contabili, corelaţii
exprimate prin coeficienţii de corelaţie „mari”, cât şi despre clasa la care
aparţine un indicator (informaţiile de pe diagonala principală), clasă obţinută
prin tehnica agregării.
În acest paragraf am prezentat o propunere de analiză pentru
informaţii conţinute într-o matrice de forma indivizi × caracteristici
(caracteristicile fiind variabile continue). Evident, analiza se poate aplica pe
orice matrice atunci când avem ca scop reducerea numărului de coloane sau
linii şi explicarea formării claselor de indivizi sau variabile.

99
5.2 Modele de „credit scoring” – analiza discriminantă utilizată
pentru diagnoza financiară

1. Formularea problemei. Să presupunem că avem o populaţie


formată din firme omogene ca activitate, fie aceasta P. Populaţia este
împărţită în două subpopulaţii disjuncte, P1 şi P2, după valorile unei
variabile nominale Booleene y. Modalităţile variabilei y, pentru o firmă
oarecare i din populaţia P, pot fi codificate prin 1 şi 0, mai precis:
⎧ 1 (sau F) pentru firma i în stare de faliment
yi = ⎨
⎩ 0 (sau B) altfel

Să presupunem că pentru firmele din populaţia studiată se pot


măsura un număr p de indicatori financiar-contabili cât mai independenţi
posibil. Fiecare dintre aceştia influenţează probabilitatea de faliment a
firmei fie monoton crescător, fie monoton descrescător, dar evident ei
acţionează simultan.
Vom nota cu x = ( x1 , x 2 ,..., x p ) vectorul valorilor celor p indicatori,
în particular cu x1 = ( x11 , x12 ,..., x1p ) respectiv x 2 = ( x12 , x 22 ,..., x 2p ) vectorii
corespunzători celor două subpopulaţii P1 şi P2.
Facem următoarele ipoteze:
a) Vectorul x1 = ( x11 , x12 ,..., x1p ) este normal repartizat cu media μ1 şi
matricea de varianţă-covarianţă Σ1 ;
b) Vectorul x1 = ( x11 , x12 ,..., x1p ) este normal repartizat cu media μ 2
şi matricea de varianţă-covarianţă Σ 2 ;
Prin urmare, populaţia P este caracterizată de ansamblul
(μ1 , μ 2 , Σ1 , Σ 2 ) .

2. Scopul analizei este acela de a găsi un „indicator sinteză”, fie


acesta z , şi un nivel z c al acestui indicator, astfel încât pentru o firmă i
oarecare pebtru care z i este valoarea indicatorului sinteză să putem decide
– dacă z i ≤ z c atunci firma aparţine populaţiei P1
– dacă z i > z c atunci firma aparţine populaţiei P2.

Valoarea z c se numeşte nivel (scor) de tăiere sau „cutting score”.

100
De regulă, indicatorul sinteză se consideră a fi o combinaţie liniară
de valorile celor p indicatori financiar-contabili, adică
z = α1 x1 + α 2 x 2 + ... + α p x p . (1)

Pentru o firmă i, pentru care valorile celor p indicatori sunt


( xi1 , xi 2 ,..., xip ) , valoarea z i = α1 xi1 + α 2 xi 2 + ... + α p xip se numeşte scorul
firmei în raport cu indicatorul sinteză z iar decizia de încadrare într-o
categorie sau alta se face utilizând scorul de tăiere z c .
În literatura de specialitate se obişnuieşte a se numi expresia (1)
„model de scoring” deoarece pe baza sa se obţin scoruri ale firmelor şi apoi
o clasificare a acestora.

3. Scurt istoric al problemei obţinerii „modelelor de scoring”


Primele studii realizate şi publicate au fost cele ale lui E.I. Altman.
Într-un prim studiu, datând din 1966, Altman prezintă modele de scoring
rezultate în urma studierii unui eşantion de 66 firme asupra cărora s-au
urmărit 22 de indicatori financiar-contabili în evoluţia lor pe două decade
(1946-1965). În intervalul de timp analizat unele dintre firme au dat
faliment, altele însă au evoluat pozitiv din punct de vedere financiar.
Indicatorul sinteză la care ajunge Altman este o combinaţie liniară de 5
fond de rulment profit brut
indicatori de bază, dintre care enumerăm trei: , ,
total activ total activ
cifra de afaceri
.
total activ
Altman repetă ulterior studiul, luând în analiză 106 firme şi 27 de
indicatori urmăriţi pe perioada 1962-1975. Obţine un nou indicator sinteză,
combinaţie liniară de 7 indicatori iniţiali, după care clasifică firmele.
Alte studii au fost realizate în Franţa în anul 1973 de către
Vernimmen, Schlosser, Margaine şi Altman. În Belgia au fost publicate
rezultatele obţinute de către Ooghe şi Van Wymeersch (1983). Toate
modele de scoring realizate în perioada anilor `80 dar şi ulterior sunt
implementate în sistemele informatice ale marilor bănci, fiind folosite în
departamentele de management a riscului pentru ordonarea şi clasificarea
solicitanţilor de credite. Evident, modele de scoring au fost realizate atât
pentru persoane juridice cât şi pentru persoane fizice.
Numeroasele rezultate obţinute nu pot fi generalizate de la un grup
de firme la altul. În general, direcţiile de cercetare în acest domeniu se
îndreaptă spre construirea de modele de scoring cât mai specifice

101
domeniului de activitate al firmelor. De asemenea, funcţiile z de scoring se
pot obţine şi pentru următoarele situaţii:
– funcţie de scor în cazul „un an înainte de faliment”;
– funcţie de scor în cazul „doi ani înainte de faliment”;
– funcţie de scor în cazul „trei ani înainte de faliment”.

4. Construcţia unui model de scoring


Tehnica cea mai indicată pentru rezolvarea problemei de „credit
scoring” este cea oferită de analiza discriminării factoriale (vezi Capitolul 4,
§4.2.2) pentru cazul particular în care variabila răspuns este nominală cu
două modalităţi. Indicatorul-sinteză este exprimat prin funcţia de
discriminare
z = u1 x1 + u 2 x 2 + ... + u p x p (2)

în care u = (u1 , u 2 ,..., u p ) este versorul axei de discriminare.


Pentru aflarea axei de discriminare, a componentei principale
asociate, precum şi a bonităţii discriminării se aplică etapele prezentate în
§4.2.2.
Analiza prin tehnicile de discriminare factorială – în cazul particular
a două clase – are ca scop aflarea unei noi axe (de discriminare), care să aibă
proprietatea că proiecţiile punctelor (aici coordonatele firmelor) din spaţiul
variabilelor (indicatorilor) pe ea să formeze tot două clase, iar separarea
dintre ele să fie maximă (adică zona de incertitudine să fie minimă).
Reamintim că se folosieşte descompunerea matricei varianţei-
covarianţei totale V în cele două componente naturale ale sale, şi anume
varianţa-covarianţa W din interiorul claselor şi varianţa-covarianţa B dintre
clase. Etapele parcurse pentru aflarea axei de discriminare, a componentelor
factoriale şi a bonităţii separării în clase sunt următoarele.
1). Aflarea unui versor u = (u1 , u 2 ,..., u p ) , ce dă prima (şi unica) axă
de discriminare. În ideea minimizării varianţei-covarianţei W proiectată pe
această axă, adică a mărimii u T Wu , avem de rezolvat următoarea problemă
de optimizare cu restricţie egalitate
u T Bu
max
u u T Vu
u =1

102
ceea ce revine la aflarea vectorilor proprii (corespunzători valorilor proprii)
ai matricei V −1 B . Astfel, primul vector propriu u * asociat valorii proprii λ*
(cea mai mare din spectrul matricei V −1 B ) este prima axă de discriminare.
(u * )T Bu *
Cum raportul * T *
este tocmai λ* (prima valoare proprie),
(u ) Vu
aceasta va exprima, procentual, gradul de discriminare al primei axe.
Pentru cazul unei variabile de discriminare cu doar două modalităţi,
problema se simplifică. În acest caz avem o singura axă de discriminare u * ,
ea este calculată simplu u * = V −1 (m 2 − m1 ) unde (m1 , m 2 ) este vectorul
centrelor de greutate pentru cele două clase iniţiale ale populaţiei.

2) Aflarea componentelor de discriminare (adică a vectorului


scorurilor pe axa de discriminare) se realizează după aflarea axei de
discriminare. Astfel, dacă u * = (u1* , u 2* ,..., u *p ) este versorul axei de
discriminare, atunci componenta de discriminare (unică) este C 1 = Xu * .

3) În cazul unei variabile de discriminare cu doar două modalităţi,


pentru analiza ratei succesului tehnicii de discriminare se foloseşte tabelul
următor

Grupul Număr de indivizi în Grupul după reclasificare


iniţial grupul iniţial 1 2
1 n1 n11 n12
2 n2 n21 n22

Observaţie: Cu cât elementele de pe diagonala principală sunt mai


mari, cu atât rata succesului discriminării este mai mare. Se foloseşte
n + n22
raportul p S = 11 ce exprimă proporţia elementelor diagonale, iar
n1 + n2
orice valoare a sa peste 50% este considerată ca validând succesul tehnicii.
(Comparativ cu situaţia în care am dispune de o procedură aleatoare, de
repartizare uniformă în cele două clase, pentru care raportul p S are evident
valoarea 50%.)

103
5. Aplicaţie – exemplu

Să presupunem că dorim să găsim un model de scoring atunci când


dispunem de un eşantion de 12 firme asupra cărora s-au înregistrat 2
datorii totale active circulante
indicatori, şi anume I1 = şi I 2 = .
capitaluri proprii datorii pe termen scurt
Datele privind nivelul acestor indicatori financiar-contabili precum
şi starea fiecărei firme sunt prezentate în tabelul următor (am notat cu F o
firmă în stare de faliment şi cu B o firmă în stare bună)

Firma datorii totale active circulante Starea


I1 = I2 =
capitaluri proprii datorii pe termen scurt firmei
1 0.6 0.2 F
2 1 0.4 F
3 0.9 0.7 F
4 0.65 0.65 F
5 1.1 1.1 F
6 0.6 1.1 F
7 0.9 1.5 F
8 0.3 0.55 B
9 0.4 0.7 B
10 0.68 0.95 B
11 0.4 1.05 B
12 0.25 1.25 B
13 0.57 1.47 B
14 0.45 1.68 B
Să presupunem că cei doi indicatori financiar-contabili urmează, atât
pentru populaţia de firme în stare bună, cât şi pentru populaţia de firme în
stare proastă, repartiţii normale (vezi graficele din figura 9 şi figura 10).
Să analizăm mai întâi indicatorul I1 (vezi figura 9). Pentru firmele
„în stare bună” indicatorii de centrare (media, mediana, …) au valori mici,
în timp ce pentru firmele „în stare proastă” aceiaşi indicatori de centrare au
valori mari. Evident, va exista un nivel al acestui indicator I1, fie acesta α,
care are proprietatea că ori de câte ori indicatorul ia valori mai mici decât α
este foarte probabil ca firma să fie din clasa „în stare bună” şi ori de câte ori
indicatorul ia o valoare mai mare decât α este foarte probabil ca firma să fie
în clasa „în stare proastă”. Există şi o zonă de incertitudine, vecinătate a
nivelului α, ce are proprietatea că dacă indicatorul I1 ia valori în acea zonă
nu putem decide asupra stării firmei (ea poate fi sau proastă, sau bună).

104
stare proastă
stare bună

α
Figura 9. Repartiţiile valorilor indicatorului I1

Aceeaşi analiză se poate face şi pentru indicatorul I2 (vezi figura


10), cu o singură deosebire: de data aceasta, pentru firmele „în stare bună”
valorile indicatorilor de centrare sunt mari în timp ce pentru firmele „în stare
proastă” indicatorii de centrare au valori mici. Nivelul de separare apare şi
în acest caz (l-am notat cu β) aşa cum apare şi zona de incertitudine într-o
vecinătate a nivelului β, pentru care nu putem decide starea firmei.

stare proastă

stare bună

β
Figura 10. Repartiţiile valorilor indicatorului I2

105
Figura 11. Firmele în planul indicatorilor

Am descris o posibilă analiză uni-dimensională luând pe rând câte


un indicator financiar-contabil şi comportamentul firmelor în raport cu
valoarea acestuia. Această analiză nu este însă suficient de relevantă.
Tehnicile de analiză a discriminării ne permit să analizăm indicatorii în
ansamblul lor, surprinzând şi acţiunea lor comună. O primă analiză a celor
doi indicatori în ansamblul lor se poate face urmărind figura 11, în care
firmele sunt prezentate în planul indicatorilor financiar-contabili I1 şi I2. În
această figură firmele în stare bună (marcate cu codul B) sunt delimitate
destul clar de cele în stare proastă (marcate cu codul F), apărând două clase
cu intersecţia nevidă (intersecţie pe care o putem asimila cu o zonă de
incertitudine a clasificării unei firme). Pentru o analiză completă urmărim
rezultatele următoare:
1) Mediile pe întregul eşantion sunt grupate în vectorul
m = (0.6285, 0.950) iar mediile pentru cele două clase sunt
conţinute în vectorii m B = (0.4357, 1.092) respectiv
m F = (0.8214, 0.8071) .
2) Abaterile standard sunt s = (0.263, 0.437) pentru întregul eşan-
tion şi s B = (0.149, 0.404) pentru clasa de firme „în stare bună”
respectiv s F = (0.203, 0.451) pentru cele „în stare proastă”.

106
3) Matricea de varianţă-covarianţă pentru interiorul claselor este
⎛ 0.0273 0.0168 ⎞
W = ⎜⎜ ⎟⎟ iar matricea de varianţă-covarianţă
⎝ 0.0168 0.1575 ⎠
⎛ 0.0645 − 0.0107 ⎞
pentru ansamblul firmelor este V = ⎜⎜ ⎟⎟ .
⎝ − 0.0107 0.1779 ⎠
4) Matricele de corelaţie pentru interiorul claselor şi total sunt
⎛ 1 0.256 ⎞ ⎛ 1 − 0.100 ⎞
⎜⎜ ⎟⎟ respectiv ⎜⎜ ⎟.
⎝ 0.256 1 ⎠ ⎝ − 0.100 1 ⎟⎠
5) Analiza indicatorului financiar-contabil cel mai discriminat se
face folosind tabelul următor, ce conţine valori ale statisticii F şi
Lambda a lui Wilks

Wilks' Partial F-remove


Indicatorul Lambda Lambda (1,11) p-level
I1 0.885 0.399 16.519 0.0018
I2 0.423 0.835 2.1671 0.1690
Aşadar, indicatorul cel mai discriminat este I1, lui corespunzân-
du-i o valoare mai mare pentru statistica F (care este raportul
dintre împrăştierea dintre clase şi împrăştierea din interiorul
claselor).
6) Funcţia de discriminare standardizată este
z = −0.997 ⋅ I1 + 0.522 ⋅ I 2 .
Cum centrele de greutate ale celor două clase de firme sunt
proiectate pe axa de discriminare în punctele 1.25 respectiv –
1.25 (prima valoare reprezintă centroidul firmelor „în stare bună”
iar cea de-a doua valoare reprezintă centroidul firmelor „în stare
proastă”) putem considera scorul de tăiere z c = 0 .
7) Scorurile firmelor obţinute pe baza funcţiei de discriminare (de
la punctul 6) sunt (prezentate în ordine crescătoare) următoarele:
Firma Clasa iniţială/ clasa Scor pentru funcţia z
repartizată găsită
2 Faliment/Faliment -2.7442
5 Faliment/Faliment -2.4499

107
3 Faliment/Faliment -1.8203
7 Faliment/Faliment -0.8458
1 Faliment/Faliment -0.7540
4 Faliment/Faliment -0.4851
10 Bună/faliment -0.2872
6 Faliment/bună 0.3422
13 Bună/bună 0.9605
9 Bună/bună 0.9719
8 Bună/bună 1.3476
11 Bună/bună 1.3982
14 Bună/bună 1.8864
12 Bună/bună 2.4795
8) Matricea succesului discriminării este
Rata succesului Corect p=.50000 p=.50000
Clasa1 1/clasa 1 85.714 6 1
Clasa 2/clasa 2 85.714 1 6
Total 85.714 7 7
adică rata succesului discriminării este de 85.71% (= (6 + 6) / 14) .

9) Interpretarea axei de discriminare se face utilizând următorul


tabel al coeficienţilor de corelaţie
Indicatorul Coeficientul de corelaţie cu axa
I1 -0.863
I2 0.266
Observăm că coeficientul de corelaţie între indicatorul I1 şi axa
de discriminare este –0.863, iar coeficientul de corelaţie între
indicatorul I2 şi axă este 0.266. Prin urmare, cel mai discriminant
datorii totale
este indicatorul I1 = , care dă şi o interpretare
capitaluri proprii
unicei axe de discriminare.

108
5.3 Analize pe tabele de contingenţă. Analiza corespondenţelor
în marketing

Tabelele de contingenţă descrise în §1.4 se pot crea ori de câte ori


populaţia studiată este împărţită în subpopulaţii prin variabile categoriale
nominale. Informaţii de acest gen provin de obicei din chestionare.
De regulă, se grupează câte două variabile categoriale şi se obţin aşa-
numitele tabele cu dublă intrare, ce conţin frecvenţele absolute pe nivele.
Fie de exemplu două variabile categoriale X1 şi X2, prima având r
modalităţi iar cea de-a doua având c modalităţi. Să notam cu N matricea ce
conţine frecvenţele absolute pentru modalităţile cele două variabile, adică

Modalităţi Total pe
1 2 … j … c
X1\X2 linii
1 n 11 n 12 … n1 j … n 1c n1•

2 n 21 n 22 … n2 j … n 2c n2 •

… … … … … … … …
i n i1 n i2 … n ij … n ic ni •

… … … … … … … …
r n r1 n r2 … n rj … n rc nr •
Total n •1 n •2 n• j … n •c n
coloane
Evident, elementul n ij din tabelul anterior exprimă numărul de
indivizi (din totalul celor n) pentru care variabila X1 are modalitatea i şi
variabila X2 are modalitatea j. Aşa cum am precizat în §1.4, matricea este
bordată cu o coloană a totalurilor pe linii şi cu o linie a totalurilor pe
coloane.
În aplicaţii se obişnuieşte a se asocia matricei N două alte matrice
(tabele) şi anume:
a) matricea frecvenţelor condiţionate relativ la linii, numită şi
matricea profil-linie;
b) matricea frecvenţelor condiţionate relativ la coloane, numită şi
matricea profil-coloană.
Vom prezenta în cele ce urmează modul de construire a celor două
matrice şi proprietăţile lor.

109
Matricea profil-linie se obţine din matricea iniţială N împărţind
fiecare element al acesteia prin totalul liniei corespunzătoare, adică
n ij
elementul de pe linia i şi coloana j va fi în matricea profil-linie . Noua
ni •
matrice astfel obţinută o vom nota L.
Dacă vom considera toate liniile matricei profil-linie L, ele vor forma
în spaţiul R c al modalităţilor variabilei X2 un nor alcătuit din r puncte.
Centrul de greutate al acestui nor de puncte se calculează folosind
1
matricea de ponderi D1 . Matricea D1 este o matrice diagonală (de
n
dimensiune r × r) a totalurilor pe linii:
⎛ n1• 0 0 .. 0 ⎞
⎜ ⎟
⎜ 0 n2• 0 .. 0 ⎟
D1 = ⎜ 0 0 n3• ... 0.⎟ .
⎜ ⎟
⎜ .. .. ... ... ⎟
⎜ 0
⎝ 0 0 ... nr • ⎟⎠

Fie m l = ( m1 , m 2 ,..., m j ,..., mc ) vectorul centrului de greutate.


Componenta sa m j se obţine ca o sumă ponderată a elementelor coloanei j
din matricea profil-linie, adică din vectorul coloană
T
⎛ n1 j n 2 j nij n rj ⎞
⎜ , ,..., ,..., ⎟ ponderile fiind conţinute în vectorul coloană
⎜n n ⎟
⎝ 1• 2• n i • n r • ⎠
T
⎛ n1• n2• n n ⎞
⎜ , ,..., i• ,..., r • ⎟ .
⎝ n n n n ⎠
Prin urmare, componenta m j a centrului de greutate a matricei
r


nkj nk • n• j
profil-linie va fi m j = = iar centrul de greutate va avea
nk • n n
k =1
coordonatele:

T
⎛n n• j n ⎞
m = ⎜⎜ •1 ,...,
l
,..., •c ⎟⎟ .
⎝ n n n ⎠

110
Matricea profil-coloană se obţine din matricea iniţială N împărţind
fiecare element al acesteia prin totalul corespunzător pe coloană, adică
n
ij
elementul de pe linia i şi coloana j va fi în matricea profil-coloană .
n• j
Vom nota cu C noua matrice formată.
Dacă vom considera toate coloanele matricei profil-coloană C, ele
vor forma, în spaţiul R r al modalităţilor variabilei X1, un nor alcătuit din c
puncte.
Centrul de greutate al acestui nor de puncte se calculează folosind
1
acum matricea de ponderi D2 unde matricea D2 este matricea diagonală a
n
totalurilor pe coloane
⎛ n•1 0 0 .. 0 ⎞
⎜ ⎟
⎜ 0 n•2 0 .. 0 ⎟
D2 = ⎜ 0 0 n•3 ... .⎟ .
0
⎜ ⎟
⎜ .. .. ... ... ⎟
⎜ 0
⎝ 0 0 ... n•c ⎟⎠

Fie m c = (m1 , m2 ,..., mi ,..., mr ) T vectorul centrului de greutate al


acestui nor de puncte. Componenta sa mi se obţine ca o sumă ponderată a
elementelor liniei i din matricea profil-coloană, adică din vectorul coloană
T T
⎛ ni1 ni 2 nij n ⎞ ⎛ n•1 n•2 n• j n •c ⎞
⎜ , ,..., ,..., ic ⎟ şi ponderile ⎜ , ,..., ,..., ⎟ .
⎜ n•1 n•2 n•c ⎟⎠ ⎜ n n ⎟
⎝ n• j ⎝ n n ⎠
c

∑n
nik n•k ni•
Prin urmare, mi = = iar centrul de greutate al
k =1 •k n n
matricei profil-coloană va avea coordonatele:
T
⎛n n n ⎞
m = ⎜ 1• ,..., i• ,..., r • ⎟ .
c
⎝ n n n ⎠

111
Observaţii: Cum condiţia de independenţă a celor două variabile
nij ni• n• j
categoriale X1 şi X2 înseamnă = pentru orice i şi j, vom obţine
n n n
următoarele egalităţi:
nij n• j
a) = pentru orice i = {1,2,..., r} şi j = {1,2,..., c}
ni • n
şi
nij
pentru orice i = {1,2,..., r} şi j = {1,2,..., c}.
ni•
b) =
n• j n

Condiţia a) înseamnă că, în cazul în care variabilele categoriale sunt


independente statistic, toate punctele norului de puncte ale matricei profil-
T
⎛n n• j n ⎞
linie vor coincide cu centrul lor de greutate m = ⎜⎜ •1 ,..., ,..., •c ⎟⎟ .
l

⎝ n n n ⎠

Analog, condiţia b) înseamnă că, în cazul în care variabilele


categoriale sunt independente statistic, toate punctele norului de puncte ale
matricei profil-coloană vor coincide cu centrul lor de greutate
T
⎛n n n ⎞
m = ⎜ 1• ,..., i• ,..., r • ⎟ .
c
⎝ n n n ⎠
Atunci când variabilele nu sunt independente statistic este important să
evaluăm cât de aproape sau de departe sunt punctele de centrul lor de
greutate.
Să revenim la matricea profil-linie în care considerăm două linii i şi i’
T
⎛ ni1 ni 2 nij nic ⎞
ale căror elemente sunt ⎜ ⎟ şi respectiv
⎜ n , n ,..., n ,..., n ⎟
⎝ i• i• i• i• ⎠
T
⎛ ni '1 ni '2 ni ' j n ⎞
⎜ , ,..., ,..., i 'c ⎟ .
⎜n ⎟
⎝ i '• ni '• ni '• ni '• ⎠

Între aceste linii – privite ca puncte în spaţiul R c – calculăm distanţa


„ponderată” dată de metrica χ2 şi anume
c 2
n ⎛ nij ni ' j ⎞
d χ22 (i, i ' ) = ∑ j =1
⎜ −
n• j ⎜⎝ ni• ni '•
⎟ .

112
În consecinţă, putem calcula distanţa de la o linie i a matricei profil-
T
⎛n n• j n ⎞
linie la centrul de greutate m = ⎜⎜ •1 ,...,l
,..., •c ⎟⎟ prin formula:
⎝ n n n ⎠
c 2
n ⎛ nij n• j ⎞
d χ22 (i, m l ) = ∑
j =1

n• j ⎜⎝ ni•
− ⎟ .
n ⎟⎠

care dă o măsură χ2 a depărtării punctului i de centrul norului.


Putem să calculăm distanţa (ponderată) de la toate punctele (linii) ale
matricei profil-linie la centrul lor de greutate m l obţinând ceea ce se
numeşte inerţia norului de puncte
r r c 2
ni• n ⎛ nij n• j ⎞
∑ ∑∑
ni • 2
d 2 (i, m l ) = ⎜ − ⎟
n χ n n• j ⎜⎝ ni• n ⎟⎠
i =1 i =1 j =1

Un simplu calcul ne va conduce la următoarea expresie a inerţiei


norului de puncte (abatere faţa de centrul de greutate)
r c
(nij − ni• n• j / n) 2
∑∑
1 2
ϕ = (3)
n ni• n• j / n
i =1 j =1

(recunoaştem în expresia de mai sus şi valoarea statisticii χ2).


Analog, putem să introducem o măsură de tip χ2 între coloanele
matricei profil-coloană şi apoi să calculăm distanţa ponderată a punctelor
T
⎛n n n ⎞
din nor la centrul lor de greutate m = ⎜ 1• ,..., i• ,..., r • ⎟ ; obţinem
c
⎝ n n n ⎠
aceeaşi expresie (3).

Observaţii: 1) Norul de puncte asociat matricei profil-linie formează


un subspaţiu W1 în spaţiul R c ;

2) vectorul 0m l (din spaţiul R c ) este un vector ortogonal – în sensul


metricii χ2 – pe subspaţiul W1.
Analiza corespondenţelor este analiza componentelor principale
aplicată celor două matrice profil-linie şi profil-coloană asociate matricei de
contingenţă. Principiile aflării axelor principale şi ale componentelor

113
principale fiind cele prezentate în §3.1, practic avem de rezolvat următoarele
două sisteme de ecuaţii algebrice duale şi anume:
LC T a = λa şi C T Lb = λb (4)
Propoziţia 1. Ambele sisteme (4) au soluţia λ 0 = 1 (valoare proprie
a matricei LC T şi C T L ). Mai mult, în caz că r ≤ c spectrul matricei LC T
se regăseşte în spectrul matricei C T L , iar în caz că r > c spectrul matricei
C T L se regăseşte în spectrul matricei LC T .
În analiza factorilor şi componentelor principale valoarea proprie
λ 0 = 1 se elimină, aşa cum se elimină şi vectorul propriu corespunzător,
reţinându-se restul de r–1 factori a respectiv c–1 factori b.
Propoziţia 2. Cu notaţiile de mai sus, între vectorii proprii a şi
vectorii proprii b există următoarele legături:
r c

λ ∑n ∑n
1 nij 1 nij
bj = ai şi ai = bj .
i =1 •j λ j =1 i•

În tabelul următor prezentăm sintetic descrierea factorilor principali şi


a componentelor principale ca vectori proprii ai matricelor LC T şi C T L .
ACP pentru matricea ACP pentru matricea
profil-linie profil-coloană
Factorii Vectorii proprii ai matricei Vectorii proprii ai matricei
principali CTL LC T
Componen- Vectorii proprii a ai matricei Vectorii proprii b ai matricei
tele principale LC T , normalizaţi prin C T L , normalizaţi prin
1 T 1 T
a D1a = λ b D2 b = λ
n n
În cazul analizei corespondenţelor nu are sens să calculăm corelaţiile
dintre componentele principale şi coloanele respectiv liniile din matricele
profil corespunzătoare. Interpretarea componentelor principale se face prin
evaluarea aşa-numitei contribuţii a liniei respectiv a coloanei la inerţia
totală a norului de puncte.
Inerţia recuperată de o axă (fie că această axă este a sau b) poate fi
evaluată astfel
r c

∑ ∑n
1 2 1 2
J= ni • ( a i ) = • j (b j ) ,
n n
i =1 j =1

114
prin urmare vom defini contribuţia liniei i din matricea profil-linie la inerţia
norului (pe o axă a) prin formula:
ni •
(ai ) 2
CTR (i ) = n
J
n
şi vom avea în atenţie acele linii i pentru care CTR(i) > i• .
n
Analog, vom defini contribuţia coloanei j din matricea profil-coloană
la inerţia norului (pe o axă b) prin
n• j
(b j ) 2
CTR ( j ) = n
J
n• j
şi vom avea în atenţie acele coloane pentru care CTR ( j ) > .
n
Aplicaţie - exemplu. Într-un sondaj de opinie lansat de o fabrică de
bere în scopul obţinerii datelor necesare elaborării strategiei de extindere şi
diversificare a producţiei, una dintre temele urmărite a fost dependenţa de
categoria de venit a mărcii de bere consumate. A fost chestionat un eşantion
reprezentativ format din 1355 de consumatori, iar datele obţinute sunt
prezentate în tabelul de contingenţă următor. Evident, pe linii apar mărcile
de bere indicate, iar pe coloane 6 categorii de venit (ordonate de la „venit
foarte mic” până la „venit foarte mare”)
C.Venit V1 V2 V3 V4 V5 V6 Total
Azu 12 24 30 14 8 6 94
Buc 8 14 23 22 11 16 94
Bra 11 22 23 11 12 13 92
Cis 18 30 11 6 10 5 90
Fav 9 15 14 8 8 6 60
Gam 8 14 12 17 12 5 68
Mam 11 20 18 22 15 13 99
Ori 1 7 14 16 11 17 76
Rah 12 30 47 27 14 12 152
Sil 17 23 25 26 15 17 123
Urs 10 20 16 26 4 4 80
Bws 3 11 5 6 1 3 29
Dab 5 2 8 11 18 23 46
Dre 10 21 13 8 7 3 62
Efe 13 23 8 11 9 3 67
Hpk 6 12 5 8 8 2 41

115
C.Venit V1 V2 V3 V4 V5 V6 Total
Tub 15 14 18 20 9 6 82
Total 169 302 290 259 182 153 1355
Să parcurgem câteva etape de analiză plecând de la acest tabel de
contingenţă.
1) Matricea profil-linie L este prezentată în tabelul următor (în care
pe ultima linie apare vectorul-centroid al „norului de puncte”)
C.Venit V1 V2 V3 V4 V5 V6
Azu 0.128 0.255 0.319 0.149 0.085 0.064
Buc 0.085 0.149 0.245 0.234 0.117 0.170
Bra 0.120 0.239 0.250 0.120 0.130 0.141
Cis 0.200 0.333 0.122 0.067 0.111 0.056
Fav 0.150 0.250 0.233 0.133 0.133 0.100
Gam 0.118 0.206 0.176 0.250 0.176 0.074
Mam 0.111 0.202 0.182 0.222 0.152 0.131
Ori 0.013 0.092 0.184 0.211 0.145 0.224
Rah 0.079 0.197 0.309 0.178 0.092 0.079
Sil 0.138 0.187 0.203 0.211 0.122 0.138
Urs 0.125 0.250 0.200 0.325 0.050 0.050
Bws 0.103 0.379 0.172 0.207 0.034 0.103
Dab 0.109 0.043 0.174 0.239 0.391 0.500
Dre 0.161 0.339 0.210 0.129 0.113 0.048
Efe 0.194 0.343 0.119 0.164 0.134 0.045
Hpk 0.146 0.293 0.122 0.195 0.195 0.049
Tub 0.183 0.171 0.220 0.244 0.110 0.073
ml 0.125 0.223 0.214 0.191 0.134 0.113
Pentru fiecare linie (marcă de bere) se identifică acea categorie de
venit ai cărei consumatori consumă cel mai mult marca respectivă.
2) Matricea profil-coloană C este prezentată – transpus – în tabelul
următor (împreună cu vectorul-centroid al „norului de puncte”):
C.Ven Azu Buc Bra Cis Fav Gam Mam Ori Rah Sil Urs Bws Dab Dre Efe Hpk Tub
V1 0.07 0.05 0.07 0.11 0.05 0.05 0.07 0.01 0.07 0.10 0.06 0.02 0.03 0.06 0.08 0.04 0.09
V2 0.08 0.05 0.07 0.10 0.05 0.05 0.07 0.02 0.10 0.08 0.07 0.04 0.01 0.07 0.08 0.04 0.05
V3 0.10 0.08 0.08 0.04 0.05 0.04 0.06 0.05 0.16 0.09 0.06 0.02 0.03 0.04 0.03 0.02 0.06
V4 0.05 0.08 0.04 0.02 0.03 0.07 0.08 0.06 0.10 0.10 0.10 0.02 0.04 0.03 0.04 0.03 0.08
V5 0.04 0.06 0.07 0.05 0.04 0.07 0.08 0.06 0.08 0.08 0.02 0.01 0.10 0.04 0.05 0.04 0.05
V6 0.04 0.10 0.08 0.03 0.04 0.03 0.08 0.11 0.08 0.11 0.03 0.02 0.15 0.02 0.02 0.01 0.04
mc 0.07 0.07 0.07 0.07 0.04 0.05 0.07 0.06 0.11 0.09 0.06 0.02 0.03 0.05 0.05 0.03 0.06

116
Pentru fiecare linie (ce reprezintă aici categoria de venit) se
identifică acea marcă/acele mărci de bere consumate „maximal” de către
categoria respectivă.
3) Evaluarea acoperirii inerţiei totale a „norului de puncte” prin
axele factoriale, evaluare ce utilizează valorile proprii ale
matricei L ⋅ C T (sau ale matricei C T ⋅ L ) este următoarea:
Nr. Val. proprie % inerţie % cumulat
1 0.1013 62.5% 62.5%
2 0.0323 19.9% 82.4%
3 0.0178 11.0% 93.4%
4 0.0043 2.7% 96.1%
5 0.0064 3.9% 100.0%
Se observă că primele două axe factoriale acoperă peste 82% din
inerţia norului de puncte, ceea ce se consideră a fi relevant pentru analiză.
4) Continuăm aşadar cu 2 axe factoriale. Pentru fiecare dintre
acestea putem folosi formula
r c

∑ ∑n
1 2 1 2
J= ni • ( a i ) = • j (b j )
n n
i =1 j =1
pentru a-i evalua inerţia. Apoi, contribuţia fiecărei coloane j la
această inerţie se obţine din formula
1 n• j
CTR ( j ) = ⋅ (b j ) 2
J n
iar contribuţia fiecărei linii i la inerţia asociată axei este dată de:
1 n
CTR(i) = ⋅ i• (ai ) 2 .
J n
Concret, rezultatele obţinute din analiza coloanelor sunt următoarele:
Inerţia: 0.1358 0.1711
C.Venit Axa1 Axa2
V1 0.084 0.158
V2 0.279 0.087
V3 0.011 0.371
V4 0.003 0.195
V5 0.103 0.170
V6 0.520 0.020

117
Prin urmare, contribuţia maximă la prima axă factorială aparţine
categoriei de venit V6 (foarte ridicat), iar la a doua axă factorială aparţine
categoriei de venit V3 (mic spre mediu).
Analog, rezultatele obţinute din analiza liniilor sunt următoarele:
inerţia 0.0409 0.0575
Marca Axa1 Axa2
Azu 0.037 0.045
Buc 0.029 0.060
Bra 0.000 0.003
Cis 0.076 0.257
Fav 0.005 0.008
Gam 0.000 0.000
Mam 0.005 0.000
Ori 0.127 0.028
Rah 0.008 0.196
Sil 0.003 0.001
Urs 0.032 0.086
Bws 0.015 0.000
Dab 0.539 0.112
Dre 0.052 0.026
Efe 0.055 0.120
Hpk 0.009 0.050
Tub 0.007 0.009
Prin urmare, contribuţia maximă la prima axă factorială aparţine
mărcii Dab, iar la a doua axă factorială aparţine mărcii Cis.
5) Încheiem analiza cu reprezentarea grafică a ambelor seturi de
modalităţi în planul celor 2 axe factoriale. (Fiecare modalitate,
fie că este o categorie de venit, fie ca este o marcă de bere, va fi
reprezentată prin cel două componente principale ale sale.)
Graficul este prezentat în figura 12.
Se observă că prima axă factorială exprimă opoziţia dintre veniturile
mici şi cele mari. De asemenea, este destul de clară asocierea dintre marca
Dab şi categoria de venit V6.
Să presupunem că iniţiatorul acestei anchete este, de exemplu, marca
Tub. Constată că se află în zona de indiferenţă, dar constată şi poziţia
concurenţilor săi. Este vizibil că ecartul său faţă de categoria V6 este mai
mare decât cel faţă de categoria V4. În consecinţă, politica sa de
diversificare ar trebui să se adreseze acestui segment de consumatori.

118
V3

V4

R ah
U rs
B uc
Azu
O ri
Tub
S il
M a mG a m Bws
B ra
Fav
V6 D re

V2
Hp k
Ef e
D ab
V5 C is V1

Figura 12. Reprezentarea simultană în planul factorial

Ca un alt exerciţiu de aplicare a analizei corespondenţelor se pot


folosi datele din tabelul următor 1 . Datele sunt prelevate dintr-un eşantion de
10000 de studenţi la diferite facultăţi (Fac) şi provenind din categorii socio-
profesionale ale părinţilor (CSP) după cum urmează: fermier (Ferm),
muncitor agricol (MAgr), patron (Patr), profesie liberală (PLib), cadre medii
(CMed), salariat (Salr), muncitor (Munc), personal de serviciu (Serv), alte
profesii (Alte).
CSP\Fac Drept Econo- Litere Ştiinţe Medi- Farma- Fac. Alte Total
mice cină cie tehn. fac.
Ferm 80 36 134 99 65 28 58 11 511
MAgr 6 2 15 6 4 1 4 1 39
Patr 168 74 312 137 208 53 62 21 1035
PLib 470 191 806 400 876 164 79 45 3031
CMed 236 99 493 264 281 56 87 36 1552
Salr 145 52 281 133 135 30 54 20 850
Munc 166 64 401 193 127 23 129 28 1131
Serv 16 6 27 11 8 2 8 2 80
Alte 305 115 624 247 301 47 90 42 1771
Total 1592 639 3093 1490 1005 404 571 206 10000

1
G. Saporta, Probabilités, Analyse des Données et Statistique, Ed. Technip, Paris 1990

119
Se va încerca a da răspuns următoarelor întrebări:
1) Ce studii urmează copiii având părinţi dintr-o categorie socio-
profesională?
2) Ce origine socio-profesională au studenţii de la diverse facultăţi?
3) Alegerea unei facultăţi depinde sau nu de categoria socio-
profesională a părinţilor şi, dacă da, cum anume?

120
Anexa 1. Matrice de date
A1.1 Date privind autoturismele

Tabelul 1 conţine datele a 7 caracteristici măsurate asupra a 26 de mărci de autoturisme. Putem folosi
următoarele notaţii:
P Preţul (exprimat în $);
K Capacitatea cilindrică (cmc);
V Viteza maximă (km/h);
C Consumul de carburant (exprimat în litri/100 km);
H Capacitatea habitaclului;
L Lungimea (exprimată în cm);
R Raportul greutate/putere.
Tabelul 1
Cap. Viteza Cap. Lun-
Cod Model Preţ Consum Gr./P
cil. maximă hab. gime
1.A Austin Metro Special 12000 998 140 6.2 955 340 23.2
2.C CitroenAX 10RE 13275 954 145 5.6 1170 350 19.4
3.D DaihatsuCharadeTS 14625 993 145 6.7 1151 361 20.8
4.Fl FiatUno45Fire 13475 999 145 6.2 968 364 21.5
5.F2 FiatUnoTurboTE 25005 1301 200 8.9 968 364 11.0
6.F3 FiatUno70SL 17845 1302 165 7.7 968 364 16.0
7.F4 FordFiestaJunior 13050 1117 137 7.0 900 364 22.7
8.FS FordFiestaXR-2 21743 1597 180 9.3 973 364 12.0
121
Tabelul 1 (cont.)
Cap. Viteza Cap. Lun-
Cod Model Preţ Consum Gr./P
cil. maximă hab. gime
9.N Nissan Micra 1.0 DX 12400 988 140 6.4 375 364 17.0
10.O Opel Corsa Swing 13050 993 143 7.2 845 362 22.4
11.P1 Peugeot20SXE 13260 954 134 6.8 1200 370 23.8
12.P2 Peugeot20SGL 15780 1124 142 5.8 1200 370 21.4
13.P3 Peugeot20SGT 18965 1360 170 9.2 1200 370 13.9
14.P4 Peugeot20SGTI 25175 1580 190 8.7 1200 370 11.2
15.Ri Renault4TL 12981 956 115 6.3 950 367 33.1
16.R2 RenauIt4GTL 13806 1108 120 6.3 950 367 28.4
17.R3 Renault5SL 14156 1108 143 5.8 915 359 20.6
18.R4 Renault5GTS 17250 1397 167 7.9 915 359 13.8
19.RS Renault5GTTurbo 25319 1397 200 8.7 915 359 10.2
20.SI SEATIbizaGLX 19283 1461 175 8.8 1200 364 14.7
21.S2 SEATMarbellaGL 10970 903 131 7.3 1088 347 23.4
22.S3 SuzukiSwiftGA 12115 993 145 6.4 400 358 18.4
23.54 SuzukiSwiftGL 14655 1324 163 6.5 400 358 14.0
24.Ti ToyotaStarlettL 14000 999 150 6.1 202 370 19.5
25.T2 ToyotaStarlettXL 16850 1295 170 6.8 202 370 15.0
26.V Volkswagen Polo 18045 1272 170 8.0 1040 365 14.0

122
A1.2 Date (indicatori financiar-contabili) privind firmele

S-a încetăţenit ideea că analistul finanţist trebuie să calculeze, în scopul emiterii unui diagnostic al firmei,
diverse rate (sau rapoarte) între două poziţii ale bilanţului contabil şi/sau ale contului de rezultat. Teoretic, dar şi
practic, există posibilitatea de a calcula un număr mare de asemenea rate (indicatori). Iată câteva exemple:
A) Indicatori ai structurii financiare. Se calculează făcând raportul între orice două secţiuni ale pasivului
sau/şi activului. Ca exemple avem:
capitaluri proprii
1) , care exprimă gradul de îndatorare în termen (recomandat a fi mai mare ca 1);
datorii pe termen lung si mediu
capitaluri proprii
2) , care exprimă solvabilitatea şi independenţa financiară;
capitaluri permanente
capitaluri proprii
3) , care exprimă securitatea financiară;
datorii pe termen scurt
capitaluri proprii
4) , care exprimă gradul în care activele sunt finanţate numai din capitaluri proprii;
active fixe
total activ
5) , care exprimă gradul în care creditorii firmei sunt garantaţi prin valoarea bunurilor şi a crean-
pasiv exigibil
ţelor existente. Raportul trebuie să fie sensibil supraunitar;
capitaluri proprii
6) , care exprimă independenţa faţă de bănci. Raportul este, în mod obişnuit, subunitar.
pasiv exigibil
123
B) Indicatori ai lichidităţii şi ai trezoreriei sunt şi ei indicatori ai structurii financiare, care exprimă
potenţialul firmei pentru plata datoriilor pe termen scurt. Exemple:
activ circulant
1) Rata lichidităţii generale (rata curentă) este raportul RC = ;
datorii pe termen scurt
activ circulant - stocuri
2) Rata lichidităţii reduse este raportul ;
datorii pe termen scurt
trezoreria activa
3) Rata lichidităţii imediate este raportul .
datorii pe termen scurt

C) Indicatori de rentabilitate, care se calculează folosind şi elemente din contul de rezultat. Exemple:
profit net
1) Rata rentabilităţii financiare (ROE = Return on Equity ), calculată ca raport , care exprimă
capitaluri proprii
cât profit net revine la o unitate investită. Este importantă mai ales din punctul de vedere al unui investitor;
profit net
2) Rentabilitatea economică (ROI = Return on Investment), care se calculează prin raportul şi
total pasiv
profit brut
exprimă rentabilitatea investiţiilor. Analog ROA = ;
total activ

124
profitul net
3) Rata rentabilităţii producţiei = .
cifra de afaceri
Evident, lista de indicatori financiari calculaţi ca rate poate continua şi în funcţie de poziţia în care ne
situăm în raport cu firma respectivă, anume ca investitor, resp. creditor, acţionar etc.
Prezentăm în tabelul de mai jos câţiva indicatori din categoriile celor descrişi anterior, calculaţi pentru un
lot de 12 firme. Aceştia sunt:
I1: Total datorii/capital social;
I2: Cifră de afaceri/total activ;
I3: Profit brut/total activ;
I4: Capital social/cifră de afaceri;
I5: Datorii/total activ;
I6: log(Activ);
I7: Rata de creştere a activului.

125
Tabelul 2
Firma I1 I2 I3 I4 I5 I6 I7
1 0,414 0,032 0,000 5,59 0,677 7,03 0,62
2 0,231 0,324 0,034 2,45 0,165 7,45 0,40
3 0,432 0,684 0,054 1,05 0,204 7,32 0,40
4 0,156 0,326 0,020 2,59 0,129 7,16 0,47
5 0,227 0,124 -0,080 7,49 0,149 7,54 0,43
6 0,295 0,176 0,026 4,33 0,199 7,72 0,45
7 0,261 0,470 0,023 1,77 0,147 7,62 0,46
8 0,446 0,343 0,020 2,17 0,240 8,08 0,38
9 0,352 0,831 0,036 0,82 0,243 7,18 0,37
10 0,267 0,141 0,003 5,20 0,258 8,27 0,31
11 0,703 0,185 0,002 3,27 0,268 8,15 0,42
12 0,206 0,969 0,029 0,72 0,26 8,38 0,36

126
A1.3 Date privind calitatea vieţii

Prezentăm în tabelul 3 informaţii privind calitatea vieţii pentru 23 de ţări (după L’Etat du Monde, Edition
1992, Annuaire économique et geopolitique mondial).
Criteriile importante pentru exprimarea calităţii vieţii sunt:
SN: sporul natural al populaţiei (în %);
MI: mortalitatea infantilă (în ‰);
UR: gradul de urbanizare (în %);:
NM: numărul de medici la mia de locuitori;
TV: numărul de receptoare de televiziune la mia de locuitori;
RI: rata inflaţiei (în %);
CE: cheltuieli pentru educaţie (în % din P.I.B.);
CA: cheltuieli pentru apărare (în % din P.I.B.);
IM: import anual pe locuitor (în mii $);
EX: export anual pe locuitor (în mii $);
EE: consum de energie pe locuitor (în mii kWh).
Tabelul 3
Ţara SN MI UR NM TV RI CE CA IM EX EE
Africa 2.2 67.0 59 0.7 98 14. 2.6 3.8 0.48 0.6 3.1
Australia 1.4 7.5 86 2.2 484 6.9 5.5 2.8 2.47 2.3 6.7
Brazilia 2.1 6.0 75 0.9 194 165 4.5 0.4 0.15 0.2 0.7
Bulgaria 0.1 15.0 68 3.8 185 19. 6.9 4.7 1.44 1.4 5.7
Canada 0.9 7.0 77 2.2 586 5.0 7.1 1.8 0.47 0.4 1.0
127
Tabelul 3 (cont.)
Ţara SN MI UR NM TV RI CE CA IM EX EE
China 1.4 29.5 33 0.9 24 2.0 2.4 1.7 0.05 0.0 0.7
Franţa 0.4 7.5 74 2.6 399 3.4 6.4 2.9 4.18 3.8 3.7
Germania - 8.5 85 3.0 378 1.7 4.5 3.4 3.53 4.1 3.8
India 2.1 93.5 27 0.4 7 1.2 3.3 3.0 0.03 0.0 0.3
Indonezia 1.9 70.0 30 0.1 41 8.5 1.0 1.4 0.11 0.1 0.3
Iran 2.7 46.0 57 0.3 53 20 3.4 6.0 0.35 0.4 1.2
Italia 0.0 10.0 69 4.2 419 6.8 5.0 1.8 3.19 2.9 3.6
Japonia 0.4 5.0 77 1.6 589 3.8 4.9 1.0 1.92 2.3 3.9
MareaBritan 0.2 8.5 89 1.4 435 9.3 5.0 3.7 3.91 3.2 4.9
Mexic 2.2 39.0 72 1.0 124 30 2.1 0.3 0.37 0.3 1.6
Nigeria 3.3 100. 35 0.1 6 15 1.5 0.9 0.07 0.1 0.2
Pakistan 3.4 103. 32 0.5 13 13. 3.1 7.1 0.06 0.0 0.2
Polonia 0.6 17.5 62 2.1 263 226 3.6 1.7 0.21 0.3 4.7
Romania 0.5 20.0 53 2.1 159 40 2.1 1.8 0.35 0.2 4.7
Spania 0.3 9.5 78 3.7 380 6.5 3.2 1.7 2.25 1.4 2.3
S.U.A. 0.8 9.0 75 2.3 812 6.1 6.8 5.3 2.07 1.5 9.9
Turcia 2.1 69.0 61 0.8 172 60 1.8 2.8 0.36 0.2 0.9
Ungaria - 18.5 61 3.4 404 33. 5.4 2.0 0.79 0.8 3.6

128
A1.4 Repartiţia bugetului
Datele din tabelul 4 reprezintă observaţii anuale (exprimate în %) privind repartiţia cheltuielilor statului
francez în 24 ani din perioada 1872-1971 (vezi [1]). În tabelul de date se consideră următoarele cheltuieli: cele
publice (PVP), cele pentru agricultură (AGR), pentru comerţ (CMI), pentru transport (TRA), pentru amenajări de
teritoriu (LOC), pentru educaţie şi cultură (EDU), pentru acţiuni sociale (ACS), pentru veterani de război (ACO),
pentru apărare (DEF), apoi datoriile (DET) şi alte cheltuieli (DIV).
Tabelul 4
Anul PVP AGR CMI TRA LOC EDU ACS ACO DEF DET DIV
1872 18,0 0,5 0,16 6,7 0,52 2,12 2,0 26,4 41,52 2,1
1880 14,1 0,8 0,1 15,3 1,9 3,7 0,5 29,8 31,3 2,5
1890 13,6 0,7 0,7 6,8 0,6 7,1 0,7 33,8 34,4 1,7
1900 14,3 1,7 1,7 6,9 1,2 7,4 0,8 37,7 26,2 2,2
1903 10,3 1,5 0,4 9,3 0,6 8,5 0,9 38,4 27,2 3,0
1906 13,4 1,4 0,5 8,1 0,7 8,6 1,8 38,5 25,3 1,9
1909 13,5 1,1 0,5 9,0 0,6 9,0 3,4 36,8 23,5 2,6
1912 12,9 1,4 0,3 9,4 0,6 9,3 4,3 41,1 19,4 1,3
1920 12,3 0,3 0,1 11,9 2,4 3,7 1,7 1,9 42,4 23,1 4,2
1923 7,6 1,2 3,2 5,1 0,6 5,6 1,8 10,0 29,0 35,0 0,9

129
Tabelul 4 (cont.)
Anul PVP AGR CMI TRA LOC EDU ACS ACO DEF DET DIV
1926 10,5 0,3 0,4 4,5 1,8 6,6 2,1 10,1 10,9 41,6 2,3
1929 10,0 0,6 0,6 9,0 1,0 8,1 3,2 11,8 28,0 25,8 2,0
1932 10,6 0,8 0,3 8,9 8,0 10,0 6,4 13,4 27,4 19,2 0
1935 8,8 2,6 1,4 7,8 1,4 12,4 6,2 11,3 29,3 18,5 0,4
1938 10,1 1,1 1,2 5,9 1,4 9,5 6,0 5,9 40,7 18,2 0
1947 15,6 1,6 10,0 11,4 7,6 8,8 4,8 3,4 32,2 4,6 0
1950 11,2 1,3 16,5 12,4 15,8 8,1 4,9 3,4 20,7 4,2 1,5
1953 12,9 1,5 7,0 7,9 12,1 8,1 5,3 3,9 36,1 5,2 0
1956 10,9 5,3 9,7 7,6 9,6 9,4 8,5 4,6 28,2 2,2 0
1959 13,1 4,4 7,3 5,7 9,8 12,5 8,0 5,0 26,7 7,5 0
1962 12,8 4,7 7,5 6,6 6,8 15,7 9,7 5,3 24,4 6,4 0,1
1965 12,4 4,3 8,4 9,1 6,0 19,5 10,6 4,7 19,8 3,5 1,8
1968 11,4 6,0 9,5 5,9 5,0 21,1 10,7 4,2 20,0 4,4 1,9
1971 12,8 2,8 7,1 8,5 4,0 23,8 11,3 3,7 18,8 7,2 0

130
A1.5 Date privind evoluţia unor active pe piaţa de capital

Vom prezenta informaţii privind evoluţia tranzacţiilor pe piaţa de capital a unui număr de 13 companii din
domeniul TIC, companii listate pe S&P 500. Aceste companii sunt:
Compania din domeniul TIC Simbolul Compania din domeniul TIC Simbolul
Apple Computer, Inc AAPL Lexmark International Group, In LXK
Compaq Computer Corp CPQ Ncr Corp New NCR
Dell Computer Corp DELL Network Appliance Inc NTAP
EMC Corp EMC Palm Inc PALM
Gateway Inc GTW Sun Microsystems Inc SUNW
Hewlett-Packard HWP Unisys Corp UIS
International Business Machines IBM

În tabelul 5 apar informaţii despre cele 13 companii în perioada 2000 - 2001 referitoare la:
– numele companiei;
– preţul la deschidere (exprimat ca valoare medie în anul respectiv);
– preţul maxim (exprimat ca valoare medie în anul respectiv);
– preţul minim (exprimat ca valoare medie în anul respectiv);
– preţul la închidere (exprimat ca valoare medie în anul respectiv);
– câştigul mediu în %;
– volumul tranzacţiilor (exprimat ca valoare medie în anul respectiv).

131
Tabelul 5
Compania Preţul la Preţul Preţul Preţul la Câştigul mediu Volumul mediu al
deschidere maxim minim închidere (in %) pe 2000 tranzacţiilor pe 2000
AAPL 45.55 46.96 44.12 45.41 -0.45 81016.35
CPQ 26.97 27.64 26.35 27.00 0.14 145060.8
DELL 35.79 36.66 34.74 35.67 -0.28 314750.6
EMC 87.37 89.57 85.02 87.42 0.14 97886.05
GTW 50.17 51.34 48.69 49.99 -0.40 22757.61
HWP 91.90 93.84 89.71 91.63 -0.32 54574.59
IBM 109.14 111.16 107.32 109.20 0.06 68456.00
LXK 52.06 53.66 50.56 52.12 0.29 14818.66
NCR 41.08 41.80 40.42 41.20 0.31 4482.66
NTAP 93.47 97.74 89.16 93.38 0.06 75983.93
PALM 45.47 47.60 43.55 45.61 0.50 113695.4
SUNW 94.36 97.03 91.73 94.32 -0.16 250215.0
UIS 14.93 15.31 14.49 14.90 -0.06 34421.74

132
Tabelul 5 (cont.)
Compania Preţul la Preţul Preţul Preţul la Câştigul mediu Volumul mediu al
deschidere maxim minim închidere (in %) pe 2001 tranzacţiilor pe 2001
AAPL 20.87 21.60 20.24 20.95 0.48 86409.16
CPQ 19.38 19.94 18.84 19.34 -0.14 120773.6
DELL 24.52 25.55 23.73 24.64 0.69 375272.2
EMC 48.23 49.98 46.17 48.04 -0.30 203199.5
GTW 18.22 18.90 17.59 18.21 0.04 28149.84
HWP 31.06 31.94 30.24 31.07 0.07 79269.67
IBM 104.81 106.95 103.04 105.03 0.24 97103.06
LXK 53.66 55.22 52.36 53.96 0.61 14693.45
NCR 44.72 45.56 43.95 44.84 0.29 6510.46
NTAP 33.22 35.18 31.15 33.10 -0.15 127149.3
PALM 16.58 17.25 15.54 16.24 -1.88 160814.0
SUNW 22.10 22.95 21.13 22.02 -0.30 504142.1
UIS 14.82 15.20 14.39 14.84 0.19 21309.76

133
A1.6 Date pentru analiza riscului returnării unui credit

Fişierul de date conţine informaţii financiare şi demografice privind clienţii unor bănci.
Informaţiile se referă la:
1) Vârsta clientului în ani (age);
2) Nivelul educaţiei (ed) cu următoarele modalităţi
1 Fără liceu 4 Licenţiat
2 Doar cu liceu 5 Postuniversitare
3 Facultate neterminată
3) Ani vechime ca salariat (employ)
4) De câţi ani este la locuinţa curentă (address)
5) Venitul familiei, în mii euro (income)
6) Datorii raportate la venit [x100] (debtinc)
7) Datoria pe cartea de credit, în mii euro (creddebt)
8) Alte datorii, în mii euro (othdebt)
9) Dacă a avut probleme de rambursare înainte (default)
0 Nu 1 Da
În tabelul 6 este prezentată situaţia unui număr de 28 de clienţi. Aceştia reprezintă o selecţie din
informaţiile asupra 850 de clienţi.

134
Tabelul 6
age ed employ address income debtinc creddebt othdebt default
41 3 17 12 176 9.30 11.36 5.01 1
27 1 10 6 31 17.30 1.36 4.00 0
40 1 15 14 55 5.50 0.86 2.17 0
41 1 15 14 120 2.90 2.66 0.82 0
24 2 2 0 28 17.30 1.79 3.06 1
41 2 5 5 25 10.20 0.39 2.16 0
39 1 20 9 67 30.60 3.83 16.67 0
43 1 12 11 38 3.60 0.13 1.24 0
24 1 3 4 19 24.40 1.36 3.28 1
36 1 0 13 25 19.70 2.78 2.15 0
27 1 0 1 16 1.70 0.18 0.09 0
25 1 4 0 23 5.20 0.25 0.94 0
52 1 24 14 64 10.00 3.93 2.47 0
37 1 6 9 29 16.30 1.72 3.01 0
48 1 22 15 100 9.10 3.70 5.40 0
36 2 9 6 49 8.60 0.82 3.40 1

135
age ed employ address income debtinc creddebt othdebt default
36 2 13 6 41 16.40 2.92 3.81 1
43 1 23 19 72 7.60 1.18 4.29 0
39 1 6 9 61 5.70 0.56 2.91 0
41 3 0 21 26 1.70 0.10 0.34 0
39 1 22 3 52 3.20 1.15 0.51 0
47 1 17 21 43 5.60 0.59 1.82 0
28 1 3 6 26 10.00 0.43 2.17 0
29 1 8 6 27 9.80 0.40 2.24 0
21 2 1 2 16 18.00 0.24 2.64 1
25 4 0 2 32 17.60 2.14 3.49 0
45 2 9 26 69 6.70 0.71 3.92 0
43 1 25 21 64 16.70 0.95 9.74 0

136
Anexa 2. Date dintr-un chestionar

Un chestionar este un grupaj de întrebări cu răspunsuri fixate sau


libere, gândit de un specialist în scopul realizării unor obiective impuse de o
activitate de cercetare. Prezentăm în cele ce urmează un chestionar posibil
pentru aflarea stării actuale privind dotarea populaţiei cu aparate audio-
video, a mărcile de televizoare mai cunoscute dar şi a celor preferate.

Chestionarul TELE
1. Ce aparate audio-video aveţi în prezent în casă?
– radio Da Nu
– televizor Da Nu
– video Da Nu

2. Care consideraţi a fi criteriul hotărâtor în achiziţionarea unui aparat


audio-video?
– preţul 1
– performanţele tehnice 2
– designul 3
– nu ştiu 4
– altele, care 5 ………………..

3. În alegerea unei anumite mărci de aparat audio-video, în ce măsură vă


influenţează reclama? – Mă influenţează:
foarte mult mult potrivit puţin deloc
1 2 3 4 5

4. După opinia dvs., cum ar trebui să fie publicitatea pentru aparate audio-
video? (ATENTIE! Indicaţi ordinea de preferinţă, acordând nota 1 pentru
tipul de reclamă preferat, nota 2 pentru tipul următor …, până la 6)
– informativă …
– cu simţul umorului …
– originală …
– credibilă …
– şocantă …
– obsedantă …

137
5. Pentru care dintre următoarele mărci de aparate TV aţi văzut, aţi auzit
sau aţi citit reclame în ultimul timp? Acordaţi fiecăreia o notă de la 1 la 5
în funcţie de gradul de publicitate corespunzător (1 foarte mare, 2 mare
etc.)
Nota
– Cromatic 1 …
– Goldstar 2 …
– Olt 3 …
– Panasonic 4 …
– Philips 5 …
– Samsung 6 …
– Sanyo 7 …
6. Pentru anul acesta vă propuneţi să achiziţionaţi un aparat audio-video
Tipul Marca
– Da 1 … …
– Nu 2
– Nu ştiu 3

7. Indicaţi numărul membrilor din familia dvs. ………

8. Indicaţi categoria socio-profesională a capului de familie


– fermier 1
– salariat agricol 2
– patron 3
– liber profesionist 4
– funcţionar 5
– muncitor 6
– alte categorii 7

9. Care este venitul dvs. mediu lunar pe membru de familie? …………….

10. Indicaţi categoria de vârstă în care vă încadraţi


– 16-20 ani 1
– 21-30 ani 2
– 31-40 ani 3
– 41-50 ani 4
– peste 50 ani 5

138
Anexa 3. Incursiune în domeniile matematicii
şi statisticii
A3.1 Concepte de bază ale calculului matriceal

O matrice A este un tablou de numere cu n linii şi p coloane – pe


scurt A(n × p ) , de forma:
⎛ a11 a12 ... a1 j ... a1 p ⎞
⎜ ⎟
⎜ a 21 a 22 ... a2 j ... a2 p ⎟
⎜ ... ... ... ... ... ... ⎟
A=⎜ ⎟
⎜ a i1 ai 2 ... a ij ... a ip ⎟
⎜ ... ... ... ... ... ... ⎟⎟

⎜ a n1 a n2 ... a np ... a np ⎟⎠

care se mai poate scrie A = aij ( )i=1,2,...,n; j =1,2,..., p sau doar ( )
A = aij în caz că
dimensiunile n × p sunt subînţelese.

Cazuri particulare de matrice şi noţiuni speciale:

– dacă n = p = 1, atunci matricea se reduce la un scalar, notat de exemplu a;


– dacă p = 1 avem de-a face cu un vector coloană, notat a;
– dacă n = 1 avem de-a face cu un vector linie, notat a T ;
– dacă n = p avem o matrice pătratică;
– dacă într-o matrice pătratică avem aij = 0 pentru i ≠ j , atunci matricea
este diagonală şi o notăm diag (aii ) ;
– despre o matrice diagonală de forma diag (1,...,1) spunem că este matricea
unitate, notată cu I;
– dacă o matrice pătratică are determinantul diferit de zero, atunci putem
vorbi de inversa ei ca fiind acea matrice A −1 cu proprietatea că
A ⋅ A −1 = A −1 ⋅ A = I

139
– dacă într-o matrice pătratică aij = a ji pentru orice i ≠ j , spunem că
matricea este simetrică.

Reamintim câteva operaţii cu matrice:


1) Transpunerea matricei A are ca rezultat o nouă matrice, notată AT , cu p
linii şi n coloane:
( ) j =1,2,..., p; i=1,2,...,n .
A T = a ji

(Transpunerea unui vector linie are ca rezultat un vector coloană şi


reciproc.)
2) Opusa matricei A este matricea − A = − a ij . ( )
3) Suma a două matrice A şi B (amândouă având acelaşi număr n de linii şi
acelaşi număr p de coloane) înseamnă o nouă matrice
(
A + B = aij + bij . )
4) Diferenţa a două matrice A şi B este o nouă matrice
(
A − B = aij − bij . )
(Evident, A − B = A + ( − B ) .)
5) Produsul unei matrice cu un scalar c este o nouă matrice
(
cA = c ⋅ a ij . )
6) Produsul a două matrice A(n × p ) şi B( p × m) este o matrice
⎛ p ⎞

A⋅ B = ⎜
⎜ ∑ ⎟
a ij b jk ⎟

.
⎝ j =1 ⎠ i =1,...,n;k =1,...,m
(Atenţie, produsul A ⋅ B are dimensiunea n × m .)
Reamintim că vectorii coloană x1 , x 2 ,..., x s sunt numiţi liniar
independenţi dacă o combinaţie liniară c1 x1 + c 2 x 2 + ... + c s x s coincide cu
vectorul nul 0 doar dacă toţi coeficienţii ck sunt nuli. O definiţie analoagă
este valabilă şi pentru vectorii linie.

140
Reamintim câteva caracteristici ale unei matrice:
1) Rangul unei matrice A, notat rang(A), este definit ca fiind numărul
maxim de coloane liniar independente. Acest număr coincide cu
numărul maxim de linii liniar independente.
2) Urma unei matrice A, notată trace(A), este suma elementelor de pe
diagonala principală
p
trace(A) = ∑a
i =1
ii .

3) Determinantul unei matrice pătratice (n = p) este un număr

det(A) = ∑ (−1)
( τ)
τ
a1τ(1) a 2τ( 2) ...a pτ( p ) ;

însumarea se face după toate permutările τ ale mulţimii {1,2,..., p} , iar | τ |


înseamnă signatura permutării τ.

Descompunerea spectrală (Jordan) a unei matrice


Reamintim că o matrice este numită ortogonală dacă
AT ⋅ A = A ⋅ AT = I
cu alte cuvinte dacă inversa sa coincide cu transpusa. (Evident, aceasta
presupune că det ( A) ≠ 0 .)
Să considerăm o matrice pătratică A( p × p ) . Dacă există un scalar λ
şi un vector x astfel încât
A⋅ x = λ ⋅ x
atunci scalarul λ este numit valoare proprie, iar vectorul x este numit
vector propriu pentru matricea A.
Despre două matrice A şi B, se spune că sunt similare dacă au
aceleaşi valori proprii.
Se poate vedea imediat că o valoare proprie λ este o soluţie a
ecuaţiei polinomiale de gradul p obţinută din anularea determinantului
matricei A − λ ⋅ I , asociată matricei A, adică

det( A − λ ⋅ I ) = 0 (1)

141
Ecuaţia (1) se numeşte ecuaţia caracteristică asociată matricei A, iar
soluţiile (rădăcinile) sale, fie ele λ 1 , λ 2 ,..., λ p , se numesc valorile proprii
ale matricei A.
Putem considera matricea Λ = diag (λ 1 ,..., λ p ) . Pentru fiecare
valoare proprie λ j există un vector propriu corespunzător x j obţinut din
ecuaţia (1). Putem considera matricea Γ = ( x1 ,..., x p ) formată cu vectorii
proprii corespunzători valorilor proprii. Se poate arăta ca matricea Γ este
inversabilă şi ortogonală.
Teorema 1. (Descompunerea Jordan). Fiecare matrice pătratică
A( p × p ) poate fi scrisă sub forma:

A = Λ ⋅ Γ ⋅ Λ−1 .
Observaţie: Cum valorile proprii ale matricei A sunt aceleaşi cu cele
ale matricei Γ , cele două matrice sunt similare.

Teorema 2. Fiecare matrice simetrică A( p × p ) poate fi scrisă sub


forma:
A = Λ ⋅ Γ ⋅ ΛT .
⎛ 1 2⎞
Exemplu. Fie matricea A = ⎜⎜ ⎟⎟ . Valorile proprii ale matricei se
⎝ 2 2⎠
obţin ca rădăcini ale ecuaţiei :
1− λ 2
= (1 − λ)(3 − λ ) − 4 = 0
2 2−λ
adică λ1 = 2 + 5 şi λ 2 = 2 − 5 . Cei doi vectori proprii x se obţin
rezolvând ecuaţia A ⋅ x = λ1 ⋅ x respectiv A ⋅ x = λ 2 ⋅ x . Matricea vectorilor
proprii este:
⎛ 0.5257 0.8506 ⎞
Λ⋅ = ⎜⎜ ⎟⎟ .
⎝ 0.8506 − 0.5257 ⎠

142
A3.2 Aspecte geometrice într-un spaţiu vectorial

Distanţa
Fie vectorii x, y ∈ R p care definesc două puncte din spaţiul R p . Să
definim o distanţă între ei. Această distanţă, notată cu d, este o funcţie
d : R p × R p → R + cu proprietăţile:
d ( x, y ) > 0 pentru orice x ≠ y ;
d ( x, y ) = 0 dacă şi numai dacă x = y;
d ( x, y ) < d ( x, z ) + d ( z , y ) pentru orice x, y, z .
Distanţa euclidiană între două puncte x şi y este definită astfel:
d 2 ( x, y ) = ( x − y ) T ⋅ A ⋅ ( x − y )
unde A este o matrice pozitiv definită numită metrică.
Exemplu: Ca un caz particular putem considera că matricea A este I
(matricea unitate); pentru acest caz obţinem distanţa euclidiană clasică
p
2
d ( x, y ) = ∑ (x
i =1
i − yi ) 2 .

Distanţa euclidiană definită de matricea pozitiv definită A conduce în


2
R la o curbele de nivel
{
E d = x ∈ R p | ( x − x0 ) T ⋅ A ⋅ ( x − x0 ) = d 2 }
care sunt elipse definite de centrul x0, matricea A şi constanta d > 0. Dacă A
este matricea unitate, atunci elipsele sunt cercuri cu raza d.
Norma unui vector
Fie un vector x ∈ R p . Norma vectorului x exprimă lungimea sa şi
este definită prin:
|| x ||= d (0, x ) .

Dacă norma vectorului este egală cu 1 (adică x = 1 ), x este numit


vector unitar sau versor.

143
Fie doi vectori x, y ∈ R p . Putem defini unghiul dintre cei doi
vectori prin intermediul cosinusului său. Astfel dacă unghiul este notat cu θ
atunci avem:
xT ⋅ y
cos(θ) = .
x y

O varietate de măsuri de distanţă pot fi generate de norma Lr cu r ≥ 1


definită pentru doi indivizi i şi j văzuţi ca linii ale matricei de date:
1/ r
⎧⎪ p ⎫

⎪⎩ k =1
r⎪
d ij =|| xi − x j || r = ⎨ | xik − x jk | ⎬
⎪⎭
.

Aici xik reprezintă valoarea caracteristicii k pentru individul i. Pentru


r = 2 regăsim norma euclidiană şi respectiv distanţa euclidiană
1/ 2
⎧⎪ p ⎫⎪
d ij =|| xi − x j || 2 = ⎨ ∑
⎪⎩ k =1
( xik − x jk ) 2 ⎬
⎪⎭
.

A3.3 Indicatori statistici elementari

Fie două caracteristici C1 şi C2 (caracteristici cantitative) asupra


cărora avem n valori observate. Fie x1 , x 2 ,..., x n valorile observate asupra
primei şi y1 , y 2 ,..., y n valorile observate asupra celei de a doua. Putem
calcula următorii indicatori statistici elementari:

1) Media
Definim media caracteristicii C1 pe baza valorilor observate prin:
n

∑x
1 1
mx = i dacă fiecare valoare xi are ponderea
n n
1
sau
n
mx = ∑p ⋅x
1
i i unde pi sunt ponderi pozitive asociate valorilor

n
observate (şi prin urmare ∑p
1
i = 1 ).

144
Media este un indicator statistic de centrare a secvenţei de valori
observate.
Analog, calculăm şi media caracteristicii C2, fie ea m y .

Vom numi centru de greutate asociat celor două caracteristici


punctul din plan de coordonate ( m x , m y ) .
Putem vorbi în acest context de centrarea datelor în raport cu
valoarea medie adică, de noile valori de forma
( x1 − m x , x 2 − m x ,..., x n − m x ) , resp. ( y1 − m y , y 2 − m y ,..., y n − m y ) .

Se observă imediat că aceste secvenţe de valori au mediile zero.

2) Dispersia
Definim dispersia caracteristicii C1 calculată pe baza valorilor
observate prin:
n

∑ (x − m )
1 1
s x2 = ⋅ i x
2
dacă fiecare valoare xi are aceeaşi pondere sau
n −1 n
1
n n
s x2 = ∑ p ⋅ (x − m )
1
i i x
2
folosind ponderile pi pozitive cu ∑p
1
i = 1.

Pentru analiza secvenţei de valori observate se mai foloseşte


radicalul dispersiei, se obţine abaterea medie pătratică (abaterea standard)

s x = s x2 .
Analog, pentru caracteristica C2 calculăm dispersia s 2y şi abaterea
medie pătratică s y .
Dispersia şi abaterea medie pătratică sunt indicatori statistici ce
exprimă împrăştierea valorilor observate în jurul valorii medii.
Se observă faptul că dispersia, ca măsură a împrăştierii valorilor în
jurul mediei, poate exprima pe de o parte cantitatea de informaţie pe care
o oferă datele observate (ştiind că o dispersie nulă este asociată unei
informaţii nule); pe de altă parte, ea poate fi folosită şi ca măsură a
riscului. O împrăştiere mare a valorilor observate asupra unei caracteristici
poate exprima un risc mare.

145
Dacă pentru o secvenţă de valori s-au calculat indicatorii elementari
(media şi abaterea standard), putem standardiza valorile folosind, pentru
orice valoare xi, transformarea:
xi − m x
zi = .
sx
Noua secvenţă de valori z i va avea media 0 şi abaterea standard 1.

3) Covarianţa şi coeficientul de corelaţie


Covarianţa între cele două caracteristici, pe baza valorilor observate,
este definită prin formula:
n

∑(x − m ) ⋅ ( y − m ) .
1
s xy = i x i y (2)
n −1
1

Se observă că, dacă aplicăm formula (2) pentru aceeaşi


caracteristică, de exemplu pentru C1, obţinem:
n

∑ (x − m )
1 2
s xx = i x = s x2 (3)
n −1
1
adică dispersia caracteristicii calculată pe baza celor n valori observate.
Se obişnuieşte a se asocia celor două caracteristici C1, C2 aşa numita
matrice de covarianţă (empirică, calculată pe baza celor n observaţii)
exprimată prin:
⎛s s xy ⎞⎟
S = ⎜ xx (4)
⎜ s xy s yy ⎟⎠

După cum se observă cu uşurinţă, aceasta este o matrice simetrică.
Folosind covarianţa şi dispersiile celor două caracteristici putem
calcula raportul
s xy
rxy = (5)
sx ⋅ s y
Numărul rxy astfel calculat se numeşte coeficientul de corelaţie
(Pearson) şi exprimă intensitatea unei legături liniare (calculată folosind cele
n valori observate) între cele două caracteristici. Coeficientul de corelaţie
rxy ia valori în intervalul [-1, 1].

146
Este evident că rxx = 1 şi putem să asociem celor două caracteristici
matricea
⎛ 1 rxy ⎞⎟
R=⎜ (6)
⎜ rxy
⎝ 1 ⎟⎠

numită matricea corelaţiilor calculată pe baza celor n observaţii.


Observaţie: Dacă în locul valorilor observate x1 , x 2 ,..., x n respectiv
y1 , y 2 ,..., y n se vor folosi valorile standardizate x1' , x 2' ,..., x n' (resp.
y1' , y 2' ..., y n' ) date de

xi − m x yi − m y
xi' = (resp. yi' = ),
sx sy

atunci matricea de covarianţă este tocmai matricea corelaţiilor.

Într-adevăr,
n n

∑ ∑ x' ⋅ y ' =
1 1
s x' y ' = ( x'i − m x ' ) ⋅ ( y 'i − m y ' ) = i i
n −1 n −1
1 1
n
xi − m x y i − m y

1
= ⋅
n −1 sx sy
1
n
s xy
∑ (x − m ) ⋅ ( y − m ) = s
1 1
= i x i y = rxy .
sx ⋅ s y n −1 x ⋅ sy
1

147
BIBLIOGRAFIE

1) Benzécri J. P., L’Analyse des données, Dunod, Paris, 1982.


2) Bouroche J. M., Saporta G., L’Analyse des données, P.U.F.,
1980.
3) Chandon J. L., Pinson S., Analyse typologique, Masson, Paris,
1981.
4) Diday E., Pouget J., Lemaire J., Testu F., Éléments d’analyse
des données, Dunod, Paris, 1982.
5) Fernandez G., Data Mining Using SAS Applications, Charman
& Hall, 2003.
6) Härdle W., Simar L., Applied Multivariate Statistical Analysis,
TECH, 2002.
7) Nakache Jean-Pierre, Analyse discriminante sur variables
qualitatives, Polytechnica, Paris, 1994.
8) Quintart Aimable, Les fondements de la théorie financière
classique et les limites de l’hypothèse générale de linéarité. În:
Eric de Bodt, Henrion E.F. (edit.), Les Réseaux de neurones en
finances: conception et applications, D facto, Bruxelles, 1995.
9) Saporta G., Probabilités, analyse des données et statistique,
Editions Technip, Paris, 1990.
10) Saporta G., Ştefănescu V., Analiza datelor & Informatică,
Editura Economică, Bucureşti, 1996.
11) Spircu L., Calciu M., Spircu T., Analiza datelor de marketing,
ALL, Bucureşti, 1994.
12) Spircu Liliana, Paţilea V., Modele de “credit scoring”, în
„Studii şi Cercetări de Calcul Economic şi Cibernetică
Economică”, 3-4, XXIX, 1995.

148