Data Mining

DATA MINING.
METODE ŞI APLICAŢII
¼
DENIS ENACHESCU
ii
Cuprins
Introducere vii
1 METODE EXPLORATORII MULTIDIMENSIONALE 1

1.1 Preliminarii matematice . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Concepte metrice într-un spaţiu euclidian . . . . . . . . 2
1.1.2 Operatori liniari . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3 Vectori şi valori proprii . . . . . . . . . . . . . . . . . . 5
1.1.4 Polinomul caracteristic . . . . . . . . . . . . . . . . . . . 6
1.1.5 Baza vectorilor proprii . . . . . . . . . . . . . . . . . . . 9
1.1.6 Forme p¼ atratice . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.7 Derivarea. Metoda multiplicatorilor lui Lagrange pentru
forme p¼ atratice . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Analiza în componente principale (ACP) . . . . . . . . . . . . . 15
1.2.1 Date şi caracteristicile lor . . . . . . . . . . . . . . . . . 17
1.2.2 Analiza general¼ a. Descompunerea în valori singulare . . 28
1.2.3 Interpretarea şi calitatea rezultatelor unei ACP . . . . . 41
1.2.4 Analize neparametrice . . . . . . . . . . . . . . . . . . . 50
1.2.5 Alte metode derivate . . . . . . . . . . . . . . . . . . . . 52
1.2.6 Alte demersuri . . . . . . . . . . . . . . . . . . . . . . . 52
1.2.7 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
1.3 Analiza corespondenţelor simple (ACS) . . . . . . . . . . . . . 62
1.3.1 Schema general¼ a de ACS . . . . . . . . . . . . . . . . . 63
1.3.2 Reguli de interpretare a rezultatelor . . . . . . . . . . . 74
1.3.3 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.4 Analiza corespondenţelor multiple (ACM) . . . . . . . . . . . . 85
1.4.1 Principiile ACM . . . . . . . . . . . . . . . . . . . . . . 88
1.4.2 Calculul inerţiei . . . . . . . . . . . . . . . . . . . . . . 92
1.4.3 Reguli de interpretare . . . . . . . . . . . . . . . . . . . 93
1.4.4 Principii de transformare a variabilei continue în vari-
abil¼a discret¼
a . . . . . . . . . . . . . . . . . . . . . . . . 93
1.4.5 Valori-test pentru modalit¼ aţi suplimentare . . . . . . . . 95
1.4.6 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
1.5 Sintez¼
a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
iii
iv CUPRINS
2 METODE DE CLASIFICARE 107

2.1 Generalit¼
aţi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
2.2 Aspecte combinatorii ale clasi…c¼ arii . . . . . . . . . . . . . . . . 110
2.3 Metode de clasi…care neierarhic¼ a . . . . . . . . . . . . . . . . . 110
2.3.1 Metoda centrelor mobile (a lui Forgy) . . . . . . . . . . 112
2.3.2 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
2.4 Metode de clasi…care ierarhic¼ a. . . . . . . . . . . . . . . . . . . 120
2.4.1 Aspecte formale . . . . . . . . . . . . . . . . . . . . . . 120
2.4.2 Strategii de agregare . . . . . . . . . . . . . . . . . . . . 123
2.5 Clasi…care mixt¼ a . . . . . . . . . . . . . . . . . . . . . . . . . . 129
2.5.1 Alegerea claselor prin "t¼ aierea" arborelui . . . . . . . . 131
2.5.2 Caracterizarea statistic¼ a a claselor . . . . . . . . . . . . 132
2.5.3 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
3 METODE EXPLICATIVE UZUALE 139

3.1 Analiza discriminant¼ a . . . . . . . . . . . . . . . . . . . . . . . 140
3.1.1 Notaţii şi formularea problemei . . . . . . . . . . . . . . 140
3.1.2 Analiza factorial¼ a discriminant¼a. . . . . . . . . . . . . . 141
3.1.3 Metode geometrice . . . . . . . . . . . . . . . . . . . . . 146
3.1.4 Funcţii discriminante de distanţ¼a minim¼ a . . . . . . . . 153
3.2 Metode probabiliste de discriminare . . . . . . . . . . . . . . . 155
3.2.1 Preliminarii . . . . . . . . . . . . . . . . . . . . . . . . . 155
3.2.2 Formularea bayesian¼ a a problemei de discriminare . . . 156
3.2.3 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
3.3 Segmentare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
3.3.1 Formularea problemei, principiu şi vocabular . . . . . . 190
3.3.2 Subarbori optimali . . . . . . . . . . . . . . . . . . . . . 196
3.3.3 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
4 MODELE LINIARE 205

4.1 Modelul de regresie . . . . . . . . . . . . . . . . . . . . . . . . . 205
4.1.1 Formularea problemei . . . . . . . . . . . . . . . . . . . 205
4.1.2 Estimarea funcţiei de regresie . . . . . . . . . . . . . . . 207
4.1.3 Calitatea estim¼ arii . . . . . . . . . . . . . . . . . . . . . 210
4.1.4 Studiul reziduurilor şi al observaţiilor aberante . . . . . 217
4.1.5 Tehnici de stabilizare a coe…cienţilor de regresie . . . . . 219
4.1.6 Tehnici de selecţie a variabilelor . . . . . . . . . . . . . 221
4.1.7 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
4.2 Analiza dispersional¼
a. . . . . . . . . . . . . . . . . . . . . . . . 229
4.2.1 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
4.3 Modele liniare generalizate . . . . . . . . . . . . . . . . . . . . . 242
Seturile de date folosite în exemple 243

CUPRINS v
Data Mining. Methods and Applications 269
Contents 271
vi CUPRINS
Introducere
Suntem copleşiţi de date - date ştiinţi…ce, date medicale, date demogra…ce,

date …nanaciare, date de marketing. Oamenii nu mai au timp s¼ a se uite la
aceste date. Atenţia uman¼ a a devenit o resurs¼ a important¼ a, asfel încât tre-
buie g¼ asite c¼ai de a analiza datele automat, de a le clasi…ca automat, de a le
sintetiza automat, de a descoperi automat tendinţe în date şi de a caracteriza
automat aceste tendinţe. Acest „minerit în date”, în vederea g¼ asirii automate
de cunoştinţe şi informaţii interesante/noi, este ast¼ azi unul dintre cele mai ac-
tive şi interesante domenii de cercetare. Cercet¼ atorii din domeniile bazelor de
date, statisticii matematice, inteligenţei arti…ciale şi vizualiz¼ arii computerizate
sunt implicaţi şi contribuie la dezvoltarea acestui domeniu.
Lucrarea de faţ¼ a prezint¼a tehnicile clasice "împrumutate" din statistica
matematic¼ a de noul domeniu –l-am numit aici Data Mining. Este vorba, mai
precis, de tehnici de statistic¼ a exploratorie multidimensionale.
Statistica descriptiv¼ a permite reprezentarea vie şi asimilabil¼ a a informaţi-
ilor statistice prin simpli…care şi schematizare. Statistica descriptiv¼ a multi-
dimensional¼ a este generalizarea natural¼ a a cazului în care informaţiile sunt
descrise de mai multe variabile şi/sau dimensiuni.
Trecerea la multidimensional implic¼ a îns¼a o schimbare calitativ¼ a impor-
tant¼ a. Într-adev¼ ar, se spune despre microscop sau despre aparatul radiogra…c
c¼a nu sunt numai instrumente de descriere ci şi instrumente de observaţie,
de explorare şi de cercetare. Prin metodele de statistic¼ a exploratorie multi-
dimensional¼ a, realitatea nu este doar simpli…cat¼ a - pentru c¼ a este complex¼ a,
ci şi explorat¼ a - pentru c¼a este ascuns¼ a. Munca de preg¼ atire şi de codi…care
a datelor, regulile de interpretare şi validare furnizate de tehnicile aplicate în
cazul multidimensional nu au simplitatea întâlnit¼ a în statistica descriptiv¼ a el-
ementar¼ a. Nu este vorba doar de a prezenta, ci şi de a analiza, a descoperi,
uneori de a veri…ca şi dovedi, eventual de a testa anumite ipoteze.
Aceast¼ a lucrare s-a constituit pornind de la cercet¼ arile efectuate în cadrul
grantului de excelenţ¼ a CEX05-D8-19/ 2006 "Sisteme suport pentru cultura
cunoaşterii bazate pe soluţii şi instrumente din domeniul BI (Business Intel-
ligence) - SSCBI" coordonat de Biblioteca Academiei Române (director de
proiect Cornel Lep¼ adatu).
Num¼ arul metodelor ce permit descrierea şi explorarea tabelelor rectan-
gulare de date statistice (tabele de m¼ asur¼atori-observaţii, tabele de contin-
vii
viii INTRODUCERE
genţ¼a, tabele de prezenţ¼

a-absenţ¼
a sau tabele de incidenţ¼
a) este destul de mare.
Metodele reţinute pentru a … prezentate au fost alese în funcţie de posibilit¼aţile
pe care le au de a manipula tabele voluminoase, de transparenţa funcţion¼ arii
lor, de calitatea inserţiei în evantaiul metodelor ce sunt în mod real aplicabile
şi aplicate.
fig. 1. Cele douA¼ mari familii de metode ale statisticii

exploratorii multidimensionale
Dou¼
a mari familii de metode r¼
aspund acestor exigenţe:
metodele exploratorii multidimensionale, bazate pe c¼ autarea axelor prin-

cipale (analiza în componente principale, analiza corespondenţelor sim-
ple şi multiple sunt metodele exploratorii cele mai utilizate) care produc,
în principal, vizualiz¼
ari gra…ce plane sau spaţiale ale obiectelor cercetate
(capitolul 1) ;
metodele de clasi…care, ce produc agreg¼ ari în clase de obiecte sau în

familii de clase ierarhizate, obţinute în urma unor calcule algoritmice.
Obiectele cercetate sunt grupate, pornind de la vectorii care le descriu,
în maniera cea mai puţin arbitrar¼ a (capitolul 2).
Punctele de vedere furnizate de cele dou¼ a tipuri de metode sunt în es-

enţ¼
a complementare. Vom insista asupra acestei complementarit¼ aţi care se
manifest¼ a de altfel la mai multe niveluri, …e c¼
a este vorba de posibilitatea de
a înţelege structuri diverse, …e c¼
a este vorba de a ajuta lectura rezultatelor
obţinute.
Metodele explicative uzuale (capitolele 3 şi 4) îl vor l¼
amuri pe utilizator
asupra vocaţiei speci…ce …ec¼arei metode (este vorba de analiza discriminant¼ a,
ix
de metodele de segmentare, de metodele de regresie şi de analiz¼ a dispersional¼a)

cât şi asupra leg¼ aturii cu metodele statisticii exploratorii, descrise în primele
dou¼a capitole. Acest evantai de tehnici acoper¼ a o parte important¼ a a aplicaţi-
ilor potenţiale ale statisticii.
Nu exist¼ a totuşi o metodologie general¼ a de articulare în practic¼a a metode-
lor exploratorii de baz¼ a (metode prezentate în capitolele 1 şi 2) cu metodele
explicative uzuale (prezentate în capitolele 3-4). Fiecare aplicaţie implic¼ a, în
funcţie de domeniu şi problem¼ a, o munc¼ a original¼a de codi…care şi selecţie a
metodelor particulare aplicate. În plus, trebuie s¼ a …m conştienţi de faptul c¼ a
metodele prezentate sunt e…ciente în special în cazul datelor nestructurate sau
amorfe (în care informaţia à priori asupra acestora este s¼ arac¼
a).
Trebuie menţionat faptul c¼ a exist¼
a o literatur¼a bogat¼ a privind tematica
acestei lucr¼ ari. Bibliogra…a ataşat¼ a const¼a numai dintr-o selecţie a lucr¼ arilor
pe care autorul le-a consultat şi care pot … g¼ asite cu uşurinţ¼
a în biblioteci.
Metodele prezentate au un pronunţat caracter matematic-aplicativ. Stu-
denţi, practicieni şi cercet¼atori din toate disciplinele ce trebuie s¼ a analizeze şi
s¼
a prelucreze volume mari de date multidimensionale, vor g¼ asi în aceast¼a lu-
crare metodele de baz¼ a necesare.
Trebuie s¼ a menţionez contribuţia Oanei Şerban la …nalizarea şi apariţia
acestei c¼arţi; dânsa a f¼acut observaţii utile, a redactat exemplele (prelucr¼ ari cu
soft-ul STATISTICA şi interpretarea rezultatelor obţinute) şi, nu în ultimul
rând, a introdus manuscrisul în LATEX.
Intenţia autorului este de a continua dezvoltarea materialului prezentat
aici într-o ediţie urm¼ atoare, în consecinţ¼a observaţiile şi sugestiile sunt bin-
evenite.
Bucureşti Denis En¼ achescu
x INTRODUCERE
Capitolul 1
METODE EXPLORATORII
MULTIDIMENSIONALE
Metodele exploratorii multidimensionale îşi propun s¼ a furnizeze reprezen-

t¼
ari sintetice ale unor mulţimi mari de valori numerice, în general sub forma
unor vizualiz¼ ari gra…ce. Pentru aceasta, se urm¼ areşte reducerea dimensiu-
nilor tabelului de date prin reprezentarea asociaţiilor între indivizi şi variabile
în spaţii de dimensiuni mici. Distanţele între liniile sau între coloanele unui
tabel dreptunghiular de valori numerice pot … întotdeauna calculate dar nu
este posibil¼ a vizualizarea imediat¼ a a acestora, reprezent¼ arile geometrice asoci-
ate implicând, în general, spaţii de dimensiuni superioare lui trei. Este nece-
sar s¼a proced¼ am la transform¼ ari şi aproxim¼ ari pentru a obţine o reprezentare
plan¼ a.
Metodele exploratorii vor c¼ auta, în consecinţ¼ a, subspaţii de dimensiuni
mici - unu, doi sau trei - care aproximeaz¼ a cel mai bine norul de puncte-
individ sau cel de puncte-variabi¼ a astfel încât vecin¼ at¼
aţile m¼asurate în aceste
spaţii s¼
a re‡ecte cât mai exact proximit¼ aţile reale. Se obţine astfel un spaţiu
de reprezentare, spaţiul factorial. Geometria norilor de puncte şi calculul
proximit¼ aţilor sau a distanţelor care decurg de aici difer¼ a în funcţie de natura
liniilor şi coloanelor tabelului analizat.
Coloanele tabelelor dreptunghiulare de date pot … variabile continue sau
variabile nominale sau categorii în cazul tabelelor de contingenţ¼ a. Liniile pot
… indivizi sau categorii. Natura informaţiilor, codi…carea, speci…citatea dome-
niului de aplicaţie vor introduce variante în cadrul metodei factoriale.
În cele ce urmeaza vor … prezentate trei tehnici fundamentale:
analiza în componente principale (secţiunea 1.2) se aplic¼ a tabelelor

de tip "variabile-indivizi" unde coloanele sunt variabile numerice con-
tinue şi liniile sunt indivizi, observaţii, obiecte, etc. Proximit¼
aţile între
variabile se interpreteaz¼ a în termeni de corelaţii. Proximit¼ aţile între
indivizi se interpreteaz¼ a în termeni de similitudini globale ale valorilor
observate.
1
2 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
analiza corespondenţelor simple (secţiunea 1.3) se aplic¼ a tabelelor

de contingenţ¼a, adic¼
a tabelelor ce conţin num¼ arul indivizilor care posed¼a
concomitent dou¼ a modalit¼ aţi a dou¼
a variabile nominale. Aceste tabele
au particularitatea c¼ a atât liniile cât şi coloanele lor joac¼a un rol iden-
tic în analiza corespondenţelor simple. Analiza furnizeaz¼ a reprezent¼ari
ale asociatiilor între liniile şi coloanele tabelelor bazate pe o distanţ¼ a
între pro…le (care sunt vectori de frecvenţe condiţionate) cunoscut¼ a sub
numele de distanţa 2 .
analiza corespondenţelor multiple (secţiunea 1.4) este o extindere

a domeniului aplicaţiilor analizei corespondenţelor simple, având totuşi
proceduri de calcul şi reguli de interpretare speci…ce. Ea face obiectul
unei menţiuni particulare datorit¼ a num¼ arului mare de aplicaţii la care se
preteaz¼a. Analiza corespondenţelor multiple este în mod deosebit adap-
tat¼
a la descrierea tabelelor mari de variabile nominale, cum sunt …şierele
de anchete socio-economice sau cele medicale. Liniile acestor tabele sunt,
în general, indivizi sau observaţii (pot exista câteva mii); coloanele sunt
modalit¼ aţi ale variabilelor nominale, cel mai adesea modalit¼
aţile r¼aspun-
surilor la întreb¼ ari.
Oricare ar … tipul tabelului de date, toate tehnicile factoriale au un nucleu

comun prezentat în secţiunea 1.1 sub forma unor preliminarii matematice.
1.1 Preliminarii matematice

1.1.1 Concepte metrice într-un spaţiu euclidian
Fie X mulţime oarecare, X 6= ?.
De…niţia 1.1.1 O metric¼a pe mulţimea X este o aplicaţie, d : X X!R,

care satisface urm¼
atoarele axiome :
a) d (x; y) = d (y; x) ; (8) x; y 2 X (simetric¼

a);
b) d (x; y) 0; (8) x; y 2 X (pozitiv¼

a);
c) d (x; y) = 0 , x = y; (8) x; y 2 X (idempotent¼

a);
d) d (x; y) d (x; z) + d (z; y) ; (8) x; y; z 2 X (inegalitatea triunghiului).
De…niţia 1.1.2 Dac¼ a d : X X ! R este o aplicaţie care satisface axiomele

(a) (c) şi în plus este satisf¼
acut¼
a axioma
d’) d (x; y) max (d (x; z) ; d (z; y)) ; (8) x; y; z 2 X

atunci d se numeşte ultrametric¼a pe X.
1.1. PRELIMINARII MATEMATICE 3
Observaţia 1.1.1
d ultrametric¼
a implic¼
a d metric¼
a.
De…niţia 1.1.3 Un spaţiu (ultra)metric este o pereche (X; d), unde X este o
mulţime nevid¼
a şi d este o (ultra)metric¼
a pe X.
De…niţia 1.1.4 O pseudometric¼a pe X este o aplicaţie, d : X X ! R; care

satisface :
a) d (x; y) = d (y; x) ; (8) x; y 2 X (simetric¼

a);
b) d (x; y) 0; (8) x; y 2 X (pozitiv¼

a);
c) d (x; x) = 0; (8) x 2 X.
O mulţime nevid¼ a înzestrat¼

a cu o psudometric¼
a se numeşte spaţiu pseudo-
metric.
Într-o alt¼
a terminologie, legat¼a de problema de clasi…care, o pseudomet-
ric¼
a se numeşte şi coe…cient de disimilaritate.
De…niţia 1.1.5 O pseudometric¼

a ce satisface, în plus, axioma
d’) d (x; y) = 0 ) x = y
se numeşte semimetric¼a.
Observaţia 1.1.2
Pentru oricare din spaţiile considerate mai sus d (x; y) se va numi distanţa
dintre x şi y în spaţiul (X; d).
Fie K un corp comutativ, X 6= ? înzestrat¼ a cu o operaţie intern¼
a
(adunare) şi cu operaţia de înmulţire cu scalari:
X X 3 (x; y) ! x + y 2 X;
K X 3 (a; x) ! ax 2 X
De…niţia 1.1.6 X se numeşte spaţiu vectorial (spaţiu liniar) peste K dac¼

a:
1. (x + y) + z = x + (y + z) ; (8) x; y; z 2 X;
2. (9) 0 2 X astfel încât x + 0 = x; (8) x 2 X;
3. (8) x 2 X; (9) ( x) 2 X astfel încât x + ( x) = 0;
4. x + y = y + x; (8) x; y 2 X;
5. 1x = x; (8) x 2 X;
6. a (bx) = (ab) x; (8) x 2 X şi (8) a; b 2 K;

7. (a + b) x = ax + bx; (8) x 2 X şi (8) a; b 2 K;
8. a (x + y) = ax + ay; (8) x; y 2 X şi (8) a 2 K:
Fie X un spaţiu vectorial peste R sau C.
De…niţia 1.1.7 Se numeşte produs scalar pe X o funcţie de dou¼

a variabile,
h ; i : X X ! R, pentru care sunt satisf¼
acute urm¼atoarele axiome:
1. hx; yi = hy; xi; (8) x; y 2 X;
2. hax; yi = a hx; yi ; (8) x; y 2 X şi (8) a 2 K:
3. hx + y; zi = hx; zi + hy; zi ; (8) x; y; z 2 X;
4. hx; xi 0; (8) x 2 X;
5. hx; xi = 0 , x = 0:
Observaţia 1.1.3
Dac¼
a X este spaţiu vectorial peste R atunci X se numeşte spaţiu vectorial real.
De…niţia 1.1.8 Se numeşte spaţiu euclidian, un spaţiu vectorial …nit dimen-

sional.
Spaţiul Rn înzestrat cu produsul scalar
n
X
hx; yi = xi yi
i=1
este un spaţiu euclidian. 1 0

x1
B C
Dac¼ a, x = @ ... A,
a un element din Rn se scrie ca un vector coloan¼
xn
atunci produsul scalar se mai scrie (x; y) = x0 y.
Observaţia 1.1.4
În R se mai pot de…ni şi alte produse scalare.
De…niţia 1.1.9 Doi vectori x; y se numesc ortogonali (perpendiculari) dac¼

a
hx; yi = 0.
De…niţia 1.1.10 O norm¼a pe un spaţiu vectorial de…nit peste corpul K este

o funcţional¼
a, k k : X ! R, pentru care sunt veri…cate axiomele :
1. kxk 0; (8) x 2 X (pozitiv¼

a);
2. kxk = 0 , x = 0 (pozitiv de…nit¼

a);
3. kaxk = jaj kxk ; (8) x 2 X şi (8) a 2 K (absolut omogen¼

a);
4. kx + yk kxk + kyk ; (8) x; y 2 X (subaditiv¼

a).
De…niţia 1.1.11 Un spaţiu vectorial înzestrat cu o norm¼

a se numeşte spaţiu
normat.
Observaţia 1.1.5
Orice spaţiu euclidian este normat în raport cu norma indus¼
a de produsul
1
scalar kxk = (x; x) 2 :
La rândul s¼
au, norma induce o distanţ¼
a
1
d (x; y) = kx yk = hx y; x yi 2 :
Rezult¼
a c¼
a orice spaţiu euclidian poate … înzestrat cu o metric¼
a generat¼
a de
produsul scalar.
1.1.2 Operatori liniari

Fie X un spaţiu vectorial de dimensiune n. Consider¼
am o baz¼
a, fe1 ; e2 ; : : : ; en g ;
în X şi …e U : X ! X, un operator liniar.
U ei este un vector din X deci se poate scrie ca o combinaţie liniar¼a de
vectorii bazei, adic¼
a:
X n
U ei = Aij ej ; i = 1; n:
j=1
Coe…cienţii Aij determin¼ a o matrice A de dimensiune n n numit¼ a

matricea operatorului U în baza e1 ; e2 ; : : : ; en .
Fie X spaţiu euclidian şi U operator liniar, U : X ! X . Se poate ar¼
ata
c¼
a exist¼
a U astfel încât
hU x; yi = hx; U yi ; x; y 2X
Operatorul U se numeşte adjunctul lui U .

Matricea operatorului U în orice baz¼ a ortogonal¼
a a spaţiului X este
transpusa matricei operatorului U în acea baz¼
a.
Un operator se numeşte autoadjunct dac¼a U = U . Matricea unui oper-
ator autoadjunct este simetric¼
a.
1.1.3 Vectori şi valori proprii

Fie X un spaţiu vectorial şi U : X ! X.
De…niţia 1.1.12 Un subspaţiu X0 al lui X se numeşte invariant în raport cu

operatorul U , dac¼
a (8) x 2 X0 ) U x 2 X0 , adic¼
a U (X0 ) X0 .
Observaţia 1.1.6
Un rol deosebit îl joac¼ a subspaţiile invariante de dimensiune 1. Ele se numesc
direcţii invariante (direcţii proprii).
De…niţia 1.1.13 2 R se numeşte valoarea proprie a operatorului U dac¼

a
(9) x 2 X; x 6=0 astfel încât
U x = x;
iar x se numeşte vector propriu corespunz¼ ator valorii proprii .
Mulţimea valorilor proprii ale lui U se numeşte spectrul lui U .
De…niţia 1.1.14 Mulţimea tuturor vectorilor proprii ai unui operator U; core-

spunz¼ atori valorii proprii , la care se adaug¼a vectorul nul, se numeşte sub-
spaţiul propriu al lui U , corespunz¼
ator lui .
Propoziţia 1.1.1 ([15])

Vectorii proprii x1 ; x2 ; : : : ; xn ai unui operator U , corespunzând valorilor pro-
prii distincte 1 ; 2 ; : : : ; n , sunt liniar independenţi.
Observaţia 1.1.7
Într-un spaţiu n-dimensional niciun operator U nu poate avea mai mult de n
vectori proprii cu valori proprii distincte.

Subspaţiul propriu al unui operator liniar U , corespunz¼
ator unei valori proprii
este un spaţiu invariant al lui U .

Dac¼a U este un operator auto-adjunct acţionând pe un spaţiu euclidian şi
este o valoare proprie a lui U , atunci (9) x, vector unitar, astfel încât
= hU x; xi ; kxk = 1:

Orice operator autoadjunct U acţionând pe un spaţiu euclidian n-dimensional
are n vectori proprii unitari liniar independenţi, ortogonali doi câte doi.
1.1.4 Polinomul caracteristic

Fie A matricea operatorului liniar U într-o baz¼ a …xat¼
a. Dac¼a E este op-
eratorul identitate atunci operatorul U E va avea în aceast¼
a baz¼a matricea
A I, unde este I matricea identitate.
Dac¼ a x este un vector propriu al lui U , corespunz¼
ator valorii proprii ,
atunci:
(A I) x =0
iar x se mai numeşte vector propriu al lui A.
Dac¼ a A este matrice n n atunci egalitatea de mai sus reprezint¼ a un

sistem omogen de n ecuaţii cu n necunoscute. Sistemul admite o soluţie nenul¼
a
dac¼a şi numai dac¼
a det (A I) x =0.
De…niţia 1.1.15 Membrul stâng al ecuaţiei în
det (A I) x =0:
se numeşte polinomul caracteristic al matricei A.
Oric¼ arei r¼
ad¼acini a acestei ecuaţii îi corespunde cel puţin un vector pro-
priu al operatorului liniar U . Cum ecuaţia are cel puţin o r¼ ad¼ acin¼
a, real¼
a sau
complex¼ a, rezult¼
a c¼
a un operator liniar are cel puţin un vector propriu.
Fie A; matricea operatorului U într-o baz¼ a e …xat¼a şi A0 ; matricea
aceluiaşi operator într-o alt¼a baz¼ a, f . Operatorul U E; 2 R va avea
în baza e matricea A I, iar în baza f , matricea A 0 I. Cum determinantul
matricei unui operator nu depinde de alegerea bazei, rezult¼ a:
det (A I) = det A0 I :

Polinomul caracteristic al unui operator este invariant în raport cu alegerea
bazei.
Observaţia 1.1.8
Toate conceptele spectrale (spectrul, ordinele de multiplicitate ale valorilor
proprii) sunt invariante la o transformare a bazei.
Dac¼a A este matricea unui operator U în baza fe1 ; e2 ; : : : ; en g şi A0

este matricea aceluiaşi operator în baza ff1 ; f2 ; : : : ; fn g atunci un calcul simplu
arat¼
a c¼
a
A0 = B 1 AB
Dou¼a matrici, A şi A0 ; între care exist¼

a o asemenea egalitate se numesc
matrici asemenea (similare).
Din relaţia de mai sus rezult¼a
BA0 = AB ) det BA0 = det (AB) ) det B det A0 = det A det B:
Cum det B 6=0 ) det A0 = det A, adic¼ a determinantul matricei unui

operator nu depinde de alegerea bazei. Rezult¼
a:

Determinantul matricei unui operator este un invariant în raport cu alegerea
bazei spaţiului respectiv.
Fie A; B dou¼
a matrici asemenea. Atunci (9) C matrice, astfel încât
1
B=C AC:
Se poate scrie, aşadar, succesiv:

1
det (B I) = det C AC I =
1 1
= det C (A I) C = det C det (A I) det C =
= det (A I) :
Rezult¼a: valoare proprie a lui B, valoare proprie a lui A. S-a

demonstrat astfel urm¼
atoarea propoziţie:
Propoziţia 1.1.7
Dou¼
a matrici asemenea au aceleaşi valori proprii.
Pentru a aduce polinomul caracteristic la o form¼
a convenabil¼
a, îl scriem
explicit
A11 A12 + 0 A1n + 0
A21 + 0 A22 A2n + 0
P( )=
An1 + 0 An2 + 0 Ann
Propoziţia 1.1.8
Polinomul caracteristic P ( ) al matricei A se poate scrie
P( )=( )n + I1 ( )n 1
+ : : : + In 1( ) + In
unde Ik este suma minorilor principali de ordinul k ai determinantului matricei

A.
Observaţia 1.1.9
1. Coe…cientul I1 al lui ( )n 1 coincide cu tr A. Termenul liber, In , este
determinantul lui A. Coe…cientul Ik al lui ( )k este suma minorilor
principali de ordinul k.
2. P ( ) = ( 1)n n I1 n + : : : + ( 1)n In . Notând cu mi ordinul de

1
multiplicitate al r¼
ad¼
acinii i şi ţinând cont de relaţiile între r¼
ad¼
acini şi
Q
p Pp
coe…cienţi rezult¼
a In = det (A) = ( i )mi şi I1 = tr A = mi i unde
i=1 i=1
mi > 0; i = 1; p; mj = 0 dac¼
a j > p.
3. Deoarece In = det (A) este un invariant, rezult¼ a c¼

a şi produsul valorilor
proprii ale unui operator este un invariant (nu depinde de alegerea bazei).
4. Deoarece dou¼ a matrici asemenea au valori proprii identice rezult¼

a c¼
a
matricile asemenea au determinanţii şi urma identice.
1.1.5 Baza vectorilor proprii

Propoziţia 1.1.9
a) O matrice real¼
a, simetric¼
a, are toate valorile proprii reale.
b) Vectorii proprii corespunzând la valori proprii distincte sunt ortogonali.

Matricea unui operator într-o baz¼ a format¼
a din vectorii s¼ai proprii este diag-
onal¼
a şi elementele de pe diagonal¼
a sunt valori proprii ale operatorului.
Demonstraţie. Fie A0 o matrice n n care se obţine din A prin intermediul
unei transform¼
ari de similaritate, adic¼
a
A0 = B 1
AB;
arii. Condiţia ca matricea A0 s¼

unde B este matricea transform¼ a …e di-
agonal¼
a se scrie : 0 1
1 0
B .. C
A0 = B 1 AB = @ . A
0 n
de unde se obţine imediat

0 1
1 0
B .. C
AB = B @ . A
0 n
Urmeaz¼
a c¼
a X
Aik Bkj = Bij j; i; j = 1; n:
k
Fixând indicele j obţinem n ecuaţii :
X
Aik Bkj = Bij j ; i = 1; n:
k
0 1
B1j
B C
Fie acum vectorul bj = @ ... A format cu elementele coloanei j a ma-
Bnj
tricei B.
Egalit¼
aţile de mai sus se pot scrie
Abj = j bj ;
deci bj este vector propriu al matricei A. Rezult¼ a deci c¼ a matricea transfor-

mat¼a A este diagonal¼a dac¼
a matricea B a transform¼ arii este aleas¼
a astfel încât
coloanele sale s¼
a …e vectori proprii ai matricei iniţiale A. Se poate ar¼ ata c¼ao
astfel de matrice exist¼
a dac¼a toate valorile proprii ale lui A sunt diferite.
Propoziţia 1.1.11
O matrice A; real¼a şi simetric¼a, poate … adus¼
a la forma diagonal¼
a prin inter-
mediul unei transform¼ ari de similaritate
A0 = B 1
AB
dac¼
a valorile proprii ale lui A sunt distincte.
Propoziţia 1.1.12
Orice matrice real¼
a şi simetric¼a poate … adus¼
a la forma diagonal¼
a prin inter-
mediul unei transform¼ ari de similaritate.
1.1.6 Forme p¼
atratice
De…niţia 1.1.16 O form¼a biliniar¼a pe un spaţiu vectorial X este o apli-
caţie F : X X ! X, liniar¼ a în ambele argumente. Dac¼ a dim X = n şi
fe1 ; e2 ; : : : ; en g este o baz¼
a în X, atunci forma biliniar¼
a F se poate scrie:
n X
X n
F (x; y) = Aij xi yj;
i=1 j=1
unde F ei ; ej = Aij ; i; j = 1; n. Coe…cienţii Aij sunt elementele unei matrice

p¼
atrate A, numit¼
a matricea formei biliniare F , în baza fe1 ; e2 ; : : : ; en g.
Se observ¼
a c¼
a relaţia de de…niţie se mai poate scrie:
F (x; y) = x0 Ay:
De…niţia 1.1.17 O form¼

a biliniar¼
a se numeşte simetric¼a dac¼
a
F (x; y) = F (y; x) ; x; y 2X
Observaţia 1.1.10
Matricea unei forme biliniare simetrice este simetric¼
a.
De…niţia 1.1.18 O form¼ a biliniar¼

a pe X în care y = x se numeşte form¼a
p¼atratic¼a pe X.
F (x; y) se numeşte f orma biliniar¼a polar¼a a formei F (x; x).
Propoziţia 1.1.13
Forma polar¼
a F (x; y) este unic determinat¼
a de forma ei p¼
atratic¼
a.
Într-o baz¼
a …xat¼
a, forma p¼
atratic¼
a F se scrie:
n X
X n
F (x; x) = Aij xi xj = x0 Ax:
i=1 j=1
De…niţia 1.1.19 Forma p¼ a x0 Ax şi matricea A se numesc pozitiv semi-

atratic¼
de…nite dac¼
a
x0 Ax 0; (8) x 2 X
şi pozitiv de…nite dac¼
a
x0 Ax > 0; (8) x 2 X; x 6= 0:
Observaţia 1.1.11
1. Condiţia ca A s¼ a se mai scrie x0 Ax = 0 ) x = 0.
a …e pozitiv de…nit¼
2. Produsul scalar este o form¼a biliniar¼

a simetric¼
a corespunz¼
atoare unei
forme p¼atratice pozitiv de…nite. Rezult¼a c¼
a produsul scalar se poate
exprima sub forma hx; yi = x0 Ay, unde A este o matrice simetric¼ a,
pozitiv de…nit¼
a.
Distanţa indus¼
a de o norm¼
a generat¼
a de un produs scalar se va scrie
d2 (x; y) = kx yk2 = hx y; x yi
şi deci distanţa are forma
d2 (x; y) = (x y)0 A (x y) :
Pentru diferite alegeri obţinem diferite tipuri de distanţe. Astfel, dac¼

a
A este matricea unitate, obţinem distanţa euclidian¼a
n
X
d2 (x; y) = (xi yi )2 ;
i=1
unde x1 ; x2 ; : : : ; xn sunt componentele vectorului în baza considerat¼

a.
Propoziţia 1.1.14
Dac¼ a, atunci x0 Ax = 0 ) Ax = 0.
a A este o matrice pozitiv semide…nit¼
Propoziţia 1.1.15
Fie A pozitiv semide…nit¼ a. Matricea A este pozitiv de…nit¼
a , este nesingu-
a. În acest caz şi matricea A 1 este pozitiv de…nit¼
lar¼ a.
Propoziţia 1.1.16
Dac¼a matricea A de dimensiuni n n este simetric¼ a şi pozitiv semide…nit¼ a
0
atunci, (8) B de dimensiuni n n, matricea B AB este simetric¼ a şi pozitiv
0
semide…nit¼a. Dac¼
a rang B = m şi A este pozitiv de…nit¼a, atunci B AB este
pozitiv de…nit¼
a.
Observaţia 1.1.12
0 1B
Dac¼ a A este pozitiv de…nit¼
a şi rang B = m atunci B A este pozitiv de…nit¼
a
şi deci inversabil¼
a.
Propoziţia 1.1.17
Matricea A este pozitiv de…nit¼
a , toţi minorii s¼
ai principali sunt pozitivi,
adic¼
a:
a a
a11 > 0; det 11 12 ; : : : ; det A >0:
a21 a22
A este pozitiv semide…nit¼
a , minorii principali sunt nenegativi.
Propoziţia 1.1.18
Fie A simetric¼
a. A este pozitiv semide…nit¼
a , valorile sale proprii sunt neneg-
ative.
Propoziţia 1.1.19
Fie A simetric¼
a. A este pozitiv de…nit¼
a , toate valorile sale proprii sunt
pozitive.
1.1.7 Derivarea. Metoda multiplicatorilor lui Lagrange pentru

forme p¼
atratice
De…niţia 1.1.20 Dac¼ a funcţia f : Rn ! R este derivabil¼ a parţial în raport
cu toate variabilele x1 ; x2 ; : : : ; xn în punctul x, punctul rf (x) de…nit prin
0 1
@f (x)
B @x. 1 C
rf (x) = B
@ .. A
C
@f (x)
@xn
se numeşte gradientul funcţiei f în punctul x.
De…niţia 1.1.21 Fie A Rn o mulţime nevid¼a şi f : A ! R. Funcţia f

se numeşte diferenţiabil¼a Fréchet în punctul x0 2 A dac¼ a exist¼
a o funcţional¼
a
a F : Rn ! R astfel încât
liniar¼
f x0 + h f x0 F (h)
lim = 0:
khk!0 khk
Propoziţia 1.1.20
a A Rn şi funcţia f : A ! R este diferenţiabil¼
Dac¼ a Fréchet în punctul x0 ,
atunci exist¼
a o unic¼
a funcţional¼
a liniar¼
a F cu proprietatea
f x0 + h f x0 F (h)
lim = 0:
khk!0 khk
De…niţia 1.1.22 Dac¼ a funcţia f : A ! R; A Rn este diferenţiabil¼ a Fréchet

0
în punctul x , funcţionala care veri…c¼ a egalitatea din de…niţia 1.1.21 se nu-
meşte derivata Fréchet a funcţiei f în x0 şi se noteaz¼
a d f x0 , iar valoarea
ei în punctul h, F (h) = d f x (h) se numeşte diferenţiala funcţiei f în x0
0
cu creşterea h.
Propoziţia 1.1.21
Dac¼a funcţia f : Rn ! R este diferenţiabil¼a în punctul x0 , atunci f este
a parţial în raport cu toate componentele din x0 şi are loc egalitatea
derivabil¼
n
X
0 0 @f (x)
d f x (h) = rf x ; h = hi ; (8) h 2 Rn :
@xi
i=1
Observaţia 1.1.13
Dac¼ a în x0 , atunci derivata d f x0 a lui f în punctul x0
a f este diferenţiabil¼
se poate reprezenta prin gradientul lui f în x0 , adic¼ a:
0 1
@f (x0 )
B @x1 C
0 0 B . C
d f x = rf x = B .. C
@ A
@f (x0 )
@xn
a se va utiliza pentru rf x0 şi notaţia @f

În cele ce urmeaz¼ 0
@x x .
De…niţiile şi rezultatele de mai sus se extind uşor pentru o funcţie g :

Rn ! Rm . În acest caz derivata în punctul x0 se reprezint¼ a printr-o matrice
0 0 1
01 @g1 (x0 ) @g1 (x0 )
rg1 x0
@g 0 B .. C B B
@x1 @xn C
C:
x = rg x0 = @ . A = @ A
@x 0 0
@gm (x ) 0
@gm (x )
rg x0 m @x1 @xn
De…niţia 1.1.23 Fie I R şi f : I ! R. Prin derivata funcţiei f în punctul

x0 în raport cu matricea A de dimensiuni n m se înţelege matricea
0 1
@f (x 0 ) @f (x 0 )
@f x0 B @a11 @a1m C
=B @
C:
A
@A 0
@f (x ) 0
@f (x )
@an1 @anm
Propoziţia 1.1.22
a x; y 2Rn şi M este matrice atunci:
Dac¼
@ @
a) @x (x0 y) = @x (y0 x) = y;
@
b) @y (x0 My) = M0 x;
c) @
@x (x0 Mx) = Mx + M0 x;
@
d) @x (x0 My) = My;
@
e) @x (Mx) = M;
@
f) @M (x0 My) = xy0 :
Observaţia 1.1.14
@
Dac¼a M este matrice simetric¼a atunci c) devine @x (x0 Mx) = 2Mx. Dac¼
aM
@
este matrice unitate atunci @x (x0 x) = 2x.
Fie F (x; x) = x0 Ax; x 2 Rn o form¼ a p¼
atratic¼a simetric¼
a. Consider¼
am
valorile formei p¼atratice F pe sfera unitate, adic¼ a pentru acei x pentru care
kxk2 = (x; x) = 1. Ne intereseaz¼ a care dintre punctele sferei unitate sunt
@
puncte staţionare pentru F , adic¼ a veri…c¼a ecuaţia @x F (x; x) = 0. Punctele
de extrem se vor g¼ asi printre punctele staţionare. Problema determin¼ arii
punctelor staţionare este o problem¼ a de extrem condiţionat, pentru rezolvarea
areia vom folosi metoda multiplicatorilor lui Lagrange. Restricţia kxk2 = 1
c¼
se mai scrie :
g (x) = 1 x0 x =0;
deci avem problema:
F (x; x) ! min
:
g (x) = 0
Conform metodei lui Lagrange, construim funcţia L : Rn R ! R,
L (x; ) = F (x; x) + g (x)
care se mai scrie şi

L (x; ) = x0 Ax + x0 x 1 :
Condiţiile necesare ca punctul x0 ; 0 s¼a …e un punct de extrem cu
leg¼
aturi sunt:
@L x0 ; 0 @L x0 ; 0
= 0; = 0:
@x @
Deoarece A este matrice simetric¼a prima ecuaţie devine:
2Ax 2 x =0 ) Ax = x:
Rezult¼
a c¼
a:
Propoziţia 1.1.23
Vectorii sferei unitate care sunt vectorii proprii ai matricei A asociate unei
forme p¼atratice simetrice
F (x; x) = x0 Ax;
reprezint¼
a puncte staţionare ale lui F .
Valorile formei p¼
atratice în punctele staţionare sunt date de
F (x; x) = x0 Ax = x0 x = kxk2 :
Rezult¼
a c¼
a valoarea formei p¼atratice F (x; x) = x0 Ax într-un punct
staţionar x este egal¼
a cu valoarea proprie corespunz¼atoare a matricei A a
formei p¼atratice.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 15
În particular, maximul (minimul) formei p¼ atratice simetrice F (x; x) pe

sfera unitate este egal cu cea mai mare (cea mai mic¼ a) valoare proprie a lui
A.
Vectorul propriu corespunzând celei mai mari valori proprii este un vector
ce porneşte din origine şi trece prin punctul de pe sfera unitate în care este
atins maximul.
1.2 Analiza în componente principale (ACP)

Inventat¼a de Karl Pearson în 1901 şi introdus¼ a în statistica matematic¼ a
de Harold Hotelling în 1933, analiza în componente principale a început s¼ a …e
utilizat¼
a efectiv odat¼
a cu apariţia şi extinderea calculatoarelor electronice.
Analiza în componente principale, ACP, poate … prezentat¼ a din diverse
puncte de vedere:
pentru statisticianul clasic, analiza în componente principale înseamn¼ a

a estima, pornind de la un eşantion dat, axele principale ale elipsoidului
indicator al unei distribuţii normale multidimensionale. Aceasta este
prezentarea inţial¼
a a lui Hotelling urmat¼a apoi de manualele clasice de
analiz¼
a multivariat¼a (cazul lucr¼
arii fundamentale [2]);
pentru psihologi, analiza în componente principale este un caz particular

de analiz¼
a factorial¼
a utilizat¼
a în psihometrie (cazul dispersiilor nule sau
egale, conform [33]);
în …ne, pentru analiştii de date, analiza în componente principale este o

tehnic¼a de reprezentare a datelor cu un caracter optimal din punct de
vedere al unor criterii algebrice sau geometrice, utilizat¼ a, în general, f¼
ar¼
a
vreo referire la ipoteze de natur¼ a statistic¼
a sau la un model particular.
Acest punct de vedere, adoptat în cele ce urmeaz¼ a, este foarte r¼aspândit
la ora actual¼a. Este probabil cel mai vechi punct de vedere, reg¼ asindu-se
în lucr¼
arile lui Pearson. Desigur, în prezentarea acestuia nu este vorba
de analiza în componente principale aşa cum este ea expus¼ a ast¼
azi, dar
pot … deja întrev¼azute ideile esenţiale ale metodei. O discuţie mai larg¼ a
asupra acestui subiect se g¼ aseşte în articolul de sintez¼a [51].
Analiza în componente principale este utilizat¼

a pentru a pune în evidenţ¼
a:
sistemul de relaţii existente între variabile (asocierea sau opoziţia lor);
reprezentarea indivizilor în raport cu variabilelele observate (indivizi care

prezint¼
a caracteristici comune sau antagoniste).
Eventualul utilizator al analizei în componente principale trebuie s¼

a posede
un tabel dreptunghiular de m¼ asur¼atori în care coloanele reprezint¼
a variabile
numerice continue, sau care pot … considerate continue, iar liniile reprezint¼ a
indivizii pe care au fost m¼ asurate aceste variabile. În biometrie se procedeaz¼ a
frecvent la multiple m¼ asur¼
atori asupra unor organe sau animale, în economie
se înregistreaz¼
a diverşi indicatori privind agenţii economici.
Într-o manier¼ a general¼
a, condiţia pe care trebuie s¼
a o îndeplineasc¼
a aceste
tabele numerice pentru a face obiectul unei analize în componente principale
este urm¼ atoarea: una dintre dimensiunile tabelului (liniile în general) este
format¼a din unit¼aţi avînd caracter repetitiv, cealalt¼a dimensiune poate … mai
degrab¼a eterogen¼a. În exemplele de mai jos liniile au acest caracter repetitiv.
Acestea vor … numite indivizi sau observaţii. Coloanele vor … desemnate ca
variabile. Uneori liniile pot … considerate ca realiz¼ ari independente ale unor
vectori aleatori ale c¼ aror componente corespund la diferite variabile. Dup¼ a
provenienţa variabilelor, trei mari categorii de tabele pot face obiectul unui
demers de analiz¼ a în componente principale:
1. Tabelele de m¼asur¼ atori: variabilele sunt obţinute în urma unui sondaj

sau recens¼
amânt şi sunt cantitative.
tabelul 1.2.1. Consumul mediu anual În 1972, exprimat în
franci francezi, pentru 7 tipuri de alimente,
în cazul a 8 categorii socio-profesionale
PAO PAA VIO VIA POT LEC

¼
ŢARANI 167 1 163 23 41 8
SALARIAŢI AGRICOLI 162 2 141 12 40 12
LIBER PROFESIONIŞTI 119 6 69 56 39 5
CADRE SUPERIOARE 87 11 63 111 27 3
CADRE MEDII 103 5 68 77 32 4
FUNCŢIONARI 111 4 72 66 34 6
MUNCITORI 130 3 76 52 43 7
INACTIVI 138 7 117 74 53 8
(Surs¼a: A. Villeneuve, La consommation alimentaire des Français, collections
de l’INSEE, M34)
2. Tabelele de note: variabilele sunt obţinute în urma unor notaţii.

Notele sunt variabile calitative ce pot …, în general, asimilate cu vari-
abilele cantitative.
tabelul 1.2.2. Notele obŢ inute de 4 studenŢ i la 3 materii
¼
MATEMATICA ¼
FIZICA ¼
ENGLEZA
STUD1 9 8 8
STUD2 10 9 6
STUD3 9 7 10
STUD4 7 5 10
3. Tabelele de ranguri: variabilele sunt obţinute în urma unor clasa-

mente şi sunt variabile calitative ordinale care pot … transformate în
variabile continue.
tabelul 1.2.3. Clasamentul tablourilor a trei pictori,
PIC1 PIC3, realizat de patru experŢ i A D.
A B C D
PIC1 1 3 2 1
PIC2 3 1 1 3
PIC3 2 2 3 2
Dup¼ a cum vom vedea, în funcţie de transform¼arile aduse tabelului de

date, analiza în componente principale prezint¼a numeroase variante: norul
de puncte-indivizi poate … centrat sau nu, redus sau nu. Dintre aceste vari-
ante, analiza în componente principale normat¼a (central-redus¼
a) este cea mai
utilizat¼
a.
1.2.1 Date şi caracteristicile lor

Se presupune c¼ a dispunem de observaţii asupra a p variabile continue
m¼asurate pe n indivizi. Valorile sunt "listate" într-un tabel de n linii şi p
j=1;p
coloane. Not¼ am cu X = (xij )i=1;n matricea asociat¼a tabelului, unde xij este
valoarea luat¼ a de variabila j m¼ asurat¼a pe individul i.
O variabil¼a este identi…cat¼ a prin vectorul-coloan¼ a j al tabelului X (no-
taţie xj ) iar un individ prin vectorul-linie i (notaţie xi ).
Dac¼ a datele nu au fost culese în urma unui sondaj aleator cu probabilit¼aţi
egale atunci …ec¼ arui individ i i se atribuie o pondere1 pi , conform importanţei
pe care o are în studiul întreprins.
De…niţia 1.2.1 Se numeşte matrice (sau metric¼a) de ponderi matricea

X
D = diag (p1 ; : : : ; pn ) ; unde pi > 0; (8) i = 1; n şi pi = 1:
i
În cazul indivizilor echiponderaţi D = n1 In , unde In este matricea iden-

titate de dimensiune n.
S¼
a not¼ am c¼ a xj poate … interpretat ca o selecţie de volum n asupra
variabilei j şi c¼
a, în acest context:
- media de selecţie a variabilei j este

X
m (xj ) xj = pi xij ,
i
1
Termenii de "pondere" sau "mas¼ a" sunt utilizaţi cu acelaşi sens în statistic¼
a şi desem-
neaz¼
a adesea frecvenţele relative sau probabilit¼
aţile a priori.
- dispersia de selecţie a variabilei j este
X
s2 (xj ) s2j = pi (xij xj )2 ,
i
- covarianţa de selecţie a variabilelor j şi j 0 este

X
cov xj ; xj 0 vjj 0 = pi (xij xj ) xij 0 xj 0 ,
i
- coe…cientul de corelaţie de selecţie a variabilelor j şi j 0 este

vjj 0
cor xj ; xj 0 rjj 0 = :
sj sj 0
De…niţia 1.2.2 Se numeşte punct mediu (centru de greutate) al norului de

puncte-individ fei gni=1 vectorul g0 = (x1 ; : : : ; xp ).
Se observ¼
a c¼
a:
g = X0 D1n unde 10n = (1; : : : ; 1) 2 Rn :
Într-adev¼
ar,
0 10 10 1
x11 x21 : : : xn1 p1 0 : : : 0 1
Bx12 x22 C B C B
: : : xn2 C B 0 p2 : : : 0 C B1C
B C
X0 D1n = B . .. C B .. C B .. C =
@ .. . A @ . A @ .A
x1p x2p xnp 0 0 : : : pn 1
0 10 1
p1 x11 p2 x21 pn xn1 1
Bp1 x12 p2 x22 : : : pn xn2 C B1C
B CB C
= B . .. C B .. C =
@ .. . A @.A
p1 x1p p2 x2p pn xnp 1
X X X 0
pi xi1 pi xi2 : : : pi xip 0
= = x1 x2 : : : xp = g:
i i i
De…niţia 1.2.3 Se numeşte tabel centrat asociat lui X matricea
Y = (yij )j=1;p
i=1;n
unde yij = xij xj :
Se numeşte tabel centrat-redus asociat lui X matricea

yij
Z = (zij )j=1;p
i=1;n
unde zij = :
sj
Lema 1.2.1
a) Y = X 1n g0 = (In 1n 10n D) X.
1 1
b) Z = YD 1 unde D 1 = diag s1 ; : : : ; sp .
s s
c) Matricea de varianţ¼
a-covarianţ¼
a asociat¼
a tabelului X este
V = X0 DX gg0 = Y0 DY:
d) Matricea de corelaţie asociat¼

a tabelului X este
R = D 1 VD 1 = Z0 DZ:
s s
Demonstraţie. a) Conform de…niţiei,

0 1
x11 x1 x12 x2 : : : x1p xp
B x21 x1 x22 x2 : : : x2p xp C
B C
Y = B .. .. C=
@ . . A
xn1 x1 xn2 x2 : : : xnp xp
0 1 0 1
x11 x12 : : : x1p x1 x2 : : : xp
B x21 x22 : : : x2p C Bx1 x2 : : : xp C
B C B C
= B . .. C B .. .. C =
@ .. . A @. .A
xnp xn2 xnp x1 x2 xp
0 1 0 1
x11 x12 ::: x1p 1
B x21 x22 ::: x2p C B1C
B C B C
= B . .. C B .. C x1 x2 : : : xp = X 1n g 0
@ .. . A @.A
xnp xn2 xnp 1
dar
0
X 1n g0 = X 1n X0 D1n =X 1n 10n DX = In 1n 10n D X:
b) Rezult¼ a imediat din de…niţia lui Z:
c) Relaţia V = Y0 DY rezult¼ a din de…niţia lui V: Pe de alt¼
a parte,
X
vkk0 = pi (xik xk ) (xik0 xk0 ) =
i
X X X X
= pi xik xik0 pi xik xk0 pi xk xik0 + pi xk xk0 =
i i i i
X X X X
= pi xik xik0 xk0 pi xik xk pi xik0 + xk xk0 pi =
i i i i
X X
= pi xik xik0 xk0 xk xk xk0 + xk xk0 = pi xik xik0 xk xk0
i i
X
=) V = X0 DX gg0 ; am folosit faptul c¼
a xk = pi xik
i
d)
0
R = D 1 VD 1 = D 1 Y0 DYD 1 = YD 1 D YD 1 = Z0 DZ
s s s s s s
unde prima egalitate rezult¼

a din de…niţia lui R.
Observaţia 1.2.1P
n
Relaţia Z0 DZ = pi ei e0i este o formul¼
a util¼
a implement¼
arii pe calculator a
i=1
metodei deoarece evit¼
a introducerea în memoria RAM a întregii matrici X.
1.2.1.1 SPAŢIUL INDIVIZILOR
S¼
a analiz¼
am exemplul din tabelul 1.2.2.:
MATEMATICA FIZICA ENGLEZA

STUD1 9 8 8
STUD2 10 9 6
STUD3 9 7 10
STUD4 7 5 10
Individul stud1 este “caracterizat”de cele trei note obţinute: 9 la matem-
atic¼
a, 9 la …zic¼a şi 8 la englez¼
a. La fel şi indivizii stud2 stud4. Reamintim
a notaţia pentru individul i este e0i . Aşadar, pentru exemplul de mai sus:
c¼
e01 = (9 8 8), e02 = (10 9 6) etc.
În general, un individ e0i este de…nit de p coordonate corespunzând valo-
rilor celor p variabile m¼ asurate pe acest individ. Îl putem, deci, considera ca un
element dintr-un spaţiu vectorial F Rp , pe care îl numim spaţiul indivizilor
(…g. 1.2.1.). Mulţimea celor n indivizi formeaz¼ a un "nor de puncte-individ"
în spaţiul F, cu g centrul de greutate al norului. În continuare vom înzestra
acest spaţiu cu o metric¼ a ce permite de…nirea distanţei dintre indivizi.
fig. 1.2.1. Principiul reprezentA¼ rii geometrice
Fie M 2Mp;p (R), o matrice simetric¼

a, pozitiv de…nit¼
a, de dimensiune p,
cu coe…cienţi reali.
De…niţia 1.2.4 Se numeşte matricea produsului scalar între indivizi matricea
W = (wij )j=1;n
i=1;n
, unde wij = hei ; ej i
şi hei ; ej i = e0i Mej este produsul scalar pe spaţiul F de…nit de metrica M.
Se observ¼
a c¼
a
W = XMX0
a distanţa dintre doi indivizi, ei şi ej ; din spaţiul F este dat¼
şi c¼ a de relaţia
d2 (ei ; ej ) = hei ej ; ei ej iM = kei ej k2M
În teorie, alegerea metricii depinde de utilizator, singurul care poate pre-

ciza metrica adecvat¼ a. În practic¼
a, metricile cele mai uzitate în ACP sunt:
M = Ip ; ce induce produsul scalar uzual şi distanţa euclidian¼

a;
M = D 1 : Utilizarea acestei metrici revine la adimensionalizarea vari-

s2
abilelor deoarece …ecare valoare este împ¼ arţit¼
a cu abaterea standard de
x
atoare ( sijj ).
selecţie a variabilei corespunz¼
Metrica M = Ip d¼ a …ec¼
arei variabile aceeaşi importanţ¼
a, independent de
dispersia sa. Utilizarea ei va privilegia variabilele cu dispersie mare, pentru
care diferenţele între indivizi sunt mari, şi va neglija diferenţele între cele-
lalte variabile. În schimb metrica M = D 1 echilibreaz¼ a in‡uenţa variabilelor
s2
transformându-le în variabile cu dispersia de selecţie unu.
Observaţia 1.2.2
Dac¼
a M = diag (m1 ; : : : ; mp ) atunci
p
X
d2 (ei ; ej ) = mk (xik xjk )2
k=1
p
iar coe…cienţii mk k=1;p pot … consideraţi ca ponderi ale variabilelor xj în
distanţa dintre indivizi.
Lema 1.2.2
Matricea produsului scalar între indivizi poate … întotdeauna exprimat¼
a în
funcţie de metrica Ip .
Demonstraţie. Într-adev¼ ar, dac¼

a M este simetric¼ a şi pozitiv de…nit¼
a atunci
ea poate … scris¼ a ca M = T0 T (conform algoritmului lui Cholesky din [15]).
Atunci hei ; ej iM = e0i Mej = e0i T0 Tej = (Tei )0 (Tej ) = (Tei )0 Ip (Tej ), ceea
ce înseamn¼ a c¼a W = (XT0 ) Ip (TX0 ), adic¼
a W este matricea produsului scalar
al tabelului XT0 faţ¼
a de metrica M = Ip .
Corolarul 1.2.1
Utilizarea metricii M = D 1 pentru tabelul Y revine la folosirea metricii
s2
M = Ip pentru tabelul centrat-redus Z.
Reamintim c¼ a ipoteza fundamental¼a a unui demers ACP este aceea c¼ a în-
treaga informaţie este conţinut¼
a în distanţele dintre punctele-individ ale noru-
lui. Acest lucru justi…c¼ a”2 .
a introducerea noţiunii de “inerţie total¼
De…niţia 1.2.5 Se numeşte inerţie total¼a (global¼a) a norului de puncte-individ

media ponderat¼ a a p¼atratelor distanţelor de la punctele-individ la centrul de
greutate al norului, adic¼
a:
n
X n
X
Ig = pi (ei g)0 M (ei g) = pi kei gk2M :
i=1 i=1
Prin analogie, inerţia într-un punct oarecare, a 2 Rp , se de…neşte ca …ind

Pn
Ia = pi kei ak2M :
i=1
Propriet¼ aţile inerţiei globale, puse în evidenţ¼

a de enunţurile de mai jos,
sunt utile în demersul ce urmeaz¼ a.
Propoziţia 1.2.1 (formula lui Huygens)
Inerţia faţ¼
a de un punct satisface urm¼
atoarea relaţie:
Ia = Ig + (g a)0 M (g a) = Ig + kg ak2M
Demonstraţie. Într-adev¼
ar,
n
X
Ia = pi (ei a)0 M (ei a) =
i=1
Xn
= pi [(ei g) + (g a)]0 M [(ei g) + (g a)] =
i=1
Xn n
X
= pi (ei g)0 M (ei g) + pi (ei g)0 M (g a) +
i=1 i=1
n
X n
X
+ pi (g a)0 M (ei g) + pi (g a)0 M (g a) :
i=1 i=1
2
Termenul inerţie este împrumutat din mecanic¼
a şi este sinonim, în acest context, cu
termenul statistic dispersie.
Se observ¼
a c¼ a produsul (g a)0 M (g
a primul termen al sumei este chiar Ig , c¼ a)
Pn
nu depinde de i, c¼
a a produsele (ei g)0 M (g a) şi
pi = 1 şi c¼
i=1
(g a)0 M (ei g) sunt scalare. Cu aceasta egalitatea de mai sus devine
" n ! n
!#
X X
0 0 0 0
Ia = Ig + 2 pi ei Mg g Mg + g Ma pi ei Ma +
i=1 i=1
+ kg ak2M
P
n
a b0 = (Mg)0 = (b1 ; : : : ;bp ) şi reamintind c¼
Se noteaz¼ a gj = pi xij rezult¼
a
i=1
n
X X p
X p
X
0 0
pi ei Mg g Mg = pi xij bj gj b j =
i=1 i j=1 j=1
p
! p
X X X
= bj pi xij gj bj = 0:
j=1 i j=1
P
n
Analog g0 Ma pi ei 0 Ma = 0.
i=1
Corolarul 1.2.2
Pentru un nor de puncte-individ dat, g, centrul de greutate al norului, mini-
mizeaz¼
a inerţia total¼
a.
Lema 1.2.3
Inerţia total¼
a este media p¼
atratelor distanţelor dintre punctele-individ, adic¼
a:
n X
X n
2Ig = pi pj kei ej k2M :
i=1 j=1
Demonstraţie. Se aplic¼ a formula lui Huygens pentru …ecare punct-individ,

apoi se adun¼
a cele n relaţii.
p1 Ie1 = p1 Ig + ke1 gk2M
p1 Ie2 = p2 Ig + ke2 gk2M
..
.
p1 Ien = pn Ig + ken gk2M
n
X n
X n
X
pj Iej = pj Ig + pj kei gk2M )
j=1 j=1 j=1
n
X n
X
pj pi kei ej k2M = Ig + Ig :
j=1 i=1
Lema 1.2.4 P
n
1. Ig = tr (MV) = tr (VM), unde cu tr (A) = aii s-a notat urma
i=1
matricii A 2Mn;n (R) :
2. Dac¼a centrul de greutate al norului este în originea axelor de coordonate,

adic¼
a g = 0, atunci Ig = tr (WD) = tr (DW).
Demonstraţie.
1. Într-adev¼
ar
n
X n
X
tr (MV) = tr MY0 DY = Myi pi yi0 = pi (ei g)0 M (ei g) = Ig :
i=1 i=1
Analog tr (VM) = Ig :
P
n
2. Dac¼
a g = 0 atunci Ig = pi ei 0 Mei . Pe de alt¼
a parte,
i=1
n
X n
X
0 0
tr (WD) = tr XMX D = ei Mei pi = Ig = pi ei 0 Mei =
i=1 i=1
= tr DXMX0 = tr (DW) :
Observaţia 1.2.3
1. Dac¼a M = Ip inerţia este egal¼
a cu suma dispersiilor de selecţie a celor p
variabile.
2. Dac¼
a M = D 1 atunci Ig = tr D 1 V = tr D 1 VD 1 = tr (R) =
s2 s2 s s
Pp P
p
rjj = 1 = p; aşa cum rezult¼
a din Lema 1.2.4. Inerţia este, în acest
j=1 j=1
caz, egal¼
a cu num¼
arul variabilelor şi nu depinde de valorile acestora.
1.2.1.2 SPAŢIUL VARIABILELOR

Fiecare variabil¼
a xj poate … considerat¼
a ca un vector al unui spaţiu vec-
n
torial E R numit spaţiul variabilelor. Mulţimea celor p variabile formeaz¼ a
un "nor de puncte-variabil¼ a" în E (…g. 1.2.1.). Metrica utilizat¼a în spaţiul
variabilelor este dat¼
a de D, matricea diagonal¼ a a ponderilor indivizilor. Cu
acestea se observ¼a:
Lema 1.2.5
Dac¼
a variabilele sunt centrate atunci:
a) produsul scalar indus de metrica D este egal cu covarianţa de selecţie

dintre cele dou¼
a variabile necentrate;
b) norma ("lungimea") unei variabile este egal¼

a cu abaterea standard de
selecţie a variabilei necentrate;
c) unghiul dintre dou¼ a variabile este egal cu coe…cientul de corelaţie liniar¼

a
de selecţie al variabilelor necentrate.
ar:
P
n
1. hyj ; yk iD = yj0 Dyk = pi (xij xj ) (xik xk ) = cov (xj ; xk ) :
i=1
P
n
2. kyj k2D = hyj ; yj iD = yj0 Dyj = pi (xij xj )2 =s2 (xj ).
i=1
3. Fie jk unghiul dintre variabilele yj şi yk . Atunci
hyj ; yk iD cov (xj ; xk ) vjk

cos ( jk ) = = = = cor (xj ; xk ) :
kyj kD kyk kD s (xj ) s (xk ) sj sk
Corolarul 1.2.3
a) Mediile de selecţie ale variabilelor fyj gpj=1 sunt nule, dispersiile de se-
lecţie sunt egale cu dispersiile de selecţie ale variabilelor fxj gpj=1 şi coe-
…cienţii de corelaţie de selecţie sunt egali cu coe…cienţii de corelaţie de
selecţie ai variabilelor fxj gpj=1 .
b) Mediile de selecţie ale variabilelor fzj gpj=1 sunt nule, dispersiile de se-
lecţie sunt unitare şi coe…cienţii de corelaţie liniar¼
a de selecţie sunt egali
cu coe…cienţii de corelaţie liniar¼ a de selecţie a variabilelor fxj gpj=1 .
Din cele de mai sus rezult¼
a:
Lema 1.2.6
2
d (zj ; zk ) = 2 (1 rjk )
Demonstraţie.
n
X
2
d (zj ; zk ) = hzj zk ; zj zk i0D = pi (zij zik )2 =
i=1
n
X n
X Xn
2 2
= pi zij + pi zik 2 pi zij zik :
i=1 i=1 i=1
Conform corolarului de mai sus,

n
X n
X
2 2 2 2
pi zij = s (zj ) = 1 = s (zk ) = pi zik şi
i=1 i=1
n
X
pi zij zik = cor (zj ; zk ) = rjk ;
i=1
ceea ce implic¼a relaţia din enunţ.

Sistemul de proximit¼ aţi dintre dou¼ a din E, indus de
a puncte-variabil¼
relaţia din Lema 1.2.6, este familiar statisticianului:
- dou¼a variabile puternic corelate sunt foarte apropiate una de cealalt¼ a

(deoarece rjk 1 implic¼ a d2 (zj ; zk ) 0) sau, din contr¼
a, foarte dep¼ ar-
tate (deoarece rjk 1 implic¼a d2 (zj ; zk ) 4), dup¼
a cum relaţia liniar¼
a
care le leag¼
a este direct¼
a sau invers¼ a;
- dou¼a variabile necorelate, deci ortogonale, sunt la distanţ¼

a medie (deoa-
rece rjk 0 implic¼ 2
a d (zj ; zk ) 2 ).
fig. 1.2.2. CorelaŢ iile Ş i distanŢ ele între punctele-variabilA¼
Proximitatea între dou¼

a puncte-variabile se interpreteaz¼
a, deci, în ter-
meni de corelaţii
fig. 1.2.3. Sistemul de proximitA¼ Ţ i între douA¼ puncte-variabilA¼
Din Corolarul 1.2.3 punctul a) rezult¼ a c¼

a toate punctele-variabil¼ a se a‡a¼
pe hipersfera de raz¼ a 1, centrat¼a în originea axelor. Aceast¼ a hipersfer¼a se
numeşte sfera de corelaţie.
Planurile în care vor … proiectate variabilele intersecteaz¼ a sfera dup¼ a
cercurile diametrale, de raz¼ a 1, numite cercuri de corelaţie, în interiorul c¼
arora
se a‡a¼ proiecţiile punctelor-variabil¼
a.
fig. 1.2.4. Reprezentarea sferei Ş i cercului de corelaŢ ie
Observaţia 1.2.4
Operaţia de centrare a tabelului X are în spaţiile Rp şi Rn interpret¼
ari geo-
metrice diferite.
- În Rp aceast¼a transformare echivaleaz¼

a cu o translaţie a originii axelor
în centrul de greutate (punctul mediu) al norului.
- În Rn aceast¼ a transformare este o proiecţie pe hiperplanul ce trece prin

originea axelor şi este ortogonal pe dreapta ce trece prin originea axelor
şi are ca parametri directori fpi gni=1 . Matricea P = In 1n 10n D aso-
ciat¼ a acestei transform¼ari este idempotent¼ a (P2 = P ) şi M-simetric¼ a
0
(P M = MP ), cu M = In . Ea este matricea proiecţiei M-ortogonale
pe subspaţiul generat de vectorii coloan¼ a liniari P
independenţi ai matricii
Y. Coordonatele acestor vectori satisfac relaţia pi yij = 0; (8) j = 1; p,
i
ce reprezint¼a ecuaţia unui hiperplan în Rn care trece prin originea axelor
şi are ca normal¼a în punctul 0n dreapta de parametri directori fpi gni=1 .
1
Dac¼ a D = n In atunci hiperplanul este ortogonal pe prima bisectoare.
De…niţia 1.2.6 (conform [14]) Se numeşte studiu un triplet (Y; M; D) unde:
- Y este matricea centrat¼

a asociat¼
a tabelului de date indivizi-variabile;
a în spaţiul vectorial al indivizilor, F ;

- M este o metric¼
- D este metrica ponderilor în spaţiul vectorial al variabilelor, E.
Studiul este caracterizat de dou¼

a „obiecte”:
- matricea W = YMY0 a produsului scalar între indivizi;
- matricea V = Y0 DY de varianţ¼
a-covarianţ¼
a a variabilelor centrate.
1.2.2 Analiza general¼

a. Descompunerea în valori singulare
S-a ar¼ atat mai sus cum liniile şi coloanele unui tabel dreptunghiular
permit de…nirea norilor de puncte.
Poziţia punctelor în nor este dat¼a de mulţimea distanţelor între toate
punctele şi determin¼
a forma norului.
fig 1.2.5. Nor de puncte ce ilustreazA¼ o relaŢ ie liniarA¼ între

variabile
fig. 1.2.6. Nor de puncte ce ilustreazA¼ o relaŢ ie neliniarA¼ între

variabile
fig 1.2.7. Nor de puncte ce ilustreazA¼ absenŢ a unei relaŢ ii între

variabile
Forma norului este cea care caracterizeaz¼ a natura şi intensitatea relaţiilor
între indivizi (liniile) şi între variabile (coloanele) şi relev¼a structurile de in-
formaţii conţinute în date.
De exemplu, un nor de puncte alungit uniform de-a lungul unei drepte
(…g. 1.2.5.) traduce existenţa unei relaţii liniare dominante între puncte,
în timp ce o form¼ a parabolic¼ a (…g. 1.2.6.) ilustreaz¼ a existenţa unei relaţii
neliniare iar o form¼ a sferic¼a (…g 1.2.7.) indic¼ a, mai degrab¼ a, absenţa unei
relaţii.
O modalitate simpl¼ a de a reda vizual forma unui nor este aceea de a-l
proiecta pe o dreapt¼ a, sau mai bine pe un plan, minimizând deform¼ arile pe
care aceast¼ a proiecţie le implic¼a; aceasta este esenţa analizei generale. În cele
ce urmeaz¼ a se va prezenta detaliat programul enunţat.
Matricea W = YMY0 este o matrice simetric¼ a, de dimensiune n, al c¼ arui
0
termen general wij = ei Mej este un produs scalar între indivizii i şi j. Indi-
vizii aparţin unui spaţiu vectorial euclidian (F; M) de dimensiune p, deoarece
sunt p variabile.
De…niţia 1.2.7 Se numeşte imagine euclidian¼a a indivizilor asociat¼ a pro-

duselor scalare wij , un nor compus din n puncte A1;:::; An şi dintr-un punct
O din F astfel încât aceste puncte s¼a reconstituie produsele scalare wij , adic¼
a
hOAi; OAj i = wij , (8) i; j = 1; n, unde produsul scalar h ; i este de…nit de
metrica euclidian¼
a Ip .
Matricea V = Y0 DY este o matrice simetric¼ a, de dimensiune p, al c¼

arui
0
termen general vij = yi Dyj este un produs scalar între variabilele i şi j.
Variabilele aparţin unui spaţiu vectorial euclidian (E; D) de dimensiune n (de-
oarece sunt n indivizi).
De…niţia 1.2.8 Se numeşte imagine euclidian¼a a variabilelor asociat¼ a pro-

duselor scalare vij ; un nor compus din p puncte B1;:::; Bp şi dintr-un punct
O din E astfel încât aceste puncte s¼ a reconstituie produsele scalare vij , adic¼
a
hOBi; OBj i = vij , (8) i; j = 1; p; unde produsul scalar h ; i este de…nit de
metrica euclidian¼
a In .
Dac¼a dimensiunea spaţiului vectorial în care se lucreaz¼a este egal¼a cu 3

atunci imaginea euclidian¼ a a unui nor de puncte poate … vizualizat¼ a. Dac¼a
dimensiunea spaţiului este strict superioar¼a lui 3 atunci acest lucru devine
imposibil. În acest caz trebuie c¼autat¼
a o imagine euclidian¼a aproximativ¼ a. S¼
a
not¼
am c¼ a exist¼
a o in…nitate de imagini euclidiene ale aceluiaşi nor de puncte.
Dou¼a imagini euclidiene sunt echivalente dac¼a ele reconstituie aceleaşi produse
scalare.
1.2.1.3 ANALIZA NORULUI DE PUNCTE-INDIVID

S¼a ne plas¼am, mai întâi, în spaţiul F Rp al indivizilor, în care tabelul Y
poate … reprezentat ca un nor de n puncte-individ centrate în punctul mediu
al norului şi ale c¼
aror p coordonate reprezint¼ a liniile lui Y. Principiul metodei
ACP const¼ a în reprezentarea aproximativ¼ a a norului de puncte-individ într-un
subspaţiu de dimensiune mult mai mic¼ a (de regul¼a egal¼a cu 2). Se pleac¼
a, deci,
de la o imagine euclidian¼ a dintr-un spaţiu a…n de dimensiune p şi se ajunge la
o imagine euclidian¼ a într-un spaţiu a…n de dimensiune q p3 .
Demersul de mai sus se realizeaz¼ a prin proiecţia punctelor-individ pe un
subspaţiu Fq de dimensiune q, obţinut astfel încât media p¼ atratelor distanţelor
între proiecţii s¼
a …e maxim¼ a sau, tinând cont de Lema 1.2.3., inerţia norului
proiectat pe Fq s¼ a …e maxim¼ a sau, în …ne, deformarea distanţelor prin proiecţie
s¼
a …e minim¼ a.
Cu notaţiile de mai sus, problema ce trebuie rezolvat¼ a se formuleaz¼ a
astfel:
P
n
"Sa se gaseasca H Fq astf el ^{nc^
at max d2 (yi ; 0) "4
i=1
Soluţia problemei este dat¼

a de urm¼
atoarea teorem¼
a:
Teorema 1.2.1 Subspaţiul de dimensiune q pe care se proiecteaz¼a optim, în

sensul celor mai mici p¼atrate, cele n puncte din Rp este generat de primii q
vectori proprii ai matricii A = VM 2Mp;p (R) corespunz¼atori valorilor proprii
1 > 2 > : : : > q , unde V este matricea de varianţ¼ a-covarianţ¼a asociat¼a
tabelului X şi M este metrica spaţiului indivizilor.
Demonstraţie. S¼ am cu fP1;:::; Pn g proiecţiile pe H ale punctelor fA1;:::; An g
a not¼
şi s¼
a observ¼
am c¼
a:
2 2 2
OAi = OPi + Ai Pi ; i = 1; n;
conform teoremei lui Pitagora, sau

n
X n
X n
X
2 2 2
Ai Pi = OAi OPi ; i = 1; n; (1)
i=1 i=1 i=1
2
Cum OAi sunt …xe pentru i = 1; n, deoarece norul de puncte-individ este dat,
a minimiza deform¼
arile produse prin proiecţii este echivalent cu a minimiza
3
Dac¼a rg(Y) = q atunci problema aproxim¼ arii este practic rezolvat¼
a. Într-adev¼
ar, este
su…cient s¼a g¼
asim o baz¼a a subspaţiului vectorial de dimensiune q din Rp ce conţine norul
de puncte-individ şi s¼
a calcul¼am coordonatele punctelor în noua baz¼ a. Vom putea astfel
reconstitui cei np coe…cienţi ai tabelului Y pornind de la cei qp + np = (n + p)q coe…cienţi
de…niţi mai sus.
4
Dac¼a se lucreaz¼
a pe tabelul X atunci problema se formuleaz¼ a astfel: S¼
a se g¼
aseasc¼a
Pn
2
H Fq astfel încât max d (ei ; g)
(H) i=1
suma ponderat¼a a p¼
atratelor distanţelor de la punctele fA1;:::; An g la subspaţiul
Pn 2 P
n 2
H, adic¼
a a a‡a min pi Ai Pi sau, conform relaţiei (1), max pi OPi .
i=1 i=1
Fie a un vector M-normat din Rp , adic¼
a a0 Ma =1. Coordonata proiecţiei
Pi a punctului Ai pe dreapta 4a având ca suport pe a este OPi = yi0 Ma .
Coordonatele tuturor punctelor Pi pe 4a sunt YMa, de unde rezult¼ a c¼
a:
n
X 2
pi OPi = a0 MY0 DYMa = a0 MVMa = a0 MAa:
i=1
a H =4a ; atunci g¼
Aşadar, dac¼ asirea lui H s-a redus la urm¼
atoarea problem¼
a
de programare p¼atratic¼
a cu restricţii liniare:
max fa0 MAag
(a) :
a0 Ma =1
Pentru a rezolva problema de mai sus se utilizeaz¼ a metoda multiplicatorilor lui
Lagrange (vezi paragraful 1.1.7). Fie, deci, lagrangeanul L = a0 MAa (a0 Ma 1),
cu multiplicator Lagrange. Rezult¼ a
@L
= 2MAa 2 Ma deoarece MA este o matrice simetric¼
a.
@a
Dar
@L
= 0 ) MAa = Ma (2)
@a
Înmulţind la stânga relaţia (2) cu a0 şi ţinând cont c¼
a a este M-normat rezult¼
a
= a0 MAa:
Valoarea parametrului este, deci, maximul c¼ autat. Cum matricea M este

pozitiv de…nit¼
a rezult¼
a c¼
a ea este inversabil¼
a şi înmulţind relaţia (2) la stânga
cu M 1 se obţine
Aa = a;
adic¼
a a este vector propriu al matricii A; corespunzând celei mai mari valori
proprii , dac¼ a aceasta este unic¼
a; s¼
a le not¼
am cu a1 respectiv 1 .
S¼a c¼
aut¼am vectorul a2 din Rp , M-normat şi M-ortogonal pe a1 (adic¼ a
0 0
a2 Ma2 =1 şi a1 Ma2 =0) care maximizeaz¼ a forma p¼atratic¼ 0
a a2 MAa2 . Analog
cu demersul de mai sus, se anuleaz¼ a derivatele lagrangeanului
L = a02 MAa2 2 a02 Ma2 1 0

2 a1 Ma2 :
@L
= 0 ) 2MAa2 2 2 Ma2 2 Ma1 = 0:
@a2
Înmulţind relaţia de mai sus cu a01 la stânga, se obţine
a01 MAa2 0
2 a1 Ma2
0
2 a1 Ma1 = 0; sau
0
2 a1 Ma2 2 = 0) 2 = 0:
R¼
amâne, ca în cazul precedent
MAa2 = 2 Ma2
ceea ce implic¼
a faptul c¼a a2 este al doilea vector al matricii A relativ la a doua
valoare proprie 2 , dac¼ a aceasta este unic¼ a.
Demonstraţia se repet¼a analog pentru ceilalţi vectori M-normaţi, ak 2
Rp , k q; M-ortogonali cu vectorii aj g¼ asiţi înainte (pentru a0k Maj =0; j < k)
şi care maximizeaz¼a forma p¼ atratic¼ 0
a ak MAak . Se obţine MAak = k Mak şi
cum M este inversabil¼ a, Aak = ak .
Observaţia 1.2.5
1. Teorema 1.2.1 poate … demonstrat¼ a folosind formula proiectorului M-
ortogonal pe H (conform [53]) sau bazându-se pe descompunerea M = T0 T
(conform [41]).
2. Cum A este o matrice M-simetric¼ a, pozitiv de…nit¼
a, cu coe…cienţi reali,
valorile sale proprii sunt reale şi pozitive (conform [15]). Vectorii proprii
ai matricii A sunt M-ortonormaţi.
De…niţia 1.2.9 Matricea A se numeşte matricea inerţiei .
De…niţia 1.2.10 Imaginea euclidian¼ a a norului de puncte-individ obţinut¼ a

prin proiecţia pe subspaţiul H dat de Teorema 1.2.1 se numeşte imaginea
euclidian¼a a punctelor-individ asociate aproximaţiei de ordinul q a produselor
scalare.
Lema 1.2.7
p
X
Ig = tr (A) = j
j=1
Demonstraţie. Matricea inerţiei, A = VM, este real¼

a şi M-simetric¼
a. Atunci,
conform [15]
A=L L 1
cu L matricea vectorilor proprii corespunz¼ atori valorilor proprii 1; 2; : : : ; p
ai matricii A şi = diag ( 1 ; 2 ; : : : ; p ). Cu acestea
1 1
tr (A) = tr L L = tr LL ;
deoarece tr (BC) = tr (CB) dac¼
a produsele BC şi CB au sens. Rezult¼
a
p
X
tr (A) = tr ( ) = tr (diag ( 1; 2; : : : ; p )) = j
j=1
şi din Lema 1.2.4 rezult¼

a
Ig = tr (VM) = tr (A) :
De…niţia 1.2.11 Se numesc axe principale de inerţie vectorii proprii, M-

normaţi, aj ; ai matricii de inerţie A .
De…niţia 1.2.12 Se numeşte factor principal asociat axei principale aj şi se

noteaz¼ a din Rp de…nit¼
a cu uj forma liniar¼ a de relaţia uj = Maj :
Lema 1.2.8
Factorii principali fuj gpj=1 sunt vectorii proprii ai matricii MV asociaţi valo-
rilor proprii f j gpj=1 ale matricii A = VM.
ar
MVuj = MVMaj = MAaj = j Maj = j uj

şi uj M 1 uj
0
= a0j MM 1 Mak = 0
aj Mak = jk :
De…niţia 1.2.13 Se numeşte plan factorial principal subsaţiul F2 ; generat de

vectorii fu1 ; u2 g.
De…niţia 1.2.14 Se numeşte component¼a principal¼a asociat¼a factorului prin-

cipal uj şi se noteaz¼
a cu cj forma liniar¼ n
a din R de…nit¼
a de relaţia cj = Yuj .
Observaţia 1.2.6
Din de…niţie, cj este proiecţia M-ortogonal¼
a a indivizilor pe axa principal¼
a
aj . Într-adev¼
ar,
Lema 1.2.9
p
Componentele principale fcj gj=1 sunt vectorii proprii ai matricii WD; asociaţi
valorilor proprii f j gpj=1 ale matricii A. Componentele principale sunt D-
ortogonale, deci necorelate.
Demonstraţie.
WDcj = YMY0 DYMaj = YMVMaj = YMAaj =

= j YMaj = j Yuj = j cj :
c0j Dck = u0j Y0 DYuk = u0j Vuk = a0j MVMak =
= a0j MAak = a0j M ( k ak ) = k a0j Mak = k jk:
Lema 1.2.10
a) Mediile de selecţie ale componentelor principale sunt nule (pe datele
centrate şi centrat-reduse).
b) Dispersia de selecţie a componentei principale cj este j - valoarea pro-

prie a matricii inerţiei, A, pentru (8) j = 1; p.
Demonstraţie.
1. Într-adev¼
ar, cum cj = Yuj ; atunci
n n p p n
!
X X X X X
m (cj ) = pi cij = pi yik ukj = pi yik ukj =
i=1 i=1 k=1 k=1 i=1
Xp
= m (yk ) ukj = 0;
k=1
conform Corolarului 1.2.3. Analog pentru cj = Zuj :
2.
s2 (cj ) = c0j Dcj = u0j Y0 DYuj = u0j Vuj = a0j MVMaj =

= a0j MAaj = a0j M ( j aj ) = 0
j aj Maj = j:
Propoziţia 1.2.2
1. Componentele principale sunt combinaţii liniare de variabilele iniţiale,
a şi care satisfac restricţiile u0j M 1 uj = 1.
de dispersie maxim¼
p
2. În cazul unei ACP normate, componentele principale fcj gj=1 asoci-
p
ate valorilor proprii f j gj=1 ale matricii A sunt variabilele cele mai
"legate" de variabilele iniţiale, z1 ; : : : ; zp ; în sensul c¼
a suma p¼ atratelor
coe…cienţilor de corelaţie fcor (cj ; zk )gpk=1 este maxim¼ a, pentru oricare
j = 1; p.
Demonstraţie.
a) S¼
a consider¼
am o combinaţie liniar¼
a de variabilele iniţiale x1 ; : : : ; xp ; …e
P
p
aceasta c = uj xj sau vectorul c = Xu. Ne propunem s¼ a g¼ asim pe
j=1
u0 = (u1 ; : : : ; up ) astfel încât
max s2 (cj ) max c0 Dc max u0 X0 DXu

(u) , (u) , (u)
u M 1u
0 =1 u0 M 1 u =1 u0 M 1 u =1
Soluţia problemei de programare p¼ atratic¼
a cu restricţii liniare de mai
sus este, conform unui raţionament analog cu cel din Teorema 1.2.1,
vectorul propriu u1 al matricii MV asociat celei mai mari valori proprii
1 (cum MV este simetric¼ a şi pozitiv de…nit¼a, 1 exist¼
a, este real şi strict
pozitiv). Dar u1 este, conform de…niţiei, chiar factorul principal rezultat
dintr-o ACP pe tabelul X iar valoarea maxim¼ a a funcţiei este 1 .
b) S¼
a reamintim mai întâi c¼
a, în cazul unei ACP normate, X ! Z şi M =
Ip . Cu acestea:
cov2 (c; zj ) (c0 Dzj )2

cor2 (c; zj ) = =
s2 (c) s2 (zj ) s2 (c)
p
X p
1 X 0 0
cor2 (c; zj ) = c Dzj c0 Dzj =
s2 (c)
j=1 j=1
0 1
Xp
1
= c0 D @ zj z0j A Dc;
s2 (c)
j=1
P
p P
p
c0 DZZ0 Dc
şi cum zj z0j = ZZ0 rezult¼
a cor2 (c; zj ) = c0 Dc : Problema s-a
j=1 j=1
0 0
asi max c DZZ
redus la a g¼ c0 Dc
Dc
.
(c)
S¼
a remarc¼
am c¼a DZZ0 D şi D sunt matrici reale, simetrice şi de ordin n.
Un punct de extrem al câtului de mai sus se obţine anulând derivata sa, ceea
ce implic¼
a
(c0 Dc) (2DZZ0 Dc) (c0 DZZ0 Dc) (2Dc)
= 0:
(c0 Dc)2
Din (c0 Dc) DZZ0 Dc = (c0 DZZ0 Dc) Dc rezult¼

a
1 c0 DZZ0 Dc
D DZZ0 D c = c:
c0 Dc
Prin urmare, c este vectorul propriu al matricii ZZ0 D; asociat valorii proprii
0 0
= c DZZc0 Dc
Dc
: Maximul este, deci, atins dac¼ a aceast¼a valoare proprie este
cea mai mare.
Din ipotez¼ a, c este o combinaţie liniar¼
a de variabile iniţiale, adic¼
a c = Zu.
Înlocuind în relaţia de mai sus se obţine
ZZ0 DZu = Zu
şi cum Z0 DZ = R ) ZRu = Zu iar Z este de rang p, rezult¼ a Ru = u, adic¼ a

u este vectorul propriu al matricii R; asociat valorii proprii maxime. În ACP
normat A = R şi axele principale coincid cu factorii principali, deci c = Zu
este chiar componenta principal¼ a obţinut¼
a prin proiecţia indivizilor pe axa
principal¼
a a u.
Un rezumat al elementelor principale ce intervin într-o ACP pe norul de
puncte-indivd se g¼aseşte în tabelul de mai jos:
tabelul 1.2.4. ProprietA¼ Ţ ile elementelor principale dintr-o acp

pe norul de puncte-individ
Elemente principale De…niţie Propriet¼

aţi Relaţii
Axe principale: VMa = a M-ortonormate

a 2 Rp
Factori principali: u = Ma M 1- ortonormaţi MVu = u

u 2 (Rp )?
Componente principale: c = Yu D-ortogonale WDc = c

c 2 Rn sau c = Zu s2 (c) = şi analoaga
1.2.2.1 ¼
ANALIZA NORULUI DE PUNCTE-VARIABILA
S¼
a consider¼am acum spaţiul E Rn ; al variabilelor, în care tabelul Y
poate … reprezentat ca un nor de p puncte-variabil¼ a ale c¼ aror n coordonate
reprezint¼a coloanele lui Y.
Principiul metodei ACP în acest caz este identic cu cel utilizat pentru
reprezentarea norului de puncte-individ şi const¼ a în g¼asirea axelor principale
şi a subspaţiului a…n q dimensional, Eq Rn ; generat de aceste axe şi care
aproximeaz¼ a optim norul de puncte-variabil¼ a. Aceasta înseamn¼ a s¼
a …e max-
imizat¼ a media p¼ atratelor distanţelor dintre cele p proiecţii pe Eq , adic¼a de
rezolvat problema de programare p¼ atratic¼
a cu restricţii liniare
max b0 DYMY0 Db
(b) :
b0 Db =1
Teorema 1.2.1 arat¼ a b este vectorul propriu al matricii B = YMY0 D

a c¼
(D-simetric¼a, real¼
a), corespunzând celei mai mari valori proprii . Ecuaţia
axei factoriale b din Rn este:
YMY0 Db = b
:
b0 Db =1
ecuaţia factorului principal v din (Rn )? este v = Db şi ecuaţia componentei

principale d din Rp este d = Y0 v sau d = Z0 v. Analog ca în cazul norului de
puncte-individ se poate enunţa
Lema 1.2.11
a) Factorii principali vi 2 (Rn )? ; i = 1; n sunt D 1 -ortonormaţi şi satisfac
relaţiile DYMY0 vi = i vi .
b) Componentele principale di 2 Rp ; i = 1; n sunt M-ortogonale, au dis-

a cu şi satisfac relaţiile X0 DXMdi = i di .
persia de selecţie egal¼
Demonstraţie.
a) Într-adev¼
ar
vi0 D 1
vj = b0i DD 1
Dbj = b0i Dbj = ij şi
0 0
DYMY v = DYMY Db = Db = v:
b) Într-adev¼
ar
d0i Mdj = vi0 YMY0 vj = b0i D YMY0 Dbj =

= b0i D j bj = j b0i Dbj = j ij ;
X DXMd = X DXMX v = X D XMX Db = X0 D ( b) = d;
0 0 0 0 0
s2 (d) = d0 Md = v0 XMX0 v = b0 DXMX0 Db =

= b0 D ( b) = b0 Db = :
De…niţia 1.2.15 Se numeşte cerc de corelaţie principal subspaţiul E2 generat

de vectorii fv1 ; v2 g.
În cazul ACP normat norul de puncte-variabil¼ a se a‡a¼ pe hipersfera de
corelaţie deci planul factorial va intersecta aceast¼a hipersfer¼a dup¼a un cerc
diametral (vezi Corolarul 1.2.3 şi Observaţia 1.2.4).
Un rezumat al elementelor principale ce intervin într-o ACP pe norul de
puncte-variabil¼a se g¼
aseşte în tabelul de mai jos:
tabelul 1.2.5. ProprietA¼ Ţ ile elementelor principale dintr-o acp

pe norul de puncte-variabilA¼
Elemente De…niţie Propriet¼

aţi Relaţii
principale
Axe principale: YMY0 Db = b D-ortonormale
b 2 Rn
Factori principali: v = Db D 1- ortonormaţi DYMY0 v = v

v 2 (Rn )?
Componente d = Y0 v M-ortogonale X0 DXMd = d

principale: sau d = Z0 v s2 (d) = şi analoaga
d 2 Rp
1.2.2.2 RELAŢII DE TRANZIŢIE ÎNTRE CELE DOUA ¼ SPAŢII

Se observ¼
a c¼
a, din punct de vedere numeric, o analiz¼ a în componente principale
a unui studiu se reduce la calculul primelor q valori şi vectori proprii asociaţi
ai matricilor VM = Y0 DYM 2 Mp;p (R) şi WD = YMY0 D 2Mn;n (R). O
întrebare natural¼
a este urm¼atoarea: exist¼
a o relaţie între elementele principale
dintr-o ACP pe spaţiul (F; M) şi elementele principale dintr-o ACP pe spaţiul
(E; D)? R¼aspunsul la aceast¼a întrebare este oferit de urm¼ atoarea propoziţie:
Propoziţia 1.2.3
(relaţia de tranziţie între spaţiul indivizilor si spaţiul variabilelor)
Toate valorile proprii nenule ale matricilor Y0 DYM şi YMY0 D sunt egale
având, eventual, acelaşi ordin de multiplicitate şi, pentru j 6= 0; sunt ade-
v¼
arate urm¼ a spaţii, F Rp şi E Rn :
atoarele relaţii de tranziţie între cele dou¼
bj = p1 YMaj = p1 Yuj = p1 cj
j j j
; j = 1; rg (Y0 Y):
aj = p1 Y0 Dbj = p1 Y0 vj = p1 dj
j j j
Demonstraţie. În Rp exist¼
a relaţia
Y0 DYMaj = j aj (1)
iar în Rn relaţia
YMY0 Dbj = j bj (2)
Înmulţind la stânga egalitatea (1) cu YM se obţine
YMY0 D (YMaj ) = j (YMaj ) (3)
relaţie care arat¼

a c¼ arui vector propriu aj al lui Y0 DYM corespunz¼
a oric¼ ator
unei valori proprii j 6= 0 îi corespunde un vector propriu YMaj al matricii
YMY0 D relativ la aceeaşi valoare proprie j . Cum cu 1 a fost notat¼ a valoarea
proprie maxim¼ a a matricii YMY0 D rezult¼ a, în mod necesar, c¼
a 1 1 .
Pe de alt¼ 0
a parte, înmulţind la stânga egalitatea (2) cu Y D se obţine
Y0 DYM Y0 Dbj = j Y0 Dbj (4)
relaţie care arat¼

a c¼ arui vector propriu bj al lui YMY0 D corespunz¼
a oric¼ ator
0
unei valori proprii j 6= 0 îi corespunde un vector propriu Y Dbj al matricii
Y0 DYM relativ la aceeaşi valoare proprie j . Cum cu 1 a fost notat¼ a valoarea
proprie maxim¼ a a matricii Y0 DYM rezult¼ a, în mod necesar, c¼a 1 1 , ceea
ce arat¼ a, în …nal, c¼
a 1 = 1.
Analog se poate ar¼ ata c¼
a toate valorile proprii nenule ale celor dou¼ a
0 0
matrici, Y DYM şi YMY D; sunt egale, având eventual acelaşi ordin de
a5 :
multiplicitate, adic¼
j = j 6= 0, j = 1; rg (Y0 Y)
j = 0; j = rg (Y0 Y) + 1; p
j = 0, j = rg (Y0 Y) + 1; n
(se poate ar¼

ata uşor, având în vedere propriet¼ aţile matricilor M şi D, c¼ a
0 0 0 0
rg (Y DYM) = rg (Y Y) = rg (YMY D) = rg (YY )).
Revenind la relaţia (3) se observ¼
a c¼
a aceasta este veri…cat¼a de orice vec-
tor de forma b =kYMa, cu k constant¼ a ce se determin¼a din condiţia de D-
ortonormalitate a lui b. Într-adev¼ar:
1 = b0 Db =k 2 a0 MY0 DYMa =k 2 a0 M ( a) = k 2 a0 Ma =k 2 ;
a k = p1 deci b = p1 YMa dac¼

ceea ce implic¼ a 6= 0.
a de orice vector de forma a =kY0 Db
Analog, relaţia (4) este veri…cat¼
cu k constant¼a ce se determin¼ a din condiţia de M-ortonormalitate a lui a. Se
obţine k = p1 deci b = p1 YMa = p1 YMa pentru = 6= 0.
Observaţia 1.2.7
1. Propoziţia 1.2.3 demonstreaz¼ a c¼
a este su…cient s¼ a calcul¼
am valorile şi
vectorii proprii ai matricii cu dimensiunea cea mai mic¼ a iar apoi, prin
relaţiile de tranziţie, s¼
a obţinem elementele pincipale din cel¼ alalt spaţiu.
Cum, în general, num¼ arul de variabile este mai mic decât num¼ arul de
indivizi, adic¼ a p < n, este su…cient ca analiza în componente principale
s¼
a se efectueze pe norul de puncte-individ, elementele principale pentru
norul de puncte-variabi¼ a obţinându-se prin relaţiile de tranziţie.
2. Coordonalele punctelor pe o ax¼ a factorial¼a în Rp sunt proporţionale cu

componentele axei factoriale din Rn corespunz¼ atoare aceleiaşi valori pro-
0
prii şi reciproc. Într-adev¼
pa r c = Xu şi
p d = X v şi tinând cont de relaţiile
de tranziţie rezult¼ac= b şi d = a.
Referitor la analiza în componente principale trebuie s¼
a remarc¼
am:
3. Orientarea axelor factoriale este arbitrar¼a deoarece vectorii proprii sunt

determinaţi modulo semnul lor. Acest lucru nu împieteaz¼ a asupra formei
norului, adic¼
a a distanţelor între puncte.
4. Analiza în componente principale nu pune în evidenţ¼ a decât leg¼

aturile
liniare între variabile. Un coe…cient de corelaţie slab între dou¼a variabile
semni…c¼ a doar c¼ a acestea sunt independente liniar, în timp ce poate
exista o relaţie de ordin superior lui 1 (relaţie neliniar¼
a).
5
În relaţiile al¼
aturate, ca şi în cele ce urmeaz¼
a, se utilizeaz¼
a convenţia: în Relaţie(j),
j = a; b; dac¼
a a > b atunci Relaţie(j) nu exist¼a.
5. Coordonata unui punct-variabil¼ a zk pe axa bj este mai mic¼ a sau egal¼a

cu 1 în valoare absolut¼ a, ne…ind altceva decât coe…cientul de corelaţie
al variabilei cu factorul vj considerat ca o variabil¼ a arti…cial¼
a ale c¼
arui
coordonate sunt date de cele n proiecţii ale indivizilor pe aceast¼ a ax¼
a,
conform relaţiilor de tranziţie. În plus, în cazul datelor centrat-reduse,
Pp
cor2 (zk ; vj ) = a0k Mak = 1 .
j=1
1.2.2.3 RECONSTITUIREA DATELOR INIŢIALE
Metodele de analiz¼ a factorial¼

a rezid¼
a toate pe reprezentarea geometric¼ aa
unei propriet¼ aţi a matricilor dreptunghiulare şi anume descompunerea în valori
singulare. Descompunerea a fost obţinut¼ a de Eckart şi Young în 1936 pentru
matrici dreptunghiulare şi generalizeaz¼ a lucr¼arile lui Sylvester din 1889 relativ
la matrici p¼ atratice; Gi… în [28] menţioneaz¼ a, relativ la aceast¼ a problematic¼ a,
şi lucr¼
arile lui Beltrami din 1873 şi pe acelea ale lui Jordan din 1874.
În principal, descompunerea în valori singulare semni…c¼ a faptul c¼a, în
condiţii destul de generale, o matrice dreptunghiular¼ a poate … reprezentat¼ a în
mod unic ca o „sum¼ a optimal¼ a” (în sensul minimului celor mai mici p¼ atrate)
de matrici de rang 1 (produse de matrici coloan¼ a cu matrici linie). În cazul
acesta, pornind de la relaţia c = Yu, înmulţind la dreapta(membrii egalit¼ )aţii
Pp
cu u0 M 1 şi sumând dup¼ a num¼ arul de axe6 se obţine Y uj u0j M 1 =
j=1
P
p P
p
cj u0j M 1. Dar uj u0j M 1 = 1 c¼
aci uj sunt M 1 -ortonormaţi, deci
j=1 j=1
P
p
Y= cj u0j M 1:
j=1
Relaţia de mai sus se numeşte formula de reconstituire a tabelului de
date Y pornind de la componentele şi factorii principali. Analog, se poate
reconstitui tabelul X şi, de asemenea,
p
X
0 1
MV = j uj uj M şi
j=1
Xp
0
VM = j aj aj M:
j=1
Dac¼ a M = I, adic¼ a în cazul metricii euclidiene, axele principale coincid

cu factorii principali şi, conform formulelor de tranziţie, se obţine formula de
6
Unii vectori proprii b pot s¼a corespund¼
a unei valori proprii nule. În acest caz ei sunt
aleşi astfel încât s¼
a completeze baza ortonormat¼
a format¼ a din axele precedente.
reconstituire
p
X p
X p
Y= cj u0j = 0
j vj uj
j=1 j=1
cu vj vectori proprii normaţi ai matricii YY0 şi uj vectori proprii normaţi ai

matricii Y0 Y.
Dac¼ a în formula de mai sus sumarea se face doar dup¼ a primii q < p
termeni atunci se obţine cea mai bun¼ a aproximare, în sensul celor mai mici
p¼
atrate, a lui Y printr-o matrice de rang q (desigur dac¼ a în sumarea de mai
sus valorile proprii sunt ordonate descresc¼
ator). S¼a observ¼am c¼a, privite doar
din acest punct de vedere, metodele de analiz¼ a factorial¼a se reduc la metode
de compresie a datelor.
1.2.3 Interpretarea şi calitatea rezultatelor unei ACP

ACP construieşte variabile noi, arti…ciale şi reprezent¼ ari gra…ce ce permit
vizualizarea relaţiilor între variabile şi a eventualelor grupe de indivizi şi de
variabile. Interpretarea rezultatelor este o faz¼ a delicat¼
a ce trebuie întreprins¼
a
respectând urm¼ atoarele etape:
1. studiul calit¼
aţii reprezent¼
arilor în planurile factoriale;
2. interpretarea rezultatelor pornind de la datele utilizate în ACP (inter-

pretarea „intern¼
a”);
3. interpretarea rezultatelor pornind de la indivizi şi / sau variabile su-

plimentare care nu au fost utilizate în construirea reprezent¼
arilor ACP
(interpretarea „extern¼
a”);
4. reprezentarea simultan¼
a a indivizilor şi variabilelor ce fac obiectul ACP.
¼
1.2.3.1 CALITATEA REPREZENTARILOR ÎN PLANURILE FAC-
TORIALE
Axele factoriale permit obţinerea celei mai bune vizualiz¼ ari aproximative,
în sensul celor mai mici p¼ atrate, ale distanţelor dintre indivizi, respectiv dintre
variabile. În acest sens, primul demers care se impune este legat de m¼ asurarea
calit¼
aţii acestei aproxim¼ari.
Se observ¼ a c¼
a, dac¼
a ultimele p q valori proprii ale matricii Y; ordonate în
prealabil descresc¼ ator, sunt considerate "neglijabile" atunci, conform descom-
Pq p
punerii în valori singulare, Y Y? = 0
j vj uj în cazul metricii euclidiene.
j=1
Aceasta înseamn¼ a c¼
a cei np coe…cienţi ai matricii Y pot … reprezentaţi doar
prin cei q(n + p) termeni ai sumei de mai sus, ceea ce reprezint¼ a, din punct
de vedere numeric, un câştig important dac¼ a q p. Cu acestea, o m¼

asur¼
a
natural¼
a a calit¼
aţii aproxim¼
arii este dat¼
a de raportul
PP ?
2
pi pj yij
i j
q = PP 2
pi pj yij
i j
sau, conform Lemei 1.2.7

P
q P
q
j j
tr (Y? )0 DY? j=1 j=1
q = = = :
tr (Y0 DY) Pp
Ig
j
j=1
Raportul q 1 se numeşte rata inerţiei sau procentul de dispersie da-

torat primilor q factori. Interpretarea sa ca m¼ asur¼
a a calit¼
aţii numerice a
aproxim¼arii este destul de clar¼
a dar semni…caţia sa statistic¼a este delicat¼
a.
Într-adev¼
ar, din punct de vedere statistic, interpretarea rapotului comport¼ a
dou¼a aspecte:
- alegerea num¼
arului de axe principale;
- g¼
asirea intervalului de încredere pentru dispersia coordonantelor punctelor-
individ pe axa principal¼ a corespunz¼
atoare.
Principalul scop al ACP constând în reducerea dimensiunii spaţiului in-

divizilor, alegerea lui q - num¼ arul de axe principale ce trebuie reţinute, este o
problem¼ a important¼ a care, din p¼acate, nu are o soluţie riguroas¼
a. S¼
a remar-
c¼
am, înainte de toate, c¼ a reducerea dimensiunii nu este posibil¼ a decât dac¼ a
exist¼
a o redundanţ¼ a între variabilele. Dac¼
a acestea sunt independente, ceea ce
este un rezultat important în sine, ACP va … ine…cient¼ a în reducerea dimen-
siunii. Exist¼a mai multe proceduri care s¼ a ghideze alegerea num¼ arului de axe
(vezi [41]). În cele ce urmeaz¼ a ne vom opri asupra:
a) regulilor empirice, şi
b) criteriilor bazate pe anumite propriet¼

aţi statistice ale valorilor proprii.
a)Reguli empirice Regulile empirice se bazeaz¼ a pe forma secvenţei de va-

lori proprii; dou¼a reguli, atribuite lui Cattell şi respectiv Kaiser vor … citate
cu titlu istoric.
Regula „cotului” (sau the scree-test) introdus¼ a de Cattell în 1966 (vezi,
de exemplu, [41]) const¼ a în studiul histogramei valorilor proprii ordonate de-
scresc¼
ator în vederea decel¼ arii unei schimb¼
ari de pant¼ a urmând a … reţinute
acele valori proprii, deci num¼ ar de axe, a‡ate la stânga punctului „de discon-
tinuitate” observat.
Fundamentarea criteriului cotului este dat¼ a de observaţia c¼

a valorile pro-
prii descresc regulat dac¼ a datele sunt puţin structurate (variabilele nu sunt
prea corelate între ele); se poate deci presupune c¼ a a intervenit un factor de
structurare de …ecare dat¼ a când diagrama valorilor proprii prezint¼ a o schim-
bare evident¼ a de pant¼ a.
Al doilea criteriu empiric este cel enunţat de Kaiser în 1961 (vezi, de
exemplu, [41]) ce recomand¼ a reţinerea acelor valori proprii superioare mediei
tuturor valorilor proprii (s¼ a remarc¼ am, conform Lemei 1.2.7 şi Observaţiei
1.2.3, c¼
a în cazul ACP normate media valorilor este 1). Datorit¼ a simplit¼aţii
sale, acest criteriu este foarte r¼
aspândit şi implementat drept criteriu standard
în majoritatea pachetelor de programe de analiz¼ a factorial¼
a.
b)Criterii bazate pe propriet¼ aţile statistice ale valorilor proprii Lu-

cr¼
arile relative la studiul distribuţiei valorilor şi vectorilor proprii cât şi lu-
cr¼
arile relative la comportamentul asimptotic al acestor elemente sunt în num¼ ar
mare dar puţine rezultate sunt utilizabile practic. Cu excepţia menţiunilor ex-
plicite toate rezultatele ce vor … prezentate presupun c¼ a observaţiile, în num¼ ar
de n, urmeaz¼ a o lege normal¼ a p-dimensional¼ a Np ( ; ). În 1951, Bartlett
propune o metod¼ a pentru testarea egalit¼ aţii a p q valori proprii ale matri-
cilor sau R. Lawley este cel care, în 1956, aprofundeaz¼ a studiul la cazul celor
mai mici p q valori proprii ale lui . Anderson, generalizeaz¼ a în 1963 aceste
rezultate şi determin¼ a legile limit¼a ale valorilor proprii f¼
ar¼a s¼
a presupun¼ a, în
mod necesar, c¼ a valorile teoretice corespunz¼ atoare sunt distincte. El demon-
streaz¼a în particular, pentru a testa egalitatea celor mai mici r valori proprii
bj ale matricii de covarianţ¼ a de selecţie corectate, V? = nn 1 V, c¼ a statistica
1 P
p
bj
r
j=p r+1
X 2 = nr log !1
p
Q
p
bj
j=p r+1
a 2 cu r(r+1)
este asimptotic distribuit¼ 2 1 grade de libertate.
Legat de g¼
asirea intervalului de încredere pentru dispersia coordonatelor
punctelor-individ pe axa principal¼ a, reamintim c¼ a aceasta este egal¼
a cu val-
oarea proprie corespunz¼ atoare (conform Lemei 1.2.10). T.W.Anderson a ar¼ a-
p
tat c¼
a ,dac¼
a valorile teoretice j ale lui sunt distincte , n 1 j b j
converge c¼ a N 0; 2 2j . Se deduce imediat c¼

atre o lege normal¼ a intervalul de
încredere cu pragul de semni…caţie de 95% este:
p p
bj 1 1; 96 2= (n 1) < j < bj 1 + 1; 96 2= (n 1) :
Lungimea intervalului este o indicaţie asupra stabilit¼ aţii valorii proprii

faţ¼
a de ‡uctuaţiile eşantionului presupus repartizat gaussian. Intersecţia in-
tervalelor a dou¼a valori proprii consecutive sugereaz¼a, deci, egalitatea acestor
valori proprii. Axele corespunz¼ atoare sunt atunci de…nite modulo o rotaţie,
ceea ce permite utilizatorului s¼ a evite interpretarea unei axe instabile dup¼ a
acest criteriu.
O îmbun¼ at¼
aţire a criteriului lui Kaiser este dat¼
a în 2000 de En¼
achescu şi
En¼achescu. Aceştia demonstreaz¼ a c¼
a, în cazul analizei în componente princi-
pale normate, bi este semni…cativ mai mare decât unu dac¼ a
r
bi > 1 + 2 p 1 :
n 1
Generaliz¼ ari ale rezultatelor asimptotice ale lui T.W.Anderson la cazul
ne-gaussian se pot g¼ asi, printre alţii, în [13] f¼
ar¼
a a avea, îns¼ a, o utilizare prac-
tic¼
a.
Intervalele de încredere ale lui Anderson se refer¼ a atât la valorile proprii
ale matricilor de covarianţ¼ a cât şi la valorile proprii ale matricilor de corelaţie.
Simul¼ arile întreprinse au ar¼ atat c¼ a rezultatele obţinute sunt în general „pru-
dente”: procentul de acoperire al adev¼ aratei valori proprii este cel mai adesea
superior pragului de semni…caţie anunţat ([41]). În orice caz, natura asimp-
totic¼a a rezultatelor ca şi ipoteza subiacent¼ a de normalitate, fac ca acestea s¼ a
aib¼a doar un caracter indicativ.
Concluzionând asupra calit¼ aţii reprezent¼arilor în planurile factoriale vom
spune c¼ a rata inerţiei de…neşte "puterea explicativ¼ a" a factorilor; ea reprezint¼ a
partea din dispersia total¼ a datorat¼ a celor q factori reţinuţi. Aceast¼ a apreciere
trebuie s¼ a ţin¼
a cont atât de num¼ arul de indivizi cât şi de num¼ arul de varia-
bile; o rat¼a de inerţie (relativ la o ax¼ a) de 10% poate … o valoare important¼ a
dac¼a tabelul posed¼ a 100 de variabile şi poate … o valoare neglijabil¼ a dac¼
a nu
sunt decât 10 variabile. Rata inerţiei este deci o m¼asur¼a pesimist¼a a calit¼ aţii
proiecţiei imaginii euclidiene a indivizilor. Rata inerţiei este, în plus, o m¼a-
sur¼a globl¼a a calit¼aţii reprezent¼arii în planul factorial. Ea trebuie completat¼ a
cu alte m¼ asuri, locale, ale calit¼aţii acestei reprezent¼ ari.
Printre m¼ asurile locale cele mai "populare" se num¼ ar¼a cea a cosinusului
p¼atrat al unghiului dintre planul factorial şi vectorul cu originea în proiecţia
centrului de greutate al norului şi cu vârful în punctul-individ. Fundamentarea
teoretic¼a a utiliz¼ arii acestei m¼ asuri se bazeaz¼ a pe faptul c¼ a distanţele între
puncte se deformeaz¼ a prin proiecţie cu atât mai puţin cu cât punctele sunt
mai apropiate de planul în care sunt proiectate (desigur, cazul în care punctele
se a‡a¼ pe o dreapt¼ a paralel¼a cu planul de proiecţie este neinteresant în acest
context). Valoarea acestei m¼ asuri este dat¼ a de urm¼ atoarea lem¼ a.
Lema 1.2.12
Calitatea reprezent¼
arii unui punct-individ, Ai , în planul factorial principal este
c21i + c22i
cal (i) =
Pp
c2ji
j=1
Demonstraţie. Fie Ai punctul considerat, Pi proiecţia sa în planul factorial

principal şi G proiecţia centrului de greutate al norului în planul factorial prin-
cipal. Conform de…niţiei componentelor principale, în F, Ai are coordonatele
(c1i ; c2i ; : : : ; cpi ) iar Pi are coordonatele (c1i ; c2i )0 .
!
Cosinusul unghiului dintre GAi şi planul factorial principal este cosinusul
! !
unghiului dintre GAi şi GPi ; notat cu . În triunghiul Ai Pi G, dreptunghic în
!2 !
Pi (din construcţie) cos2 = GP!i 2 şi cum GPi 2 = c21i + c22i , conform teoremei
GAi
c21i +c22i
lui Pitagora, rezult¼
a cos2 = P p :
c2ji
j=1
Un mod mai bun de a a‡a dac¼ a o observaţie este bine reprezentat¼ a într-
un subspaţiu este acela de a da o interpretare statistic¼a p¼atratului distanţei de
la observaţie la acel subspaţiu. Astfel, pentru observaţii repartizate normal,
inerţia global¼
a este o sum¼ a ponderat¼
a de p variabile independente repartizate
2 , adic¼
Pp
2
Pp
2
1 a Ig = j 1:j . Cum, în aceast¼
a ipotez¼a E (Ig ) = j şi D (Ig ) =
j=1 j=1
P
p
2
2 j şi, pe de alt¼
a parte, distanţa de la un punct-individ la planul factorial
j=1
principal este
p
X p
X
2 2
c2ji
d Ai ; w 2 R jw =a1 u1 + a2 u2 = c2ji = j ;
j=3 j=3 j
o modalitate de a da o semni…caţie statistic¼ a acestei distanţe este de a o

a de 21 . Utilizând intervalele de încredere de
compara cu o combinaţie liniar¼
tip 2 se poate conchide c¼
a punctele a‡ate faţ¼
a de planul factorial principal la
o distanţ¼
a mai mare de v
p u X
X u p 2
j + 2 t2 j
j=3 j=3
sunt prost reprezentate în acest subspaţiu cu o probabilitate de 95% (conform

[24]).
Datorit¼a egalit¼ aţii j = j (conform Propoziţiei 1.2.3) m¼asura global¼aa
calit¼
aţii proiecţiei imaginii euclidiene a norului de puncte-variabil¼
a este tot q ;
cu aceleaşi observaţii ca pentru norul de puncte-individ. În ceea ce priveşte
m¼asurile locale trebuie s¼ a remarc¼am c¼a, în cazul punctelor-variabil¼
a intere-
seaz¼a unghiurile dintre proiecţiile vectorilor cu vâfurile în aceste puncte şi nu
proximitatea proiecţiilor în planul factorial principal (cercul de corelaţie în
cazul ACP normate).
1.2.3.2 INTERPRETAREA "INTERNA" ¼ Metoda cea mai nat-

ural¼
a de a da o semni…caţie unei componente principale c este de a o corela
cu variabilele iniţiale xj . În acest sens se vor calcula coe…cienţii de corelaţie
liniar¼
a cor c; xj şi se vor pune în evidenţ¼
a coe…cienţii cu valori absolute mari.
Valorile acestor coe…cienţi sunt date de urm¼ atoarea lem¼ a.
Lema 1.2.13 p
În cazul unei ACP normate cor c; zj = uj .
cov(c;zj ) cov(c;zj )
Demonstraţie. Din de…niţie, cor c; zj = s(c) s(zj ) = p (conform
Corolarului 1.2.3 şi Lemei 1.2.10). Dar cov c; zj = j = c0 Dz
j adic¼
a u0 Z0 Dz
0
este al j-lea coe…cient al vectorului (Z DZ) u. Cum, din 0
p de…niţie, Z DZ = R
şi cum Ru = u (din Lema 1.2.8) rezult¼ a cor c; zj = uj .
Corolarul 1.2.4
Cercul de corelaţie principal este, în spaţiul variabilelor, corespondentul exact
al planului factorial principal.
Demonstraţie. Într-adev¼ ar, în ACP normat¼ a coordonatele proiecţiei unui
punct-variabil¼
p a Bjpsunt (d1j ; d2j ) care, conform formulelor de tranziţie, sunt
egale cu 1 a1j ; 2 a2j . Dar în cazul unei ACP normate axele principale
coincid cu factorii principali deci,
p p p p
(d1j ; d2j ) = 1 a1j ; 2 a2j = 1 u1j ; 2 u2j =
= cor c1 ; zj ; cor c2 ; zj
conform Lemei 1.2.13.

A spune c¼a c1 este foarte corelat¼ a cu o variabil¼
a xj înseamn¼ a c¼
a indivizii
cu o coordonat¼ a pozitiv¼ a mare pe axa unu sunt caracterizaţi de o valoare a
lui xj net superioar¼ a mediei (c¼aci originea axelor principale este în centrul
de greutate al norului de puncte-individ). Reciproc, dac¼ a indivizii nu sunt
anonimi, aceştia pot ajuta la interpretarea axelor şi componentelor principale
(vor … evidenţiaţi, de exemplu, indivizii opuşi de-a lungul unei axe).
O m¼ asur¼
a natural¼ a a contribuţiei unui punct-individ la o ax¼a factorial¼a
este raportul dintre dispersia individului şi dispersia întregii axe. Din Lema
P
n
1.2.10 se cunoaşte faptul c¼a pi c2ji = j ; deci contribuţia individului i la axa
i=n
principal¼
a j este
pi c2ji
crj (i) = :
j
Când indivizii sunt anonimi, adic¼ a au toţi ponderile pi = n1 , contribuţiile

"cr" nu aduc mai multe informaţii decât coordonatele acestora. Dac¼ a cei n
indivizi au aceeaşi pondere, 1=n, inerţia unui punct variaz¼a direct proporţional
cu distanţa la centrul de greutate. Indivizii care contribuie determinant la
inerţia axei sunt cei mai dep¼artaţi de punctul mediu şi lectura coordonatelor
factoriale sau vizualizarea gra…cului sunt su…ciente pentru a interpreta factorii
în acest caz. Prezentarea indivizilor în planul factorial permite s¼ a apreciem
repartiţia lor şi s¼

a reper¼
am zonele de densit¼
aţi mai mari sau mai slabe. Ca o
recomandare general¼ a se va considera important¼a contribuţia care dep¼ aşeşte
ponderea pi a individului, sau 14 în cazul indivizilor anonimi. Dac¼ a p şi n sunt
mari atunci componentele principale sunt deseori considerate ca …ind selecţii
asupra unor variabile aleatoare repartizate normal de medie zero şi dispersie
c2
. În acest caz jij este distribuit¼ a 21 şi o contribuţie mai mare decât 3;84 n
poate … considerat¼ a semni…cativ¼ a cu un prag de încredere de 95% (conform
[24]).
Considerarea contribuţiilor, când acestea nu sunt excesive, ajut¼ a la inter-
pretarea axelor. În mod normal, în special pentru primele axe factoriale, nu
este de dorit ca un individ s¼ a aib¼
a o contribuţie excesiv¼
a c¼
aci acesta poate con-
stitui un factor de instabilitate, adic¼ a omiterea individului poate modi…ca pro-
fund rezultatele analizei. În cazul unui sondaj (indivizi anonimi) contribuţia
excesiv¼a a unui individ este adesea cauzat¼ a de erori de preluare a datelor.
Pentru a pune în evidenţ¼ a aceste anomalii (şi evident pentru a le elimina) C.
şi D.En¼achescu recomand¼ a urm¼ atorul test empiric în cazul unei ACP normate:
dac¼a p¼atratul distanţei de lasun punct-individ la centrul de greutate al
P
p
2
norului este mai mare decât p + 2 2 i atunci observaţia respectiv¼
a poate
i=1
… considerat¼a o valoare aberant¼a.
Într-adev¼ar, dac¼a observaţiile sunt normal distribuite, Ig este o sum¼ a
Pp
ponderat¼a de p variabile repartizate 21 cu media i = p (datorit¼
a datelor
i=1
P
p
2
centrat-reduse) şi dispersia 2 i. Considerând intervalul de încredere de
i=1
95% pentru Ig se obţine marginea din recomandarea de mai sus.
Dac¼ a observaţiile sunt independente atunci i estimate pe baza acestor
P
p
2 P 2
observaţii sunt de medie 1 şi satisfac egalitatea i = p+2 rij . Deoarece
i=1 i>j
media p¼
atratului coe…cientului de corelaţie
! între dou¼ a variabile normale inde-
P 2
p
pendente este n 1 1 rezult¼
a c¼
aE j = p + p(p 1)
n 1 . Revenind la marginea
j=1
pentru valori aberante g¼
asit¼
a mai sus, în cazul independenţei observaţiilor o
putem ra…na înlocuind-o cu
s
p 1
p + 2 2p 1 +
n 1
p
sau p + 2; 8 p; pentru n mare.
Analiza unui nor de variabile facându-se pornind din origine, variabilele
pot … toate situate de aceeaşi parte a unei axe factoriale. O astfel de dispoziţie
apare atunci când toate variabilele sunt corelate pozitiv între ele. În acest
caz c1 , prima component¼ a principal¼a de…neşte un factor de talie. Conform
teoremei lui Perron7 (vezi, de exemplu, [15]) c1 este atunci corelat¼ a pozitiv cu
toate variabilele
( şi indivizii
)n sunt ordonaţi pe prima ax¼
a principal¼
a cresc¼
ator
P p
dup¼a mediile p1 yij . Ortogonalitatea axelor face s¼
a nu existe decât
j=1
i=1
un singur factor de „talie”. A doua component¼ a principal¼
a diferenţiaz¼
a atunci
indivizii de „talie” comparabil¼a şi aceast¼
a component¼a se va numi factor de
form¼a.
1.2.3.3 INTERPRETAREA "EXTERNA": ¼ VARIABILE ŞI IN-

DIVIZI SUPLIMENTARI Interpret¼ arile interne au dezavantajul c¼ a sunt
tautologice: se explic¼ a un rezultat cu ajutorul datelor care au servit la obţinerea
lui. Riscul care apare într-un astfel de caz este acela de a confunda un artefact
introdus de metod¼ a cu un fenomen semni…cativ. Din contr¼ a, dac¼
a se g¼
aseşte o
corelaţie puternic¼a între o component¼ a principal¼a şi o variabil¼
a care nu a fost
utilizat¼a în analiz¼
a, caracterul probant al fenomenului va … mult mai ridicat.
De unde practica frecvent utilizat¼ a de a împ¼ arţi în dou¼a mulţimea variabi-
lelor: o parte din variabile, numite variabile active, vor … utilizate pentru
determinarea axelor principale şi cealalt¼ a parte a variabilelor numite variabile
pasive/suplimentare/ilustrative, vor … corelate à posteriori cu componentele
principale. În plus, variabilele active, de…nite într-un spaţiu şi utilizate la cal-
culul planurilor factoriale, trebuie s¼ a formeze un ansamblu omogen ca textur¼ a
(trebuie, adic¼a, s¼
a aib¼ a aceeaşi natur¼a) pentru ca distanţele între elemente s¼ a
aib¼a un sens. Pentru a interpreta similitudinile între elemente acestea trebuie
s¼
a …e omogene şi în conţinut, adic¼ a s¼
a priveasc¼ a o aceeaşi tem¼ a. Se compar¼ a
obiectele dup¼ a un anumit punct de vedere şi nu utilizând f¼ ar¼
a discern¼amânt
toate atributele cunoscute şi adesea disparate. Variabilele suplimentare nu
sunt îns¼ a supuse acestor condiţii de omogenitate.
Un tratament analog se poate aplica şi mulţimii indivizilor, distingând
între indivizi activi şi indivizi suplimentari care nu particip¼ a la calculul matri-
cilor de covarianţ¼a/corelaţie. Indivizii suplimentari permit veri…carea netau-
tologic¼a a ipotezelor formulate asupra indivizilor activi dup¼ a o ACP.
Se noteaz¼ a cu Y+ 2Mn;s (R)cele s variabile (coloane) continue, ilustra-
tive, şi cu Y+ 2Mt;p (R) cei t indivizi (linii) suplimentari. Dup¼ a eventuala
normare a datelor suplimentare, coordonatele noilor variabile pe axa j sunt
componentele vectorului
0 0
Y+ vj sau Z+ vj
iar coordonatele noilor indivizi pe axa j sunt componentele vectorului
(Y+ ) uj sau (Y+ ) uj

7
Dac¼a o matrice p¼atratic¼
a şi simetric¼
a are toţi coe…cienţii pozitivi atunci valoarea sa
proprie cea mai mare în modul este pozitiv¼ a, r¼
ad¼
acin¼a simpl¼
a a ecuaţiei caracteristice şi i se
asociaz¼
a un vector propriu având componente pozitive.
Dac¼
a variabila suplimentar¼a este nominal¼ a transformarea de mai sus nu
mai poate … aplicat¼a. În aceast¼a situaţie, analiza unei variabile nominale
suplimentare nu se mai face în Rn ci în Rp . Fiecare modalitate a variabilei
nominale este reprezentat¼
a în spaţiul indivizilor prin centrul de greutate al
subnorului de puncte-individ care au ales respectiva modalitate.
1.2.3.4 REPREZENTAREA SIMULTANA ¼ Analiza norului de va-

riabile este dedus¼
a din analiza norului de indivizi: reprezentarea variabile-
lor pe axele factoriale în Rn ajut¼ a la interpretarea axelor factoriale în Rp şi
reciproc. Cei doi nori nu folosesc, îns¼ a, acelaşi reper, ceea ce face imposibil¼
a
reprezentarea simultan¼ a a indivizilor şi variabilelor. Astfel:
- în spaţiul Rp , reprezentarea norului de n puncte-individ se face în reperul

fG; u1 ; : : : ; up g. Reprezentarea indivizilor în planul factorial furnizeaz¼ a
cea mai bun¼ a vizualizare aproximativ¼a a distanţelor între indivizi. Vecin¼
a-
tatea indivizilor în planul factorial se interpreteaz¼ a în termeni de simili-
tudini de comportament faţ¼ a de variabilele observate;
- în spaţiul Rn , reprezentarea norului de p puncte-variabil¼ a se face în

reperul fO; v1 ; : : : ; vn g. Reprezentarea variabilelor în cercul de core-
laţie furnizeaz¼
a o sintez¼ a gra…c¼
a a matricii de corelaţie. Vecin¼atatea
variabilelor în planul cercului de corelaţie se interpreteaz¼a în termeni de
corelaţii.
Luând în considerare cele de mai sus, suprapunerea celor dou¼ a planuri

factoriale este lipsit¼a de sens. Trebuie s¼ a ne ferim a interpreta distanţa
dintre un punct-individ şi un punct-variabil¼ a deoarece aceste puncte
nu fac parte nici din acelaşi nor, nici din acelaşi spaţiu şi nici nu sunt
reprezentate în acelaşi reper.
Dac¼a, îns¼
a, se consider¼a în loc de puncte-variabil¼
a direcţii de variabile în
Rp , atunci se pot reprezenta simultan, în acest spaţiu, atât punctele-individ
cât şi vectorii reprezentând variabilele.
În spaţiul Rp al celor n puncte-individ, dup¼a transformarea tabelului de
date, dispunem de dou¼ a sisteme de axe:
- vechile axe unitare fe1 ; : : : ; ep g corespunzând celor p variabile înainte de

analiz¼ a şi reprezentând sistemul de axe de referinţ¼ a pentru coordonatele
iniţiale ale indivizilor (cu e0j = (0; : : : 0; 1j ; 0; : : : 0) ; j = 1; p);
- noile axe unitare fu1 ; : : : ; up g formate din axele factoriale.
Posibilitatea unei reprezent¼ ari simultane rezid¼ a în acest context în proiecţia,

ca individ suplimentar, a vechii axe ej pe noua ax¼ a uk . Coordonata proiecţiei
a se reprezinte în Rp direcţi-
lui ej pe uk este e0j uk = ukj . Este, astfel, posibil s¼
ile date de variabilele iniţiale pe planul factorial al norului de indivizi. Aceste
direcţii pot … materializate prin vectori unitari. Aceşti vectori constituie repe-
rul originar în care a fost construit norul de indivizi şi sunt, deci, ortogonali
doi câte doi. Este, acum, evident faptul c¼ a aceast¼ a reprezentare a variabilelor
este diferit¼a de reprezentarea norului de variabile descris¼ a mai sus. Ceeace se
va numi reprezentare simultan¼a este, deci, proiectarea reperului ortonormat al
axelor de origine în planul factorial al norului de indivizi.
Se reaminteşte c¼ a, în Rn , în metrica euclidian¼ a, coordonata variabilei j
pe axa k este egal¼ a cu coe…cientul de corelaţie
p (conform formulei de tranziţie)
între variabil¼a şi factor şi este dkj = k ukj . Cei doi nori de variabile nu
coincid.
p Ei difer¼
a unul de cel¼
a lalt, pe …ecare ax¼a, prin coe…cientul de dilataţie
k.
În cazul reprezent¼ arii simultane, care este de fapt o reprezentare în Rn ,
distanţa dintre dou¼ a variabile nu se interpreteaz¼ a în termeni de corelaţie de-
oarece este vorba de extremit¼
p aţile unor vectori ortonormaţi (distanţ¼ a egal¼
a cu
2 în spaţiul complet). Interpretarea distanţei între dou¼ a variabile, în termeni
de corelaţie, nu se poate face decât în Rn (s¼ a observ¼ am, totuşi, c¼
a norul proiec-
tat al extremit¼ p
aţilor vectorilor unitari din R şi norul extremit¼ aţilor vectorilor
variabile în Rn au, în general, forme asem¼ an¼ atoare, mai ales dac¼ a vectorii pro-
prii sunt comparabili, deci dilat¼ arile sunt puţin deformante). Ţinând cont de
aceste consideraţii, este licit s¼a compar¼ am, în reprezentarea simultan¼ a, poziţia
a doi indivizi faţ¼a de ansamblul variabilelor, sau poziţia a dou¼ a variabile faţ¼ a
de ansamblul indivizilor. Astfel, direcţia unei variabile de…neşte zone pentru
indivizi: de o parte indivizii ce iau valori mari pentru aceast¼ a variabil¼ a şi în
partea opus¼ a, indivizii care iau valori mici. Ne vor interesa distanţele între
indivizi în direcţia variabilei. La intersecţia axelor se g¼ asesc valorile medii ale
tuturor variabilelor.
1.2.4 Analize neparametrice

Metodele de analiz¼a neparametric¼a nu difer¼
a de ACP decât printr-o trans-
formare preliminar¼ a a datelor. Aceste metode sunt recomandate atunci când
datele preliminare sunt heterogene, dau rezultate foarte robuste şi se preteaz¼
a
la interpret¼
ari simple în termeni statistici.
1.2.4.1 ANALIZA RANGURILOR În analiza rangurilor, tabelul in-

iţial este transformat în tabel de ranguri. Observaţia i a variabilei j const¼ a,
în acest caz, într-un clasament qij dat de rangul observaţiei i în ordonarea
cresc¼ atoare a celor n realiz¼ ari ale variabilei j. În aceste condiţii, distanţa între
dou¼ a variabile, qj şi qk ; este de…nit¼a de formula:
X n
6
2
d (qj ; qk ) = (qij qik )2 :
n (n 1) (n + 1)
i=1
Recunoaştem în aceast¼
a formul¼
a complementul faţ¼
a de 1 al coe…cientului de
corelaţie Spearman.
Utilizarea rangurilor este justi…cat¼

a în urm¼
atoarele contexte:
datele iniţiale sunt ele însele un clasament, caz în care acest tip de analiz¼
a
se impune;
sc¼
arile de m¼asur¼
a a variabilelor pot … atât de diferite încât operaţia
de reducere practicat¼ a de analiza în componente principale normate nu
este su…cient¼
a. În plus, operaţia de normare nu reduce, de exemplu,
nesimetria distribuţiilor.
atunci când este mai interesant sintetizarea unei familii de clasamente

decât a unei mulţimi foarte eterogene de m¼
asur¼
atori;
ipotezele à priori f¼ acute implicit asupra m¼ asur¼

atorilor sunt mult mai
slabe şi, în consecinţ¼ a, mai puţin arbitrare: legea de repartiţie a dis-
tanţelor este acum neparametric¼ a. Dispunem, deci, de praguri de în-
credere care nu mai depind decât de ipoteza de continuitate asupra dis-
tribuţiilor observaţiilor, mai plauzibil¼
a decât cea de normalitate;
în …ne, reprezent¼
arile obţinute sunt robuste, puţin sensibile la existenţa
valorilor aberante, ceea ce este adeseori o calitate apreciabil¼a.
Regulile de interpretare se deduc din cele ale analizei în componente prin-

cipale deoarece aceasta este analiza ce se aplic¼ a dup¼ a operaţia de transformare
în ranguri. S¼ a not¼am c¼ a, în acest caz, nu este necesar¼ a reducerea tabelului
de date deoarece toate rangurile au aceeaşi dispersie. Proximitatea între dou¼ a
variabile se interpreteaz¼ a în termeni de corelaţie a rangurilor: dou¼ a variabile
sunt apropiate dac¼ a prezint¼ a clasamente asem¼ an¼atoare ale observaţiilor in-
iţiale; dou¼a variabile sunt dep¼ artate dac¼
a prezint¼ a clasamente practic opuse
ale observaţiilor iniţiale. Dou¼ a observaţii vor … apropiate dac¼ a au ranguri
similare pentru …ecare variabil¼ a. S¼
a mai not¼ am c¼ a, în reprezentarea simul-
tan¼ a, se poate avea o idee asupra întregului clasament al observaţiilor pentru
o variabil¼ a examinându-se poziţiile respective ale acestei variabile şi mulţimea
observaţiilor.
În …ne, caracterul neparametric al reprezent¼ arii obţinute permite efectu-
area de teste de validare asupra valorilor proprii. Distribuţia valorilor proprii
obţinute din analiza unui tabel de ranguri nu depinde decât de parametrii n
şi p, num¼ arul de linii şi de coloane al tabelului. Este posibil s¼ a proced¼am la o
listare a pragurilor de încredere a valorilor proprii.
1.2.4.2 ANALIZA ÎN COMPONENTE ROBUSTE Criteriul de

ajustare al celor mai mici p¼ atrate este, în mod particular, adaptat distribuţiei
normale. În cazul unei distribuţii uniforme (cazul analizei rangurilor) acesta
tinde s¼
a dea o importanţ¼ a excesiv¼a observaţiilor extreme. Pentru ca analiza
s¼
a …e mai robust¼ a, distribuţia uniform¼a a rangurilor este "normalizat¼
a".
Fie cea de a k-a observaţie din n observaţii ordonate cresc¼ ator şi …e F
funcţia de repartiţie normal¼
a. Se înlocuieşte observaţia de rang k prin valoarea
k
yk dat¼ a de transformarea yk = F 1 n+1 unde F 1 este inversa funcţiei de
repartiţie normal¼a.
Pentru n mare, transformarea este echivalent¼ a cu înlocuirea celei de a k
observaţii cu media celei de a k observaţii într-un eşantion ordonat de n valori
normale.
1.2.5 Alte metode derivate

Numeroase tehnici sunt direct derivate din analiza în componente prin-
cipale - variantele neparametrice din paragraful precedent sunt un astfel de
exemplu.
Unele prezent¼ ari ale analizei de corespondenţ¼ a consider¼a aceast¼ a metod¼ a
ca o analiz¼a în componente principale particular¼ a. Aceasta este posibil dac¼ a se
trateaz¼ a cele dou¼a spaţii –al liniilor şi al coloanelor –separat, dar nu aceasta
este optica aleas¼ a aici. Acest tratament separat mascheaz¼ a unul dintre apor-
turile metodologice fundamentale ale analizei factoriale descriptive. Analiza
în componente principale, …e c¼ a este vorba de analiza normat¼ a sau nenormat¼ a,
analizeaz¼ a indivizii în raport cu centrul lor de greutate şi variabilele în raport
cu originea axelor. Aceast¼ a asimetrie de tratament corespunde la domenii de
aplicaţie speci…ce şi induce reguli de interpretare particulare. Descompunerea
în valori singulare (sau înc¼ a analiza general¼ a, sau teorema lui Eckart şi Young)
formeaz¼ a miezul teoretic comun al celor dou¼ a metode.
Vom cita, printre alte metode derivate, analiza parţial¼a a corelaţiilor
sau analiza cu variabile instrumentale ([51]). În acest caz se urm¼ areşte nu
numai eliminarea eterogenit¼ aţii variabilelor, prin centrarea şi reducerea lor, ci
şi reducerea efectelor celorlalte variabile printr-o regresie multipl¼ a prealabil¼ a.
Analiza logaritmic¼a ([38]) este o analiz¼ a în componente principale nenormate a
tabelului (dublu centrat pe linii şi pe coloane) variabilelor iniţiale logaritmate.
Aceast¼ a variant¼a posed¼ a propriet¼ aţi de stabilitate şi robusteţe interesante.
În …ne, alte tehnici cum ar … regresia pe componente principale sau
clasi…carea pe factori, sunt mai degrab¼ a tehnici complementare decât derivate.
1.2.6 Alte demersuri

Descompunerea în valori singulare este o proprietate a tuturor matricilor
dreptunghiulare. Ea se bazeaz¼ a pe distanţe euclidiene, adic¼a pe forme p¼atrat-
ice pozitiv de…nite şi pe aproxim¼ ari ale spaţiilor vectoriale prin minimizarea
unui criteriu legat de distanţe. Sunt posibile şi alte demersuri care modi…c¼ a
tipul de distanţ¼ a, sau natura subspaţiilor, sau pe amândou¼ a. Desigur, în acest
caz multe dintre propriet¼ aţile matematice simple ale analizei bazate pe metrica
euclidian¼a nu se mai reg¼ asesc: unicitatea descompunerii, simetria rolurilor ju-
cate de linii şi de coloane, simplitatea formulelor de reconstrucţie, poziţionarea
natural¼a a variabilelor suplimentare. Alte criterii de aproximare

P 2 pot …, totuşi,
utile. În locul metodei celor mai mici p¼ atrate min ei (norma "L P 2 ") se
poate utiliza, de exemplu, metoda celor mai mici valori absolute min f jei jg
(norma "L1 ") care induce distanţa “city-block” (pentru contribuţii la acest
punct de vedere se recomand¼ a, printre altele, [18] ).
Într-un spirit puţin diferit, [45] enunţ¼a un algoritm pentru a aproxima
(în sensul celor mai mici p¼ atrate, adic¼
a în L2 ) o matrice de distanţe de tip Lp
cu o matrice de disimilaritate dat¼ a.
Pentru a studia anumite tabele de contingenţ¼ a, în speţ¼
a tabele
P p de schimb,
p 2
[19] propun utilizarea distanţei lui Hellinger : d2 (x; y) = xi yi
(„analiza vectorial¼a sferic¼a ”).
În …ne, f¼
ar¼a a schimba nici metrica nici criteriul de aproximare, se pot
aproxima alte suprafeţe decât hiperplanele. Astfel, în cazul analizei în com-
ponente principale normate care este, în spaţiul Rn ; analiza punctelor situate
pe o sfer¼
a, [25] propune aproximarea unei hipersfere.
1.2.7 Exemplu
Descrierea datelor
În scopul studiului relaţiilor dintre 10 tipuri de activit¼ aţi umane şi al
clasi…c¼
arii acestora, s-au cules date privind obiceiurile zilnice a 28 de grupuri de
indivizi de ambele sexe. Valorile din tabelul A.1. (Anex¼ a) reprezint¼a num¼arul
de ore din 100 de zile alocat pentru un anume tip de activitate. Datele vor …
analizate utilizând tehnica analizei în componente principale.
Pentru acest set de date se identi…c¼ a:
variabilele active:
– WRK = carier¼
a
– TRSP = transport
– HH = activit¼
aţi casnice
– CHD = copii
– SHP = cump¼
ar¼
aturi
– CARE = îngrijire personal¼
a
– MEAL = hran¼
a
variabilele suplimentare:
– SLP = odihn¼
a
– TV = televizor
– LSR = distracţie
variabilele pentru desemnarea indivizilor activi:
– GEN
indivizii: sunt reprezentaţi prin liniile tabelului şi se grupeaz¼

a, în funcţie
de sex, în indivizi activi şi indivizi suplimentari. Vom alege de aceast¼ a
dat¼
a indivizii de gen feminin ca …ind activi. Denumirile indivizilor au
urm¼atoarea semni…caţie:
prima liter¼
a a doua liter¼
a a treia liter¼
a
E=angajat M=b¼
arbat U=USA
U=neangajat W=femeie W=Vest
M=c¼as¼
atorit E=Est
S=nec¼
as¼atorit Y=Iugoslavia
Dintre elemente prezentate mai sus doar variabilele şi indivizii activi
particip¼a efectiv la determinarea axelor principale, în timp ce variabilele şi in-
divizii suplimentari intervin doar în momentul interpret¼ arii (vezi subcapitolul
1.2.3).
Efectuarea analizei şi interpretarea rezultatelor
Aplicarea metodei de analiz¼

a în componente principale în cadrul progra-
mului STATISTICA presupune parcurgerea mai multor paşi.
Pentru început se selecteaz¼a din bara de meniu tipul de analiz¼
a utilizat
- Statistics, Multivariate Exporatory Techniques, Principal Components and
Classi…cation Analysis.
În fereastra de dialog ap¼ arut¼
a (…g. 1.2.8.) butonul Variables permite
selectarea variabilelor active, suplimentare, de identi…care a indivizilor activi
şi de etichetare, conform speci…caţiilor de mai sus. Se opteaz¼ a pentru analiza
bazat¼ a pe corelaţii (analiza pe tabelul centrat redus) şi pentru lucrul cu estima-
torul nedeplasat al dispersiei, SS=(N 1). Valorile lips¼ a din tabelul de date se
trateaz¼ a prin metoda Mean Substitution (înlocuirea cu media corespunz¼ atoare
variabilei respective).
fig. 1.2.8. Fereastra de pornire

Dup¼ a ap¼
asarea butonului OK este activat¼ a o nou¼a fereastr¼
a de dialog
(…g. 1.2.9) care ofer¼ a informaţii cu privire la contextul de lucru (elemente
active şi suplimentare, valori proprii) şi permite începerea efectiv¼
a a analizei.
fig. 1.2.9. Fereastra de rezultate
Patru submeniuri sunt disponibile:
Submeniul Quick - înglobeaz¼ a cele mai importante opţiuni din subme-

niurile Variables şi Cases.
Submeniul Variables - ofer¼ a informaţii, sub form¼ a gra…c¼
a sau tabelar¼
a,
despre variabile, vectori proprii şi valori proprii.
Submeniul Cases - ofer¼

a informaţii, sub form¼
a gra…c¼
a sau tabelar¼
a, de-
spre indivizi.
Submeniul Descriptives - permite calculul unor indicatori statistici de

baz¼
a, a matricilor de corelaţie şi covarianţ¼
a, precum şi realizarea unor
gra…ce simple.
Calculul parametrilor descriptivi elementari (Descriptives, Summary de-

scriptives) ofer¼a o imagine de ansamblu (tabelul 1.2.6). Valorile medii (Mean)
şi abaterile standard (Std. Dev.) vor servi la centrarea şi reducerea datelor
şi nu vor mai interveni direct în cele ce urmeaz¼a. Este important¼ a observarea
mediilor şi dispersiilor atât în cazul variabilelor active cât şi în cazul celor
suplimentare, aceast¼ a etap¼
a …ind util¼a în depistarea de eventuale modele şi
determinarea unor tehnici suplimentare de analiz¼ a.
tabelul 1.2.6. Medii Ş i dispersii
Matricea de corelaţie (tabelul 1.2.7.) furnizeaz¼ a coe…cienţii ce descriu

asocierea liniar¼ a între variabile. De exemplu, cariera (WRK) pare a … în
strâns¼ a relaţie direct¼
a cu transportul (TRSP), având un coe…cient de corelaţie
de 0,77, dar puternic negativ corelat¼ a (-0,82) cu activit¼
aţile casnice (HH).
Lectura acestei matrici ofer¼ a o prim¼
a idee asupra leg¼
aturilor dintre variabile
iar analiza în componente principale va permite obţinerea unei sinteze a acestor
relaţii.
tabelul 1.2.7. CorelaŢ ii
Urm¼ atorul pas în cadrul ACP este determinarea dimensiunii spaţiului de

proiecţie, unde relaţiile dintre variabile vor … mai uşor de observat. Pentru
aceasta examin¼ am valorile proprii rezultate în urma diagonaliz¼ arii matricei
corelaţiilor dintre variabilele active. Tabelul 1.2.8., obţinut din submeniul
Variables, Eigenvalues, conţine valorile proprii ordonate descresc¼ ator, indic¼
a
procentul de inerţie explicat¼a de factorul asociat …ec¼
arei valori proprii precum
şi procentul cumulat de inerţie explicat¼ a.
tabelul 1.2.8. Valori proprii
“Regula cotului”, ilustrat¼ a gra…c prin diagrama Screeplot (…g 1.2.10.) din
submeniul Variables, indic¼ a drept e…cient¼ a folosirea în interpretare a maxim
cinci dimensiuni (vezi subcapitolul 1.2.3), iar criteriul lui Kaiser consider¼ a su-
…ciente doar dou¼ a: în cazul ACP normate se reţin componentele principale
corespunz¼ atoare valorilor proprii superioare lui unu. Examinând tabelul valo-
rilor proprii se observ¼
a c¼a primele 2 dimensiuni ofer¼ a o calitate a reprezent¼arii
în noul spaţiu de 80.95%, valoare considerat¼ a su…cient¼a. Prin urmare, planul
de proiecţie va … planul factorial principal. Valoarea 2 se completeaz¼ a în caseta
Number of factors din fereastra de rezultate.
fig. 1.2.10. Screeplot
Conform descrierii din introducerea capitolului, rolul analizei în compo-

nente principale este de a ilustra relaţiile dintre variabile şi de a evidenţia
grup¼ari de indivizi în funcţie de aceste relaţii. În cazul de faţ¼
a se pune în-
trebarea dac¼ a exist¼
a vreo leg¼ atur¼
a între cele zece tipuri de activit¼ aţi şi, în
acest caz, ce structur¼a între indivizi induce aceast¼ a leg¼
atur¼
a. Pentru aceasta
s¼
a examin¼am tabelul 1.2.9. ce conţine:
coordonatele proiecţiilor variabilelor pe cei doi factori principali (Vari-

ables, Factor coordinates of variables).
contribuţiile variabilelor la inerţia factorilor (Variables, Contributions).

Cu cât un punct este mai dep¼ artat de origine cu atât are o contribuţie
mai ridicat¼ a. Evident, nu se pot calcula contribuţii în cazul elementelor
suplimentare deoarece acestea nu particip¼ a efectiv la analiz¼
a.
cosinusurile p¼
atrate, ce dau calitatea reprezent¼ arii variabilelor pe …ecare
factor (Variables, Communalities). Cu cât cosinusurile p¼ atrate sunt mai
apropiate de 1 cu atât proiecţiile punctelor sunt mai aproape de poziţiile
acestora în spaţiul iniţial, deci informaţia este mai bine conservat¼ a în
noul spaţiu.
tabelul 1.2.9. Coordonate, contribuŢ ii, cosinusuri pA¼ trate
fig. 1.2.11. Cercul de corelaŢ ie
Pentru c¼ a analiza a fost realizat¼ a plecând de la matricea de corelaţii,

deci de la datele centrat reduse, coordonatele din tabelul 1.2.9 reprezint¼ a coe-
…cienţii de corelaţie dintre variabile şi cei doi factori principali. Aşadar, primul
factor, corespunz¼ ator valorii proprii 3:97, este puternic corelat pe de o parte
cu variabilele WRK şi TRSP - corelaţii negative, şi pe de alt¼ a parte cu HH
şi CHD - corelaţii pozitive. În plus, valorile coordonatelor pentru aceste va-
riabile sunt foarte apropiate de -1 (-0.94, -0.85), respectiv +1 (0.91, 0.77) şi
cosinusurile p¼ atrate au valori ridicate (0.88, 0.72, 0.83, 0.60). Putem spune
aşadar c¼a primul factor principal opune activit¼ aţile speci…ce lucrului în afara
casei (munc¼ a şi transport) celor casnice (creşterea copiilor şi îngrijirea casei).
În mod similar, al doilea factor este evident legat de activit¼ aţi speci…ce stilu-
lui de viaţ¼
a al omului modern şi organizat: cump¼ ar¼
aturile (SHP) şi îngrijirea
personal¼ a (CARE). Reprezentarea gra…c¼ a a coordonatelor în cadrul cercului

de corelaţie (…g. 1.2.11.) este disponibil¼ a în submeniul Variables, Plot var.
factor coordinates, 2D, şi ofer¼a o mai bun¼ a imagine asupra relaţiilor din planul
variabilelor.
Variable contributions ilustreaz¼ a contribuţia …ec¼arei variabile iniţiale la
dispersia factoruilui respectiv. Valorile din tabelul 1.2.9 con…rm¼ a faptul c¼ a
timpul petrecut la servici (WRK) şi timpul petrecut acas¼ a (HH) explic¼ a împre-
un¼ a 43% din dispersia factorului 1 iar timpul petrecut la cump¼ araturi (SHP)
şi timpul petrecut pentru îngrijirea personal¼ a (CARE) explic¼ a împreun¼ a 77%
din dispersia factorului 2.
Variabilele suplimentare ilustrând timpul liber (SLP, TV, LSR) sunt
legate de activit¼aţile casnice (…g. 1.2.11.).
În ceea ce priveşte indivizii, sugestiv¼a este imaginea proiecţiei în planul
factorial (…g. 1.2.12.). Pentru a obţine acest gra…c, din submeniul Cases
se alege opţiunea No names/numbers şi se apas¼ a butonul Plot cases factor
coordinates, 2D.
fig. 1.2.12. Planul indivizilor
Gra…cul obţinut a fost construit plecând de la indivizii activi (de gen

feminin), cei suplimentari (de gen masculin) …ind proiectaţi ulterior. Este
interesant¼ a gruparea celor dou¼ a tipuri de indivizi, conform c¼
areia b¼
arbaţii sunt
situaţi la jum¼atatea stâng¼ a a primei axe (au deci coordonate negative pe primul
factor). Având în vedere interpretarea primului factor, pentru care munca şi
transportul aveau coordonate negative semni…cative şi contribuţii ridicate, se
poate spune c¼ a b¼
arbaţii care au participat la acest studiu acord¼
a cea mai mare
parte a timpului carierei. Tot în …gura 1.2.12. se evidenţiaz¼ a dou¼a grup¼ ari
în cadrul indivizilor de sex feminin, situate la dreapta şi la stânga primei
axe principale: (A) femeile care işi petrec majoritatea timpului în cas¼
a şi (B)
femeile care îşi petrec majoritatea timpului în exterior. Pentru o interpretare
mai detaliat¼a se opteaz¼ a pentru reprezentarea punctelor însoţite de etichete
(opţiunea Case Names din submeniul Cases).
fig. 1.2.13. Plotarea indivizilor etichetaŢ i
Avem acum mai multe informaţii despre compoziţia grupurilor (A) şi (B):
conform …gurii 1.2.13. rezult¼ a c¼
a femeile care îşi petrec majoritatea timpului
în cas¼a sunt …e c¼as¼
atorite (prima liter¼
a din codi…care este M), …e neangajate
(prima liter¼a din codi…care este U), iar femeile c¼ as¼
atorite (S) sau/şi angajate
(E) îşi petrec majoritatea timpului în exterior.
Se remarc¼ a în mod deosebit patru tipologii:
(1) femeia "medie" - a c¼ arei reprezentare în …gura 1.2.13. este situat¼a la

cea mai mic¼ a distanţ¼
a faţ¼
a de centrul de greutate al norului de puncte-
individ. Aceasta este c¼ as¼atorit¼
a iar apropierea de grupul (B) indic¼ a
faptul c¼
a este mai degrab¼ a o femeie activ¼a decât casnic¼
a.
(2) femeia "casnic¼a" - provenind din grupul (A) este neangajat¼
a, preocupat¼
a
îndeosebi de menaj şi de creşterea copiilor.
(3) femeia "cump¼ar¼atoare" - în bugetul de timp al acestei categorii, cump¼
ar¼
a-
turile (SHP) ocup¼ a un loc important. Grupul ese ilustrat exclusiv de
femei din USA.
(4) femeia "narcisist¼a" - provenind din grupul (B), acord¼ a majoritatea tim-
pului îngrijirii personale. Acest grup este ilustrat exclusiv de femei din
USA şi este alc¼atuit din femei care lucreaz¼
a şi femei singure.
1.3 Analiza corespondenţelor simple (ACS)

Prezentat¼a sub acest nume şi dezvoltat¼ a în Franţa de J.P. Benzecri [5],
metoda are ca precursori pe Guttman [31] şi Hayashi [36].
Analiza corespondenţelor este o metod¼ a adaptat¼a tabelelor de con-
tingenţ¼
a care permite studiul relaţiilor între dou¼a sau mai multe variabile
nominale (discrete).
Se distinge între:
Analiza corespondenţelor simple (ACS) în cazul studiului relaţiilor
între dou¼
a variabile nominale;
Analiza corespondenţelor multiple (ACM) în cazul studiului relaţi-
ilor între mai multe variabile nominale;
De…niţia 1.3.1 Se numeşte tabel de contingenţ¼a (sau de dependenţ¼a sau în-
crucişat) un tabel ale c¼ arui linii, respectiv coloane desemneaz¼ a dou¼a partiţii
ale aceleiaşi mulţimi, partiţii date de modalit¼
aţile a dou¼
a variabile nominale.
Fie X şi Y dou¼a variabile nominale cu n respectiv p modalit¼ aţi descriind
o mulţime de k indivizi.
Fie K tabelul de contingenţ¼ a cu n linii, p coloane şi elementele kij ; unde
kij este num¼ arul de indivizi avînd simultan modalitatea i a variabilei X şi
modalitatea j a variabilei Y.
Se noteaz¼ a cu
X X
ki = kij ; k j = kij ;
j i
X X X
k = kij = ki = k j;
i;j i j
şi cu
kij
fij = frecvenţele relative, cu marjele:
Xk X X
fi = fij ; f j = fij ; f = fij = 1:
j i i;j
Gra…c, tabelul se prezint¼

a astfel:
X/Y y1 y2 yj yp
..
x1 . k1
..
x2 . k2
.. ..
. .
xi kij ki
..
.
xn kn
k1 k2 kj kp k
1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 63
Dou¼ a lecturi sunt posibile, dup¼

a cum este privilegiat¼
a una sau alta din-
n oi=1;n
fij
tre variabile: pe linii, cu frecvenţele fi , respectiv pe coloane, cu
n o j=1;p
f
frecvenţele fijj .
1.3.1 Schema general¼

a de ACS
Analiza corespondenţelor simple revine la efectuarea unei analize gene-
rale a unui nor de puncte ponderate într-un spaţiu cu o metric¼
a special¼
a.
1.3.1.1 ¼
GEOMETRIA NORILOR ŞI ELEMENTELE DE BAZA
Fie
0 1
f11 f12 : : : f1p
B .. C - matricea de dimensiune n p a frecvenţelor
F = @ ... . A
fn1 fn2 : : : fnp
relative;
Dn = diag (fi ) - matricea n n cu diagonala principal¼
a conţinând mar-
jele liniilor;
Dp = diag (f j ) - matricea p p cu diagonala principal¼
a conţânînd marjele
coloanelor.
fig. 1.3.1. TransformA¼ rile tabelului de contingenŢ A¼

fig. 1.3.2. FrecvenŢ e, marje, profile
1.3.1.2 ALEGEREA DISTANŢEI ŞI A METRICII
Este …resc s¼a ne gîndim la distanţa euclidian¼

a între pro…lurile-linie, re-
spectiv pro…lurile-coloan¼
a:
X fij fi0 j 2
d2 i; i0 =
fi fi0
j
şi analoaga.
Aceast¼a distanţ¼a favorizeaz¼
a coloanele care au o mas¼ a f j important¼a,
adic¼a modalit¼aţile j care sunt bine reprezentate în populaţia studiat¼
a. Pentru
a remedia acest lucru cît şi din alte considerente discutate în continuare, se
pondereaz¼ a …ecare diferenţ¼ a cu inversa masei coloanei, obţinîndu-se distanţa
2
X 1 fij fi0 j 2
2 0
d i; i =
fj fi fi0
j
şi analoaga
X 1 fij fij 0 2
d2 j; j 0 = :
fi fj f j0
i
Propoziţia 1.3.1
Distanţa 2 este invariant¼
a la agregarea liniilor, respectiv a coloanelor, cu
acelaşi pro…l.
Demonstraţie.
fig. 1.3.3. EchivalenŢ a distribuŢ ionalA¼ : invarianŢ a distanŢ elor

între coloane faŢ A¼ de agregarea liniilor
iX
1 1 2 2
2 0 1 fij fij 0 1 fi1 j fi1 j 0
d j; j = + +
fi fj f j0 fi1 fj f j0
i=1
2 n
X 2
1 fi2 j fi2 j 0 1 fij fij 0
+ +
fi2 fj f j0 fi fj f j0
i=i2 +1
Distanţa dup¼
a agregarea liniilor cu acelaşi pro…l i1 şi i2 este
iX
1 1 2 2
1 fij fij 0 1 fi0 j fi0 j 0
d2r j; j 0 = + +
fi fj f j0 fi0 fj f j0
i=1
n
X 2
1 fij fij 0
+ :
fi fj f j0
i=i2 +1
f f
Dar fii1 j = fii2 j = rj ; (8) j = 1; p; deoarece liniile au acelaşi pro…l. Pe de
1 2
alt¼
a parte, prin agregarea liniilor i1 şi i2 rezult¼ a
fi1 j + fi2 j = fi0 j ; (8) j fi j

ki1 j + ki2 j = ki0 j ; (8) j = 1; p ) ) 0 = rj
fi1 + fi2 = fi0 fi0
fi0 j fi1 j +fi2 j ki1 j +ki2 j rj (ki1 +ki2 )

deoarece ki1 j = ki1 rj ; ki2 j = ki2 rj şi fi0 = fi1 +fi2 = ki1 +ki2 = =
(ki1 +ki2 )
rj .
Aşadar
2 2
1 fi1 j fi1 j 0 fi1 j 1 fi1 j 0 1
A (i1 ) = = fi1 =
fi1 fj f j0 fi1 fj fi1 f j0
2
rj rj 0
= fi1 = fi1 B
fj f j0
2 2
1 fi2 j fi2 j 0 fi2 j 1 fi2 j 0 1
A (i2 ) = = fi2 =
rj rj 0 2
= fi2 = fi2 B
fj f j0
) A (i1 ) + A (i2 ) = fi1 B+fi2 B= (fi1 +fi2 ) B=fi0 B:
2 2
1 fi0 j fi0 j 0 fi0 j 1 fi0 j 0 1
A (i0 ) = = fi0 =
2
rj rj 0
= fi0 = fi0 B
fj f j0
) A (i1 ) + A (i2 ) = A (i0 ) ) d2 j; j 0 = d2r j; j 0 :
Analog pentru invarianţa distanţei între liniile pro…l la agregarea coloanelor.
Observaţia 1.3.1
a) Proprietatea demonstrat¼ a în propoziţia de mai sus se numeşte principiul
echivalenţei distribuţiilor. Distanţa euclidian¼a nu are aceast¼ a propri-
etate, spre deosebire de distanţa Hellinger.
b) Echivalenţa distribuţional¼ a permite agregarea a dou¼ a modalit¼ aţi (ale

aceleiaşi variabile) cu pro…le identice (ceea ce face ca în Rp ele s¼ a se
confunde) într-o nou¼ a modalitate cu o pondere sumat¼ a f¼
ar¼
a îns¼
a a afecta
prin aceasta nici distanţele între modalit¼ aţile variabilei nou formate, nici
distanţele între modalit¼aţile celeilalte variabile.
fig. 1.3.4. analiza în R3

Din punct de vedere practic, aceast¼a proprietate este fundamental¼ a deoa-

rece garanteaz¼
a o oarecare invarianţ¼a a rezultatelor faţ¼
a de nomenclatura
aleas¼
a pentru construcţia modalit¼ aţilor unei variabile, cu condiţia re-
grup¼arii modalit¼
aţilor asem¼
an¼
atoare. Nu se pierde astfel informaţia prin
agregarea unor clase şi nu se câşitg¼a informaţie prin divizarea claselor
omogene.
c) Metrica spaţiului Rp , respectiv a spaţiului Rn , este, în acest caz M = Dp 1 ,

respectiv M = Dn 1 .
a au mase ffi gni=1 , re-

d) Cum pro…lurile-linie, respectiv pro…lurile-coloan¼
spectiv ff j gpj=1 , matricile de pondere sunt N = Dn respectiv N = Dp .
tabelul 1.3.1. Tabel recapitulativ cu elementele de bazA¼ ale unei acs
Elemente de baz¼
a Norul de n Norul de p
puncte-linie în Rp a în Rn
puncte-coloan¼
Matricea X (tabelul) X = Dn 1 F = X = Dp 1 F0 =
n oj=1;p n oi=1;n
f f
= fiji = fijj
i=1;n j=1;p
Metrica şi distanţa M = Dp 1 M = Dn 1
d2 (i; i0 ) = d2 (j; j 0 ) =
P
p
1 fij fi0 j 2 P
n
1 fij fij 0 2
= fj fi fi0 = fi fj f j0
j=1 i=1
Ponderea (masa) N = Dn = diag (fi ) N = Dp = diag ( f j )
masa liniei i: fi masa coloanei j: f j
Lema 1.3.1
1. Centrul de greutate al pro…lurilor-linie este xGl = (f 1 ; : : : ; f p )0 , centrul
a este xGc = (f1 ; : : : ; fn )0 .
de greutate al pro…lurilor-coloan¼
2. Inerţia global¼
a a norului de puncte-linie, respectiv puncte-coloan¼
a m¼
a-
soar¼
a ecartul între legile empirice fij şi fi f j .
Demonstraţie.
1. Din de…niţie g = X0 D 1 deci în acest caz xG = X0 N 1 cu ponderi

normate, deci
1 0 0 1
f1 f1
Bf 2 C B f2 C
0 B C 0 B C
xGl = Dn 1 F Dn 1n = B . C ; xGc = Dp 1 F Dp 1p = B . C:
@ .. A @ .. A
fp fn
P P
2. Din de…niţie IGl = pi d2 (i; Gl ) respectiv IGc = pj d2 (j; Gc ), deci
i j
X XX 1 fij 2 X X (fij fi f j )2
IGl = fi d2 (i; Gl ) = fi fj =
fj fi fi f j
i i j i j
respectiv
X XX 1 fij 2 X X (fij fi f j )2
IGc = f j d2 (j; Gc ) = fj fi = :
fi fj fi f j
j j i j i
Reamintim c¼ a dou¼a variabile aleatoare discrete, luînd n, respectiv p va-

lori, cu distribuţia de probabilitate comun¼a fpij gj=1;p
i=1;n
şi distribuţiile marginale
fpi g respectiv fp j g sunt independente dac¼ a şi numai dac¼ a pij = pi p j ; ceea
ce se traduce în termeni de estimaţii empirice ale acestor distribuţii în
fij = fi f j :
Statistica testului
H0 : pij = pi p j (8) i; j
HA : (9) i1 astfel încât pi1 j 6= pi1 pj
P P (fij f i f j )2
este X 2 = k fi f j care, conform demonstraţiei lui K. Pearson,
i j
2 dac¼ a volumul de selecţie pe baza c¼ aruia au fost estimate fij ,
(n 1)(p 1)
adic¼
a k, tinde la 1. Aceasta este motivaţia pentru care distanţa folosit¼ a în
ACS se numeşte 2 şi m¼ asoar¼
a cât de „independente” din punct de vedere
statistic sunt liniile faţ¼
a de coloanele tabelului de contingenţ¼
a K şi reciproc.
1.3.1.3. CRITERIUL DE MAXIMIZAT ŞI MATRICEA DE DI-

AGONALIZAT
Dorim s¼ a reprezent¼ am gra…c proximitatea între pro…le. Ne plas¼ am, pe
rînd, în cele dou¼a spaţii, în centrul de greutate al norului corespunz¼ ator. Este
o particularitate a ACS, în comparaţie cu ACP, echivalenţa dintre analiza
general¼a realizat¼
a pe tabloul necentrat (adic¼ a cu originea în O) şi cea realizat¼
a
pe tabloul centrat (adic¼a cu originea în G) cu condiţia s¼

a neglij¼
am, în primul
caz, axa factorial¼a care uneşte pe O cu G (aceast¼ a ax¼a este asociat¼
a valorii
proprii egal¼
a cu unu, numit¼ a valoare proprie trivial¼
a). Pentru simpli…carea
calculelor vom întreprinde analiza general¼a pe tabloul necentrat în Rp - spaţiul
pro…lurilor-linie.
Conform celor anterioare
P
max fi d2 (i; 0)
u i
u0 Dp 1 u = 1
3 2
u0 Mu = 1
) u este vector propriu al matricii S = F0 Dn 1 FDp 1 , asociat 4X NXMu = u5
0
= X0 Mu
celei mai mari valori proprii 6= 1.
Analog, în Rn
( )
P 2 3
max 2
f j d (j; 0) v0 Mv = 1
v
; 4X NXMv = v5
0
j
v0 Dn 1 v = 1 ' = XMv
) v este vector propriu al matricii T = FDp 1 F0 Dn 1 asociat celei mai mari

valori proprii 6= 1.
Propoziţia 1.3.2
ACS pe tablelul centrat este echivalent¼
a cu ACS pe tabelul necentrat.
Demonstraţie. Pentru …xarea ideilor s¼a raţion¼am în Rp .
În cazul tabelului necentrat, se observ¼
a c¼ a
x0Gl Dp 1 xGl = 1 (1)

|{z}
M
2 3 2 3
1 " 1 p
6 .. 7 X
0 6 .. 7
deoarece Dp 1 xGl = 4.5 p şi xGl 4 . 5 = f j = 1;
1 # 1 j=1
şi c¼
a S xGl = xGl ; (2)
X fij fij 0
deoarece S = F0 Dn 1 FDp 1 ) sjj 0 =
fi f j 0
i
X 0 X X fij fij 0 X fij X
iar sjj 0 xjGl = f j0 = fij 0 = f j = xjGl
fi f j 0 fi 0
j0 j0 i i j
altfel spus, xGl este vector propriu M-normat al matricii S; asociat valorii
proprii 1 = 1. S¼a îl not¼
am cu u1 = xGl . Din construcţia spaţiului H
u01 Mu = 0; = 2; p
unde
u0 Mu = 1
:
Su = u
În cazul tabelului centrat, se noteaz¼

a cu S matricea obţinut¼
a prin centrarea
tabelului X. Se observ¼a c¼
a
S = S xGl x0Gl Dp 1 = S u1 u01 M;

S u = Su u1 u01 Mu = Su = u ; = 2; p
S u1 = Su1 u1 u01 Mu1 = u1 u1 = 0 = 0 u1 :
Aşadar
u = u +1 şi = +1 ; = 1; p 1
up = u1 şi p = 0 şi 1 = 1:
fij
Aşadar în Rp , analog în Rn , ACS pe tabloul centrat cu termenul general fi fj
fij
este echivalent¼
a cu ACS pe tabloul cu termenul general fi .
Observaţia 1.3.2
a) În ACS punctele sunt conţinute în hiperplanul H de dimensiune p 1
P fij
(pentru Rp ) datorit¼
a faptului c¼
a fi = 1; (8) i = 1; n.
i
P P
b) i) Cum xjGl = f j = 1 ) Gl 2 H.
j j
ii) x0Gl MxGl = 1 ) Gl se a‡a¼ la distanţa 1 de origine. Cum hOGl ; xGl i =

P P j
0 (deoarece (x xGl ) MxGl = xj xGl c¼aci x 2 H deci
P j j
xj = 1) ) OGl ? H.
j
fig. 1.3.5. Analiza în R3

În analiza în raport cu originea, prima direcţie u1 este axa ce leag¼ a

originea de centrul de greutate al norului şi este ortonormal¼ a pe H. Inerţia
proiectat¼ a pe aceast¼ a ax¼
a este 1, egal¼ a cu distanţa dintre O şi Gl deoarece
toate punctele norului se proiecteaz¼ a pe aceast¼a ax¼
a în acelaşi punct Gl . Ur-
m¼atoarele p 1 axe (u1 ; u2 ; : : : ; up ) conţinute în H constituie o baz¼ a, de…nind
direcţii de inerţie maxim¼
a ale norului. Ele coincid cu primele p 1 axe ale ACS
în raport cu Gl şi u1 ; u2 ; : : : ; up . În aceast¼a analiz¼
a, a p-a ax¼ a corespunde
lui u1 = OGl şi nu indic¼ a nicio direcţie în H deoarece nu este conţinut¼ a în H
. Inerţia sa (valoarea proprie asociat¼ a) este nul¼
a.
1.3.1.4 AXELE FACTORIALE
Presupunem c¼
ap n . Conform analizei generale:
tabelul 1.3.2. Tabel recapitulativ cu elementele de bazA¼

ale unei acs
Elemente de baz¼a în Rp în Rn
Matricea de diagonalizat S = F0 Dn 1 FDp 1 T = FDp 1 F0 Dn 1
Axele factoriale Su = u Tv = v
Coordonatele factoriale = Dn 1 FDp 1 u ' = Dp 1 F0 Dn 1 v

P fij P fij
i = fi f j u j ' j = fi f j v i
j i
Lema 1.3.2
Coordonatele factoriale sunt variabile cu media empiric¼
a 0 şi dispersia em-
piric¼
a .
Demonstraţie. Datorit¼
a echivalenţei dintre ACS necentrat¼
a şi ACS centrat¼
a,
media empiric¼
a este
X X X fij 1
fi i = fi fj u j =
fi fj
i i j
X
X fij X X
= fi u j fi u j =
fi f j
i j i j
!
X X u j X
= fij u j = 0:
fj
j i j
Deci, conform de…niţiei dispersiei empirice,

X
fi 2 i = 0
Dn = u0 Dp 1 F0 Dn 1 Dn Dn 1 FDp 1 u =
i
= u0 Dp 1 F0 Dn 1 FDp 1 u = u0 Dp 1 Su =
= u0 Dp 1 u = u0 Dp 1 u =
| {z }
1
P
Analog pentru f j '2 i = .
j
1.3.1.4 ¼ SPAŢII
RELAŢIILE DINTRE CELE DOUA
Analiza general¼ a a ar¼atat c¼a matricile S şi T au aceleaşi valori proprii
nenule şi c¼
a între vectorii proprii normaţi u ai lui S asociaţi lui şi vectorii
proprii normaţi v ai lui T asociaţi aceleiaşi valori proprii exist¼a relaţiile:
1
v = p FDp 1 u ;
1
u = p F0 Dn 1 v :
Înlocuind în formulele coordonatelor factoriale:

p
p 1
1
= Dn v (pe componentele i = v i ) ) p Dn =v ;
fi
p
p 1
' = Dp 1 u (pe componentele ' j = u j ) ) p Dp =u ;
fj
care înlocuite în formulele coordonatelor factoriale dau formulele quasi-
baricentrice
p
X
1 1 fij
= p Dn 1 F' cu i =p ' j;
fi
j=1
Xn
1 1 fij
' = p Dp 1 F cu ' j =p i:
fj
i=1
Astfel, modulo coe…cientul de dilataţie p1 , proiecţiile punctelor

unui nor sunt, pe o ax¼ a, coordonatele baricentrice ale proiecţiilor
punctelor celuilalt nor.
n oj=1;p
f
Matricea cu termenul general fiji ce permite calculul coordo-
i=1;n
natelor unui punct i pe baza tuturor punctelor j nu este alta decât matricea
pro…lurilor linie. Coordonata modalit¼ aţii i a unei variabile reprezint¼
a media
modalit¼aţilor j ale celeilalte variabile, ponderate de frecvenţele condiţionate
ale pro…lului i. Analog, coordonata modalit¼ aţii j reprezint¼
a media mulţimii
modalit¼aţilor i ponderate de frecvenţele condiţionate ale pro…lului j.
Lema 1.3.3
Valorile proprii sunt subunitare ( 1; (8) ).
P
p
fij p P fij
Demonstraţie. Din = p1
i fi ' j ) i = fi ' j )
j=1 j=1
p
X p
X
fij p fij
min ' j i max ' j )
j fi j fi
j=1 j=1
| {z } | {z }
1 1
p
max i max ' j : (1)
i j
Analog
p
max ' j max ( i) : (2)
j i
p
Cum 0, din (1) şi (2) ) max ' j max ' j ) 1.
j j
Relaţiile quasi-baricentrice justi…c¼
a reprezentarea simultan¼
a a liniilor
şi a coloanelor.
fig. 1.3.6. Schema reprezentA¼ rii simultane

R¼ amîne în continuare valabil¼ a observaţia de la ACP legat¼ a de faptul c¼a
distanţa dintre un punct-linie şi un punct-coloan¼ a este lipsit¼
a de sens deoa-
rece acestea se situeaz¼
a în spaţii diferite. ACS ofer¼a totuşi posibilitatea de a
poziţiona şi interpreta un punct dintr-un nor în raport cu punctele din cel¼
alalt
nor.
1.3.2 Reguli de interpretare a rezultatelor
Inerţia M¼ asurînd distanţa de la independenţa statistic¼

a, IG 0 şi 1 2
semni…c¼a puncte grupate în jurul lui G într-o form¼ a aproximativ circular¼
a (nu
exist¼
a direcţie privilegiat¼
a) generat¼
a de pro…le independente statistic.
Dac¼a
1 ! 1 ) o dihotomie a punctelor,
2 ! 1 ) 3 subnori,
1; 2; : : : ; p ! 1 ) exist¼
a o corespondenţ¼
a aproape
biunivoc¼
a între modalit¼
aţile variabilelor.
Inerţie slab¼
a
¼
1. INDEPENDENŢA ¼
2. DEPENDENŢA
IG 0 IG 0
1 2 1 2
Inerţie mare
¼
3. DEPENDENŢA ¼
4. DEPENDENŢA
IG > 0 IG > 0
1 2 1 2
Form¼
a "sferic¼
a" Form¼
a "nesferic¼
a"
S¼a consider¼
am cîteva forme clasice de nori de puncte pentru a ar¼ ata cum
poate … reorganizat tabelul de date corespunz¼ ator, pornind de la proiecţia
acestora.
În cazul norului de puncte împ¼
arţit în doi subnori, tabelul de date poate …
reorganizat prin ordonarea coordonatelor liniilor şi coloanelor pe primul factor.
Se obţine schematic …gura 1.3.7.:
fig. 1.3.7. Norul de puncte împA¼ rŢ it în douA¼ .

Pot exista situaţii în care analiza separat¼ a a celor doi subnori de…niţi de
tabelele corespunz¼atoare (I1 ; J1 ) şi (I2 ; J2 ) s¼
a …e interesant¼a.
În cazul norului de puncte împ¼ arţit în trei subnori, tabelul de date poate
… reorganizat analog prin permutarea liniilor şi coloanelor. El poate face de
asemenea obiectul unor ACS separate.
fig 1.3.8. Norul de puncte împA¼ rŢ it în trei

Se poate întîlni situaţia în care norul de puncte are o form¼ a parabolic¼
a.
Permutînd liniile şi coloanele, tabelul poate … reordonat sub forma unei matrici
diagonale relativ înc¼ arcate:
fig 1.3.9. Efectul guttman Ş i structura posibilA¼ a tabelului

Aceast¼a situaţie pune în evidenţ¼a efectul Guttman care corespunde
unei redundanţe a celor dou¼ a variabile: cunoaşterea liniei i permite deducerea
coloanei j. Toat¼a informaţia este dat¼a aproape în totalitate de primul factor.
Matricea asociat¼ a tabelului nu este, totuşi, de rang 1 şi dispunem de

p-1 factori. Al doilea factor este o funcţie de ordinul doi de primul factor,
al treilea factor este o funcţie de ordinul trei, etc. Informaţia dat¼
a de axele
de rang superior traduce acelaşi fenomen, totuşi examinarea celui de-al doilea
factor ra…neaz¼ a interpretarea primului factor (conform [61]).
În general efectul Guttman apare atunci cînd variabilele sunt ordonate
(variabile continue transformate în variabile nominale). O ax¼ a, adesea prima,
opune valorile extreme iar o alt¼a ax¼a opune valorile intermediare valorilor ex-
treme. Uneori, efectul Guttman pune în evidenţ¼ a o structur¼a neliniar¼
a care
poate … interesant¼a dac¼a forma parabolic¼a nu este perfect¼a. Punctele de rup-
tur¼
a sunt, în acest caz, interesante.
P 2
Inerţia (dispersia) explicat¼
a de un factor = fi i ) Cr (i) =
i
fi 2
; (8) i = 1; n în Rp reprezint¼
i
a contribuţia elementului i la axa ( fi 2
i =
dispersia individului, =dispersia întregii axe).
f j '2 j
Analog Cr (j) = ; (8) i = 1; p în Rn .
fig. 1.3.10. ContribuŢ ia la axa : trei situaŢ ii posibile
Calitatea reprezent¼arii unui punct Din de…niţie d2 (i; G)P

= 2 i . Cum
în ACS punctele se a‡a¼ în spaţiul H de dimensiune p 1 ) d2 (i; G) =
d2 (i; G).
Un punct i din Rp poate … mai aproape sau mai departe de axa . Proxi-
mitatea între dou¼
a puncte proiectate pe axa este cu atât mai bine re‡ectat¼
a
cu cât aceste puncte sunt mai apropiate de axa pe care sunt proiectate.
fig. 1.3.11. ProiecŢ ia punctului i pe axa
Calitatea reprezent¼
arii unui punct i pe axa poate … evaluat¼
a de:
d2 (i; G)
cos2 (i) =
d2 (i; G)
Aceast¼a cantitate, numit¼a cosinusul p¼atrat, reprezint¼

a contribuţia relativ¼a
a factorului la poziţia punctului i. Cu cât cosinusul p¼ atrat este mai apropiat
de 1 cu atît proiecţia punctului este mai aproape de poziţia acestuia în spaţiu.
fig. 1.3.1.2. Calitatea reprezentA¼ rii unui punct i pe axa

P
Din de…niţie rezult¼
a c¼
a cos2 (i) = 1; (8) i puncte active.
Cosinusul p¼ atrat pentru un element ilustrativ este subunitar dac¼
a acesta
aparţine lui Rp . În ACS elementele active aparţin lui Rp 1 .
1.3.3 Exemplu
Descrierea datelor
Un exemplu de aplicare a metodei analizei corespondenţelor simple îl
constituie identi…carea şi descrierea unor a…nit¼ aţi între diverse categorii so-
cioprofesionale şi diverse tipuri de media. Studiul a fost realizat pe 4433 de
persoane ce ilustreaz¼ a categoriile socioprofesionale menţionate mai jos şi care
au avut în total 12388 "contacte media". Se porneşte de la tabelul de conti-

genţ¼
a A.2. (Anex¼a), notat cu K.
Pentru acest set de date se indenti…c¼
a cele dou¼
a variabile nominale:
categoria socioprofesional¼ a X cu n = 8 modalit¼

a - variabila nominal¼ aţi
pe care le vom denumi "indivizi":
– AGR=agricultori
– PTR=patroni
– CSUP=cadre superioare
– CMED=cadre medii
– FUNC=funcţionari
– MCAL=muncitori cali…caţi
– MNECAL=muncitori necali…caţi
– INACT=inactivi
a Y cu p = 6 modalit¼
tipul de media - variabila nominal¼ aţi pe care le vom
denumi "variabile":
– rad=radio
– tel=televiziune
– cot_nat=cotidian naţional
– cot_loc=cotidian local
– rev=reviste
– ghid_tv=ghid de televiziune.
Indivizii şi variabilele de mai sus reprezint¼ a elementele active, care par-
ticip¼a la determinarea axelor principale. Pentru acurateţea interpret¼ arii reprezen-
t¼
arilor obţinute, în planul factorial principal vor … proiectate ulterior şi alte
caracteristici ale populaţiei studiate (indivizi suplimentari): sexul (2 modal-
it¼
aţi), vîrsta (5 modalit¼aţi), nivelul de educaţie (4 modalit¼ aţi), conform tabelu-
lui A.3. (Anex¼ a).
Pentru tabelul elementelor active, valoarea a‡at¼ a la intersecţia liniei i cu
coloana j (kij ) reprezint¼ a num¼ arul de indivizi aparţinând categoriei sociopro-
fesionale i care au avut într-un interval de timp analizat cel puţin un contact
cu tipul de media j. O persoan¼ a aparţinând unei categorii socioprofesionale
poate intra în contact cu mai multe tipuri de media. Num¼ arul total de contacte
cu media pentru o categorie socioprofesional¼ a este dat de suma valorilor de pe
linie (ki ) : De exemplu, agricultorii au avut k1 = 96 + 118 + : : : + 17 = 354
contacte cu media; Suma valorilor de pe coloan¼ a (k j ) reprezint¼ a num¼ arul de
contacte avute cu tipul j de media al tuturor celor 8 categorii socioprofesion-
ale. De exemplu, pentru radio k 1 = 96 + 122 + : : : + 1474 = 3297 contacte:
Efectivul total (k), adic¼ a num¼ arul de contacte cu toate tipurile de media ale
tuturor categoriilor socioprofesionale este dat de suma tuturor valorilor ki
(sau a tuturor valorilor k j ) şi este 12388.
Acelaşi tip de calcule se poate face şi pentru tabelul indivizilor suplimen-
tari.
Aplicarea analizei corespondenţelor simple cu ajutorul programului STA-

TISTICA implic¼ a parcurgerea paşilor prezentaţi în continuare.
Se porneşte de la tabelul A2 al elementelor active. Pentru început se
selecteaz¼a din bara de meniu tipul de analiz¼ a utilizat – Statistics, Multivari-
ate Exploratory Techniques, Correspondence Analysis. În fereastra de dialog
ap¼arut¼a (…g.1.3.13.) se opteaz¼
a pentru analiza corespondenţelor simple (Cor-
respondence Analysis (CA)), se indic¼ a tipul de tabel analizat - în cazul acesta
tabel de contingenţ¼ a (Frequencies w/out grouping vars) şi se apas¼ a butonul
Variables with frequencies pentru selectarea variabilelor care particip¼ a la anal-
iz¼
a - în acest caz toate.
Dup¼ a ap¼ asarea butonului OK, o nou¼ a fereastr¼a (…g 1.3.14.) permite
generarea rezultatelor speci…ce analizei corespondenţelor simple. Tot aici este
prezentat un rezumat al datelor de plecare: num¼ arul de indivizi activi şi varia-
bile active, probabilitatea estimat¼ a (p) a ipotezei H0 de independenţ¼ a a liniilor
faţ¼
a de coloanele tabelului de contingenţ¼ a (vezi subcapitolul 1.3.1.2 pentru de-
a ( 2 ), num¼
talii ), inerţia global¼ arul gradelor de libertate (35 = (8 1) (6 1))
şi valorile proprii (rezultate în urma diagonaliz¼ arii matricii S a norului de
puncte linie).
Se introduc etichetele şi valorile din tabelul A.3. (Anex¼ a) în tabelul

generat prin selectarea succesiv¼
a a Supplementary points, Add row points şi se
revine în submeniul Advanced. Dimensiunea spaţiului de proiecţie se decide
examinând diagrama valorilor proprii (Plot) şi aplicând regula cotului sau,
pentru mai multe detalii, tabelul 1.3.3. (Eigenvalues) care conţine:
- valorile singulare
- valorile proprii
- procentul din inerţia total¼

a explicat de …ecare valoare proprie, deci de
…ecare dimensiune,
- procentul cumulat de inerţie explicat¼

a
- valoarea din inerţia total¼

a explicat¼
a de …ecare valoare proprie, deci de
…ecare dimensiune.
Se observ¼
a c¼a primele dou¼ a valori proprii explic¼
a aproape 95% din in-
erţie, deci dou¼
a dimensiuni (planul principal) ofer¼ a un grad su…cient de pre-
cizie reprezent¼arii proiecţiilor. Aşadar se completeaz¼a în câmpul Number of
dimensions din submeniul Quick valoarea 2, apoi se revine în submeniul Ad-
vanced.
tabelul 1.3.3. Valori proprii, procente de inerŢ ie
Butonul Row and column coordinates produce dou¼ a tabele - tabelul

1.3.4. şi tabelul 1.3.5., ce conţin rezultatele, atât pentru elementele active cât
şi pentru cele suplimentare, reprezentând:
- coordonatele proiecţiilor punctelor pe cele dou¼

a dimensiuni,
- ponderile (masele),
- calitatea reprezent¼arii punctelor în planul factorial, dat¼

a de suma cosi-
nusurilor p¼atrate pentru cele dou¼a axe factoriale,
- contribuţiile calculate pentru …ecare dintre cele dou¼

a dimensiuni (Inertia
aici).
Valori ca ponderea şi contribuţia nu sunt calculate pentru punctele su-

plimentare, acestea neparticipând efectiv la analiz¼ a.
O observaţie interesant¼ a este aceea c¼ a modalitatea cotidian naţional,
având o mas¼ a (deci frecvenţ¼a relativ¼a) mic¼a (0; 04), are totuşi o contribuţie
ridicat¼
a (0; 74) şi o foarte bun¼ a reprezentare relativ la prima ax¼ a factorial¼a
(0; 99). Aceast¼a ax¼ a este caracterizat¼a, în planul indivizilor, de cadrele supe-
rioare, având coordonate şi contribuţii ridicate, precum şi o apropiere semni-
…cativ¼a de ax¼a.
Cea de-a doua ax¼ a principal¼a separ¼a ghidul TV de reviste şi presa local¼a,
în planul variabilelor şi functionarii şi muncitorii de agricultori şi patroni, în
planul indivizilor.
tabelul 1.3.4. Rezultate specifice în planul indivizilor
tabelul 1.3.5. Rezultate specifice în planul variabilelor
Este evident acum faptul c¼ a prima ax¼a factorial¼

a corespunde unei inter-
pret¼
ari punctuale: categoria socioprofesional¼ a care a avut cele mai multe con-
tacte cu presa cotidian¼ a naţional¼a (cot_nat) este aceea a cadrelor superioare
(CSUP ), caracterizat¼ a totodat¼ a de un nivel superior al educaţiei (SUP ).
Pentru o mai bun¼ a vizualizare se realizeaz¼a proiecţia simultan¼ a a ele-
mentelor (variabile şi indivizi) (Row and col, 2D), obţinându-se gra…cul din
…g. 1.3.15. (din care am eliminat, pentru claritate, punctele suplimentare).
Proiecţiile în acest plan ale indivizilor secundari ofer¼a informaţii suplimentare
(…g. 1.3.16.)
fig. 1.3.15 Indivizi activi si variabile active
fig. 1.3.16. Indivizi suplimentari
A doua ax¼a opune catagoriile sociale tinere, având o educaţie medie (şco-
lal¼
a profesional¼
a), care prefer¼a ghidurile TV, agricultorilor şi patronilor cu
vârste medii evident superioare şi având un nivel sc¼ azut al educaţiei, care
prefer¼
a cotidienele locale si revistele.
Revenind la observaţia asupra variabilei cot_nat, ne intereseaz¼ a ce se în-

tâmpl¼ a dac¼
a excludem aceast¼ a variabil¼ a din calculul efectiv al axelor, considerând-
o suplimentar¼ a şi eliminând astfel contribuţia ridicat¼ a pe care aceasta o are
la prima ax¼ a factorial¼ a. Se reia aşadar analiza pornind de la tabelul 1.3.1.,
de data aceasta selectând în fereastera de început ca …ind active toate vari-
abilele, mai puţin cot_nat. Calculele ulterioare relev¼ a faptul c¼a noile valori
proprii (tabelul 1.3.6.) sunt foarte aproiate de cele vechi (tabelul 1.3.3.), iar
coordonatele pe prima ax¼ a (tabelul 1.3.7.) difer¼ a cu maxim 0,01 de cele vechi
(tabelul 1.3.5.) A doua ax¼ a factorial¼ a, pe care cot_nat are coordonata -0,54
şi cosinusul p¼atrat 0,88, este foarte apropiat¼ a de vechea prim¼ a ax¼
a principal¼ a.
Acest ultim demers arat¼ a c¼a rezultatele ACS pe acest exemplu sunt ro-
buste (eliminarea unei modalit¼ aţi cu contribuţie mare nu modi…c¼ a semni…cativ
rezultatele)
tabelul 1.3.6. Valori proprii, procente de inerŢ ie dupA¼

eliminarea cot_nat
tabelul 1.3.7. Rezultate specifice în planul variabilelor dupA¼

eliminarea cot_nat
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 85
1.4 Analiza corespondenţelor multiple (ACM)

Analiza corespondenţelor multiple (ACM) este o generalizare posibil¼ aa
analizei de corespondenţ¼
a.
Numele apare într-o lucrare a lui Lebart [40] dar principiile metodei urc¼
a
pîn¼
a la Guttman [31], Burt [8], Hayashi [36].
Sub numele de Homogeneity Analysis este dezvoltat¼ a de echipa lui J. De
Leew începând cu 1973, iar sub numele de Dual Scaling de c¼ atre Nishisato
[49].
Se noteaz¼
a cu:
s - num¼
arul întreb¼
arilor puse la n indivizi;
pq - num¼
arul modalit¼
aţilor întreb¼
arii q, q = 1; s ;
R = (riq )q=1;s
i=1;n
- tabelul de date condensat, unde riq = num¼
arul modal-
it¼
aţii întreb¼arii q aleas¼
a de individul i, deci riq pq .
Ipoteza fundamental¼ a: Modalit¼aţile …ec¼arei întreb¼ari se exclud reciproc,

iar o modalitate este obligatoriu aleas¼a.
Exemplul 1.4.1
La întrebarea " Starea dvs. civil¼a este...", cu modalit¼
aţile
1. celibatar 4. divorţat
2. c¼as¼atorit sau tr¼aind marital 5. nu r¼aspund
3. v¼aduv
exist¼
a cinci modalit¼
aţi de r¼
aspuns ce satisfac ipoteza fundamental¼
a
Un astfel de tabel (…g 1.4.1.) nu este exploatabil: sumele pe linii şi pe

coloane nu au niciun sens. Variabilele trebuie recodate.
fig. 1.4.1 Tabel de date sub formA¼ codificatA¼ condensatA¼ .

P
s
În acest sens se noteaz¼
a cu p = pq num¼
arul total de modalit¼
aţi ale
q=1
celor s întreb¼
ari şi se construieşte, pornind de la R tabelul
Z = [Z1 ; Z2 ; : : : ; Zq ; : : : ; Zs ]
cu n linii şi p coloane, tabel ce descrie cele s r¼
aspunsuri ale celor n indivizi
printr-un codaj binar.
Z se obţine din R astfel:
1; dac¼
a riq 6= 0
zij;q =
0; altfel
În notaţia de mai sus Zq este un tabel n pq …ecare linie conţinînd pq 1
zerouri şi un singur unu.
De…niţia 1.4.1 Tabelul Z se numeşte tabel disjunctiv complet.
fig. 1.4.2. ConstrucŢ ia tabelului disjunctiv complet
Marjele tabelului Z sunt:

p
X
zi = zij;q = s;
j=1
Xn
zj = zij;q = num¼
arul de indivizi care au ales modalitatea j a întreb¼
arii q.
i=1
Rezult¼
a
pq
X
n = z j = zq şi
j=1
Xn s
X p
n X
X
z = zi = zq = zij = ns = efectivul total.
i=1 q=1 i=1 j=1
De…niţia 1.4.2 B = Z0 Z se numeşte tabelul de contingenţ¼a Burt asociat tabelu-

lui disjunctiv complet Z.
P
n
Termenul general se scrie : bjj 0 = zij zij 0
i=1
Pp
Marjele sunt : bj = bjj 0 = s z j
j 0 =1
Pp
Efectivul total este : b= bj = s2 n:
j=1
Tabelul B este format din s2 blocuri unde se disting:
blocurile de tip Z0q Zq0 indexate de (q; q 0 ), de dimensiune pq pq0 , care

se obţin prin “încrucişarea” r¼ arile q şi q 0 ;
aspunsurilor la întreb¼
blocurile de tip Z0q Zq , obţinute prin “încrucişarea” r¼

aspunsurilor la
aceeaşi întrebare.
Tabelul B este o matrice diagonal¼ a având în vedere c¼ a dou¼ a modalit¼ aţi

ale aceleiaşi întreb¼
ari nu pot … alese simultan (datorit¼a ipotezei fundamentale).
Termenii de pe diagonal¼ a sunt efectivele fz j g ale modalit¼
aţilor întreb¼
arii q.
fig. 1.4.3. ConstrucŢ ia tabelului Burt pornind de la tabelul

disjunctiv complet Z
Se noteaz¼
a cu D matricea diagonal¼
ap p de…nit¼
a de relaţiile
djj = bjj = z j
djj 0 = 0; (8) j 6= j 0 cu j; j 0 = 1; p
Matricea D poate … de asemenea considerata ca …ind format¼a din s2

0
blocuri. Numai cele s matrici diagonale Dq = Z Z; q = 1; s ce formeaz¼a
blocurile diagonale ale lui B sunt matrici nenule:
fig. 1.4.4. Tabloul burt B Ş i matricea diagonalA¼ D asociatA¼

(datele sunt din fig. 1.4.1. Ş i din fig. 1.4.2.)
1.4.1 Principiile ACM

Analiza corespondenţelor multiple este analiza corespondenţelor simple
aplicat¼
a unui tabel disjunctiv complet.
fig. 1.4.5. Analiza de corespondenŢ A¼ multiplA¼
În consecinţ¼
a:
se aplic¼
a aceleaşi transform¼
ari tabelului de date pentru obţinerea pro…lurilor-
linie/pro…lurilor-coloan¼ a;
aceleaşi ponderi ale punctelor funcţie de pro…lurile marginale;
aceeaşi distanţ¼
a, distanţa 2.
Aşadar indivizii sunt toţi afectaţi de o pondere identic¼ a, egal¼a cu mi =

zi
ns = n1 ; i = 1; n.
z
Fiecare modalitate j este ponderat¼ a de frecvenţa sa, mj = nsj .
n
În R distanţa 2 între modalit¼ aţi, pe un tabel disjunctiv se scrie:
n
X 2
2 0 zij zij 0
d j; j = n
zj z j0
i=1
şi este nul¼a dac¼ a modalit¼ aţile j şi j 0 sunt alese de aceiaşi indivizi. În plus,
modalit¼ aţile de efectiv sc¼
azut, adic¼ a cele alese de puţini indivizi, sunt dep¼
artate
faţ¼
a de celelalte modalit¼ aţi.
În Rp distanţa 2 între indivizi, pe un tabel disjunctiv, se scrie
p
2 0 1X n 2
d i; i = zij zi0 j
s zj
j=1
şi este nul¼

a dac¼ a indivizii i şi i0 au ales aceleaşi modalit¼ aţi . Ei sunt cu atât
mai dep¼ artaţi cu cât au r¼aspuns mai diferit.
În plus, trebuie observat c¼ a o modalitate j intervine în distanţa dintre
indivizi cu atât mai mult cu cât masa ei este mai mic¼ a.
Reluând rezultatele analizei de corespondenţ¼ a şi notaţiile adoptate rezult¼
a:
1 zij
F = Z; cu termenul general fij = ;
ns ns
1 zj
Dp = D; cu termenul general f j = ij ;
ns ns
1 ij
Dn = In ; cu termenul general fi = :
n n
Pentru a g¼
asi axele factoriale u se diagonalizeaz¼
a matricea
1
S = F0 Dn 1 FDp 1 = Z0 ZD 1
s
cu termenul general (atenţie! s neindexat semni…c¼ a, în acest subcapitol,
num¼arul de întreb¼
ari)
n
1 X
sjj =
0 zij zij 0 :
s z j0
i=1
În Rp , ecuaţia celei de-a -a axe factoriale u este

1 0 1
Z ZD u = u :
s
şi ecuaţia celui de-al -lea factor ' = D 1u (modulo o constant¼
a) este
1 1
D Z0 Z' = ' :
s
Analog, în Rn ; ecuaţia celui de-al -lea factor este
1 1
ZD Z0 = :
s
Factorii ' şi (de norm¼ a ) reprezint¼ a coordonatele punctelor linie
şi ale punctelor coloan¼
a pe axa factorial¼a .
Relaţiile de tranziţie între factorii ' şi sunt:
1 1
' = p D Z0 ;
1
= p Z' :
s
Coordonatele factoriale ale individului i pe axa sunt date de:
p
X X
1 zij 1
;i =p ' ;j = p ' ;j
zi s
j=1 j2p(i)
unde p (i) desemneaz¼

a mulţimea modalit¼
aţilor alese de individul i.
Corolarul 1.4.1
Modulo coe…cientul p1 individul i se g¼ aseşte proiectat în planul factorial
principal în centrul de greutate (punctul de coordonate media aritmetic¼ a) al
modalit¼aţilor pe care le-a ales.
Analog, coordonatele factoriale ale modalit¼
aţii j pe axa sunt date de:
n
X X
1 zij 1
' ;j =p ;i = p ;i
zj zj
i=1 i2n(j)
unde n (j) desemneaz¼

a mulţimea indivizilor care au ales modalitatea j.
Observaţia 1.4.1
În formulele de mai sus, modalit¼
aţile/indivizii nu sunt ponderaţi; coordonatele
sunt simple medii aritmetice.
Norul modalit¼ aţilor din Rn poate … descompus în s submulţimi, a q-a
submulţime (subnor) corespunzând mulţimii pq a modalit¼
aţilor variabilei q.
Corolarul 1.4.2
aţilor din Rn
Centrele de greutate ale celor s submulţimi ale norului modalit¼
coincid cu centrul de greutate al norului global.
Demonstraţie. Într-adev¼ ar, coordonatele punctelor subnorului relativ la

variabila q sunt coordonatele lui Zq Dq 1 iar elementele de pe diagonala prin-
a a lui n1 Dq sunt masele relative ale celor pq puncte ale subnorului.
cipal¼
P
Deoarece zij = 1; a i-a component¼ a a centrului de greutate al sub-
j2p(q)
norului este
X djj zij 1
Gq;i = = = Gi ;
n djj n
j2p(q)
unde p (q) desemneaz¼a mulţimea modalit¼

aţilor variabilei nominale q: Rezult¼
a
c¼
a Gq;i nu depinde de q.
Observaţia 1.4.2
1. Dac¼a tabelul Z nu este complet disjunctiv, adic¼
a dac¼
a pentru cel puţin un
individ nicio modalitate a unei întreb¼ari nu a fost aleas¼
a, modalit¼ aţile
acelei variabile nu mai sunt centrate în centrul de greutate al norului
global.
2. Codi…carea disjunctiv¼ a complet¼ a permite transformarea unei variabile

continue într-o variabil¼
a nominal¼ a ale carei modalit¼ aţi sunt clase ordo-
nate. In aceast¼a situaţie este util s¼
a se traseze traiectoria care poate
sugera leg¼
aturi neliniare între aceast¼a variabil¼
a şi axele factoriale.
Coordonatele modalit¼ aţilor în Rn sunt coloanele tabelului ZD 1 . Aces-

tea genereaz¼ a un subspaţiu a c¼ arui dimensiune este rangul lui ZD 1 , deci
rangul lui Z = [Z1 ; Z2 ; : : : ; Zq ; : : : ; Zs ]. Reamintim c¼
a toate subspaţiile gen-
erate
P de coloanele lui Zq ; q = 1; s au în comun prima bisectoare, deoarece
zij = 1. Rangul maxim al lui Z este deci
j2p(q)
p1 + (p2 1) + : : : (ps 1) = p s + 1:
Rangul maxim al matricii de diagonalizat D 1 Z0 Z va … deci p s + 1.

Dar în analiza norului în raport cu originea O, prima bisectoare este vectorul
propriu corespunzînd valorii proprii 1.
În analiza în raport cu centrul de greutate G vor … g¼asite deci p s valori
proprii nenule. Alegând o baz¼ a în suportul norului, ne putem restrânge la a
c¼
auta valorile proprii ale unei matrici de ordin p s.
1.4.2 Calculul inerţiei

Distanţa de la o modalitate j la centrul de greutate G este
n
X 2
2 0 1 zij 1
d (j; G) = (j G) Dn (j G) = n =
zj n
i=1
" n n n
#
X 2
zij 1 X zij 1 X
= n 2 + 2 1 =
i=1
z 2j n
i=1
zj n
i=1
" n n
#
1 X 1 1 X 1
2
= n 2 zij 2 zij + 2 n =
zj n zj n
i=1 i=1
1 1 1 n
= n 2 + = 1
zj n n zj
2 = z şi
P
n
deoarece zij ij zij = z j .
i=1
Inerţia I (j) a unei modalit¼
aţi j este, prin de…niţie:
zj
I (j) = mj d2 (j; G) cu mj =
ns
rezult¼
a
1 zj
I (j) = 1 :
s n
Corolarul 1.4.3
Inerţia unei modalit¼ aţi este cu atît mai mare cu cît efectivul z j al acestei
modalit¼ aţi, adic¼
a num¼arul de indivizi care au ales-o, este mai mic.
Maximul 1s va … atins pentru modalit¼ aţile de efectiv nul. În consecinţ¼a,

se va evita în momentul codi…c¼ arii, introducerea unor modalit¼ aţi susceptibile
de a … alese de puţini indivizi, tocmai pentru a nu introduce perturbaţii în
primele axe factoriale.
Inerţia I (q) a unei întreb¼
ari q este, prin de…niţie,
pq
X 1
I (q) = I (j) = (pq 1) :
s
j=1
Corolarul 1.4.4
Inerţia unei întreb¼ari este cu atât mai mare cu cât num¼ arul de modalit¼aţi
1
asociat, pq , este mai mare. Minimul s este atins de întreb¼arile cu doar dou¼a
modalit¼ aţi de r¼
aspuns. În consecinţ¼
a, dac¼
a se doreşte ca toate întreb¼
arile
s¼
a joace un rol aproximativ egal atunci se va echilibra sistemul de întreb¼ ari
(variabilele vor … “decupate ” într-un num¼ ar egal de modalit¼
aţi).
Inerţia total¼
a este
s
X p
X s
X
zj 2 p
I= I (q) = d (j; G) = 1; deoarece pq = p
ns s
q=1 j=1 q=1
În particular I = 1 dac¼a toate întreb¼arile au dou¼a modali¼aţi de r¼

aspuns,
adic¼ a p = 2s.
În consecinţ¼
a depinzînd exclusiv de num¼ arul de întreb¼
ari şi de modal-
it¼
aţile asociate acestora, inerţia global¼
a nu are, în cazul ACM (ca şi în cazul
ACP normat, de altfel), nicio semn…caţie statistic¼ a, deoarece nu depinde de
leg¼
atura între variabile.
1.4.3 Reguli de interpretare

A spune c¼a exist¼
a a…nit¼
aţi între r¼
aspunsuri este acelaşi lucru cu a spune c¼
a
exist¼
a indivizi care au pro…le asem¼ an¼atoare din punct de vedere al atributelor
alese spre a-i descrie. Ţinînd cont de distanţele între elementele tabelului
disjunctiv complet şi de relaţiile baricentrice particulare se poate a…rma c¼ a:
Proximitatea între indivizi semni…c¼ a faptul c¼

a au ales global aceleaşi
modalit¼
aţi ca r¼
aspuns la întreb¼
arile puse.
Proximitatea între modalit¼aţi ale unor întreb¼

ari diferite semni…c¼a faptul
c¼
a ele au fost alese ca r¼
aspuns de grupe de indivizi asem¼ an¼
atori (c¼
aci
aşa cum s-a demonstrat mai sus, ele corespund centrelor de greutate ale
acelor grupe de indivizi).
Proximitatea între modalit¼ aţile aceleiaşi întreb¼

ari semni…c¼a faptul c¼a
grupele de indivizi care le-au ales sunt asem¼ an¼atoare (din construcţie,
modalit¼
aţile unei aceleiaşi variabile se exclud).
Regulile de interpretare a rezultatelor (coordonate, contribuţii, cosinus

p¼
atrat) privind elementele active ale unei ACM sunt asem¼ an¼
atoare cu cele core-
spunz¼atoare unei ACS. În plus, se poate calcula contribuţia unei variabile-
întreb¼ari la factorul sumând contribuţiile modalit¼ aţilor acesteia la factorul
respectiv:
pq pq
X X zj '2 ;j 1 X
Cr (q) = Cr (j) = = z j '2 ;j
ns ns
j2p(q) j=1 j=1
1.4.4 Principii de transformare a variabilei continue în vari-

abil¼
a discret¼
a
Pentru a … active într-o ACM, variabilele continue trebuie transformate
în variabile nominale (discrete). În acest proces apar urm¼
atoarele probleme:
Cîte clase trebuie alese şi cum?
Unde trebuie plasate marginile claselor?
Din rezultatele de mai sus au reieşit urm¼ atoarele cerinţe: constituirea

de modalit¼ aţi de efective comparabile şi decuparea variabilelor astfel încît s¼
a
existe un num¼ ar de modalit¼aţi comparabile. Din practic¼ a, un num¼ ar de 4-8
modalit¼aţi par s¼ a acopere majoritatea aplicaţiilor.
În consecinţ¼ a este vorba de a g¼ asi un compromis între un decupaj acce-
ptabil tehnic din punct de vedere al principiilor de mai sus şi un decupaj care
exhib¼a cel mai bine informaţia ce trebuie reţinut¼ a. În concluzie, nu se poate
recurge la algoritmi „orbi” pentru a elabora un decupaj satisf¼ ac¼
ator. Astfel,
se poate reţine o modalitate cu un efectiv sc¼ azut dac¼a aceasta este important¼a
pentru studiu; analog, pentru a selecţiona bornele claselor unei variabile con-
tinue se vor respecta, mai degrab¼ a, pragurile naturale în contextul studiului
s¼
au, reieşite ca semni…cative dup¼ a examenul histogramei, decît decupajul în
clase de mase egale dar (uneori) inadecvate.
Transformarea variabilelor continue în variabile nominale duce la pierdera
unei p¼arţi din informaţia brut¼a dar prezint¼a unele avantaje:
Utilizarea simultan¼
a a variabilelor nominale şi continue în ACM;
Validarea a posteriori a datelor, permiţînd observarea ulterioar¼

a a even-
tualelor clase contigue;
Punerea în evidenţ¼
a a eventualelor leg¼
aturi neliniare între variabile con-
tinue. Asupra acestui ultim aspect vom insista puţin:
Dîndu-se p variabile continue, x1 ; x2 ; : : : ; xp ; ACP caut¼

a o combinaţie
liniar¼
a de dispersie maximal¼
a
0 1
Xp
max V @ uj xj A :
j=1
Dac¼a se urm¼areşte punerea în evidenţ¼

a a unor relaţii neliniare se vor c¼ auta
tranform¼ari funcţionale, f 1 x1 ; f 2 x2 ; : : : ; f p (xp ) ale variabilelor astfel încît
s¼
a se realizeze 0 1
Xp
max V @ f j xj A :
j=1
Num¼ arul de indivizi …ind …nit trebuie s¼ a ne limit¼am la transform¼ ari

funcţionale alese într-o mulţime …nit¼ a.
S¼a alegem f j ; funcţii scar¼
a (constante pe porţiuni). Se cunoaşte faptul
c¼
a aceste funcţii permit aproximarea oric¼ arei funcţii continue (teorema lui
Weierstrass).
Concret, se va împ¼ arţi intervalul de variaţie a lui xj în mj clase. f j xj

va … deci o funcţie cu valorile a1 ; a2 ; : : : ; amj pe intervale de decupaj ce se ex-
pliciteaz¼
a sub forma unei combinaţii liniare de funcţii indicator ale intervalului
de decupaj, avînd coe…cienţi a1 ; a2 ; : : : ; amj .
! !
Pp Pp
Criteriul max V f j xj este identic cu max V Zj aj .
j=1 j=1
Soluţia este dat¼
a de primele componente ale ACM pe tabelul
Z = [Z1 ; Z2 ; : : : ; Zq ; : : : ; Zs ] :
Sub rezerva de a avea su…ciente informaţii în …ecare clas¼ a se poate ast-

fel utiliza, pentru evidenţierea unor leg¼
aturi neliniare, în locul unei ACP pe
tabelul X o ACM pe tabelul Z obţinut din X ca mai sus.
1.4.5 Valori-test pentru modalit¼

aţi suplimentare
Coordonata factorial¼
a ' j a unei modalit¼ aţi j pe axa este, modulo
1
coe…cientul p , media aritmetic¼
a a coordonatelor ;i ale indivizilor care au
ales aceast¼
a modalitate ca r¼
aspuns, adic¼
a
1 X
' j = p i
zj
i2n(j)
S¼
a presupunem c¼ a o modalitate suplimentar¼ a j a fost aleas¼
a de nj indivizi
(nj = z j ). Ne propunem s¼ a test¼am dac¼ a aceast¼ a modalitate a fost aleas¼ a
întâmpl¼ator, sau dac¼a alegerea ei are o semni…caţie.
Fie ipoteza Ho : “cei nj indivizi au fost aleşi aleator din eşantionul de n
indivizi” (alegerea este presupus¼a f¼
ar¼
a revenire).
În ipoteza Ho media coordonatelor i ale celor nj indivizi este o vari-
abil¼
a aleatoare
n
1 X
x j = i
nj
i2n(j)
2 n nj
de E x j = 0 şi DH o
x j = n 1 nj repartizat¼
a hipergeometric.
2 [ n nj 1
Rezult¼
a E[ i] = 0 şi DHo i] = n 1 nj .
q
n n
De…niţia 1.4.3 t i = nj n 1j ' ;j se numeşte valoare-test şi m¼ asoar¼
a, în
num¼ ar de ecarturi-tip, distanţa între modalitatea j, adic¼
a quasi-baricentrul
celor nj indivizi, şi originea axei factoriale .
Conform teoremei limit¼ a-central¼ a, distribuţia lui t i tinde la o N (0; 1).
Astfel, poziţia unei modalit¼
aţi este intersant¼a într-o direcţie dat¼ a, dac¼a
subnorul al c¼arui baricentru este, ocup¼ a o zon¼a apropiat¼ a de aceast¼a ax¼a şi
destul de dep¼artat¼a de centrul de greutate global în direcţia axei.
Valoarea-test este un criteriu care permite o apreciere rapid¼ a a poziţiei,

“semni…cativ¼a” sau nu, a unei modalit¼ aţi pe o ax¼ a. Se consider¼
a, în general,
ca ocupînd o poziţie semni…cativ¼a, modalit¼ aţile a c¼
aror valoare-test, în modul,
este mai mare sau egal¼ a cu 2, ceea ce corespunde unui prag de semni…caţie de
95%.
Propoziţia 1.4.1
Analiza corespondenţelor aplicat¼
a unui tabel disjunctiv complet Z este echiva-
lent¼
a cu analiza tabelului Burt asociat, în sensul c¼
a produce aceiaşi factori.
Demonstraţie. ' este al -lea vector propriu – factor al unei ACS pe un
tabel Z –al matricii S = 1s D 1 Z0 Z = 1s D 1 B , adic¼
a
S' = ' :
Pentru ACS-ul tabelului B asociat lui Z, tabelul frecvenţelor relative F

este
1 1
F =B şi Dp = Dn = D:
ns2 ns
Matricea de diagonalizat este
1 1 1
S = D BD B ) S = S2 :
s2
Se ştie c¼
a
1 1 1 1
D B' = ' j D B)
s s
1 1 1 1 1
) D BD B' = D B' =
s2 s
2
= ' = ' :
Rezult¼
a
2
S ' = '
Factorii celor dou¼a analize sunt deci coliniari în Rp dar valorile proprii asociate
difer¼
a; cele rezultate din analiza lui D, notate B sunt egale cu p¼ atratul celor
2
rezultate din analiza lui Z, adic¼ a B= .
Factorul ' rezultat din analiza lui Z şi reprezentînd coordonatele facto-
riale ale modalit¼aţilor, are ca norm¼
a pe , în timp ce factorul corespunzând
analizei lui B, notat 'B , are ca norm¼ a pe 2 .
Corolarul 1.4.5
Relaţia care leag¼
a cele dou¼
a sistme de coordonate factoriale este
p
'B = ' :
1.4.6 Exemplu
Descrierea datelor
Pentru 27 de rase de câini au fost culese informaţii privind anumite în-

suşiri …zice şi temperamentale, conform tabelului A.4. (Anex¼ a). Se doreşte
studierea leg¼ aturilor existente între rase şi aceste însuşiri, folosind metoda
analizei corespondenţelor multiple.
Pentru acest set de date se identi…c¼ a 8 variabile nominale astfel:
variabile nominale active:
– TALIE, având p1 = 3 modalit¼

aţi: 1 =mic¼ a, 2 =mijlocie, 3 =mare;
¼ având p2 = 3 modalit¼
– MASA, aţi: 1 =mic¼ a, 2 =mijlocie, 3 =mare;
– VIT=VITEZA,¼ având p3 = 3 modalit¼ aţi: 1 =mic¼a, 2 =mijlocie,3 =mare;
¼ având p4 = 3 modalit¼
– INT=INTELIGENŢA, aţi: 1 =sc¼
azut¼
a, 2 =medie,
3 =ridicat¼
a;
– AFECT=AFECŢIUNE, având p5 = 2 modalit¼
aţi: 1 =moderat¼
a,
2 =mare;
– AGR=AGRESIVITATE, având p6 = 2 modalit¼
aţi: 1 =moderat¼
a,
2 =mare;
variabile nominale suplimentare :
– FN=FUNCŢIA, având p = 3 modalit¼ aţi: 1=câine de companie,

2=câine de vân¼
atoare, 3=câine de paz¼
a;
– R=RASA, unde
BEAU=Beauceron EPAF=Epagneul Francez

BASS=Basset FOXH=Fox Hound
CIOB=Ciob¼
anesc German FOXT=Fox Terrier
BOXE=Boxer GASC=Marele Albastru de Gasconia
BULD=Bull Dog LABR=Labrador
BULM=Bull Masti¤ LEVR=Ogar
CANI=Caniche MAST=Masti¤
CHIH=Chihuahua PEKI=Pechinez
COCK=Cocker POIN=Pointer
COLL=Colley STBE=Saint Bernard
DALM=Dalmaţian SETT=Setter
DOBE=Dobermann TECK=Teckel
DOGG=Dog German TERN=Terre-Neuve
EPAB= Epagneul Breton
Ca şi în exemplele anterioare, doar variabilele active particip¼ a efectiv

la calculul valorilor proprii şi deci la determinarea dimensiunilor spaţiului de
proiecţie, în timp ce variabilele suplimentare intervin doar în momentul inter-
pret¼
arii.
Aşadar, pentru acest exemplu:
n = 27 indivizi (rasele de câini), s = 6 num¼

arul de variabile active;
tabelul A.4 = tabelul de date condensat, pe baza c¼

aruia se construieşte
tabelul Burt;
o linie din acest tabel, de exemplu prima, se citeşte astfel: Un membru

al rasei Beauceron este caracterizat de talie mare, mas¼ a mijlocie, vitez¼
a
mare, inteligenţ¼
a ridicat¼
a, afecţiune mare, agresivitate mare şi este con-
siderat câine de paz¼ a;
p = 16 modalit¼
aţi ale variabilelor active, deci 16 coloane în tabelul Burt;
p 16
inerţia total¼
a este I = s 1= 6 1 = 1; 67 (vezi subcapitolul 1.4.2.).

Aplicarea analizei corespondenţelor în cadrul programului STATISTICA
presupune parcurgerea mai multor paşi.
Pentru început se selecteaz¼a din bara de meniu tipul de analiz¼
a utilizat -
Statistics, Multivariate Exporatory Techniques, Correspondence Analysis şi în
fereastra de dialog ap¼arut¼
a se opteaz¼a pentru analiza corespondenţelor multi-
ple.
fig. 1.4.6. Fereastra de start
În continuare se indic¼
a tipul de tabel analizat - în cazul acesta, tabel sub form¼
a
condensat¼a (Raw Data), se apas¼ a butonul Variables (Factors in Burt Table)
pentru selectarea variabilelor care particip¼a la analiz¼

a - în acest caz toate şi,
dup¼a con…rmarea alegerii, se apas¼
a butonul Supplementary columns (variables)
pentru selectarea variabilelor suplimentare (R şi FN). Dup¼ a ap¼asarea butonu-
lui OK, o nou¼ a fereastr¼
a (…g. 1.4.7.) permite generarea rezultatelor speci-
…ce analizei corespondenţelor multiple. Tot aici este prezentat un rezumat
al datelor de plecare: variabile active şi suplimentare împreun¼ a cu num¼ arul
de modalit¼aţi corespunz¼ator, num¼arul total de modalit¼ aţi active şi valorile
proprii.

Conform de…niţiei din subcapitolul 1.4.1, analiza corespondenţelor multi-
ple este analiza corespondenţelor simple realizat¼
a pe tabelul disjunctiv complet
provenit din tabelul sub form¼ a codi…cat¼a condensat¼ a (tabelul 1.4.1.). Progra-
mul STATISTICA produce toate rezultatele speci…ce acestei analize plecând
de la tabelul Burt asociat tabelului disjunctiv complet. La baza acestui de-
mers st¼a propoziţia 1.4.1. Tabelul Burt pentru acest exemplu se reg¼ aseşte în
submeniul Review, Observed frequencies.
100CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
fig. 1.4.8. Screeplot
Pasul urm¼ ator îl reprezint¼ a determinarea spaţiului de proiecţie. Dia-

grama Scree Plot din submeniul Advanced (…g 1.4.8.) indic¼ a cea de-a treia
valoare proprie, considerat¼ a în ordine descresc¼
atoare, ca …ind un factor de
structurare. Din tabelul 1.4.1. se deduce c¼ a primele trei dimensiuni ofer¼ ao
calitate a reprezent¼arii de 64; 63%. Analiza descris¼a în continuare a fost real-
izat¼
a în planul factorial principal (se completeaz¼a valoarea 2 în c¼
asuţa Number
of dimensions din submeniul Options), planul dat de factorii corespunz¼ atori
valorilor proprii 0.48 şi 0.38.
tabelul 1.4.1. Valori proprii, procente de inerŢ ie
Butonul Summary: Column coordinates produce tabelul ce conţine rezul-

tatele speci…ce pentru modalit¼
aţile active (tabelul 1.4.2.) şi suplimentare
(tabelul 1.4.3.):
coordonatele proiecţiilor pe cele dou¼

a dimensiuni,
ponderile (masele) (calculate doar pentru modalit¼

aţi active),
calitatea reprezent¼
arii în planul factorial, dat¼
a de suma cosinusurilor
p¼
atrate pentru cele dou¼a axe factoriale,
contribuţiile calculate pentru …ecare dintre cele dou¼

a dimensiuni (Inertia
aici) (calculate doar pentru modalit¼ aţi active).
tabelul 1.4.2. Rezultate specifice modalitA¼ Ţ ilor active
tabelul 1.4.3 Rezultate specifice modalitA¼ Ţ ilor suplimentare
Aceste rezultate se interpreteaz¼ a ca în cazul exemplului din subcapitolul

dedicat ACS, cu menţiunea c¼ a, pentru …ecare variabil¼
a activ¼a, contribuţia la
orice factor se calculeaz¼ a însumând contribuţiile tuturor modalit¼ aţilor vari-
abilei la factorul respectiv. De exemplu, variabila TALIE are o contribuţie de
0,12 + 0,046 + 0,13 = 0,30 la primul factor.
Realizând proiecţia simultan¼ a a variabilelor active şi suplimentare în
planul factorial principal (submeniul Advanced, 2D) se obţine gra…cul din …g.
1.4.9. Se observ¼a, aşadar, c¼
a:
în cazul variabilelor cu dou¼

a modalit¼
aţi (AFECT, AGR), modalit¼
aţile
sunt situate în cadrane opuse;
exist¼
a puncte pe gra…c care, deşi corespund unor rase diferite, se supra-
pun: BULD şi TECK, CHIH şi PEKI, DALM şi LABR. Aceasta este o
consecinţ¼
a gra…c¼
a a faptului c¼
a valorile din tabelul A.4. pentru aceste
perechi se identi…c¼
a aproape în totalitate. În general, rasele învecinate
posed¼a aceleaşi caracteristci …zice şi temperamentale (vezi subcapitolul

1.4.3).
fig. 1.4.9. variabile active Ş i suplimentare
Prima ax¼
a principal¼
a opune:
rasele agresive, în medie rapide, caracterizate de talie şi mas¼

a mari
- câinii de paz¼a (FN:3) precum Dog German (DOGG), Dobermann
(DOBE), Fox Hound (FOXH) etc. şi
rasele de talie şi mas¼

a mici, dar afecţiune ridicat¼
a - câinii de companie
(FN:1) precum Caniche (CANI), Cocker (COCK), Fox Terrier (FOXT)
etc.
A doua ax¼
a principal¼
a opune:
rasele inteligente, pentru care talia, masa şi viteza au valori medii - cainii
de vân¼ atoare (FN:2) precum Beauceron (BEAU), Ciob¼ anesc German
(CIOB), Doberman (DOBB) etc. şi
rasele mai puţin inteligente şi lente: Basset (BASS), Masti¤ (MAST).
Pentru o mai bun¼ a vizualizare, se pot elimina din …gura 1.4.9. punctele
corespunz¼
atoare variabilelor active (sau suplimentare) astfel: se selecteaz¼
a un
punct de pe gra…c, se apas¼a butonul drept al mouse-ului şi se alege opţiunea
Point Labels.
fig. 1.4.10. Point labels
În fereastra de dialog ap¼arut¼a (…g 1.4.10.) se deselecteaz¼ a opţiunea Display

point labels pentru variabilele active - Plot 1:ColCoords şi se pas¼
a butonul OK.
Se obţine gra…cul din …gura 1.4.11.
fig. 1.4.11. Variabile suplimentare

1.5
tabelul 1.5.1. ProprietA¼ Ţ ile elementelor principale din ACP, ACS, ACM
în spaŢ iul indivizilor (Rp ) respectiv al variabilelor (Rn ) (1)
ELEMENTE SPAŢIUL ACP ACS ACM

a
Sintez¼
fij
Tabelul F Rp X = (xij )j=1;p
i=1;n
,Y = (yij )j=1;p
i=1;n
X = Dn 1 F = fi ; Z = (zij )j=1;p
i=1;n
tabel
i=1;n
p
n oj=1;p
kij
sau Z = (zij )j=1;p
i=1;n
( fij = k ; fi: = fij ) disjunctiv complet
j=1
P
fij
E Rn aceleaşi ca în Rp X = Dp 1 F0 = fj aceleaşi ca în Rp
j=1;p
n
n oi=1;n
(f:j = fij )
i=1
P
n
ij
Ponderi F pi > 0 cu pi = 1 fi: ; i = 1; n fi: = n ; i = 1; n
i=1
(Matricea de D = diag (pi ) ; i = 1; n Dn = diag (fi: )
P
Dn = n1 In
ponderi)
zj
E f:j ; j = 1; p f:j = ij ns ; j = 1; p
1
Dp = diag (f:j ) Dp = ns D; D = diag (z j )
1 1
Metrica F M = diag(mj ); j = 1; p , M = Dp 1 = diag fj M = Dp 1 = nsD
M = Ip sau M = D1=s2
1
E D = diag (pi ) ; i = 1; n M = Dn 1 = diag fi: M = Dn 1 = nIn
¼
1.5. SINTEZA
Distanţa F d2 (i; i0 ) = d2 (i; i0 ) =

p p p
d2 (ei ; ej ) = kei ej k2M
fij 2 2
1 fi0 j n
= mk (xik xjk )2 = fj fi fi0 = 1s z j zij zi0 j
k=1 j=1 j=1
P P P
n 2 n 2
vjk 1 fij fij 0 zij zij 0
E cos ( jk ) = sj sk = rjk ; d2 (j; j 0 ) = fi fj f j0 d2 (j; j 0 ) = n zj z j0
i=1 i=1
rjk =coef. de corelaţie
P P
1
Matricea de F A= Y0 DYM = VM S = F0 Dn 1 FDp 1 S = 1s Z0 ZD
diagonalizat
1
E B= YMY0 D = WD T = FDp 1 F0 Dn 1 T = 1s ZD Z0
Axe factoriale F a 2Rp pt. care u 2Rp pt. care u 2Rp pt. care
Aa = a Su = u Su = u
E b 2Rp pt. care v 2Rn pt. care v 2Rn pt. care

Bb = b Tv = v Tv = v
105
Coordonatele F c = YMa = Yu 2Rn (c = Zu) = Dn 1 FDp 1 u =v

pe axele cu propr. s2 (c) = i = fi f j u j
j
P fij
factoriale
E d = Y0 Db = Y0 v 2 Rp (d = Z0 v) ' = Dp 1 F0 Dn 1 v ' =D 1u
cu propr. s2 (d) = ' j= fi f j v i

i
P fij
c şi d se numesc şi

componente principale
Relaţii de = p1 Dn 1 F' ; = s
p1 Z' ;
j j
bj = p1 YMaj = p1 cj
p
fij
tranziţie i = p1
fi ' j i = s
p1 ' j
j=1 j2p(i)
P P
aj = p1 ' = p1 Dp 1 F ; ' = p1 D 1 Z0 ;
j j
Y0 Dbj = p1 dj
n
fij 1
' j = p1
fj i ' j = zj
p i
i=1 i2n(j)
P P
Capitolul 2
METODE DE
CLASIFICARE
Tehnicile de clasi…care automat¼ a sunt destinate s¼ a produc¼ a grup¼ ari de

linii sau de coloane ale unui tabel; este vorba, cel mai adesea, de obiecte sau
indivizi descrişi printr-un num¼ ar de variabile sau de caractere.
Circumstanţele utiliz¼ arii acestor metode sunt analoage cu cele ale metode-
lor de analiz¼a factorial¼ a descrise în capitolul 1: utilizatorul se g¼ aseşte în faţa
unui tabel rectangular de valori numerice. Acest tabel poate … un tabel de vari-
abile continue, un tabel de contingenţ¼a sau un tabel de prezenţ¼a-absenţ¼a (tabel
ce conţine valori de zero sau unu dup¼ a cum un individ sau un obiect posed¼ a
sau nu un anumit caracter sau atribut). În anumite aplicaţii, utilizatorul poate
dispune de un tabel p¼ atrat, simetric, de similarit¼ aţi sau de distanţe.
Exist¼
a mai multe familii de algoritmi de clasi…care: algoritmi ce conduc
direct la partiţii, cum sunt metodele de agregare în jurul centrilor mobili, algo-
ritmi ascendenţi (sau algoritmi care construiesc clasele prin aglomerarea suc-
cesiv¼a a câte dou¼ a obiecte şi care furnizeaz¼
a o ierarhie de repatiţii de obiecte),
în …ne, algoritmi descendenţi (sau divizivi) care procedeaz¼ a prin dihotomii
succesive ale mulţimii obiectelor şi care furnizeaz¼ a o ierarhie de partiţii. Ne
vom limita în aceast¼ a lucrare la primele dou¼ a tehnici de clasi…care:
- grup¼ arile se pot face prin c¼

autarea direct¼
a a unei partiţii, afectând ele-
mentele la centrii provizorii ai claselor, apoi prin recentrarea claselor şi
agregarea iterativ¼ a a elementelor. Este vorba de tehnicile de agregare în
jurul centrilor mobili, tehnici înrudite cu metoda norilori dinamici sau
metoda k-means, metode grati…ante în cazul tabelelor mari (secţiunea
2.1).
- grup¼arile se pot face prin aglomerarea progresiv¼ a a elementelor dou¼a

câte dou¼ a. Este cazul clasi…c¼
arii ascendente ierarhice cu agregare dup¼
a
mai multe criterii. În lucrare sunt prezentate tehnica saltului minimal,
echivalent¼a dintr-un anumit punct de vedere cu c¼ autarea arborelui mini-
107
108 CAPITOLUL 2. METODE DE CLASIFICARE
mal, şi tehnica agreg¼arii dup¼a dispersie, interesant¼

a prin compatibilitatea
rezultatelor sale cu unele rezultate din analiza factorial¼ a (secţiunea 2.2).
Aceste tehnici prezint¼ a avantaje diferite, dar pot … utilizate şi împreun¼a.
Este, astfel, posibil¼
a o strategie de clasi…care bazat¼a pe un algoritm mixt bine
adaptat partiţion¼arii mulţimilor formate din mii de indivizi (secţiunea 2.3).
Metodele de clasi…care sau de tipologie (ştiinţa care le studiaz¼ a se nu-
meşte taxonomie) au ca scop regruparea indivizilor într-un num¼ ar restrâns de
clase omogene. Este vorba deci, spre deosebire de demersul analizei factoriale,
despre descrierea datelor procedând la o reducere a num¼ arului de indivizi (faţ¼
a
de o reducere a num¼ arului de variabile).
În cele ce urmeaz¼ a se vor avea în vedere doar metodele de clasi…care
automat¼ a. Clasele vor … obţinute pe baza algoritmilor formalizaţi şi nu prin
metode subiective sau vizuale ce fac apel la iniţiativa practicianului!
2.1 Generalit¼
aţi
În taxonomie, informaţia util¼a se prezint¼ a sub forma unui tabel n n;
conţinând distanţele sau disimilarit¼
aţile dintre cei n indivizi de clasi…cat.
Reamintim
De…niţia 2.1.1 Fie E mulţimea celor n obiecte de clasi…cat. Se numeşte

distanţ¼a o funcţie d : E E ! R+ ; cu propriet¼
aţile:
1. d (i; j) = d (j; i) ; (8) i; j 2 E (simetric¼

a);
2. d (i; j) 0; (8) i; j 2 E (pozitiv¼

a);
3. d (i; j) = 0 , i = j; (8) i; j 2 E (idempotent¼

a);
4. d (i; j) d (i; k) + d (k; j) ; (8) i; j; k 2 E (tranzitiv¼

a).
Pentru ca o distanţ¼a s¼a …e euclidian¼a ea trebuie s¼a …e generat¼

a de un
produs scalar.
Când datele sunt prezentate sub forma unui tabel X de n indivizi cu p
caracteristici numerice, cele mai des utilizate distanţe sunt:
- distanţa euclidian¼
a clasic¼
a, cu metrica M = I;
- distanţa euclidian¼
a cu metrica M = D 1 ;
s2
1
- distanţa Mahanalobis, cu metrica M = V ;
P
- distanţa L1 în care d (i; j) = xki xkj ;
k
¼ ŢI
2.1. GENERALITA 109
1
P q q
- distanţa Minkowski, Lq , în care d (i; j) = xki xkj .
k
De…niţia 2.1.2 Se numeşte similaritate o funcţie s : E E ! R+ , cu pro-

priet¼
aţile:
1. s (i; j) = s (j; i) ; (8) i; j 2 E (simetric¼
a);
2. s (i; j) 0; (8) i; j 2 E (pozitiv¼
a);
3. s (i; i) s (i; j) ; (8) i; j 2 E (nu exist¼
a un individ mai asem¼
an¼
ator decât
el însuşi).
De…niţia 2.1.3 Se numeşte disimilaritate o funcţie d : E E ! R+ , cu
propriet¼
aţile:
1. d (i; j) = d (j; i) ; (8) i; j 2 E (simetric¼
a);
2. d (i; j) 0; (8) i; j 2 E (pozitiv¼
a);
3. d (i; i) = 0; (8) i; j 2 E:
O situaţie frecvent întâlnit¼ a este cea în care datele se prezint¼
a sub forma
urm¼atoare: n indivizi sunt descrişi prin prezenţa/absenţa a p caracteristici
(datele iniţiale sunt, deci, sub form¼ a binar¼
a).
Datele binare sunt "compactate" în n numere ce caracterizeaz¼ a …ecare
cuplu de indivizi (deci 4 tabele n n) astfel:
a = num¼
arul de caracteristici comune;
b = num¼
arul de caracteristici posedate de i dar nu de j;
c = num¼
arul de caracteristici posedate de j dar nu de i;
d = num¼
arul de caracteristici neposedate nici de i şi nici de j;
Atenţie! Cu toate c¼ a logic a şi d sunt complementare, cele dou¼ a numere
nu joac¼
a acelaşi rol pentru datele reale; de exemplu, faptul c¼ a dou¼ a vegetale
nu cresc în acelşi loc, nu înseamn¼ a în mod necesar c¼ a sunt asem¼an¼ atoare.
Pe baza acestor 4 tabele se construieşte tabelul de similaritate sau, prin
complementare faţ¼ a de 1, tabelul de disimilaritate, utilizând diferiţi indici:
a
- Jaccard: a+b+c ;
2a
- Dice: 2a+b+c ;
p a
- Ochiai: ;
(a b)(a+c)
a
- Russel şi Rao: a+b+c+d ;
a+d
- Rogers şi Tanimoto: a+d+2(b+c) etc.
2.2 Aspecte combinatorii ale clasi…c¼

arii
La prima vedere s-ar putea crede, deoarece E – multimea indivizilor de
clasi…cat este …nit¼
a (card (E) = n < 1 ), c¼ a problema clasi…c¼ arii este relativ
facil¼
a: se genereaz¼
a toate partiţiile posibile iar apoi se alege aceea/acelea care
satisface/satisfac un criteriu de optimalitate dat.
Din p¼acate, acest algoritm nu poate … implementat înc¼ a în practic¼a de-
oarece, chiar un calculator ce poate trata un milion de partiţii pe secund¼ a are
nevoie de 126 de mii de ani pentru a putea genera toate partiţiile unei mulţimi
de numai 25 de indivizi!
Va trebui deci, în majoritatea situaţiilor, s¼ a ne mulţumim cu soluţii
aproximative.
Se noteaz¼a cu Pn;k num¼ arul de partiţii în k clase a unei mulţimi de n
elemente (num¼ arul lui Stirling de speţa a doua).
Se observ¼a uşor c¼
a:
n (n 1)
Pn;1 = 1 = Pn;n ; Pn;n 1 =
2
Pn;1 = 2n 1
1:
Se demonstrez¼
a prin inducţie c¼
a:
Pn;k = Pn 1;k 1 + kPn 1;k :
Se poate, de asemenea, ar¼

ata c¼
a:
k
1 X i
Pn;k = Ck ( 1)k i n
i
k!
i=1
kn
şi deci, când n ! 1, Pn;k n! .
P
n
Se noteaz¼
a cu Pn = Pn;k num¼
arul total de partiţii ale unei mulţimi
k=1
de n elemente (numerele lui Bell). Dac¼
a se convine ca P0 = 1; atunci se poate
ar¼
ata prin inducţie c¼
a
1
2 1 X kn
Pn = P0 + (n 1) P1 + Cn+1 P2 + : : : + Pn 1 şi c¼
a Pn = :
e n!
k=1
2.3 Metode de clasi…care neierarhic¼

a
Aceste metode permit clasi…carea rapid¼ a a unor mulţimi destul de mari,
optimizând local un criteriu de tip inerţie.
Se presupune c¼a:
- cei n indivizi sunt puncte dintr-un spaţiu euclidian din Rp ; ceea ce per-
mite de…nirea distanţelor euclidiene dintre indivizi;
¼
2.3. METODE DE CLASIFICARE NEIERARHICA 111
- se doreşte clasi…carea indivizilor în k clase, unde k este cunoscut à priori.
Scopul …ec¼ arei clasi…c¼ ari …ind acela de a obţine clase cât mai omogene,
iar omogenitatea …ind caracterizat¼ a, din punct de vedere statistic, de dispersie,
rezult¼
a c¼
a o clas¼a va … cu atât mai omogen¼ a cu cât inerţia norului de puncte
ce o alc¼
atuieşte este mai mic¼ a.
Fie deci g1 ; g2 ; : : : ; gk centrele de greutate ale celor k clase. Atunci
inerţia clasei Ci este:

X
Ii = pj d2 (j; gi ) ;
j2Ci
cu pj ponderea individului j;
inerţia intraclase este:

k
X
IW = Pi Ii ;
i=1
cu Pi ponderea clasei i (num¼

arul de inidivizi din clasa i);
inerţia interclase este:

k
X
IB = Pi d2 (gi ; g) ;
i=1
cu g centrul de greutate al întregului nor de n indivizi.
Cum, conform principiului lui König-Huygens, inerţia total¼a a norului

este
I = IW + IB ;
un criteriu vizual de clasi…care pentru a determina, în medie, clase omogene,
const¼
a în a c¼ auta acea partiţie în k clase pentru care inerţia intraclase este
minim¼ a, deci inerţia interclase este maxim¼
a.
fig. 2.3.1. Descompunerea inerŢ iei conform principiului lui

Huygens
Trebuie s¼a remarc¼ am, mai întâi, c¼ a acest criteriu presupune cunoaşterea
à priori a num¼ arului de clase şi c¼
a nu este posibil¼a compararea a dou¼ a partiţii
cu num¼ ar diferit de clase, având în vedere c¼ a cea mai bun¼ a partiţie de k clase
va avea o inerţie intraclase superioar¼ a oric¼
arei partiţii de k + 1 clase, iar la
limit¼
a, cea mai bun¼ a partiţie este cea trivial¼
a, în care …ecare individ formeaz¼ a
o clas¼
a (în acest caz IW = 0; c¼ aci …ecare individ este propriul s¼ au centru de
greutate).
2.3.1 Metoda centrelor mobile (a lui Forgy)

Fie E o mulţime de n indivizi caracterizaţi de p variabile. Vom pre-
supune spaţiul Rp ; ce conţine norul de n puncte-individ, dotat cu o distanţ¼a
corespunz¼ atoare, notat¼
a d (adesea distanţa euclidian¼ a sau distanţa 2 ).
a uzual¼
Se doreşte constituirea a k clase. Etapele algoritmului sunt urm¼ atoarele:
Pasul 1: Se aleg, în general aleator, k puncte distincte din E. Fie acestea c1 ; c2 ; : : : ; ck .

Se iniţializeaz¼
a:
j = 0; contorul de num¼
arare a iteraţiilor
(j)
IW = 1; inerţia intraclase (cu un num¼
ar foarte mare, dat).
Pasul 2: Se împarte mulţimea E în k clase astfel: pentru …ecare i, cu i = 1; k,
Eci = e 2 E j d (e; ci ) < d (e; cm ) ; m = 1; k; m 6= i
Cazul egalit¼
aţii se rezolv¼
a prin tragere la sorţi, în sensul c¼
a e este asignat
aleator acelor partiţii pentru care d e; ci1 = d e; ci2 = : : : = d e; cie .
Dac¼a card (Eci ) = 0; atunci se genereaz¼ a aleator un nou centru ci . Geo-
metric, …ecare clas¼ a este un domeniu poliedral convex determinat de
hiperplanele mediatoare pe segmentele ci cm cu m 6= i şi m = 1; k:
a centrele de greutate ale partiţiei fEci gki=1 şi se noteaz¼

Pasul 3: Se calculeaz¼ a cu
k
fgi gi=1 .
(j+1)
Se calculeaz¼
a IW = inerţia intraclase a partiţiei fEci gki=1 .
Pasul 4: Dac¼a j > N; unde N , dat, reprezint¼ a num¼arul total de iteraţii admis
(j+1) (j)
sau dac¼a IW IW "; unde ", dat, reprezint¼
a pragul sub care
ameliorarea inerţiei intraclase este considerat¼
a nesemni…cativ¼ a, atunci
STOP.
Altfel
ci = gi ; i = 1; k ;
j = j + 1;
salt la Pasul 2.
¼
Propoziţia 2.3.1
(j+1) (j)
Algoritmul converge într-un num¼
ar …nit de paşi, altfel spus IW IW şi
j < 1.
Demonstraţie. Având în vedere c¼ a algoritmul este iterativ, este su…cient

s¼
a demonstr¼
am inegalitatea pentru j = 1, iar pentru simpli…carea calculelor
presupunem c¼a ponderile indivizilor sunt egale cu p iar ponderile claselor cu
P.
(2) (1)
Atunci, trebuie demonstrat c¼
a IW IW :
Conform algoritmului, fEci g este partiţia având punctele

n …ec¼
o arei clase
(1)
grupate cât mai aproape de fci g şi cu centrele de greutate gi , deci
k
X X k X
X
(1) 2 (1) (1)
IW = P pd j; gi = pP d2 j; gi ;
i=1 j2Eci i=1 j2Eci
iar nfEgi go este partiţia având punctele

n …ec¼ oarei clase grupate cât mai aproape
(1) (2)
de gi şi cu centrele de greutate gi , deci
k
X X k X
X
(2) (2) (2)
IW = P pd2 j; gi = pP d2 j; gi ;
i=1 j2Egi i=1 j2Egi
fig. 2.3.2. etapele algoritmului lui Forgy
Conform relaţiei lui Huygens

k X
X X
(1) (2) (1) (2)
d2 j; gi = IW + d 2 gi ; gi ;
i=1 j2Egi i
n o
(1)
deoarece gi nu sunt centrele de greutate ale lui fEgi g.
i
Rezult¼
a
k X
X
(2) (1)
IW d2 j; gi ;
i=1 j2Egi
(1) (2)
cu inegalitate strict¼
a dac¼ a gi 6= gi ; (8) i = 1; k .
P 2 (1) P 2 (1)
Dar d j; gi d j; gi prin construcţia celor dou¼
a par-
j2Egi j2Eci
tiţii, deoarece fEgi g este partiţia în care …ecare clas¼
a Egi p¼
astreaz¼
a punctele
(1) P 2 (1)
cele mai apropiate de gi , deci d j; gi este minim¼
a. Egalitatea are
j2Egi
loc doar dac¼
a fEgi g fEci g.
¼
Cu acestea
k X
X
(2) (1) (1)
IW d2 j; gi IW
i=1 j2Egi
Cum card (Eci ) = n < 1 rezult¼ a Pn;k < 1 ceea ce implic¼ a j < 1.
Experienţa arat¼ a c¼
a viteza de convergenţ¼ a este rapid¼a.
Trebuie remarcat şi faptul c¼a, la …ecare pas ne…ind necesar decât calculul
a nk distanţe, acelea dintre cei n indivizi şi cele k centre de greutate, nu este
necesar¼a menţinerea în memorie a tabelului cu cele n(n2 1) distanţe dintre
indivizi.
Inconvenienţele metodei sunt:
k trebuie cunoscut à priori;
optimul este dependent de alegerea iniţial¼

a a punctelor.
În metoda precedent¼ a se aşteapt¼

a ca toţi indivizii s¼
a …e afectaţi unei clase
pentru a calcula centrul de greutate.
Metoda k-mediilor (k-means) a lui MacQueen (conform [42]), recalculeaz¼ a
centrele de greutate dup¼a …ecare afectare.
Pentru a înl¼atura dependenţa metodei de punctele iniţiale se utilizeaz¼ a
metoda norilor dinamici a lui E. Diday (conform [17]), care este o generalizare
a metodei centrelor mobile în sensul c¼ a …ecare clas¼ a nu mai este reprezentat¼ a
de centrul s¼
au de greutate ci de un nucleu de g-puncte (cele mai centrale, de
exemplu), de o ax¼a principal¼
a, de un plan principal.
2.3.2 Exemplu
Descrierea datelor
Revenind la exemplul raselor de câini (subcapitolul 1.4.6) reamintim c¼ a
în urma aplic¼arii analizei corespondenţelor multiple au fost identi…cate patru
grup¼ari principale:
câinii de vân¼
atoare
câinii de paz¼
a
câinii de companie
rase lente şi mai puţin inteligente.
Acest rezultat va … comparat cu rezultatul obţinut utilizând metoda de

clasi…care neierarhic¼a k-means pentru identi…carea partiţiei optime în k = 4
clustere a mulţimii raselor de câini. Reamintim c¼
a o condiţie principal¼
a pentru
utilizarea acestei metode este cunoaşterea à priori a num¼ arului de clase (vezi
subcapitolul 2.3). Datele de intrare se reg¼ asesc în tabelul A.4. (Anex¼ a) cu
menţiunea c¼
a, de aceast¼a dat¼a, variabila care d¼a denumirile raselor (R) nu va
mai constitui o variabil¼
a suplimentar¼ a ci o variabil¼
a de etichetare a indivizilor.
Pentru a realiza aceast¼a modi…care, în bara de meniu se apas¼ a Cases, Case
Names Manager şi, în fereastra ap¼ arut¼a, se completeaz¼ a numele variabilei de
unde se preiau numele indivizilor - R (…g. 2.3.3.).
fig. 2.3.3. Case names manager

Din bara de meniu se selecteaz¼ a Statistics, Multivariate Exporatory Tech-
niques, Cluster Analysis şi, în fereastra de dialog ap¼ arut¼
a, se alege metoda de
analiz¼
a K-Means Clustering. Dup¼ a ap¼asarea butonului OK, în fereastra core-
spunz¼atoare metodei selectate se acceseaz¼ a meniul Advanced.
Butonul Variables a…şeaz¼ a lista variabilelor pentru analiz¼ a, dintre acestea

urmând a … selectate toate mai puţin variabila FN şi variabila R. În continuare,
ca entit¼aţi de clasi…cat, se aleg rândurile tabelului (adic¼ a indivizii - rasele de
câini) şi se indic¼
a num¼ arul de clustere în care se face clasi…carea - 4. Pentru
num¼ arul de iteraţii ale algoritmului de clasi…care (vezi subcapitolul 2.3.1) şi
centrele iniţiale ale clusterelor se p¼astreaz¼
a set¼arile implicite.
¼
Pentru activarea ferestrei ce permite generarea rezultatelor speci…ce clasi-

…c¼
arii prin metoda k-means (…g. 2.3.5.) se apas¼ a butonul OK. În acest¼a fereas-
tr¼
a este prezentat şi un rezumat al datelor de plecare: num¼ arul indivizilor (27
rase de câini) şi al variabilelor (6 însuşiri) care particip¼a la analiz¼
a, num¼ arul
de clustere formate (4) şi num¼ arul de iteraţii ale algoritmului de clasi…care (2).
fig. 2.3.5 Fereastra de rezultate
Generarea tuturor rezultatelor se va face din meniul Advanced. Con-

form indicaţiilor iniţiale, algoritmul a împ¼ arţit mulţimea raselor de câini în
patru clase, urm¼ arind formarea de grup¼ ari omogene şi bine de…nite, cu alte
cuvinte, valorile inerţiei inter-clase dep¼
aşesc semni…cativ valorile inerţiei intra-
clase. Tabelul 2.3.1., rezultat prin ap¼ asarea butonului Analysis of variance,
pune în evidenţ¼a valorile mari ale inerţiei inter-clase (Between SS ) comparativ
cu cele ale inerţiei intra-clase (Within SS ) pentru variabilele TALIE, MASA,
VITEZA. Mai mult, valorile testelor F la pragurile de semni…caţie p desem-
neaz¼a aceste variabile ca …ind principalele criterii de asignare a indivizilor la
clustere.
tabelul 2.3.1. Analiza varianŢ ei
Butonul Members of each cluster and distances genereaz¼ a, pentru …ecare

dintre cele patru clase, câte un tabel conţinând membrii clasei respective şi
distanţa de la …ecare membru la centrul clasei din care face parte (tabelul
2.3.2.).
Caracteristicile speci…ce …ec¼arei clase sunt date de mediile variabilelor
ce particip¼a la analiz¼
a, calculate pentru …ecare clas¼a. Aceste rezultate sunt
disponibile în format tabelar, prin ap¼ asarea butonului Descriptive statistics
for each cluster, sau în format gra…c, prin ap¼asarea butonului Graph of means
(…g 2.3.6.).
tabelul 2.3.2. Membrii clusterelor Ş i distanŢ ele la centre
fig. 2.3.6. Graficul mediilor pe clustere

¼
Examinând tabelul 2.3.2. şi gra…cul din …gura 2.3.6.. rezult¼

a:
Clusterul 1 este caracterizat, în ansamblu, de: talie, mas¼ a şi agresiv-

itate maxime, vitez¼
a şi afecţiune minime, inteligenţ¼
a medie şi cuprinde
rasele TERN, STBE, MAST, BULM (vezi şi …g 2.3.7.).
Clusterul 2 este caracterizat, în ansamblu, de: talie şi vitez¼a maxime,

mas¼a medie, inteligenţ¼a medie (majoritatea membrilor au inteligenţ¼ a
medie sau ridicat¼ a), afecţiune medie (majoritatea membrilor manifest¼ a
afecţiune scazut¼
a, variabila AFECT are doar 2 modalit¼ aţi), agresivitate
medie şi cuprinde rasele DOBE, CIOB, BEAU, SETT, POINT, LEVR,
FOXH, COLL, GASC, EPAF, DOGG.
Clusterul 3 este caracterizat, în ansamblu, de: talie, mas¼ a şi vitez¼

a
medii, inteligenţ¼
a şi afecţiune maxime, agresivitate minim¼
a şi cuprinde
rasele LABR, EPAB, DALM, BOXE, CANI.
Clusterul 4 este caracterizat, în ansamblu, de: talie, mas¼ a şi inteligenţ¼

a
minime, vitez¼ a şi agresivitate reduse (cu excepţia FOXT, membrii sunt
caracterizaţi de modalitatea VIT1 - vitez¼ a mic¼a), afecţiune ridicat¼ a (cu
excepţia BASS, membrii sunt caracterizaţi de modalitatea AFECT2 -
afecţiune ridicat¼a, şi variabila AFECT are doar 2 modalit¼ aţi) şi cuprinde
rasele: COCK, FOXT, BASS, TECK, PEKI, CHIH, BULD. Se poate
spune, deci, c¼a acesta reprezint¼ a clusterul câinilor de companie.
fig. 2.3.7. Identificarea clusterlor obŢ inute prin metoda

k-means
Concluzii:
clasi…carea obţinut¼
a prin metoda k-means se reg¼ aseşte aproape identic
în reprezentarea gra…c¼ a a variabilelor obţinut¼
a prin analiza corespon-
denţelor multiple.
cu toate acestea, clusterele obţinute prin metoda k-means nu coincid

în totalitate cu grup¼
arile identi…cate conform interpret¼
arii rezultatelor
ACM.
Aceast¼
a nepotrivire se datoreaz¼
a, probabil, faptului c¼
a:
informaţiile asupra raselor de câini (talie, mas¼

a...) nu sunt su…ciente
pentru a încadra cu precizie o ras¼
a într-o anumit¼a clas¼
a;
valorile reale ale variabilelor talie, mas¼

a, etc. au fost "reduse" la o sin-
gur¼
a valoare, în funcţie de num¼ arul de modalit¼ aţi ale variabilei - 1, 2, 3
sau 1, 2, conform apartenenţei la un anume interval de valori.
alegerea unui num¼ar prea mic de intervale de valori, deci de modalit¼

aţi,
pentru …ecare variabil¼
a.
2.4 Metode de clasi…care ierarhic¼

a
Principiile generale comune diverselor tehnici de clasi…care ascendente
ierarhice sunt simple. Aceste principii ţin mai mult de bunul simţ decât de
o teorie formalizat¼ a de aceea este di…cil s¼ a li se g¼aseasc¼a o paternitate. Ex-
punerile cele mai sistematice şi cele mai vechi sunt poate cele ale lui Sokal şi
Sneath (în [57]) apoi cele ale lui Lance şi Williams (în [39]).
Algoritmul const¼ a în crearea, la …ecare etap¼ a, a unei partiţii obţinute prin
agregarea celor mai apropiate dou¼ a elemente. Se va desemna prin element în
acelaşi timp indivizii sau obiectele de clasat cât şi grup¼ arile de indivizi generate
de algoritm. Exist¼ a diferite criterii de agregare, de unde şi un num¼ ar important
de variante ale acestei tehnici.
Algoritmul nu furnizeaz¼ a o partiţie în q clase a unei mulţimi de n obiecte,
ci o ierarhie de partiţii. Aceast¼ a ierarhie se prezint¼ a sub forma unui arbore
numit şi dendogram¼a şi conţine n 1 partiţii. Interesul pentru acest arbore
este dat de faptul c¼ a acesta poate furniza o idee despre num¼ arul de clase ce
exist¼
a efectiv în populaţie. Fiecare „t¼ aiere”a dendogramei furnizeaz¼ a o partiţie
având cu atât mai puţine clase, şi acestea …ind cu atât mai puţin omogene, cu
cât t¼
aierea se face mai sus.
2.4.1 Aspecte formale

De…niţia 2.4.1 Fie E o mulţime …nit¼ a. O mulţime de mulţimi, H P (E),
se numeşte ierarhie dac¼
a şi numai dac¼
a
¼
2.4. METODE DE CLASIFICARE IERARHICA 121
arţile lui E formate dintr-un element aparţin lui H;

a) E şi p¼
b) A \ B 2 fA; B; ?g ; (8) A; B 2 H:
De…niţia 2.4.2 Elementele din H se numesc partiţii ale mulţimii E.
De…niţia 2.4.3 Elementele unei partiţii a lui E se numesc clase.
Observaţia 2.4.1
1. Fiec¼
arei ierarhii îi corespunde un arbore de clasi…care.
2. Fiecare clas¼
a dintr-o ierarhie este reuniunea claselor incluse în ea.
Dac¼ a card (E) = n < 1, atunci card (H) = n deoarece, datorit¼ a condiţiei
b) din de…niţie, o partiţie cu k clase se formeaz¼a prin regruparea a dou¼ a clase
ale partiţiei cu k + 1 clase.
Cum partiţia Pn , cu n clase, este format¼ a din elementele mulţimii E şi
conţine câte un element în …ecare clas¼ a, iar partiţia P1 , cu o clas¼
a, este format¼a
din mulţimea E (ambele partiţii aparţin ierarhiei H; conform condiţiei a) din
de…niţie), H conţine practic n 2 partiţii netriviale ale lui E.
De…niţia 2.4.4 Se numeşte indice al ierarhiei H; o aplicaţie i : H ! R+

atoare ((8) A; B 2 H cu A
cresc¼ B ) i (A) < i (B)) şi care îndeplineşte
condiţia i (C) = 0; (8) C 2 Pn .
De…niţia 2.4.5 Indicele i al ierarhiei H, dac¼

a exist¼
a, se mai numeşte şi nivel
de agregare iar ierarhia dotat¼
a cu un astfel de indice se numeşte ierarhie in-
dexat¼a.
Exemplul 2.4.1
Fie E = fa; b; c; d; eg, atunci n = 5 = card (E)
cu
i (fag) = i (fbg) = i (fcg) = i (fdg) = i (feg) = 0
i (ff g) = i (fa; bg) = 0; 5 i (fhg) = i (fc; d; eg) = 2; 5
i (fgg) = i (fc; dg) = 2 i (fjg) = i (fa; b; c; d; eg) = 4
Observaţia 2.4.2
a) În exemplul de mai sus indicele indic¼ a nivelul la care dou¼a clase s-au
grupat (motivaţie pentru utilizarea denumirii de nivel de agregare). Cu
cât indicele este mai mare cu atât mulţimea este mai eterogen¼a.
b) Cunoscând arborele de clasi…care este facil s¼ a se obţin¼
a o partiţie cu un
num¼ ar mai mic sau mai mare de clase. Pentru aceasta, este su…cient s¼ a
se taie arborele la un nivel dat şi s¼
a se considere clasele date de ramurile
care cad. Astfel, dac¼a în exemplul de mai sus se taie arborele de-a lungul
liniei punctate, se obţine o partiţie în 3 clase: ffa; bg ; fc; dg ; fegg .
Propoziţia 2.4.1
Fie E o mulţime şi :E E ! R+ o disimilaritate strict¼
a pe E. Atunci
0; dac¼
a A = fig ; i 2 E
i (A) =
min (i; j) ; dac¼
a A = A1 [ A2 ; A1 \ A2 = ?; i 2 A1 ; j 2 A2
induce pe E o ierarhie indexat¼
a cu nivelul de agregare i.
Demonstraţie. Din de…niţie, i este o funcţie pozitiv¼
a şi simetric¼
a.
Trebuie demonstrate dou¼ a a…rmaţii:
a i induce pe E o ierarhie, H;
a) c¼
b) c¼
a i este indicele acelei ierarhii, adic¼
a i este o funcţie cresc¼
atoare de
partiţii din H.
a) Fie Pn partiţia format¼a din n clase a mulţimii E. Din de…niţia funcţiei
de disimilaritate, i (A) = 0; (8) A 2 Pn . Se formeaz¼ a partiţia Pn 1
agregând elementele i şi j din Pn pentru care (i; j) este minim. Cum
este o disimilaritate strict¼
a, perechea (i; j) este unic¼
a. Din construcţie,
A \ B 2 fA; B; ?g ; (8) A; B 2 H.
Se formeaz¼ a partiţia Pn 2 agregând elementele i; j din Pn 1 pentru care
(i; j) este minim şi aşa mai departe pân¼
a la obţinerea partiţiei P1 .
Se de…neşte H = fP1 ; P2 ; : : : ; Pn g. Din construcţie, H veri…c¼
a cele dou¼
a
condiţii din de…niţia ierarhiei.
b) Fie A; B 2 H cu A B. Rezult¼ a B = A [ C şi A \ C = ?. Din de…niţie
(i; j) < (i; k) ; (8) i; j 2 A; k 2 C; deoarece este strict¼ a şi dac¼
a
(9) k0 astfel încât (i; j) < (i; k0 ) atunci din agregarea lui A rezult¼a k0
aparţine lui A şi nu lui C.
Pentru un j 2 A; …xat pentru moment dar altfel oarecare, min (i; j) <
i2A
min min (i; k) = i (B)(din de…niţie).

i2A k2C
Din construcţie, i (A) 2 min (i; j) jj 2 A : Cum inegalitatea de mai

i2A
sus este valabil¼
a oricare ar … j 2 A, rezult¼
a i (A) < i (B).
¼
2.4.2 Strategii de agregare

În funcţie de natura spaţiului în care se g¼
asesc îndivizii de agregat, se
vor folosi:
- metoda Ward, dac¼ a indivizii formeaz¼ a un nor într-un spaţiu euclidian,

de exemplu Rp , deci dac¼
a între ei se poate calcula o distanţ¼
a euclidian¼
a;
- strategii de agregare pe disimilarit¼
aţi, dac¼
a între indivizi se poate calcula
o disimilaritate strict¼
a.
2.4.2.1 METODA WARD Pe baza distanţei euclidiene se poate evalua

inerţia şi astfel se poate utilza principiul de agregare ce reuneşte acele clase
pentru care inerţia interclase descreşte cel mai puţin. Conform principiului lui
Huygens, inerţia global¼ a este suma inerţiilor interclase şi intraclase. Cu cât
clasele sunt mai omogene cu atât inerţia intraclase este mai mic¼ a, deci inerţia
interclase este mai mare. Clase omogene înseamn¼ a clase cu indivizi cât mai
puţini, deci partiţii cât mai bogate. Este …resc ca, prin fuzionarea a dou¼ a
clase, inerţia intraclase s¼
a creasc¼
a, deci inerţia interclase s¼
a scad¼
a. Se va alege,
deci, acea fuzionare pentru care inerţia interclase scade cel mai puţin, adic¼ a
sunt grupate clasele cele mai asem¼ an¼
atoare (adic¼ a cele mai apropiate).
Lema 2.4.1
Pierderea de inerţie interclase este dat¼
a de formula
PA PB 2
(A; B) = d (gA ; gB ) ;
PA + PB
unde A şi B sunt dou¼ a clase cu ponderile PA ; respectiv PB şi centrele de
greutate gA ; respectiv gB .
P
k
Demonstraţie. Inerţia interclase este IB = Pj d2 (gj ; g). Suma va conţine,
j=1
deci, şi termenii PA d2 (gA ; g) + PB d2 (gB ; g).
Dup¼ a fuziunea celor dou¼ a clase, dac¼
a se noteaz¼a cu gAB centrul de greu-
tate al noii clase, atunci cei doi termeni vor …înlocuiţi de (PA + PB ) d2 (gAB ; g) :
Deci pierderea de inerţie interclase este dat¼ a de diferenţa
PA d2 (gA ; g) + PB d2 (gB ; g) (PA + PB ) d2 (gAB ; g) : (1)
Din construcţie, gAB = PAPgBA +P

+PB gB
B
adic¼
a centrul de greutate al noii clase
este pe segmentul gA gB .
În 4ggA gB , utilizând o generalizare a teoremei medianei, m2c = 12 a2 +
1 2 1 2
2b 4 c , rezult¼
a
2 PA 2 PB 2 PA PB 2
d (g; gAB ) = d (gA ; g)+ d (gB ; g) 2 d (gA ; gB ) :
PA + PB PA + PB (PA + PB )
(2)
¼ a medianei, aplicatA¼ în 4ggA gB

fig. 2.4.1. Teorema generalizatA
Introducând rezultatul din formula (2) în formula (1) se obţine rezultatul

din enunţul lemei.
Lema 2.4.2
Într-o ierarhie indexat¼
a, agregat¼
a pe baza unei distanţe euclidiene, suma indi-
cilor de agregare este egal¼
a cu inerţia total¼
a.
Demonstraţie. Conform principiului lui Huygens I = IW + IB ; unde IB este

inerţia interclase şi IW este inerţia intraclase.
La momentul iniţial, când E este împ¼ arţit¼
a în n clase,
IW (Pn ) = 0 ) IB (Pn ) = I:
La momentul …nal, când E are o singur¼

a clas¼
a,
IB (P1 ) = 0 ) IW (P1 ) = I:
Cum pierderea de inerţie interclase, adic¼

a IB (Ps ) IB (Ps 1) ; este egal¼
a
tocmai cu indicele de agregare, rezult¼
a
n
X n
X
i (Ps ) = [IB (Ps ) IB (Ps 1 )] = IB (Pn ) IB (P1 ) = I
s=2 s=2
Lema 2.4.3 (generalizarea formulei Lance-Williams)
(PA + PC ) (A; C) + (PB + PC ) (B; C) PC (A; B)

(C; (A; B)) = :
PA + PB + PC
Observaţia 2.4.3
Lema 2.4.3 permite calculul disimilarit¼ aţii dintre dou¼ a clase f¼
ar¼
a a … necesar¼
a
folosirea distanţelor euclidiene între centrele de greutate al acestor clase. În
plus, nici centrele de greutate nu mai trebuie calculate.
Aşadar, odat¼ a calculate disimilarit¼ aţile dintre indivizi, se poate lucra
numai pe matrici de disimilarit¼ aţi prin aplicarea succesiv¼ a a formulei Lance-
Williams.
¼
Demonstraţie. Conform Lemei 2.4.1

PC PAB 2
(C; (A; B)) = d (gC ; gAB ) ;
PC + PAB
unde PAB = PA + PB ; conform teoremei generalizate a medianei. Cum
PA PB
d2 (gC ; gAB ) = d2 (gA ; gC ) + d2 (gB ; gC )
PA + PB PA + PB
PA PB
d2 (gA ; gB ) ;
(PA + PB )2
iar, pe de alt¼
a parte, tot din Lema 2.4.1
PC PA 2
d (gC ; gA ) = (A; C) ;
PC + PA
PC PB 2
d (gC ; gB ) = (B; C) ;
PC + PB
PA PB 2
d (gA ; gB ) = (A; B) :
PA + PB
Rezult¼
a
1
d2 (gC ; gAB ) = [(PC + PA ) (A; C) + (PC + PB ) (B; C)
PC PAB
PC (A; B)]
deci
(PA + PC ) (A; C) + (PB + PC ) (B; C) PC (A; B)
(C; (A; B)) = :
PA + PB + PC
Rezultatul lemei permite enunţarea urm¼

atorului ALGORITM:
Pasul 1 Se înlocuieşte matricea D a distanţelor euclidiene dintre indivizi cu ma-

tricea
j>i Pi Pj 2
n =( ij )i=1;n cu ij = (A; B) = d (ei ; ej ) :
Pi + Pj
Pasul 2 În matricea n se caut¼

a min (i; j), se elimin¼
a linia şi coloana j, iar linia
i;j
şi coloana lui i se noteaz¼ b formându-se matricea
a cu ij, n 1. Indicele
b
de agregare al clasei ij este ij .
Pasul 3 Se calculeaz¼
a elementele matricii n 1 astfel:
- se copiaz¼
a coloanele matricii n;
b se calculeaz¼
- coloana ij a dup¼
a formula generalizat¼
a a lui Lance-Williams:
b = (Pi + Pk ) ik+ (Pj + Pk ) jk Pk ij

k; ij
Pi + Pj + Pk
Pasul 4 Se pune n = n 1 şi n = n 1;
Dac¼
a n = 1 atunci STOP; altfel, salt la Pasul 2.
fig. 2.4.2. Aglomerarea progresivA¼ a 5 puncte

Observaţia 2.4.4
La etapa iniţial¼a, inerţia intraclase este nul¼ a şi inerţia interclase este egal¼ a
cu inerţia total¼a a norului deoarece …ecare element terminal constituie, la
acest nivel, o clas¼a. În etapa …nal¼ a, inerţia interclase devine nul¼ a iar inerţia
intraclase este echivalent¼ a cu inerţia total¼a pentru c¼ a, la acest nivel, exist¼ao
partiţie cu o singur¼a clas¼a ( …g. 2.4.2).
fig. 2.4.3. Calitatea globalA¼ a unei partiŢ ii
2.4.2.2 STRATEGII DE AGREGARE PE DISIMILARITA ¼ ŢI Dac¼ a

între indivizi este dat¼
a o matrice de disimilaritate strict¼
a, atunci se pot imag-
ina mai multe soluţii, mai mult sau mai puţin arbitrare. Cele mai utilizate
sunt:
- distanţa saltului minimal (single linkage), care favorizeaz¼
a mulţimile cu
puncte apropiate:
d (A; B) = min (ei ; ej ) ; ei 2 A; ej 2 B
¼
- distanţa diametrului (complete linkage), ce repar¼

a limitele primei dis-
tanţe, dar punctele trebuie s¼
a …e apropiate:
d (A; B) = max (ei ; ej ) ; ei 2 A; ej 2 B
- distanţa mediei (unweighted pair-group average linkage)
Px (x; z) + Py (y; z)
d (A; B) = cu A = fx; yg ; B = fzg :
Px + Py
Observaţia 2.4.5
Ierarhiile induse de diferitele distanţe sunt în general diferite. Se recomand¼ a
aşadar, utilizarea mai multor tipuri de clasi…c¼ari. Acestea nu trebuie s¼
a difere
prea mult când se priveşte partea superioar¼ a a arborelui de clasi…care. Dac¼ a
totuşi acest lucru se întâmpl¼ a, se poate conchide c¼ a mulţimea indivizilor se
preteaz¼a prost la orice clasi…care.
Exemplu:
Fie matricea de disimilaritate dintre indivizii fa; b; c; d; eg :
a b c d e
a 0 3 7 3 4
b 0 4 4 1
c 0 2 6
1
d 0 2
e 0
Intr-adev¼
ar, aceasta este o matrice de disimilaritate deoarece (c; e) >
(c; d) + (d; e) , 6 > 2 + 21 :
S¼
a aplic¼
am algoritmul de clasi…care ierarhic¼ a ascendent¼a folosind, pe
rând, tipurile de disimilarit¼
aţi enumerate mai sus.
Astfel, pentru disimilaritatea saltului minimal (Inf) se obţin urm¼

atoarele
etape:
a b c f
a 0 3 7 3
1
1. f = fd; eg ; i (f ) = 2 b 0 4 1
c 0 2
f 0
a c g
a 0 7 3
2. g = ff; bg ; i (g) = 1
c 0 2
g 0
a h
3. h = fc; gg ; i (h) = 2 a 0 3
h 0
4. i = fa; hg ; i (i) = 3 .
Pentru disimilaritatea diametrului (Sup) se obţin urm¼

atoarele etape :
a b c f
a 0 3 7 4
1
1. f = fd; eg ; i (f ) = 2 b 0 4 4
c 0 6
f 0
c f g
c 0 6 7
2. g = fa; bg ; i (g) = 3
f 0 4
g 0
c h
3. h = ff; gg ; i (h) = 4 c 0 6
h 0
4. i = fh; cg ; i (i) = 7:
¼
2.5. CLASIFICARE MIXTA 129
Analog pentru disimilaritatea medie se obţine urm¼

atoarea dendogram¼
a:
În po…da faptului c¼ a …ecare arbore începe cu agregarea lui d şi e într-o

singur¼
a clas¼
a, f , urmeaz¼ a imediat diferenţe importante atunci când se cal-
culeaz¼
a distanţele de la f la ceilalţi indivizi:
dinf (b; f ) = inf (d (b; d) ; d (b; e)) = 1;

dsup (b; f ) = sup (d (b; d) ; d (b; e)) = 4;
dmed (b; f ) = 2; 5:
S¼
a not¼ am, îns¼a, c¼
a una din principalele di…cult¼ aţi în clasi…care const¼
a în
de…nirea unei distanţe sau disimilarit¼ aţi între indivizi, mai ales când aceştia
sunt descrişi prin caractere calitative.
2.5 Clasi…care mixt¼

a
Algoritmii de clasi…care sunt mai mult sau mai puţin adaptaţi pentru
volume mari de date. Astfel:
metodele de agregare în jurul centrilor mobili pot manipula volume mari

cu preţuri mici dar au dezavantajul c¼ a produc partiţii dependente de
num¼arul ales de clase şi de centrii iniţiali;
metodele de agregare ierarhice sunt „deterministe” (în sensul c¼ a dau

întotdeauna acelaşi rezultat dac¼
a datele iniţiale sunt aceleaşi), dau indi-
caţii privind num¼
arul de clase ce trebuie reţinut dar sunt prost adaptate
la volume mari de date.
Combinarea celor dou¼ a metode a dat naştere unui algoritm mixt (hybrid
clustering, [64]).
Algoritmul de clasi…care mixt¼ a conţine trei etape: mulţimea elementelor
de clasi…cat este partiţionat¼ a (centrii mobili) în câteva zeci, eventual sute de
partiţii omogene; se procedeaz¼ a apoi la agregarea ierarhic¼ a a acestor grupe
cu scopul ca dendrograma obţinut¼ a s¼a sugereze num¼ arul de clase …nale ce
trebuie reţinute; în …ne, se optimizeaz¼ a (folosind iar¼
aşi tehnica centrilor mobili)
partiţia obţinut¼
a prin t¼
aierea arborelui.
Etapele algoritmului sunt:
1. Partiţionarea iniţial¼ a. Aceast¼ a etap¼ a vizeaz¼

a obţinerea rapid¼
a şi cu
un preţ sc¼
azut a unei partiţii de n obiecte în k clase omogene, unde k este
mult mai mare decât s; num¼ arul de clase dorit, dar mult mai mic decât
n. În acest scop este utilizat algoritmul centrilor mobili. Optimalitatea
nu este, desigur, atins¼a, dar partiţia obţinut¼a poate … ameliorat¼
a pornind
de la grup¼arile stabile (grupuri de indivizi sau elemente care apar mereu
în aceleaşi clase). Aceste grup¼ ari vor … elementele de baz¼ a în etapa
urm¼atoare.
2. Agregarea ierarhic¼ a a claselor obţinute. Aceast¼ a etap¼a const¼

a în
efectuarea unei clasi…c¼
ari ierarhice ascendente în care elementele termi-
nale ale arborelui sunt cele k clase ale partiţiei iniţiale. Scopul acestei
etape este de a reconstitui clasele care au fost fragmentate şi de a agrega
elementele aparent dispersate în jurul centrelor de origine. Arborele este
construit dup¼a strategia Ward care ţine seam¼ a de mase în momentul
alegerii elementelor de agregat.
3. Partiţia …nal¼a. Partiţia …nal¼a a populaţiei este dat¼

a prin t¼
aierea ar-
borelui obţinut în etapa precedent¼ a. Omogenitatea claselor obţinute
poate … optimizat¼ a prin reafectare.
Figura 2.5.1. schematizeaz¼

a etapele algoritmului de clasi…care mixt¼
a.
¼
fig. 2.5.1. Schema clasificA¼ rii mixte
2.5.1 Alegerea claselor prin "t¼

aierea" arborelui
Alegerea nivelului de t¼ aiere şi astfel, al num¼arului de clase ale partiţiei,

poate … facilitat¼ a de inspecţia vizual¼ a a arborelui. T¼aierea trebuie s¼ a se fac¼a
în intervalul dintre indici de valori mici, corespunzând unor clase omogene, şi
indici de valori mari ce disociaz¼ a clase bine conturate.
Într-o manier¼ a general¼a, cu cât se grupeaz¼ a mai mulţi indivizi, altfel spus
cu cât ne apropiem de vârful arborelui, cu atât mai mare va … distanţa între
dou¼ a clase vecine iar indicele de agregare va … mai mare. T¼ aind arborele la
nivelul unui salt important al acestui indice se poate spera în obţinerea unei
partiţii de bun¼ a calitate, în sensul c¼ a indivizii grupaţi sub nivelul de t¼ aiere
erau apropiaţi şi cei grupaţi deasupra nivelului de t¼ aiere sunt necesarmente
dep¼artaţi (ceea ce corespunde de…niţiei unei bune partiţii).
În practic¼a situaţia nu este îns¼ a atât de clar de…nit¼a. Ca şi în cazul ana-
lizei factoriale, se utilizeaz¼a criterii empirice: histograma indicilor de agregare.
fig 2.5.2 Histogramele indicilor de nivel
2.5.2 Caracterizarea statistic¼

a a claselor
Elementele unei aceleiaşi clase se aseam¼ an¼
a din punct de vedere al cri-
teriilor alese pentru a le descrie. R¼ amâne de precizat care sunt criteriile care
se a‡a¼ la originea grup¼ arilor obţinute. Se procedeaz¼a la descrierea automat¼ aa
claselor, ceea ce constituie în practic¼ a o etap¼
a indispensabil¼a oric¼arei proceduri
de clasi…care.
Descrierea automat¼ a a claselor este, în general, bazat¼ a pe compararea
mediilor sau a procentelor din interiorul claselor cu mediile sau procentele
obţinute pe întreaga populaţie. Pentru a selecţiona variabilele continue sau
modalit¼ aţile variabilelor nominale caracteristice …ec¼ arei clase, se m¼asoar¼a ecar-
tul dintre valorile speci…ce clasei şi valorile globale. Aceste statistici pot …
convertite într-un criteriu numit valoare-test, care permite operarea unei se-
lecţii asupra variabilelor, desemnând astfel variabilele cele mai reprezentative
(conform [47]).
2.5.2.1 VALORI-TEST PENTRU VARIABILE CONTINUE Pen-

tru a caracteriza o clas¼
a prin variabile continue, se compar¼
a xk ; media variabilei
x în clasa k, cu media x în întreg norul. Valoarea-test este aici
xk x
tk = ;
sk (x)
2
cu s2k (x) = nn n1k s n(x)
k
; estimatorul dispersiei lui x în clasa k şi s2 (x)
dispersia empiric¼ a a lui x în întreg norul. Se recunoaşte aici, în s2k (x) ; dispersia
unei medii în cazul extragerii f¼ ar¼a revenire a k elemente.
În ipoteza nul¼a a unei extrageri aleatoare, f¼ ar¼
a revenire, a nk indivizi din
clasa k, variabila xk ; reprezentând media empiric¼ a în acea clas¼
a, are ca medie
şi dispersie empiric¼a global¼ 2
a pe x respectiv sk (x).
¼
Valoarea test urmeaz¼ a, aproximativ, o distribuţie Gauss-Laplace centrat–

redus¼a (teorema limit¼ a central¼a). Ea m¼ asoar¼a distanţa între media clasei şi
media general¼ a în ecarturi tip.
E de la sine înţeles c¼ a aceast¼a interpretare nu are sens decât pentru o
variabil¼
a x suplimentar¼ a, care nu a participat la construcţia claselor (nu se
poate stipula o independenţ¼ a între claselele unei partiţii şi variabilele care au
participat la de…nirea partiţiei). Se calculeaz¼ a apoi probabilitatea ca variabila
s¼
a dep¼aşeasc¼a valoarea absolut¼ a a diferenţei observate. Cu cât valoarea test
este mai mare (cu atât probabilitatea este mai mic¼ a) cu atât ipoteza de a
avea valori ale variabilei x extrase la întâmplare dintre valorile posibile este
discutabil¼a. În acest caz, media în clas¼ a difer¼
a de media general¼ a şi variabila
este caracteristic¼a clasei. Ordonarea variabilelor în funcţie de probabilit¼ aţile
cresc¼
atoare de a dep¼ aşi media general¼ a este echivalent¼ a cu ordonarea în funcţie
de valorile-test descresc¼ atoare.
Dac¼ a interpretarea probabilistic¼ a a valorilor-test pentru variabilele active
nu este licit¼a, este totuşi posibil s¼a …e folosite pentru a obţine un clasament
al acestora în vederea caracteriz¼ arii …ec¼
arei clase. Modulele acestor valori-test
reprezint¼a atunci simple m¼ asuri ale similarit¼
aţii între variabile şi clas¼a.
2.5.2.2 VALORI-TEST PENTRU VARIABILE NOMINALE O

modalitate (sau categorie) a unei variabile nominale este considerat¼ a carac-
teristic¼
a pentru clas¼ a dac¼a abundenţa în clas¼a este apreciat¼a ca semni…cativ
superioar¼a faţ¼
a de restul populaţiei. Notând cu njk num¼ arul de indivizi având
modalitatea j din cei nk indivizi ai clasei k, cu nj num¼ arul total de indivizi
având modalitatea j dintr-un total de n, abundenţa modalit¼ aţii j este de…nit¼a
njk
comparând procentul ei în clas¼ a, adic¼a nk , cu procentul în toat¼ a populaţia,
nj
adic¼a n.
În ipoteza nul¼ a, unde cei nk indivizi ai clasei k sunt extraşi aleator, f¼
ar¼a
revenire, din populaţia de n indivizi, procentajul indivizilor clasei k având
modalitatea j pe de-o parte, şi procentajul indivizilor având modalitatea j în
întreaga populaţie, pe de alt¼a parte, ar trebui s¼
a coincid¼a, modulo o ‡uctuaţie
aleatoare, adic¼ a:
njk nj
:
nk n
În ipoteza de independenţ¼ a, cei N indivizi ai clasei k care au modali-

tatea j reprezint¼
a o variabil¼ a aleatoare care urmeaz¼ a o lege hiper-geometric¼
a
n
Hg nk ; n; nj (nk reprezint¼ a num¼ arul de succese dintr-un total de n cu prob-
n
abilitatea de succes de nj ).
Suntem, deci, interesaţi de calculul lui
x=n
Xk X Cnxj Cnnk njx
pk (j) = Prob (N nkj ) = Prob (N = x) =
x=njk
Cnnk
Cu cât aceast¼ a probabilitate este mai mic¼ a, cu atât ipoteza unei extrageri
aleatoare este mai di…cil de acceptat. Vom folosi aceast¼ a probabilitate pentru a
ordona modalit¼ aţile caracteristice clasei (cea mai caracteristic¼ a corespunzând
celei mai mici probabilit¼ aţi).
Aceast¼ a probabilitate este adesea foarte mic¼ a; este comod s¼ a i se substi-
tuie valoarea tk (N ) a variabilei Gauss-Laplace corespunzând aceleiaşi proba-
bilit¼
aţi. Ea m¼asoar¼a distanţa între proporţia în clas¼a şi proporţia general¼
a în
num¼ ar de abateri standard a legii normale. Cum
nj n nk nj nj
E (N ) = nk şi s2k (N ) = nk 1 )
n n 1 n n
N E (N )
) tk (N ) = :
sk (N )
Aceasta este valoarea-test pentru o modalitate a unei variabile nominale.

Acesta este un criteriu statistic doar pentru variabilele ilustrative.
2.5.3 Exemplu
Descrierea datelor
În cadrul subcapitolelor 1.4.6 respectiv 2.3.2, am analizat un set de date
(tabelul A.4. (Anex¼ a)) reprezentând informaţii asupra unor însuşiri …zice şi
temperamentale a 27 de rase de câini. Rezultatele obţinute relativ la clasi-
…carea acestor rase sunt uşor diferite pentru cele dou¼ a analize. Pentru a ne
decide asupra unei interpret¼ ari, vom aplica o metod¼ a de clasi…care ierarhic¼a-
Joining (Tree Clustering), al c¼arei avantaj îl reprezint¼
a capacitatea de oferi o
idee asupra num¼ arului de clase existente efectiv în cadrul populaţiei raselor de
câini. Se vor folosi pentru aceast¼ a analiz¼
a datele de intrare din tabelul A.4.,
modi…cate conform indicaţiilor din subcapitolul 2.3.2.

Din bara de meniu se selecteaz¼ a Statistics, Multivariate Exporatory Tech-
niques, Cluster Analysis şi, în fereastra de dialog ap¼ arut¼
a, se alege metoda de
analiz¼
a Joining (tree clustering). Dup¼ a ap¼asarea butonului OK, în fereastra
corespunz¼ atoare metodei selectate se acceseaz¼ a meniul Advanced. Butonul
Variables a…şeaz¼
a lista variabilelor pentru analiz¼ a, dintre acestea urmând a …
selectate toate mai puţin variabila FN şi variabila R. În continuare se speci…c¼
a:
tipul datelor de intrare (input …le) - se alege opţiunea Raw data deoarece
tabelul A.4. nu reprezint¼ a o matrice de distanţe sau de corelaţii;
entit¼
aţile de clasi…cat (cluster ) - se alege opţiunea Cases (rows) deoarece
scopul analizei pentru acest exemplu este clasi…carea raselor de câini;
¼
strategia de agregare (amalgamation (linkage) rule) - se alege strate-

gia bazat¼ a pe distanţa diametrului (Complete Linkage). Rezultatele
obţinute folosind metoda Ward sunt similare (vezi subcapitolul 2.4.2.);
tipul de distanţ¼
a (Distance measure) - se alege distanţa euclidian¼
a (Euclid-
ean distances) deoarece indivizii sunt v¼azuţi ca puncte în spaţiul euclid-
ian R6 (6 reprezint¼ a num¼arul de variabile m¼asurate pe …ecare individ)
Pentru activarea ferestrei ce permite generarea rezultatelor speci…ce clasi-

…c¼
arii prin metoda k-means (…g. 2.5.3.) se apas¼ a butonul OK. În noua fereas-
tr¼
a este prezentat şi un rezumat al datelor de plecare: num¼ arul indivizilor (27
rase de câini) şi al variabilelor (6 însuşiri) care particip¼
a la analiz¼
a, metoda de
analiz¼
a (Joining), strategia de agregare (Complete Linkage) şi tipul distanţei
(Euclidean Distances).
Generarea tuturor rezultatelor se va face din meniul Advanced. Primul

pas în realizarea clasi…c¼
arii prin metoda Joining îl reprezint¼a calculul matricei
distanţelor (butonul Distance Matrix ) - distanţele euclidiene, în acest caz. O
submatrice a acestei matricii este prezentat¼a în tabelul 2.5.1.
tabelul 2.5.1. submatrice a matricei distanŢ elor euclidiene
Etapele rezultate în urma algoritmului de agregare bazat pe strategia

Complete Linkage pot … vizualizate prin ap¼ asarea butonului Amalgamation
schedule. Tabelul obţinut, redat parţial în continuare (tabelul 2.5.2.), conţine
pe prima coloan¼ a indicii de agregare şi pe …ecare linie membrii clusterului for-
mat în urma agreg¼ arii la nivelul respectiv. Se constat¼ a c¼
a primele "grup¼ ari"
se realizeaz¼
a între indivizii pentru care variabilele care îi caracterizeaz¼ a au va-
lori identice: BULD şi TECK, respectiv CHIH şi PEKI, DALM şi LABR, iar
indicii de agregare sunt nuli, egali cu distanţele dinte aceşti indivizi. Imaginea
arborelui de clasi…care (butonul Horizontal/Vertical hierarchical plot) sinte-
tizeaz¼a aceste informaţii într-o maniera mai sugestiv¼ a (…g. 2.5.6.).
¼
tabelul 2.5.2. etape de agregare
fig. 2.5.6. Arborele de clasificare
Clusterele rezultate în urma aplic¼

arii metodei Joining (…g 2.5.6. şi tabelul
2.5.3.) sunt apoape identice cu grup¼arile generate de metoda k-means (tabelul
2.3.2.), singura diferenţ¼

a …ind dat¼
a de trecerea rasei FOXT din clusterul 4 în
clusterul 3.
tabelul 2.5.3. Membrii clusterelor obŢ inute prin metoda joining

Capitolul 3
METODE EXPLICATIVE
UZUALE
Acest capitol face leg¼ atura între demersurile exploratori i prezentate în

capitolele 1 şi 2, şi demersul inferenţial şi con…rmatoriu care constituie partea
clasic¼
a cea mai ampl¼ a a statisticii matematice.
S¼a recapitul¼ am, pe scurt, caracteristicile celor dou¼ a familii de metode
c¼
arora le corespund demersuri complementare.
Statistica descriptiv¼a şi exploratorie permite realizarea de rezumate şi
gra…ce mai mult sau mai puţin elaborate, descrierea mulţimilor de date sta-
tistice şi stabilirea de relaţii între variabile, f¼ar¼
a a acorda un rol privilegiat
vreunei variabile. Concluziile obţinute în aceast¼ a etap¼a privesc doar datele
studiate, f¼ ar¼
a a … generalizate la o populaţie mai larg¼ a. Analiza exploratorie
se sprijin¼a, în mod esenţial, pe noţiuni elementare - acelea de medie şi disper-
sie, pe reprezent¼ ari gra…ce şi pe tehnici descriptive multidimensionale de tipul
celor abordate în primele dou¼ a capitole.
Statsitica inferenţial¼a şi con…rmatorie permite validarea sau in…rmarea,
pornind de la teste statistice sau modele probabiliste, a ipotezelor formulate à
priori (adic¼ a urmarea unui demers exploratoriu) şi extrapolarea acestora de la
nivelul eşantionului la cel al unei populaţii mai mari. Statistica con…rmatorie
face apel, în special, la metodele numite explicative8 şi previzionale. Dup¼ a cum
le indic¼a numele, acestea sunt destinate s¼ a explice, apoi s¼
a prevad¼ a, urmând
anumite reguli de decizie, o variabil¼ a privilegiat¼a, cu ajutorul uneia sau mai
multor variabile explicative.
Demersurile sunt complementare, explorarea şi descrierea trebuind, în
general, s¼ a precead¼ a etapele explicative şi predictive. Într-adev¼ar, o explorare
preliminar¼ a este adesea util¼ a pentru a avea o prim¼ a idee despre natura leg¼ a-
8
Statistica nu explic¼
a nimic, dar furnizeaz¼a elemente potenţiale de explicaţii. De altfel,
termenii de variabil¼
a explicativ¼
a sau variabil¼
a de explicat nu sunt cei mai judicioşi. Se mai
spune independent şi dependent sau exogen şi endogen. Ultimii doi termeni sunt poate cei
mai adecvaţi dar nu sunt destul de evocatori. Adjectivul independent este, în schimb, surs¼ a
de confuzie.
139
140 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
turilor între variabile şi pentru a trata cu prudenţ¼ a variabilele corelate, şi deci
redundante, ce risc¼ a s¼
a încarce inutil modelul.
Metodele explicative prezentate în secţiunile 3.1 3.3 acoper¼ a utiliz¼arile
cele mai curente.
Analiza discriminant¼a (secţiunile 3.1 şi 3.2) este, schematic vorbind,
analog¼ a cu regresia multipl¼ a când variabila endogen¼ a y este discret¼a. În acest
caz, variabila de explicat de…neşte clasele unei partiţii à priori a populaţiei.
Scopul analizei îl constituie studierea legaturilor între variabilele explicative
şi clasele partiţiei (secţiunea 3.1). Se de…nesc astfel funcţii discriminante care
vor permite, într-o etap¼ a decizional¼a, afectarea de noi indivizi la aceste clase
(secţiunea 3.2).
Tehnicile de segmentare prin arbore binar (secţiunea 3.3) sunt prezen-
tate în cadrul acestui capitol din diferite motive. Pe de o parte ele se aplic¼ a
la toate variabilele, oricare ar … statutul sau natura lor, pe alt¼ a parte ele inte-
greaz¼ a simultan faza explicativ¼ a şi cea decizional¼
a. Aceste tehnici constituie,
astfel, o metod¼ a de previziune foarte accesibil¼ a ale c¼
arei rezultate sunt uşor de
interpretat.
3.1 Analiza discriminant¼

a
Este desemnat¼ a sub numele de analiz¼a discriminant¼a o familie de tehnici
destinate s¼
a claseze (s¼a afecteze la clase preexistente) indivizi caracterizaţi
printr-un num¼ ar de variabile continue sau discrete.
Metoda îşi are originea în lucr¼
arile lui R. A. Fisher [26] sau, într-o manier¼a
mai puţin direct¼
a, în cele ale lui P.C. Mahalanobis [43].
Analiza discriminant¼ a este una dintre tehnicile de analiz¼ a multidimen-
sional¼
a cele mai folosite în practic¼ a (diagnostic automat, controlul calit¼ aţii,
previziunea riscului, recunoaşterea formelor).
3.1.1 Notaţii şi formularea problemei

Dispunem de n observaţii (sau indivzi) asupra a p variabile (x1 ; x2 ; : : : ; xp ),
observaţii repartizate în q clase de…nite à priori de variabila y nominal¼ a, având
q modalit¼ aţi. În cele ce urmeaz¼ a vom nota cu y vectorul n-dimensional, cu
componente numere naturale, reprezentând num¼ arul clasei din care face parte
observaţia / individul i şi cu Y matricea disjunctiv¼ a n q corespunz¼ atoare.
Analiza discriminant¼ a îşi propune, într-o prim¼ a etap¼ a, s¼
a caracterizeze
cât se poate de bine cele q clase cu ajutorul celor p variable explicative, iar apoi,
într-o a doua etap¼ a, s¼
a rezolve problema afect¼ arii unui individ nou, caracterizat
prin cele p variabile, la una dintre clasele deja identi…cate pe baza eşantionului
de n indivizi (numit eşantion de înv¼aţare).
Se disting, în consecinţ¼a, dou¼ a demersuri:
primul, descriptiv, ce const¼

a în c¼
autarea funcţiilor de discriminare liniare
¼
3.1. ANALIZA DISCRIMINANTA 141
pe eşantionul de volum n (adic¼a g¼

asirea combinaţiilor liniare de variabile
explicative ale c¼
aror valori separ¼
a cel mai bine cele q clase);
al doilea, decizional, ce const¼a în a‡area claselor de afectare a celor n0
indivizi noi, descrişi prin variabilele explicative (x1 ; x2 ; : : : ; xp ) (numit
eşantion de test). Este vorba aici de o problem¼a de clasare în clase
preexistente, în opoziţie cu problemele de clasi…care (capitolul 2) care
constau în construirea de clase cât mai omogen posibil într-un eşantion
dat.
fig. 3.1.1. Principiul analizei discriminante
3.1.2 Analiza factorial¼

a discriminant¼
a
j=1;p
Fie tabelul observaţiilor X 2Mn p (R) cu X = (xij )i=1;n
Cei n indivizi sunt împ¼ arţiţi în q clase (clasele sunt presupuse disjuncte
şi se cunoaşte afectarea …ec¼arui individ la o clas¼ a).
Fiecare clas¼a k caracterizeaz¼ a un subnor Ik de nk indivizi, unde
q
X
nk = n:
k=1
Se noteaz¼ a cu gk centrul de greutate al clasei k şi cu g centrul de greutate
al norului, adic¼
a
1 X
gk = xkj unde xkj = xij
j=1;p nk
i2Ik
respectiv
n q
1X Xn
k k
g = (xj )j=1;p , cu xj = xij = x :
n n j
i=1 k=1
fig. 3.1.2. Reprezentarea norului de indivizi discriminaŢ i

Pentru precizarea ideilor, se consider¼ a o mulţime X de date (puncte)

dintr-un spaţiu bidimensional. Valorile caracteristicilor x1 şi x2 ale punctelor
sunt date de proiecţiile norului X pe axele de coordonate Ox şi Oy. Structura
claselor lui X se poate detecta, în acest caz, prin simpla inspecţie vizual¼ a.
În unele situaţii se poate constata c¼ a nu exist¼ a în X o structur¼ a de
clase bine de…nit¼ a şi astfel diferiţi observatori pot indica diferite moduri de
grupare a datelor în clase. Aceasta relev¼ a faptul c¼a puterea de discriminare
a caracteristicilor (axelor) este slab¼ a pentru datele considerate. Exist¼ a dou¼a
posibilit¼aţi: …e c¼a nu s-au ales cele mai bune caracteristici ale datelor, …e
c¼
a datele sunt, prin natura lor, foarte asem¼ an¼
atoare. Pentru a evita aceast¼ a
situaţie, este uneori posibil¼ a determinarea unui nou sistem de coordonate faţ¼ a
de care structura de clase a norului X s¼ a …e mai evident¼ a decât în sistemul
iniţial. Axele noului sistem au, deci, o putere de discriminare a claselor din X
superioar¼ a celei a axelor iniţiale. În unele situaţii este su…cient¼
a determinarea
unei singure axe discriminante, astfel încât proiecţiile norului X pe aceast¼ a
ax¼a s¼a constea din clase compacte şi bine separate. În …g. 3.1.3., axa 1 are o
bun¼ a putere discriminant¼ a în timp ce axa 2, care este axa principal¼ a uzual¼a,
nu permite o separare a proiecţiilor celor dou¼ a grupe.
fig. 3.1.3. Axe cu proprietA¼ Ţ i de discriminare diferite
M¼arirea puterii discriminante a axelor poate …, aşadar, reclamat¼ a de

datele problemei, cu scopul de a putea "vedea" o anumit¼ a structur¼a în date.
Determinarea axelor discriminante poate servi şi ca o tehnic¼ a de reducere
a dimensiunii spaţiului variabilelor. Prin aceast¼ a tehnic¼a sunt selectate cele
mai relevante caracteristici. Reducerea dimensiunii poate … impus¼ a şi de nece-
sitatea vizualiz¼arii claselor prin proiectarea datelor într-un spaţiu cu una sau
dou¼a dimensiuni. În acest caz, cerinţa fundamental¼ a este ca, prin proiectarea
datelor într-un spaţiu de dimensiune redus¼a, la clase compacte şi bine sepa-
rate din spaţiul iniţial s¼a corespund¼a clase compacte şi bine separate din noul
spaţiu.
Fie combinaţia liniar¼ a, pentru individul i, format¼a cu cele p variabile
p
X
a (i) = aj (xij xj ) ; i = 1; n:
j=1
Variabila a = (a (i))ni=1 este centrat¼

a, deci de medie empiric¼
a 0. Atunci dis-
¼
persia empiric¼
a a lui a este
2 32
n
X n
X Xp
1 1 4
D2 (a) = 2
a (i) = aj (xij xj )5
n n
i=1 i=1 j=1
p
n X
X p
X
1
= aj aj 0 (xij xj ) xij 0 xj 0 :
n
i=1 j=1 j 0 =1
Inversând ordinea de sumare şi notând

n
1X
tjj 0 = (xij xj ) xij 0 xj 0 = cov xj ; xj 0
n
i=1
dispersia empiric¼
a a variabilei a se poate scrie
p X
X p
2 j0=1;p
D (a) = aj aj 0 cov xj ; xj 0 = a0 Ta, unde T = tjj 0 j=1;p
:
j=1 j0=1
Ca şi în analiza dispersional¼

a (vezi, de exemplu, [60]) se poate descom-
pune matricea de covarianţ¼ a, T, într-o component¼ a intraclase (în interiorul
claselor) şi o component¼a interclase (între clase) obţinându-se formula de de-
scompunere a lui Huygens, sau ecuaţia analizei dispersionale.
S¼
a pornim de la identitatea
xij xj = xij xkj + xkj xj :

Atunci
2 3
Xq X
1 4
tjj0 = (xij xj ) xij0 xj 0 5 =
n
k=1 i2Ik
2 3
1 X 4X h i h i
q
= xij xkj + xkj xj xij 0 xkj0 + xkj0 xj 0 5=
n
k=1 i2Ik
q X
X q
1 1 XX k
= xij xkj xij 0 xkj0 + xj xj xkj0 xj 0 :
n n
k=1 i2Ik k=1 i2Ik
deoarece, din de…niţia lui xkj
X X
xij xkj xkj0 xj 0 = xkj0 xj 0 xij xkj =
i2Ik i2Ik
0 1
X
= xkj0 xj 0 @ xij nxkj A = 0
i2Ik
şi în mod analog

X
xkj xj xij 0 xkj0 = 0:
i2Ik
Notând cu
q
1 XX
djj 0 = xij xkj xij 0 xkj0
n
k=1 i2Ik
şi cu
q
X nk
ejj0 = xkj xj xkj0 xj 0
n
k=1
se poate scrie
T=D+E (1)
j 0 =1;p j 0 =1;p
unde D = djj 0 j=1;p şi E = ejj 0 j=1;p :
Astfel, dispersia unei combinaţii liniare de variabile, a, se descompune în
a0 Ta = a0 Da + a0 Ea: (2)
Reamintim c¼ a, dintre toate combinaţiile liniare de variabile, sunt c¼ au-

tate cele care au o dispersie intraclase minim¼ a şi o dispersie interclase maxim¼ a.
Rezult¼a c¼a, în proiecţie pe axa discriminant¼ a a; …ecare subnor trebuie s¼ a …e,
în m¼asura posibilului, în acelaşi timp bine grupat şi bine separat de ceilalţi
subnori.
0 Ea 0
Trebuie g¼ asit a astfel încât aa0 Da s¼a …e maxim¼ a (sau echivalentul, aa0Da
Ea
0
minim¼ a) sau, conform (2), s¼ a se maximizeze f (a) = aa0Ea Ta (raportul dintre
dispersia inter-clase şi dispersia total¼a).
Aşadar, un punct staţionar al lui f (a) se a‡a¼ rezolvând ecuaţia
(a0 Ta) (2Ea) (a0 Ea) (2Ta)
f 0 (a) = 0 =) =0
(a0 Ta)2
d
deoarece da (a0 Ea) = 2Ea dac¼ a E este simetric¼
a (şi este deoarece E şi T sunt
matrici de covarianţ¼
a, în plus T este inversabil¼
a). Rezult¼ a
a0 Ta Ea = a0 Ea Ta
a0 Ea 1
Ea= Ta j T
a0 Ta
1 a0 Ea
T Ea= a =f (a) a (3)
a0 Ta
Aşadar f (a) este maxim¼
a dac¼a este egal¼
a cu , valoarea proprie maxim¼
a
1
a matricii T E iar a este vector propriu corespunz¼ator lui maxim
¼
Observaţia 3.1.1
1. T 1 E este o matrice p p, în general nesimetric¼ a. Din punct de vedere al
calcului numeric, având în vedere c¼ aq p, este mai uşor a a‡a vectorii
şi valorile proprii ale unei matrici simetrice de dimensiune q q şi a g¼ asi
o exprimare a lui a în funcţie de aceste elemente.
2. Se observ¼ a E este produsul unei matrci C 2 Mp q (având coe…-

a c¼
p nk k
cienţii cjk = n xj xj ) cu transpusa sa, deci, revenind în (3),
T 1 CC0 a = a sau CC0 a = Ta şi considerând a = T 1 Cw rezult¼
a
CC0 T 1
Cw = Cw (4)
Dac¼
a w este vector propriu corespunz¼ ator lui ; al matricii C0 T 1 C
atunci el veri…c¼
a relaţia (4) şi a şi veri…c¼a relaţia (3). Cum şi C0 T 1 C 2
Mq q (R) este simetric¼ a, în practic¼ a se diagonalizeaz¼ a aceast¼
a matrice iar
apoi se a‡a¼ a = T 1 Cw.
3. max se numeşte putere discriminant¼ a şi din (1) este mai mic¼ a sau egal¼ a
cu unu. Într-adev¼ a a0 Ta = a0 Da + a0 Ea: Dar T este
ar, din (1) rezult¼
pozitiv de…nit¼a (deoarece este matrice de covarianţ¼ a)) a0 Ta > 0; (8) a,
deci în egalitatea de mai sus se poate împ¼ arţi cu scalarul a0 Ta şi se obţine
a0 Da a0 Ea
1= + 0 :
a0 Ta a Ta
Cum scalarii a0 Da; a0 Ea şi a0 Ta sunt pozitivi (ca dispersii intraclase,

a0 Ea
respectiv interclase şi total¼
a)) 0 a0 Ta f (a) 1; (8) a; deci 0
max 1:
max = 1 corespunde cazului A) din …g. 3.1.4. În proiecţia pe

axa a dispersiile intraclase sunt nule. Cei k nori sunt …ecare într-
un hiperplan ortogonal pe a. Discriminarea pe aceast¼ a ax¼a este
perfect¼
a dac¼
a centrele de greutate se proiecteaz¼
a în puncte diferite.
max = 0 corespunde cazului în care cea mai bun¼ a ax¼a discrimi-

nant¼a nu poate s¼a separe centrele de greutate gi pentru c¼ a acestea
sunt confundate. Norii sunt, deci, concentrici şi neliniari separabili
(cazul B) din …g. 3.1.4.) Este posibil¼ a existenţa unei suprafeţe de
decizie neliniare; în cazul de faţ¼
a este vorba de o funcţie p¼atratic¼
a.
fig 3.1.4. exemplificarea diferitelor puteri de

discriminare ale unei axe
Valoarea proprie este o m¼asur¼a pesimist¼a a puterii de discriminare a unei
axe: cazul C) din …g. 3.1.4. arat¼ a c¼a cele dou¼
a clase sunt liniar separabile pe
axa considerat¼ a în po…da faptului c¼ a < 1.
Num¼ arul de valori proprii nenule, deci al axelor discriminante, este egal
cu q 1 în cazul obişnuit, unde n > p > q şi variabilele nu sunt legate prin
relaţii liniare.
Odat¼ a g¼asite axele cu puterea de discriminare cea mai bun¼ a, pasul ur-
m¼ator const¼ a în g¼ asirea suprafeţelor de decizie.
3.1.3 Metode geometrice

Metodele geometrice de analiz¼ a discriminant¼ a, esenţialmente descriptive,
se bazeaz¼
a pe noţiunea de distanţ¼a şi nu utilizeaz¼
a nici o noţiune probabilist¼
a.
Pentru detalii privind aceast¼
a secţiune pot … consultate monogra…ile [1], [21].
3.1.3.1 SUPRAFEŢE DE DECIZIE

În context geometric, discriminarea poate … interpretat¼ a ca o împ¼ arţire
a spaţiului variabilelor în regiuni, numite regiuni de decizie, …ecare regiune
…ind asociat¼ a cu o clas¼ a de obiecte. Regiunile de decizie şi implicit clasele
corespunz¼ atoare, se zic separabile dac¼
a pot …separate prin suprafeţe din spaţiul
variabilelor.
Suprafeţele de separare ale regiunilor de decizie se numesc şi suprafeţe
de decizie. Dac¼ a suprafeţele de decizie sunt hiperplane, clasele se zic liniar
separabile.
¼
Suprafeţele de decizie pot … descrise cu ajutorul unei mulţimi de funcţii

de discriminare sau funcţii de decizie.
fig. 3.1.5. douA¼ clase liniar separabile din R2 , notate A1 Ş i A2

Clasele ce apar în multe probleme concrete nu pot …, în general, pre-
cis de…nite, deoarece apartenenţa unor elemente la una sau alta dintre clase
poate … incert¼ a. Aceste clase f¼ ar¼
a margini precise, în care tranziţia de la
apartenenţ¼ a la neapartenenţ¼a este mai degrab¼ a gradual¼ a, pot … descrise prin
mulţimi nuanţate (fuzzy sau cu apartenenţ¼a divizat¼a. Vezi, de exemplu, [22]).
Va … considerat, în cele ce urmeaz¼ a, cazul claselor separabile. Funcţia
de discriminare ataşeaz¼ a …ecare obiect/vector unei regiuni R din spaţiul va-
riabilelor, regiune delimitat¼ a prin intermediul unei mulţimi de suprafeţe de
decizie. O funcţie de discriminare instruibil¼a (cu înv¼aţare) tinde s¼ a reduc¼ a
num¼ arul obiectelor clasate incorect (misclasate), f¼ acând acest num¼ ar cât mai
mic posibil, eventual nul. Acest lucru se realizeaz¼ a prin ajustarea mulţimii R
a regiunilor de decizie ca r¼ aspuns la observaţiile f¼ acute asupra unei mulţimi
de obiecte de instruire. Mulţimea obiectelor de instruire se numeşte mulţime
de instruire. Ajustarea regiunilor de decizie ca rezultat al observaţiilor asupra
mulţimii de instruire reprezint¼ a faza de înv¼aţare sau instruire a funcţiei de
discriminare.
Dac¼ a se cunoaşte dinainte num¼ arul claselor şi dac¼
a pentru …ecare obiect
din mulţimea de instruire ştim clasa c¼ aruia acesta îi aparţine, înv¼ aţarea se
numeşte supervizat¼a sau cu profesor. Dac¼ a structura de instruire nu este
cunoscut¼ a, adic¼a pentru nici un obiect din aceast¼ a mulţime nu cunoaştem
dinainte clasa de apartenenţ¼ a, instruirea se numeşte nesupervizat¼a sau f¼ar¼a
profesor.
Procedura conform c¼ areia regiunile de decizie sunt ajustate ca r¼ aspuns
la observaţiile privind clasarea vectorilor din mulţimea de instruire, constituie
procedura de instruire. Dup¼ a ce clasele şi suprafeţele de decizie sunt stabilite
prin faza de instruire (funcţia de discriminare este instruit¼ a), funcţiei de dis-
criminare i se prezint¼ a date ale c¼aror clase nu se cunosc. Aceast¼ a faz¼a, în care
obiecte noi sunt asociate uneia sau alteia dintre clasele stabilite, se numeşte
faz¼a de lucru/decizional¼a /de afectare. Uneori faza de instruire şi cea de lucru
pot s¼a coincid¼a sau s¼a se suprapun¼ a parţial. Este ceea ce se întâmpl¼ a în cazul
clasi…c¼arii nesupervizate.
S¼a consider¼am c¼ a în mulţimea obiectelor (reprezentate sub form¼ a de vec-
tori) sunt prezente q clase, notate A1 ; : : : ; Aq . Distingem urm¼ atoarele trei
cazuri de separabilitate:
Cazul 1. Fiecare clas¼ a este separat¼ a de toate celelalte printr-o singur¼a
suprafaţ¼a de decizie. Exist¼a, deci, q funcţii de decizie. Not¼am cu gi (x) : Rp !
R funcţia de decizie corespunz¼ atoare clasei Ai . Ecuaţia suprafeţei de decizie
ce separ¼a clasa de toate celelalte clase este gi (x) = 0.
Pentru …ecare clas¼ a Ai regula de afectare este
daca x 2 Ai ; atunci gi (x) > 0:

Dac¼
a pentru un punct x; nou considerat,
gi (x) > 0 şi gj (x) < 0; j = 1; q; j 6= i
atunci x este ataşat clasei Ai .

Regiunea de decizie R; corespunz¼
atoare clasei Ai va …, aşadar,
Ri = x 2Rp jgi (x) > 0 şi gj (x) < 0; j = 1; q; j 6= i :
Punctele ce nu aparţin niciunei regiuni de decizie formeaz¼ a o regiune de

nedeterminare (RN). Suprafeţele de decizie aparţin regiunii de nedeterminare.
Este posibil ca regiunea de nedeterminare RN s¼ a conţin¼
a şi alte puncte decât
cele aparţinând suprafeţelor de decizie.
fig. 3.1.6. Cazul 1 de separabilitate

¼
Cazul 2. Fiecare clas¼ a este separat¼

a de oricare alta printr-o suprafaţ¼a
de decizie. Clasele sunt, aşadar, dou¼ a câte dou¼ a separabile. Exist¼ a, deci,
q(q 1)
2 suprafeţe de decizie generate de funcţiile gij (x) : Rp ! R: Suprafaţa de
decizie corespunz¼ atoare claselor Ai şi Aj are ecuaţia gij (x) = 0. Funcţiile de
decizie satisfac condiţia gij (x) = gji (x) ; 8x 2Rp :
Punctele clasei Ai se a‡a¼ de partea pozitiv¼ a a suprafeţei gij (x) = 0 .
Regula de decizie este:
x 2 Ai , gij (x) > 0; (8) j 6= i:
Regiunea de decizie R corespunz¼

atoare clasei Ai este
Ri = fx 2Rp jgij (x) > 0; (8) j 6= ig :
La fel ca şi în condiţiile cazului l de separabilitate, este posibil s¼

a existe
o regiune de nedeterminare neaparţinând nici unei regiuni de decizie.
Cazul 3. Exist¼
a k funcţii de decizie. Regula de decizie se formuleaz¼
a
astfel:
x 2 Ai , gi (x) > gj (x) ; (8) j 6= i:
Regiunea de decizie R corespunz¼
atoare clasei Ai va … aşadar
Ri = fx 2Rp j gi (x) > gj (x) ; (8) j 6= ig :
Suprafaţa de decizie dintre clasele Ai şi Aj are ecuaţia
gi (x) = gj (x) ; (8) x 2Rp ; j 6= i:
Obiectele clasei Ai se a‡a¼ de partea pozitiv¼

a a suprafeţei de separare.
Observaţia 3.1.2
Separabilitatea de tip 3 implic¼
a separabilitatea de tip 2. Într-adev¼
ar, s¼
a con-
sider¼
am
gij (x) = gi (x) gj (x)
şi s¼
a admitem separabilitatea claselor A1 ; : : : ; Aq în condiţiile cazului 3. Dac¼
a
x aparţine regiunii clasei Ai , atunci gi (x) > gj (x) ; 8j 6= i. Deci gij (x) >
0; 8j 6= i. Rezult¼
a aşadar c¼
a, dac¼
a clasele sunt separabile în condiţiile cazului
3, ele sunt separabile şi conform cazului 2. Reciproca nu este, în general,
valabil¼a.
În condiţiile cazului 3 de separabilitate nu exist¼

a alte regiuni de nedeter-
minare decât suprafeţele de separare (vezi …g 3.1.8.).
În cele ce urmeaz¼ a, prin separabilitatea a dou¼ a clase vom înţelege, în

absenţa altei preciz¼
ari, separabilitatea în condiţiile cazului 3.
3.1.3.2 FUNCŢII DE DECIZIE AFINE ŞI LINIARE

De o mare importanţ¼ a practic¼a este cazul claselor liniar separabile. În
aceast¼
a situaţie funcţiile de decizie sunt funcţii a…ne.
a g : Rp ! R , adic¼
O funcţie a…n¼a de decizie, g, este o aplicaţie liniar¼ ag
se poate scrie sub forma
g (x) = w0 x + wp+1 ; x 2Rp
cu
w = (w1 ; : : : ; wp )0 şi wi 2 R; i = 1; p:
Vectorul w se numeşte vector pondere sau vector parametru.
¼
O convenţie uzual¼a este s¼a se adauge wp+1 ca ultim¼ a component¼ a a vec-

torului w. Se de…neşte astfel vectorul pondere extins, v = (w1 ; : : : ; wp ; wp+1 )0 şi,
respectiv, vectorul caracteristic¼a extins y = (x1 ; : : : ; xp ; 1)0 . Vectorii y vor … el-
emente ale spaţiului extins al caracteristicilor, spaţiu notat cu Y. Prin aceast¼ a
m¼arire a dimensiunii spaţiului caracteristicilor, propriet¼ aţile geometrice ale
claselor nu sunt alterate. Cu noile notaţii introduse funcţia a…n¼ a de decizie
se transform¼ a de decizie g : Y ! R; Y Rp+1 ; dat¼
a într-o funcţie liniar¼ a de
expresia
g (y) = v0 y; y 2 Y
Dac¼a gi este funcţia liniar¼
a de decizie corespunzând clasei Ai atunci, în
conformitate cu cazul 3 de separabilitate, un obiect y este ataşat clasei Ai
dac¼
a
gi (y) > gj (y) ; (8) j 6= i
Consider¼ am o funcţie r : Y ! f1; 2; : : : ; qg ce ataşeaz¼
a …ec¼
arui vector y
indicele unei clase. Regula de decizie se reformuleaz¼ a astfel:
r (y) = i , gi (x) > gj (x) ; (8) j 6= i
În cazul când exist¼a doar dou¼ a clase, putem considera o singur¼

a funcţie
de decizie g : Y ! R; dat¼
a de relaţia
g (y) = g1 (y) g2 (y) :
Dac¼a g (y) > 0, atunci y aparţine clasei A1 , iar dac¼

a g (y) < 0, atunci y
aparţine clasei A2 :
3.1.3.3 ECUAŢIA UNUI HIPERPLAN

Ecuaţia unui hiperplan, H, ce trece printr-un punct x0 şi este normal pe
un vector unitar u se poate scrie sub forma
hu; x x0 i = u0 (x x0 ) = 0
cu produsul scalar uzual.

Ecuaţia dreptei 4 ce trece printr-un punct z0 şi este ortogonal¼
a pe hiper-
planul H se scrie
x z0 = tu; t 2 R
adic¼
a
x = z0 + tu; t 2 R:
Pentru a g¼asi intersecţia lui H cu dreapta 4 înlocuim ecuaţia dreptei în
ecuaţia hiperplanului. Obţinem
u0 (z0 + tu x0 ) = 0
şi deci
tu0 u = u0 (x0 z0 )
de unde, ţinând cont c¼
a kuk = 1, g¼
asim
u0 (x0 z0 )
t= 2 = u0 (x0 z0 )
kuk
Punctul de intersecţie al dreptei 4 cu hiperplanul H va … aşadar
x1 = z0 + u0 (x0 z0 ) u:
Distanţa de la punctul z0 la hiperplan este, deci,
d (H; z0 ) = kx1 z0 k =
0
= u (x0 z0 ) kuk =
0
= u (x0 z0 )
Distanţa de la originea spaţiului la hiperplan se obţine considerând în
relaţia de mai sus z0 = 0 şi deci
D = d (H; 0) = u0 x0 :
3.1.3.4 HIPERPLANE DE SEPARARE

În cazul 3 de separabilitate regiunile de decizie sunt m¼ arginite de hiper-
plane sau de porţiuni de hiperplane. Dac¼ a regiunile Ri şi Rj au o frontier¼a
comun¼a, suprafaţa de decizie ce le separ¼
a este hiperplanul de ecuaţie
gi (y) gj (y) = vi0 vj0 y =0
Observ¼ am c¼a, în spaţiul extins al caracteristicilor, toate hiperplanele de
separare trec prin originea spaţiului.
În spaţiul caracteristicilor, ecuaţia suprafeţei de decizie este
gi (x) = gj (x)
deci se poate scrie
wi0 x+wi;p+1 = wj0 x+wj;p+1 sau w0 x+wp+1 = 0
unde am notat
w = wi wj
wp+1 = wi;p+1 wj;p+1:
Din relaţia de mai sus rezult¼ a c¼
a ecuaţia hiperplanului de separare în
spaţiul caracteristicilor se mai poate scrie sub forma
w0 wp+1
x+ =0
kwk kwk
¼
Comparând aceast¼
a ecuaţie cu ecuaţia general¼
a
u0 x u0 x0 = 0
a hiperplanului ce trece prin punctul x0 , obţinem c¼

a vectorul unitar normal
pe hiperplan este
w
u=
kwk
şi
wp+1
u0 x0 = :
kwk
Rezult¼
a c¼
a distanţa de la origine la hiperplanul de separare se poate scrie
jwp+1 j
D = u0 x0 = :
kwk
Distanţa de la punctul z0 la hiperplan va …
d (H; z0 ) = u0 (x0 z0 ) =
wp+1 w0
= z0 =
kwk kwk
1
= w0 z0 + wp+1 :
kwk
Formulele stabilite se vor dovedi utile în studiul geometriei funcţiilor

discriminante liniare.
3.1.4 Funcţii discriminante de distanţ¼

a minim¼
a
În aceast¼ a secţiune ne propunem s¼ a ar¼
at¼am cum clasarea prin mini-
mizarea unei funcţii criteriu ne conduce la o clas¼ a de funcţii discriminante
liniare. Funcţia criteriu considerat¼a aici este distanţa de la vectorii caracter-
istic¼
a la prototipurile claselor.
P¼atratul distanţei euclidiene de la un vector x din X la prototipul Li al
clasei Ai , se scrie
d2 (x; Li ) = kx Li k2 = (x Li )0 (x Li ) =
0 0
= xx 2x Li + L0i Li
Un vector x este ataşat acelei clase Ai de al c¼arei prototip x este mai

aproape, adic¼
a
x 2Ai dac¼ a d (x; Li ) = min d x; Lj :
j
Distanţele …ind întotdeauna pozitive, a minimiza d este echivalent cu a

minimiza d2 . Deoarece x0 x nu depinde de clasa i; distanţa de la x la prototipul
Li se mai scrie
1 0
d2 (x; Li ) = x0 x 2 x0 Li L Li :
2 i
O clasi…care echivalent¼
a cu regula de asignare de mai sus se obţine con-
siderând funcţia gi : Rp ! R dat¼
a de
1 0
gi (x) = x0 Li L Li :
2 i
Regula de decizie devine:
x 2Ai dac¼
a gi (x) = max gj (x)
j
Am obţinut c¼
a gi este o funcţie a…n¼
a de decizie. Notând
1
ci = Li şi ci;p+1 = L0i Li :
2
se poate scrie gi sub forma standard
gi (x) = c0i x+ci;p+1:
Suprafaţa de decizie ce separ¼
a clasele Ai şi Aj are ecuaţia
gi (x) = gj (x) :
adic¼
a, ţinând cont de forma lui gi ; rezult¼
a
1 0
(Li Lj )0 x L Lj L0i Li = 0;
2 j
ceea ce se mai poate scrie sub forma
1
(Li Lj )0 x (Li + Lj ) = 0:
2
Notând
1
c = Li Lj şi x0 = (Li + Lj ) ;
2
ecuaţia suprafeţei de decizie devine:
c0 (x x0 ) = 0
Suprafaţa de separare este, deci, un hiperplan ce trece prin punctul x0
şi este ortogonal pe vectorul c. Cu alte cuvinte, hiperplanul de separare este
ortogonal pe dreapta ce uneşte prototipurile claselor, pe care o intersecteaz¼ a
într-un punct situat la jum¼ atatea distanţei dintre prototipuri.
Funcţia discriminant¼
a cu distanţ¼
a minim¼ a este adecvat¼a pentru cazurile
când punctele unei clase tind s¼ a se aglomereze în vecin¼ atatea unui punct pro-
totip, formând un nor (cluster ) de puncte.
3.2. METODE PROBABILISTE DE DISCRIMINARE 155
3.2 Metode probabiliste de discriminare

Aceast¼a secţiune este dedicat¼
a aspectului inferenţial al analizei discrimi-
nante, prin abordarea probabilist¼ a a metodelor de discriminare. Principalul
instrument folosit este teoria bayesian¼a a deciziilor. Se vor considera diferite
metode de estimare a parametrilor necunoscuţi din densitatea de probabilitate
ataşat¼
a mulţimii datelor.
3.2.1 Preliminarii
De…niţia 3.2.1 Fie ( ; K; P ) un câmp de probabilitate şi A; B 2 K cu P (B) >
0: Probabilitatea
P (A \ B)
PB : K ! R cu PB (A) = P (AjB) =
P (B)
se numeşte probabilitatea condiţionat¼a a evenimentului A relativ la evenimen-

tul B.
Lema 3.2.1
Fie ( ; K; P ) un câmp de probabilitate şi fAi gi2I un sistem complet de eveni-
mente. Are loc urm¼ atoarea egalitate (formula lui Bayes a probabilit¼ aţii
cauzelor)
P (Ai \ B) P (Ai ) P P(B\A

(Ai )
i)
P (Ai ) P (BjAi )
P (Ai jB) = = =P :
P (B) P (B) P (Ai ) P (BjAi )
i
cu fP (Ai )g probabilit¼
aţi à priorice şi fP (BjAi )g probabilit¼
aţi à posteriori.
De…niţia 3.2.2 Fie( ; K; P ) un câmp de probabilitate, X variabil¼

a aleatoare
şi A 2 K cu P (A) > 0: Funcţia FA : R ! [0; 1] dat¼
a prin
FA (x) F (xjA) = P (X < xjA) ; (8) x 2 R
se numeşte funcţie de repartiţie a variabilei aleatoare X condiţionat¼a de eveni-

mentul A.
De…niţia 3.2.3 Analog, f ( jA)

R x : R ! R se numeşte densitate de repartiţie
condiţionat¼a, unde F (xjA) = 1 f (tjA) dt.
Observaţia 3.2.1
f (xjA) = F 0 (xjA) aproape peste tot.
Lema 3.2.2
P (A)f (xjA)
P (AjX = x) = f (x) :
Fie (X; Y ) variabil¼ a aleatoare bidimensional¼ a, cu densitatea de probabi-

litate h şi funcţia de repartiţie F , adic¼
a
Z x Z y
F (x; y) = h (t; s) dt ds:
1 1
Funcţia de repartiţie a lui X este

Z x Z
FX (x) = P (X < x) = P (X < x; Y < 1) = F (x; 1) = h (t; s) dt ds:
1 R
şi densitatea de probabilitate a lui X este

Z
0
f (x) = FX (x) = h (x; s) ds:
R
Analog, densitatea de probabilitate a lui Y este

Z
0
g (y) = FY (y) = h (t; y) dt:
R
Lema 3.2.3
Dac¼a h este densitatea de probabilitate a variabilei aleatoare (X; Y ), f este
densitatea de probabilitate a variabilei aleatoare X şi g este densitatea de
probabilitate a variabilei aleatoare Y , atunci
R
1. f (x) = R h (x; y) dy;
R
2. g (y) = R h (x; y) dx;
h(x;y)
3. f (xjy) = g(y) dac¼
a g (y) > 0; altfel arbitrar;
4. g (yjx) = h(x;y)
f (x) dac¼
a f (x) > 0; altfel arbitrar;
R
5. f (x) = R f (xjy) g (y) dy;
R
6. g (y) = R g (yjx) f (x) dx;
f (xjy)g(y) R f (xjy)g(y)
7. g (yjx) = f (x) = (formula lui Bayes pentru den-
R f (xjt)g(t)dt
sit¼
aţi de probabilitate):
3.2.2 Formularea bayesian¼

a a problemei de discriminare
Problema de discriminare (sau clasare. Atenţie! nu de clasi…care),
formulat¼
a în termenii teoriei statistice a deciziei este urm¼
atoarea:
Dându-se:
K grupe (populaţii), 1 ; 2 ; : : : ; K ; speci…cate prin distribuţiile lor de

probabilitate, Pi (x) = P (X = xjx 2 i ) cu i = 1; K;
qi ; i = 1; K; probabilit¼aţi à priori ca un individ (observaţie) s¼a provin¼a

din populaţiile i ,iP= 1; K ( fqi gK i=1 formeaz¼a un sistem complet de
probabilit¼aţi, adic¼a qi = 1),
i
X spaţiul observaţiilor asupra a p variabile aleatoare, 1; : : : ; p (predic-

tori),
fC(jji)gK i;j=1 ; costurile erorii de clasare (costul clas¼

arii unei observaţii
provenind din populaţia i în populaţia j ; i 6= j ),
S
K
s¼a se g¼aseasc¼a o partiţie R = fRi gKi=1 a spaţiului X (adic¼
a X= Ri ;
i=1
Ri \ Rj = ?; i 6= j; i; j = 1; K ) astfel încât
8 9
XK < XK =
qi C(jji)P (jji; R)
: ;
i=1 i6=j;j=1
s¼a …e minim¼a.
R
În cele de mai sus au fost notate cu P (jji; R) = Pi (x)dx; i 6= j;
Rj
aţile de eroare pentru o partiţie R dat¼
i; j = 1; K; probabilit¼ a.
3.2.2.1 REGULA BAYES PENTRU DISTRIBUŢII CUNOSCUTE

În aceast¼a secţiune presupunem cunoscute fqi gK K
i=1 şi fPi gi=1 . Aceasta va per-
mite s¼a se construiasc¼ a procedura de clasare cu propriet¼ aţi de optimalitate,
dar cu aplicabilitate practic¼ a direct¼ a redus¼a, deoarece în realitate, cel puţin
distribuţiile fPi gi sunt necunoscute.
P
K
Fie Y = f1; ; Kg spaţiul etichetelor claselor şi …e PY (x) = qi i (x)
i=1
distribuţia de probabilitate pe Y , unde s-a notat cu i (x) funcţia Dirac (adic¼
a
i (x) = 1 dac¼a x = i şi 0 în rest).
De…niţia 3.2.4 O funcţie c : X ! Y ce estimeaz¼a clasa c(x) =y 2 Y a lui x,

dup¼
a ce x 2X a fost observat, se numeşte plasator.
Pentru a aprecia calitatea plasatorului este natural s¼
a se studieze proba-
bilitatea de misclasare pentru clasa k:
pmc(k) = P [fc(x) 6= kj fx 2 k gg]:
Se consider¼ a `(c(x); j) funcţia de pierdere discret¼a pentru plasatorul c

faţ¼
a de clasa j şi riscul funcţional al plasatorului,
K
X K
X K
X Z
R(c) = M [`(c(x); j)] = qi pmc(i) = qi Pi (x)dx
i=1 i=1 i6=j;j=1R
j
deoarece, în acest caz particular, distribuţia de probabilitate pe X Y este,

din construcţie, (x; i) = qi Pe(x) (x), cu e(x) 2 Y notaţie pentru clasa lui x.
Dac¼a se consider¼ a costurile misclas¼ arii fC(jji)gK i;j=1 egale cu unitatea,
ipotez¼ a natural¼
a în multe situaţii practice, excepţie f¼acând situaţiile din medi-
cin¼a (când costul erorii de a considera un bolnav s¼ an¼
atos, poate … dramatic,
faţ¼
a de costul erorii consider¼
arii unui om s¼ an¼atos ca bolnav) atunci un plasator
va … optim dac¼ a minimizeaz¼ a riscul funcţional R(c) (adic¼ a exact funcţionala
din enunţul problemei de clasare).
S¼
a mai not¼am c¼ a probabilitatea à posteriori a unei clase i, dându-se X = x
este
qi Pi (x)
P (ijx) = K :
P
qj Pj (x)
j=1
Cu acestea se pot enunţa urm¼

atoarele rezultate:
Teorema 3.2.1 (a „regiunilor” [2]) Partiţia R a lui X care minimizeaz¼a

riscul funcţional este R = fRi gK
i=1 cu
8 9
< XK XK =
Ri = x 2Xj qj Pj (x) qj Pj (x); k 6= i; k = 1; K ; i = 1; K:
: ;
j6=i;j=1 j6=k;j=1
Demonstraţie. Pentru simpli…carea demonstraţiei s¼ a presupunem K = 2

(doar dou¼
a populaţii) şi C(1j2) = C(2j1). Atunci media costului misclasi…c¼
arii
este Z Z
q1 P1 (x)dx+q2 P2 (x)dx (1)
R2 R1
Pentru a minimiza pe (1), un x dat va … asignat populaţiei ce maxi-

mizeaz¼
a probabilitatea a posteriori a clasei sale. Astfel, dac¼
a
q1 P1 (x) q2 P2 (x)
(2)
q1 P1 (x) + q2 P2 (x) q1 P1 (x) + q2 P2 (x)
atunci x va … asignat lui 1 , altfel va … asignat lui 2 .

Cum este minimizat¼ a probabilitatea de misclasare în …ecare punct, este
minimizat costul misclas¼arii pe tot spaţiul.
Aşadar regiunile de decizie sunt:
R1 : x 2X; q1 P1 (x) q2 P2 (x) (3)

R2 : x 2X; q1 P1 (x) < q2 P2 (x)
Dac¼a q1 P1 (x) = q2 P2 (x); punctul poate … clasi…cat …e în 1 …e în 2

(arbitrar, în (3) a fost asignat lui 1 ).
Dac¼a q1 P1 (x) + q2 P2 (x) = 0; la fel, punctul poate … asignat oric¼
arei
regiuni.
S¼a ar¼ at¼

am acum c¼ a (3) este cea mai bun¼
a procedur¼
a. Pentru orice partiţie
R? = (R1? ; R2? ) a lui X; probabilitatea de misclasare este
Z Z Z
q1 P1 (x)dx+q2 P2 (x)dx = (q1 P1 (x) q2 P2 (x)) dx+ (4)
R2? R1? R2?
Z Z
+q2 P2 (x)dx+q2 P2 (x)dx
R1? R2?
R R R
Dar q2 R? P2 (x)dx+q2 R? P2 (x)dx =q2 P2 (x)dx (= q2 dac¼ a supp P2
1 2
X sau constant¼ a, în caz contrar).
Relaţia (4) va … minim¼ a dac¼a R2? va include punctele x pentru care
q1 P1 (x) q2 P2 (x) < 0 şi va exclude punctele pentru care q1 P1 (x) q2 P2 (x) > 0;
adic¼a R2? = R2 ) R1? = R1 (ca partiţii ale aceluiaşi spaţiu).
a, în plus P PP12 (x)
Dac¼ (x)
= qq21 j i = 0; i = 1; 2; atunci procedura Bayes
este unic¼
a, excepţie o mulţime de probabilitate zero.
Dac¼
a C(1j2) 6= C(2j1) 6= 1 atunci regiunile de decizie se scriu
P1 (x) C(1j2)q2
R1 : x 2X; (5)
P2 (x) C(2j1)q1
P1 (x) C(1j2)q2
R2 : x 2X; <
P2 (x) C(2j1)q1
Observaţia 3.2.2
Regiunile de decizie Bayes se înscriu în cazul 3 de separabilitate.
Corolarul 3.2.1 ( [2])

a riscul funcţional este cB (x), dac¼
Plasatorul care minimizeaz¼ a P (jjx) = max P (ijx).
1 i K
Dac¼a maximul din enunţul de mai sus este atins pentru k K clase,
atunci lui cB (x) i se va asigna una dintre cele k valori, selectat¼ a aleator.
Dac¼a probabilitatea ca maximul s¼ a …e atins pentru mai mult de un i,
pentru x dat, este zero, atunci plasatorul şi deci şi partiţia R sunt unice,
modulo o mulţime de m¼ asur¼a nul¼a.
Nu exist¼a nici o restricţie pentru tipul de densit¼aţi P1 ; : : : ; Pk . În parti-
cular, acestea nu trebuie s¼ a …e densit¼aţi faţ¼
a de m¼
asura Lebesque.
De…niţia 3.2.5 Plasatorul cB (x) se numeşte plasator Bayes, riscul funcţional

pe care acesta îl minimizeaz¼ a se numeşte risc Bayes sau eroare Bayes, iar
partiţia R care determin¼
a şi este determinat¼
a de plasatorul Bayes, se numeşte
procedur¼a de discriminare (clasare) bayesian¼a.
Dat¼a …ind importanţa conceptului, vom prezenta şi alte propriet¼ aţi ale
procedurilor de discriminare bayesian¼ a.
Fie r(i; j; R) = C(jji)P (jji; R) costul misclas¼
arii unei observaţii din pop-
ulaţia i în populaţia j prin procedura de clasare dat¼ a de partiţia R a spaţi-
ului X (numit¼ a în cele ce urmeaz¼a procedur¼a de clasare).
De…niţia 3.2.6 Procedura R este mai bun¼a decât procedura R? ,
r(i; j; R) r(i; j; R? ); (8) i 6= j; i; j = 1; K
şi cel puţin una dintre inegalit¼

aţi este strict¼
a.
De…niţia 3.2.7 Procedura R este admisibil¼a dac¼

a şi numai dac¼
a nu exist¼
ao
procedur¼ ?
a R mai bun¼a decât ea.
De…niţia 3.2.8 O clas¼ a de proceduri este complet¼a dac¼

a pentru orice proce-
dur¼
a ce nu aparţine clasei, exist¼
a întotdeauna o procedur¼a în clas¼
a care este
mai bun¼a decât ea.
De…niţia 3.2.9 O clas¼ a de proceduri este minimal¼a şi complet¼a dac¼

a nici una
din submulţimile sale nevide nu formeaz¼a o clas¼
a complet¼ a.

a P (Pj (x) = 0jx 2 i ) = 0; (8) i 6= j; i; j = 1; K atunci orice procedur¼
Dac¼ a
bayesian¼
a este admisibil¼
a.
Cu alte cuvinte, Propoziţia 3.2.1 a…rm¼a c¼
a o condiţie necesar¼a pentru ca
o procedur¼ a s¼
a …e admisibil¼
a (s¼a nu existe o procedur¼ a de clasare mai bun¼ a
decât ea) este ca suporturile tuturor distribuţiilor de probabilitate fPi gKi=1 a
s¼
difere între ele doar pe o mulţime de probabilitate nul¼ a.
Demonstraţie. Fie R = (R1 ; R2 ). Prin reducere la absurd presupunem c¼ a
procedura Bayes R nu este admisibil¼ a. Atunci (9) R? o procedur¼ a astfel încât
P (1j2; R? ) P (1j2; R) şi

?
P (2j1; R ) P (2j1; R)
cu cel puţin una din inegalit¼ aţi strict¼

a.
Dar R este procedur¼ a Bayes (adic¼ a minimizeaz¼
a media costului / proba-
bilit¼
aţii de misclasare), deci
q1 P (2j1; R) + q2 P (1j2; R) q1 P (2j1; R? ) + q2 P (1j2; R? ) ) (1)

? ?
q1 [P (2j1; R) P (2j1; R )] q2 [P (1j2; R ) P (1j2; R)]
a q1 > 0 şi P (1j2; R? ) P (1j2; R) ) membrul stâng al inegalit¼

Dac¼ aţii (1)
este nepozitiv ) P (2j1; R) P (2j1; R? ). Contradicţie, R? nu este admisibil¼ a.
Dac¼ ?
a q2 > 0, similar ) P (1j2; R) P (1j2; R ) deci iar¼aşi contradicţie.
Dac¼
a q1 = 0 atunci
0 P (1j2; R? ) P (1j2; R) (2)
şi regiunea R1 : x 2X; q1 P1 (x) q2 P2 (x) a oric¼arei proceduri Bayes va conţine

doar
R punctele x pentru care P 2 (x) = 0 ) P (1j2; R) = 0, deoarece P (2j1; R) =
R1 P2 (x)dx şi din inegalitatea de mai sus rezult¼ a P (1j2; R? ) = 0.
Din ipoteza P (P2 (x) = 0jx 2 1 ) = 0 rezult¼ a, ca evenimente comple-
mentare, P (P2 (x) > 0jx 2 1 ) = 1.
S¼a observ¼am c¼a
P (2j1; R) = P (P2 (x) > 0jx 2 1) =1 (3)
şi cum R? este admisibil¼

a trebuie ca şi
P (2j1; R? ) = 1
Din (2) şi (3) rezult¼

a c¼
a nici una din inegalit¼ aţile de de…niţie a admisi-
?
aţii lui R nu sunt veri…cate. Contradicţie.
bilit¼
Dac¼ a q1 = 0 atunci P (2j1; R) P (2j1; R? ); contradicţie cu ipoteza de
admisibilitate a lui R? .
Dac¼a P ( PPji (x)
(x) = bjx 2 k ) = 0; ((8)) i 6= j; i; j; k = 1; K şi 0 b < 1, atunci
…ecare procedur¼ a admisibil¼
a este o procedur¼ a bayesian¼ a.
Cu alte cuvinte Propoziţia 3.2.2 a…rm¼ a c¼a o condiţie su…cient¼a pentru
ca o procedur¼a bayesian¼a s¼
a …e admisibil¼ a este ca oricare dou¼ a distribuţii de
probabilitate Pi respectiv Pj ; i; j = 1; K; s¼
a …e proporţionale între ele cel mult
pe o mulţime de probabilitate nul¼ a.
P1 (x)
Demonstraţie. În condiţia P ( P2 (x) = bjx 2 k ) = 0; k = 1; 2; 0 b < 1;
P1 (x)
faptul c¼
a P2 (x) = 1 înseamn¼
a c¼
a P2 (x) = 0:
Atunci, oricare ar … q1 ; procedura Bayes este unic¼ a. În plus, funcţia de
repartiţie a lui PP21 (x)
(x)
este continu¼
a.
Fie R o procedur¼ a admisibil¼
a. Atunci exist¼
a b astfel încât
P1 (x)
P (2j1; R) = P ( bjx 2 1) = P (2j1; R? );
P2 (x)
q2 P1 q2
unde R? este procedura Bayes corespunzând lui q1 a R1? :
= b; …indc¼ P2 > q1
q2
şi R2? : PP21 q1 .
Cum R este admisibil¼
a
P (1j2; R) P (1j2; R? ) (1)

Din propoziţia de mai sus rezult¼ a R? Bayes este admisibil¼

a c¼ a, deoarece
sunt veri…cate ipotezele propoziţiei din cazurile particulare b = 0; b = 1, deci
P (1j2; R) P (1j2; R? ) (2)
Din (1) şi din (2) ) P (1j2; R) = P (1j2; R? ); deci R este o procedur¼
a
Bayes. Din unicitatea procedurii Bayes, R este aceeaşi cu R? .
Cu acestea, rezultatul cheie al analizei discriminante clasice este:
Teorema 3.2.2 ([2]) Dac¼a P ( PPji (x)

(x) = bjx 2 k ) = 0; ((8)) i 6= j; i; j; k = 1; K
şi 0 b < 1 , atunci clasa procedurilor bayesiene este minimal¼a şi complet¼a.
Acest rezultat justi…c¼ a de ce, atunci când ipotezele din Propoziţia 3.2.1,
Propoziţia 3.2.2 şi cele de la începutul acestui paragraf sunt îndeplinite, în-
treaga cercetare se reduce la a construi o procedur¼ a admisibil¼a sau la a apro-
xima, într-un anumit sens, o astfel de procedur¼ a.
3.2.2.2 CLASIFICAREA BAYES ÎN CAZUL A DOUA ¼ POPU-

LAŢII NORMALE, MULTIDIMENSIONALE, CU PARAMETRII
CUNOSCUŢI Fie k = 2 populaţii caracterizate de densit¼
aţile de probabi-
litate
1 1 0 1
Pi (x) = 1 1 exp (x i) (x i) ; i = 1; 2
(2 ) 2
p
j j 2 2
adic¼
a X 2 i ) X N ( i ; ) cu i 2 Mp 1 (R) vectorul medie şi 2
Mp p (R) matricea de varianţ¼a-covarianţ¼
a.
Raportul densit¼
aţilor este
1 0 1 (x
P1 (x) exp 2 (x 1) 1)
= 1 0 1 (x
=
P2 (x) exp 2 (x 2) 2)
1 0 1 0 1
= exp (x 1) (x 1) (x 2) (x 2)
2
Conform teoremei de mai sus, regiunea de clasi…care în 1 , şi anume

R1 ; este mulţimea punctelor x 2Rp pentru care raportul densit¼ aţilor este c,
cu c o constant¼ a convenabil aleas¼ a. Cum funcţia logaritmic¼ a este monoton
cresc¼atoare, condiţia de de…nire a lui R1 poate … rescris¼
a ca:
1 0 1 0 1
(x 1) (x 1) (x 2) (x 2) ln c:
2
Dup¼ a desfacerea parantezelor şi efectuarea reducerilor, termenul stâng al
inegalit¼
aţii de mai sus devine:
1 1 0
x0 ( 1 2) ( 1 + 2)
1
( 1 2)
2
Observaţia 3.2.3
Primul termen al formulei de mai sus este binecunoscuta funcţie discriminant¼a
a lui Fisher.
Corolarul 3.2.2 (al teoremei „regiunilor”)

Dac¼a i ; i = 1; 2 sunt populaţii multidimensionale, normal distribuite de
medie i şi matricea de varianţ¼
a-covarianţ¼
a comun¼
a , atunci cele mai bune
regiuni de clasi…care sunt date de:
1 1 0
R 1 : x0 ( 1 2) ( 1 + 2)
1
( 1 2) ln c
2
1 1 0
R 2 : x0 ( 1 2) ( 1 + 2)
1
( 1 2) < ln c:
2
Dac¼
a probabilit¼
aţile à priorice q1 şi q2 sunt cunoscute, atunci c este dat
de
q2 C(1j2)
c= :
q1 C(2j1)
Observaţia 3.2.4
Cazul particular când q1 = q2 şi C(1j2) = C(2j1) implic¼
a c = 1 şi ln c = 0.
Dac¼a not¼am cu Li = 1
i prototipul populaţiei i; atunci suprafaţa
de separare a celor dou¼
a regiuni este hiperplanul
1
(L1 L2 )0 [x (L1 + L2 )] = 0
2
iar clasi…catorul obţinut este un clasi…cator cu distanţ¼a minim¼a.
Dac¼a probabilit¼aţile à priorice nu sunt cunoscute atunci C = ln c va …
ales astfel încât costurile misclas¼arii s¼
a …e egale. Mai riguros:
Teorema 3.2.3 (a egalit¼ aţii costurilor misclas¼ arii) Dac¼a i N ( i ; ) ;

i = 1; 2; regiunile Bayes sunt date de relaţiile din corolarul 3.2.2 cu C = ln c
ales astfel încât
" !# !
C + 12 C 21
C(1j2) 1 p = C(2j1) p
0 1(
unde C(ijj) sunt cele dou¼a costuri ale misclas¼arii, = ( 1 2) 1 2)
este distanţa Mahalanobis dintre cele dou¼a populaţii, iar (x) este funcţia de
Rx t2
repartiţie a variabilei aleatoare Gauss-Laplace, adic¼a (x) = 1 p12 e 2 dt.
1 0
Demonstraţie. Fie U = X0 1 ( 1 2) 2 ( 1 + 2)
1(
1 2) :
Regiunile Bayes sunt, conform Corolarului 3.2.2,
R1 : U C şi R2 : U < C;
iar costurile misclas¼

arii sunt
Z Z c
C(2j1) f (U jX 2 1 )dU = C(2j1) f1;U (t)dt;
R2 1
pentru U construit pe baza unei observaţii X 2 1 ; şi

Z Z 1
C(1j2) f (U jX 2 2 )dU = C(1j2) f2;U (t)dt;
R1 c
pentru U construit pe baza unei observaţii X 2 2 . Rc

Soluţia minimax de alegere a lui C impune ca C(2j1) 1 f1;U (t)dt =
R1
C(1j2) c f2;U (t)dt.
Pentru a …naliza demonstraţia mai r¼
amân de evaluat f (U jX 2 i ), dis-
tribuţiile condiţionate ale lui U .
Fie X 2 1 ) X N ( 1 ; ) ; atunci
1 0
U = X0 1
( 1 2) ( 1 + 2)
1
( 1 2)
2
este distribuit¼
a normal (c¼
aci combinaţii liniare de normale reprezint¼
a tot o
normal¼a), de medie
0 1 1 0 1 1 0 1
E[U ] = 1 ( 1 2) ( 1 + 2) ( 1 2) = ( 1 2) ( 1 2)
2 2
şi dispersie
D2 [U ] = D2 [X0 1
( 1 2 )] =
0 1 2 1
= ( 1 2) D [X] ( 1 2) =
0 1 1
= ( 1 2) ( 1 2) =
0 1
= ( 1 2) ( 1 2) :
1
Notând „distanţa”dintre cele dou¼
a populaţii cu rezult¼
aU N 2 ; .
1
Dac¼a X N ( 2 ; ) ; atunci U N 2 ; .
În concluzie
1 t 1 2 1 t+ 1 2
1 2 ( 2 ) 1 2( 2 )
f1;U (t) = p e şi f2;U (t) = p e
2 2
Cu acestea, egalitatea costurilor misclasi…c¼
arii se scrie
Z c (t 1
)
2 Z 1 (t+ 12 )
2
1 2 1
C(2j1) p e 2 dt = C(1j2) p e 2 dt:
1 2 c 2
1
t
În membrul stâng al egalit¼
aţii se face transformarea z = p2 , iar în
t+ 12
membrul drept al egalit¼
aţii se face transformarea z = p
Cu jacobianul transform¼
arii (acelaşi pentru ambele transform¼
ari) egal cu
p1 , se obţine în …nal
1
Z c
p2 Z 1
1 z2 1 z2
C(2j1) p e 2 dz = C(1j2) c+ 1
p e 2 dz:
1 2 p2 2
R1 y2
şi ţinând cont c¼
a p1 e 2 dy = 1 (x), se obţine egalitatea din enunţul
x 2
teoremei.
Observaţia 3.2.5
1. Reprezentarea gra…c¼
a a problemei este dat¼
a în …gura urm¼
atoare:
fig. 3.2.1. Zona de misclasare în cazul a douA¼ populaŢ ii

normale unidimensionale
Zona haşurat¼
a este zona de misclasare.
S¼
a not¼am c¼a cele dou¼a condiţii pentru ca procedura de clasi…care s¼ a …e
minimal¼a şi complet¼a, anume P (P1 (x) = 0jx 2 2 ) = 0 şi P (P2 (x) =
0jx 2 1 ) = 0 cât şi P ( PP21 (x)
(x)
= bjx 2 1 ) = 0 şi P ( PP12 (x)
(x)
= bjx 2 2 ) = 0
sunt îndeplinite.
2. Dac¼
a C(1j2) = C(2j1) atunci egalitatea probabilit¼ aţilor de misclasare
R1 y2
implic¼ arii este p p12 e 2 dy =
a C = 0 şi deci probabilitatea misclas¼
p 2
1 2 .
3. Determinarea lui C care satisface cu o precizie su…cient¼ a condiţia din

enunţul teoremei se a‡a¼ rezolvând numeric, pe baza tabelelor existente,
p C(2j1) p p
ecuaţia k (x)+ (x + ) = 1; unde k = C(1j2) iar C = x + 12 .
1
4. În condiţiile de de…nire a regiunilor (R1 ; R2 ) apare termenul = ( 1 2 ).
Este interesant de notat c¼ 0
a x este funcţie liniar¼ a care maximizeaz¼a
[D(x0 djX 2 1) D(x0 djX 2 2 )]

2
D2 (x0 d)
(nu conteaz¼a de unde „vine”x c¼

aci cele dou¼
a populaţii au aceeaşi matrice
de varianţ¼
a-covarianţ¼
a, ).
Acesta este demersul folosit de Fisher pentru obţinerea funcţiei de dis-

criminare liniar¼
a ce-i poart¼
a numele.
Num¼ ar¼atorul câtului de mai sus este
0 0 2 0
1d 2d = d0 [( 1 2) ( 1 2 ) ]d
iar numitorul este
d0 E[(X E(X)) (X E(X))0 ]d = d0 d:
Problema s-a redus la urm¼atoarea problem¼ a de optimizare p¼

atratic¼
a cu
restricţii
0 0
maxp d [( 1 d20)( d1 2 ) ]d
d2R
d0 d =1
care se rezolv¼
a folosind tehnica multiplicatorilor lui Lagrange.
Fie deci lagrangeanul
0
L = d0 [( 1 2) ( 1 2 ) ]d d0 d 1
cu multiplicatorul lui Lagrange.
@L 0
= 0 ) 2[( 1 2) ( 1 2 ) ]d =2 d
@d
deoarece este simetric¼a.
0
Cum ( 1 2 ) d =s este un scalar, ecuaţia de mai sus se rescrie
s 1
1 2 = d)d= ( 1 2)
s
deoarece este pozitiv de…nit¼a, deci inversabil¼
a.
s
d este proporţional cu . Pentru determinarea lui se utilizeaz¼
a -
normarea lui d, adic¼
a
s 2 s 1
d0 d =1 ) ( 1 2)
1
( 1 2) =1) = :
k 1 2k
Aşadar x0 este funcţia liniar¼ a care are cea mai mare dispersie între clase
(dispersia interclase) relativ la dispersia în clase (dispersia intraclase).
Atunci când populaţiile sunt cunoscute, criteriul folosit este optim din
punct de vedere al minimiz¼ arii erorii de clasare. Când probabilit¼aţile à priori
nu sunt cunoscute, procedura genereaz¼ a o clas¼
a de proceduri admisibile. Ce
se poate spune despre cazul estimaţiilor?
¼ POPU-
3.2.2.3 CLASIFICAREA BAYES ÎN CAZUL A DOUA
LAŢII NORMALE, MULTIDIMENSIONALE, CU PARAMETRII
NECUNOSCUŢI
(i) (i)
Estimatori de resubstituţie (plug-in) Fie x1 ; : : : ; xni 2 N ( i; ); i =
1; 2, dou¼
a selecţii bernoulliene.
Se cunosc rezultatele urm¼ atoare:
ni
1 X (i)
xi = xj ; i = 1; 2;
ni
j=1
ni
2 X
X (i) (i) 0
[(n1 1) + (n2 1)] S = [n1 + n2 2] S = xj xi xj xi
i=1 j=1
sunt estimatori nedeplasaţi, de verosimilitate maxim¼

a, ai lui i; i = 1; 2 şi .
Fie
1 (1)
Z12 = X x + x(2) ;
2
Y12 = x(1) x(2)
atunci
1 (1) 0
V12 = X0 S x(1) x(2) x + x(2) S 1
x(1) + x(2) =
2
0
1 (1)
= X x + x(2) S 1
x(1) x(2) = Z12 S 1
Y12 :
2
Din construcţie
(1) (1) 1 1
Y12 N ; +
n1 n2
iar
1 (1) (2) 1 1 (1)
Z12 N ; 1+ + ; dac¼
aX N ;
2 4n1 4n2
1 (2) (1) 1 1 (2)
Z12 N ; 1+ + ; dac¼
aX N ;
2 4n1 4n2
şi
1 1
cov(Z12 ; Y12 ) = :
2n1 2n2
Dac¼
a n1 = n2 atunci cov(Z; Y) = 0. În acest caz distribuţia lui V
când X 2 1 este aceeaşi cu a lui V când X 2 2 . Atunci, dac¼ a R1 =
fx 2 XjV (x) 0g, probabilit¼
aţile de misclasare sunt egale.
Asimptotic, cum
x(1) ! (1)
; x(2) ! (2)
; când n1 ; n2 ! 1 şi
S ! ; când n1 ; n2 ! 1:
rezult¼
a
1
S x(1) x(2) ! 1 (1) (2)
şi
0 0
x(1) + x(2) S 1
x(1) x(2) ! (1)
+ (2) 1 (1) (2)
când n1 ; n2 ! 1; adic¼ a distribuţia asimptotic¼

a a lui V este U12 .
Concluzie: Pentru selecţii su…cient de mari folosirea estimaţiilor în locul
valorilor exacte implic¼
a erori mici.
Urmându-l pe [2] vom substitui parametrii estimaţi în relaţiile de de…niţie
ale regiunilor de decizie obţinând
1 1 (1) 0
R1 : x0 S x(1) x(2) x + x(2) S 1
x(1) x(2) ln k
2
1 1 (1) 0
R2 : x0 S x(1) x(2) x + x(2) S 1
x(1) x(2) < ln k:
2
Anderson (în [2]) argumenteaz¼ a c¼a acest criteriu minimizeaz¼ a costurile
misclas¼arii dac¼
a parametrii populaţiilor sunt cunoscuţi şi continu¼
a: „it seems
intuitively reasonable that the above relations should give good results”.
Dac¼a se doreşte clasi…carea selecţiilor reunite ca un tot, atunci se uti-
lizeaz¼
a urm¼ atorii estimatori, respectiv criteriu:
n = n1 + n2 ;
n
1X
x = xj
n
j=1
cu
xj 2 1 =2 2;
Xn
(n1 + n2 + n 3) S = S+ (xj x) (xj x)0
j=1
respectiv
0
1 1
R1 : x (x1 + x2 ) S (x1 x2 ) c
2
Se poate ar¼
ata c¼
a n! 1 ) P (1j2); P (2j1) ! 0.
Particulariz¼
ari ale Teoremei 3.2.1.
a) Cazul K = 2 (dou¼
a clase). Particularizând regiunile de decizie de mai
sus, se obţine
R1 = fx 2 Xjq2 P2 (x) q1 P1 (x)g =

P1 (x) q2
= x 2 Xj :
P2 (x) q1
Punând Pi = pi ; q1 = q2 şi (i) şi estimaţi, rezult¼

a
R1 = fx 2 XjV12 (x) 0g şi R2 = X R1 :
Când
x(1) +x(2)
p = 1 atunci V12 (x) = 0 ) x = 2 ; "suprafaţa" de decizie este un punct;
p = 2 atunci V12 (x) = 0 ) „suprafaţa” de decizie este o dreapt¼

a;
p = 3 atunci V12 (x) = 0 ) suprafaţa de decizie este un plan;
p 4 atunci V12 (x) = 0 ) suprafaţa de decizie este un hiperplan.
b) Cazul K = 3 (trei clase). Particularizând, se obţin urm¼

atoarele regiuni
de decizie:
x 2 Xjq2 P2 (x) + q3 P3 (x) q1 P1 (x) + q3 P3 (x);
R1 = =
q2 P2 (x) + q3 P3 (x) q1 P1 (x) + q2 P2 (x)
P1 (x) q2 P1 (x) q3
= x 2 Xj ; ;
P2 (x) q1 P3 (x) q1
R2 = =
q1 P1 (x) + q3 P3 (x) q2 P2 (x) + q3 P3 (x)
P2 (x) q3 P2 (x) q1
= x 2 Xj ; ;
P3 (x) q2 P1 (x) q2
R3 = =
q1 P1 (x) + q2 P2 (x) q2 P2 (x) + q3 P3 (x)
P3 (x) q2 P3 (x) q1
= x 2 Xj ; ;
P2 (x) q3 P1 (x) q3
şi punând Pi = pi ; q1 = q2 = q3 şi (i) şi estimaţi, rezult¼

a
R1 = fx 2 XjV12 (x) > 0; V13 (x) > 0g ;

R2 = fx 2 XjV21 (x) > 0; V23 (x) > 0g =
= fx 2 XjV12 (x) < 0; V13 (x) > V12 (x)g ;
deoarece Vij (x) = Vji (x) şi V23 (x) = V13 (x) V12 (x) ; şi
R3 = fx 2 XjV32 (x) > 0; V31 (x) > 0g = fx 2 XjV13 (x) < 0; V12 (x) > V13 (x)g
Dac¼a p = 1 (o singur¼ a) şi presupunând x(1) < x(2) < x(3) ;
a caracteristic¼
atunci regiunile de decizie devin semidrepte şi segment de dreapt¼ a, adic¼
a:
x(1) + x(2)
R1 : x2R cu x < ;
2
x(1) + x(2) x(2) + x(3)
R2 : x2R cu x ;
2 2
x(2) + x(3)
R3 : x2R cu < x:
2
Când p = 2 regiunile de decizie devin semiplane (…gura 3.2.2.).
fig. 3.2.2. Exemplu de regiuni de decizie în cazul normalei

bidimensionale
a Fie ipoteza compozit¼

Estimatori de verosimilitate maxim¼ a
(1) (1)
x; x1 ; : : : ; xn1 2 N ( 1; )
H0 : (2) (2)
x1 ; : : : ; xn2 2 N ( 2 ; )
(1) (1)
x1 ; : : : ; xn1 2 N ( 1 ; )
HA : (2) (2)
x; x1 ; : : : ; xn2 2 N ( 2 ; )
În ipoteza H0 estimatorii de verosimilitate maxim¼

a sunt:
(0) n1 x1 + x
b1 = ;
n1 + 1
(0)
b2 = x2 ;
2
Xn1
b (0) = 1 4 (1) (0) (1) (0) 0
xj b1 xj b1 +
n1 + n2 + 1
j=1
3
n2
X
(0) (0) 0 (2) (0) (2) (0) 0 5
+ x b1 x b1 + xj b2 xj b2
j=1
Se noteaz¼a
n
X (1)
1
(0) (1) (0) 0 (0) (0) 0
A= xj b1 xj b1 + x b1 x b1 :
j=1
Deoarece
n1
X (1) (1) 0 (0) (0) 0
A = xj x1 xj x1 + n1 x1 b1 x1 b1
j=1
(0) (0) 0
+ x b1 x b1
n1
X (1) (1) 0 n1
= xj x1 xj x1 + (x x1 ) (x x1 )0
n1 + 1
j=1
Rezult¼
a
b (0) = 1 n1
C+ (x x1 ) (x x1 )0
n1 + n2 + 1 n1 + 1
P
2 P
ni
(1) (1) 0
cu C = xj xi xj xi .
i=1 j=1
Analog, sub HA estimatorii de verosimilitate maxim¼
a sunt:
(A)
b1 = x1 ;
(A) n2 x2 + x
b2 = ;
n2 + 1
b (A) 1 n2
= C+ (x x2 ) (x x2 )0 :
n1 + n2 + 1 n2 + 1
Raportul de verosimilitate devine, aşadar
1+ n2
n2 +1 (x x2 )0 C 1 (x x2 )
= iar
1+ n1
n1 +1 (x x1 )0 C 1 (x x1 )
R1 : x cu C (acele puncte x care maximizeaz¼
a pe ).
Estimare bayesian¼ a Natura discuţiei din acest paragraf este foarte difer-
it¼
a din punct de vedere conceptual de abordarea anterioar¼ a. Anterior a fost
prezentat¼a o metodologie pornind de la un punct de vedere frecventist: s-a
presupus o selecţie aleatoare dintr-o populaţie având densitatea de probabi-
litate f (x; ) cu x 2 X şi 2 . Parametrul necunoscut este presupus
…xat. O procedur¼ a de inferenţ¼
a frecventist¼
a depinde de funcţia de verosimili-
Q
n
tate L ( ) = f (xi ; ) ; unde este necunoscut dar …x.
i=1
În demersul bayesian experimentatorul presupune/crede, înainte de a
„vedea datele”(à priori), c¼ a parametrul necunoscut este o variabil¼ a aleatoare
având o distribuţie de probabilitate proprie pe (spaţiul parametrilor), notat¼ a
h ( ) şi numit¼a distribuţia à prioric¼a (prior distribution) a lui . f (x; ) devine,
în acest context, f (xj ).
Distribuţia à prioric¼ a h ( ) re‡ect¼a adesea intuiţia subiectiv¼a a statis-
ticianului privitoare la ce valori ale lui sunt mai puţin probabile când se
consider¼ a întreg spaţiul parametrilor, .
Distribuţia à prioric¼ a este, în cazul ideal, dat¼
a/…xat¼ a înainte de începerea
experimentului (a culegerii selecţiei bernoulliene).
Paradigma bayesian¼ a implic¼a combinarea informaţiilor à priorice cu cele
date de funcţia de verosimilitate şi obţinerea a ceea ce se numeşte distribuţie
à posteriori, via teorema Bayes.
Ca fapt istoric este de reţinut opoziţia vehement¼ a a lui R.A.Fisher la tot
ce era bayesian.
Se cunosc urm¼ atoarele fapte:
- distribuţia comun¼
a a lui x şi este dat¼
a de
f (xj ) h ( ) ((8)) x 2 X şi 2 :
- distribuţia marginal¼
a a lui x este, atunci,
Z
m (x) = f (xj ) h ( ) d
deci distribuţia lui condiţionat¼

a de evenimentul X = x este, conform
teoremei lui Bayes,
f (xj ) h ( )
h ( jx) = h ( jX = x) = ; m (x) > 0; x 2 X, 2 :
m (x)
De…niţia 3.2.10 h ( jx) se numeşte distribuţia à posteriori a lui .
De…niţia 3.2.11 Fie h ( ) 2 D; unde D este o familie de distribuţii particu-

lare. h ( ) se numeşte distribuţia à prioric¼a conjugat¼a , h ( jx) 2 D
Propoziţia 3.2.3
Dac¼ a N (m; S) şi x N ( ; ) ; atunci h ( jx) este densitatea de probabi-
litate a unei N ( ; C) cu = S (S + ) 1 x + (S + ) 1 m şi
C = (S + ) 1 S.
Demonstraţie. Dup¼ a observarea lui x; densitatea condiţionat¼
a h ( jx) poate
… scris¼
a
h ( ) f (xj )
h ( jx) = R = Ch ( ) f (xj ) ;
R h ( ) f (xj ) d
cu C factor ce depinde de x dar nu şi de .
Din ipotezele propoziţiei rezult¼
a
1 1
h ( jx) = c1 exp ( m)0 S 1 ( m) exp (x )0 1
( x) =
2 2
1 0 1 1 0
= c1 exp mS m S 2 0S 1m
2 2
1 0 1
exp 2 0S 1
x + x0 1
x :
2
În …nal se obţine
1 0 1 1 0 1 1
h ( jx) = c2 exp +S 2 x+S m ; (1)
2
unde factorii care nu depind de au fost absorbiţi în c1 şi c2 .
Deoarece paranteza dreapt¼ a din exponentul egalit¼ aţii (1) este o form¼
a
p¼
atratic¼a, rezult¼
a c¼
a densitatea de probabilitate h ( jx) este o densitate a unei
variabile aleatoare normale. Pentru a determina parametrii acestei legi se scrie
h ( jx) sub forma
1 1 1
h ( jx) = c3 exp ( )0 C 1
( ) = c4 exp 0
C 1
2 C
2 2
(2)
Comparând (1) cu (2) se obţine
1 1 1 1 1 1 1 1
C = +S şi C = x+S m) =C x + CS m:
Se observ¼
a c¼
a, dac¼
aC 1 = 1 +S 1; atunci
1 1
C= ( + S) S = S (S + ) :
Într-adev¼
ar
h i 1 h i 1
1 1 1 1
C = (S + ) S =S (S + ) =
= S 1 (S + ) 1
= 1
+S 1 =C 1
h i 1 h i 1
C 1
= S (S + ) 1 = 1
S (S + ) 1 =
1 1 1 1 1
= (S + )S = +S =C :
Înlocuind (2) în expresia lui rezult¼
a formula din enunţ.
Corolarul 3.2.3
Dac¼
a N ; 20 şi x N ; 2
1 atunci densitatea à posteriori a lui este
1 2 2 1
2 x 1 1 2 1 1
N ; cu = 2 + 2 2 + 2 şi = 0
2+
1
2 = 2 + 2 .
1 0 0 1 0 1 0 1
De…niţia 3.2.12 Fie X : ! R; variabil¼ a aleatoare cu densitatea de proba-

bilitate f (x; ) depinzând de . O funcţie T : ! R se numeşte statistic¼a
su…cient¼a pentru dac¼ a şi numai dac¼
a densitatea de probabilitate condiţion-
at¼
a a lui X este independent¼ a de ; adic¼
a
f (xjT (x) = t; ) = f (xjT (x) = t) ; (8) t 2 R:
Fie X = (x1 ; : : : ; xn ) o selecţie bernoullian¼

a asupra unei variabile aleatoare
ce depinde de un parametru .
Fie (T ) un estimator a lui şi …e funcţia de pierdere ce se obţine
estimând pe prin (T ):
L? ( ; ) L? ( ; (T )) = [ (T ) ]2 :
Riscul funcţional este, atunci,

Z
? ?
R ( ; ) = E [L ( ; )] = L? ( ; (t)) f (tj ) dt:
De…niţia 3.2.13 Se numeşte risc bayesian

Z
r? ( ; ) = R? ( ; ) h ( ) d :
De…niţia 3.2.14 Se numeşte estimator bayesian
r? ( ; ?
) = inf r? ( ; ) ; ?
2 B;
2B
unde B este clasa estimatorilor pentru care riscul bayesian este …nit.
Teorema 3.2.4 În cazul funcţiei de pierdere „suma p¼atratelor erorilor”, esti-

matorul bayesian ? ?
(t) este media distribuţiei à posteriori h ( jt) ; adic¼a
Z
?
(t) = h ( jt) d E [ jT (x) = t] ;
pentru toate valorile posibile observate t 2 .

?
Demonstraţie. Pentru a determina pe (t) trebuie minimizat
Z Z
? ?
r ( ; ) = L? ( ; (t)) f (tj ) h ( ) dt d =
Z Z
= L? ( ; (t)) f ( jt) d m (t) dt:
Conform teoremei Fubini şi a faptului c¼

a integranzii sunt nenegativi
Z Z
L? ( ; (t)) f ( jt) d = 2
2 (t) + 2 (t) f ( jt) d =
2
= (t) 2 (t) E [ jT (x) = t] + (t) ;
R 2 R
unde s-a notat (t) = f ( jt) d şi s-a folosit egalitatea f ( jt) d = 1.
2
Consider¼am expresia (t) 2 (t) E [ jT (x) = t] + (t) ca o funcţie de
pe care dorim s¼
a o minimiz¼
am. Minimul este atins deoarece expresia ca funcţie
de este o parabol¼ a cu coe…cientul 2 lui pozitiv şi
@ 2 ?
(t) 2 E [ jt] + =0) = E [ jT (x) = t] :
@
Corolarul 3.2.4
Fie x1 ; : : : ; xn variabile aleatoare independente şi identic repartizate N ; 21
Pn
cu necunoscut şi 1 > 0 dat. Consider¼ am statistica T = n1 xi ; care este
i=1
su…cient¼a pentru . Se presupune c¼ a distribuţia à priori a lui pe spaţiul =
2
R este N ; 0 cu şi 0 > 0 2 R daţi. Atunci distribuţia à posteriori a lui
condiţionat¼
a de observaţiile x1 ; : : : ; xn este, conform propoziţiei anterioare,
N ; 2 cu
n 20 2
1
= 2 T (x) + ;
n 20 + n 1 n 2
0 + 2
1
2 2
2 0 1
= 2 + 2:
n 0 1
Observaţia 3.2.6
S¼
a observ¼ am c¼a este o combinaţie convex¼
a între x (= T (x) ) şi ; deci se
a‡a¼ între aceste valori.
Dac¼a 0 , dispersia mediei necunoscutei , este mai mare ca 1 , atunci

x. În acest caz, cunoaşterea mediei à priorice este de importanţ¼
a redus¼
a.
Dac¼
a, dimpotriv¼ a, 0 = 0; atunci = indiferent de observaţiile efectuate.
2
Raportul a = 12 m¼ asoar¼a încrederea à priori c¼
a este o estimare corect¼
a
0
a mediei. Dac¼a a < 1 atunci lim = lim x.
n!1 n!1
În concluzie, dac¼
a dispersia iniţial¼
a este mic¼
a, media estimat¼a tinde s¼
a
r¼
amân¼a în apropierea mediei iniţiale chiar dac¼ a media empiric¼ a x difer¼
a
considerabil de aceasta. Dac¼a raportul a este mic, atunci media şi dispersia
à priori au doar o in‡uenţ¼
a redus¼a asupra estim¼ arii parametrilor care sunt
determinaţi aproape exclusiv din datele empirice.
În lumina teoremei de mai sus, estimatorul Bayes al mediei unei variabile

aleatoare N ; 2 este, dac¼ a T (x) = t;
1
n n 1 1
(t) = bB = 2t + 2t 2 + 2 :
1 0 1 0
Analog, pentru cazul multidimensional se obţine

1 1
bB = S S+ 1 t+
1
S+
1
m:
n n n
Fie x = (x1 ; : : : ; xn ) o selecţie bernoullian¼

a din populaţiile 1 şi 2 .
Dac¼a X 2 1 ; atunci densitatea de probabilitate este fi (xj ) ; 2 i şi
densitatea à prioric¼ a este hi ( ) ; i = 1; 2. Dându-se probabilit¼ aţile à priorice
ale populaţiilor f 1 ; 2 g, …e acestea q1 respectiv q2 ; teorema Bayes calculeaz¼ a
probabilit¼
aţile à posteriori
mi (x) qi
P( i jx) = ; i = 1; 2;
m1 (x) q1 + m2 (x) q2
R
unde mi (x) = i fi (xj ) hi ( ) d este densitatea de probabilitate marginal¼
a
a lui x condiţionat de faptul c¼
a provine din i .
Este evident c¼a o procedur¼a bayesian¼
a de discriminare este
P( jx)
- x2 1 dac¼
a P(
1
2 jx) = B12 (x) qq12 1;
- x2 2 în caz contrar,
m1 (x)
unde B12 (x) = m2 (x) este cunoscut ca factorul Bayes al populaţiei 1
versus 2 .
3.2.3 Exemplu
Descrierea datelor
Acest exemplu are ca scop construirea unor funcţii liniare care s¼a discrimineze
cât mai bine între trei tipuri de irişi pornind de la m¼asur¼atorile de lungime şi
l¼
aţime ale petalelor şi sepalelor. La baza exemplului st¼ a un set de date clasic
(tabelul A.5. din Anex¼ a), introdus de Fisher în 1936, în care se identi…c¼a:
p = 4 variabile independente:
– SEPALLEN=lungimea sepalelor,
– SEPALWID=l¼
aţimea sepalelor,
– PETALLEN=lungimea petalelor,
– PETALWID=l¼
aţimea petalelor,
variabla dependent¼
a (de grupare):
– IRISTYPE=tipul de iris, cu q = 3 modalit¼ aţi: SETOSA (Setosa),

VERISCOL (Veriscolor), VIRGINIC (Virginica), ce de…nesc clasele
(numeric egale ale) unei partiţii à priori a populaţiei de n = 150
observaţii.

În programul STATISTICA, opţiunea pentru analiza discriminant¼ a este
disponibil¼
a în meniul Statistics, Multivariate Exploratory Techniques, Dis-
criminant Analysis. În fereastra activat¼ a (…g. 3.2.3.) se aleg variabilele
conform clasi…c¼arii de mai sus, speci…cându-se toate codurile pentru variabila
de grupare (butoanele Codes for grouping variable, All ), se opteaz¼ a pentru
analiza folosind metoda stepwise de selecţie a variabilelor (pentru detalii vezi
subcapitolul 4.1.6.) şi se apas¼
a butonul OK.

Noua fereastr¼ a (…g. 3.2.4.) permite de…nirea parametrilor analizei dis-

criminante şi aplicarea unor metode descriptive de examinare a datelor. Pen-
tru început vom veri…ca îndeplinirea condiţiilor de realizare a analizei discri-
minante: normalitatea distribuţiei predictorilor în grupuri, homoscedastici-
tatea şi absenţa multicoliniarit¼aţii, procedeu pentru care STATISTICA pune
la dipoziţie o serie de gra…ce şi tabele în fereastra accesat¼
a prin ap¼
asarea bu-
tonului Review descriptive statistics din submeniul Descriptives.
fig. 3.2.4. fereastra de pornire (2)
Normalitatea distribuţiei predictorilor în grupuri se poate veri…ca

examinând diverse tipuri de gra…ce disponibile în meniul Within:
histograma categorizat¼ a - butonul Categorized histogram by group activeazã

o fereastr¼
a pentru selecţia variabilei independente de analizat. Gra…cul
rezultat indic¼
a repartiţia acesteia în grupurile formate de modalit¼ aţile
variabilei de grupare. Figura 3.2.5. reprezint¼ a histograma categorizat¼ a
a variabilei SEPALWID şi indic¼ a o repartiţie normal¼a a acesteia pentru
cele trei tipuri de irişi. Acelaşi tip de gra…c con…rm¼ a normalitatea în
cadrul grupurilor şi pentru celelalte trei variabile independente.
diagrama Box Plot categorizat¼ a - butonul Box plot of means by group

activeaz¼ a o fereastr¼
a de selecţie a variabilei a c¼
arei distribuţie urmeaz¼ a s¼
a
…e redat¼ a prin acest tip de diagram¼ a. Ca speci…caţii de realizare a dia-
gramelor se bifeaz¼ a opţiunea Mean/SD/1.96*SD şi se apas¼ a butonul OK
pentru generarea gra…cului în care: tendinţa central¼ a e ilustat¼a de me-
die şi redat¼ a gra…c printr-un marcaj central, dreptunghiul (box) indic¼ a
variabilitatea în jurul punctului central, ilustrat¼ a prin deviaţia standard
(SD) iar segmentele de la extremit¼ aţile dreptunghiurilor (whiskers) in-
dic¼
a intervalul de predicţie de 95%. Figura 3.2.6. reprezint¼ a diagrama
Box Plot categorizat¼ a a variabilei PETALLEN şi indic¼ a o repartiţie uni-
modal¼ a şi simetric¼
a (probabil normal¼ a) pentru cele trei tipuri de irişi.
Analog pentru celelalte trei variabile independente.
fig. 3.2.5. Histograma categorizatA¼ pentru variabila SEPALWID
fig. 3.2.6. Diagrama Box Plot categorizatA¼ pentru variabila

PETALLEN
gra…cele Normal Probability Plot categorizate - butonul Categorized nor-

mal probabiliy plot by group activeaz¼
a o fereastr¼a pentru selecţia vari-
abilei independente de analizat. Dac¼ a gra…cul f(Fobs ; Fteo )g se supra-
pune peste prima bisectoare, atunci variabila predictor analizat¼ a este
normal repartizat¼ a în grupurile determinate de modalit¼ aţile variabilei

dependente. S-au notat cu Fobs ; p-cuantilele estimate ale variabilei pre-
dictor studentizat¼ a şi observat¼
a într-o clas¼
a dat¼
a a variabilei dependente
şi cu Fteo ; p-cuantilele teoretice ale variabilei Gauss-Laplace (normala
de medie zero şi dispersia unu). Figura 3.2.6. reprezint¼ a gra…cul Nor-
mal Probability Plot categorizat pentru variabila SEPALLEN şi indic¼ a
o repartiţie normal¼a a acesteia pentru cele trei tipuri de irişi. Acelaşi tip
de gra…c con…rm¼ a normalitatea în cadrul grupurilor şi pentru celelalte
trei variabile independente.
fig. 3.2.7. Normal Probability Plot pentru variabila SEPALLEN
Homoscedasticitatea se refer¼ a la egalitatea dispersiei predictorilor în

grupurile formate de modalit¼ aţile variabilei dependente. Butonul Categorized
scatterplot by group activeaz¼a o fereastr¼ a pentru selecţia variabilelor indepen-
dente de analizat. În …gura 3.2.8. reprezentând diagrama Scatterplot catego-
rizat¼
a pentru variabilele SEPALLEN şi PETALLEN, cele trei gra…ce ilustreaz¼ a
aproximativ aceeaşi form¼a a norului de puncte (elipse cu diametrul mare aprox-
imativ egal cu 2) con…rmând egalitatea aproximativ¼ a a varianţei în grupurile
determinate de variabila dependent¼ a. Aceast¼a concluzie este valabil¼a şi pentru
celalte combinaţii de câte dou¼a variabile predictor.
fig. 3.2.8. Diagrama scatterplot categorizatA¼ pentru

variabilele SEPALLEN Ş i PETALLEN
Multicoliniaritatea se refer¼ a la redundanţa variabilelor predictor, mai

exact la situaţia în care dou¼ a variabile independente sunt foarte puternic core-
late sau în care una dintre acestea se poate exprima ca o combinaţie liniar¼ a
a celorlalte. În STATISTICA, evitarea fenomenului de multicoliniaritate se
realizeaz¼
a prin setarea unei valori prag de toleranţ¼ a (de obicei 0,01). În cazul
analizei Forward Stepwise, o variabil¼ a se introduce în model numai dac¼ a val-
oarea 1 R2 (unde R2 este coe…cientul de corelaţie multipl¼ a) nu se a‡a¼ sub
pragul de toleranţ¼ a stabilit.
Concluziile obţinute permit realizarea efectiv¼

a a analizei discriminante.
Se apas¼a butonul Cancel pentru a reveni la fereastra de pornire (…g. 3.2.4) şi
se acceseaz¼
a submeniul Advanced pentru a speci…ca detaliile analizei discrimi-
nante (…g 3.2.9).
fig. 3.2.9. SpecificaŢ ii pentru realizarea analizei discriminante
Ca metod¼a de selecţie a variabilelor se alege Forward stepwise, care presupune

introducerea în model, la …ecare pas, a variabilei celei mai semni…cative din
punct de vedere al discrimin¼ arii. Algoritmul Forward stepwise ruleaz¼ a pân¼
a
când una dintre condiţiile urm¼ atoare este îndeplinit¼
a:
toate variabilele au fost introduse în model,
a fost atins num¼ arul de paşi speci…cat în caseta Number of steps. Deoa-
rece în acest caz nu exist¼a speci…caţii à priori în acest sens, num¼
arul de
paşi este setat egal cu num¼ arul variabilelor.
niciuna dintre variabilele care nu sunt în model nu este considerat¼ a

semni…cativ¼a din punct de vedere al discrimin¼ arii, adic¼
a valoarea F
corespunz¼atoare este mai mic¼ a decât valoarea F to enter. În cazul
metodei Forward, valoarea F to remove nu intereseaz¼ a deoarece nicio
variabil¼
a nu va … eliminat¼
a din model. Pentru F to enter şi F to remove
se p¼
astreaz¼
a set¼
arile implicite.
pragul de toleranţ¼a pentru variabila care urmeaz¼ a s¼a …e introdus¼a în

model este sub limita impus¼ a de valoarea din caseta Tolerance. În cazul
acesta se m¼areşte num¼arul paşilor cu unu şi se analizeaz¼
a variabila ur-
m¼atoare din punct de vedere al puterii de discriminare.
În caseta Display results se opteaz¼ a pentru a…şarea rezultatelor la …ecare

pas (At each step) şi se apas¼
a butonul OK pentru începerea analizei.
Pasul 0.
În fereastra ap¼arut¼a (…g 3.2.10) sunt prezentate: pasul analizei, num¼ arul
de variabile din model şi indicatorul Wilk’s lambda al puterii de discrimnare
a modelului.
fig. 3.2.10. Fereastra de rezultate - pasul 0
La pasul zero nici una dintre variabile nu a fost intodus¼

a în model, aşadar
singura opţiune accesibil¼
a în fereastra de rezultate (…g 3.2.10) este Variables
not in the model. Aceasta genereaz¼ a tabelul 3.2.1. în care sunt disponibile
valorile corespunz¼
atoare celor patru variabile independente pentru:
Wilk’s lambda - statistic¼a ce ilustreaz¼

a puterea de discriminare a modelului
dup¼a ce variabila corespunz¼ atoare a fost introdus¼a în model. Poate lua
valori în intervalul [0,1], 0 indicând putere maxim¼ a de discriminare.
Partial Wilk’s lambda - statistic¼a ce ilustreaz¼

a puterea de discriminare a
…ec¼arei variabile în cadrul modelului. Poate lua valori în intervalul [0,1],
0 indicând putere maxim¼ a de discriminare. La acest pas, valorile Partial
Wilk’s lambda coincid cu cele corespunz¼ atoare Wilk’s lambda.
F to enter - p-cuantila estimat¼

a a variabilei F care, în urma comparaţiei
cu pragul de semni…caţie …xat, indic¼a variabilele ce pot … introduse în
model la pasul urm¼ ator.
Toleranţa - este de…nit¼ a ca 1 R2 al variabilei respective cu toate vari-

abilele din model şi aceast¼a valoare este un indicator al redundanţei vari-
abilei respective. Evident, la acest pas R2 = 1 pentru toate variabilele
deoarece nicio variabil¼ a nu a fost înc¼a selectat¼
a.
Pentru a trece la pasul urm¼

ator se apas¼
a butonul Next.
Pasul 2.
La pasul 2, modelul, care acum conţine dou¼ a variabile, are o putere
discriminant¼
a semni…cativ¼ a (Wilk’s lambda= 0; 037; F = 307:1; p < 0:0001)
dup¼a cum se poate vedea în fereastera din …g. 3.2.11.
fig. 3.2.11. Fereastra de rezultate - pasul 2

Variabilele care au fost introduse în model (butonul Variables in the
model ) sunt, în aceast¼a ordine, PETALLEN şi SEPALWID şi au un nivel de
semni…caţie ridicat (tabelul 3.2.1). Celelalte dou¼a variabile (butonul Variables
not in the model ) îndeplinesc condiţiile pentru a … introduse în model şi val-
oarea statisticii Wilk’s lambda pentru PETALWID este superioar¼ a (tabelul
3.2.2), deci aceasta va … variabila considerat¼ a la pasul urm¼ ator.
tabelul 3.2.1 Variabilele din model, la pasul 2
tabelul 3.2.2 Variabilele din afara modelului, la pasul 2
Pasul 4.
La pasul patru, toate variabilele au fost introduse în model iar acesta
are o putere de discriminare semni…cativ¼ a (Wilk’s lambda= 0; 023; F = 199:1;
p < 0:0000). În tabelul obţinut prin ap¼asarea butonului Variables in the model
(tabelul 3.2.3), valorile Partial Wilk’s lambda indic¼a faptul c¼ a PETALLEN şi
PETALWID au cele mai mari valori ale puterii de discriminare, deci petalele
sunt cele care deosebesc cel mai bine cele trei tipuri de irişi.
tabelul 3.2.3 Variabilele din model, la pasul 4

În continuare se va folosi analiza canonic¼ a (butonul Perform canonical

analysis din submeniul Advanced ) pentru calculul funcţiilor de discriminare
ortogonale, al c¼
aror num¼ar este dat de minimul dintre num¼ arul variabilelor
independente şi num¼arul modalit¼aţilor variabilei dependente minus 1. Prin
urmare, în acest caz vor … considerate dou¼ a funcţii de discriminare.
fig. 3.2.12. Analiza canonicA¼
Pentru a determina dac¼ a cele dou¼ a funcţii de discriminare sunt sem-

ni…cative din punct de vedere statistic, se analizeaz¼ a testele de semni…caţie
disponibile în tabelul 3.2.4., obţinut prin ap¼asarea butonului Summary: Chi
square test of succesive roots din submeniul Quick.
tabelul 3.2.4. Teste de semnificaŢ ie pentru funcŢ iile

discriminante
În general, primul rând al tabelului conţine valorile testelor de semni…-

caţie pentru efectul cumulat al funcţiilor de discriminare iar pe liniile urm¼
a-
toare sunt a…şate valorile testelor de semni…caţie dup¼ a eliminarea câte unei
funcţii de discriminare. În tabelul 3.2.4.
Valorile proprii (Eigenvalues) re‡ect¼ a importanţa funcţiilor identi…cate

în discriminarea claselor. Valoarea evident superioar¼ a corespunz¼ atoare
primei funcţii (32; 19) indic¼
a faptul c¼
a aceasta are cel mai important rol
în discriminare, cu toate c¼
a, dup¼
a cum vom vedea, ambele funcţii sunt
statistic semni…cative.
Coe…cienţii de corelaţie canonic¼

a (Canonical R) indic¼a intensitatea leg¼ a-
turii dintre funcţiile discriminante şi grupurile formate de modalit¼ aţile
variabilei dependente. Cu cât aceşti coe…cienţi au o valoare mai ridicat¼ a,
cu atât funcţiile considerate au un rol mai mare în discriminarea claselor,
Wilk’s lambda şi Chi-square sunt statistici folosite pentru a testa sem-
ni…caţia funcţiilor de discriminare.
Valorile p indic¼
a faptul c¼
a, pentru acest exemplu, ambele funcţii sunt
semni…cative din punct de vedere statistic.
Coe…cienţii variabilelor independente în cadrul celor dou¼ a funcţii de dis-

criminare (tabelul 3.2.5.) se genereaz¼ a ap¼
asând butonul Coe¢ cients for canon-
ical variables şi sunt disponibili în form¼a clasic¼
a (Raw coe¢ cients) sau stan-
dardizat¼a (Standardized coe¢ cients). Aceştia din urm¼ a sunt cei care se folosesc
pentru interpretare.
tabelul 3.2.5. CoeficienŢ ii funcŢ iilor de discriminare
Ca o prim¼ a observaţie, se remarc¼ a faptul c¼

a 99% (Cum. Prop.) din
puterea de discriminare este atribuit¼ a primei funcţii discriminante. Dup¼ a cum
era de aşteptat, aceasta este caracterizat¼ a în mod deosebit de coe…cienţii core-
spunz¼ atori variabilelor PETALLEN şi PETALWID, în timp ce pentru cea de-a
doua funcţie discriminant¼ a coe…cientul variabilei SEPALWID este reprezenta-
tiv. Aceast¼ a observaţie este susţinut¼
a şi de coe…cienţii de corelaţie dintre va-
riabile şi funcţiile de discriminare (tabelul 3.2.6.), care pot … accesaţi ap¼ asând
butonul Factor structure din submeniul Advanced.
tabelul 3.2.6. CoeficienŢ ii de corelaŢ ie

Valorile funcţiilor discriminante calculate pe baza valorilor celor patru

predictori (scorurile canonice) sunt disponibile în submeniul Canonical sub
form¼a tabelar¼a (butonul Canonical scores for each case) sau gra…c¼ a (butonul
Scatterplot of canonicl scores). Diagrama scatterplot rezultat¼ a (…g 3.2.13)
ofer¼
a o imagine de ansamblu şi con…rm¼ a concluziile de pân¼
a acum.
fig. 3.2.13. Scatterplot pentru scorurile canonice
Având în vedere paşii realizaţi pân¼ a acum, se poate concluziona c¼ a dintre

cele trei tipuri de irişi, cei aparţinând grupului SETOSA sunt cel mai uşor de
deosebit. Distincţia se face prin intermediul primei funcţii de discriminare, car-
acterizat¼ a de coe…cienţi negativi pentru dimensiunile petalelor şi de coe…cienţi
pozitivi pentru dimensiunile sepalelor. Pe gra…cul din …gura 3.2.13, tipul SE-
TOSA este situat în extremitatea dreapt¼ a, deci membrii s¼ai sunt caracterizaţi
de valori ridicate ale acestei funcţii. Aşadar, cu cât irisul are petale mai lungi
şi late şi sepale mai înguste şi scurte, cu atât este mai puţin probabil ca acesta
s¼a …e de tip SETOSA.
Odat¼ a ce modelul a fost construit şi funcţiile de discriminare au fost
determinate, se pune problema aproxim¼ arii gradului de precizie a predicţiei
grupului din care face parte un (nou) individ. În acest scop, pentru individul
respectiv se calculeaz¼ a valorile funcţiilor de clasi…care pentru …ecare dintre cele
trei clase, individul …ind asignat acelui grup pentru care scorul este maxim.
(Atenţie! Funcţiile de clasi…care sunt diferite de funcţiile discriminante şi sunt
calculate automat în cadrul analizei). Pentru a examina coe…cienţii funcţiilor
de clasi…care (tabelul 3.2.7.) se revine în fereastra de pornire (…g. 3.2.4.)
ap¼ asând butonul Cancel, se acceseaz¼ a submeniul Advanced şi se apas¼ a pe bu-
tonul Clasi…cation functions.
tabelul 3.2.7. Valorile funcŢ iilor de clasificare

Funcţiile de clasi…care sunt date de formula:

vi = ci + wi1 P ET ALLEN + wi2 SEP ALW ID +
+wi3 P ET ALW ID + wi4 SEP ALLEN;
unde ci sunt constantele corespunz¼ atoare grupurilor i şi wij ; i = 1; 3; j = 1; 4
sunt coe…cienţii din tabelul 3.2.7.
Atunci când se posed¼ a informaţii despre variabile înc¼ a dinainte de în-
ceputul analizei exist¼ a posibilitatea speci…c¼ arii unor probabilit¼ aţi à priori de
clasi…care în cele trei grupe. Nu este cazul în acest exemplu, aşadar probabilit¼ aţile
à priori se vor considera proporţionale cu dimensiunea grupurilor, deci egale
cu 1=3 = 0; 33.
Asign¼arile efective ale indivizilor din setul curent de date pot … examinate
în tabelul 3.2.8. (butonul Clasi…cation of cases), matricea de clasi…care (bu-
tonul Clasi…cation Matrix ) oferind o sintez¼ a a acestei situaţii (tabelul 3.2.9.).
tabelul 3.2.8. Clasificarea unor indivizi din setul curent de date
tabelul 3.2.9. Matricea de clasificare

3.3. SEGMENTARE 189
Se observ¼ a c¼
a toti irişii de tip SETOSA au fost corect clasi…caţi, fapt
la care ne aşteptam în urma observaţiilor de pân¼ a acum, şi c¼a irişii de tip
VERISCOL şi VIRGINIC au fost corect clasi…caţi în procent de 96% respec-
tiv 98%. Aceste rezultate indic¼ a o precizie foarte bun¼ a în clasi…care, dar
trebuie ţinut cont c¼
a aceasta s-a f¼ acut pe mulţimea indivizilor utilizaţi pentru
construirea modelului (mulţimea de antrenare), aşadar este foarte posibil ca
precizia s¼a scad¼
a atunci când sunt clasi…caţi indivizi noi (indivizi de test). Ma-
tricea de clasi…care pentru mulţimea de test poate … considerat¼ a un estimator
nedeplasat al erorii de misclasare.
3.3 Segmentare
Metodele de segmentare urm¼ aresc rezolvarea problemelor de discriminare
şi de regresie prin împ¼arţirea progresiv¼
a a eşantionului într-un arbore de decizie
binar¼a.
Pionieri în acest domeniu sunt consideraţi a … Sonquist şi Morgan precum
şi Morgan şi Messenger cu metoda AID (Automatic Interaction Detection).
Au urmat numeroase contribuţii iar lucr¼ arile lui Breiman cu metoda CART
(Classi…cation and Regression Tree) au îmbog¼ aţit domeniul şi au resuscitat
interesul pentru segmentare.
Propriet¼aţile metodei de segmentare pot … sintetizate astfel:
avantajele metodei:
– lizibilitatea regulilor de afectare, interpretarea rezultatelor …ind di-

rect¼a şi intuitiv¼
a;
– tehnica este neparametric¼ a şi impune puţine restricţii asupra va-
riabilelor. Se pot utiliza concomitent ca variabile explicative, va-
riabile continue, ordinale şi nominale, f¼ ar¼
a un codaj prealabil. În
plus, metoda ofer¼ a din o…ciu selecţia variabilelor, ţinând cont de
eventualele interacţii;
– tehnica este robust¼ a faţ¼
a de valorile eronate sau aberante şi ges-
tioneaz¼ a valorile lips¼
a atât la construcţia arborelui şi la estimarea
erorii sale de misclasare, cât şi în cazul unui nou subiect;
– metoda foloseşte acelaşi principiu, tehnici, algoritm, atât pentru
a analiza o variabil¼ a discret¼ a (analiza discriminant¼ a), cât şi una
continu¼ a (analiza de regresie);
dezavantajele metodei:
– regulile de afectare pot ap¼ area uneori ”aberante” şi prea sensibile
la perturbaţii uşoare ale datelor ;
– lipsa unei funcţii de afectare global¼
a (ce utilizeaz¼
a toate variabilele),
ce priveaz¼a utilizatorul de o reprezentare geometric¼ a.
3.3.1 Formularea problemei, principiu şi vocabular

Ne poziţion¼am în cadrul analizei discriminante: o variabil¼ a y "privile-
giat¼a", discret¼
a, cu k modalit¼aţi este "explicat¼
a" de variabilele (x1 ; : : : ; xp ).
Metoda de segmentare const¼ a în a calcula mai întâi variabila xj care
explic¼a cel mai bine variabila y. Aceast¼ a variabil¼
a de…neşte o prim¼a împ¼ arţire
a eşantionului în dou¼ a submulţimi, numite segmente. Se reitereaz¼ a procedeul
în interiorul …ec¼arui segment c¼autându-se a doua cea mai bun¼ a variabil¼ a şi aşa
mai departe.
Se construieşte astfel un arbore de decizie binar¼a, prin împ¼ arţirea succe-
siv¼
a a eşantionului în câte dou¼a submulţimi. Distingem astfel :
- segmentele intermediare sau nodurile, din care pornesc câte 2 segmente

descendente;
- segmentele terminale, care nu mai sunt împ¼

arţite;
- ramurile unui segment care conţine toate segmentele descendente din t,

f¼
ar¼
a t;
- arborele binar complet, notat Amax ;
- un sub-arbore A; obţinut din Amax prin "tunderea" uneia sau mai multor
ramuri.
fig. 3.3.1. Arbore de decizie binarA¼
3.3.1.1 CONSTRUCŢIA ARBORELUI DE DECIZIE BINARA ¼

Ideea de baz¼ a const¼a în efectuarea diviziunii unui nod astfel încât cele dou¼ a
segmente descendente s¼ a …e mai omogene decât nodul p¼arinte şi cât mai diferite
între ele faţ¼
a de variabil¼
a.
Aşadar, fazele de construire ale arborelui sunt :
a) stabilirea, pentru …ecare nod, a mulţimii diviziunilor admisibile;

3.3. SEGMENTARE 191
b) de…nirea unui criteriu de selecţionare a "celei mai bune" diviziuni a unui

nod;
c) de…nirea unei reguli care s¼

a permit¼
a declararea unui nod ca terminal sau
intermediar;
d) afectarea …ec¼
arui nod terminal unei clase;
e) estimarea riscului de misclasare.
Variabilele explicative pot … de natur¼

a oarecare. S¼
a le consider¼
am, pentru
moment, variabile continue.
1. La început exist¼
a un singur segment conţinând toţi indivizii;
2. Sunt examinate secvenţial toate variabilele explicative. Pentru o vari-

abil¼a dat¼
a, xj ; sunt trecute în revist¼
a toate diviziunile posibile xj < ,
cu o valoare oarecare din suportul lui xj . Fiecare diviziune împarte
eşantionul în segmente descendente: segmentul din stânga, ts ; conţine
indivizii ce îndeplinesc condiţia xj , iar segmentul din dreapta, td ;
conţine indivizii ce îndeplinesc condiţia xj > .
De…niţia 3.3.1 Se numeşte diviziune admisibil¼a o diviziune posibil¼

a cu seg-
mentele descendente, nevide, ale lui xj .
Dintre toate diviziunile admisibile dmj ; unde m reprezint¼a a m-diviziune
(sau a m valoare ordonat¼a a variabilei din eşantion), procedura selecţioneaz¼
a
pe "cea mai bun¼a", notat¼ ?
a dj , în sensul unui criteriu ce urmeaz¼
a a … precizat.
fig. 3.3.2. Diviziuni posibile pentru variabila x
Se obţine astfel, pentru …ecare din cele p variabile, diviziunea optim¼ a

"local¼ a cu d? ; care
a" şi se va reţine, în …nal, din cele p diviziuni, pe cea notat¼
va furniza cele dou¼ a segmente "cele mai caracteristice" vis-à-vis de y.
fig. 3.3.3. Cea mai bunA¼ diviziune pentru toate variabilele
1. Se aplic¼
a iterativ pasul 2 …ec¼
arui segment descendent obţinut.
Procedeul se opreşte când toate segmentele sunt declarate terminale:
- …e c¼
a nu mai necesit¼
a vreo diviziune;
- …e pentru c¼a "talia lor" (num¼arul de indivizi afectaţi nodului) este
inferioar¼
a unui efectiv …xat (în practic¼
a acesta se alege între 1 şi 5).
2. Afectarea unui individ nou se face prin "coborârea" lui pe ramurile ar-
borelui.
Dac¼a printre variabilele explicative se num¼

ar¼
a şi variabile discrete, atunci
diviziunile posibile pot …:
- una singur¼
a, dac¼a variabila explicativ¼
a xj este binar¼
a. În aceast¼
a situaţie
segmentul ts va conţine toate observaţiile pentru care xj = 1, iar seg-
mentul td toate observaţiile pentru care xj = 2 (am presupus c¼ a valorile
luate de variabila binar¼
a sunt 1 şi 2);
- k 1, dac¼ a variabila explicativ¼
a xj are k modalit¼aţi ordonate: 1; 2; : : : ; k,
cu k > 2. Într-adev¼ ar, prima diviziune va dirija toate observaţiile pen-
tru care xj = 1 spre segmentul ts şi toate observaţiile pentru care
xj 2 f2; 3; : : : ; kg spre segmentul td . A doua diviziune va dirija toate
observaţiile pentru care xj 2 f1; 2g spre segmentul ts şi toate observaţi-
ile pentru care xj 2 f3; : : : ; kg spre segmentul td . Diviziunea k 1 va
dirija toate observaţiile pentru care xj 2 f1; 2; 3; : : : ; k 1g spre segmen-
tul ts şi toate observaţiile pentru care xj = k spre segmentul td ;
- 2k 1 1, dac¼
a variabila explicativ¼
a xj are k modalit¼
aţi neordonate.
Pentru selectarea celei mai bune diviziuni a unui nod se pot utiliza mai
multe criterii. Breiman (în [7]) recomand¼
a utilizarea criteriilor bazate pe noţi-
unea de impuritate.
3.3. SEGMENTARE 193
De…niţia 3.3.2 Impuritatea unui segment (nod) a, notat¼ a i (a), este o funcţie
nenegativ¼a de P [1ja] ; : : : ; P [kja] (unde P [rja] este probabilitatea condiţion-
at¼
a de apartenenţ¼
a la un grup Gr ; r = 1; k , a mulţimii observaţiilor din nodul
a), care veri…c¼
a urm¼atoarele condiţii:
i) i (a) este maxim¼ a pentru P [rja] = k1 ; (8) r = 1; k (impuritatea unui

nod e maximal¼ a când, pentru acest nod, probabilit¼aţile de apartenenţ¼
a
la diferite grupe sunt egale între ele);
ii) i (a) este nul¼

a pentru P [rja] = 1 şi P [sja] = 0; (8) r 6= s şi r; s = 1; k
(impuritatea este nul¼a dac¼a nodul conţine observaţii aparţinând unui
singur grup);
iii) i (a) este o funcţie simetric¼

a de probabilit¼
aţi P [rja] ; r = 1; k.
Funcţiile de impuritate cele mai folosite sunt :

k
X
i (a) = P [rja] ln (P [rja]) şi
r=1
X
i (a) = P [rja] P [sja]
r6=s
Prima funcţie e derivat¼ a din noţiunea de informaţie sau de entropie

Shannon; a doua, numit¼ a indicele de diversitate Gini, a fost propus¼
a de Good-
man şi Kruskal în 1954.
Fie o diviziune d care împarte nodul a în ts şi td cu probabilit¼ aţile ps
P [ts ja] = PP(t(a)
s)
, respectiv pd = PP(t(a)
d)
.
Se de…neşte i (d; a) = i (a) ps i (ts ) pd i (td ), reducerea impurit¼aţii
nodului a datorat¼a diviziunii d.
Lema 3.3.1
Orice diviziune d a unui nod a duce la o reducere pozitiv¼
a sau nul¼
a a impu-
rit¼
aţii, adic¼
a:
i (d; a) 0;
egalitatea …ind obţinut¼
a dac¼
a şi numai dac¼
a P [rjts ] = P [rjtd ] = P [rja] ; (8)
r = 1; k:
Demonstraţie.
ps i (ts ) + pd i (td )
= ps f [P [1jts ] ; : : : ; P [kjts ]] + pd f [P [1jtd ] ; : : : ; P [kjtd ]] (1)
f [ps P [1jts ] + pd P [1jtd ] ; : : : ; ps P [kjts ] + pd P [kjtd ]]
c¼
aci i (a) este strict concav¼
a.
Pe de alt¼
a parte
ps P [rjts ] + pd P [rjtd ] = P [rja] ; (8) r = 1; k
deci
f [ps P [1jts ] + pd P [1jtd ] ; : : : ; ps P [kjts ] + pd P [kjtd ]]

= f [P [1ja] ; : : : ; P [kja]] = i (a) (2)
Aşadar, din (1) şi (2)

i (d; a) 0 (3)
Dac¼a în (2)P [rjtd ] = P [rjts ], atunci (1) devine egalitate, deci şi (3)
devine egalitate.
Cele dou¼a funcţii de impuritate de mai sus sunt strict concave, deci cri-
teriile de diviziune bazate pe cele dou¼ a funcţii conduc întotdeauna la reducerea
pozitiv¼a a impurit¼aţii.
Cea mai bun¼ a diviziune este aceea pentru care reducerea impurit¼ aţii este
maxim¼ a, adic¼
a:
d?j = argmax i dm j ;t ;
m2dj
unde dj este mulţimea diviziunilor admisibile ale variabilei xj .

Pe mulţimea p a variabilelor, diviziunea nodului t este efectuat¼
a cu aju-
torul variabilei care asigur¼
a
d? = max d?j :
1 j p
3.3.1.2 REGULI DE AFECTARE La …ecare etap¼ a de construire a lui

Amax este posibil ca toate nodurile terminale, a; ale arborelui curent A s¼ a …e
afectate uneia din cele k grupe.
Fiec¼ arei erori de clasare i se asociaz¼ a unPpreţ de misclasare, (s=r) ;
s; r = 1; : : : ; k. Costul misclas¼arii este atunci (s=r) p (rja) şi nodul va …
r
asignat acelei clase pentru care
X
s? = argmin (s=r) p (rja) :
1 s k r
Dac¼ a minimul este atins pentru cel puţin dou¼ a clase atunci nodul este
afectat arbitrar uneia dintre aceste clase.
Urm¼ atoarea proprietate este foarte util¼
a în practic¼
a:
Lema 3.3.2
Dac¼a (s=r) = 1, (8) s 6= r şi (s=s) = 0, (8) s; atunci nodul va … asignat
clasei cu cei mai mulţi reprezentanţi în ea.
3.3. SEGMENTARE 195
ar, …e s0 acea clas¼
a. Se observ¼
a c¼
a
nr
p (rja) = ;
na
cu nr num¼arul de indivizi din clasa s0 a‡aţi în nodul a şi na num¼

arul de indivizi
din nodul a.
Conform ipotezei,
k
X k
X
nr < nr ; j = 1; k; j 6= s0 ;
r=1 r=1
r6=s0 r6=j
adic¼
a un sistem de k 1 inegalit¼
aţi cu acelaşi membru stâng.
Reducând termenii asemenea se obţin k 1 inegalit¼ aţi de forma
nr < ns0 ; r = 1; k; r 6= s0
adic¼
a ns0 este maximal.
Costul misclas¼
arii unei observaţii aparţinând nodului a, notat c (a), este
X
c (a) = min (s=r) p (rja) :
s
r
Costul misclas¼
arii datorat¼
a nodului a, notat C (a), este
C (a) = c (a) p (a) ;
unde p (a) este probabilitatea nodului.

Riscul erorii de afectare datorat arborelui A sau rata erorii aparente de
clasare datorat¼a arborelui A , notat¼
a TEA (taux d’erreur apparent) este
X X X X
T EA (A) = C (a) = (s=r) p (rja) r =
a2A s a2A(s)
~ r
XX nsr nr XX nsr
= (s=r) = (s=r) ;
s r
nr n s r
n
cu
- A~ mulţimea nodurilor terminale ale lui A,
- A~ (s) mulţimea nodurilor terminale ale lui A asignate clasei s,
- r probabilitatea à priori ca un nod s¼

a provin¼
a din clasa r,
- nsr num¼
arul de indivizi din clasa r clasaţi în clasa s; s 6= r.
3.3.2 Subarbori optimali

O ramur¼ a Aa a arborelui Amax , având ca r¼ ad¼acin¼
a nodul intermediar a
este constituit¼a din toţi descendenţii lui a. Tunderea ramurii Aa din arborele
Amax înseamn¼ a îndep¼artarea din Amax a tuturor descendenţilor lui a excepţie
el însuşi. Se noteaz¼a cu Amax Aa arborele astfel obţinut. Dac¼ a arborele A
este obţinut din Amax prin tunderi succesive atunci A este un subarbore a lui
Amax .
Prin "cel mai bun" subarbore se înţelege acel arbore care conţine minimul
de segmente terminale cu T EA minim¼ a şi furnizând o estimaţie corect¼
a a erorii
teoretice de clasare.
Metoda propus¼ a de Breiman pentru obţinerea celui mai bun subarbore
se bazeaz¼ a pe utilizarea unui eşantion-test şi prezint¼a un dublu avantaj:
- determin¼
a "cel mai bun" subarbore f¼ ar¼a s¼
a utilizeze teste statistice pen-
tru de…nirea unei reguli de oprire a diviziunii ;
- determin¼
a o estimaţie precis¼
a a erorii teoretice de clasare.
3.3.2.1 PROCEDURA DE SELECŢIE A SUBARBORELUI OPTI-

MAL Se împarte eşantionul de baz¼ a în dou¼ a p¼arţi: un eşantion de înv¼aţare
(de exemplu 2/3 din eşantionul de baz¼ a) şi un eşantion de testare (restul de
1/3 din eşantionul de baz¼ a).
Pornind de la eşantionul de înv¼ aţare se construieşte arborele Amax .
Operaţia de "tundere" a arborelui Amax const¼ a în construirea unui şir
optimal de subarbori incluşi, fAH ; : : : ; Ah ; : : : ; A1 g ; cu AH = Amax , Ah subar-
borele cu h segmente terminale, A1 eşantionul total. Fiecare subarbore Ah din
acest şir este optimal în sensul c¼ a eroarea aparent¼a (EA) a subarborelui este
minimal¼ a printre toţi subarborii având acelaşi num¼ ar de segmente terminale,
adic¼
a
EA (Ah ) = min EA (A)
A2Sh
cu Sh mulţimea subarborilor lui Amax cu h segmente terminale.

Se selecteaz¼ a din şirul de arbori optimali subarborele A? care prezint¼
a
eroarea teoretic¼a (ET) minim¼ a, adic¼
a
ET (A? ) = min ET (Ah )

1 h H
Eroarea teoretic¼a se estimeaz¼

a dup¼
a formula
X
d (A) =
ET Ret ;
t2A
cu Ret = net se2t , unde ne este volumul eşantionului test, net este num¼ arul de
e
n
2
indivizi din eşantionul test aparţinând segmentului t, iar set este dispersia de
3.3. SEGMENTARE 197
selecţie a variabilei y în interiorul segmentului t, adic¼

a
card(t)
1 X e
se2t = yi yt ;
et
n
i=1
unde e
y t este media de selecţie în interiorul segmentului t.
3.3.2.2 DIVIZIUNI ECHI-REDUCTIVE ŞI ECHI-DIVIZANTE

Cea mai bun¼ a diviziune (d? ) a unui nod este cea care asigur¼ a cea mai mare
reducere a dispersiei reziduale sau a impurit¼ aţii prin trecerea de la acel nod la
segmentele descendente. Aceast¼ a de…niţie este foarte strict¼a, putând exista di-
viziuni aproximativ la fel de bune dar foarte importante la nivelul interpret¼ arii.
Se pot de…ni astfel alte dou¼a tipuri de diviziuni:
diviziunile echi-reductive care asigur¼a, dup¼a diviziunea d? ; cele mai mari

reduceri ale impurit¼aţii sau cele mai mici dispersii reziduale. Ele permit
alegerea "celei mai bune" variabile explicative;
diviziunile echi-divizante care furnizeaz¼a repartiz¼

arile cele mai apropiate
de cea mai bun¼ a diviziune, d? . Ele permit clasarea indivizilor cu valori
lips¼
a tocmai la variabila(lele) ce de…neşte(sc) diviziunea.
Diviziunile echi-reductive se obţin înlocuind variabila x? ce d¼ a diviziunea

a d? cu variabila xi ; xi 6= x? ; ce d¼
optim¼ a diviziunea d?i cu reducerea impurit¼aţii
cea mai bun¼a dup¼a d? ; este, în alţi termeni, a doua cea mai bun¼ a diviziune a
nodului t. Prin extensie se pot de…ni a 3-a, a 4-a..., diviziune echi-reductiv¼ a.
Diviziunile echi-divizante (numite uneori supleante) permit clasarea unui
individ nou ce are ca dat¼ a lips¼
a tocmai m¼ asur¼
atoarea ce de…neşte diviziunea.
În acest caz se caut¼ a variabila care înlocuieşte cel mai bine variabila care
divizeaz¼
a nodul în sensul asigur¼arii unei separ¼
ari a indivizilor cît mai apropiate
de separarea realizat¼ a de d? . Analog se pot de…ni a 2-a, a 3-a,..., diviziune
echi-divizant¼
a.
3.3.3 Exemplu
Se consider¼a datele din tabelul A.6. ce ilustreaz¼a 100 de puncte generate

uniform în p¼ 2
atratul [ 0:5; 1:5] şi etichetate cu 1 respectiv 2 astfel încât "s¼
a
împart¼a" p¼ atratul iniţial în patru p¼
atrate aproximativ egale. În acest tabel
CoordX şi CoordY reprezint¼ a coordonatele carteziene ale punctului iar CLS
reprezint¼a eticheta clasei din care face parte. Figura 3.3.4. red¼ a aşezarea
punctelor în plan şi a fost obţinut¼
a selectând din bara de meniu Graphs, Cate-
gorized Graphs, Scatterplots şi desemnând axele conform speci…caţiilor de mai
sus, cu opţiunea Overlaid.
fig. 3.3.4. Scatterplot
Folosind datele din tabelul A.6, se doreşte construirea unui plasator care
s¼
a asigneze oric¼ arui punct nou considerat, din p¼ atratul iniţial, eticheta clasei
din care face parte, minimizând eroarea de misclasare. Ne a‡a¼m in faţa unei
probleme de analiz¼ a discriminant¼ a a c¼
arei rezolvare e…cient¼ a, în sensul min-
imiz¼arii erorii de misclasare, presupune folosirea arborilor de decizie binar¼ a.
Aceasta deoarece funcţiile de discriminare nu sunt liniare (sunt liniare doar pe
porţiuni) iar distribuţiile de probabilitate nu satisfac ipotezele teoremei 3.2.2.
Construcţia arborilor de decizie binar¼
a în cadrul pachetului de programe
STATISTICA presupune parcurgerea etapelor prezentate în continuare.
Pentru început se precizeaz¼ a tipul de analiz¼
a utilizat¼
a: Statistics, Multi-
variate Exploratory Techniques, Calssi…cation Trees iar în fereastra generat¼ a
(…g. 3.3.5.) se indic¼ a variabilele pentru analiz¼
a: variabila dependent¼ a - CLS
şi predictorii de tip continuu - CoordX şi CoordY.
3.3. SEGMENTARE 199
fig 3.3.5. Fereastra de start
Construcţia arborilor binari de clasifcare presupune divizarea (split) …ec¼ arui

nod astfel încât cei doi …i rezultaţi s¼ a …e mai omogeni decât nodul p¼ arinte şi
cât mai diferiţi între ei relativ la variabila considerat¼ a (variabila de split). În
submeniul Methods se opteaz¼ a pentru efectuarea diviziunii utilizând tehnica
C&RT style exhaustive search for univariate splits, ce presupune considerarea
tuturor posibilit¼ aţilor de split pentru …ecare variabil¼ a predictor şi …ecare nod
şi alegerea variantei optime în sensul minimiz¼ arii unui criteriu precizat. În
acest caz, criteriul ales este indicele lui Ginni de m¼ asur¼a a impurit¼ aţii (vezi
subcapitolul 3.3.1.1). Deoarece num¼ arul de puncte din cele dou¼ a clase este egal
şi nu sunt disponibile informaţii suplimentare, se p¼ astreaz¼
a opţiunile implicite
referitoare la probabilit¼ aţile à priori şi costurile de misclasare (…g. 3.3.6.).
fig 3.3.6. Submeniul methods
Metoda de "tundere" a arborilor (vezi subcapitolul 3.3.2) este Prune on

misclassi…cation error din submeniul Stopping options şi tot aici se speci…c¼ a
minimul de puncte dintr-o anumit¼ a clas¼
a admis într-un nod terminal: n = 5. O
metod¼ a e…cient¼
a de estimare a performanţelor subarborilor obţinuţi şi selectare
a celui de dimesiune optim¼a, este v-fold cross-validarea, în cadrul c¼
areia, pentru
…ecare dimensiune a arborelui:
1. se împarte mulţimea celor 100 de puncte (mulţimea de antrenare) în v

sugbrupuri aleatoare, de dimensiuni egale,
2. pentru i = 1 v
(a) se reţine subgrupul i ca mulţime de test şi se construieşte subar-

borele (se face antrenarea) pe baza celorlalte v 1 subgrupuri,
(b) se m¼
asoar¼
a riscul empiric pe subgrupul de test i.
3. estimatorul …nal nedeplsat al riscului real se calculeaz¼

a ca medie arit-
metic¼
a a riscurilor empirice corespunz¼
atoare celor v subgupuri de test.
În submeniul Advanced se completeaz¼ a 10 ca valoare a lui v pentru v-fold

crossvalidation şi se apas¼
a butonul OK.
Noua fereastr¼ a (…g. 3.3.7.) prezint¼
a contextul de lucru şi ofer¼
a acces la
tipurile de gra…ce şi tabele speci…ce acestei analize.
Dup¼ a cum se observ¼ a în tabelul generat ap¼ asând butonul Tree sequence
din submeniul Tree structure, din cele 6 variante de arbori rezultate în urma
"tunderii" succesive a arborelui maximal, procedeul de cross-validare îl indic¼ a
pe cel cu 7 noduri terminale ca …ind optim: cel mai mic arbore de cost cât
mai apropiat de minim .
Pentru a vizualiza acest subarore, în submeniul Tree Plot se bifeaz¼ a opţi-
unea Node plot type: Hystograms, care presupune ilustrarea histogramelor
punctelor din …ecare nod în cadrul diagramei arborelui, şi se apas¼ a butonul
Classi…cation tree plot (…g. 3.3.8.). Se observ¼ a c¼
a iniţial cele dou¼
a clase conţin
acelaşi num¼ ar de puncte, dup¼ a cum indic¼a şi histograma din nodul 1 (nodul
r¼ad¼acin¼a ), şi se alege CoordX ca variabil¼a de split. La primul pas, în funcţie
de valoarea CoordX corespunz¼ atoare, un nou punct va … asignat nodului 2
(CoordX<=0.03086) sau 3 (CoordX>0.03086). Algoritmul se repet¼ a pân¼ a
când noul punct este afectat unui nod terminal - un nod pur (care conţine
puncte aparţinând unei singure clase) sau un nod cu minim 5 puncte dintr-o
anumit¼ a clas¼ a.
3.3. SEGMENTARE 201
fig. 3.3.8. Arbore binar de clasificare
Pentru detalii asupra structurii arborelui binar de clasi…care obţinut în

submeniul Tree Structure se apas¼ a Classi…cation tree structure. În tabelul
3.3.1 sunt speci…cate:
eticheta …ului drept şi …ului stâng, pentru …ecare nod neterminal,
num¼
arul de puncte din …ecare clas¼
a din nodul respectiv,
clasa c¼
areia ii va … asignat un punct alocat nodului respectiv,
condiţia de split, pentru …ecare nod neterminal,
variabila de split, pentru …ecare nod neterminal.
tabelul 3.3.1. Structura arborelui de clasificare

Importanţa predictorilor în construcţia modelului (submeniul Tree Struc-

ture, butonul Predictor Importance) se m¼ asoar¼
a pe o scar¼a de la 0 (importanţ¼
a
minim¼ a) la 100 (importanţ¼
a maxim¼ a) şi constituie o informaţie util¼
a mai ales
în cazul unui num¼ ar mare de variabile explicative. Pentru exemplul curent,
valorile din tabelul 3.3.2 sunt apropiate, coordonata abscisei având o impor-
tanţ¼
a maxim¼ a.
tabelul 3.3.2. ImportanŢ a predictorilor
Matricea de misclasare (tabelul 3.3.4.) este disponibil¼ a în submeniul

Predicted Classes ap¼ asând butonul Misclassi…cation matrix. Se observ¼ a c¼
a
arborele obţinut a efectuat o singur¼
a eroare de clasare a datelor de antrenare.
Într-adev¼ar, examinând gra…cul din …gura 3.3.9. care ilustreaz¼ a repartizarea
punctelor în cele 7 noduri terminale, se observ¼
a c¼
a în regiunea corespunz¼ atoare
nodului terminal 9, care contine puncte din clasa 2, se reg¼ aseşte şi un punct
din clasa 1.
tabelul 3.3.4. Matricea de misclasare

3.3. SEGMENTARE 203
fig. 3.3.9. Repartizarea punctelor în nodurile terminale
Global Cross Validation, meniul Cross-validation, se alege v=10, butonul

Perform global CV, în fereastra ap¼
arut¼
a se apas¼
a butonul Global CV misclas-
si…cation matrix. =>puterea de generalizare este mai sc¼azut¼a.
tabelul 3.3.5. Cross-validare globalA¼

Capitolul 4
MODELE LINIARE
Modelele liniare urm¼ aresc s¼

a explice sau s¼ a prezic¼
a o variabil¼
a continu¼
a,
numit¼ a variabil¼a dependent¼a/de explicat/endogen¼a cu ajutorul unor variabile
numite explicative/exogene/predictori. În general, termenul de model de re-
gresie este rezervat cazului în care variabilele explicative sunt continue. În
cazul în care acestea sunt variabile discrete (nominale) modelul se va numi de
analiz¼a dispersional¼a ( sau analiz¼a de varianţ¼a - ANOVA) iar dac¼ a mulţimea
variabilelor exogene este mixt¼ a vom vorbi de analiz¼a de covarianţ¼a.
Regresia reprezint¼ a, f¼
ar¼a îndoial¼a, metoda statistic¼ a cea mai utilizat¼a, în
po…da faptului c¼ a limitele ei nu sunt întotdeauna bine cunoscute. Literatura
privind modelele de regresie este foarte vast¼ a. O bibliogra…e comentat¼ a a câ-
torva sute de articole şi c¼
arţi se g¼
aseşte în [34]. Searle [54] şi Seber [55] trateaz¼a
exhaustiv problemele de analiz¼ a dispersional¼ a şi de covarianţ¼a. Lucrarea lui
Rao [50] - reeditare a unui manual clasic, studiaz¼ a inducţia statistic¼
a asupra
modelului liniar. Un alt manual clasic este lucrarea lui Draper şi Smith, [20].
Mosteller şi Tukey [48], Besley [6], Atkinson [4], prezint¼ a puncte de vedere
mai moderne, incluzând diverse metode de selecţie de variabile, în timp ce
Chatterjee şi Price [11] insist¼ a asupra implement¼ arii în practic¼
a a modelelor.
Saporta [53] realizeaz¼ a o prezentare mai concis¼ a a problematicii.
4.1 Modelul de regresie
4.1.1 Formularea problemei
Se dispune de n observaţii asupra p + 1 variabile: y; x1 ; x2 ; : : : ; xp : Se

urm¼areşte explicarea sau prezicerea variabilei dependente y cu ajutorul va-
riabilelor predictori x1 ; x2 ; : : : ; xp ; presupuse cunoscute. Relaţia dintre y şi
205
206 CAPITOLUL 4. MODELE LINIARE
x1 ; x2 ; : : : ; xp este presupus¼ a1 , adic¼

a liniar¼ a
yi = 0 + 1 xi1 + ::: + p xip + "i ; i = 1; n
unde 0 ; 1 ; : : : ; p sunt coe…cienţii necunoscuţi ai modelului. Termenul con-

stant 0 poate … considerat drept coe…cientul unei variabile explicative arti-
…ciale, x0 , ale c¼ arei valori xi0 sunt întotdeauna egale cu 1. Variabila "i se
numeşte reziduu/eroare şi reprezint¼
P a distanţa dintre valoarea observat¼ a, yi ; şi
cea calculat¼a de modelul liniar, x
j ij . În cazul în care nu se speci…c¼
a altfel,
j
"i sunt presupuse cantit¼
aţi aleatoare independente.
Pus sub o form¼
a matriceal¼ a modelul se exprim¼
a:
yn 1 = Xn (p+1) (p+1) 1 + "n 1
y = (y1 ; : : : ; yn )0 este
unde 0 1 vectorul observaţiilor asupra variabilei dependente,
1 x11 x1p
B1 x21 x2p C
B C
X = B. .. .. .. C este matricea observaţiilor asupra variabilelor ex-
@ .. . . . A
1 xn1 xnp
0
plicative, = 0 ; 1 ; : : : ; p este vectorul coe…cienţilor, " = ("1 ; : : : ; "n )0
este vectorul erorilor.
Pentru evaluarea coe…cienţilor necunoscuţi ai modelului, inclusiv a rezidu-
urilor "i se dispune de un sistem de n ecuaţii liniare având n+p+1 necunoscute.
Prin urmare, sistemul admite o in…nitate de soluţii. Fie b0 ; b1 : : : ; bp o soluţie
posibil¼a. Aceasta va trebui s¼ a minimizeze global mulţimea distanţelor de la
modelul liniar urmând un criteriu ce va … precizat, altfel spus:
se aleg (b0 ; b1 : : : ; bp ) care minimizeaz¼a mulţimea valorilor ei unde
ei = yi (b0 + b1 xi1 + : : : + bp xip ) :

P
Un criteriu posibil este norma Lk care implic¼
a minimizarea jei jk . Cazuri
particulare sunt:
norma L2 - caz în care procedeul de minimizare este denumit P Metoda

celor mai mici p¼atrate şi determin¼
a soluţia ce minimizeaz¼
a (ei )2 ;
norma L1 - caz în care procedeul de minimizare este denumit Metoda P
celor mai mici valori absolute şi determin¼
a jei j;
norma L1 - caz în care procedeul de minimizare este denumit Metoda
minmax şi determin¼
a max ei ;
i
1
Liniaritatea relaţiilor în raport cu coe…cienţii poate s¼
a apar¼
a dup¼
a o transformare pre-
a a datelor. De exemplu: y = 3 x1 1 x2 2 (1 + ") devine liniar dup¼
alabil¼ a transformarea
logaritmic¼
a log y = 1 log x1 + 2 log x2 + log 3 + log (1 + ")
4.1. MODELUL DE REGRESIE 207
Criteriul celor mai mici p¼

atrate conduce la calcule algebrice simple, se
preteaz¼a la interpret¼
ari geometrice clare şi permite interpret¼ari statistice in-
teresante, motiv pentru care se utilizeaz¼a cel mai des.
Folosirea normei L1 în cazul regresiei liniare apare pentru prima dat¼ a la
Laplace în 1793. Acest criteriu care nu privilegiaz¼ a ecarturile importante st¼ a
la baza metodelor de regresie mai robuste [35].
4.1.2 Estimarea funcţiei de regresie

De…niţia 4.1.1 Se numeşte funcţie de regresie liniar¼a multipl¼a funcţia:
ye f (x0 ; x1 ; : : : ; xp ) = b0 x0 + b1 x1 + : : : + bp xp :
Estimarea acestei funcţii, în aceast¼ a prezentare, presupune determinarea

coe…cienţilor b0 ; b1 : : : ; bp prin metoda celor mai mici p¼ atrate, pornind de la
observaţiile fyi ; xi0 = 1; xi1 ; : : : ; xip gni=1 .
În cazul regresiei simple linare ( p = 1):
funcţia de regresie se mai numeşte şi dreapt¼a de regresie,
b0 se numeşte intercepţie sau bias şi reprezint¼

a punctul de intersecţie al
dreptei de regresie cu axa Oy,
b1 se numeşte panta dreptei de regresie şi indic¼

a modi…carea proporţion-
al¼
a a variabilei dependente y la modi…carea cu o unitate a variabilei
predictor x1 .
În cele ce urmeaz¼ a vom presupune c¼ a variabilele sunt centrate, ceea ce

implic¼a b0 = 0. Una dintre propriet¼ aţile regresiei multiple este aceea c¼
a, ex-
cepţie f¼
acând b0 , toate estimaţiile coe…cienţilor r¼
amân neschimbate indiferent
dac¼
a variabilele sunt sau nu centrate.
Lema 4.1.1
Coe…cienţii funcţiei de regresie liniar¼
a multipl¼
a sunt:
1
b = X0 X X0 y:
Demonstraţie. Fie sistemul de ecuaţii de condiţie:
yn 1= Xn p bp 1 +en 1
e = Xb valorile prezise de modelul de regresie liniar¼

şi y a multipl¼
a. Într-o
manier¼ a general¼
a se caut¼
aye cât mai aproape de y. Deci estimarea funcţiei de
regresie se reduce la determinarea coe…cienţilor b care minimizeaz¼
a
X
e0 e = e2i = ky yek
Termenul e0 e este un produs scalar care depinde de b1 : : : ; bp , aşadar o condiţie

necesar¼
a pentru a‡area unui punct de extrem este anularea derivatelor parţiale
de ordinul întâi, adic¼
a
@
e0 e = 0:
@b
Cum
e0 e = (y Xb)0 (y Xb) = y0 y 2b0 X0 y + b0 X0 Xb
deoarece
y0 Xb = b0 X0 y = scalar
rezult¼
a c¼
a
@
e0 e = 2X0 y+2X0 Xb:
@b
Astfel, condiţia de extrem devine:
X0 Xb = X0 y (4.1.1)
care este un sistem de p ecuaţii cu p necunoscute, numit şi sistem de ecuaţii

normale. Dac¼ a n p (mai multe ecuaţii de condiţie decât necunoscute) şi
dac¼a X este de rang maxim p, atunci X0 X este inversabil¼ a. Aşadar soluţia
sistemului (4.1.1) este:
1 0
b = X0 X Xy (4.1.2)
R¼amâne de veri…cat c¼ e o alt¼

a b este un punct de minim. Fie b a soluţie şi e
e
vectorul ecarturilor corespunz¼
atoare:
e
e=y e = (y
Xb Xb) + Xb e =e+X b
Xb e
b
Atunci
0
e0 e
e e = e0 e + 2 b e X0 (y
b Xb) + b e
b X0 X b e
b
iar în membrul drept, conform relaţiei 4.1.1, termenul central este nul şi egal-
itatea se reduce la
0
e0 e
e e = e0 e+ X b e
b X b e :
b
Membrul drept al identit¼ aţii este o sum¼

a de p¼ atrate ce nu poate … decât pozi-
tiv¼
a sau nul¼a. În concluzie e0 e este cea mai mic¼ a sum¼a a p¼
atratelor ecarturilor,
deci b este minim.
Propriet¼aţile algebrice ale coe…cienţilor b permit şi o interpretare geo-
metric¼a a operaţiilor efectuate. Ne plas¼ am în spaţiul Rn ; unde n este num¼ arul
observaţiilor f¼
acute asupra a p + 1 variabile: y;x1 ; : : : ; xp . C¼ autarea lui y
sub forma unei combinaţii liniare de x1 ; : : : ; xp se reduce la a de…ni ye într-un
subspaţiu, VX , generat de variabilele explicative. Tehnica ajust¼ arii celor mai
mici p¼ a ye; pe
atrate se reduce la aproximarea lui y prin proiecţia sa ortogonal¼
subspaţiul VX . Înlocuind b prin valoarea dat¼
a de (4.1.2), se obţine
1
e = Xb = X X0 X
y X 0 y = PX y
unde
1
PX = X X 0 X X0 ; (4.1.3)
este operatorul proiecţiei ortogonale pe VX .
Cum rezult¼ a din …g. 4.4.1, modelul teoretic y = X + " de…neşte o
descompunere a lui y în doi termeni necunoscuţi: X în VX şi " în Rn .
Metoda celor mai mici p¼ atrate propune ca soluţie descompunerea y = Xb + e;
care minimizeaz¼ a „lungimea” lui e proiectând ortogonal y pe Xb în VX şi "
pe e în subspaţiul din Rn ;ortogonal pe VX ; notat VX? : Cei doi vectori, Xb şi
e; sunt ortogonali.
fig. 4.1.1. ProiecŢ ia lui y pe VX
S¼
a remarc¼am c¼a variabilele …ind centrate, lungimile în Rn pot … inter-
pretate în termeni de dispersie. Teorema lui Pitagora aplicat¼ a în triunghiul
dreptunghic de catete Xb şi e şi ipotenuz¼
a y se scrie
y0 y = e0 e + b0 X0 Xb:
Împ¼
arţind cu n …ecare termen se obţine relaţia
1X 2 1X 1X 2
yi = (yi ye)2 + yei
n n n
unde
1X 2
yi reprezint¼a dispersia total¼a,
n
1X
(yi ye)2 reprezint¼ a dispersia rezidual¼a,
n
1X 2
yei reprezint¼
a dispersia explicat¼a.
n
Pentru a avea o idee global¼ a asupra calit¼ aţii aproxim¼ arii se de…neşte
coe…cientul de corelaţie multipl¼a, R, ca …ind cosinusul unghiului între y şi Xb,
sau coe…cientul de corelaţie între valorile iniţiale şi cele ajustate:
e ) = cor (y; Xb)

R = cor(y; y
P¼
atratul s¼
au poate … exprimat sub diferite forme:
P 2
2 cov 2 (y; y
e) var (e
y) ye dispersia explicit¼
a
R = = = P i2 = :
var (y) var (ey) var (y) yi dispersia total¼
a
Termenul R2 se numeşte coe…cient de determinare . Dac¼ a R2 = 1, atunci

yei = yi pentru orice i; deci modelul liniar ajusteaz¼ a perfect datele.
În mod explicit, în funcţie de datele iniţiale, R2 se scrie ca
1
b0 X0 Xb y0 X (X0 X) X0 y
R2 = =
y0 y y0 y
Acest coe…cient descrie împ¼

arţirea dispersiei totale între dispersia explicat¼
a şi
cea rezidual¼
a:
a: R2 var (y) = var (e

dispersia explicat¼ y)
dispersia rezidual¼ 2
a: (1 R ) var (y) = var (e)
) dispersia total¼
a: var (y) = var (e
y) + var (e)
P 2
Astfel, prin minimizarea termenului ei se maximizeaz¼ a termenul R2 . Cu
alte cuvinte, metoda celor mai mici p¼atrate determin¼a acea combinaţie liniar¼a
a variabilelor explicative ce maximizeaz¼a corelaţia cu variabila explicat¼a y.
Observaţia 4.1.1
Valoarea lui R nu poate … totuşi un criteriu absolut de apreciere a calit¼ aţii
estim¼
arii. Într-adev¼ ar, trebuie remarcat c¼a introducerea în model a unei noi
varabile explicative nu poate decât s¼ a micşoreze suma p¼
atratelor ecarturilor şi
în consecinţ¼
a s¼
a creasc¼a valoarea lui R. Ad¼ augând o dimensiune spaţiului VX
distanţa de la y la acest subspaţiu scade.
4.1.3 Calitatea estim¼

arii
Pân¼ a acum ne-am limitat la a rezolva o problem¼ a pur numeric¼ a de inter-
polare, cu o m¼
asur¼
a global¼
a a calit¼
aţii dat¼
a de coe…cientul de corelaţie multipl¼
a,
R. Ne propunem, în cele ce urmeaz¼ a, s¼a test¼
am
calitatea acestei interpol¼

ari şi
semni…caţia statistic¼
a a coe…cienţilor de regresie,
ceea ce implic¼
a noi ipoteze asupra lui y şi ".
S¼a presupunem c¼ a reizduul "i este efectul cumulat al unui mare num¼ ar
de cauze neidenti…cate şi în consecinţ¼a îl putem considera ca o peturbaţie
aleatoare. Acest punct de vedere, extins la cele n relaţii ale modelului, in-
troduce un vector aleator de reziduuri, "; şi de…neşte y = Xb + " ca vector
aleator.
Tabelul 4.4.1. rezum¼ a caracteristicile diferitelor elemente ale modelului.
tabelul 4.1.1. Caracteristicile elementelor modelului de

regresie
y = X + " Observat Neobservabil
Aleator y "
Nealeator X
Se presupune c¼
a reziduurile "i au M ("i ) = 0, au aceeaşi dispersie var ("i ) =
2 şi sunt dou¼
a câte dou¼a necorelate, var ("i ; "j ) = 0; 8i = 1; n; j = 1; n. Deci
M (") = 0; var (") = M ""0 = 2

I
ceea ce implic¼
a relaţiile
2
M (y) = X ; var (y) = var (") = I (4.1.4)
Vectorul b = (X0 X) 1 X0 y al coe…cienţilor de regresie, …ind o funcţie de y,

este la rândul s¼
au un vector aleator. Cu acestea se poate formula urm¼ atoarea
lem¼a.
Lema 4.1.2
1. (a) b este un estimator nedeplasat al lui ;
(b) var (b) = 2 (X0 X) 1
Demonstraţie.
(a) Din formula 4.1.4

1 1
M (b) = X0 X X0 M (y) = X0 X X0 X = :
(b) Dispersia lui b se scrie ca
var (b) = M (b ) (b )0 :
Dar
1
b = X0 X X0 y =
1
= X0 X X0 (X + ") =
1
= X0 X X0 ":
Se obţine deci
1 1
M (b ) (b )0 = X0 X X0 M ""0 X X0 X =
1 1
= X0 X X0 2
IX X0 X =
2 0 1
= XX
Teorema 4.1.1 (Gauss-Markov) b = (X0 X) 1 X0 y este estimatorul de dis-

persie minim¼a al lui în clasa estimatorilor liniari nedeplasaţi.
Demonstraţie. Fie By un alt estimator liniar nedeplasat al lui şi …e
(X0 X) 1 X0 y By diferenţa dintre cei doi estimatori. Cum aceştia sunt nede-
plasaţi rezult¼
a c¼
a
1 0
X0 X X X = BX :
Aceast¼
a relaţie este adev¼
arat¼
a pentru orice ; deci
BX = Ip+1 :
a alegem B = (X0 X) 1 X0 + C. Cum BX = Ip+1 rezult¼

S¼ a CX = 0.
Matricea de varianţ¼
a-covarianţ¼
a a lui By este:
h i h i0
1 0 1 0
var (By) = Bvar (y) B0 = X0 X X + C 2 I X0 X X +C =
h i
2 1 0 1 1 1 0 0
= X0 X X X X0 X + CX X0 X + X0 X X C +CC0
Cum CX = 0 rezult¼
a, conform lemei 4.1.2:
h i
2 1
var (By) = X0 X + CC =
2
= var (b) + CC0
Aşadar, …ecare component¼ a bi a lui b are o dispersie mai mic¼ a decât

(By)i iar pe de alt¼a parte var (By) var (b) este semi-pozitiv de…nit¼ a (într-
adev¼ar matricea CC0 este simetric¼ a iar termenii de pe diagonala principal¼ a
sunt nenegativi).
S¼
a not¼am c¼a 2 este dispersia teoretic¼a a reziduurilor şi în general nu
este cunoscut¼ a. Termenul 2 se poate estima prin s2 , dispersia empiric¼ a a
ecarturilor, calculat¼
a dup¼
a ajustare, deoarece:
Lema 4.1.3
e k2
ky y ky Xbk2
s2 = =
n p n p
este un estimator nedeplasat al lui 2.
Demonstraţie. S¼ a consider¼am triunghiul dreptunghic ale c¼ arui vârfuri sunt

extremit¼
aţile vectorilor y; Xb; şi X (…g. 4.1.1.). S-a notat cu PX proiectorul
pe VX - subspaţiul generat de variabilele exogene x1; ; : : : ; xp , şi cu I PX
proiectorul pe VX? :. Deoarece e = y Xb este perpendicular pe VX se observ¼ a
c¼
a
y Xb = (I PX ) ":
Aşadar, " se descompune în Xb X în VX şi y Xb în VX? . Cu acestea,
având în vedere c¼a I PX ; …ind proiector, este simetric:
(I PX )0 = I PX
şi idempotent:
I PX = (I PX )2 ;
rezult¼
a
ky Xbk2 = "0 (I PX )0 (I PX ) " =

0
= " (I PX ) " =
X
= ij "i "j ;
i;j
unde s-au notat cu ij componentele lui I PX .

Rezult¼
a
X
M ky Xbk2 = ij M ("i "j ) =
i;j
X
2
= ij ij =
i;j
n
X
2 2
= ii = tr (I PX )
i=1
unde ij este simbolul lui Kroneker. Dar urma unui proiector este egal¼ a cu ran-
gul s¼
au (deoarece valorile sale proprii sunt 0 sau 1) adic¼a este egal¼
a cu dimen-
siunea spaţiului de sosire care este aici VX? . Având în vedere c¼
a dim (VX ) = p
a dim VX? = n p, deci
rezult¼
M ky Xbk2 = 2
(n p) :
Dac¼a not¼
am cu V matricea de covarianţ¼
a empiric¼ a a variabilelor explica-
tive presupuse centrate V = n1 X0 X se obţine relaţia
2
1
var (b) = V
n
S¼a remarc¼am dualitatea care exist¼ a între variabilele explicative şi coe-
…cienţii acestor variabile în modelul de regresie liniar¼a. Variabile explicative
necorelate (matricea V diagonal¼ a) implic¼a coe…cienţi de regresie necorelaţi.
Rezultatele precedente permit s¼ a imagin¼am diferite teste statistice în
ipoteze su…cient de generale. Într-adev¼ ar, dac¼
a speci…c¼ am legea de repartiţie
a reziduurilor, atunci putem obţine diferite teste clasice pe care le vom aminti
în cele ce urmeaz¼ a f¼
ar¼
a demonstraţie.
În continuare presupunem
: " vN 0n 1;
2
In n :
În acest caz, densitatea de probabilitate a vectorului aleator y este:
1 1
f (y; ; ) = p n exp 2
(y X )0 (y X )
2 2
deoarece y este un vector aleator normal n dimensional, de medie X şi ma-

trice de varianţ¼ a 2 I.
a-covarianţ¼
Lema 4.1.4
Estimatorii de verosimilitate maxim¼
a ai lui şi 2 sunt
b = b = X0 X 1 X0 y şi
1 1
b2 = ky Xbk2 = kek2 ; care este deplasat.
n n
Cum transform¼ arile liniare ale unui vector gaussian nu schimb¼
a legea sa
de repartiţie, b este un vector normal p dimensional, de medie şi matrice de
varianţ¼
a-covarianţ¼a 2 (X0 X) 1 .
Tot din ipoteza se mai poate deduce c¼ a2
k"k2
2
v 2
(n)
iar teorema lui Pitagora pentru triunghiul dreptunghic determinat de extrem-

it¼
aţile vectorilor y; Xb; şi X se transform¼
a în teorema lui Cochran rezultând
kX Xbk2 ky Xbk2
2
v 2
(p) şi 2
v 2
(n p) .
Cele dou¼
a variabile sunt independente, ca forme p¼
atratice de rang p respectiv
n p (rangul proiectorilor) de n variabile normale centrat-reduse.
ky Xbk2
Pornind de la distribuţia lui 2 se pot construi intervale de în-
credere pentru .
2
Fie x1 ; x2 ; : : : ; xn variabile indepedente, distribuite dup¼
a o lege normal¼ a standard.
Atunci variabila obţinut¼ atratelor lor, 2 = x21 + x22 + : : : + x2n urmeaz¼
a prin însumarea p¼ ao
distribuţie chi-p¼atrat cu n grade de libertate notat¼ a 2 (n).
Pentru a testa dac¼a o variabil¼

a explicativ¼
a xk are o in‡uenţ¼
a real¼
a asupra
variabilei endogene y se consider¼a urm¼atoarea pereche de iopteze:
H0 : k = 0 cu alternativa HA : k 6= 0:
Statistica testului este

bk
tk =
sk
unde q
sk este estimaţia abaterii standard a coe…cientului bk dat¼
a de formula
ky Xbk 1
sk = n p vkk , cu vkk al k–lea element de pe diagonala matricii (X0 X) .
În ipoteza \ H0 ; statistica tk este repartizat¼
a t(n p) (Student cu n p
grade de libertate, deoarece modelul estimeaz¼ a p coe…cienţi). Fie
pk = P (jt(n p)j tk ) :
Dac¼ a pk < 0; 05 se repinge ipoteza conform c¼ areia variabila xk nu are o in‡u-

enţ¼
a real¼ a asupra lui y cu un grad de încredere de 95%.
Testul de mai sus poate … extins la o combinaţie liniar¼ a oarecare de
coe…cienţi.
În cele de mai sus am v¼ azut cum se poate testa succesiv nulitatea …ec¼arui
coe…cient. Totuşi, r¼ aspunsurile la probleme de tipul " 1 = 0 f¼ ar¼
a nicio pre-
supunere asupra lui 2 " apoi " 2 = 0 f¼ ar¼
a nicio presupunere asupra lui 1 ”nu
determin¼ a r¼
aspunsul la o problem¼a de tipul " 1 = 0 şi simultan 2 = 0" deoa-
rece predictorii pot … foarte corelaţi între ei. De aici reiese utilitatea test¼
arii
nulit¼aţii simultane a mai multor coe…cienţi de regresie.
Dac¼ a presupunem, f¼ar¼
a a pierde din generalitate, c¼a primii q coe…cienţi
de regresie sunt zero atunci perechea de ipoteze a testului compus este
H0 : 1 = 2 = ::: = q = 0 (şi restul p q coe…cienţi sunt oarecare)
cu alternativa
HA : cel puţin unul dintre primii q coe…cienţi este nenul.
S¼a not¼am cu XH0 ultimele p q coloane ale lui X şi cu H0 ultimele

p q componente ale lui . Modelul de regresie se scrie matriceal în cele dou¼
a
ipoteze astfel:
H0 : y0 = XH0 H0 + "0 (modelul redus),

HA : y = X + " (modelul complet).
Se consider¼
a statistica
e 0 k2
ky y e k2 =q
ky y
F =
e k2 = (n
ky y p)
a Fisher cu q şi n p grade de libertate3 .

care în ipoteza \ H0 este repartizat¼
Se noteaz¼
a
S0 = ky y e0 k2 şi S1 = ky ye k2 :
Dac¼ a diferenţa între cele dou¼a cantit¼

aţi S0 şi S1 este mare, deci F este mare,
atunci efectul primelor q variabile este important şi ipoteza nul¼ a va … respins¼
a;
cele q variabile x1 ; ; xq in‡uenţeaz¼
a simultan y.
S¼
a observ¼ am c¼ a sunt necesare dou¼ a estim¼ari succesive pentru a calcula
S1 şi S0 .
Dac¼ a dorim s¼ a test¼
am adecvarea modelului liniar la datele observate,
atunci vom testa nulitatea coe…cientului de determinare adic¼ a:
H0 : R2 = 0 (toţi coe…cienţii de regresie liniari sunt zero)
cu alternativa
HA : R2 6= 0
Se consider¼
a statistica
R2 =p
FR =
(1 R2 ) = (n p)
care, în ipoteza \ H0 ; este repartizat¼ a Fisher cu p şi n p grade de libertate.

Ipoteza H0 (a non-regresiei) corespunde şi nulit¼ aţii coe…cientului de corelaţie
multipl¼ a teoretic, R, în cadrul regresiei între variabilele aleatoare. În ipoteza
alternativ¼ a, Ha : R2 6= 0; se poate ar¼ata c¼a R2 este un estimator deplasat al
lui R2 , motiv pentru care unii autori folosesc în loc de R2 o form¼ a ajustat¼aa
acestuia, adic¼ a
2
Rb2 = (n 1) R p
n p
a deplasarea în 1=n dar poate conduce la valori negative a lui R2
care elimin¼
când acesta este foarte mic.
Un calcul elementar arat¼a c¼
a
n b2 s2 :
b2 = 1 R y
n 1
Dac¼ a se doreşte calcularea unui interval de încredere pentru o valoare

y0 prezis¼ a de modelul de regresie liniar¼ a multipl¼ a y; X ; 2 I , care cores-
punde unei observaţii suplimetare pentru care variabilele explicative iau valo-
rile x10 ; x20 ; : : : ; xp0 atunci, considerând x00 =(1; x10 ,x20 ,...,xp0 ), y
e0 = x00 b este
1
o variabil¼ a de medie x00
a aleatoare normal¼ şi dispersie 2 x00 (X0 X) x0 .
3
Fie variabilele aleatoare X s 2 ( 1 ) şi Y s 2 ( 2) : Atunci variabila aleatoare F s
2
( 1)
2(
2)
urmeaz¼a o repartiţie Fisher cu 1 şi 2 grade de libertate.
În ipoteza , statistica
y0 e0
y
q
1
b 1 + x00 (X0 X) x0
este repartizat¼
a t (n p) ; ceea ce permite estimarea unui interval de încredere
pentru “valoarea adev¼arat¼a” y0 cu un prag de semni…caţie dat.
4.1.4 Studiul reziduurilor şi al observaţiilor aberante

Studiul reziduurilor este important deoarece:
poate evidenţia posibilele observaţii aberante sau pe cele care joac¼
a
un rol important în determinarea funcţiei de regresie;
adesea este singura modalitate de a veri…ca empiric ipotezele mod-
elului (liniaritate, homoscedasticitate4 etc.). Dac¼ a aceste ipoteze sunt corecte
atunci gra…cul reziduurilor în funcţie de variabilele explicative nu trebuie s¼ a
prezinte nicio tendinţ¼
a.
Lema 4.1.5
2 1
var (e) = I X X0 X X0
e ?e (din construcţie) şi

Demonstraţie. Deoarece y
y = (y Xb) + Xb = e+e
y
rezult¼
a
var (y) = var (e) + var (e
y) :
Din ipoteza rezult¼
a
2 2 1
I =var (e) + X X0 X X0
deoarece, conform lemei 4.1.2

1
y) = var (Xb) = Xvar (b) X0 =
var (e 2
X X0 X X0 :
Deci var (e) = 2 I X (X0 X) 1 X0

Lema 4.1.5 arat¼
a c¼
a reziduurile sunt, în general, corelate.
Notând cu h i
1 0
hi = X X 0 X X
ii
obţinem
2
V (ei ) = (1 hi )
4
La date bivariate, variabila y prezint¼a homoscedasticitate dac¼a împr¼ aştierea valorilor y
nu depinde de x. Gra…c, secţiunile verticale în diagrama de împr¼ aştiere prezint¼a distribuţii
similare ale norilor de puncte. Noţiunea contrar¼
a este cea de heteroscedasticitate.
1 P
n
cu n hi 1 şi hi = p deoarece urma unui proiector este egal¼
a cu rangul
i=1
s¼
au (valorile sale proprii …ind 0 sau 1) iar o estimaţie a dispersiei reziduului
este s2 (1 hi ) :
De…niţia 4.1.2 Se numeşte reziduu studentizat m¼

arimea
e (yi yei )
p i = p :
s 1 hi s 1 hi
Când n este mare, reziduurile studentizate trebuie s¼
a r¼
amân¼
a în intervalul
( 2; 2):
Un reziduu mare poate indica o valoare aberant¼ a. Pe de alt¼a parte, o
valoare poate … aberant¼
a f¼
ar¼
a ca reziduul s¼
au s¼
a …e important (…g. 4.1.2.).
fig. 4.1.2. Valoare aberantA¼ cu reziduu 0

Din acest motiv se recomand¼ a studiul in‡uenţei …ec¼
arei observaţii asupra rezul-
tatului.
S¼a începem prin a studia in‡uenţa unei observaţii asupra propriei predicţii.
De…niţia 4.1.3 Se numeşte reziduu prognozat ecartul yi ye( i) unde cu ye( i)

s-a notat prognoza lui yi dat¼ a de modelul liniar ajustat pe baza celor n 1
observaţii obţinute prin excluderea observaţiei i.
yei
Se poate ar¼ a reziduul prognozat este y1i
ata c¼ hi ([53]). Se recomand¼
a deci
prudenţ¼
a faţ¼
a de observaţiile cu hi mare.
M¼arimea
Xn 2
yi yei
Press =
1 hi
i=1
este o m¼asur¼a a puterii predictive a modelului.
Interesant¼a pentru demersul nostru este şi in‡uenţa unei observaţii asupra
coe…cienţilor regresiei.
De…niţia 4.1.4 Se numeşte distanţ¼a Cook m¼

arimea:
0
b b( i) (X0 X) b b( i) e y
y e( i)
Di = =
s2
pe s2
pe
e = Xb şi y
(deoarece y e( i) = Xb( i) ):
Distanţa Cook m¼ asoar¼

a ecartul dintre b şi b( i) şi o valoare supraunitar¼
a
a sa reprezint¼a un indicator al unei in‡uenţe anormale a observaţiei i asupra
coe…cienţilor de regresie.
4.1.5 Tehnici de stabilizare a coe…cienţilor de regresie

Sursa principal¼a de instabilitate în estimarea coe…cientului este re-
dundanţa predictorilor. Statistic, aceast¼ a situaţie se re‡ect¼a într-o corelaţie
puternic¼a între variabilele explicative.
Dac¼a predictorii sunt foarte corlelaţi între ei X0 X este prost condiţionat¼ a
(adic¼
a valoarea determinantului este apropiat¼ a de 0) şi inversa acestei matrici
va avea coe…cienţi foarte mari. În aceast¼ a situaţie, având în vedere c¼ a b =
(X0 X) 1 X0 y; coe…cienţii de regresie vor … estimaţi imprecis şi predicţia ye va
… obţinut¼
a cu erori mari chiar dac¼ 2
a R este aproape de 1.
Efectul coliniarit¼
aţii între predictori se m¼asoar¼a cu ajutorul:
factorilor de in‡aţie a dispersiei şi al
valorilor proprii ale matricii de corelaţie.
În cele ce urmeaz¼ a vom presupune c¼ a toate variabilele sunt centrat-

reduse, ceea ce nu in‡uenţeaz¼ a R2 ; îns¼
a X0 X devine egal cu nR, unde R
este matricea de corelaţie a predictorilor. Astfel
1 2
2R 1
var (b) = şi var (bi ) = R ii
:
n n
Dac¼a cele p variabile explicative sunt ortogonale, regresia multipl¼ a se reduce
2
la p regresii simple: var (bi ) = n .
Termenul R 1 ii se numeşte factor de in‡aţie a dispersiei pentru c¼ a
reprezint¼
a un factor de multiplicitate a dispersiei ca urmare a redundanţei
(multicoliniarit¼aţii) predictorilor. Media celor p factori de in‡aţie este utilizat¼
a
uneori ca indice global al multicoliniarit¼ aţii.
S¼
a consider¼ am descompunerea R = U U0 unde este matricea diago-
nal¼
a a valorilor proprii şi U este matricea vectorilor proprii ai lui R. În acest
caz
R 1 = U 1 U0
rezultând
p
X
2 (uij )2
var (bi ) = :
n j
j=1
var (bi ) depinde de inversele valorilor proprii ale lui R. Când predictorii sunt
puternic corelaţi, ultimele valori proprii sunt aproape nule, de unde rezult¼ a
instabilitatea lui bi .
Conform teoremei Gauss-Markov, metoda celor mai mici p¼ atrate furnizeaz¼a
estimatorii de dispersie minim¼ a ai lui i în clasa estimatorilor nedeplasaţi.
Cum p¼ atratul erorii este egal cu dispersia plus p¼

atratul deplas¼arii, este posibil
ca în anumite condiţii s¼ a obţinem estimaţii mai precise ale coe…cienţilor cu o
deplasare uşoar¼ a.
În cele ce urmeaz¼ a vom considera doar dou¼ a tehnici de obţinere de coe-
…cienţi stabili:
Regresia pe componente principale;

Regresia Ridge;
Metodele de selecţie a variabilelor (subcapitolul 4.1.6) pot … şi ele con-

siderate ca remedii posibile ale multicoliniarit¼ aţii.
Regresia pe componente principale revine la înlocuirea celor p variabile
explicative cu cele p componente principale (demers posibil deoarece acestea
genereaz¼ a acelaşi spaţiu VX ) şi efectuarea regresiei multiple pe acestea din
urm¼ a. Componentele principale …ind necorelate (lema 1.2.9), conform obser-
vaţiei de mai sus regresia multipl¼ a se reduce la p regresii simple iar
p
X cor (y; ci )
e=
y i ci cu i = p sy
i=1 j
unde am notat cu ci componentele principale. Este su…cient s¼ a exprim¼ am ci

în funcţie de variabilele iniţiale pentru a obţine o formul¼
a de regresie liniar¼
a
multipl¼a.
Când coliniaritatea predictorilor este exact¼ a, atunci p = 0 iar o soluţie
pP1
a ecuaţiilor normale este ye= i ci .
i=1
Dac¼a se reţin doar q componente principale, eliminându-le pe cele de
dispersie mic¼ a, atunci se obţine o soluţie aproximativ¼ a proiectând y pe un
subspaţiu al lui VX .
S¼a observ¼am c¼ a acele componente principale care au o dispersie mare
nu sunt întotdeauna cele mai explicative şi c¼ a este mai util s¼
a le ordon¼
am în
funcţie de coe…cienţii lor de corelaţie cu y.
Regresia Ridge consider¼ a urm¼ atorii estimatori pentru
1
b (k) = X0 X+kI X0 y
unde k este o constant¼a pozitiv¼
a ce trebuie determinat¼a. b (0) este estimatorul
celor mai mici p¼
atrate.
Se poate ar¼
ata [53] c¼
a exist¼
a într-adev¼ar un k astfel încât
2 p
X
2 2 1
M kb (k) bk M kb k =
n i
i=1
Valoarea optimal¼ a a lui k depinzând de , necunoscut. În practic¼ a se variaz¼

ak
de la 0 la 1 pe datele centrat-reduse şi se studiaz¼
a variaţiile lui bj (k) (gra…cul
Trace Ridge).
4.1.6 Tehnici de selecţie a variabilelor

Pentru a micşora num¼ arul de predictori, a creşte viteza de calcul şi a
obţine formule stabile cu o putere predictiv¼ a bun¼a, se „explic¼a”y doar prin q
predictori în loc de p q.
Criteriile de c¼autare a celor q predictori depind de scopul regresiei: re-
constituirea lui y, prognoza de valori noi sau estimarea precis¼ a a unui model.
Criteriul coe…cientului de determinare R2 , este bine adaptat primului
obiectiv şi este cel mai utilizat în programele de regresie pas cu pas. Aşa cum
menţionam mai înainte, el variaz¼ a monoton cu num¼ arul variabilelor şi deci nu
poate … folosit pentru a alege cardinalul mulţimii de predictori.
Dac¼ a obiectivul este acela de a minimiza eroarea de prognoz¼ a, se reco-
mand¼ a folosirea lui s2 sau a lui P ress (mai greu de calculat). s2 nu variaz¼ a
monoton cu num¼ arul de variabile deoarece
n
s2 = 1 R2 s2y
n p
În schimb s2 variaz¼
a monoton cu R b2 , coe…cientul de determinare ajustat. Prin
urmare, este mai interesant s¼a consider¼ am Rb2 drept criteriu de alegere (cri-
teriul coe…cientului de determinare ajustat), deoarece astfel se pot compara
formule de regresie cu num¼ar diferit de variabile şi se poate alege acea formul¼
a
care minimizeaz¼a s2 sau maximizeaz¼ aR b2 .
Implementarea unuia dintre criteriile de mai sus se poate face:
printr-o c¼
autare exhaustiv¼
a sau
prin metode de c¼
autare pas cu pas.
C¼autarea exhaustiv¼a este recomandat¼ a atunci când p nu este prea mare

a investigarea tuturor formulelor: sunt Cpq formule de q variabile,
şi este posibil¼
deci în total 2p 1 regresii.
Dac¼a q este …xat, va … aleas¼a formula care maximizea¼ a pe R2 iar dac¼aq
nu este …xat, va … aleas¼ a formula care minimizeaz¼ 2
a pe s .
Metodele de c¼autare pas cu pas procedeaz¼ a prin eliminarea sau ad¼
augarea
succesiv¼ a de variabile.
Metoda descendent¼a const¼ a în eliminarea variabilei celei mai puţin semi-

n…cative dintre cele p variabile - în general aceea care diminueaz¼ a cel mai
puţin pe R2 . Se recalculeaz¼a coe…cienţii de regresie pân¼a la eliminarea
a p 1 variabile sau în funcţie de un test statistic precizat.
Metoda ascendent¼a procedeaz¼ a în sens invers: se porneşte de la cea

mai bun¼a regresie într-o variabil¼
a şi se adaug¼
a acea variabil¼
a care maxi-
mizeaz¼ 2
a pe R :
Metoda stepwise reprezint¼a o perfecţionare a algoritmilor precedenţi. La

…ecare pas se efectueaz¼
a, în plus, teste de semni…caţie de tip Student
sau Fisher pentru a nu introduce o variabil¼ a nesemni…cativ¼ a şi pentru
a elimina eventual variabilele deja introduse care nu mai sunt atât de
informative în noul context. Algoritmul se termin¼ a când nu mai poate
… ad¼augat¼
a sau scoas¼
a vreo variabil¼
a.
Aceste metode nu dau obligatoriu cea mai bun¼ a regresie în q variabile şi
nici acelaşi rezultat, dar sunt uşor de implementat. Ele exclud posibilitatea de
a elimina o variabil¼ a semni…cativ¼ a. În acest context trebuie s¼
a atragem atenţia
asupra faptului c¼ a dac¼a se cunoaşte c¼a o variabil¼
a trebuie s¼
a …gureze într-un
model, din considerente …zice de exemplu, aceasta nu trebuie eliminat¼ a doar
pentru c¼a un test statistic a declarat-o nesemni…cativ¼ a.
4.1.7 Exemplu
Descrierea datelor
În urma unor m¼ asur¼
atori ecogra…ce realizate asupra a 414 nen¼
ascuţi s-au
obţinut valorile din tabelul A.7 (Anex¼a).
Variabilele din acest tabel reprezint¼a:
predictorii
– DBP = diametrul biparietal,

– PC = perimetrul cefalic,
– PA = perimetrul abdominal,
variabila dependent¼
a
– GN = greutatea la naştere.
Ne propunem construirea unui model de regresie capabil s¼ a determine,

pe baza datelor existente, greutatea la naştere pentru noi subiecţi pentru care
se cunosc valorile DBP, PC, PA. Altfel spus, utilizând valorile din tabelul
A.7., trebuie g¼asiţi coe…cienţii 0 ; 1 ; 2 ; 3 care permit predicţia optim¼ a
a variabilei dependente yi = 0 + 1 xi1 + 2 xi2 + 3 xi3 , unde yi reprezint¼ a
greutatea la naştere a subiectului i şi xi1 ; xi2 ; xi3 sunt valori ale predictorilor
mai sus menţionaţi pentru subiectul respectiv.

În programul STATISTICA, opţiunea pentru analiza de regresie este
disponibil¼
a în meniul Statistics, Advanced Linear/Nonlinear Models, General
Regression Models. În fereastra activat¼a (…g. 4.1.3) se opteaz¼
a pentru modelul
regresiei multiple, având în vedere existenţa mai multor variabile predictor, şi
se apas¼a OK.
O nou¼a fereastr¼
a permite selectarea variabilelor pe categorii: predictorii
(DBP, PC, PA) şi variabila dependent¼ a (GN). Dup¼ a o nou¼ a ap¼
asare a bu-
tonului OK fereastra ap¼ arut¼a pune la dispoziţie diverse rezultate gra…ce sau
tabelare, speci…ce analizei de regresie. Pentru a…şarea listei complete a rezul-
tatelor (…g 4.1.4.) se apas¼
a butonul More results.
fig 4.1.4. Fereastra de rezultate
Pentru început se veri…c¼ a îndeplinirea condiţiei de normalitate a dis-

tribuţiei reziduurilor (Submeniul Residuals 1, butonul Residuals, cu opţiunea
Raw ).
fig. 4.1.5. Reziduurile sunt normal distribuite
Examinarea histogramei din …g. 4.1.5. con…rm¼ a îndeplinirea acestei condiţii şi
permite trecerea la un alt pas premerg¼ ator analizei de regresie. Acesta const¼ a
în veri…carea existenţei leg¼
aturilor de tip liniar între variabila dependent¼ a şi
…ecare dintre predictori, leg¼ atur¼
a f¼
ar¼
a de care acest tip de analiz¼ a nu ar …
justi…cat. În acest scop se examineaz¼ a matricea corelaţiilor sau, pentru o
reprezentare mai sugestiv¼ a, diagramele de tip Scatterplot care se obţin plecând
de la matricea corelaţiilor (Correlations în submeniul Matrix, tabelul 4.1.1.)
prin:
click dreapta pe unul dintre coe…cienţii de corelaţie de pe linia variabilei

GN (de exemplu 0,73, reprezentând corelaţia dintre greutatea la naştere
şi diametrul biparietal),
selectarea Graphs of Input Data, Scatterplot by, Regression, 95% conf şi
alegerea variabilei DBP cu care GN se prepupune a avea o leg¼

atur¼
a
liniar¼
a.
Se va repeta algoritmul şi pentru ceilalţi doi predictori şi se vor obţine
gra…ce similare celui din …g. 4.1.6., în care forma norului de puncte indic¼ a,
într-adev¼
ar, existenţa unei relaţii liniare pozitive între cele dou¼
a variabile.
tabelul 4.1.1. matricea de corelaŢ ii
fig. 4.1.6. Scatterplot indicând o relaŢ ie liniarA¼ între

greutatea la naŞ tere Ş i diametrul biparietal
Concluziile obţinute permit realizarea efectiv¼a a analizei de regresie: cal-

culul coe…cienţilor dreptei de regresie şi determinarea calit¼aţii modelului.
Coe…cienţii liniei de regresie pot … vizualizaţi selectând Summary, Re-
gression coe…cients, procedeu în urma c¼ aruia se obţine tabelul 4.1.2. Aşadar,
ecuaţia liniei de regresie (în forma nestandardizat¼ a) este:
GN = 4765; 66 + 292; 283 DBP + 35; 995 PC + 124; 273 PA:
şi permite predicţia greut¼

aţii la naştere atunci când se cunosc valorile di-
ametrului biparietal, ale perimetrului cefalic şi ale perimetrului abdominal.
tabelul 4.1.2 coeficienŢ ii de regresie
Pentru a determina în ce m¼ asur¼a variabilele independente contribuie la

predicţia greut¼aţii la naştere se analizeaz¼a coe…cienţii în forma nestandardizat¼a
(Param.) sau standardizat¼ a (Beta). Se observ¼ a c¼ a toţi sunt pozitivi, deci
valori ridicate ale diametrului biparietal, perimetrului cefalic şi perimetru-
lui abdominal implic¼ a o greutate superioar¼ a la naştere. În plus, perimetrul
abdominal are o contribuţie deosebit¼ a, având un coe…cient corespunz¼ ator de
0; 609. Aceste observaţii sunt con…rmate de matricea coe…cienţilor de core-
laţie (tabelul 4.1.1.) iar o imagine de ansamblu asupra contribuţiei celor trei
variabile este oferit¼ a şi de gra…cul Pareto (butonul Pareto chart of e¤ ects, …g.
4.1.7.).
Tabelul 4.1.2. ofer¼
a, în plus, valorile pentru:
erorile standard ale parametrilor estimaţi (Std. Err ) care indic¼ a disper-
sia faţ¼
a de linia de regresie a valorilor estimate şi contribuie la calculul
statisticilor t,
statisticile t, calculate pentru testarea semni…caţiei estimatorilor,
pragurile de semni…caţie p, ale c¼

aror valori mai mici decât 0; 05 con…rm¼
a
faptul c¼
a toţi estimatorii (DBC, PC, PA) sunt semni…cativi,
intervalele de încredere calculate la aceste praguri,
erorile standard şi intervalele de încredere pentru coe…cienţii standard-

izaţi.
fig. 4.1.7. Graficul Pareto
O comparaţie, sub form¼a de tabel sau gra…c scatterplot (…g 4.1.9.), din-
tre valorile prezise de modelul de regresie şi cele reale se obţine din subme-
niul Residuals1 (…g 4.1.8.) ap¼
asând butonul Predicted and residuals respectiv
Obs.& Pred.
fig. 4.1.8. Submeniul residuals1

fig. 4.1.9. Valorile calculate Ş i valorile observate
Indicatorii calit¼
aţii ajust¼
arii (tabelul 4.1.3) se pot examina selectând
Summarry, Whole model R.
tabelul 4.1.3. Indicatori de ajustare
Aceşti indicatori sunt calculaţi pe baza erorii standard şi au urm¼

atoarele
semni…caţii:
coe…cientul de corelaţie multipl¼a (R) - indic¼ a nivelul corelaţiei dintre

valorile observate şi cele calculate. O valoare a sa ridicat¼ a (0.88) con…rm¼
a
o dependenţ¼a puternic¼ a între acestea, adic¼
a evoluţiile DBP, PA şi PC au
o puternic¼a in‡uenţ¼ a asupra evoluţiei greut¼aţii la naştere.
coe…cientul de determinare (R2 ) - reprezint¼ a p¼atratul coe…cientului de
corelaţie multipl¼
a şi indic¼
a în ce m¼asur¼a modelul de regresie red¼ a leg¼
a-
turile dintre variabila dependent¼ a şi variabilele predictor. Cu cât R2
este mai mare cu atât predicţia variabilei dependente este mai exact¼ a.
În acest caz, 78; 59% din variaţia greut¼ aţii la naştere este explicat¼a de
variaţia diametrului biparietal, a perimetrului cefalic şi a perimetrului
abdominal al f¼ atului, restul de 21; 41% datorându-se altor cauze.
valoarea ajustat¼a a coe…cientului de determinare (Adjusted R2 ) - este
valoarea corectat¼a a lui R2 în funcţie de num¼
arul de variabile predictor
şi de num¼ 2
arul de indivizi. Adjusted R se interpreteaz¼ a similar cu R2 :
¼
4.2. ANALIZA DISPERSIONALA 229
Modelul de regresie de mai sus a fost construit luând în considerare

toţi predictorii, declaraţi semni…cativi în urma utiliz¼
arii testului t. Metoda
ascendent¼ a de construcţie a modelului (…g. 4.1.10.) ofer¼
a aceleaşi rezultate şi
are urm¼ atoarea structur¼ a:
fig. 4.1.10. Metoda ascendentA¼
4.2 Analiza dispersional¼

a
Dac¼a variabilele explicative sunt discrete (nominale), regresia multipl¼ a
devine analiz¼a dispersional¼a (sau analiz¼a de varianţ¼a - ANOVA), tehnic¼ a
legat¼a de planurile de experienţ¼ a şi de tratamentul statistic al datelor ex-
perimentale.
La originea analizei dispersionale şi a planurilor de experienţ¼ a se a‡a¼ o
serie de articole ale lui R. A. Fisher [27] din anii dou¼ azeci ai secolului trecut.
S¼
a presupunem c¼ a dispunem de n observaţii asupra variabilei continue y
şi asupra a p variabile nominale x1 ; : : : ; xp cu respectiv m1 ; : : : ; mp modalit¼ aţi.
Matricea variabilelor explicative, X; se prezint¼ a sub forma unui tablou
disjunctiv complet [X1 ; : : : ; Xp ] : În acelaşi timp, pentru …ecare submatrice
Xk suma coloanelor este egal¼ a cu vectorul 1n . Exist¼ a deci p relaţii liniare
între coloanele lui X. Maricea X nu este de rang maxim şi deci X0 X nu este
inversabil¼a.
Sistemul de ecuaţii normale are o in…nitate de soluţii; toate soluţiile duc
e care este proiecţia lui y pe VX ; dar coe…cienţii bi nu sunt
la acelaşi vector y
unici.
Pentru a obţine o estimaţie unic¼ a b, trebuie impuse p restricţii liniare
privind codi…c¼ arile variabilelor calitative. Cea mai des utilizat¼ a restricţie cere
ca suma coe…ienţilor lui b relativ la …ecare variabil¼ a nominal¼ a s¼a …e nul¼ a. Se
poate veri…ca faptul c¼ a aceasta revine la suprimarea unei coloane din …ecare
submatrice şi la înlocuirea coloanelor r¼

amase cu diferenţa dintre ele şi coloana
suprimat¼
a.
b , este de rang maxim:
Matricea variabilelor explicative astfel recodate, X
p
X
b =
rang X (mk 1) :
k=1
Pentru simpli…carea expunerii vom considera în cele ce urmeaz¼ a c¼a dis-

punem de dou¼ a variabile nominale A şi B; numite în acest context factori,
având I; respectiv J modalit¼ aţi numite, în acest context, nivele.
Analiza dispersional¼ a cu doi factori cu interacţiune se reduce la a efectua
regresia lui y cu matricea de condiţie
. b .. b .. b
b =
X 1..X 1 .X2 .X12 cu
b1
rang X b 2 = K; rang X
= J; rang X b 12 = JK;
unde X b 1 şi X
b 2 sunt matricile indicator reduse ale celor doi factori A şi B
b
iar X12 este matricea interacţiunilor corespunzând celor JK combinaţii ale
nivelelor lui A şi B: Cu acestea, modelul se scrie:
y= b1
1+X b2
+X b 12
+X +"
Se poate utiliza, deci, un program de regresie multipl¼ a pentru a efectua o

analiz¼
a dispersional¼a; forma particular¼
a a modelului permite, îns¼ a, organizarea
celulelor astfel încât s¼a se evite estimarea lui Xb 0X
b iar calculul statisticilor
testelor privind valorile coe…cienţilor s¼
a …e mult mai simple. Acest demers
este prezentat în cele ce urmeaz¼ a.
Presupunem c¼ a pentru …ecare pereche de nivele (j; k) exist¼
a njk observaţii
asupra variabilei y.
Se spune c¼a modelul este
complet dac¼
a njk > 0 pentru toate variabilele;
cu repetiţie, dac¼
a njk > 1;
echilibrat dac¼
a njk = I;
Ne vom limita la studiul cazului echilibrat.

Pentru organizarea experimentului bifactorial se utilizeaz¼
a un tabel cu
dubl¼
a intrare de tipul tabelului 4.2.1.
Tabelul 4.2.1.
¼
B B1 ::: Bj ::: BJ
A
A1 Y111
..
.
Yi11
..
.
YI11
..
.
Ak Y1jk
..
.
Yijk
..
.
YIjk
..
.
AK Y1JK
..
.
YiJK
..
.
YIJK
Experimentele fYijk gIi=1 cu (j; k) …xat, dar alfel oarecare, formeaz¼ a o

celul¼a. Un sistem de celule se numeşte bloc. În tabelul 4.2.1. intersecţia unei
linii cu o coloan¼
a formeaz¼a o celul¼
a şi o linie sau o coloan¼
a formeaz¼
a un bloc.
Se consider¼
a urm¼
atoarea ipotez¼ a fundamental¼ a:
Yijk = mjk + "ijk cu 1 i I; 1 j J; 1 k K
:
a aleatoare i.i.r N (0; 2 ) cu 2 =const.
"ijk variabil¼
Trebuie menţionat faptul c¼
a mulţi specialişti au remarcat c¼
a, în practic¼
a,
restricţiile sunt rareori perfect îndeplinite. Consecinţele ce decurg atunci
când ipotezele nu sunt îndeplinite sunt (vezi [56]):
i. nerespectarea normalit¼ aţii are o in‡uenţ¼
a foarte mic¼
a asupra inferenţei
despre medie, dar o in‡uenţ¼ a relativ important¼a asupra concluziilor re-
feritoare la dispersie;
ii. neomogenitatea dispersiilor celulelor/blocurilor are, de asemenea, o in-
‡uenţ¼
a nesemni…cativ¼a asupra concluziilor despre medii, dac¼
a experienţele
sunt echilibrate; nu acelaşi lucru se poate a…rma în cazul experienţelor
neechilibrate;
iii. violarea propriet¼aţii de independenţ¼
a, adic¼
a existenţa unor corelaţii nenule
între variabilele erori, are o in‡uenţ¼
a important¼ a relativ la concuziile de-
spre medii.
Din aceast¼a prezentare rezult¼ a o caracteristic¼

a esenţial¼
a a metodei ANOVA:
aceasta este o metod¼ a statistic¼a robust¼ a, adic¼
a îşi p¼astreaz¼
a valoarea infor-
maţional¼
a şi decizional¼
a chiar şi în cazul nerespect¼ arii unor ipoteze.
Se presupune c¼ a efectul …x, mjk ; este de forma:
mjk = + k + j + jk
unde este efectul mediei, k este efectul principal al nivelului k al factorului A

(numit şi efectul liniei k), j este efectul principal al nivelului j al factorului B
(numit şi efectul coloanei j) iar jk este efectul ineracţiunilor celor doi factori.
În cazul în care parametrii k ; j ; jk sunt aleatori modelul se numeşte
cu factori aleatori, în caz contrar se numeşte model cu factori constanţi.
Metoda ANOVA este utilizat¼ a, în principal, cu scopul de a testa omo-
genitatea mediilor mjk ale populaţiilor implicate, cu alternativa neomogen-
it¼
aţii acestora, în ipoteza fundamental¼ a : Ipoteza de omogenitate a mediilor,
echivalent¼ a cu ipoteza efectului nul al factorilor asupra caracteristicii y inves-
tigate se testeaz¼ a cu ajutorul unor dispersii: de aici şi denumirea de analiz¼a
dispersional¼a. În cazul respingerii analizei de omogenitate, deci a accept¼ arii
alternativei, interesant şi important este a determina care dintre nivelurile fac-
torilor implicaţi au condus la respingerea omogenit¼ aţii. Procedeele prin care
se realizeaz¼ a acest lucru se numesc metode de comparaţie multipl¼a şi reprezint¼ a
un capitol special al metodologiei ANOVA.
Pentru a evita multicoliniaritatea, se presupun satisf¼ acute condiţiile su-
plimentare: X X X X
k = j = jk = jk = 0:
k j k j
În acest context se doreşte veri…carea ipotezelor statistice:
HA : k =0 1 k K;
HB : j =0 1 j J;
HAB : jk =0 1 k K; 1 j J:
Se noteaz¼
a:
XXX 1 XXX
Y = Yijk şi Y = Yijk ;
IJK
i j k i j k
X 1X
Y jk = Yijk şi Y jk = Yijk ;
I
i i
XX 1 XX
Y j = Yijk şi Y j = Yijk ;
IK
i k i k
XX 1 XX
Y k = Yijk şi Y k = Yijk :
IJ
i j i j
¼
Se observ¼
a c¼
a:
Yijk Y = Y k Y + Y j Y +
Y jk Y k Y j Y +
Yijk Y jk
şi c¼
a termenii acestei diferenţe corespund respectiv efectelor principale, in-
teracţiunilor şi unei ‡uctuaţii aleatoare. De asemenea, se observ¼
a c¼a, pentru
modelul echilibrat, este satisf¼ acut¼a relaţia
XXX 2
S2 = Yijk Y 2
= SA 2
+ SB 2
+ SAB 2
+ SR ;
i j k
unde
X 2
2
SA = IJ Y k Y ;
k
X 2
2
SB = IK Y j Y ;
j
XX 2
2
SAB = I Y jk Y j Y k +Y ;
j k
XXX 2
2
SR = Yijk Y jk :
i j k
În ipoteza ; estimaţiile parametrilor modelului, în sensul celor mai mici

p¼
atrate, sunt:
b jk = Y
m jk cu j = 1; J; k = 1; K;
b = Y ;
bk = Y k Y cu k = 1; K;
b = Y j Y cu j = 1; J;
j
bjk = Y jk Y j Y k +Y cu j = 1; J; k = 1; K:
Statistica F pentru veri…carea ipotezelor HA ; HB ; HAB are la num¼ ar¼

ator
respectiv media sumelor p¼ 2 2 2
atratelor SA ; SB ; SAB iar la numitor întotdeauna
media sumei p¼ atratelor rezidualelor SR 2 . Gradele de libertate sunt respectiv
( A ; R ) ; ( B ; R ) ; ( AB ; R ) unde
A = K 1;
B = J 1;
AB = (J 1) (K 1) ;
R = JK (I 1) :
Sinteza formulelor de calcul este dat¼

a în tabelul 4.2.2.
În cazul interacţiunilor nule momentul …x devine mjk = + k + j iar

S 2 = SA2 +S 2 +S 2 unde S 2 = S 2 +S 2 cu
B R1 R1 AB R R1 = AB + R = IJK J K+1
grade de libertate (faptul c¼ a ipoteza HAB este veri…cat¼ a aceasta nu înseamn¼ a
practic c¼ 2
a SAB = 0). Sinteza formulelor este dat¼ a în tabelul 4.2.3.
În toate cazurile se respinge ipoteza nul¼ a a absenţei efectului unui factor
dac¼a probabilitatea dep¼ aşirii valorii F corespunz¼ atoare de c¼ atre o variabil¼
a
Fisher cu gradele de libertate speci…cate este mai mic¼ a decât un prag de în-
credere dat, de regul¼ a 5%. S¼ a observ¼ am c¼a procedura de mai sus poate …
generalizat¼a la modele cu mai mulţi factori şi nivele de interacţiune de ordin
superior. Totuşi, o anumit¼ a prudenţ¼a se impune din mai multe motive. Mai
întâi, este din ce în ce mai di…cil de apreciat şi de limitat clar natura ipotezelor
testate. Pe de alt¼ a parte, interacţiunile de ordin superior pot duce la "teste în
lanţ" delicat de interpretat (AB semni…cativ, BC nesemni…cativ, ABC sem-
ni…cativ etc..). În …ne, se poate ar¼ ata c¼
a o interacţiune, mai ales de ordin
superior, se poate datora prezenţei unor observaţii uşor aberante, caz în care
procedura nu este robust¼ a.
tabelul 4.2.2 formule de calcul (1)
Sursa de Grade de libertate Suma p¼

atratelor Media sumei Statistica F
variaţie p¼
atratelor
(df ) (SS) (M S = SS=df )
2 2
SA M SA
A A =K 1 2 = IJ
SA Y k Y M SA = A
FA = M SR
k
2 2
SB M SB
P
B B =J 1 2 = IK
SB Y j Y M SB = B
FB = M SR
j
2 2
2 SAB M SAB
P
Interacţiunile AB AB = (J 1) (K 1) SAB =I Y jk Y j Y k +Y M SAB = AB

FAB = M SR
j k
¼
4.2. ANALIZA DISPERSIONALA
2 2
2 SR
PP
Reziduurile R R = JK (I 1) SR = Yijk Y jk M SR = R
i j k
2
PPP
Total S = IJK 1 S2 = Yijk Y

i j k
PPP
tabelul 4.2.3 formule de calcul (2)
Sursa de Grade de libertate Suma p¼

atratelor Media sumei Statistica F
variaţie p¼atratelor
(df ) (SS) (M S = SS=df )
2
A =K 1 2 SA
A SA M SA = A
FA = M SA =M SR1
2
B =J 1 2 SB
B SB M SB = B
FB = M SB =M SR1
2
SR
1
Reziduurile R1 = R + AB = 2 = S2 + S2 M S R1 =
235
SR 1 R AB R1
R1 = IJK J K +1
Total S S2
4.2.1 Exemplu
Descrierea datelor
Se consider¼ a dou¼a medicamente - unul de testat (T) şi unul de referinţ¼ a

(R). Medicamentele sunt administrate unui lot de subiecţi s¼ an¼atoşi în dou¼a
secvenţe (RT) şi (TR) şi dou¼ a perioade (I şi II). Fiecare subiect este asig-
nat aleator …e primei secvenţe (RT) …e celei de a doua (TR). Subiecţii din
cadrul secvenţei RT (TR) primesc medicamentul R(T) în prima perioad¼ a şi
medicamentul T(R) în cea de-a doua perioad¼ a. Perioadele de administrare
sunt separate printr-o perioad¼ a de "cur¼ aţire" de cel puţin trei ori timpul de
înjum¼at¼aţire al substanţei active din medicamentul administrat.
Scopul experimentului este de a stabili bioechivalenţa (acelaşi efect ter-
apeutic) celor dou¼ a medicamente. Acestea sunt bioechivalente în condiţiile în
care cantitatea total¼ a de substanţ¼a activ¼a din sânge, calculat¼ a pentru …ecare
medicament, nu difer¼ a semni…cativ. Un parametru farmacocinetic calculat
în mod obişnuit în acest scop este AUClast - aria de sub curba concentraţiei
plasmatice de la momentul zero pân¼ a la momentul determin¼ arii ultimei con-
centraţii plasmatice cuanti…cabile.
Datele exemplului provin din [9] şi sunt listate în tabelul A.8. (Anex¼ a).
Pentru acest set de date se identi…c¼ a:
variabila dependent¼
a:
– AUClast (Aria Under the Curve) - indicator al cantit¼

aţii totale de
substanţ¼
a activ¼
a din sânge.
variabilele independente (factorii cauzali):
– Seq - Secvenţa, cu modalit¼

aţile RT şi TR,
– Period - Perioada, cu modalit¼
aţile I şi II.
Se observ¼
a c¼
a experimentul are patru celule şi este echilibrat (njk = 12;
k; j = 1; 2).
Pentru stabilirea bioechivalenţei se consider¼

a urm¼
atorul model de analiz¼
a
dispersional¼
a bifactorial¼
a cu num¼ar oarecare de experienţe:
Yijk = jk + "ijk ; 1 i nk ; k; j = 1; 2
unde efectul …x jk este de forma:

¼
Secvenţa Perioada (j=1,2)

(k=1,2) I II
1 (RT) 11 = + P1 + S 1 + FR 12 = + P2 + S 2 + FT
2 (TR) 21 = + P1 + S 1 + FT 22 = + P2 + S 2 + FR
cu
P1 + P2 = S1 + S2 = FT + FR = 0
iar
P1 (P2 ) reprezint¼
a efectul direct al administr¼
arii în perioada I (II),
S1 (S2 ) reprezint¼
a efectul adimistr¼
arii în secvenţa RT (TR),
FR (FT ) reprezint¼
a efectul direct al administr¼arii medicamentului R (T),
modelat aici ca efectul interacţiunii dintre factorii P şi S.
Datele din tabelul A.8. au fost prelucrate cu pachetul de date STATIS-

TICA, urmând paşii prezentaţi în continuare.
Pentru început se selecteaz¼ a din bara de meniu tipul de analiz¼ a utilizat -
Statistics, ANOVA; în fereastra ap¼ arut¼
a se opteaz¼ a pentru Factorial ANOVA,
în cadrul c¼areia sunt analizate şi efectele interacţiunilor dintre factori, iar ca
metod¼ a de speci…caţie se alege Quick specs.
În fereastra de start (…g 4.2.1.) butonul Variables permite selectarea

tipurilor de variabile conform speci…caţiilor de mai sus. În continuare se speci-
…c¼a toate nivelele factorilor (Factor Codes, All ) şi se apas¼
a butonul OK pentru
a accesa fereastra de rezultate (…g. 4.2.2.).
fig. 4.2.2. Fereastra de rezultate (1)
Pentru început vom veri…ca îndeplinirea ipotezelor modelului: indepen-

denţa, normalitatea şi homoscedasticitatea, procedeu pentru care STATIS-
TICA pune la dipozitie o serie de gra…ce şi tabele în cea de-a doua fereastr¼
a
de rezultate (More results). (…g. 4.2.3.).
fig. 4.2.3. Fereastra de rezultate (2)
Având în vedere structura experimentului, eşantioanele formate se pot pre-

supune aleatoare şi independente deci se consider¼ a îndeplinit¼
a condiţia de in-
dependenţ¼a. Condiţia de normalitate a distribuţiei reziduurilor de veri…c¼ a în
submeniul Residuals 1. Gra…cul generat prin ap¼ asarea butonului Residuals cu
opţiunea Raw indic¼ a într-adev¼
ar o repartiţie normal¼a (…g. 4.2.4.).
¼
fig. 4.2.4. Reziduurile sunt normal distribuite
Homoscedasticitatea (omogenitatea varianţei) la nivelul subgrupurilor

determinate de modalit¼
aţile factorilor cauzali se veri…c¼
a aplic¼
and testul Levene
pentru …ecare dintre cele trei efecte Per, Seq, Per*Seq. Testul Levene este
de…nit astfel:
H0 : 1 = 2 = ::: = k;
HA : i 6= j pentru cel puţin o pereche (i; j) ; i; j = 1; k
unde k este num¼ arul subgrupurilor. Valorile statisticii asociate acestui test se
genereaz¼a ap¼
asând butonul Levene’s test şi se reg¼
asesc în tabelul 4.2.2. Pentru
toate cele trei efecte, valorile F la pragurile de semni…caţie p 0:05 indic¼a
acceptarea ipotezei nule, deci veri…carea condiţiei de homoscedasticitate.
tabelul 4.2.2. Testul Levene pentru efectele Seq, Per, Seq*Per
Concluziile obţinute permit realizarea efectiv¼a a analizei de varianţ¼a.

Butonul All E¤ ects/Graphs din submeniul Quick activeaz¼ a o nou¼a fereastr¼
a
de dialog (…g. 4.2.5.) în cadrul c¼
areia pot … vizualizate principalele rezultate
ANOVA pentru cele trei efecte considerate.
fig. 4.2.5. Principalele rezultate ANOVA
Informaţii despre mediile pe grupe pentru …ecare efect se pot obţine sub form¼
a
gra…c¼
a sau tabelar¼ a (…g 4.2.6.), bifând opţiunea Graph respectiv Spreadsheet
din caseta Display şi ap¼
asând butonul OK.
¼
fig. 4.2.6. Mediile pe grupe
Se observ¼ a c¼
a mediile pe grupe au valori apropiate, valorile p 0:05 din …g.
4.2.5. con…rmând acceptarea ipotezelor nule. Aşadar analiza de varianţ¼ a pe
aceste date indic¼
a absenţa efectului secvenţei, al perioadei şi al medicamentu-
lui; prin urmare, cele dou¼a medicamente sunt bioechivalente.
4.3 Modele liniare generalizate

Modelele generalizate (GLM - Generalised Linear Models) extind mode-
lele liniare de baz¼
a în dou¼
a direcţii:
1. Combinaţia liniar¼
a wi = b0 xi0 +b1 xi1 +: : :+bp xip a variabilelor explicative
poate … o funcţie g (numit¼a funcţie de leg¼atur¼a ) de M (yi ), adic¼
a
wi = g (M (yi ))
în comparaţie cu modelele liniare clasice în care
wi = M (yi ) :
2. Legea de probabilitate a lui y poate … şi un alt membru al clasei legilor

exponenţiale5 decât legea normal¼ a. Dac¼ a = ; ' = 2 ; a (') = ';
2 2 2
b ( ) = =2; c (y; ') = 1=2 y = + log 2 2 atunci se obţine
legea normal¼ a. Pentru alte valori ale parametrilor şi alte funcţii se pot
obţine legile binomial¼
a, Poisson, Gamma.
Ajustarea modelului se face prin metoda verosimilit¼ aţii maxime care, în

cazul legii normale, coincide cu metoda celor mai mici p¼ atrate.
Alegând diferite legi de probabilitate din clasa legilor exponenţiale şi
diferite funcţii de leg¼
atur¼
a pentru y, se pot obţine şi alte modele, printre care
un loc important îl ocup¼ a modelele log-liniare.
5 y b( )
Clas¼
a de legi de probabilitate cu densitatea de forma f (x; ; ') = exp a(')
+ c (y; ')
cu şi ' parametri şi a ( ) ; b ( ) ; c ( ) funcţii.
243
244 SETURILE DE DATE FOLOSITE ÎN EXEMPLE
Seturile de date folosite în

exemple
tabelul A.1. ACP: Tipuri de activitA¼ Ţ i
(Surs¼
a: Fişierul Activities.sta din colecţia de exemple a soft-ului STATISTICA)
245
tabelul A.2. ACS: Categorii socioprofesionale Ş i tipuri de media

(elemente active)
tabelul A.3. ACS: Categorii socioprofesionale Ş i tipuri de media

(elemente suplimentare)
(Sursa tabelelor A.2 şi A.3: Enquête Budget-temps Multimedia de 1991-1992, Centre
d’Etude des Supports de Publicité)
tabelul A.4. ACM: Rase de câini (date sub formA¼ condensatA¼ )

247
¼ IriŞ i (1)
tabelul A.5. ANALIZA DISCRIMINANTA:
(Surs¼
a: Fişierul Irisdat.sta din colecţia de exemple a soft-ului STATISTICA)
¼ IriŞ i (2)
249
¼ IriŞ i (3)
¼ IriŞ i (4)
251
¼ IriŞ i (5)
tabelul A.6. SEGMENTARE: puncte în plan (1)

253
tabelul A.6. SEGMENTARE: puncte în plan (2)

tabelul A.7. REGRESIE: Greutatea la naŞ tere (1)
(Surs¼
a: A. Matos, S.Joao Hospital, Porto, Portugal)
255


257


259


261
tabelul A.8. ANOVA: Stiudiu statistic de bioechivalenŢ A¼

Bibliogra…e
[1] ANDERBERG M.R., Cluster Analysis for Applications, Academic Press,

N.Y., 1973.
[2] ANDERSON T.W., An Introduction to Multivariate Statistical Analysis

J. Wiley, N.Y., 1958.
[3] ANDERSON T.W., Asymptotic theory for principal component analysis:

the non-normal case, Australian J. of Statist., 19, p. 206-212, 1963.
[4] ATKINSON, A.C., Plots, Transformations and Regression: An Introduc-

tion to Graphical Methods of Diagnostic Regression Analysis, Clarendon
Press, Oxford, 1985.
[5] BENZÉCRI J.P., L’Analyse des Données. Tome 1: La Taxinomie, Tome

2: L’Analyse des Correspondances (2de. éd. 1976), Paris, Dunod , 1973.
[6] BESLEY, D. A., KUH E., WELSCH R. E., Regression Diagnostics: Iden-
tifying In‡uential Data and Sources of Colinearity, J. Wiley, N. Y., 1980.
[7] BREIMAN L., FRIEDMAN, J.H., OHLSEN R.A., STONE C.J., Classi-
…cation and Regression Trees, Belmont, Wadsworth, 1984.
[8] BURT C., The factorial analysis of qualitative data, British J. of Statist.
Psychol., 3, 3, p.166-185, 1950.
[9] CHOW S.C., LIU J.P., Design and Analysis of Bioavailability and Bioe-
quivalence Studies, Marcel Dekker, N.Y., 1992.
[10] COX D. R., Analyse des données binaires, Paris, Dunod, 1972.
[11] CHATTERJEE, S., PRICE, B., Regression Analysis by Examples, J. Wi-

ley, N.Y., 1991.
[12] DAUDIN J.J., DUBY C., TRÉCOURT P., Stability of principal compo-
nents studied by the bootstrap method, Statistics, 19, p. 241-258, 1988.
[13] DAVIS A.W., Asymptotic theory for principal component analysis: The
non-normal case, Australian J. of Stat., 19, p. 206-212, 1977
263
264 BIBLIOGRAFIE
[14] DAZY F., LE BARZIC J.F., L’analyse des données évolutives. Méthodes
et Applications, Paris, Ed. Technip, 1996.
[15] DEMIDOVITCH B., MARON I., Eléments de calcul numérique, Moscou,

Mir, 1973.
[16] DEMPSTER A.P., An overview of multivariate data analysis, J. Mult.

Analysis, 1, p. 316-346, 1971.
[17] DIDAY E., La méthode des nuées dynamiques, Revue Statist. Appl., 19,
2, p 19-34, 1971.
[18] DODGE Y. (ed.), Statsitical data Analysis Based on the L1 -Norm and
Related Methodes, North Holland, Amsterdam, 1987.
[19] DOMENGES D., VOLLE M., Analyse factorielle sphérique: une explo-
ration, Annales de l’INSEE, no 35, 1979.
[20] DRAPER, N. R., SMITH, H., Applied Regression Analysis, J. Wiley, N.

Y., 1981.
[21] DUDA R.O., HART P.E., Pattern Classi…cation and Scène Analysis, J.
Wiley, N.Y., 1973
[22] DUMITRESCU D., Principiile matematice ale teoriei clasi…c¼arii, Ed.

Academiei Române, Bucureşti, 1999.
¼
[23] ENACHESCU C. Aplicaţii ale reţelelor neuronale în teoria statistic¼a a
înv¼aţ¼arii, Bucureşti, Ed. Sigma, 1999.
¼
[24] ENACHESCU ¼
C., ENACHESCU D., Some simple rules for interpreting
outputs of principal components and correspondence analysis, Analele
Univ. Buc., Informatic¼a, XLIX, p.3-8, 2000.
[25] FALISSARD B., Déploiement d’une matrice de corrélation sur la sphère

unité de R3 , Revue de Statist. Appl., 43(2), p.35-48, 1995.
[26] FISHER R. A., The use of multiple measurements in taxonomic problems,

Ann. of Eugenics, 7, p 179-188, 1936.
[27] FISHER R. A., The Design of Experiments (1935), 9th edition 1971
reprinted 1974, Hafner Press, N.Y.
[28] GIFI A., Non Linear Multivariate Analysis, J.Wiley, Chichester, 1990.
[29] GOLDSTEIN M., DILLON W. R., Discrete Discriminant Analysis, J.

Wiley, Chichester, 1978.
[30] GOODMAN L.A., KRUSKAL W.H., Measures of association for cross

classi…cation., J. of Amer. Statist. Assoc., 49, p 732-764, 1954.
BIBLIOGRAFIE 265
[31] GUTTMAN L., The quanti…cation of a class of attributes: a theory and

method of a scale constructuion, In: The prediction of personal adjust-
ment (Horst P., ed.) p 251 -264, SSCR N. Y., 1941.
[32] HAND D. J., Discrimination and Classi…cation, J. Wiley, N. Y., 1981.
[33] HARMAN H.H., Modern Factor Analysis (2nd ed.), Chicago University
Press, Chicago, 1967.
[34] HARTER H. L., The method of least squares and some alternatives, In-
ternat. Stat. Review, Part 1 and 2: 42, p 147-174, p 235-264; Part 3 to 5:
43, p 1-44, p 125-190, p 269-278, 1974-1975.
[35] HUBER, P. J., The place of the L1 -Norm in robust estimation, In: Statis-
tical Data Analysis Based on the L1 -Norm and Related Methods, Dodge
Y. ed, North Holland, Amsterdam, p. 23-34, 1987.
[36] HAYASHI C., Theory and examples of quanti…cation, (II) Proc. of the
Institute of Statist. Math., 4 (2), p 19-30, 1956.
[37] JAMBU M., Exploration statistique et informatique des données, Paris,
Dunod, 1991.
[38] KAZMIERCZAK J.B., Analyse logarithmique: deux examples
d’application, Revue de Satist. Appl., 33(1), p. 13-24, 1985.
[39] LANCE G. N., WILLIAMS W. T., A general theory of classi…cation
sorting strategie, Computer J., 9, p 373-380, 1967.
[40] LEBART L., L’orientation du dépouillement de certaines enquêtes par
l’analyse des correspondances multiples, Consommation, 2, p 73-96,
Dunod, 1975.
[41] LEBART L., MORINEAU A., PIRON M., Statistique exploratoire mul-
tidimensionnelle, Paris, Dunod, 1995.
[42] MACQUEEN J. B., Some methods for classi…cation and analysis of mul-
tivariate observations, Proc. Symp. Math. Statist. and Probability (5th),
Berkeley, 1, p 281-297, Univ. of Calif. Press, Berkeley, 1967.
[43] MAHALANOBIS P.C., On the generalized distance in statistics, Proc.
Nat. Inst. Sci., India, 12, p 49-55, 1936.
[44] MALINVAUD E., Data analysis in applied socio-economic statistics with
spécial considération of correspondence analysis, Marketing Science Con-
férence Proceedings, HEC-ISA, Jouy en Josas, 1987.
[45] MEYER R., An eigenvector algorithm to …t Lp-distances matrices. In:
New Approches in Classi…cation and Data Analysis, Diday E. et al. (eds.),
Berlin, Springer Verlag, p. 502-509, 1994.
266 BIBLIOGRAFIE
[46] MORGAN J. M., MESSENGER R. C., THAID : a sequential search

program for the analysis of nominal scale dependent variables, Institute
for Social Research, Ann Arbor, University of Michigan, 1973.
[47] MORINEAU A., Note sur la caractérisation statistique d’une classe et

les valeurs-tests, Bull. Techn. du Centre de Statist. et d’Infor. Appl., 2,
p 20-27, 1984.
[48] MOSTELLER, F., TUKEY, J.W., Data Analysis and Regression, Addi-
son Wesley Reading, Mass., 1977.
[49] NISHISATO S., Analysis of Categorical Data. Dual Scaling and its Ap-
plication, Univ. of Toronto Press, 1980.
[50] RAO, C. R., Linear Statistical Inference and its Applications, J. Wiley,
N. Y., 1973.
[51] RAO C.R., The use and interpretation of principal component analysis
in applied research, Sankhya, serie A, 26, p. 329-357, 1964.
[52] RIPLEY B. D., Neural nerworks and related methods of classi…cation, J.

R. Statist. Soc., B, 56, n 3, p. 409-456, 1994.
[53] SAPORTA G., Probabilités, Analyse des Données et Statistique, Technip,

Paris, 1990.
[54] SEARLE, S. E., Linear Models, J. Wiley, N. Y., 1977.
[55] SEBER, G. A. F., Linear Regression Analysis, J. Wiley, N. Y., 1971.
[56] SHEFFE H., Analysis of Variance, J. Wiley, N. Y., 1959.
[57] SOKAL R. R., SNEATH P. H. A., Principles of Numerical Taxonomy,

Freeman and co., San-Francisco, 1963.
[58] SONQUIST J. A. AND MORGAN J. N., The Détection of Interaction

E¤ ects, Institute for Social Research, University of Michigan, Ann Arbor,
1964.
[59] TUKEY J. W., Exploratory Data Analysis. Addison Wesley Reading,

Mass., 1977.
¼
[60] VADUVA I., Analiz¼a dispersional¼a, Ed. Tehnic¼
a, 1970.
[61] VAN RIJCKEVORSEL J., The application of fuzzy coding and horseshoes
in multiple correspondances analysis, DSWO Press, Leiden, 1987.
[62] WARD J.H., Hierarchical grouping to optimize an objective function, J.

of Amer.Statist. Assoc., 58, p. 236-244., 1963.
BIBLIOGRAFIE 267
[63] WISHART D., Mode analysis: a generalization of nearest neighbour

which reduces chaining e¤ects. Numerical Taxonomy (A.J. Cole éd.) p.
282-311, Academic Press, London, 1969.
[64] WONG M.A., A hybrid clustering method for identifying high density
clusters, J of Amer. Statist. Assoc., 77, p 841-847, 1982.
268 BIBLIOGRAFIE
Data Mining. Methods and
Applications
Introduction
We are surmounted by data - scienti…c data, medical data, demographic
data, …nancial data and marketing data. People have no time to look at
this data. Human attention has become a precious resource. So, we must
…nd ways to automatically analyze the data, to automatically classify it, to
automatically summarize it, to automatically discovers and characterize trends
in it. This "mining in data", in order to …nd out automatically knowledges and
interesting / new informations, is to day one of the most active and exciting
research areas. Researchers in areas such databases, statistics, visualization,
arti…cial intelligence are contributing to this …eld.
My purpose in writing this book has been to give a systematic introduc-
tion of major concepts and methodologies of Data Mining and to present a
uni…ed framework that makes the subject more accesible.
The core of the book is formed by the notes of the courses delivered
by the author at the University of Bucharest, Faculty of Mathematics and
Computer Science for the master students in Informatics.
The background material needed to understand these book is general
knowledge of some basic topics in probability and statistics, linear algebra
and multivariate calculus.
The book is organized in four chapters. Chapter introduce the basic
multivariate exploratory technics. The Principal Components Analysis, for
continuous variables, and the Correspondance Analysis, for discrete variables,
are presented as technics not only to simplify and visualize, but also to explore,
analize and discover, because the reality is not only complex but also hidden.
Chapter 2 covers the cluster technics; we mean the non-hierarchical and
hierarchical, automated, clustering methods.
The last two chapters concern with basic explanatory technics. Chapter 3
covers the discriminant methods and chapter 4 covers the regression methods.
269
270 DATA MINING. METHODS AND APPLICATIONS
I hope that this book will prove useful to who are interested not only
in understanding the under laying theory of data mining but also in pursuing
researching this area. A list of relevant references is included with the aim of
providing guidance and direction for the reader’s own search of the scienti…c
literature.
Contents
Introduction
1. MULTIVARIATE EXPLORATORY TECHNIQUES
1.1 Mathematical Background
1.1.1 Metric Concepts in an Euclidian Field
1.1.2 Linear Operators
1.1.3 Eigenvectors and Eigenvalues
1.1.4 The Characteristic Polynomial
1.1.5 The Eigenvectors Basis
1.1.6 Quadratic Forms
1.1.7 Derivative. The Lagrange Multipliers Method for Quadratic
Forms
1.2 Principal Components Analysis
1.2.1 The Data and its Characteristics
1.2.2 General Analysis. Singular Values Decomposition
1.2.3 The Quality of a Principal Components Analysis
1.2.4 Nonparametrical Methods
1.2.5 Related Methods
1.2.6 Other Issues
1.2.7 Example
1.3 Correspondence Analysis
1.3.1 The Method
1.3.2 Rules to Explain the Outputs
1.3.3 Example
1.4 Multiple Correpondence Analysis
1.4.1 Overview
1.4.2 The Calculus of the Inertia
1.4.3 Reviewing the Results
1.4.4 Principles of Discretisation for Continuous Variables
1.4.5 Test-values for Supplementary Modalities
1.4.6 Example
271
272 CONTENTS
1.5 Synthesis
2. CLUSTER ANALYSIS
2.1 Overview
2.2 Combinatorial Aspects of Clustering
2.3 Non-hierarchical Methods
2.3.1 K-Means Clustering
2.3.2 Example
2.4 Hierarchical Methods
2.4.1 Formal Aspects
2.4.2 Amalgamation (linkage) rules
2.5 Mixture Exploratory Methods
2.5.1 Identifying clusters by cutting of the tree diagram
2.5.2 Statistical caractherisation of the clusters
2.5.3 Example
3. BASIC EXPLORATORY TECHNIQUES
3.1 Discriminant Analysis
3.1.1 Introduction
3.1.2 Factorial Discriminant Analysis
3.1.3 Geometrical Methods
3.1.4 Discriminant Functions of Minimal Distance
3.2 Probabilistic Methods for Discrimination
3.2.1 Introduction
3.2.2 The Bayesian Formulation
3.2.3 Example
3.3 Discriminant Trees
3.3.1 Background
3.3.2 Optimal Subtrees
3.3.3 Example
4. LINEAR MODELS
4.1 The Regression Model
4.1.1 Introduction
4.1.2 Fitting Linear Regression Models
4.1.3 The Quality of Fitting
4.1.4 Residuals and Outliers
4.1.5 Robust Regression Techniques
4.1.6 Variables Subset Selection
4.1.7 Example
4.2 Variational Analysis
4.2.1 Example
273
4.3 Generalized Linear Models

THE SETS OF DATA USED IN EXAMPLES
INDEX
REFERENCES
Indice
analiza neierarhic¼a, 110

în componente principale, 1, 15 prin metoda k-means, 107
în componente robuste, 51 coe…cient
corespondenţelor multiple, 2, 62, de corelaţie, 18
85 de corelaţie multipl¼
a, 210
corespondenţelor simple, 2, 62 de corelaţie Spearman, 50
cu variabile instrumentale, 52 de determinare, 210
de covarianţ¼a, 205 de determinare, ajustat, 221
de varianţ¼a, 205, 229 de disimilaritate, 3
discriminant¼ a, 140 de regresie, 207
dispersional¼ a, 205, 229 - intercepţie/bias, 207
logaritmic¼ a, 52 - pantã, 207
neparametric¼ a, 50 component¼a principal¼a, 33
parţial¼
a a corelaţiilor, 52 contribuţia
rangurilor, 50 în ACM, 93
vectorial¼a sferic¼a, 53 în ACP, 46
arbore în ACS, 76, 77
binar, 140 cosinusul p¼atrat, 77
binar complet, 190 costul erorii de clasare, 157
de clasi…care, 121 criteriu
de decizie binar¼ a, 189, 190 al cotului, 43
maximal, 196 al lui Kaiser, 43
minimal, 107 de minimizare, 206
axe - norma Lk , 206
principale, 33
descompunerea în valori singulare, 40
c¼autare exhaustiv¼a, 221 disimilaritate, 109
calitatea reprezent¼arii dispersie
în ACP, 44 de selecţie, 18
în ACS, 76 explicatã, 209
cerc de corelaţie, 37 rezidualã, 209
clasare, 141, 156 totalã, 209
clasi…care, 107 distanţ¼a, 108
automat¼ a, 107 a diametrului (complete linkage),
ierarhic¼
a, 107, 120 127
mixt¼a, 129 a mediei (average linkage), 127
274
INDICE 275
a saltului minimal (single linkage), quasi-baricentrice, 72

126 funcţie
chi-pãtrat, 64, 89 de decizie, 147
city-block, 53 - liniarã, 151
Cook, 218 de discriminare, 147
euclidianã, 11, 108 - instruibilã, 147
Hellinger, 66 de impuritate, 193
L1 , 108 de legãturã, 242
Mahalanobis, 108 de pierdere discretã, 157
Minkowski, 109 de regresie, 207
distribuţie de repartiţie condiţionat¼
a, 155
à posteriori, 172 discriminantã a lui Fisher, 163
à priori, 172
- conjugatã, 172 ierarhie, 120
Gauss-Laplace, 133 indexatã, 121
diviziune impuritate, 193
admisibilã, 191 funcţii de impuritate, 193
echi-divizantã/supleantã, 197 reducerea impurit¼ aţii, 193
echi-reductivã, 197 indice
optimã, 194 al unei ierarhii/nivel de agregare,
dreapta de regresie, 207 121
de diversitate Gini, 193
entropie Shannon, 193 Dice, 109
eroare, 206 Jaccard, 109
aparentã, 196 Ochiai, 109
Bayes, 159 Rogers şi Tanimoto, 109
teoreticã, 196 Russel şi Rao, 109
estimator individ, 17
bayesian, 174 activ, 48
de resubstituţie/plug-in, 167 suplimentar, 48
de verosimilitate maximã, 170 inerţie
într-un punct, 22
factor a unei clase, 111
de in‡aţie a dispersiei, 219 interclase, 111
principal, 33 intraclase, 111
formul¼a matricea de ~, 32
a lui Bayes pierderea de ~intraclase, 123
- a probabilit¼
aţii cauzelor, 155 rata de inerţie, 42
- pentru densit¼ aţi de probabili- totalã/globalã, 22
tate, 156 înv¼aţare
a lui Huygens, 22 eşantion de ~, 140
a lui Lance-Williams, 124 funcţie de discriminare cu ~, 147
de reconstituire, 40 nesupervizatã/fãrã profesor, 147
formule supervizatã/cu profesor, 147
276 INDICE
metoda al echivalenţei distribuţiilor, 66

minmax, 206 probabilitate
ANOVA, 232 à posteriori, 155, 158
Automatic Interaction Detection à priori, 155
(AID), 189 condiţionat¼ a, 155
CART, 189 de misclasare, 157
celor mai mici pãtrate, 206 procedur¼a
celor mai mici valori absolute, 206 admisibilã, 160
centrelor mobile (a lui Forgy), 112 completã, 160
k-means, 107, 115 de clasare, 160
norilor dinamici, 107, 115 de discriminare Bayesianã, 159
Ward, 123 minimal¼ a şi complet¼a, 160
metode putere discriminant¼ a, 145
de agregare în jurul centrilor mo-
bili, 107 regiune
de cãutare pas cu pas, 221 de decizie, 146
- metoda ascendentã, 221 de nedeterminare, 148
- metoda descendentã, 221 regresie
pe componente principale, 220
- metoda stepwise, 222
Ridge, 220
de clasi…care , 107
simpl¼a liniar¼a, 207
- ierarhicã, 120
regula
- neierarhicã, 110
Bayes, 157
de comparaţie multipl¼ a, 232
cotului (scree-test), 42
de compresie a datelor, 41
de decizie, 149
de segmentare, 189
reziduu, 206
de selecţie a variabilelor, 221
prognozat, 218
explicative, 139
studentizat, 218
factoriale, 1
risc
geometrice de analizã discriminantã,
Bayes, 159
146
funcţional al plasatorului, 158
probabiliste de discriminare, 155
model, 205 segmentare, 189
complet, 230 separabilitate
cu factori aleatori, 232 cazul 1 de ~, 148
cu factori constanţi, 232 cazul 2 de ~, 149
cu repetiţie, 230 cazul 3 de ~, 149
de regresie, 205 similaritate, 109
echilibrat, 230 sistem de ecuaţii normale, 208
liniar generalizat, 242 suprafeţe de decizie, 146
plan factorial principal, 33 tabel

plasator, 157 centrat, 18
Bayes, 159 centrat-redus, 18
principiu condensat, 85
INDICE 277
de contingenţ¼
a Burt, 87
de contingenţ¼
a/dependenţ¼
a/încrucişat,
62
de mãsurãtori, 16
de note, 16
de ranguri, 17, 50
disjunctiv complet, 86
"tundere", 196
variabil¼a, 17
activã, 48
dependentã/de explicat/endogenã,
205
explicativã/exogenã/predictor, 205
pasivã/suplimentarã/ilusrativã, 48

Data Mining

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Data Mining

Încărcat de

Drepturi de autor:

Formate disponibile

DATA MINING.

METODE ŞI APLICAŢII

1 METODE EXPLORATORII MULTIDIMENSIONALE 1

2 METODE DE CLASIFICARE 107

3 METODE EXPLICATIVE UZUALE 139

4 MODELE LINIARE 205

Seturile de date folosite în exemple 243

Data Mining. Methods and Applications 269

Suntem copleşiţi de date - date ştiinţi…ce, date medicale, date demogra…ce,

genţ¼a, tabele de prezenţ¼

fig. 1. Cele douA¼ mari familii de metode ale statisticii

metodele exploratorii multidimensionale, bazate pe c¼ autarea axelor prin-

metodele de clasi…care, ce produc agreg¼ ari în clase de obiecte sau în

Punctele de vedere furnizate de cele dou¼ a tipuri de metode sunt în es-

de metodele de segmentare, de metodele de regresie şi de analiz¼ a dispersional¼a)

Metodele exploratorii multidimensionale îşi propun s¼ a furnizeze reprezen-

analiza în componente principale (secţiunea 1.2) se aplic¼ a tabelelor

analiza corespondenţelor simple (secţiunea 1.3) se aplic¼ a tabelelor

analiza corespondenţelor multiple (secţiunea 1.4) este o extindere

Oricare ar … tipul tabelului de date, toate tehnicile factoriale au un nucleu

1.1 Preliminarii matematice

De…niţia 1.1.1 O metric¼a pe mulţimea X este o aplicaţie, d : X X!R,

a) d (x; y) = d (y; x) ; (8) x; y 2 X (simetric¼

b) d (x; y) 0; (8) x; y 2 X (pozitiv¼

c) d (x; y) = 0 , x = y; (8) x; y 2 X (idempotent¼

d) d (x; y) d (x; z) + d (z; y) ; (8) x; y; z 2 X (inegalitatea triunghiului).

De…niţia 1.1.2 Dac¼ a d : X X ! R este o aplicaţie care satisface axiomele

d’) d (x; y) max (d (x; z) ; d (z; y)) ; (8) x; y; z 2 X

De…niţia 1.1.4 O pseudometric¼a pe X este o aplicaţie, d : X X ! R; care

a) d (x; y) = d (y; x) ; (8) x; y 2 X (simetric¼

b) d (x; y) 0; (8) x; y 2 X (pozitiv¼

O mulţime nevid¼ a înzestrat¼

De…niţia 1.1.5 O pseudometric¼

De…niţia 1.1.6 X se numeşte spaţiu vectorial (spaţiu liniar) peste K dac¼

2. (9) 0 2 X astfel încât x + 0 = x; (8) x 2 X;

3. (8) x 2 X; (9) ( x) 2 X astfel încât x + ( x) = 0;

6. a (bx) = (ab) x; (8) x 2 X şi (8) a; b 2 K;

7. (a + b) x = ax + bx; (8) x 2 X şi (8) a; b 2 K;

8. a (x + y) = ax + ay; (8) x; y 2 X şi (8) a 2 K:

Fie X un spaţiu vectorial peste R sau C.

De…niţia 1.1.7 Se numeşte produs scalar pe X o funcţie de dou¼

1. hx; yi = hy; xi; (8) x; y 2 X;

2. hax; yi = a hx; yi ; (8) x; y 2 X şi (8) a 2 K:

3. hx + y; zi = hx; zi + hy; zi ; (8) x; y; z 2 X;

De…niţia 1.1.8 Se numeşte spaţiu euclidian, un spaţiu vectorial …nit dimen-

este un spaţiu euclidian. 1 0

De…niţia 1.1.9 Doi vectori x; y se numesc ortogonali (perpendiculari) dac¼

De…niţia 1.1.10 O norm¼a pe un spaţiu vectorial de…nit peste corpul K este

1. kxk 0; (8) x 2 X (pozitiv¼

2. kxk = 0 , x = 0 (pozitiv de…nit¼

3. kaxk = jaj kxk ; (8) x 2 X şi (8) a 2 K (absolut omogen¼

4. kx + yk kxk + kyk ; (8) x; y 2 X (subaditiv¼

De…niţia 1.1.11 Un spaţiu vectorial înzestrat cu o norm¼

1.1.2 Operatori liniari

Coe…cienţii Aij determin¼ a o matrice A de dimensiune n n numit¼ a

Operatorul U se numeşte adjunctul lui U .

1.1.3 Vectori şi valori proprii

De…niţia 1.1.12 Un subspaţiu X0 al lui X se numeşte invariant în raport cu

De…niţia 1.1.13 2 R se numeşte valoarea proprie a operatorului U dac¼

De…niţia 1.1.14 Mulţimea tuturor vectorilor proprii ai unui operator U; core-

Propoziţia 1.1.1 ([15])

Propoziţia 1.1.2 ([15])

Propoziţia 1.1.3 ([15])

Propoziţia 1.1.4 ([15])