Sunteți pe pagina 1din 287

DATA MINING.

METODE ŞI APLICAŢII

¼
DENIS ENACHESCU
ii
Cuprins

Introducere vii

1 METODE EXPLORATORII MULTIDIMENSIONALE 1


1.1 Preliminarii matematice . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Concepte metrice într-un spaţiu euclidian . . . . . . . . 2
1.1.2 Operatori liniari . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3 Vectori şi valori proprii . . . . . . . . . . . . . . . . . . 5
1.1.4 Polinomul caracteristic . . . . . . . . . . . . . . . . . . . 6
1.1.5 Baza vectorilor proprii . . . . . . . . . . . . . . . . . . . 9
1.1.6 Forme p¼ atratice . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.7 Derivarea. Metoda multiplicatorilor lui Lagrange pentru
forme p¼ atratice . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Analiza în componente principale (ACP) . . . . . . . . . . . . . 15
1.2.1 Date şi caracteristicile lor . . . . . . . . . . . . . . . . . 17
1.2.2 Analiza general¼ a. Descompunerea în valori singulare . . 28
1.2.3 Interpretarea şi calitatea rezultatelor unei ACP . . . . . 41
1.2.4 Analize neparametrice . . . . . . . . . . . . . . . . . . . 50
1.2.5 Alte metode derivate . . . . . . . . . . . . . . . . . . . . 52
1.2.6 Alte demersuri . . . . . . . . . . . . . . . . . . . . . . . 52
1.2.7 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
1.3 Analiza corespondenţelor simple (ACS) . . . . . . . . . . . . . 62
1.3.1 Schema general¼ a de ACS . . . . . . . . . . . . . . . . . 63
1.3.2 Reguli de interpretare a rezultatelor . . . . . . . . . . . 74
1.3.3 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.4 Analiza corespondenţelor multiple (ACM) . . . . . . . . . . . . 85
1.4.1 Principiile ACM . . . . . . . . . . . . . . . . . . . . . . 88
1.4.2 Calculul inerţiei . . . . . . . . . . . . . . . . . . . . . . 92
1.4.3 Reguli de interpretare . . . . . . . . . . . . . . . . . . . 93
1.4.4 Principii de transformare a variabilei continue în vari-
abil¼a discret¼
a . . . . . . . . . . . . . . . . . . . . . . . . 93
1.4.5 Valori-test pentru modalit¼ aţi suplimentare . . . . . . . . 95
1.4.6 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
1.5 Sintez¼
a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

iii
iv CUPRINS

2 METODE DE CLASIFICARE 107


2.1 Generalit¼
aţi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
2.2 Aspecte combinatorii ale clasi…c¼ arii . . . . . . . . . . . . . . . . 110
2.3 Metode de clasi…care neierarhic¼ a . . . . . . . . . . . . . . . . . 110
2.3.1 Metoda centrelor mobile (a lui Forgy) . . . . . . . . . . 112
2.3.2 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
2.4 Metode de clasi…care ierarhic¼ a. . . . . . . . . . . . . . . . . . . 120
2.4.1 Aspecte formale . . . . . . . . . . . . . . . . . . . . . . 120
2.4.2 Strategii de agregare . . . . . . . . . . . . . . . . . . . . 123
2.5 Clasi…care mixt¼ a . . . . . . . . . . . . . . . . . . . . . . . . . . 129
2.5.1 Alegerea claselor prin "t¼ aierea" arborelui . . . . . . . . 131
2.5.2 Caracterizarea statistic¼ a a claselor . . . . . . . . . . . . 132
2.5.3 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

3 METODE EXPLICATIVE UZUALE 139


3.1 Analiza discriminant¼ a . . . . . . . . . . . . . . . . . . . . . . . 140
3.1.1 Notaţii şi formularea problemei . . . . . . . . . . . . . . 140
3.1.2 Analiza factorial¼ a discriminant¼a. . . . . . . . . . . . . . 141
3.1.3 Metode geometrice . . . . . . . . . . . . . . . . . . . . . 146
3.1.4 Funcţii discriminante de distanţ¼a minim¼ a . . . . . . . . 153
3.2 Metode probabiliste de discriminare . . . . . . . . . . . . . . . 155
3.2.1 Preliminarii . . . . . . . . . . . . . . . . . . . . . . . . . 155
3.2.2 Formularea bayesian¼ a a problemei de discriminare . . . 156
3.2.3 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
3.3 Segmentare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
3.3.1 Formularea problemei, principiu şi vocabular . . . . . . 190
3.3.2 Subarbori optimali . . . . . . . . . . . . . . . . . . . . . 196
3.3.3 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

4 MODELE LINIARE 205


4.1 Modelul de regresie . . . . . . . . . . . . . . . . . . . . . . . . . 205
4.1.1 Formularea problemei . . . . . . . . . . . . . . . . . . . 205
4.1.2 Estimarea funcţiei de regresie . . . . . . . . . . . . . . . 207
4.1.3 Calitatea estim¼ arii . . . . . . . . . . . . . . . . . . . . . 210
4.1.4 Studiul reziduurilor şi al observaţiilor aberante . . . . . 217
4.1.5 Tehnici de stabilizare a coe…cienţilor de regresie . . . . . 219
4.1.6 Tehnici de selecţie a variabilelor . . . . . . . . . . . . . 221
4.1.7 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
4.2 Analiza dispersional¼
a. . . . . . . . . . . . . . . . . . . . . . . . 229
4.2.1 Exemplu . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
4.3 Modele liniare generalizate . . . . . . . . . . . . . . . . . . . . . 242

Seturile de date folosite în exemple 243


CUPRINS v

Data Mining. Methods and Applications 269

Contents 271
vi CUPRINS
Introducere

Suntem copleşiţi de date - date ştiinţi…ce, date medicale, date demogra…ce,


date …nanaciare, date de marketing. Oamenii nu mai au timp s¼ a se uite la
aceste date. Atenţia uman¼ a a devenit o resurs¼ a important¼ a, asfel încât tre-
buie g¼ asite c¼ai de a analiza datele automat, de a le clasi…ca automat, de a le
sintetiza automat, de a descoperi automat tendinţe în date şi de a caracteriza
automat aceste tendinţe. Acest „minerit în date”, în vederea g¼ asirii automate
de cunoştinţe şi informaţii interesante/noi, este ast¼ azi unul dintre cele mai ac-
tive şi interesante domenii de cercetare. Cercet¼ atorii din domeniile bazelor de
date, statisticii matematice, inteligenţei arti…ciale şi vizualiz¼ arii computerizate
sunt implicaţi şi contribuie la dezvoltarea acestui domeniu.
Lucrarea de faţ¼ a prezint¼a tehnicile clasice "împrumutate" din statistica
matematic¼ a de noul domeniu –l-am numit aici Data Mining. Este vorba, mai
precis, de tehnici de statistic¼ a exploratorie multidimensionale.
Statistica descriptiv¼ a permite reprezentarea vie şi asimilabil¼ a a informaţi-
ilor statistice prin simpli…care şi schematizare. Statistica descriptiv¼ a multi-
dimensional¼ a este generalizarea natural¼ a a cazului în care informaţiile sunt
descrise de mai multe variabile şi/sau dimensiuni.
Trecerea la multidimensional implic¼ a îns¼a o schimbare calitativ¼ a impor-
tant¼ a. Într-adev¼ ar, se spune despre microscop sau despre aparatul radiogra…c
c¼a nu sunt numai instrumente de descriere ci şi instrumente de observaţie,
de explorare şi de cercetare. Prin metodele de statistic¼ a exploratorie multi-
dimensional¼ a, realitatea nu este doar simpli…cat¼ a - pentru c¼ a este complex¼ a,
ci şi explorat¼ a - pentru c¼a este ascuns¼ a. Munca de preg¼ atire şi de codi…care
a datelor, regulile de interpretare şi validare furnizate de tehnicile aplicate în
cazul multidimensional nu au simplitatea întâlnit¼ a în statistica descriptiv¼ a el-
ementar¼ a. Nu este vorba doar de a prezenta, ci şi de a analiza, a descoperi,
uneori de a veri…ca şi dovedi, eventual de a testa anumite ipoteze.
Aceast¼ a lucrare s-a constituit pornind de la cercet¼ arile efectuate în cadrul
grantului de excelenţ¼ a CEX05-D8-19/ 2006 "Sisteme suport pentru cultura
cunoaşterii bazate pe soluţii şi instrumente din domeniul BI (Business Intel-
ligence) - SSCBI" coordonat de Biblioteca Academiei Române (director de
proiect Cornel Lep¼ adatu).
Num¼ arul metodelor ce permit descrierea şi explorarea tabelelor rectan-
gulare de date statistice (tabele de m¼ asur¼atori-observaţii, tabele de contin-

vii
viii INTRODUCERE

genţ¼a, tabele de prezenţ¼


a-absenţ¼
a sau tabele de incidenţ¼
a) este destul de mare.
Metodele reţinute pentru a … prezentate au fost alese în funcţie de posibilit¼aţile
pe care le au de a manipula tabele voluminoase, de transparenţa funcţion¼ arii
lor, de calitatea inserţiei în evantaiul metodelor ce sunt în mod real aplicabile
şi aplicate.

fig. 1. Cele douA¼ mari familii de metode ale statisticii


exploratorii multidimensionale
Dou¼
a mari familii de metode r¼
aspund acestor exigenţe:

metodele exploratorii multidimensionale, bazate pe c¼ autarea axelor prin-


cipale (analiza în componente principale, analiza corespondenţelor sim-
ple şi multiple sunt metodele exploratorii cele mai utilizate) care produc,
în principal, vizualiz¼
ari gra…ce plane sau spaţiale ale obiectelor cercetate
(capitolul 1) ;

metodele de clasi…care, ce produc agreg¼ ari în clase de obiecte sau în


familii de clase ierarhizate, obţinute în urma unor calcule algoritmice.
Obiectele cercetate sunt grupate, pornind de la vectorii care le descriu,
în maniera cea mai puţin arbitrar¼ a (capitolul 2).

Punctele de vedere furnizate de cele dou¼ a tipuri de metode sunt în es-


enţ¼
a complementare. Vom insista asupra acestei complementarit¼ aţi care se
manifest¼ a de altfel la mai multe niveluri, …e c¼
a este vorba de posibilitatea de
a înţelege structuri diverse, …e c¼
a este vorba de a ajuta lectura rezultatelor
obţinute.
Metodele explicative uzuale (capitolele 3 şi 4) îl vor l¼
amuri pe utilizator
asupra vocaţiei speci…ce …ec¼arei metode (este vorba de analiza discriminant¼ a,
ix

de metodele de segmentare, de metodele de regresie şi de analiz¼ a dispersional¼a)


cât şi asupra leg¼ aturii cu metodele statisticii exploratorii, descrise în primele
dou¼a capitole. Acest evantai de tehnici acoper¼ a o parte important¼ a a aplicaţi-
ilor potenţiale ale statisticii.
Nu exist¼ a totuşi o metodologie general¼ a de articulare în practic¼a a metode-
lor exploratorii de baz¼ a (metode prezentate în capitolele 1 şi 2) cu metodele
explicative uzuale (prezentate în capitolele 3-4). Fiecare aplicaţie implic¼ a, în
funcţie de domeniu şi problem¼ a, o munc¼ a original¼a de codi…care şi selecţie a
metodelor particulare aplicate. În plus, trebuie s¼ a …m conştienţi de faptul c¼ a
metodele prezentate sunt e…ciente în special în cazul datelor nestructurate sau
amorfe (în care informaţia à priori asupra acestora este s¼ arac¼
a).
Trebuie menţionat faptul c¼ a exist¼
a o literatur¼a bogat¼ a privind tematica
acestei lucr¼ ari. Bibliogra…a ataşat¼ a const¼a numai dintr-o selecţie a lucr¼ arilor
pe care autorul le-a consultat şi care pot … g¼ asite cu uşurinţ¼
a în biblioteci.
Metodele prezentate au un pronunţat caracter matematic-aplicativ. Stu-
denţi, practicieni şi cercet¼atori din toate disciplinele ce trebuie s¼ a analizeze şi

a prelucreze volume mari de date multidimensionale, vor g¼ asi în aceast¼a lu-
crare metodele de baz¼ a necesare.
Trebuie s¼ a menţionez contribuţia Oanei Şerban la …nalizarea şi apariţia
acestei c¼arţi; dânsa a f¼acut observaţii utile, a redactat exemplele (prelucr¼ ari cu
soft-ul STATISTICA şi interpretarea rezultatelor obţinute) şi, nu în ultimul
rând, a introdus manuscrisul în LATEX.
Intenţia autorului este de a continua dezvoltarea materialului prezentat
aici într-o ediţie urm¼ atoare, în consecinţ¼a observaţiile şi sugestiile sunt bin-
evenite.
Bucureşti Denis En¼ achescu
x INTRODUCERE
Capitolul 1

METODE EXPLORATORII
MULTIDIMENSIONALE

Metodele exploratorii multidimensionale îşi propun s¼ a furnizeze reprezen-



ari sintetice ale unor mulţimi mari de valori numerice, în general sub forma
unor vizualiz¼ ari gra…ce. Pentru aceasta, se urm¼ areşte reducerea dimensiu-
nilor tabelului de date prin reprezentarea asociaţiilor între indivizi şi variabile
în spaţii de dimensiuni mici. Distanţele între liniile sau între coloanele unui
tabel dreptunghiular de valori numerice pot … întotdeauna calculate dar nu
este posibil¼ a vizualizarea imediat¼ a a acestora, reprezent¼ arile geometrice asoci-
ate implicând, în general, spaţii de dimensiuni superioare lui trei. Este nece-
sar s¼a proced¼ am la transform¼ ari şi aproxim¼ ari pentru a obţine o reprezentare
plan¼ a.
Metodele exploratorii vor c¼ auta, în consecinţ¼ a, subspaţii de dimensiuni
mici - unu, doi sau trei - care aproximeaz¼ a cel mai bine norul de puncte-
individ sau cel de puncte-variabi¼ a astfel încât vecin¼ at¼
aţile m¼asurate în aceste
spaţii s¼
a re‡ecte cât mai exact proximit¼ aţile reale. Se obţine astfel un spaţiu
de reprezentare, spaţiul factorial. Geometria norilor de puncte şi calculul
proximit¼ aţilor sau a distanţelor care decurg de aici difer¼ a în funcţie de natura
liniilor şi coloanelor tabelului analizat.
Coloanele tabelelor dreptunghiulare de date pot … variabile continue sau
variabile nominale sau categorii în cazul tabelelor de contingenţ¼ a. Liniile pot
… indivizi sau categorii. Natura informaţiilor, codi…carea, speci…citatea dome-
niului de aplicaţie vor introduce variante în cadrul metodei factoriale.
În cele ce urmeaza vor … prezentate trei tehnici fundamentale:

analiza în componente principale (secţiunea 1.2) se aplic¼ a tabelelor


de tip "variabile-indivizi" unde coloanele sunt variabile numerice con-
tinue şi liniile sunt indivizi, observaţii, obiecte, etc. Proximit¼
aţile între
variabile se interpreteaz¼ a în termeni de corelaţii. Proximit¼ aţile între
indivizi se interpreteaz¼ a în termeni de similitudini globale ale valorilor
observate.

1
2 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

analiza corespondenţelor simple (secţiunea 1.3) se aplic¼ a tabelelor


de contingenţ¼a, adic¼
a tabelelor ce conţin num¼ arul indivizilor care posed¼a
concomitent dou¼ a modalit¼ aţi a dou¼
a variabile nominale. Aceste tabele
au particularitatea c¼ a atât liniile cât şi coloanele lor joac¼a un rol iden-
tic în analiza corespondenţelor simple. Analiza furnizeaz¼ a reprezent¼ari
ale asociatiilor între liniile şi coloanele tabelelor bazate pe o distanţ¼ a
între pro…le (care sunt vectori de frecvenţe condiţionate) cunoscut¼ a sub
numele de distanţa 2 .

analiza corespondenţelor multiple (secţiunea 1.4) este o extindere


a domeniului aplicaţiilor analizei corespondenţelor simple, având totuşi
proceduri de calcul şi reguli de interpretare speci…ce. Ea face obiectul
unei menţiuni particulare datorit¼ a num¼ arului mare de aplicaţii la care se
preteaz¼a. Analiza corespondenţelor multiple este în mod deosebit adap-
tat¼
a la descrierea tabelelor mari de variabile nominale, cum sunt …şierele
de anchete socio-economice sau cele medicale. Liniile acestor tabele sunt,
în general, indivizi sau observaţii (pot exista câteva mii); coloanele sunt
modalit¼ aţi ale variabilelor nominale, cel mai adesea modalit¼
aţile r¼aspun-
surilor la întreb¼ ari.

Oricare ar … tipul tabelului de date, toate tehnicile factoriale au un nucleu


comun prezentat în secţiunea 1.1 sub forma unor preliminarii matematice.

1.1 Preliminarii matematice


1.1.1 Concepte metrice într-un spaţiu euclidian
Fie X mulţime oarecare, X 6= ?.

De…niţia 1.1.1 O metric¼a pe mulţimea X este o aplicaţie, d : X X!R,


care satisface urm¼
atoarele axiome :

a) d (x; y) = d (y; x) ; (8) x; y 2 X (simetric¼


a);

b) d (x; y) 0; (8) x; y 2 X (pozitiv¼


a);

c) d (x; y) = 0 , x = y; (8) x; y 2 X (idempotent¼


a);

d) d (x; y) d (x; z) + d (z; y) ; (8) x; y; z 2 X (inegalitatea triunghiului).

De…niţia 1.1.2 Dac¼ a d : X X ! R este o aplicaţie care satisface axiomele


(a) (c) şi în plus este satisf¼
acut¼
a axioma

d’) d (x; y) max (d (x; z) ; d (z; y)) ; (8) x; y; z 2 X


atunci d se numeşte ultrametric¼a pe X.
1.1. PRELIMINARII MATEMATICE 3

Observaţia 1.1.1
d ultrametric¼
a implic¼
a d metric¼
a.

De…niţia 1.1.3 Un spaţiu (ultra)metric este o pereche (X; d), unde X este o
mulţime nevid¼
a şi d este o (ultra)metric¼
a pe X.

De…niţia 1.1.4 O pseudometric¼a pe X este o aplicaţie, d : X X ! R; care


satisface :

a) d (x; y) = d (y; x) ; (8) x; y 2 X (simetric¼


a);

b) d (x; y) 0; (8) x; y 2 X (pozitiv¼


a);

c) d (x; x) = 0; (8) x 2 X.

O mulţime nevid¼ a înzestrat¼


a cu o psudometric¼
a se numeşte spaţiu pseudo-
metric.
Într-o alt¼
a terminologie, legat¼a de problema de clasi…care, o pseudomet-
ric¼
a se numeşte şi coe…cient de disimilaritate.

De…niţia 1.1.5 O pseudometric¼


a ce satisface, în plus, axioma

d’) d (x; y) = 0 ) x = y
se numeşte semimetric¼a.

Observaţia 1.1.2
Pentru oricare din spaţiile considerate mai sus d (x; y) se va numi distanţa
dintre x şi y în spaţiul (X; d).
Fie K un corp comutativ, X 6= ? înzestrat¼ a cu o operaţie intern¼
a
(adunare) şi cu operaţia de înmulţire cu scalari:

X X 3 (x; y) ! x + y 2 X;
K X 3 (a; x) ! ax 2 X

De…niţia 1.1.6 X se numeşte spaţiu vectorial (spaţiu liniar) peste K dac¼


a:

1. (x + y) + z = x + (y + z) ; (8) x; y; z 2 X;

2. (9) 0 2 X astfel încât x + 0 = x; (8) x 2 X;

3. (8) x 2 X; (9) ( x) 2 X astfel încât x + ( x) = 0;

4. x + y = y + x; (8) x; y 2 X;

5. 1x = x; (8) x 2 X;

6. a (bx) = (ab) x; (8) x 2 X şi (8) a; b 2 K;


4 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

7. (a + b) x = ax + bx; (8) x 2 X şi (8) a; b 2 K;

8. a (x + y) = ax + ay; (8) x; y 2 X şi (8) a 2 K:

Fie X un spaţiu vectorial peste R sau C.

De…niţia 1.1.7 Se numeşte produs scalar pe X o funcţie de dou¼


a variabile,
h ; i : X X ! R, pentru care sunt satisf¼
acute urm¼atoarele axiome:

1. hx; yi = hy; xi; (8) x; y 2 X;

2. hax; yi = a hx; yi ; (8) x; y 2 X şi (8) a 2 K:

3. hx + y; zi = hx; zi + hy; zi ; (8) x; y; z 2 X;

4. hx; xi 0; (8) x 2 X;

5. hx; xi = 0 , x = 0:

Observaţia 1.1.3
Dac¼
a X este spaţiu vectorial peste R atunci X se numeşte spaţiu vectorial real.

De…niţia 1.1.8 Se numeşte spaţiu euclidian, un spaţiu vectorial …nit dimen-


sional.
Spaţiul Rn înzestrat cu produsul scalar
n
X
hx; yi = xi yi
i=1

este un spaţiu euclidian. 1 0


x1
B C
Dac¼ a, x = @ ... A,
a un element din Rn se scrie ca un vector coloan¼
xn
atunci produsul scalar se mai scrie (x; y) = x0 y.

Observaţia 1.1.4
În R se mai pot de…ni şi alte produse scalare.

De…niţia 1.1.9 Doi vectori x; y se numesc ortogonali (perpendiculari) dac¼


a
hx; yi = 0.

De…niţia 1.1.10 O norm¼a pe un spaţiu vectorial de…nit peste corpul K este


o funcţional¼
a, k k : X ! R, pentru care sunt veri…cate axiomele :

1. kxk 0; (8) x 2 X (pozitiv¼


a);

2. kxk = 0 , x = 0 (pozitiv de…nit¼


a);
1.1. PRELIMINARII MATEMATICE 5

3. kaxk = jaj kxk ; (8) x 2 X şi (8) a 2 K (absolut omogen¼


a);

4. kx + yk kxk + kyk ; (8) x; y 2 X (subaditiv¼


a).

De…niţia 1.1.11 Un spaţiu vectorial înzestrat cu o norm¼


a se numeşte spaţiu
normat.
Observaţia 1.1.5
Orice spaţiu euclidian este normat în raport cu norma indus¼
a de produsul
1
scalar kxk = (x; x) 2 :
La rândul s¼
au, norma induce o distanţ¼
a
1
d (x; y) = kx yk = hx y; x yi 2 :

Rezult¼
a c¼
a orice spaţiu euclidian poate … înzestrat cu o metric¼
a generat¼
a de
produsul scalar.

1.1.2 Operatori liniari


Fie X un spaţiu vectorial de dimensiune n. Consider¼
am o baz¼
a, fe1 ; e2 ; : : : ; en g ;
în X şi …e U : X ! X, un operator liniar.
U ei este un vector din X deci se poate scrie ca o combinaţie liniar¼a de
vectorii bazei, adic¼
a:
X n
U ei = Aij ej ; i = 1; n:
j=1

Coe…cienţii Aij determin¼ a o matrice A de dimensiune n n numit¼ a


matricea operatorului U în baza e1 ; e2 ; : : : ; en .
Fie X spaţiu euclidian şi U operator liniar, U : X ! X . Se poate ar¼
ata

a exist¼
a U astfel încât

hU x; yi = hx; U yi ; x; y 2X

Operatorul U se numeşte adjunctul lui U .


Matricea operatorului U în orice baz¼ a ortogonal¼
a a spaţiului X este
transpusa matricei operatorului U în acea baz¼
a.
Un operator se numeşte autoadjunct dac¼a U = U . Matricea unui oper-
ator autoadjunct este simetric¼
a.

1.1.3 Vectori şi valori proprii


Fie X un spaţiu vectorial şi U : X ! X.

De…niţia 1.1.12 Un subspaţiu X0 al lui X se numeşte invariant în raport cu


operatorul U , dac¼
a (8) x 2 X0 ) U x 2 X0 , adic¼
a U (X0 ) X0 .
6 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Observaţia 1.1.6
Un rol deosebit îl joac¼ a subspaţiile invariante de dimensiune 1. Ele se numesc
direcţii invariante (direcţii proprii).

De…niţia 1.1.13 2 R se numeşte valoarea proprie a operatorului U dac¼


a
(9) x 2 X; x 6=0 astfel încât
U x = x;
iar x se numeşte vector propriu corespunz¼ ator valorii proprii .
Mulţimea valorilor proprii ale lui U se numeşte spectrul lui U .

De…niţia 1.1.14 Mulţimea tuturor vectorilor proprii ai unui operator U; core-


spunz¼ atori valorii proprii , la care se adaug¼a vectorul nul, se numeşte sub-
spaţiul propriu al lui U , corespunz¼
ator lui .

Propoziţia 1.1.1 ([15])


Vectorii proprii x1 ; x2 ; : : : ; xn ai unui operator U , corespunzând valorilor pro-
prii distincte 1 ; 2 ; : : : ; n , sunt liniar independenţi.

Observaţia 1.1.7
Într-un spaţiu n-dimensional niciun operator U nu poate avea mai mult de n
vectori proprii cu valori proprii distincte.

Propoziţia 1.1.2 ([15])


Subspaţiul propriu al unui operator liniar U , corespunz¼
ator unei valori proprii
este un spaţiu invariant al lui U .

Propoziţia 1.1.3 ([15])


Dac¼a U este un operator auto-adjunct acţionând pe un spaţiu euclidian şi
este o valoare proprie a lui U , atunci (9) x, vector unitar, astfel încât

= hU x; xi ; kxk = 1:

Propoziţia 1.1.4 ([15])


Orice operator autoadjunct U acţionând pe un spaţiu euclidian n-dimensional
are n vectori proprii unitari liniar independenţi, ortogonali doi câte doi.

1.1.4 Polinomul caracteristic


Fie A matricea operatorului liniar U într-o baz¼ a …xat¼
a. Dac¼a E este op-
eratorul identitate atunci operatorul U E va avea în aceast¼
a baz¼a matricea
A I, unde este I matricea identitate.
Dac¼ a x este un vector propriu al lui U , corespunz¼
ator valorii proprii ,
atunci:
(A I) x =0
iar x se mai numeşte vector propriu al lui A.
1.1. PRELIMINARII MATEMATICE 7

Dac¼ a A este matrice n n atunci egalitatea de mai sus reprezint¼ a un


sistem omogen de n ecuaţii cu n necunoscute. Sistemul admite o soluţie nenul¼
a
dac¼a şi numai dac¼
a det (A I) x =0.

De…niţia 1.1.15 Membrul stâng al ecuaţiei în

det (A I) x =0:

se numeşte polinomul caracteristic al matricei A.

Oric¼ arei r¼
ad¼acini a acestei ecuaţii îi corespunde cel puţin un vector pro-
priu al operatorului liniar U . Cum ecuaţia are cel puţin o r¼ ad¼ acin¼
a, real¼
a sau
complex¼ a, rezult¼
a c¼
a un operator liniar are cel puţin un vector propriu.
Fie A; matricea operatorului U într-o baz¼ a e …xat¼a şi A0 ; matricea
aceluiaşi operator într-o alt¼a baz¼ a, f . Operatorul U E; 2 R va avea
în baza e matricea A I, iar în baza f , matricea A 0 I. Cum determinantul
matricei unui operator nu depinde de alegerea bazei, rezult¼ a:

det (A I) = det A0 I :

Propoziţia 1.1.5 ([15])


Polinomul caracteristic al unui operator este invariant în raport cu alegerea
bazei.

Observaţia 1.1.8
Toate conceptele spectrale (spectrul, ordinele de multiplicitate ale valorilor
proprii) sunt invariante la o transformare a bazei.

Dac¼a A este matricea unui operator U în baza fe1 ; e2 ; : : : ; en g şi A0


este matricea aceluiaşi operator în baza ff1 ; f2 ; : : : ; fn g atunci un calcul simplu
arat¼
a c¼
a
A0 = B 1 AB

Dou¼a matrici, A şi A0 ; între care exist¼


a o asemenea egalitate se numesc
matrici asemenea (similare).
Din relaţia de mai sus rezult¼a

BA0 = AB ) det BA0 = det (AB) ) det B det A0 = det A det B:

Cum det B 6=0 ) det A0 = det A, adic¼ a determinantul matricei unui


operator nu depinde de alegerea bazei. Rezult¼
a:

Propoziţia 1.1.6 ([15])


Determinantul matricei unui operator este un invariant în raport cu alegerea
bazei spaţiului respectiv.
8 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Fie A; B dou¼
a matrici asemenea. Atunci (9) C matrice, astfel încât
1
B=C AC:

Se poate scrie, aşadar, succesiv:


1
det (B I) = det C AC I =
1 1
= det C (A I) C = det C det (A I) det C =
= det (A I) :

Rezult¼a: valoare proprie a lui B, valoare proprie a lui A. S-a


demonstrat astfel urm¼
atoarea propoziţie:

Propoziţia 1.1.7
Dou¼
a matrici asemenea au aceleaşi valori proprii.
Pentru a aduce polinomul caracteristic la o form¼
a convenabil¼
a, îl scriem
explicit
A11 A12 + 0 A1n + 0
A21 + 0 A22 A2n + 0
P( )=
An1 + 0 An2 + 0 Ann

Propoziţia 1.1.8
Polinomul caracteristic P ( ) al matricei A se poate scrie

P( )=( )n + I1 ( )n 1
+ : : : + In 1( ) + In

unde Ik este suma minorilor principali de ordinul k ai determinantului matricei


A.
Observaţia 1.1.9
1. Coe…cientul I1 al lui ( )n 1 coincide cu tr A. Termenul liber, In , este
determinantul lui A. Coe…cientul Ik al lui ( )k este suma minorilor
principali de ordinul k.

2. P ( ) = ( 1)n n I1 n + : : : + ( 1)n In . Notând cu mi ordinul de


1

multiplicitate al r¼
ad¼
acinii i şi ţinând cont de relaţiile între r¼
ad¼
acini şi
Q
p Pp
coe…cienţi rezult¼
a In = det (A) = ( i )mi şi I1 = tr A = mi i unde
i=1 i=1
mi > 0; i = 1; p; mj = 0 dac¼
a j > p.

3. Deoarece In = det (A) este un invariant, rezult¼ a c¼


a şi produsul valorilor
proprii ale unui operator este un invariant (nu depinde de alegerea bazei).

4. Deoarece dou¼ a matrici asemenea au valori proprii identice rezult¼


a c¼
a
matricile asemenea au determinanţii şi urma identice.
1.1. PRELIMINARII MATEMATICE 9

1.1.5 Baza vectorilor proprii


Propoziţia 1.1.9
a) O matrice real¼
a, simetric¼
a, are toate valorile proprii reale.

b) Vectorii proprii corespunzând la valori proprii distincte sunt ortogonali.

Propoziţia 1.1.10 ([15])


Matricea unui operator într-o baz¼ a format¼
a din vectorii s¼ai proprii este diag-
onal¼
a şi elementele de pe diagonal¼
a sunt valori proprii ale operatorului.
Demonstraţie. Fie A0 o matrice n n care se obţine din A prin intermediul
unei transform¼
ari de similaritate, adic¼
a

A0 = B 1
AB;

arii. Condiţia ca matricea A0 s¼


unde B este matricea transform¼ a …e di-
agonal¼
a se scrie : 0 1
1 0
B .. C
A0 = B 1 AB = @ . A
0 n

de unde se obţine imediat


0 1
1 0
B .. C
AB = B @ . A
0 n

Urmeaz¼
a c¼
a X
Aik Bkj = Bij j; i; j = 1; n:
k
Fixând indicele j obţinem n ecuaţii :
X
Aik Bkj = Bij j ; i = 1; n:
k
0 1
B1j
B C
Fie acum vectorul bj = @ ... A format cu elementele coloanei j a ma-
Bnj
tricei B.
Egalit¼
aţile de mai sus se pot scrie

Abj = j bj ;

deci bj este vector propriu al matricei A. Rezult¼ a deci c¼ a matricea transfor-


mat¼a A este diagonal¼a dac¼
a matricea B a transform¼ arii este aleas¼
a astfel încât
coloanele sale s¼
a …e vectori proprii ai matricei iniţiale A. Se poate ar¼ ata c¼ao
astfel de matrice exist¼
a dac¼a toate valorile proprii ale lui A sunt diferite.
10 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Propoziţia 1.1.11
O matrice A; real¼a şi simetric¼a, poate … adus¼
a la forma diagonal¼
a prin inter-
mediul unei transform¼ ari de similaritate

A0 = B 1
AB

dac¼
a valorile proprii ale lui A sunt distincte.

Propoziţia 1.1.12
Orice matrice real¼
a şi simetric¼a poate … adus¼
a la forma diagonal¼
a prin inter-
mediul unei transform¼ ari de similaritate.

1.1.6 Forme p¼
atratice
De…niţia 1.1.16 O form¼a biliniar¼a pe un spaţiu vectorial X este o apli-
caţie F : X X ! X, liniar¼ a în ambele argumente. Dac¼ a dim X = n şi
fe1 ; e2 ; : : : ; en g este o baz¼
a în X, atunci forma biliniar¼
a F se poate scrie:
n X
X n
F (x; y) = Aij xi yj;
i=1 j=1

unde F ei ; ej = Aij ; i; j = 1; n. Coe…cienţii Aij sunt elementele unei matrice



atrate A, numit¼
a matricea formei biliniare F , în baza fe1 ; e2 ; : : : ; en g.

Se observ¼
a c¼
a relaţia de de…niţie se mai poate scrie:

F (x; y) = x0 Ay:

De…niţia 1.1.17 O form¼


a biliniar¼
a se numeşte simetric¼a dac¼
a

F (x; y) = F (y; x) ; x; y 2X

Observaţia 1.1.10
Matricea unei forme biliniare simetrice este simetric¼
a.

De…niţia 1.1.18 O form¼ a biliniar¼


a pe X în care y = x se numeşte form¼a
p¼atratic¼a pe X.
F (x; y) se numeşte f orma biliniar¼a polar¼a a formei F (x; x).

Propoziţia 1.1.13
Forma polar¼
a F (x; y) este unic determinat¼
a de forma ei p¼
atratic¼
a.

Într-o baz¼
a …xat¼
a, forma p¼
atratic¼
a F se scrie:
n X
X n
F (x; x) = Aij xi xj = x0 Ax:
i=1 j=1
1.1. PRELIMINARII MATEMATICE 11

De…niţia 1.1.19 Forma p¼ a x0 Ax şi matricea A se numesc pozitiv semi-


atratic¼
de…nite dac¼
a
x0 Ax 0; (8) x 2 X
şi pozitiv de…nite dac¼
a

x0 Ax > 0; (8) x 2 X; x 6= 0:

Observaţia 1.1.11
1. Condiţia ca A s¼ a se mai scrie x0 Ax = 0 ) x = 0.
a …e pozitiv de…nit¼

2. Produsul scalar este o form¼a biliniar¼


a simetric¼
a corespunz¼
atoare unei
forme p¼atratice pozitiv de…nite. Rezult¼a c¼
a produsul scalar se poate
exprima sub forma hx; yi = x0 Ay, unde A este o matrice simetric¼ a,
pozitiv de…nit¼
a.
Distanţa indus¼
a de o norm¼
a generat¼
a de un produs scalar se va scrie

d2 (x; y) = kx yk2 = hx y; x yi

şi deci distanţa are forma

d2 (x; y) = (x y)0 A (x y) :

Pentru diferite alegeri obţinem diferite tipuri de distanţe. Astfel, dac¼


a
A este matricea unitate, obţinem distanţa euclidian¼a
n
X
d2 (x; y) = (xi yi )2 ;
i=1

unde x1 ; x2 ; : : : ; xn sunt componentele vectorului în baza considerat¼


a.

Propoziţia 1.1.14
Dac¼ a, atunci x0 Ax = 0 ) Ax = 0.
a A este o matrice pozitiv semide…nit¼

Propoziţia 1.1.15
Fie A pozitiv semide…nit¼ a. Matricea A este pozitiv de…nit¼
a , este nesingu-
a. În acest caz şi matricea A 1 este pozitiv de…nit¼
lar¼ a.

Propoziţia 1.1.16
Dac¼a matricea A de dimensiuni n n este simetric¼ a şi pozitiv semide…nit¼ a
0
atunci, (8) B de dimensiuni n n, matricea B AB este simetric¼ a şi pozitiv
0
semide…nit¼a. Dac¼
a rang B = m şi A este pozitiv de…nit¼a, atunci B AB este
pozitiv de…nit¼
a.

Observaţia 1.1.12
0 1B
Dac¼ a A este pozitiv de…nit¼
a şi rang B = m atunci B A este pozitiv de…nit¼
a
şi deci inversabil¼
a.
12 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Propoziţia 1.1.17
Matricea A este pozitiv de…nit¼
a , toţi minorii s¼
ai principali sunt pozitivi,
adic¼
a:
a a
a11 > 0; det 11 12 ; : : : ; det A >0:
a21 a22
A este pozitiv semide…nit¼
a , minorii principali sunt nenegativi.

Propoziţia 1.1.18
Fie A simetric¼
a. A este pozitiv semide…nit¼
a , valorile sale proprii sunt neneg-
ative.
Propoziţia 1.1.19
Fie A simetric¼
a. A este pozitiv de…nit¼
a , toate valorile sale proprii sunt
pozitive.

1.1.7 Derivarea. Metoda multiplicatorilor lui Lagrange pentru


forme p¼
atratice
De…niţia 1.1.20 Dac¼ a funcţia f : Rn ! R este derivabil¼ a parţial în raport
cu toate variabilele x1 ; x2 ; : : : ; xn în punctul x, punctul rf (x) de…nit prin
0 1
@f (x)
B @x. 1 C
rf (x) = B
@ .. A
C
@f (x)
@xn

se numeşte gradientul funcţiei f în punctul x.

De…niţia 1.1.21 Fie A Rn o mulţime nevid¼a şi f : A ! R. Funcţia f


se numeşte diferenţiabil¼a Fréchet în punctul x0 2 A dac¼ a exist¼
a o funcţional¼
a
a F : Rn ! R astfel încât
liniar¼
f x0 + h f x0 F (h)
lim = 0:
khk!0 khk

Propoziţia 1.1.20
a A Rn şi funcţia f : A ! R este diferenţiabil¼
Dac¼ a Fréchet în punctul x0 ,
atunci exist¼
a o unic¼
a funcţional¼
a liniar¼
a F cu proprietatea

f x0 + h f x0 F (h)
lim = 0:
khk!0 khk

De…niţia 1.1.22 Dac¼ a funcţia f : A ! R; A Rn este diferenţiabil¼ a Fréchet


0
în punctul x , funcţionala care veri…c¼ a egalitatea din de…niţia 1.1.21 se nu-
meşte derivata Fréchet a funcţiei f în x0 şi se noteaz¼
a d f x0 , iar valoarea
ei în punctul h, F (h) = d f x (h) se numeşte diferenţiala funcţiei f în x0
0

cu creşterea h.
1.1. PRELIMINARII MATEMATICE 13

Propoziţia 1.1.21
Dac¼a funcţia f : Rn ! R este diferenţiabil¼a în punctul x0 , atunci f este
a parţial în raport cu toate componentele din x0 şi are loc egalitatea
derivabil¼
n
X
0 0 @f (x)
d f x (h) = rf x ; h = hi ; (8) h 2 Rn :
@xi
i=1

Observaţia 1.1.13
Dac¼ a în x0 , atunci derivata d f x0 a lui f în punctul x0
a f este diferenţiabil¼
se poate reprezenta prin gradientul lui f în x0 , adic¼ a:
0 1
@f (x0 )
B @x1 C
0 0 B . C
d f x = rf x = B .. C
@ A
@f (x0 )
@xn

a se va utiliza pentru rf x0 şi notaţia @f


În cele ce urmeaz¼ 0
@x x .

De…niţiile şi rezultatele de mai sus se extind uşor pentru o funcţie g :


Rn ! Rm . În acest caz derivata în punctul x0 se reprezint¼ a printr-o matrice
0 0 1
01 @g1 (x0 ) @g1 (x0 )
rg1 x0
@g 0 B .. C B B
@x1 @xn C
C:
x = rg x0 = @ . A = @ A
@x 0 0
@gm (x ) 0
@gm (x )
rg x0 m @x1 @xn

De…niţia 1.1.23 Fie I R şi f : I ! R. Prin derivata funcţiei f în punctul


x0 în raport cu matricea A de dimensiuni n m se înţelege matricea
0 1
@f (x 0 ) @f (x 0 )
@f x0 B @a11 @a1m C
=B @
C:
A
@A 0
@f (x ) 0
@f (x )
@an1 @anm

Propoziţia 1.1.22
a x; y 2Rn şi M este matrice atunci:
Dac¼
@ @
a) @x (x0 y) = @x (y0 x) = y;
@
b) @y (x0 My) = M0 x;

c) @
@x (x0 Mx) = Mx + M0 x;
@
d) @x (x0 My) = My;
@
e) @x (Mx) = M;
@
f) @M (x0 My) = xy0 :
14 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Observaţia 1.1.14
@
Dac¼a M este matrice simetric¼a atunci c) devine @x (x0 Mx) = 2Mx. Dac¼
aM
@
este matrice unitate atunci @x (x0 x) = 2x.
Fie F (x; x) = x0 Ax; x 2 Rn o form¼ a p¼
atratic¼a simetric¼
a. Consider¼
am
valorile formei p¼atratice F pe sfera unitate, adic¼ a pentru acei x pentru care
kxk2 = (x; x) = 1. Ne intereseaz¼ a care dintre punctele sferei unitate sunt
@
puncte staţionare pentru F , adic¼ a veri…c¼a ecuaţia @x F (x; x) = 0. Punctele
de extrem se vor g¼ asi printre punctele staţionare. Problema determin¼ arii
punctelor staţionare este o problem¼ a de extrem condiţionat, pentru rezolvarea
areia vom folosi metoda multiplicatorilor lui Lagrange. Restricţia kxk2 = 1

se mai scrie :
g (x) = 1 x0 x =0;
deci avem problema:
F (x; x) ! min
:
g (x) = 0
Conform metodei lui Lagrange, construim funcţia L : Rn R ! R,

L (x; ) = F (x; x) + g (x)

care se mai scrie şi


L (x; ) = x0 Ax + x0 x 1 :
Condiţiile necesare ca punctul x0 ; 0 s¼a …e un punct de extrem cu
leg¼
aturi sunt:
@L x0 ; 0 @L x0 ; 0
= 0; = 0:
@x @
Deoarece A este matrice simetric¼a prima ecuaţie devine:

2Ax 2 x =0 ) Ax = x:

Rezult¼
a c¼
a:
Propoziţia 1.1.23
Vectorii sferei unitate care sunt vectorii proprii ai matricei A asociate unei
forme p¼atratice simetrice
F (x; x) = x0 Ax;
reprezint¼
a puncte staţionare ale lui F .
Valorile formei p¼
atratice în punctele staţionare sunt date de

F (x; x) = x0 Ax = x0 x = kxk2 :

Rezult¼
a c¼
a valoarea formei p¼atratice F (x; x) = x0 Ax într-un punct
staţionar x este egal¼
a cu valoarea proprie corespunz¼atoare a matricei A a
formei p¼atratice.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 15

În particular, maximul (minimul) formei p¼ atratice simetrice F (x; x) pe


sfera unitate este egal cu cea mai mare (cea mai mic¼ a) valoare proprie a lui
A.
Vectorul propriu corespunzând celei mai mari valori proprii este un vector
ce porneşte din origine şi trece prin punctul de pe sfera unitate în care este
atins maximul.

1.2 Analiza în componente principale (ACP)


Inventat¼a de Karl Pearson în 1901 şi introdus¼ a în statistica matematic¼ a
de Harold Hotelling în 1933, analiza în componente principale a început s¼ a …e
utilizat¼
a efectiv odat¼
a cu apariţia şi extinderea calculatoarelor electronice.
Analiza în componente principale, ACP, poate … prezentat¼ a din diverse
puncte de vedere:

pentru statisticianul clasic, analiza în componente principale înseamn¼ a


a estima, pornind de la un eşantion dat, axele principale ale elipsoidului
indicator al unei distribuţii normale multidimensionale. Aceasta este
prezentarea inţial¼
a a lui Hotelling urmat¼a apoi de manualele clasice de
analiz¼
a multivariat¼a (cazul lucr¼
arii fundamentale [2]);

pentru psihologi, analiza în componente principale este un caz particular


de analiz¼
a factorial¼
a utilizat¼
a în psihometrie (cazul dispersiilor nule sau
egale, conform [33]);

în …ne, pentru analiştii de date, analiza în componente principale este o


tehnic¼a de reprezentare a datelor cu un caracter optimal din punct de
vedere al unor criterii algebrice sau geometrice, utilizat¼ a, în general, f¼
ar¼
a
vreo referire la ipoteze de natur¼ a statistic¼
a sau la un model particular.
Acest punct de vedere, adoptat în cele ce urmeaz¼ a, este foarte r¼aspândit
la ora actual¼a. Este probabil cel mai vechi punct de vedere, reg¼ asindu-se
în lucr¼
arile lui Pearson. Desigur, în prezentarea acestuia nu este vorba
de analiza în componente principale aşa cum este ea expus¼ a ast¼
azi, dar
pot … deja întrev¼azute ideile esenţiale ale metodei. O discuţie mai larg¼ a
asupra acestui subiect se g¼ aseşte în articolul de sintez¼a [51].

Analiza în componente principale este utilizat¼


a pentru a pune în evidenţ¼
a:

sistemul de relaţii existente între variabile (asocierea sau opoziţia lor);

reprezentarea indivizilor în raport cu variabilelele observate (indivizi care


prezint¼
a caracteristici comune sau antagoniste).

Eventualul utilizator al analizei în componente principale trebuie s¼


a posede
un tabel dreptunghiular de m¼ asur¼atori în care coloanele reprezint¼
a variabile
16 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

numerice continue, sau care pot … considerate continue, iar liniile reprezint¼ a
indivizii pe care au fost m¼ asurate aceste variabile. În biometrie se procedeaz¼ a
frecvent la multiple m¼ asur¼
atori asupra unor organe sau animale, în economie
se înregistreaz¼
a diverşi indicatori privind agenţii economici.
Într-o manier¼ a general¼
a, condiţia pe care trebuie s¼
a o îndeplineasc¼
a aceste
tabele numerice pentru a face obiectul unei analize în componente principale
este urm¼ atoarea: una dintre dimensiunile tabelului (liniile în general) este
format¼a din unit¼aţi avînd caracter repetitiv, cealalt¼a dimensiune poate … mai
degrab¼a eterogen¼a. În exemplele de mai jos liniile au acest caracter repetitiv.
Acestea vor … numite indivizi sau observaţii. Coloanele vor … desemnate ca
variabile. Uneori liniile pot … considerate ca realiz¼ ari independente ale unor
vectori aleatori ale c¼ aror componente corespund la diferite variabile. Dup¼ a
provenienţa variabilelor, trei mari categorii de tabele pot face obiectul unui
demers de analiz¼ a în componente principale:

1. Tabelele de m¼asur¼ atori: variabilele sunt obţinute în urma unui sondaj


sau recens¼
amânt şi sunt cantitative.
tabelul 1.2.1. Consumul mediu anual În 1972, exprimat în
franci francezi, pentru 7 tipuri de alimente,
în cazul a 8 categorii socio-profesionale

PAO PAA VIO VIA POT LEC


¼
ŢARANI 167 1 163 23 41 8
SALARIAŢI AGRICOLI 162 2 141 12 40 12
LIBER PROFESIONIŞTI 119 6 69 56 39 5
CADRE SUPERIOARE 87 11 63 111 27 3
CADRE MEDII 103 5 68 77 32 4
FUNCŢIONARI 111 4 72 66 34 6
MUNCITORI 130 3 76 52 43 7
INACTIVI 138 7 117 74 53 8
(Surs¼a: A. Villeneuve, La consommation alimentaire des Français, collections
de l’INSEE, M34)

2. Tabelele de note: variabilele sunt obţinute în urma unor notaţii.


Notele sunt variabile calitative ce pot …, în general, asimilate cu vari-
abilele cantitative.
tabelul 1.2.2. Notele obŢ inute de 4 studenŢ i la 3 materii

¼
MATEMATICA ¼
FIZICA ¼
ENGLEZA
STUD1 9 8 8
STUD2 10 9 6
STUD3 9 7 10
STUD4 7 5 10
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 17

3. Tabelele de ranguri: variabilele sunt obţinute în urma unor clasa-


mente şi sunt variabile calitative ordinale care pot … transformate în
variabile continue.
tabelul 1.2.3. Clasamentul tablourilor a trei pictori,
PIC1 PIC3, realizat de patru experŢ i A D.

A B C D
PIC1 1 3 2 1
PIC2 3 1 1 3
PIC3 2 2 3 2

Dup¼ a cum vom vedea, în funcţie de transform¼arile aduse tabelului de


date, analiza în componente principale prezint¼a numeroase variante: norul
de puncte-indivizi poate … centrat sau nu, redus sau nu. Dintre aceste vari-
ante, analiza în componente principale normat¼a (central-redus¼
a) este cea mai
utilizat¼
a.

1.2.1 Date şi caracteristicile lor


Se presupune c¼ a dispunem de observaţii asupra a p variabile continue
m¼asurate pe n indivizi. Valorile sunt "listate" într-un tabel de n linii şi p
j=1;p
coloane. Not¼ am cu X = (xij )i=1;n matricea asociat¼a tabelului, unde xij este
valoarea luat¼ a de variabila j m¼ asurat¼a pe individul i.
O variabil¼a este identi…cat¼ a prin vectorul-coloan¼ a j al tabelului X (no-
taţie xj ) iar un individ prin vectorul-linie i (notaţie xi ).
Dac¼ a datele nu au fost culese în urma unui sondaj aleator cu probabilit¼aţi
egale atunci …ec¼ arui individ i i se atribuie o pondere1 pi , conform importanţei
pe care o are în studiul întreprins.

De…niţia 1.2.1 Se numeşte matrice (sau metric¼a) de ponderi matricea


X
D = diag (p1 ; : : : ; pn ) ; unde pi > 0; (8) i = 1; n şi pi = 1:
i

În cazul indivizilor echiponderaţi D = n1 In , unde In este matricea iden-


titate de dimensiune n.

a not¼ am c¼ a xj poate … interpretat ca o selecţie de volum n asupra
variabilei j şi c¼
a, în acest context:

- media de selecţie a variabilei j este


X
m (xj ) xj = pi xij ,
i
1
Termenii de "pondere" sau "mas¼ a" sunt utilizaţi cu acelaşi sens în statistic¼
a şi desem-
neaz¼
a adesea frecvenţele relative sau probabilit¼
aţile a priori.
18 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

- dispersia de selecţie a variabilei j este

X
s2 (xj ) s2j = pi (xij xj )2 ,
i

- covarianţa de selecţie a variabilelor j şi j 0 este


X
cov xj ; xj 0 vjj 0 = pi (xij xj ) xij 0 xj 0 ,
i

- coe…cientul de corelaţie de selecţie a variabilelor j şi j 0 este


vjj 0
cor xj ; xj 0 rjj 0 = :
sj sj 0

De…niţia 1.2.2 Se numeşte punct mediu (centru de greutate) al norului de


puncte-individ fei gni=1 vectorul g0 = (x1 ; : : : ; xp ).

Se observ¼
a c¼
a:

g = X0 D1n unde 10n = (1; : : : ; 1) 2 Rn :

Într-adev¼
ar,
0 10 10 1
x11 x21 : : : xn1 p1 0 : : : 0 1
Bx12 x22 C B C B
: : : xn2 C B 0 p2 : : : 0 C B1C
B C
X0 D1n = B . .. C B .. C B .. C =
@ .. . A @ . A @ .A
x1p x2p xnp 0 0 : : : pn 1
0 10 1
p1 x11 p2 x21 pn xn1 1
Bp1 x12 p2 x22 : : : pn xn2 C B1C
B CB C
= B . .. C B .. C =
@ .. . A @.A
p1 x1p p2 x2p pn xnp 1
X X X 0
pi xi1 pi xi2 : : : pi xip 0
= = x1 x2 : : : xp = g:
i i i

De…niţia 1.2.3 Se numeşte tabel centrat asociat lui X matricea

Y = (yij )j=1;p
i=1;n
unde yij = xij xj :

Se numeşte tabel centrat-redus asociat lui X matricea


yij
Z = (zij )j=1;p
i=1;n
unde zij = :
sj
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 19

Lema 1.2.1
a) Y = X 1n g0 = (In 1n 10n D) X.

1 1
b) Z = YD 1 unde D 1 = diag s1 ; : : : ; sp .
s s

c) Matricea de varianţ¼
a-covarianţ¼
a asociat¼
a tabelului X este
V = X0 DX gg0 = Y0 DY:

d) Matricea de corelaţie asociat¼


a tabelului X este
R = D 1 VD 1 = Z0 DZ:
s s

Demonstraţie. a) Conform de…niţiei,


0 1
x11 x1 x12 x2 : : : x1p xp
B x21 x1 x22 x2 : : : x2p xp C
B C
Y = B .. .. C=
@ . . A
xn1 x1 xn2 x2 : : : xnp xp
0 1 0 1
x11 x12 : : : x1p x1 x2 : : : xp
B x21 x22 : : : x2p C Bx1 x2 : : : xp C
B C B C
= B . .. C B .. .. C =
@ .. . A @. .A
xnp xn2 xnp x1 x2 xp
0 1 0 1
x11 x12 ::: x1p 1
B x21 x22 ::: x2p C B1C
B C B C
= B . .. C B .. C x1 x2 : : : xp = X 1n g 0
@ .. . A @.A
xnp xn2 xnp 1
dar
0
X 1n g0 = X 1n X0 D1n =X 1n 10n DX = In 1n 10n D X:
b) Rezult¼ a imediat din de…niţia lui Z:
c) Relaţia V = Y0 DY rezult¼ a din de…niţia lui V: Pe de alt¼
a parte,
X
vkk0 = pi (xik xk ) (xik0 xk0 ) =
i
X X X X
= pi xik xik0 pi xik xk0 pi xk xik0 + pi xk xk0 =
i i i i
X X X X
= pi xik xik0 xk0 pi xik xk pi xik0 + xk xk0 pi =
i i i i
X X
= pi xik xik0 xk0 xk xk xk0 + xk xk0 = pi xik xik0 xk xk0
i i
X
=) V = X0 DX gg0 ; am folosit faptul c¼
a xk = pi xik
i
20 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

d)
0
R = D 1 VD 1 = D 1 Y0 DYD 1 = YD 1 D YD 1 = Z0 DZ
s s s s s s

unde prima egalitate rezult¼


a din de…niţia lui R.
Observaţia 1.2.1P
n
Relaţia Z0 DZ = pi ei e0i este o formul¼
a util¼
a implement¼
arii pe calculator a
i=1
metodei deoarece evit¼
a introducerea în memoria RAM a întregii matrici X.

1.2.1.1 SPAŢIUL INDIVIZILOR


a analiz¼
am exemplul din tabelul 1.2.2.:

MATEMATICA FIZICA ENGLEZA


STUD1 9 8 8
STUD2 10 9 6
STUD3 9 7 10
STUD4 7 5 10
Individul stud1 este “caracterizat”de cele trei note obţinute: 9 la matem-
atic¼
a, 9 la …zic¼a şi 8 la englez¼
a. La fel şi indivizii stud2 stud4. Reamintim
a notaţia pentru individul i este e0i . Aşadar, pentru exemplul de mai sus:

e01 = (9 8 8), e02 = (10 9 6) etc.
În general, un individ e0i este de…nit de p coordonate corespunzând valo-
rilor celor p variabile m¼ asurate pe acest individ. Îl putem, deci, considera ca un
element dintr-un spaţiu vectorial F Rp , pe care îl numim spaţiul indivizilor
(…g. 1.2.1.). Mulţimea celor n indivizi formeaz¼ a un "nor de puncte-individ"
în spaţiul F, cu g centrul de greutate al norului. În continuare vom înzestra
acest spaţiu cu o metric¼ a ce permite de…nirea distanţei dintre indivizi.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 21

fig. 1.2.1. Principiul reprezentA¼ rii geometrice

Fie M 2Mp;p (R), o matrice simetric¼


a, pozitiv de…nit¼
a, de dimensiune p,
cu coe…cienţi reali.

De…niţia 1.2.4 Se numeşte matricea produsului scalar între indivizi matricea

W = (wij )j=1;n
i=1;n
, unde wij = hei ; ej i

şi hei ; ej i = e0i Mej este produsul scalar pe spaţiul F de…nit de metrica M.

Se observ¼
a c¼
a
W = XMX0
a distanţa dintre doi indivizi, ei şi ej ; din spaţiul F este dat¼
şi c¼ a de relaţia

d2 (ei ; ej ) = hei ej ; ei ej iM = kei ej k2M

În teorie, alegerea metricii depinde de utilizator, singurul care poate pre-


ciza metrica adecvat¼ a. În practic¼
a, metricile cele mai uzitate în ACP sunt:

M = Ip ; ce induce produsul scalar uzual şi distanţa euclidian¼


a;

M = D 1 : Utilizarea acestei metrici revine la adimensionalizarea vari-


s2
abilelor deoarece …ecare valoare este împ¼ arţit¼
a cu abaterea standard de
x
atoare ( sijj ).
selecţie a variabilei corespunz¼

Metrica M = Ip d¼ a …ec¼
arei variabile aceeaşi importanţ¼
a, independent de
dispersia sa. Utilizarea ei va privilegia variabilele cu dispersie mare, pentru
care diferenţele între indivizi sunt mari, şi va neglija diferenţele între cele-
lalte variabile. În schimb metrica M = D 1 echilibreaz¼ a in‡uenţa variabilelor
s2
transformându-le în variabile cu dispersia de selecţie unu.

Observaţia 1.2.2
Dac¼
a M = diag (m1 ; : : : ; mp ) atunci
p
X
d2 (ei ; ej ) = mk (xik xjk )2
k=1

p
iar coe…cienţii mk k=1;p pot … consideraţi ca ponderi ale variabilelor xj în
distanţa dintre indivizi.

Lema 1.2.2
Matricea produsului scalar între indivizi poate … întotdeauna exprimat¼
a în
funcţie de metrica Ip .
22 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Demonstraţie. Într-adev¼ ar, dac¼


a M este simetric¼ a şi pozitiv de…nit¼
a atunci
ea poate … scris¼ a ca M = T0 T (conform algoritmului lui Cholesky din [15]).
Atunci hei ; ej iM = e0i Mej = e0i T0 Tej = (Tei )0 (Tej ) = (Tei )0 Ip (Tej ), ceea
ce înseamn¼ a c¼a W = (XT0 ) Ip (TX0 ), adic¼
a W este matricea produsului scalar
al tabelului XT0 faţ¼
a de metrica M = Ip .

Corolarul 1.2.1
Utilizarea metricii M = D 1 pentru tabelul Y revine la folosirea metricii
s2
M = Ip pentru tabelul centrat-redus Z.
Reamintim c¼ a ipoteza fundamental¼a a unui demers ACP este aceea c¼ a în-
treaga informaţie este conţinut¼
a în distanţele dintre punctele-individ ale noru-
lui. Acest lucru justi…c¼ a”2 .
a introducerea noţiunii de “inerţie total¼

De…niţia 1.2.5 Se numeşte inerţie total¼a (global¼a) a norului de puncte-individ


media ponderat¼ a a p¼atratelor distanţelor de la punctele-individ la centrul de
greutate al norului, adic¼
a:
n
X n
X
Ig = pi (ei g)0 M (ei g) = pi kei gk2M :
i=1 i=1

Prin analogie, inerţia într-un punct oarecare, a 2 Rp , se de…neşte ca …ind


Pn
Ia = pi kei ak2M :
i=1

Propriet¼ aţile inerţiei globale, puse în evidenţ¼


a de enunţurile de mai jos,
sunt utile în demersul ce urmeaz¼ a.
Propoziţia 1.2.1 (formula lui Huygens)
Inerţia faţ¼
a de un punct satisface urm¼
atoarea relaţie:

Ia = Ig + (g a)0 M (g a) = Ig + kg ak2M

Demonstraţie. Într-adev¼
ar,
n
X
Ia = pi (ei a)0 M (ei a) =
i=1
Xn
= pi [(ei g) + (g a)]0 M [(ei g) + (g a)] =
i=1
Xn n
X
= pi (ei g)0 M (ei g) + pi (ei g)0 M (g a) +
i=1 i=1
n
X n
X
+ pi (g a)0 M (ei g) + pi (g a)0 M (g a) :
i=1 i=1
2
Termenul inerţie este împrumutat din mecanic¼
a şi este sinonim, în acest context, cu
termenul statistic dispersie.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 23

Se observ¼
a c¼ a produsul (g a)0 M (g
a primul termen al sumei este chiar Ig , c¼ a)
Pn
nu depinde de i, c¼
a a produsele (ei g)0 M (g a) şi
pi = 1 şi c¼
i=1
(g a)0 M (ei g) sunt scalare. Cu aceasta egalitatea de mai sus devine
" n ! n
!#
X X
0 0 0 0
Ia = Ig + 2 pi ei Mg g Mg + g Ma pi ei Ma +
i=1 i=1
+ kg ak2M
P
n
a b0 = (Mg)0 = (b1 ; : : : ;bp ) şi reamintind c¼
Se noteaz¼ a gj = pi xij rezult¼
a
i=1
n
X X p
X p
X
0 0
pi ei Mg g Mg = pi xij bj gj b j =
i=1 i j=1 j=1
p
! p
X X X
= bj pi xij gj bj = 0:
j=1 i j=1

P
n
Analog g0 Ma pi ei 0 Ma = 0.
i=1

Corolarul 1.2.2
Pentru un nor de puncte-individ dat, g, centrul de greutate al norului, mini-
mizeaz¼
a inerţia total¼
a.
Lema 1.2.3
Inerţia total¼
a este media p¼
atratelor distanţelor dintre punctele-individ, adic¼
a:
n X
X n
2Ig = pi pj kei ej k2M :
i=1 j=1

Demonstraţie. Se aplic¼ a formula lui Huygens pentru …ecare punct-individ,


apoi se adun¼
a cele n relaţii.
p1 Ie1 = p1 Ig + ke1 gk2M
p1 Ie2 = p2 Ig + ke2 gk2M
..
.
p1 Ien = pn Ig + ken gk2M
n
X n
X n
X
pj Iej = pj Ig + pj kei gk2M )
j=1 j=1 j=1
n
X n
X
pj pi kei ej k2M = Ig + Ig :
j=1 i=1
24 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Lema 1.2.4 P
n
1. Ig = tr (MV) = tr (VM), unde cu tr (A) = aii s-a notat urma
i=1
matricii A 2Mn;n (R) :

2. Dac¼a centrul de greutate al norului este în originea axelor de coordonate,


adic¼
a g = 0, atunci Ig = tr (WD) = tr (DW).
Demonstraţie.
1. Într-adev¼
ar
n
X n
X
tr (MV) = tr MY0 DY = Myi pi yi0 = pi (ei g)0 M (ei g) = Ig :
i=1 i=1

Analog tr (VM) = Ig :
P
n
2. Dac¼
a g = 0 atunci Ig = pi ei 0 Mei . Pe de alt¼
a parte,
i=1

n
X n
X
0 0
tr (WD) = tr XMX D = ei Mei pi = Ig = pi ei 0 Mei =
i=1 i=1
= tr DXMX0 = tr (DW) :

Observaţia 1.2.3
1. Dac¼a M = Ip inerţia este egal¼
a cu suma dispersiilor de selecţie a celor p
variabile.

2. Dac¼
a M = D 1 atunci Ig = tr D 1 V = tr D 1 VD 1 = tr (R) =
s2 s2 s s
Pp P
p
rjj = 1 = p; aşa cum rezult¼
a din Lema 1.2.4. Inerţia este, în acest
j=1 j=1
caz, egal¼
a cu num¼
arul variabilelor şi nu depinde de valorile acestora.

1.2.1.2 SPAŢIUL VARIABILELOR


Fiecare variabil¼
a xj poate … considerat¼
a ca un vector al unui spaţiu vec-
n
torial E R numit spaţiul variabilelor. Mulţimea celor p variabile formeaz¼ a
un "nor de puncte-variabil¼ a" în E (…g. 1.2.1.). Metrica utilizat¼a în spaţiul
variabilelor este dat¼
a de D, matricea diagonal¼ a a ponderilor indivizilor. Cu
acestea se observ¼a:
Lema 1.2.5
Dac¼
a variabilele sunt centrate atunci:

a) produsul scalar indus de metrica D este egal cu covarianţa de selecţie


dintre cele dou¼
a variabile necentrate;
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 25

b) norma ("lungimea") unei variabile este egal¼


a cu abaterea standard de
selecţie a variabilei necentrate;

c) unghiul dintre dou¼ a variabile este egal cu coe…cientul de corelaţie liniar¼


a
de selecţie al variabilelor necentrate.

Demonstraţie. Într-adev¼
ar:
P
n
1. hyj ; yk iD = yj0 Dyk = pi (xij xj ) (xik xk ) = cov (xj ; xk ) :
i=1

P
n
2. kyj k2D = hyj ; yj iD = yj0 Dyj = pi (xij xj )2 =s2 (xj ).
i=1

3. Fie jk unghiul dintre variabilele yj şi yk . Atunci

hyj ; yk iD cov (xj ; xk ) vjk


cos ( jk ) = = = = cor (xj ; xk ) :
kyj kD kyk kD s (xj ) s (xk ) sj sk

Corolarul 1.2.3
a) Mediile de selecţie ale variabilelor fyj gpj=1 sunt nule, dispersiile de se-
lecţie sunt egale cu dispersiile de selecţie ale variabilelor fxj gpj=1 şi coe-
…cienţii de corelaţie de selecţie sunt egali cu coe…cienţii de corelaţie de
selecţie ai variabilelor fxj gpj=1 .

b) Mediile de selecţie ale variabilelor fzj gpj=1 sunt nule, dispersiile de se-
lecţie sunt unitare şi coe…cienţii de corelaţie liniar¼
a de selecţie sunt egali
cu coe…cienţii de corelaţie liniar¼ a de selecţie a variabilelor fxj gpj=1 .
Din cele de mai sus rezult¼
a:
Lema 1.2.6

2
d (zj ; zk ) = 2 (1 rjk )
Demonstraţie.
n
X
2
d (zj ; zk ) = hzj zk ; zj zk i0D = pi (zij zik )2 =
i=1
n
X n
X Xn
2 2
= pi zij + pi zik 2 pi zij zik :
i=1 i=1 i=1

Conform corolarului de mai sus,


n
X n
X
2 2 2 2
pi zij = s (zj ) = 1 = s (zk ) = pi zik şi
i=1 i=1
26 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

n
X
pi zij zik = cor (zj ; zk ) = rjk ;
i=1

ceea ce implic¼a relaţia din enunţ.


Sistemul de proximit¼ aţi dintre dou¼ a din E, indus de
a puncte-variabil¼
relaţia din Lema 1.2.6, este familiar statisticianului:

- dou¼a variabile puternic corelate sunt foarte apropiate una de cealalt¼ a


(deoarece rjk 1 implic¼ a d2 (zj ; zk ) 0) sau, din contr¼
a, foarte dep¼ ar-
tate (deoarece rjk 1 implic¼a d2 (zj ; zk ) 4), dup¼
a cum relaţia liniar¼
a
care le leag¼
a este direct¼
a sau invers¼ a;

- dou¼a variabile necorelate, deci ortogonale, sunt la distanţ¼


a medie (deoa-
rece rjk 0 implic¼ 2
a d (zj ; zk ) 2 ).

fig. 1.2.2. CorelaŢ iile Ş i distanŢ ele între punctele-variabilA¼

Proximitatea între dou¼


a puncte-variabile se interpreteaz¼
a, deci, în ter-
meni de corelaţii

fig. 1.2.3. Sistemul de proximitA¼ Ţ i între douA¼ puncte-variabilA¼

Din Corolarul 1.2.3 punctul a) rezult¼ a c¼


a toate punctele-variabil¼ a se a‡a¼
pe hipersfera de raz¼ a 1, centrat¼a în originea axelor. Aceast¼ a hipersfer¼a se
numeşte sfera de corelaţie.
Planurile în care vor … proiectate variabilele intersecteaz¼ a sfera dup¼ a
cercurile diametrale, de raz¼ a 1, numite cercuri de corelaţie, în interiorul c¼
arora
se a‡a¼ proiecţiile punctelor-variabil¼
a.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 27

fig. 1.2.4. Reprezentarea sferei Ş i cercului de corelaŢ ie

Observaţia 1.2.4
Operaţia de centrare a tabelului X are în spaţiile Rp şi Rn interpret¼
ari geo-
metrice diferite.

- În Rp aceast¼a transformare echivaleaz¼


a cu o translaţie a originii axelor
în centrul de greutate (punctul mediu) al norului.

- În Rn aceast¼ a transformare este o proiecţie pe hiperplanul ce trece prin


originea axelor şi este ortogonal pe dreapta ce trece prin originea axelor
şi are ca parametri directori fpi gni=1 . Matricea P = In 1n 10n D aso-
ciat¼ a acestei transform¼ari este idempotent¼ a (P2 = P ) şi M-simetric¼ a
0
(P M = MP ), cu M = In . Ea este matricea proiecţiei M-ortogonale
pe subspaţiul generat de vectorii coloan¼ a liniari P
independenţi ai matricii
Y. Coordonatele acestor vectori satisfac relaţia pi yij = 0; (8) j = 1; p,
i
ce reprezint¼a ecuaţia unui hiperplan în Rn care trece prin originea axelor
şi are ca normal¼a în punctul 0n dreapta de parametri directori fpi gni=1 .
1
Dac¼ a D = n In atunci hiperplanul este ortogonal pe prima bisectoare.

De…niţia 1.2.6 (conform [14]) Se numeşte studiu un triplet (Y; M; D) unde:

- Y este matricea centrat¼


a asociat¼
a tabelului de date indivizi-variabile;

a în spaţiul vectorial al indivizilor, F ;


- M este o metric¼

- D este metrica ponderilor în spaţiul vectorial al variabilelor, E.

Studiul este caracterizat de dou¼


a „obiecte”:

- matricea W = YMY0 a produsului scalar între indivizi;

- matricea V = Y0 DY de varianţ¼
a-covarianţ¼
a a variabilelor centrate.
28 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

1.2.2 Analiza general¼


a. Descompunerea în valori singulare
S-a ar¼ atat mai sus cum liniile şi coloanele unui tabel dreptunghiular
permit de…nirea norilor de puncte.
Poziţia punctelor în nor este dat¼a de mulţimea distanţelor între toate
punctele şi determin¼
a forma norului.

fig 1.2.5. Nor de puncte ce ilustreazA¼ o relaŢ ie liniarA¼ între


variabile

fig. 1.2.6. Nor de puncte ce ilustreazA¼ o relaŢ ie neliniarA¼ între


variabile
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 29

fig 1.2.7. Nor de puncte ce ilustreazA¼ absenŢ a unei relaŢ ii între


variabile

Forma norului este cea care caracterizeaz¼ a natura şi intensitatea relaţiilor
între indivizi (liniile) şi între variabile (coloanele) şi relev¼a structurile de in-
formaţii conţinute în date.
De exemplu, un nor de puncte alungit uniform de-a lungul unei drepte
(…g. 1.2.5.) traduce existenţa unei relaţii liniare dominante între puncte,
în timp ce o form¼ a parabolic¼ a (…g. 1.2.6.) ilustreaz¼ a existenţa unei relaţii
neliniare iar o form¼ a sferic¼a (…g 1.2.7.) indic¼ a, mai degrab¼ a, absenţa unei
relaţii.
O modalitate simpl¼ a de a reda vizual forma unui nor este aceea de a-l
proiecta pe o dreapt¼ a, sau mai bine pe un plan, minimizând deform¼ arile pe
care aceast¼ a proiecţie le implic¼a; aceasta este esenţa analizei generale. În cele
ce urmeaz¼ a se va prezenta detaliat programul enunţat.
Matricea W = YMY0 este o matrice simetric¼ a, de dimensiune n, al c¼ arui
0
termen general wij = ei Mej este un produs scalar între indivizii i şi j. Indi-
vizii aparţin unui spaţiu vectorial euclidian (F; M) de dimensiune p, deoarece
sunt p variabile.

De…niţia 1.2.7 Se numeşte imagine euclidian¼a a indivizilor asociat¼ a pro-


duselor scalare wij , un nor compus din n puncte A1;:::; An şi dintr-un punct
O din F astfel încât aceste puncte s¼a reconstituie produsele scalare wij , adic¼
a
hOAi; OAj i = wij , (8) i; j = 1; n, unde produsul scalar h ; i este de…nit de
metrica euclidian¼
a Ip .

Matricea V = Y0 DY este o matrice simetric¼ a, de dimensiune p, al c¼


arui
0
termen general vij = yi Dyj este un produs scalar între variabilele i şi j.
Variabilele aparţin unui spaţiu vectorial euclidian (E; D) de dimensiune n (de-
oarece sunt n indivizi).

De…niţia 1.2.8 Se numeşte imagine euclidian¼a a variabilelor asociat¼ a pro-


duselor scalare vij ; un nor compus din p puncte B1;:::; Bp şi dintr-un punct
O din E astfel încât aceste puncte s¼ a reconstituie produsele scalare vij , adic¼
a
hOBi; OBj i = vij , (8) i; j = 1; p; unde produsul scalar h ; i este de…nit de
metrica euclidian¼
a In .

Dac¼a dimensiunea spaţiului vectorial în care se lucreaz¼a este egal¼a cu 3


atunci imaginea euclidian¼ a a unui nor de puncte poate … vizualizat¼ a. Dac¼a
dimensiunea spaţiului este strict superioar¼a lui 3 atunci acest lucru devine
imposibil. În acest caz trebuie c¼autat¼
a o imagine euclidian¼a aproximativ¼ a. S¼
a
not¼
am c¼ a exist¼
a o in…nitate de imagini euclidiene ale aceluiaşi nor de puncte.
Dou¼a imagini euclidiene sunt echivalente dac¼a ele reconstituie aceleaşi produse
scalare.
30 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

1.2.1.3 ANALIZA NORULUI DE PUNCTE-INDIVID


S¼a ne plas¼am, mai întâi, în spaţiul F Rp al indivizilor, în care tabelul Y
poate … reprezentat ca un nor de n puncte-individ centrate în punctul mediu
al norului şi ale c¼
aror p coordonate reprezint¼ a liniile lui Y. Principiul metodei
ACP const¼ a în reprezentarea aproximativ¼ a a norului de puncte-individ într-un
subspaţiu de dimensiune mult mai mic¼ a (de regul¼a egal¼a cu 2). Se pleac¼
a, deci,
de la o imagine euclidian¼ a dintr-un spaţiu a…n de dimensiune p şi se ajunge la
o imagine euclidian¼ a într-un spaţiu a…n de dimensiune q p3 .
Demersul de mai sus se realizeaz¼ a prin proiecţia punctelor-individ pe un
subspaţiu Fq de dimensiune q, obţinut astfel încât media p¼ atratelor distanţelor
între proiecţii s¼
a …e maxim¼ a sau, tinând cont de Lema 1.2.3., inerţia norului
proiectat pe Fq s¼ a …e maxim¼ a sau, în …ne, deformarea distanţelor prin proiecţie

a …e minim¼ a.
Cu notaţiile de mai sus, problema ce trebuie rezolvat¼ a se formuleaz¼ a
astfel:
P
n
"Sa se gaseasca H Fq astf el ^{nc^
at max d2 (yi ; 0) "4
i=1

Soluţia problemei este dat¼


a de urm¼
atoarea teorem¼
a:

Teorema 1.2.1 Subspaţiul de dimensiune q pe care se proiecteaz¼a optim, în


sensul celor mai mici p¼atrate, cele n puncte din Rp este generat de primii q
vectori proprii ai matricii A = VM 2Mp;p (R) corespunz¼atori valorilor proprii
1 > 2 > : : : > q , unde V este matricea de varianţ¼ a-covarianţ¼a asociat¼a
tabelului X şi M este metrica spaţiului indivizilor.
Demonstraţie. S¼ am cu fP1;:::; Pn g proiecţiile pe H ale punctelor fA1;:::; An g
a not¼
şi s¼
a observ¼
am c¼
a:
2 2 2
OAi = OPi + Ai Pi ; i = 1; n;

conform teoremei lui Pitagora, sau


n
X n
X n
X
2 2 2
Ai Pi = OAi OPi ; i = 1; n; (1)
i=1 i=1 i=1

2
Cum OAi sunt …xe pentru i = 1; n, deoarece norul de puncte-individ este dat,
a minimiza deform¼
arile produse prin proiecţii este echivalent cu a minimiza
3
Dac¼a rg(Y) = q atunci problema aproxim¼ arii este practic rezolvat¼
a. Într-adev¼
ar, este
su…cient s¼a g¼
asim o baz¼a a subspaţiului vectorial de dimensiune q din Rp ce conţine norul
de puncte-individ şi s¼
a calcul¼am coordonatele punctelor în noua baz¼ a. Vom putea astfel
reconstitui cei np coe…cienţi ai tabelului Y pornind de la cei qp + np = (n + p)q coe…cienţi
de…niţi mai sus.
4
Dac¼a se lucreaz¼
a pe tabelul X atunci problema se formuleaz¼ a astfel: S¼
a se g¼
aseasc¼a
Pn
2
H Fq astfel încât max d (ei ; g)
(H) i=1
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 31

suma ponderat¼a a p¼
atratelor distanţelor de la punctele fA1;:::; An g la subspaţiul
Pn 2 P
n 2
H, adic¼
a a a‡a min pi Ai Pi sau, conform relaţiei (1), max pi OPi .
i=1 i=1
Fie a un vector M-normat din Rp , adic¼
a a0 Ma =1. Coordonata proiecţiei
Pi a punctului Ai pe dreapta 4a având ca suport pe a este OPi = yi0 Ma .
Coordonatele tuturor punctelor Pi pe 4a sunt YMa, de unde rezult¼ a c¼
a:
n
X 2
pi OPi = a0 MY0 DYMa = a0 MVMa = a0 MAa:
i=1

a H =4a ; atunci g¼
Aşadar, dac¼ asirea lui H s-a redus la urm¼
atoarea problem¼
a
de programare p¼atratic¼
a cu restricţii liniare:
max fa0 MAag
(a) :
a0 Ma =1
Pentru a rezolva problema de mai sus se utilizeaz¼ a metoda multiplicatorilor lui
Lagrange (vezi paragraful 1.1.7). Fie, deci, lagrangeanul L = a0 MAa (a0 Ma 1),
cu multiplicator Lagrange. Rezult¼ a
@L
= 2MAa 2 Ma deoarece MA este o matrice simetric¼
a.
@a
Dar
@L
= 0 ) MAa = Ma (2)
@a
Înmulţind la stânga relaţia (2) cu a0 şi ţinând cont c¼
a a este M-normat rezult¼
a

= a0 MAa:

Valoarea parametrului este, deci, maximul c¼ autat. Cum matricea M este


pozitiv de…nit¼
a rezult¼
a c¼
a ea este inversabil¼
a şi înmulţind relaţia (2) la stânga
cu M 1 se obţine
Aa = a;
adic¼
a a este vector propriu al matricii A; corespunzând celei mai mari valori
proprii , dac¼ a aceasta este unic¼
a; s¼
a le not¼
am cu a1 respectiv 1 .
S¼a c¼
aut¼am vectorul a2 din Rp , M-normat şi M-ortogonal pe a1 (adic¼ a
0 0
a2 Ma2 =1 şi a1 Ma2 =0) care maximizeaz¼ a forma p¼atratic¼ 0
a a2 MAa2 . Analog
cu demersul de mai sus, se anuleaz¼ a derivatele lagrangeanului

L = a02 MAa2 2 a02 Ma2 1 0


2 a1 Ma2 :
@L
= 0 ) 2MAa2 2 2 Ma2 2 Ma1 = 0:
@a2
Înmulţind relaţia de mai sus cu a01 la stânga, se obţine

a01 MAa2 0
2 a1 Ma2
0
2 a1 Ma1 = 0; sau
0
2 a1 Ma2 2 = 0) 2 = 0:
32 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE


amâne, ca în cazul precedent
MAa2 = 2 Ma2

ceea ce implic¼
a faptul c¼a a2 este al doilea vector al matricii A relativ la a doua
valoare proprie 2 , dac¼ a aceasta este unic¼ a.
Demonstraţia se repet¼a analog pentru ceilalţi vectori M-normaţi, ak 2
Rp , k q; M-ortogonali cu vectorii aj g¼ asiţi înainte (pentru a0k Maj =0; j < k)
şi care maximizeaz¼a forma p¼ atratic¼ 0
a ak MAak . Se obţine MAak = k Mak şi
cum M este inversabil¼ a, Aak = ak .
Observaţia 1.2.5
1. Teorema 1.2.1 poate … demonstrat¼ a folosind formula proiectorului M-
ortogonal pe H (conform [53]) sau bazându-se pe descompunerea M = T0 T
(conform [41]).
2. Cum A este o matrice M-simetric¼ a, pozitiv de…nit¼
a, cu coe…cienţi reali,
valorile sale proprii sunt reale şi pozitive (conform [15]). Vectorii proprii
ai matricii A sunt M-ortonormaţi.

De…niţia 1.2.9 Matricea A se numeşte matricea inerţiei .

De…niţia 1.2.10 Imaginea euclidian¼ a a norului de puncte-individ obţinut¼ a


prin proiecţia pe subspaţiul H dat de Teorema 1.2.1 se numeşte imaginea
euclidian¼a a punctelor-individ asociate aproximaţiei de ordinul q a produselor
scalare.
Lema 1.2.7

p
X
Ig = tr (A) = j
j=1

Demonstraţie. Matricea inerţiei, A = VM, este real¼


a şi M-simetric¼
a. Atunci,
conform [15]
A=L L 1
cu L matricea vectorilor proprii corespunz¼ atori valorilor proprii 1; 2; : : : ; p
ai matricii A şi = diag ( 1 ; 2 ; : : : ; p ). Cu acestea
1 1
tr (A) = tr L L = tr LL ;
deoarece tr (BC) = tr (CB) dac¼
a produsele BC şi CB au sens. Rezult¼
a
p
X
tr (A) = tr ( ) = tr (diag ( 1; 2; : : : ; p )) = j
j=1

şi din Lema 1.2.4 rezult¼


a
Ig = tr (VM) = tr (A) :
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 33

De…niţia 1.2.11 Se numesc axe principale de inerţie vectorii proprii, M-


normaţi, aj ; ai matricii de inerţie A .

De…niţia 1.2.12 Se numeşte factor principal asociat axei principale aj şi se


noteaz¼ a din Rp de…nit¼
a cu uj forma liniar¼ a de relaţia uj = Maj :

Lema 1.2.8
Factorii principali fuj gpj=1 sunt vectorii proprii ai matricii MV asociaţi valo-
rilor proprii f j gpj=1 ale matricii A = VM.

Demonstraţie. Într-adev¼
ar

MVuj = MVMaj = MAaj = j Maj = j uj


şi uj M 1 uj
0
= a0j MM 1 Mak = 0
aj Mak = jk :

De…niţia 1.2.13 Se numeşte plan factorial principal subsaţiul F2 ; generat de


vectorii fu1 ; u2 g.

De…niţia 1.2.14 Se numeşte component¼a principal¼a asociat¼a factorului prin-


cipal uj şi se noteaz¼
a cu cj forma liniar¼ n
a din R de…nit¼
a de relaţia cj = Yuj .

Observaţia 1.2.6
Din de…niţie, cj este proiecţia M-ortogonal¼
a a indivizilor pe axa principal¼
a
aj . Într-adev¼
ar,

Lema 1.2.9
p
Componentele principale fcj gj=1 sunt vectorii proprii ai matricii WD; asociaţi
valorilor proprii f j gpj=1 ale matricii A. Componentele principale sunt D-
ortogonale, deci necorelate.
Demonstraţie.

WDcj = YMY0 DYMaj = YMVMaj = YMAaj =


= j YMaj = j Yuj = j cj :
c0j Dck = u0j Y0 DYuk = u0j Vuk = a0j MVMak =
= a0j MAak = a0j M ( k ak ) = k a0j Mak = k jk:

Lema 1.2.10
a) Mediile de selecţie ale componentelor principale sunt nule (pe datele
centrate şi centrat-reduse).

b) Dispersia de selecţie a componentei principale cj este j - valoarea pro-


prie a matricii inerţiei, A, pentru (8) j = 1; p.
34 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Demonstraţie.

1. Într-adev¼
ar, cum cj = Yuj ; atunci
n n p p n
!
X X X X X
m (cj ) = pi cij = pi yik ukj = pi yik ukj =
i=1 i=1 k=1 k=1 i=1
Xp
= m (yk ) ukj = 0;
k=1

conform Corolarului 1.2.3. Analog pentru cj = Zuj :

2.

s2 (cj ) = c0j Dcj = u0j Y0 DYuj = u0j Vuj = a0j MVMaj =


= a0j MAaj = a0j M ( j aj ) = 0
j aj Maj = j:

Propoziţia 1.2.2
1. Componentele principale sunt combinaţii liniare de variabilele iniţiale,
a şi care satisfac restricţiile u0j M 1 uj = 1.
de dispersie maxim¼
p
2. În cazul unei ACP normate, componentele principale fcj gj=1 asoci-
p
ate valorilor proprii f j gj=1 ale matricii A sunt variabilele cele mai
"legate" de variabilele iniţiale, z1 ; : : : ; zp ; în sensul c¼
a suma p¼ atratelor
coe…cienţilor de corelaţie fcor (cj ; zk )gpk=1 este maxim¼ a, pentru oricare
j = 1; p.

Demonstraţie.

a) S¼
a consider¼
am o combinaţie liniar¼
a de variabilele iniţiale x1 ; : : : ; xp ; …e
P
p
aceasta c = uj xj sau vectorul c = Xu. Ne propunem s¼ a g¼ asim pe
j=1
u0 = (u1 ; : : : ; up ) astfel încât

max s2 (cj ) max c0 Dc max u0 X0 DXu


(u) , (u) , (u)
u M 1u
0 =1 u0 M 1 u =1 u0 M 1 u =1
Soluţia problemei de programare p¼ atratic¼
a cu restricţii liniare de mai
sus este, conform unui raţionament analog cu cel din Teorema 1.2.1,
vectorul propriu u1 al matricii MV asociat celei mai mari valori proprii
1 (cum MV este simetric¼ a şi pozitiv de…nit¼a, 1 exist¼
a, este real şi strict
pozitiv). Dar u1 este, conform de…niţiei, chiar factorul principal rezultat
dintr-o ACP pe tabelul X iar valoarea maxim¼ a a funcţiei este 1 .
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 35

b) S¼
a reamintim mai întâi c¼
a, în cazul unei ACP normate, X ! Z şi M =
Ip . Cu acestea:

cov2 (c; zj ) (c0 Dzj )2


cor2 (c; zj ) = =
s2 (c) s2 (zj ) s2 (c)
p
X p
1 X 0 0
cor2 (c; zj ) = c Dzj c0 Dzj =
s2 (c)
j=1 j=1
0 1
Xp
1
= c0 D @ zj z0j A Dc;
s2 (c)
j=1

P
p P
p
c0 DZZ0 Dc
şi cum zj z0j = ZZ0 rezult¼
a cor2 (c; zj ) = c0 Dc : Problema s-a
j=1 j=1
0 0
asi max c DZZ
redus la a g¼ c0 Dc
Dc
.
(c)


a remarc¼
am c¼a DZZ0 D şi D sunt matrici reale, simetrice şi de ordin n.
Un punct de extrem al câtului de mai sus se obţine anulând derivata sa, ceea
ce implic¼
a
(c0 Dc) (2DZZ0 Dc) (c0 DZZ0 Dc) (2Dc)
= 0:
(c0 Dc)2

Din (c0 Dc) DZZ0 Dc = (c0 DZZ0 Dc) Dc rezult¼


a

1 c0 DZZ0 Dc
D DZZ0 D c = c:
c0 Dc

Prin urmare, c este vectorul propriu al matricii ZZ0 D; asociat valorii proprii
0 0
= c DZZc0 Dc
Dc
: Maximul este, deci, atins dac¼ a aceast¼a valoare proprie este
cea mai mare.
Din ipotez¼ a, c este o combinaţie liniar¼
a de variabile iniţiale, adic¼
a c = Zu.
Înlocuind în relaţia de mai sus se obţine

ZZ0 DZu = Zu

şi cum Z0 DZ = R ) ZRu = Zu iar Z este de rang p, rezult¼ a Ru = u, adic¼ a


u este vectorul propriu al matricii R; asociat valorii proprii maxime. În ACP
normat A = R şi axele principale coincid cu factorii principali, deci c = Zu
este chiar componenta principal¼ a obţinut¼
a prin proiecţia indivizilor pe axa
principal¼
a a u.
Un rezumat al elementelor principale ce intervin într-o ACP pe norul de
puncte-indivd se g¼aseşte în tabelul de mai jos:
36 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

tabelul 1.2.4. ProprietA¼ Ţ ile elementelor principale dintr-o acp


pe norul de puncte-individ

Elemente principale De…niţie Propriet¼


aţi Relaţii

Axe principale: VMa = a M-ortonormate


a 2 Rp

Factori principali: u = Ma M 1- ortonormaţi MVu = u


u 2 (Rp )?

Componente principale: c = Yu D-ortogonale WDc = c


c 2 Rn sau c = Zu s2 (c) = şi analoaga

1.2.2.1 ¼
ANALIZA NORULUI DE PUNCTE-VARIABILA

a consider¼am acum spaţiul E Rn ; al variabilelor, în care tabelul Y
poate … reprezentat ca un nor de p puncte-variabil¼ a ale c¼ aror n coordonate
reprezint¼a coloanele lui Y.
Principiul metodei ACP în acest caz este identic cu cel utilizat pentru
reprezentarea norului de puncte-individ şi const¼ a în g¼asirea axelor principale
şi a subspaţiului a…n q dimensional, Eq Rn ; generat de aceste axe şi care
aproximeaz¼ a optim norul de puncte-variabil¼ a. Aceasta înseamn¼ a s¼
a …e max-
imizat¼ a media p¼ atratelor distanţelor dintre cele p proiecţii pe Eq , adic¼a de
rezolvat problema de programare p¼ atratic¼
a cu restricţii liniare

max b0 DYMY0 Db
(b) :
b0 Db =1

Teorema 1.2.1 arat¼ a b este vectorul propriu al matricii B = YMY0 D


a c¼
(D-simetric¼a, real¼
a), corespunzând celei mai mari valori proprii . Ecuaţia
axei factoriale b din Rn este:
YMY0 Db = b
:
b0 Db =1

ecuaţia factorului principal v din (Rn )? este v = Db şi ecuaţia componentei


principale d din Rp este d = Y0 v sau d = Z0 v. Analog ca în cazul norului de
puncte-individ se poate enunţa

Lema 1.2.11
a) Factorii principali vi 2 (Rn )? ; i = 1; n sunt D 1 -ortonormaţi şi satisfac
relaţiile DYMY0 vi = i vi .
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 37

b) Componentele principale di 2 Rp ; i = 1; n sunt M-ortogonale, au dis-


a cu şi satisfac relaţiile X0 DXMdi = i di .
persia de selecţie egal¼
Demonstraţie.

a) Într-adev¼
ar

vi0 D 1
vj = b0i DD 1
Dbj = b0i Dbj = ij şi
0 0
DYMY v = DYMY Db = Db = v:

b) Într-adev¼
ar

d0i Mdj = vi0 YMY0 vj = b0i D YMY0 Dbj =


= b0i D j bj = j b0i Dbj = j ij ;
X DXMd = X DXMX v = X D XMX Db = X0 D ( b) = d;
0 0 0 0 0

s2 (d) = d0 Md = v0 XMX0 v = b0 DXMX0 Db =


= b0 D ( b) = b0 Db = :

De…niţia 1.2.15 Se numeşte cerc de corelaţie principal subspaţiul E2 generat


de vectorii fv1 ; v2 g.
În cazul ACP normat norul de puncte-variabil¼ a se a‡a¼ pe hipersfera de
corelaţie deci planul factorial va intersecta aceast¼a hipersfer¼a dup¼a un cerc
diametral (vezi Corolarul 1.2.3 şi Observaţia 1.2.4).
Un rezumat al elementelor principale ce intervin într-o ACP pe norul de
puncte-variabil¼a se g¼
aseşte în tabelul de mai jos:

tabelul 1.2.5. ProprietA¼ Ţ ile elementelor principale dintr-o acp


pe norul de puncte-variabilA¼

Elemente De…niţie Propriet¼


aţi Relaţii
principale
Axe principale: YMY0 Db = b D-ortonormale
b 2 Rn

Factori principali: v = Db D 1- ortonormaţi DYMY0 v = v


v 2 (Rn )?

Componente d = Y0 v M-ortogonale X0 DXMd = d


principale: sau d = Z0 v s2 (d) = şi analoaga
d 2 Rp
38 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

1.2.2.2 RELAŢII DE TRANZIŢIE ÎNTRE CELE DOUA ¼ SPAŢII


Se observ¼
a c¼
a, din punct de vedere numeric, o analiz¼ a în componente principale
a unui studiu se reduce la calculul primelor q valori şi vectori proprii asociaţi
ai matricilor VM = Y0 DYM 2 Mp;p (R) şi WD = YMY0 D 2Mn;n (R). O
întrebare natural¼
a este urm¼atoarea: exist¼
a o relaţie între elementele principale
dintr-o ACP pe spaţiul (F; M) şi elementele principale dintr-o ACP pe spaţiul
(E; D)? R¼aspunsul la aceast¼a întrebare este oferit de urm¼ atoarea propoziţie:

Propoziţia 1.2.3
(relaţia de tranziţie între spaţiul indivizilor si spaţiul variabilelor)
Toate valorile proprii nenule ale matricilor Y0 DYM şi YMY0 D sunt egale
având, eventual, acelaşi ordin de multiplicitate şi, pentru j 6= 0; sunt ade-

arate urm¼ a spaţii, F Rp şi E Rn :
atoarele relaţii de tranziţie între cele dou¼

bj = p1 YMaj = p1 Yuj = p1 cj
j j j
; j = 1; rg (Y0 Y):
aj = p1 Y0 Dbj = p1 Y0 vj = p1 dj
j j j

Demonstraţie. În Rp exist¼
a relaţia

Y0 DYMaj = j aj (1)

iar în Rn relaţia
YMY0 Dbj = j bj (2)

Înmulţind la stânga egalitatea (1) cu YM se obţine

YMY0 D (YMaj ) = j (YMaj ) (3)

relaţie care arat¼


a c¼ arui vector propriu aj al lui Y0 DYM corespunz¼
a oric¼ ator
unei valori proprii j 6= 0 îi corespunde un vector propriu YMaj al matricii
YMY0 D relativ la aceeaşi valoare proprie j . Cum cu 1 a fost notat¼ a valoarea
proprie maxim¼ a a matricii YMY0 D rezult¼ a, în mod necesar, c¼
a 1 1 .
Pe de alt¼ 0
a parte, înmulţind la stânga egalitatea (2) cu Y D se obţine

Y0 DYM Y0 Dbj = j Y0 Dbj (4)

relaţie care arat¼


a c¼ arui vector propriu bj al lui YMY0 D corespunz¼
a oric¼ ator
0
unei valori proprii j 6= 0 îi corespunde un vector propriu Y Dbj al matricii
Y0 DYM relativ la aceeaşi valoare proprie j . Cum cu 1 a fost notat¼ a valoarea
proprie maxim¼ a a matricii Y0 DYM rezult¼ a, în mod necesar, c¼a 1 1 , ceea
ce arat¼ a, în …nal, c¼
a 1 = 1.
Analog se poate ar¼ ata c¼
a toate valorile proprii nenule ale celor dou¼ a
0 0
matrici, Y DYM şi YMY D; sunt egale, având eventual acelaşi ordin de
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 39

a5 :
multiplicitate, adic¼

j = j 6= 0, j = 1; rg (Y0 Y)
j = 0; j = rg (Y0 Y) + 1; p
j = 0, j = rg (Y0 Y) + 1; n

(se poate ar¼


ata uşor, având în vedere propriet¼ aţile matricilor M şi D, c¼ a
0 0 0 0
rg (Y DYM) = rg (Y Y) = rg (YMY D) = rg (YY )).
Revenind la relaţia (3) se observ¼
a c¼
a aceasta este veri…cat¼a de orice vec-
tor de forma b =kYMa, cu k constant¼ a ce se determin¼a din condiţia de D-
ortonormalitate a lui b. Într-adev¼ar:

1 = b0 Db =k 2 a0 MY0 DYMa =k 2 a0 M ( a) = k 2 a0 Ma =k 2 ;

a k = p1 deci b = p1 YMa dac¼


ceea ce implic¼ a 6= 0.
a de orice vector de forma a =kY0 Db
Analog, relaţia (4) este veri…cat¼
cu k constant¼a ce se determin¼ a din condiţia de M-ortonormalitate a lui a. Se
obţine k = p1 deci b = p1 YMa = p1 YMa pentru = 6= 0.

Observaţia 1.2.7
1. Propoziţia 1.2.3 demonstreaz¼ a c¼
a este su…cient s¼ a calcul¼
am valorile şi
vectorii proprii ai matricii cu dimensiunea cea mai mic¼ a iar apoi, prin
relaţiile de tranziţie, s¼
a obţinem elementele pincipale din cel¼ alalt spaţiu.
Cum, în general, num¼ arul de variabile este mai mic decât num¼ arul de
indivizi, adic¼ a p < n, este su…cient ca analiza în componente principale

a se efectueze pe norul de puncte-individ, elementele principale pentru
norul de puncte-variabi¼ a obţinându-se prin relaţiile de tranziţie.

2. Coordonalele punctelor pe o ax¼ a factorial¼a în Rp sunt proporţionale cu


componentele axei factoriale din Rn corespunz¼ atoare aceleiaşi valori pro-
0
prii şi reciproc. Într-adev¼
pa r c = Xu şi
p d = X v şi tinând cont de relaţiile
de tranziţie rezult¼ac= b şi d = a.
Referitor la analiza în componente principale trebuie s¼
a remarc¼
am:

3. Orientarea axelor factoriale este arbitrar¼a deoarece vectorii proprii sunt


determinaţi modulo semnul lor. Acest lucru nu împieteaz¼ a asupra formei
norului, adic¼
a a distanţelor între puncte.

4. Analiza în componente principale nu pune în evidenţ¼ a decât leg¼


aturile
liniare între variabile. Un coe…cient de corelaţie slab între dou¼a variabile
semni…c¼ a doar c¼ a acestea sunt independente liniar, în timp ce poate
exista o relaţie de ordin superior lui 1 (relaţie neliniar¼
a).
5
În relaţiile al¼
aturate, ca şi în cele ce urmeaz¼
a, se utilizeaz¼
a convenţia: în Relaţie(j),
j = a; b; dac¼
a a > b atunci Relaţie(j) nu exist¼a.
40 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

5. Coordonata unui punct-variabil¼ a zk pe axa bj este mai mic¼ a sau egal¼a


cu 1 în valoare absolut¼ a, ne…ind altceva decât coe…cientul de corelaţie
al variabilei cu factorul vj considerat ca o variabil¼ a arti…cial¼
a ale c¼
arui
coordonate sunt date de cele n proiecţii ale indivizilor pe aceast¼ a ax¼
a,
conform relaţiilor de tranziţie. În plus, în cazul datelor centrat-reduse,
Pp
cor2 (zk ; vj ) = a0k Mak = 1 .
j=1

1.2.2.3 RECONSTITUIREA DATELOR INIŢIALE

Metodele de analiz¼ a factorial¼


a rezid¼
a toate pe reprezentarea geometric¼ aa
unei propriet¼ aţi a matricilor dreptunghiulare şi anume descompunerea în valori
singulare. Descompunerea a fost obţinut¼ a de Eckart şi Young în 1936 pentru
matrici dreptunghiulare şi generalizeaz¼ a lucr¼arile lui Sylvester din 1889 relativ
la matrici p¼ atratice; Gi… în [28] menţioneaz¼ a, relativ la aceast¼ a problematic¼ a,
şi lucr¼
arile lui Beltrami din 1873 şi pe acelea ale lui Jordan din 1874.
În principal, descompunerea în valori singulare semni…c¼ a faptul c¼a, în
condiţii destul de generale, o matrice dreptunghiular¼ a poate … reprezentat¼ a în
mod unic ca o „sum¼ a optimal¼ a” (în sensul minimului celor mai mici p¼ atrate)
de matrici de rang 1 (produse de matrici coloan¼ a cu matrici linie). În cazul
acesta, pornind de la relaţia c = Yu, înmulţind la dreapta(membrii egalit¼ )aţii
Pp
cu u0 M 1 şi sumând dup¼ a num¼ arul de axe6 se obţine Y uj u0j M 1 =
j=1
P
p P
p
cj u0j M 1. Dar uj u0j M 1 = 1 c¼
aci uj sunt M 1 -ortonormaţi, deci
j=1 j=1
P
p
Y= cj u0j M 1:
j=1
Relaţia de mai sus se numeşte formula de reconstituire a tabelului de
date Y pornind de la componentele şi factorii principali. Analog, se poate
reconstitui tabelul X şi, de asemenea,
p
X
0 1
MV = j uj uj M şi
j=1
Xp
0
VM = j aj aj M:
j=1

Dac¼ a M = I, adic¼ a în cazul metricii euclidiene, axele principale coincid


cu factorii principali şi, conform formulelor de tranziţie, se obţine formula de
6
Unii vectori proprii b pot s¼a corespund¼
a unei valori proprii nule. În acest caz ei sunt
aleşi astfel încât s¼
a completeze baza ortonormat¼
a format¼ a din axele precedente.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 41

reconstituire
p
X p
X p
Y= cj u0j = 0
j vj uj
j=1 j=1

cu vj vectori proprii normaţi ai matricii YY0 şi uj vectori proprii normaţi ai


matricii Y0 Y.
Dac¼ a în formula de mai sus sumarea se face doar dup¼ a primii q < p
termeni atunci se obţine cea mai bun¼ a aproximare, în sensul celor mai mici

atrate, a lui Y printr-o matrice de rang q (desigur dac¼ a în sumarea de mai
sus valorile proprii sunt ordonate descresc¼
ator). S¼a observ¼am c¼a, privite doar
din acest punct de vedere, metodele de analiz¼ a factorial¼a se reduc la metode
de compresie a datelor.

1.2.3 Interpretarea şi calitatea rezultatelor unei ACP


ACP construieşte variabile noi, arti…ciale şi reprezent¼ ari gra…ce ce permit
vizualizarea relaţiilor între variabile şi a eventualelor grupe de indivizi şi de
variabile. Interpretarea rezultatelor este o faz¼ a delicat¼
a ce trebuie întreprins¼
a
respectând urm¼ atoarele etape:

1. studiul calit¼
aţii reprezent¼
arilor în planurile factoriale;

2. interpretarea rezultatelor pornind de la datele utilizate în ACP (inter-


pretarea „intern¼
a”);

3. interpretarea rezultatelor pornind de la indivizi şi / sau variabile su-


plimentare care nu au fost utilizate în construirea reprezent¼
arilor ACP
(interpretarea „extern¼
a”);

4. reprezentarea simultan¼
a a indivizilor şi variabilelor ce fac obiectul ACP.

¼
1.2.3.1 CALITATEA REPREZENTARILOR ÎN PLANURILE FAC-
TORIALE

Axele factoriale permit obţinerea celei mai bune vizualiz¼ ari aproximative,
în sensul celor mai mici p¼ atrate, ale distanţelor dintre indivizi, respectiv dintre
variabile. În acest sens, primul demers care se impune este legat de m¼ asurarea
calit¼
aţii acestei aproxim¼ari.
Se observ¼ a c¼
a, dac¼
a ultimele p q valori proprii ale matricii Y; ordonate în
prealabil descresc¼ ator, sunt considerate "neglijabile" atunci, conform descom-
Pq p
punerii în valori singulare, Y Y? = 0
j vj uj în cazul metricii euclidiene.
j=1
Aceasta înseamn¼ a c¼
a cei np coe…cienţi ai matricii Y pot … reprezentaţi doar
prin cei q(n + p) termeni ai sumei de mai sus, ceea ce reprezint¼ a, din punct
42 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

de vedere numeric, un câştig important dac¼ a q p. Cu acestea, o m¼


asur¼
a
natural¼
a a calit¼
aţii aproxim¼
arii este dat¼
a de raportul
PP ?
2
pi pj yij
i j
q = PP 2
pi pj yij
i j

sau, conform Lemei 1.2.7


P
q P
q
j j
tr (Y? )0 DY? j=1 j=1
q = = = :
tr (Y0 DY) Pp
Ig
j
j=1

Raportul q 1 se numeşte rata inerţiei sau procentul de dispersie da-


torat primilor q factori. Interpretarea sa ca m¼ asur¼
a a calit¼
aţii numerice a
aproxim¼arii este destul de clar¼
a dar semni…caţia sa statistic¼a este delicat¼
a.
Într-adev¼
ar, din punct de vedere statistic, interpretarea rapotului comport¼ a
dou¼a aspecte:

- alegerea num¼
arului de axe principale;

- g¼
asirea intervalului de încredere pentru dispersia coordonantelor punctelor-
individ pe axa principal¼ a corespunz¼
atoare.

Principalul scop al ACP constând în reducerea dimensiunii spaţiului in-


divizilor, alegerea lui q - num¼ arul de axe principale ce trebuie reţinute, este o
problem¼ a important¼ a care, din p¼acate, nu are o soluţie riguroas¼
a. S¼
a remar-

am, înainte de toate, c¼ a reducerea dimensiunii nu este posibil¼ a decât dac¼ a
exist¼
a o redundanţ¼ a între variabilele. Dac¼
a acestea sunt independente, ceea ce
este un rezultat important în sine, ACP va … ine…cient¼ a în reducerea dimen-
siunii. Exist¼a mai multe proceduri care s¼ a ghideze alegerea num¼ arului de axe
(vezi [41]). În cele ce urmeaz¼ a ne vom opri asupra:

a) regulilor empirice, şi

b) criteriilor bazate pe anumite propriet¼


aţi statistice ale valorilor proprii.

a)Reguli empirice Regulile empirice se bazeaz¼ a pe forma secvenţei de va-


lori proprii; dou¼a reguli, atribuite lui Cattell şi respectiv Kaiser vor … citate
cu titlu istoric.
Regula „cotului” (sau the scree-test) introdus¼ a de Cattell în 1966 (vezi,
de exemplu, [41]) const¼ a în studiul histogramei valorilor proprii ordonate de-
scresc¼
ator în vederea decel¼ arii unei schimb¼
ari de pant¼ a urmând a … reţinute
acele valori proprii, deci num¼ ar de axe, a‡ate la stânga punctului „de discon-
tinuitate” observat.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 43

Fundamentarea criteriului cotului este dat¼ a de observaţia c¼


a valorile pro-
prii descresc regulat dac¼ a datele sunt puţin structurate (variabilele nu sunt
prea corelate între ele); se poate deci presupune c¼ a a intervenit un factor de
structurare de …ecare dat¼ a când diagrama valorilor proprii prezint¼ a o schim-
bare evident¼ a de pant¼ a.
Al doilea criteriu empiric este cel enunţat de Kaiser în 1961 (vezi, de
exemplu, [41]) ce recomand¼ a reţinerea acelor valori proprii superioare mediei
tuturor valorilor proprii (s¼ a remarc¼ am, conform Lemei 1.2.7 şi Observaţiei
1.2.3, c¼
a în cazul ACP normate media valorilor este 1). Datorit¼ a simplit¼aţii
sale, acest criteriu este foarte r¼
aspândit şi implementat drept criteriu standard
în majoritatea pachetelor de programe de analiz¼ a factorial¼
a.

b)Criterii bazate pe propriet¼ aţile statistice ale valorilor proprii Lu-


cr¼
arile relative la studiul distribuţiei valorilor şi vectorilor proprii cât şi lu-
cr¼
arile relative la comportamentul asimptotic al acestor elemente sunt în num¼ ar
mare dar puţine rezultate sunt utilizabile practic. Cu excepţia menţiunilor ex-
plicite toate rezultatele ce vor … prezentate presupun c¼ a observaţiile, în num¼ ar
de n, urmeaz¼ a o lege normal¼ a p-dimensional¼ a Np ( ; ). În 1951, Bartlett
propune o metod¼ a pentru testarea egalit¼ aţii a p q valori proprii ale matri-
cilor sau R. Lawley este cel care, în 1956, aprofundeaz¼ a studiul la cazul celor
mai mici p q valori proprii ale lui . Anderson, generalizeaz¼ a în 1963 aceste
rezultate şi determin¼ a legile limit¼a ale valorilor proprii f¼
ar¼a s¼
a presupun¼ a, în
mod necesar, c¼ a valorile teoretice corespunz¼ atoare sunt distincte. El demon-
streaz¼a în particular, pentru a testa egalitatea celor mai mici r valori proprii
bj ale matricii de covarianţ¼ a de selecţie corectate, V? = nn 1 V, c¼ a statistica

1 P
p
bj
r
j=p r+1
X 2 = nr log !1
p
Q
p
bj
j=p r+1

a 2 cu r(r+1)
este asimptotic distribuit¼ 2 1 grade de libertate.
Legat de g¼
asirea intervalului de încredere pentru dispersia coordonatelor
punctelor-individ pe axa principal¼ a, reamintim c¼ a aceasta este egal¼
a cu val-
oarea proprie corespunz¼ atoare (conform Lemei 1.2.10). T.W.Anderson a ar¼ a-
p
tat c¼
a ,dac¼
a valorile teoretice j ale lui sunt distincte , n 1 j b j

converge c¼ a N 0; 2 2j . Se deduce imediat c¼


atre o lege normal¼ a intervalul de
încredere cu pragul de semni…caţie de 95% este:
p p
bj 1 1; 96 2= (n 1) < j < bj 1 + 1; 96 2= (n 1) :

Lungimea intervalului este o indicaţie asupra stabilit¼ aţii valorii proprii


faţ¼
a de ‡uctuaţiile eşantionului presupus repartizat gaussian. Intersecţia in-
tervalelor a dou¼a valori proprii consecutive sugereaz¼a, deci, egalitatea acestor
44 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

valori proprii. Axele corespunz¼ atoare sunt atunci de…nite modulo o rotaţie,
ceea ce permite utilizatorului s¼ a evite interpretarea unei axe instabile dup¼ a
acest criteriu.
O îmbun¼ at¼
aţire a criteriului lui Kaiser este dat¼
a în 2000 de En¼
achescu şi
En¼achescu. Aceştia demonstreaz¼ a c¼
a, în cazul analizei în componente princi-
pale normate, bi este semni…cativ mai mare decât unu dac¼ a
r
bi > 1 + 2 p 1 :
n 1
Generaliz¼ ari ale rezultatelor asimptotice ale lui T.W.Anderson la cazul
ne-gaussian se pot g¼ asi, printre alţii, în [13] f¼
ar¼
a a avea, îns¼ a, o utilizare prac-
tic¼
a.
Intervalele de încredere ale lui Anderson se refer¼ a atât la valorile proprii
ale matricilor de covarianţ¼ a cât şi la valorile proprii ale matricilor de corelaţie.
Simul¼ arile întreprinse au ar¼ atat c¼ a rezultatele obţinute sunt în general „pru-
dente”: procentul de acoperire al adev¼ aratei valori proprii este cel mai adesea
superior pragului de semni…caţie anunţat ([41]). În orice caz, natura asimp-
totic¼a a rezultatelor ca şi ipoteza subiacent¼ a de normalitate, fac ca acestea s¼ a
aib¼a doar un caracter indicativ.
Concluzionând asupra calit¼ aţii reprezent¼arilor în planurile factoriale vom
spune c¼ a rata inerţiei de…neşte "puterea explicativ¼ a" a factorilor; ea reprezint¼ a
partea din dispersia total¼ a datorat¼ a celor q factori reţinuţi. Aceast¼ a apreciere
trebuie s¼ a ţin¼
a cont atât de num¼ arul de indivizi cât şi de num¼ arul de varia-
bile; o rat¼a de inerţie (relativ la o ax¼ a) de 10% poate … o valoare important¼ a
dac¼a tabelul posed¼ a 100 de variabile şi poate … o valoare neglijabil¼ a dac¼
a nu
sunt decât 10 variabile. Rata inerţiei este deci o m¼asur¼a pesimist¼a a calit¼ aţii
proiecţiei imaginii euclidiene a indivizilor. Rata inerţiei este, în plus, o m¼a-
sur¼a globl¼a a calit¼aţii reprezent¼arii în planul factorial. Ea trebuie completat¼ a
cu alte m¼ asuri, locale, ale calit¼aţii acestei reprezent¼ ari.
Printre m¼ asurile locale cele mai "populare" se num¼ ar¼a cea a cosinusului
p¼atrat al unghiului dintre planul factorial şi vectorul cu originea în proiecţia
centrului de greutate al norului şi cu vârful în punctul-individ. Fundamentarea
teoretic¼a a utiliz¼ arii acestei m¼ asuri se bazeaz¼ a pe faptul c¼ a distanţele între
puncte se deformeaz¼ a prin proiecţie cu atât mai puţin cu cât punctele sunt
mai apropiate de planul în care sunt proiectate (desigur, cazul în care punctele
se a‡a¼ pe o dreapt¼ a paralel¼a cu planul de proiecţie este neinteresant în acest
context). Valoarea acestei m¼ asuri este dat¼ a de urm¼ atoarea lem¼ a.

Lema 1.2.12
Calitatea reprezent¼
arii unui punct-individ, Ai , în planul factorial principal este

c21i + c22i
cal (i) =
Pp
c2ji
j=1
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 45

Demonstraţie. Fie Ai punctul considerat, Pi proiecţia sa în planul factorial


principal şi G proiecţia centrului de greutate al norului în planul factorial prin-
cipal. Conform de…niţiei componentelor principale, în F, Ai are coordonatele
(c1i ; c2i ; : : : ; cpi ) iar Pi are coordonatele (c1i ; c2i )0 .
!
Cosinusul unghiului dintre GAi şi planul factorial principal este cosinusul
! !
unghiului dintre GAi şi GPi ; notat cu . În triunghiul Ai Pi G, dreptunghic în
!2 !
Pi (din construcţie) cos2 = GP!i 2 şi cum GPi 2 = c21i + c22i , conform teoremei
GAi
c21i +c22i
lui Pitagora, rezult¼
a cos2 = P p :
c2ji
j=1
Un mod mai bun de a a‡a dac¼ a o observaţie este bine reprezentat¼ a într-
un subspaţiu este acela de a da o interpretare statistic¼a p¼atratului distanţei de
la observaţie la acel subspaţiu. Astfel, pentru observaţii repartizate normal,
inerţia global¼
a este o sum¼ a ponderat¼
a de p variabile independente repartizate
2 , adic¼
Pp
2
Pp
2
1 a Ig = j 1:j . Cum, în aceast¼
a ipotez¼a E (Ig ) = j şi D (Ig ) =
j=1 j=1
P
p
2
2 j şi, pe de alt¼
a parte, distanţa de la un punct-individ la planul factorial
j=1
principal este
p
X p
X
2 2
c2ji
d Ai ; w 2 R jw =a1 u1 + a2 u2 = c2ji = j ;
j=3 j=3 j

o modalitate de a da o semni…caţie statistic¼ a acestei distanţe este de a o


a de 21 . Utilizând intervalele de încredere de
compara cu o combinaţie liniar¼
tip 2 se poate conchide c¼
a punctele a‡ate faţ¼
a de planul factorial principal la
o distanţ¼
a mai mare de v
p u X
X u p 2
j + 2 t2 j
j=3 j=3

sunt prost reprezentate în acest subspaţiu cu o probabilitate de 95% (conform


[24]).
Datorit¼a egalit¼ aţii j = j (conform Propoziţiei 1.2.3) m¼asura global¼aa
calit¼
aţii proiecţiei imaginii euclidiene a norului de puncte-variabil¼
a este tot q ;
cu aceleaşi observaţii ca pentru norul de puncte-individ. În ceea ce priveşte
m¼asurile locale trebuie s¼ a remarc¼am c¼a, în cazul punctelor-variabil¼
a intere-
seaz¼a unghiurile dintre proiecţiile vectorilor cu vâfurile în aceste puncte şi nu
proximitatea proiecţiilor în planul factorial principal (cercul de corelaţie în
cazul ACP normate).

1.2.3.2 INTERPRETAREA "INTERNA" ¼ Metoda cea mai nat-


ural¼
a de a da o semni…caţie unei componente principale c este de a o corela
cu variabilele iniţiale xj . În acest sens se vor calcula coe…cienţii de corelaţie
46 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

liniar¼
a cor c; xj şi se vor pune în evidenţ¼
a coe…cienţii cu valori absolute mari.
Valorile acestor coe…cienţi sunt date de urm¼ atoarea lem¼ a.

Lema 1.2.13 p
În cazul unei ACP normate cor c; zj = uj .
cov(c;zj ) cov(c;zj )
Demonstraţie. Din de…niţie, cor c; zj = s(c) s(zj ) = p (conform
Corolarului 1.2.3 şi Lemei 1.2.10). Dar cov c; zj = j = c0 Dz
j adic¼
a u0 Z0 Dz
0
este al j-lea coe…cient al vectorului (Z DZ) u. Cum, din 0
p de…niţie, Z DZ = R
şi cum Ru = u (din Lema 1.2.8) rezult¼ a cor c; zj = uj .

Corolarul 1.2.4
Cercul de corelaţie principal este, în spaţiul variabilelor, corespondentul exact
al planului factorial principal.
Demonstraţie. Într-adev¼ ar, în ACP normat¼ a coordonatele proiecţiei unui
punct-variabil¼
p a Bjpsunt (d1j ; d2j ) care, conform formulelor de tranziţie, sunt
egale cu 1 a1j ; 2 a2j . Dar în cazul unei ACP normate axele principale
coincid cu factorii principali deci,
p p p p
(d1j ; d2j ) = 1 a1j ; 2 a2j = 1 u1j ; 2 u2j =
= cor c1 ; zj ; cor c2 ; zj

conform Lemei 1.2.13.


A spune c¼a c1 este foarte corelat¼ a cu o variabil¼
a xj înseamn¼ a c¼
a indivizii
cu o coordonat¼ a pozitiv¼ a mare pe axa unu sunt caracterizaţi de o valoare a
lui xj net superioar¼ a mediei (c¼aci originea axelor principale este în centrul
de greutate al norului de puncte-individ). Reciproc, dac¼ a indivizii nu sunt
anonimi, aceştia pot ajuta la interpretarea axelor şi componentelor principale
(vor … evidenţiaţi, de exemplu, indivizii opuşi de-a lungul unei axe).
O m¼ asur¼
a natural¼ a a contribuţiei unui punct-individ la o ax¼a factorial¼a
este raportul dintre dispersia individului şi dispersia întregii axe. Din Lema
P
n
1.2.10 se cunoaşte faptul c¼a pi c2ji = j ; deci contribuţia individului i la axa
i=n
principal¼
a j este
pi c2ji
crj (i) = :
j

Când indivizii sunt anonimi, adic¼ a au toţi ponderile pi = n1 , contribuţiile


"cr" nu aduc mai multe informaţii decât coordonatele acestora. Dac¼ a cei n
indivizi au aceeaşi pondere, 1=n, inerţia unui punct variaz¼a direct proporţional
cu distanţa la centrul de greutate. Indivizii care contribuie determinant la
inerţia axei sunt cei mai dep¼artaţi de punctul mediu şi lectura coordonatelor
factoriale sau vizualizarea gra…cului sunt su…ciente pentru a interpreta factorii
în acest caz. Prezentarea indivizilor în planul factorial permite s¼ a apreciem
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 47

repartiţia lor şi s¼


a reper¼
am zonele de densit¼
aţi mai mari sau mai slabe. Ca o
recomandare general¼ a se va considera important¼a contribuţia care dep¼ aşeşte
ponderea pi a individului, sau 14 în cazul indivizilor anonimi. Dac¼ a p şi n sunt
mari atunci componentele principale sunt deseori considerate ca …ind selecţii
asupra unor variabile aleatoare repartizate normal de medie zero şi dispersie
c2
. În acest caz jij este distribuit¼ a 21 şi o contribuţie mai mare decât 3;84 n
poate … considerat¼ a semni…cativ¼ a cu un prag de încredere de 95% (conform
[24]).
Considerarea contribuţiilor, când acestea nu sunt excesive, ajut¼ a la inter-
pretarea axelor. În mod normal, în special pentru primele axe factoriale, nu
este de dorit ca un individ s¼ a aib¼
a o contribuţie excesiv¼
a c¼
aci acesta poate con-
stitui un factor de instabilitate, adic¼ a omiterea individului poate modi…ca pro-
fund rezultatele analizei. În cazul unui sondaj (indivizi anonimi) contribuţia
excesiv¼a a unui individ este adesea cauzat¼ a de erori de preluare a datelor.
Pentru a pune în evidenţ¼ a aceste anomalii (şi evident pentru a le elimina) C.
şi D.En¼achescu recomand¼ a urm¼ atorul test empiric în cazul unei ACP normate:
dac¼a p¼atratul distanţei de lasun punct-individ la centrul de greutate al
P
p
2
norului este mai mare decât p + 2 2 i atunci observaţia respectiv¼
a poate
i=1
… considerat¼a o valoare aberant¼a.
Într-adev¼ar, dac¼a observaţiile sunt normal distribuite, Ig este o sum¼ a
Pp
ponderat¼a de p variabile repartizate 21 cu media i = p (datorit¼
a datelor
i=1
P
p
2
centrat-reduse) şi dispersia 2 i. Considerând intervalul de încredere de
i=1
95% pentru Ig se obţine marginea din recomandarea de mai sus.
Dac¼ a observaţiile sunt independente atunci i estimate pe baza acestor
P
p
2 P 2
observaţii sunt de medie 1 şi satisfac egalitatea i = p+2 rij . Deoarece
i=1 i>j
media p¼
atratului coe…cientului de corelaţie
! între dou¼ a variabile normale inde-
P 2
p
pendente este n 1 1 rezult¼
a c¼
aE j = p + p(p 1)
n 1 . Revenind la marginea
j=1
pentru valori aberante g¼
asit¼
a mai sus, în cazul independenţei observaţiilor o
putem ra…na înlocuind-o cu
s
p 1
p + 2 2p 1 +
n 1
p
sau p + 2; 8 p; pentru n mare.
Analiza unui nor de variabile facându-se pornind din origine, variabilele
pot … toate situate de aceeaşi parte a unei axe factoriale. O astfel de dispoziţie
apare atunci când toate variabilele sunt corelate pozitiv între ele. În acest
caz c1 , prima component¼ a principal¼a de…neşte un factor de talie. Conform
48 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

teoremei lui Perron7 (vezi, de exemplu, [15]) c1 este atunci corelat¼ a pozitiv cu
toate variabilele
( şi indivizii
)n sunt ordonaţi pe prima ax¼
a principal¼
a cresc¼
ator
P p
dup¼a mediile p1 yij . Ortogonalitatea axelor face s¼
a nu existe decât
j=1
i=1
un singur factor de „talie”. A doua component¼ a principal¼
a diferenţiaz¼
a atunci
indivizii de „talie” comparabil¼a şi aceast¼
a component¼a se va numi factor de
form¼a.

1.2.3.3 INTERPRETAREA "EXTERNA": ¼ VARIABILE ŞI IN-


DIVIZI SUPLIMENTARI Interpret¼ arile interne au dezavantajul c¼ a sunt
tautologice: se explic¼ a un rezultat cu ajutorul datelor care au servit la obţinerea
lui. Riscul care apare într-un astfel de caz este acela de a confunda un artefact
introdus de metod¼ a cu un fenomen semni…cativ. Din contr¼ a, dac¼
a se g¼
aseşte o
corelaţie puternic¼a între o component¼ a principal¼a şi o variabil¼
a care nu a fost
utilizat¼a în analiz¼
a, caracterul probant al fenomenului va … mult mai ridicat.
De unde practica frecvent utilizat¼ a de a împ¼ arţi în dou¼a mulţimea variabi-
lelor: o parte din variabile, numite variabile active, vor … utilizate pentru
determinarea axelor principale şi cealalt¼ a parte a variabilelor numite variabile
pasive/suplimentare/ilustrative, vor … corelate à posteriori cu componentele
principale. În plus, variabilele active, de…nite într-un spaţiu şi utilizate la cal-
culul planurilor factoriale, trebuie s¼ a formeze un ansamblu omogen ca textur¼ a
(trebuie, adic¼a, s¼
a aib¼ a aceeaşi natur¼a) pentru ca distanţele între elemente s¼ a
aib¼a un sens. Pentru a interpreta similitudinile între elemente acestea trebuie

a …e omogene şi în conţinut, adic¼ a s¼
a priveasc¼ a o aceeaşi tem¼ a. Se compar¼ a
obiectele dup¼ a un anumit punct de vedere şi nu utilizând f¼ ar¼
a discern¼amânt
toate atributele cunoscute şi adesea disparate. Variabilele suplimentare nu
sunt îns¼ a supuse acestor condiţii de omogenitate.
Un tratament analog se poate aplica şi mulţimii indivizilor, distingând
între indivizi activi şi indivizi suplimentari care nu particip¼ a la calculul matri-
cilor de covarianţ¼a/corelaţie. Indivizii suplimentari permit veri…carea netau-
tologic¼a a ipotezelor formulate asupra indivizilor activi dup¼ a o ACP.
Se noteaz¼ a cu Y+ 2Mn;s (R)cele s variabile (coloane) continue, ilustra-
tive, şi cu Y+ 2Mt;p (R) cei t indivizi (linii) suplimentari. Dup¼ a eventuala
normare a datelor suplimentare, coordonatele noilor variabile pe axa j sunt
componentele vectorului
0 0
Y+ vj sau Z+ vj

iar coordonatele noilor indivizi pe axa j sunt componentele vectorului

(Y+ ) uj sau (Y+ ) uj


7
Dac¼a o matrice p¼atratic¼
a şi simetric¼
a are toţi coe…cienţii pozitivi atunci valoarea sa
proprie cea mai mare în modul este pozitiv¼ a, r¼
ad¼
acin¼a simpl¼
a a ecuaţiei caracteristice şi i se
asociaz¼
a un vector propriu având componente pozitive.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 49

Dac¼
a variabila suplimentar¼a este nominal¼ a transformarea de mai sus nu
mai poate … aplicat¼a. În aceast¼a situaţie, analiza unei variabile nominale
suplimentare nu se mai face în Rn ci în Rp . Fiecare modalitate a variabilei
nominale este reprezentat¼
a în spaţiul indivizilor prin centrul de greutate al
subnorului de puncte-individ care au ales respectiva modalitate.

1.2.3.4 REPREZENTAREA SIMULTANA ¼ Analiza norului de va-


riabile este dedus¼
a din analiza norului de indivizi: reprezentarea variabile-
lor pe axele factoriale în Rn ajut¼ a la interpretarea axelor factoriale în Rp şi
reciproc. Cei doi nori nu folosesc, îns¼ a, acelaşi reper, ceea ce face imposibil¼
a
reprezentarea simultan¼ a a indivizilor şi variabilelor. Astfel:

- în spaţiul Rp , reprezentarea norului de n puncte-individ se face în reperul


fG; u1 ; : : : ; up g. Reprezentarea indivizilor în planul factorial furnizeaz¼ a
cea mai bun¼ a vizualizare aproximativ¼a a distanţelor între indivizi. Vecin¼
a-
tatea indivizilor în planul factorial se interpreteaz¼ a în termeni de simili-
tudini de comportament faţ¼ a de variabilele observate;

- în spaţiul Rn , reprezentarea norului de p puncte-variabil¼ a se face în


reperul fO; v1 ; : : : ; vn g. Reprezentarea variabilelor în cercul de core-
laţie furnizeaz¼
a o sintez¼ a gra…c¼
a a matricii de corelaţie. Vecin¼atatea
variabilelor în planul cercului de corelaţie se interpreteaz¼a în termeni de
corelaţii.

Luând în considerare cele de mai sus, suprapunerea celor dou¼ a planuri


factoriale este lipsit¼a de sens. Trebuie s¼ a ne ferim a interpreta distanţa
dintre un punct-individ şi un punct-variabil¼ a deoarece aceste puncte
nu fac parte nici din acelaşi nor, nici din acelaşi spaţiu şi nici nu sunt
reprezentate în acelaşi reper.
Dac¼a, îns¼
a, se consider¼a în loc de puncte-variabil¼
a direcţii de variabile în
Rp , atunci se pot reprezenta simultan, în acest spaţiu, atât punctele-individ
cât şi vectorii reprezentând variabilele.
În spaţiul Rp al celor n puncte-individ, dup¼a transformarea tabelului de
date, dispunem de dou¼ a sisteme de axe:

- vechile axe unitare fe1 ; : : : ; ep g corespunzând celor p variabile înainte de


analiz¼ a şi reprezentând sistemul de axe de referinţ¼ a pentru coordonatele
iniţiale ale indivizilor (cu e0j = (0; : : : 0; 1j ; 0; : : : 0) ; j = 1; p);

- noile axe unitare fu1 ; : : : ; up g formate din axele factoriale.

Posibilitatea unei reprezent¼ ari simultane rezid¼ a în acest context în proiecţia,


ca individ suplimentar, a vechii axe ej pe noua ax¼ a uk . Coordonata proiecţiei
a se reprezinte în Rp direcţi-
lui ej pe uk este e0j uk = ukj . Este, astfel, posibil s¼
ile date de variabilele iniţiale pe planul factorial al norului de indivizi. Aceste
50 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

direcţii pot … materializate prin vectori unitari. Aceşti vectori constituie repe-
rul originar în care a fost construit norul de indivizi şi sunt, deci, ortogonali
doi câte doi. Este, acum, evident faptul c¼ a aceast¼ a reprezentare a variabilelor
este diferit¼a de reprezentarea norului de variabile descris¼ a mai sus. Ceeace se
va numi reprezentare simultan¼a este, deci, proiectarea reperului ortonormat al
axelor de origine în planul factorial al norului de indivizi.
Se reaminteşte c¼ a, în Rn , în metrica euclidian¼ a, coordonata variabilei j
pe axa k este egal¼ a cu coe…cientul de corelaţie
p (conform formulei de tranziţie)
între variabil¼a şi factor şi este dkj = k ukj . Cei doi nori de variabile nu
coincid.
p Ei difer¼
a unul de cel¼
a lalt, pe …ecare ax¼a, prin coe…cientul de dilataţie
k.
În cazul reprezent¼ arii simultane, care este de fapt o reprezentare în Rn ,
distanţa dintre dou¼ a variabile nu se interpreteaz¼ a în termeni de corelaţie de-
oarece este vorba de extremit¼
p aţile unor vectori ortonormaţi (distanţ¼ a egal¼
a cu
2 în spaţiul complet). Interpretarea distanţei între dou¼ a variabile, în termeni
de corelaţie, nu se poate face decât în Rn (s¼ a observ¼ am, totuşi, c¼
a norul proiec-
tat al extremit¼ p
aţilor vectorilor unitari din R şi norul extremit¼ aţilor vectorilor
variabile în Rn au, în general, forme asem¼ an¼ atoare, mai ales dac¼ a vectorii pro-
prii sunt comparabili, deci dilat¼ arile sunt puţin deformante). Ţinând cont de
aceste consideraţii, este licit s¼a compar¼ am, în reprezentarea simultan¼ a, poziţia
a doi indivizi faţ¼a de ansamblul variabilelor, sau poziţia a dou¼ a variabile faţ¼ a
de ansamblul indivizilor. Astfel, direcţia unei variabile de…neşte zone pentru
indivizi: de o parte indivizii ce iau valori mari pentru aceast¼ a variabil¼ a şi în
partea opus¼ a, indivizii care iau valori mici. Ne vor interesa distanţele între
indivizi în direcţia variabilei. La intersecţia axelor se g¼ asesc valorile medii ale
tuturor variabilelor.

1.2.4 Analize neparametrice


Metodele de analiz¼a neparametric¼a nu difer¼
a de ACP decât printr-o trans-
formare preliminar¼ a a datelor. Aceste metode sunt recomandate atunci când
datele preliminare sunt heterogene, dau rezultate foarte robuste şi se preteaz¼
a
la interpret¼
ari simple în termeni statistici.

1.2.4.1 ANALIZA RANGURILOR În analiza rangurilor, tabelul in-


iţial este transformat în tabel de ranguri. Observaţia i a variabilei j const¼ a,
în acest caz, într-un clasament qij dat de rangul observaţiei i în ordonarea
cresc¼ atoare a celor n realiz¼ ari ale variabilei j. În aceste condiţii, distanţa între
dou¼ a variabile, qj şi qk ; este de…nit¼a de formula:
X n
6
2
d (qj ; qk ) = (qij qik )2 :
n (n 1) (n + 1)
i=1

Recunoaştem în aceast¼
a formul¼
a complementul faţ¼
a de 1 al coe…cientului de
corelaţie Spearman.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 51

Utilizarea rangurilor este justi…cat¼


a în urm¼
atoarele contexte:

datele iniţiale sunt ele însele un clasament, caz în care acest tip de analiz¼
a
se impune;

sc¼
arile de m¼asur¼
a a variabilelor pot … atât de diferite încât operaţia
de reducere practicat¼ a de analiza în componente principale normate nu
este su…cient¼
a. În plus, operaţia de normare nu reduce, de exemplu,
nesimetria distribuţiilor.

atunci când este mai interesant sintetizarea unei familii de clasamente


decât a unei mulţimi foarte eterogene de m¼
asur¼
atori;

ipotezele à priori f¼ acute implicit asupra m¼ asur¼


atorilor sunt mult mai
slabe şi, în consecinţ¼ a, mai puţin arbitrare: legea de repartiţie a dis-
tanţelor este acum neparametric¼ a. Dispunem, deci, de praguri de în-
credere care nu mai depind decât de ipoteza de continuitate asupra dis-
tribuţiilor observaţiilor, mai plauzibil¼
a decât cea de normalitate;

în …ne, reprezent¼
arile obţinute sunt robuste, puţin sensibile la existenţa
valorilor aberante, ceea ce este adeseori o calitate apreciabil¼a.

Regulile de interpretare se deduc din cele ale analizei în componente prin-


cipale deoarece aceasta este analiza ce se aplic¼ a dup¼ a operaţia de transformare
în ranguri. S¼ a not¼am c¼ a, în acest caz, nu este necesar¼ a reducerea tabelului
de date deoarece toate rangurile au aceeaşi dispersie. Proximitatea între dou¼ a
variabile se interpreteaz¼ a în termeni de corelaţie a rangurilor: dou¼ a variabile
sunt apropiate dac¼ a prezint¼ a clasamente asem¼ an¼atoare ale observaţiilor in-
iţiale; dou¼a variabile sunt dep¼ artate dac¼
a prezint¼ a clasamente practic opuse
ale observaţiilor iniţiale. Dou¼ a observaţii vor … apropiate dac¼ a au ranguri
similare pentru …ecare variabil¼ a. S¼
a mai not¼ am c¼ a, în reprezentarea simul-
tan¼ a, se poate avea o idee asupra întregului clasament al observaţiilor pentru
o variabil¼ a examinându-se poziţiile respective ale acestei variabile şi mulţimea
observaţiilor.
În …ne, caracterul neparametric al reprezent¼ arii obţinute permite efectu-
area de teste de validare asupra valorilor proprii. Distribuţia valorilor proprii
obţinute din analiza unui tabel de ranguri nu depinde decât de parametrii n
şi p, num¼ arul de linii şi de coloane al tabelului. Este posibil s¼ a proced¼am la o
listare a pragurilor de încredere a valorilor proprii.

1.2.4.2 ANALIZA ÎN COMPONENTE ROBUSTE Criteriul de


ajustare al celor mai mici p¼ atrate este, în mod particular, adaptat distribuţiei
normale. În cazul unei distribuţii uniforme (cazul analizei rangurilor) acesta
tinde s¼
a dea o importanţ¼ a excesiv¼a observaţiilor extreme. Pentru ca analiza

a …e mai robust¼ a, distribuţia uniform¼a a rangurilor este "normalizat¼
a".
52 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Fie cea de a k-a observaţie din n observaţii ordonate cresc¼ ator şi …e F
funcţia de repartiţie normal¼
a. Se înlocuieşte observaţia de rang k prin valoarea
k
yk dat¼ a de transformarea yk = F 1 n+1 unde F 1 este inversa funcţiei de
repartiţie normal¼a.
Pentru n mare, transformarea este echivalent¼ a cu înlocuirea celei de a k
observaţii cu media celei de a k observaţii într-un eşantion ordonat de n valori
normale.

1.2.5 Alte metode derivate


Numeroase tehnici sunt direct derivate din analiza în componente prin-
cipale - variantele neparametrice din paragraful precedent sunt un astfel de
exemplu.
Unele prezent¼ ari ale analizei de corespondenţ¼ a consider¼a aceast¼ a metod¼ a
ca o analiz¼a în componente principale particular¼ a. Aceasta este posibil dac¼ a se
trateaz¼ a cele dou¼a spaţii –al liniilor şi al coloanelor –separat, dar nu aceasta
este optica aleas¼ a aici. Acest tratament separat mascheaz¼ a unul dintre apor-
turile metodologice fundamentale ale analizei factoriale descriptive. Analiza
în componente principale, …e c¼ a este vorba de analiza normat¼ a sau nenormat¼ a,
analizeaz¼ a indivizii în raport cu centrul lor de greutate şi variabilele în raport
cu originea axelor. Aceast¼ a asimetrie de tratament corespunde la domenii de
aplicaţie speci…ce şi induce reguli de interpretare particulare. Descompunerea
în valori singulare (sau înc¼ a analiza general¼ a, sau teorema lui Eckart şi Young)
formeaz¼ a miezul teoretic comun al celor dou¼ a metode.
Vom cita, printre alte metode derivate, analiza parţial¼a a corelaţiilor
sau analiza cu variabile instrumentale ([51]). În acest caz se urm¼ areşte nu
numai eliminarea eterogenit¼ aţii variabilelor, prin centrarea şi reducerea lor, ci
şi reducerea efectelor celorlalte variabile printr-o regresie multipl¼ a prealabil¼ a.
Analiza logaritmic¼a ([38]) este o analiz¼ a în componente principale nenormate a
tabelului (dublu centrat pe linii şi pe coloane) variabilelor iniţiale logaritmate.
Aceast¼ a variant¼a posed¼ a propriet¼ aţi de stabilitate şi robusteţe interesante.
În …ne, alte tehnici cum ar … regresia pe componente principale sau
clasi…carea pe factori, sunt mai degrab¼ a tehnici complementare decât derivate.

1.2.6 Alte demersuri


Descompunerea în valori singulare este o proprietate a tuturor matricilor
dreptunghiulare. Ea se bazeaz¼ a pe distanţe euclidiene, adic¼a pe forme p¼atrat-
ice pozitiv de…nite şi pe aproxim¼ ari ale spaţiilor vectoriale prin minimizarea
unui criteriu legat de distanţe. Sunt posibile şi alte demersuri care modi…c¼ a
tipul de distanţ¼ a, sau natura subspaţiilor, sau pe amândou¼ a. Desigur, în acest
caz multe dintre propriet¼ aţile matematice simple ale analizei bazate pe metrica
euclidian¼a nu se mai reg¼ asesc: unicitatea descompunerii, simetria rolurilor ju-
cate de linii şi de coloane, simplitatea formulelor de reconstrucţie, poziţionarea
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 53

natural¼a a variabilelor suplimentare. Alte criterii de aproximare


P 2 pot …, totuşi,
utile. În locul metodei celor mai mici p¼ atrate min ei (norma "L P 2 ") se
poate utiliza, de exemplu, metoda celor mai mici valori absolute min f jei jg
(norma "L1 ") care induce distanţa “city-block” (pentru contribuţii la acest
punct de vedere se recomand¼ a, printre altele, [18] ).
Într-un spirit puţin diferit, [45] enunţ¼a un algoritm pentru a aproxima
(în sensul celor mai mici p¼ atrate, adic¼
a în L2 ) o matrice de distanţe de tip Lp
cu o matrice de disimilaritate dat¼ a.
Pentru a studia anumite tabele de contingenţ¼ a, în speţ¼
a tabele
P p de schimb,
p 2
[19] propun utilizarea distanţei lui Hellinger : d2 (x; y) = xi yi
(„analiza vectorial¼a sferic¼a ”).
În …ne, f¼
ar¼a a schimba nici metrica nici criteriul de aproximare, se pot
aproxima alte suprafeţe decât hiperplanele. Astfel, în cazul analizei în com-
ponente principale normate care este, în spaţiul Rn ; analiza punctelor situate
pe o sfer¼
a, [25] propune aproximarea unei hipersfere.

1.2.7 Exemplu
Descrierea datelor
În scopul studiului relaţiilor dintre 10 tipuri de activit¼ aţi umane şi al
clasi…c¼
arii acestora, s-au cules date privind obiceiurile zilnice a 28 de grupuri de
indivizi de ambele sexe. Valorile din tabelul A.1. (Anex¼ a) reprezint¼a num¼arul
de ore din 100 de zile alocat pentru un anume tip de activitate. Datele vor …
analizate utilizând tehnica analizei în componente principale.
Pentru acest set de date se identi…c¼ a:

variabilele active:

– WRK = carier¼
a
– TRSP = transport
– HH = activit¼
aţi casnice
– CHD = copii
– SHP = cump¼
ar¼
aturi
– CARE = îngrijire personal¼
a
– MEAL = hran¼
a

variabilele suplimentare:

– SLP = odihn¼
a
– TV = televizor
– LSR = distracţie
54 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

variabilele pentru desemnarea indivizilor activi:

– GEN

indivizii: sunt reprezentaţi prin liniile tabelului şi se grupeaz¼


a, în funcţie
de sex, în indivizi activi şi indivizi suplimentari. Vom alege de aceast¼ a
dat¼
a indivizii de gen feminin ca …ind activi. Denumirile indivizilor au
urm¼atoarea semni…caţie:

prima liter¼
a a doua liter¼
a a treia liter¼
a

E=angajat M=b¼
arbat U=USA
U=neangajat W=femeie W=Vest
M=c¼as¼
atorit E=Est
S=nec¼
as¼atorit Y=Iugoslavia

Dintre elemente prezentate mai sus doar variabilele şi indivizii activi
particip¼a efectiv la determinarea axelor principale, în timp ce variabilele şi in-
divizii suplimentari intervin doar în momentul interpret¼ arii (vezi subcapitolul
1.2.3).

Efectuarea analizei şi interpretarea rezultatelor

Aplicarea metodei de analiz¼


a în componente principale în cadrul progra-
mului STATISTICA presupune parcurgerea mai multor paşi.
Pentru început se selecteaz¼a din bara de meniu tipul de analiz¼
a utilizat
- Statistics, Multivariate Exporatory Techniques, Principal Components and
Classi…cation Analysis.
În fereastra de dialog ap¼ arut¼
a (…g. 1.2.8.) butonul Variables permite
selectarea variabilelor active, suplimentare, de identi…care a indivizilor activi
şi de etichetare, conform speci…caţiilor de mai sus. Se opteaz¼ a pentru analiza
bazat¼ a pe corelaţii (analiza pe tabelul centrat redus) şi pentru lucrul cu estima-
torul nedeplasat al dispersiei, SS=(N 1). Valorile lips¼ a din tabelul de date se
trateaz¼ a prin metoda Mean Substitution (înlocuirea cu media corespunz¼ atoare
variabilei respective).
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 55

fig. 1.2.8. Fereastra de pornire


Dup¼ a ap¼
asarea butonului OK este activat¼ a o nou¼a fereastr¼
a de dialog
(…g. 1.2.9) care ofer¼ a informaţii cu privire la contextul de lucru (elemente
active şi suplimentare, valori proprii) şi permite începerea efectiv¼
a a analizei.

fig. 1.2.9. Fereastra de rezultate

Patru submeniuri sunt disponibile:

Submeniul Quick - înglobeaz¼ a cele mai importante opţiuni din subme-


niurile Variables şi Cases.
Submeniul Variables - ofer¼ a informaţii, sub form¼ a gra…c¼
a sau tabelar¼
a,
despre variabile, vectori proprii şi valori proprii.
56 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Submeniul Cases - ofer¼


a informaţii, sub form¼
a gra…c¼
a sau tabelar¼
a, de-
spre indivizi.

Submeniul Descriptives - permite calculul unor indicatori statistici de


baz¼
a, a matricilor de corelaţie şi covarianţ¼
a, precum şi realizarea unor
gra…ce simple.

Calculul parametrilor descriptivi elementari (Descriptives, Summary de-


scriptives) ofer¼a o imagine de ansamblu (tabelul 1.2.6). Valorile medii (Mean)
şi abaterile standard (Std. Dev.) vor servi la centrarea şi reducerea datelor
şi nu vor mai interveni direct în cele ce urmeaz¼a. Este important¼ a observarea
mediilor şi dispersiilor atât în cazul variabilelor active cât şi în cazul celor
suplimentare, aceast¼ a etap¼
a …ind util¼a în depistarea de eventuale modele şi
determinarea unor tehnici suplimentare de analiz¼ a.

tabelul 1.2.6. Medii Ş i dispersii

Matricea de corelaţie (tabelul 1.2.7.) furnizeaz¼ a coe…cienţii ce descriu


asocierea liniar¼ a între variabile. De exemplu, cariera (WRK) pare a … în
strâns¼ a relaţie direct¼
a cu transportul (TRSP), având un coe…cient de corelaţie
de 0,77, dar puternic negativ corelat¼ a (-0,82) cu activit¼
aţile casnice (HH).
Lectura acestei matrici ofer¼ a o prim¼
a idee asupra leg¼
aturilor dintre variabile
iar analiza în componente principale va permite obţinerea unei sinteze a acestor
relaţii.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 57

tabelul 1.2.7. CorelaŢ ii

Urm¼ atorul pas în cadrul ACP este determinarea dimensiunii spaţiului de


proiecţie, unde relaţiile dintre variabile vor … mai uşor de observat. Pentru
aceasta examin¼ am valorile proprii rezultate în urma diagonaliz¼ arii matricei
corelaţiilor dintre variabilele active. Tabelul 1.2.8., obţinut din submeniul
Variables, Eigenvalues, conţine valorile proprii ordonate descresc¼ ator, indic¼
a
procentul de inerţie explicat¼a de factorul asociat …ec¼
arei valori proprii precum
şi procentul cumulat de inerţie explicat¼ a.

tabelul 1.2.8. Valori proprii

“Regula cotului”, ilustrat¼ a gra…c prin diagrama Screeplot (…g 1.2.10.) din
submeniul Variables, indic¼ a drept e…cient¼ a folosirea în interpretare a maxim
cinci dimensiuni (vezi subcapitolul 1.2.3), iar criteriul lui Kaiser consider¼ a su-
…ciente doar dou¼ a: în cazul ACP normate se reţin componentele principale
corespunz¼ atoare valorilor proprii superioare lui unu. Examinând tabelul valo-
rilor proprii se observ¼
a c¼a primele 2 dimensiuni ofer¼ a o calitate a reprezent¼arii
în noul spaţiu de 80.95%, valoare considerat¼ a su…cient¼a. Prin urmare, planul
de proiecţie va … planul factorial principal. Valoarea 2 se completeaz¼ a în caseta
Number of factors din fereastra de rezultate.
58 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

fig. 1.2.10. Screeplot

Conform descrierii din introducerea capitolului, rolul analizei în compo-


nente principale este de a ilustra relaţiile dintre variabile şi de a evidenţia
grup¼ari de indivizi în funcţie de aceste relaţii. În cazul de faţ¼
a se pune în-
trebarea dac¼ a exist¼
a vreo leg¼ atur¼
a între cele zece tipuri de activit¼ aţi şi, în
acest caz, ce structur¼a între indivizi induce aceast¼ a leg¼
atur¼
a. Pentru aceasta

a examin¼am tabelul 1.2.9. ce conţine:

coordonatele proiecţiilor variabilelor pe cei doi factori principali (Vari-


ables, Factor coordinates of variables).

contribuţiile variabilelor la inerţia factorilor (Variables, Contributions).


Cu cât un punct este mai dep¼ artat de origine cu atât are o contribuţie
mai ridicat¼ a. Evident, nu se pot calcula contribuţii în cazul elementelor
suplimentare deoarece acestea nu particip¼ a efectiv la analiz¼
a.

cosinusurile p¼
atrate, ce dau calitatea reprezent¼ arii variabilelor pe …ecare
factor (Variables, Communalities). Cu cât cosinusurile p¼ atrate sunt mai
apropiate de 1 cu atât proiecţiile punctelor sunt mai aproape de poziţiile
acestora în spaţiul iniţial, deci informaţia este mai bine conservat¼ a în
noul spaţiu.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 59

tabelul 1.2.9. Coordonate, contribuŢ ii, cosinusuri pA¼ trate

fig. 1.2.11. Cercul de corelaŢ ie

Pentru c¼ a analiza a fost realizat¼ a plecând de la matricea de corelaţii,


deci de la datele centrat reduse, coordonatele din tabelul 1.2.9 reprezint¼ a coe-
…cienţii de corelaţie dintre variabile şi cei doi factori principali. Aşadar, primul
factor, corespunz¼ ator valorii proprii 3:97, este puternic corelat pe de o parte
cu variabilele WRK şi TRSP - corelaţii negative, şi pe de alt¼ a parte cu HH
şi CHD - corelaţii pozitive. În plus, valorile coordonatelor pentru aceste va-
riabile sunt foarte apropiate de -1 (-0.94, -0.85), respectiv +1 (0.91, 0.77) şi
cosinusurile p¼ atrate au valori ridicate (0.88, 0.72, 0.83, 0.60). Putem spune
aşadar c¼a primul factor principal opune activit¼ aţile speci…ce lucrului în afara
casei (munc¼ a şi transport) celor casnice (creşterea copiilor şi îngrijirea casei).
În mod similar, al doilea factor este evident legat de activit¼ aţi speci…ce stilu-
lui de viaţ¼
a al omului modern şi organizat: cump¼ ar¼
aturile (SHP) şi îngrijirea
60 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

personal¼ a (CARE). Reprezentarea gra…c¼ a a coordonatelor în cadrul cercului


de corelaţie (…g. 1.2.11.) este disponibil¼ a în submeniul Variables, Plot var.
factor coordinates, 2D, şi ofer¼a o mai bun¼ a imagine asupra relaţiilor din planul
variabilelor.
Variable contributions ilustreaz¼ a contribuţia …ec¼arei variabile iniţiale la
dispersia factoruilui respectiv. Valorile din tabelul 1.2.9 con…rm¼ a faptul c¼ a
timpul petrecut la servici (WRK) şi timpul petrecut acas¼ a (HH) explic¼ a împre-
un¼ a 43% din dispersia factorului 1 iar timpul petrecut la cump¼ araturi (SHP)
şi timpul petrecut pentru îngrijirea personal¼ a (CARE) explic¼ a împreun¼ a 77%
din dispersia factorului 2.
Variabilele suplimentare ilustrând timpul liber (SLP, TV, LSR) sunt
legate de activit¼aţile casnice (…g. 1.2.11.).
În ceea ce priveşte indivizii, sugestiv¼a este imaginea proiecţiei în planul
factorial (…g. 1.2.12.). Pentru a obţine acest gra…c, din submeniul Cases
se alege opţiunea No names/numbers şi se apas¼ a butonul Plot cases factor
coordinates, 2D.

fig. 1.2.12. Planul indivizilor

Gra…cul obţinut a fost construit plecând de la indivizii activi (de gen


feminin), cei suplimentari (de gen masculin) …ind proiectaţi ulterior. Este
interesant¼ a gruparea celor dou¼ a tipuri de indivizi, conform c¼
areia b¼
arbaţii sunt
situaţi la jum¼atatea stâng¼ a a primei axe (au deci coordonate negative pe primul
factor). Având în vedere interpretarea primului factor, pentru care munca şi
transportul aveau coordonate negative semni…cative şi contribuţii ridicate, se
poate spune c¼ a b¼
arbaţii care au participat la acest studiu acord¼
a cea mai mare
parte a timpului carierei. Tot în …gura 1.2.12. se evidenţiaz¼ a dou¼a grup¼ ari
în cadrul indivizilor de sex feminin, situate la dreapta şi la stânga primei
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 61

axe principale: (A) femeile care işi petrec majoritatea timpului în cas¼
a şi (B)
femeile care îşi petrec majoritatea timpului în exterior. Pentru o interpretare
mai detaliat¼a se opteaz¼ a pentru reprezentarea punctelor însoţite de etichete
(opţiunea Case Names din submeniul Cases).

fig. 1.2.13. Plotarea indivizilor etichetaŢ i

Avem acum mai multe informaţii despre compoziţia grupurilor (A) şi (B):
conform …gurii 1.2.13. rezult¼ a c¼
a femeile care îşi petrec majoritatea timpului
în cas¼a sunt …e c¼as¼
atorite (prima liter¼
a din codi…care este M), …e neangajate
(prima liter¼a din codi…care este U), iar femeile c¼ as¼
atorite (S) sau/şi angajate
(E) îşi petrec majoritatea timpului în exterior.
Se remarc¼ a în mod deosebit patru tipologii:

(1) femeia "medie" - a c¼ arei reprezentare în …gura 1.2.13. este situat¼a la


cea mai mic¼ a distanţ¼
a faţ¼
a de centrul de greutate al norului de puncte-
individ. Aceasta este c¼ as¼atorit¼
a iar apropierea de grupul (B) indic¼ a
faptul c¼
a este mai degrab¼ a o femeie activ¼a decât casnic¼
a.
(2) femeia "casnic¼a" - provenind din grupul (A) este neangajat¼
a, preocupat¼
a
îndeosebi de menaj şi de creşterea copiilor.
(3) femeia "cump¼ar¼atoare" - în bugetul de timp al acestei categorii, cump¼
ar¼
a-
turile (SHP) ocup¼ a un loc important. Grupul ese ilustrat exclusiv de
femei din USA.
(4) femeia "narcisist¼a" - provenind din grupul (B), acord¼ a majoritatea tim-
pului îngrijirii personale. Acest grup este ilustrat exclusiv de femei din
USA şi este alc¼atuit din femei care lucreaz¼
a şi femei singure.
62 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

1.3 Analiza corespondenţelor simple (ACS)


Prezentat¼a sub acest nume şi dezvoltat¼ a în Franţa de J.P. Benzecri [5],
metoda are ca precursori pe Guttman [31] şi Hayashi [36].
Analiza corespondenţelor este o metod¼ a adaptat¼a tabelelor de con-
tingenţ¼
a care permite studiul relaţiilor între dou¼a sau mai multe variabile
nominale (discrete).
Se distinge între:
Analiza corespondenţelor simple (ACS) în cazul studiului relaţiilor
între dou¼
a variabile nominale;
Analiza corespondenţelor multiple (ACM) în cazul studiului relaţi-
ilor între mai multe variabile nominale;
De…niţia 1.3.1 Se numeşte tabel de contingenţ¼a (sau de dependenţ¼a sau în-
crucişat) un tabel ale c¼ arui linii, respectiv coloane desemneaz¼ a dou¼a partiţii
ale aceleiaşi mulţimi, partiţii date de modalit¼
aţile a dou¼
a variabile nominale.
Fie X şi Y dou¼a variabile nominale cu n respectiv p modalit¼ aţi descriind
o mulţime de k indivizi.
Fie K tabelul de contingenţ¼ a cu n linii, p coloane şi elementele kij ; unde
kij este num¼ arul de indivizi avînd simultan modalitatea i a variabilei X şi
modalitatea j a variabilei Y.
Se noteaz¼ a cu
X X
ki = kij ; k j = kij ;
j i
X X X
k = kij = ki = k j;
i;j i j

şi cu
kij
fij = frecvenţele relative, cu marjele:
Xk X X
fi = fij ; f j = fij ; f = fij = 1:
j i i;j

Gra…c, tabelul se prezint¼


a astfel:
X/Y y1 y2 yj yp
..
x1 . k1
..
x2 . k2
.. ..
. .
xi kij ki
..
.
xn kn
k1 k2 kj kp k
1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 63

Dou¼ a lecturi sunt posibile, dup¼


a cum este privilegiat¼
a una sau alta din-
n oi=1;n
fij
tre variabile: pe linii, cu frecvenţele fi , respectiv pe coloane, cu
n o j=1;p
f
frecvenţele fijj .

1.3.1 Schema general¼


a de ACS
Analiza corespondenţelor simple revine la efectuarea unei analize gene-
rale a unui nor de puncte ponderate într-un spaţiu cu o metric¼
a special¼
a.

1.3.1.1 ¼
GEOMETRIA NORILOR ŞI ELEMENTELE DE BAZA
Fie
0 1
f11 f12 : : : f1p
B .. C - matricea de dimensiune n p a frecvenţelor
F = @ ... . A
fn1 fn2 : : : fnp
relative;
Dn = diag (fi ) - matricea n n cu diagonala principal¼
a conţinând mar-
jele liniilor;
Dp = diag (f j ) - matricea p p cu diagonala principal¼
a conţânînd marjele
coloanelor.

fig. 1.3.1. TransformA¼ rile tabelului de contingenŢ A¼


64 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

fig. 1.3.2. FrecvenŢ e, marje, profile

1.3.1.2 ALEGEREA DISTANŢEI ŞI A METRICII

Este …resc s¼a ne gîndim la distanţa euclidian¼


a între pro…lurile-linie, re-
spectiv pro…lurile-coloan¼
a:

X fij fi0 j 2
d2 i; i0 =
fi fi0
j

şi analoaga.
Aceast¼a distanţ¼a favorizeaz¼
a coloanele care au o mas¼ a f j important¼a,
adic¼a modalit¼aţile j care sunt bine reprezentate în populaţia studiat¼
a. Pentru
a remedia acest lucru cît şi din alte considerente discutate în continuare, se
pondereaz¼ a …ecare diferenţ¼ a cu inversa masei coloanei, obţinîndu-se distanţa
2

X 1 fij fi0 j 2
2 0
d i; i =
fj fi fi0
j

şi analoaga
X 1 fij fij 0 2
d2 j; j 0 = :
fi fj f j0
i

Propoziţia 1.3.1
Distanţa 2 este invariant¼
a la agregarea liniilor, respectiv a coloanelor, cu
acelaşi pro…l.

Demonstraţie.
1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 65

fig. 1.3.3. EchivalenŢ a distribuŢ ionalA¼ : invarianŢ a distanŢ elor


între coloane faŢ A¼ de agregarea liniilor

iX
1 1 2 2
2 0 1 fij fij 0 1 fi1 j fi1 j 0
d j; j = + +
fi fj f j0 fi1 fj f j0
i=1
2 n
X 2
1 fi2 j fi2 j 0 1 fij fij 0
+ +
fi2 fj f j0 fi fj f j0
i=i2 +1

Distanţa dup¼
a agregarea liniilor cu acelaşi pro…l i1 şi i2 este

iX
1 1 2 2
1 fij fij 0 1 fi0 j fi0 j 0
d2r j; j 0 = + +
fi fj f j0 fi0 fj f j0
i=1
n
X 2
1 fij fij 0
+ :
fi fj f j0
i=i2 +1

f f
Dar fii1 j = fii2 j = rj ; (8) j = 1; p; deoarece liniile au acelaşi pro…l. Pe de
1 2
alt¼
a parte, prin agregarea liniilor i1 şi i2 rezult¼ a

fi1 j + fi2 j = fi0 j ; (8) j fi j


ki1 j + ki2 j = ki0 j ; (8) j = 1; p ) ) 0 = rj
fi1 + fi2 = fi0 fi0

fi0 j fi1 j +fi2 j ki1 j +ki2 j rj (ki1 +ki2 )


deoarece ki1 j = ki1 rj ; ki2 j = ki2 rj şi fi0 = fi1 +fi2 = ki1 +ki2 = =
(ki1 +ki2 )
rj .
66 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Aşadar
2 2
1 fi1 j fi1 j 0 fi1 j 1 fi1 j 0 1
A (i1 ) = = fi1 =
fi1 fj f j0 fi1 fj fi1 f j0
2
rj rj 0
= fi1 = fi1 B
fj f j0
2 2
1 fi2 j fi2 j 0 fi2 j 1 fi2 j 0 1
A (i2 ) = = fi2 =
fi2 fj f j0 fi2 fj fi2 f j0
rj rj 0 2
= fi2 = fi2 B
fj f j0
) A (i1 ) + A (i2 ) = fi1 B+fi2 B= (fi1 +fi2 ) B=fi0 B:
2 2
1 fi0 j fi0 j 0 fi0 j 1 fi0 j 0 1
A (i0 ) = = fi0 =
fi0 fj f j0 fi0 fj fi0 f j0
2
rj rj 0
= fi0 = fi0 B
fj f j0
) A (i1 ) + A (i2 ) = A (i0 ) ) d2 j; j 0 = d2r j; j 0 :

Analog pentru invarianţa distanţei între liniile pro…l la agregarea coloanelor.

Observaţia 1.3.1
a) Proprietatea demonstrat¼ a în propoziţia de mai sus se numeşte principiul
echivalenţei distribuţiilor. Distanţa euclidian¼a nu are aceast¼ a propri-
etate, spre deosebire de distanţa Hellinger.

b) Echivalenţa distribuţional¼ a permite agregarea a dou¼ a modalit¼ aţi (ale


aceleiaşi variabile) cu pro…le identice (ceea ce face ca în Rp ele s¼ a se
confunde) într-o nou¼ a modalitate cu o pondere sumat¼ a f¼
ar¼
a îns¼
a a afecta
prin aceasta nici distanţele între modalit¼ aţile variabilei nou formate, nici
distanţele între modalit¼aţile celeilalte variabile.

fig. 1.3.4. analiza în R3


1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 67

Din punct de vedere practic, aceast¼a proprietate este fundamental¼ a deoa-


rece garanteaz¼
a o oarecare invarianţ¼a a rezultatelor faţ¼
a de nomenclatura
aleas¼
a pentru construcţia modalit¼ aţilor unei variabile, cu condiţia re-
grup¼arii modalit¼
aţilor asem¼
an¼
atoare. Nu se pierde astfel informaţia prin
agregarea unor clase şi nu se câşitg¼a informaţie prin divizarea claselor
omogene.

c) Metrica spaţiului Rp , respectiv a spaţiului Rn , este, în acest caz M = Dp 1 ,


respectiv M = Dn 1 .

a au mase ffi gni=1 , re-


d) Cum pro…lurile-linie, respectiv pro…lurile-coloan¼
spectiv ff j gpj=1 , matricile de pondere sunt N = Dn respectiv N = Dp .

tabelul 1.3.1. Tabel recapitulativ cu elementele de bazA¼ ale unei acs

Elemente de baz¼
a Norul de n Norul de p
puncte-linie în Rp a în Rn
puncte-coloan¼

Matricea X (tabelul) X = Dn 1 F = X = Dp 1 F0 =
n oj=1;p n oi=1;n
f f
= fiji = fijj
i=1;n j=1;p

Metrica şi distanţa M = Dp 1 M = Dn 1

d2 (i; i0 ) = d2 (j; j 0 ) =
P
p
1 fij fi0 j 2 P
n
1 fij fij 0 2
= fj fi fi0 = fi fj f j0
j=1 i=1

Ponderea (masa) N = Dn = diag (fi ) N = Dp = diag ( f j )

masa liniei i: fi masa coloanei j: f j

Lema 1.3.1
1. Centrul de greutate al pro…lurilor-linie este xGl = (f 1 ; : : : ; f p )0 , centrul
a este xGc = (f1 ; : : : ; fn )0 .
de greutate al pro…lurilor-coloan¼

2. Inerţia global¼
a a norului de puncte-linie, respectiv puncte-coloan¼
a m¼
a-
soar¼
a ecartul între legile empirice fij şi fi f j .

Demonstraţie.

1. Din de…niţie g = X0 D 1 deci în acest caz xG = X0 N 1 cu ponderi


68 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

normate, deci
1 0 0 1
f1 f1
Bf 2 C B f2 C
0 B C 0 B C
xGl = Dn 1 F Dn 1n = B . C ; xGc = Dp 1 F Dp 1p = B . C:
@ .. A @ .. A
fp fn
P P
2. Din de…niţie IGl = pi d2 (i; Gl ) respectiv IGc = pj d2 (j; Gc ), deci
i j

X XX 1 fij 2 X X (fij fi f j )2
IGl = fi d2 (i; Gl ) = fi fj =
fj fi fi f j
i i j i j

respectiv
X XX 1 fij 2 X X (fij fi f j )2
IGc = f j d2 (j; Gc ) = fj fi = :
fi fj fi f j
j j i j i

Reamintim c¼ a dou¼a variabile aleatoare discrete, luînd n, respectiv p va-


lori, cu distribuţia de probabilitate comun¼a fpij gj=1;p
i=1;n
şi distribuţiile marginale
fpi g respectiv fp j g sunt independente dac¼ a şi numai dac¼ a pij = pi p j ; ceea
ce se traduce în termeni de estimaţii empirice ale acestor distribuţii în

fij = fi f j :

Statistica testului

H0 : pij = pi p j (8) i; j
HA : (9) i1 astfel încât pi1 j 6= pi1 pj
P P (fij f i f j )2
este X 2 = k fi f j care, conform demonstraţiei lui K. Pearson,
i j
2 dac¼ a volumul de selecţie pe baza c¼ aruia au fost estimate fij ,
(n 1)(p 1)
adic¼
a k, tinde la 1. Aceasta este motivaţia pentru care distanţa folosit¼ a în
ACS se numeşte 2 şi m¼ asoar¼
a cât de „independente” din punct de vedere
statistic sunt liniile faţ¼
a de coloanele tabelului de contingenţ¼
a K şi reciproc.

1.3.1.3. CRITERIUL DE MAXIMIZAT ŞI MATRICEA DE DI-


AGONALIZAT
Dorim s¼ a reprezent¼ am gra…c proximitatea între pro…le. Ne plas¼ am, pe
rînd, în cele dou¼a spaţii, în centrul de greutate al norului corespunz¼ ator. Este
o particularitate a ACS, în comparaţie cu ACP, echivalenţa dintre analiza
general¼a realizat¼
a pe tabloul necentrat (adic¼ a cu originea în O) şi cea realizat¼
a
1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 69

pe tabloul centrat (adic¼a cu originea în G) cu condiţia s¼


a neglij¼
am, în primul
caz, axa factorial¼a care uneşte pe O cu G (aceast¼ a ax¼a este asociat¼
a valorii
proprii egal¼
a cu unu, numit¼ a valoare proprie trivial¼
a). Pentru simpli…carea
calculelor vom întreprinde analiza general¼a pe tabloul necentrat în Rp - spaţiul
pro…lurilor-linie.
Conform celor anterioare
P
max fi d2 (i; 0)
u i
u0 Dp 1 u = 1
3 2
u0 Mu = 1
) u este vector propriu al matricii S = F0 Dn 1 FDp 1 , asociat 4X NXMu = u5
0

= X0 Mu
celei mai mari valori proprii 6= 1.
Analog, în Rn
( )
P 2 3
max 2
f j d (j; 0) v0 Mv = 1
v
; 4X NXMv = v5
0
j

v0 Dn 1 v = 1 ' = XMv

) v este vector propriu al matricii T = FDp 1 F0 Dn 1 asociat celei mai mari


valori proprii 6= 1.
Propoziţia 1.3.2
ACS pe tablelul centrat este echivalent¼
a cu ACS pe tabelul necentrat.
Demonstraţie. Pentru …xarea ideilor s¼a raţion¼am în Rp .
În cazul tabelului necentrat, se observ¼
a c¼ a

x0Gl Dp 1 xGl = 1 (1)


|{z}
M
2 3 2 3
1 " 1 p
6 .. 7 X
0 6 .. 7
deoarece Dp 1 xGl = 4.5 p şi xGl 4 . 5 = f j = 1;
1 # 1 j=1

şi c¼
a S xGl = xGl ; (2)
X fij fij 0
deoarece S = F0 Dn 1 FDp 1 ) sjj 0 =
fi f j 0
i
X 0 X X fij fij 0 X fij X
iar sjj 0 xjGl = f j0 = fij 0 = f j = xjGl
fi f j 0 fi 0
j0 j0 i i j

altfel spus, xGl este vector propriu M-normat al matricii S; asociat valorii
proprii 1 = 1. S¼a îl not¼
am cu u1 = xGl . Din construcţia spaţiului H

u01 Mu = 0; = 2; p
70 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

unde
u0 Mu = 1
:
Su = u

În cazul tabelului centrat, se noteaz¼


a cu S matricea obţinut¼
a prin centrarea
tabelului X. Se observ¼a c¼
a

S = S xGl x0Gl Dp 1 = S u1 u01 M;


S u = Su u1 u01 Mu = Su = u ; = 2; p
S u1 = Su1 u1 u01 Mu1 = u1 u1 = 0 = 0 u1 :

Aşadar

u = u +1 şi = +1 ; = 1; p 1
up = u1 şi p = 0 şi 1 = 1:

fij
Aşadar în Rp , analog în Rn , ACS pe tabloul centrat cu termenul general fi fj
fij
este echivalent¼
a cu ACS pe tabloul cu termenul general fi .

Observaţia 1.3.2
a) În ACS punctele sunt conţinute în hiperplanul H de dimensiune p 1
P fij
(pentru Rp ) datorit¼
a faptului c¼
a fi = 1; (8) i = 1; n.
i

P P
b) i) Cum xjGl = f j = 1 ) Gl 2 H.
j j

ii) x0Gl MxGl = 1 ) Gl se a‡a¼ la distanţa 1 de origine. Cum hOGl ; xGl i =


P P j
0 (deoarece (x xGl ) MxGl = xj xGl c¼aci x 2 H deci
P j j
xj = 1) ) OGl ? H.
j

fig. 1.3.5. Analiza în R3


1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 71

În analiza în raport cu originea, prima direcţie u1 este axa ce leag¼ a


originea de centrul de greutate al norului şi este ortonormal¼ a pe H. Inerţia
proiectat¼ a pe aceast¼ a ax¼
a este 1, egal¼ a cu distanţa dintre O şi Gl deoarece
toate punctele norului se proiecteaz¼ a pe aceast¼a ax¼
a în acelaşi punct Gl . Ur-
m¼atoarele p 1 axe (u1 ; u2 ; : : : ; up ) conţinute în H constituie o baz¼ a, de…nind
direcţii de inerţie maxim¼
a ale norului. Ele coincid cu primele p 1 axe ale ACS
în raport cu Gl şi u1 ; u2 ; : : : ; up . În aceast¼a analiz¼
a, a p-a ax¼ a corespunde
lui u1 = OGl şi nu indic¼ a nicio direcţie în H deoarece nu este conţinut¼ a în H
. Inerţia sa (valoarea proprie asociat¼ a) este nul¼
a.

1.3.1.4 AXELE FACTORIALE

Presupunem c¼
ap n . Conform analizei generale:

tabelul 1.3.2. Tabel recapitulativ cu elementele de bazA¼


ale unei acs
Elemente de baz¼a în Rp în Rn

Matricea de diagonalizat S = F0 Dn 1 FDp 1 T = FDp 1 F0 Dn 1

Axele factoriale Su = u Tv = v

Coordonatele factoriale = Dn 1 FDp 1 u ' = Dp 1 F0 Dn 1 v


P fij P fij
i = fi f j u j ' j = fi f j v i
j i

Lema 1.3.2
Coordonatele factoriale sunt variabile cu media empiric¼
a 0 şi dispersia em-
piric¼
a .

Demonstraţie. Datorit¼
a echivalenţei dintre ACS necentrat¼
a şi ACS centrat¼
a,
media empiric¼
a este

X X X fij 1
fi i = fi fj u j =
fi fj
i i j
X
X fij X X
= fi u j fi u j =
fi f j
i j i j
!
X X u j X
= fij u j = 0:
fj
j i j
72 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Deci, conform de…niţiei dispersiei empirice,


X
fi 2 i = 0
Dn = u0 Dp 1 F0 Dn 1 Dn Dn 1 FDp 1 u =
i
= u0 Dp 1 F0 Dn 1 FDp 1 u = u0 Dp 1 Su =
= u0 Dp 1 u = u0 Dp 1 u =
| {z }
1
P
Analog pentru f j '2 i = .
j

1.3.1.4 ¼ SPAŢII
RELAŢIILE DINTRE CELE DOUA
Analiza general¼ a a ar¼atat c¼a matricile S şi T au aceleaşi valori proprii
nenule şi c¼
a între vectorii proprii normaţi u ai lui S asociaţi lui şi vectorii
proprii normaţi v ai lui T asociaţi aceleiaşi valori proprii exist¼a relaţiile:
1
v = p FDp 1 u ;
1
u = p F0 Dn 1 v :

Înlocuind în formulele coordonatelor factoriale:


p
p 1
1
= Dn v (pe componentele i = v i ) ) p Dn =v ;
fi
p
p 1
' = Dp 1 u (pe componentele ' j = u j ) ) p Dp =u ;
fj
care înlocuite în formulele coordonatelor factoriale dau formulele quasi-
baricentrice
p
X
1 1 fij
= p Dn 1 F' cu i =p ' j;
fi
j=1
Xn
1 1 fij
' = p Dp 1 F cu ' j =p i:
fj
i=1

Astfel, modulo coe…cientul de dilataţie p1 , proiecţiile punctelor


unui nor sunt, pe o ax¼ a, coordonatele baricentrice ale proiecţiilor
punctelor celuilalt nor.
n oj=1;p
f
Matricea cu termenul general fiji ce permite calculul coordo-
i=1;n
natelor unui punct i pe baza tuturor punctelor j nu este alta decât matricea
pro…lurilor linie. Coordonata modalit¼ aţii i a unei variabile reprezint¼
a media
modalit¼aţilor j ale celeilalte variabile, ponderate de frecvenţele condiţionate
ale pro…lului i. Analog, coordonata modalit¼ aţii j reprezint¼
a media mulţimii
modalit¼aţilor i ponderate de frecvenţele condiţionate ale pro…lului j.
1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 73

Lema 1.3.3
Valorile proprii sunt subunitare ( 1; (8) ).
P
p
fij p P fij
Demonstraţie. Din = p1
i fi ' j ) i = fi ' j )
j=1 j=1
p
X p
X
fij p fij
min ' j i max ' j )
j fi j fi
j=1 j=1
| {z } | {z }
1 1
p
max i max ' j : (1)
i j

Analog
p
max ' j max ( i) : (2)
j i
p
Cum 0, din (1) şi (2) ) max ' j max ' j ) 1.
j j
Relaţiile quasi-baricentrice justi…c¼
a reprezentarea simultan¼
a a liniilor
şi a coloanelor.

fig. 1.3.6. Schema reprezentA¼ rii simultane


R¼ amîne în continuare valabil¼ a observaţia de la ACP legat¼ a de faptul c¼a
distanţa dintre un punct-linie şi un punct-coloan¼ a este lipsit¼
a de sens deoa-
rece acestea se situeaz¼
a în spaţii diferite. ACS ofer¼a totuşi posibilitatea de a
74 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

poziţiona şi interpreta un punct dintr-un nor în raport cu punctele din cel¼
alalt
nor.

1.3.2 Reguli de interpretare a rezultatelor

Inerţia M¼ asurînd distanţa de la independenţa statistic¼


a, IG 0 şi 1 2
semni…c¼a puncte grupate în jurul lui G într-o form¼ a aproximativ circular¼
a (nu
exist¼
a direcţie privilegiat¼
a) generat¼
a de pro…le independente statistic.
Dac¼a

1 ! 1 ) o dihotomie a punctelor,
2 ! 1 ) 3 subnori,
1; 2; : : : ; p ! 1 ) exist¼
a o corespondenţ¼
a aproape
biunivoc¼
a între modalit¼
aţile variabilelor.

Inerţie slab¼
a
¼
1. INDEPENDENŢA ¼
2. DEPENDENŢA
IG 0 IG 0
1 2 1 2

Inerţie mare
¼
3. DEPENDENŢA ¼
4. DEPENDENŢA
IG > 0 IG > 0
1 2 1 2
Form¼
a "sferic¼
a" Form¼
a "nesferic¼
a"

S¼a consider¼
am cîteva forme clasice de nori de puncte pentru a ar¼ ata cum
poate … reorganizat tabelul de date corespunz¼ ator, pornind de la proiecţia
acestora.
În cazul norului de puncte împ¼
arţit în doi subnori, tabelul de date poate …
reorganizat prin ordonarea coordonatelor liniilor şi coloanelor pe primul factor.
Se obţine schematic …gura 1.3.7.:
1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 75

fig. 1.3.7. Norul de puncte împA¼ rŢ it în douA¼ .


Pot exista situaţii în care analiza separat¼ a a celor doi subnori de…niţi de
tabelele corespunz¼atoare (I1 ; J1 ) şi (I2 ; J2 ) s¼
a …e interesant¼a.
În cazul norului de puncte împ¼ arţit în trei subnori, tabelul de date poate
… reorganizat analog prin permutarea liniilor şi coloanelor. El poate face de
asemenea obiectul unor ACS separate.

fig 1.3.8. Norul de puncte împA¼ rŢ it în trei


Se poate întîlni situaţia în care norul de puncte are o form¼ a parabolic¼
a.
Permutînd liniile şi coloanele, tabelul poate … reordonat sub forma unei matrici
diagonale relativ înc¼ arcate:

fig 1.3.9. Efectul guttman Ş i structura posibilA¼ a tabelului


Aceast¼a situaţie pune în evidenţ¼a efectul Guttman care corespunde
unei redundanţe a celor dou¼ a variabile: cunoaşterea liniei i permite deducerea
coloanei j. Toat¼a informaţia este dat¼a aproape în totalitate de primul factor.
76 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Matricea asociat¼ a tabelului nu este, totuşi, de rang 1 şi dispunem de


p-1 factori. Al doilea factor este o funcţie de ordinul doi de primul factor,
al treilea factor este o funcţie de ordinul trei, etc. Informaţia dat¼
a de axele
de rang superior traduce acelaşi fenomen, totuşi examinarea celui de-al doilea
factor ra…neaz¼ a interpretarea primului factor (conform [61]).
În general efectul Guttman apare atunci cînd variabilele sunt ordonate
(variabile continue transformate în variabile nominale). O ax¼ a, adesea prima,
opune valorile extreme iar o alt¼a ax¼a opune valorile intermediare valorilor ex-
treme. Uneori, efectul Guttman pune în evidenţ¼ a o structur¼a neliniar¼
a care
poate … interesant¼a dac¼a forma parabolic¼a nu este perfect¼a. Punctele de rup-
tur¼
a sunt, în acest caz, interesante.

P 2
Inerţia (dispersia) explicat¼
a de un factor = fi i ) Cr (i) =
i
fi 2
; (8) i = 1; n în Rp reprezint¼
i
a contribuţia elementului i la axa ( fi 2
i =
dispersia individului, =dispersia întregii axe).
f j '2 j
Analog Cr (j) = ; (8) i = 1; p în Rn .

fig. 1.3.10. ContribuŢ ia la axa : trei situaŢ ii posibile

Calitatea reprezent¼arii unui punct Din de…niţie d2 (i; G)P


= 2 i . Cum
în ACS punctele se a‡a¼ în spaţiul H de dimensiune p 1 ) d2 (i; G) =
d2 (i; G).
Un punct i din Rp poate … mai aproape sau mai departe de axa . Proxi-
mitatea între dou¼
a puncte proiectate pe axa este cu atât mai bine re‡ectat¼
a
cu cât aceste puncte sunt mai apropiate de axa pe care sunt proiectate.
1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 77

fig. 1.3.11. ProiecŢ ia punctului i pe axa

Calitatea reprezent¼
arii unui punct i pe axa poate … evaluat¼
a de:

d2 (i; G)
cos2 (i) =
d2 (i; G)

Aceast¼a cantitate, numit¼a cosinusul p¼atrat, reprezint¼


a contribuţia relativ¼a
a factorului la poziţia punctului i. Cu cât cosinusul p¼ atrat este mai apropiat
de 1 cu atît proiecţia punctului este mai aproape de poziţia acestuia în spaţiu.

fig. 1.3.1.2. Calitatea reprezentA¼ rii unui punct i pe axa


P
Din de…niţie rezult¼
a c¼
a cos2 (i) = 1; (8) i puncte active.
Cosinusul p¼ atrat pentru un element ilustrativ este subunitar dac¼
a acesta
aparţine lui Rp . În ACS elementele active aparţin lui Rp 1 .

1.3.3 Exemplu
Descrierea datelor
Un exemplu de aplicare a metodei analizei corespondenţelor simple îl
constituie identi…carea şi descrierea unor a…nit¼ aţi între diverse categorii so-
cioprofesionale şi diverse tipuri de media. Studiul a fost realizat pe 4433 de
persoane ce ilustreaz¼ a categoriile socioprofesionale menţionate mai jos şi care
78 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

au avut în total 12388 "contacte media". Se porneşte de la tabelul de conti-


genţ¼
a A.2. (Anex¼a), notat cu K.
Pentru acest set de date se indenti…c¼
a cele dou¼
a variabile nominale:

categoria socioprofesional¼ a X cu n = 8 modalit¼


a - variabila nominal¼ aţi
pe care le vom denumi "indivizi":

– AGR=agricultori
– PTR=patroni
– CSUP=cadre superioare
– CMED=cadre medii
– FUNC=funcţionari
– MCAL=muncitori cali…caţi
– MNECAL=muncitori necali…caţi
– INACT=inactivi

a Y cu p = 6 modalit¼
tipul de media - variabila nominal¼ aţi pe care le vom
denumi "variabile":

– rad=radio
– tel=televiziune
– cot_nat=cotidian naţional
– cot_loc=cotidian local
– rev=reviste
– ghid_tv=ghid de televiziune.

Indivizii şi variabilele de mai sus reprezint¼ a elementele active, care par-
ticip¼a la determinarea axelor principale. Pentru acurateţea interpret¼ arii reprezen-

arilor obţinute, în planul factorial principal vor … proiectate ulterior şi alte
caracteristici ale populaţiei studiate (indivizi suplimentari): sexul (2 modal-
it¼
aţi), vîrsta (5 modalit¼aţi), nivelul de educaţie (4 modalit¼ aţi), conform tabelu-
lui A.3. (Anex¼ a).
Pentru tabelul elementelor active, valoarea a‡at¼ a la intersecţia liniei i cu
coloana j (kij ) reprezint¼ a num¼ arul de indivizi aparţinând categoriei sociopro-
fesionale i care au avut într-un interval de timp analizat cel puţin un contact
cu tipul de media j. O persoan¼ a aparţinând unei categorii socioprofesionale
poate intra în contact cu mai multe tipuri de media. Num¼ arul total de contacte
cu media pentru o categorie socioprofesional¼ a este dat de suma valorilor de pe
linie (ki ) : De exemplu, agricultorii au avut k1 = 96 + 118 + : : : + 17 = 354
contacte cu media; Suma valorilor de pe coloan¼ a (k j ) reprezint¼ a num¼ arul de
contacte avute cu tipul j de media al tuturor celor 8 categorii socioprofesion-
ale. De exemplu, pentru radio k 1 = 96 + 122 + : : : + 1474 = 3297 contacte:
1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 79

Efectivul total (k), adic¼ a num¼ arul de contacte cu toate tipurile de media ale
tuturor categoriilor socioprofesionale este dat de suma tuturor valorilor ki
(sau a tuturor valorilor k j ) şi este 12388.
Acelaşi tip de calcule se poate face şi pentru tabelul indivizilor suplimen-
tari.

Efectuarea analizei şi interpretarea rezultatelor

Aplicarea analizei corespondenţelor simple cu ajutorul programului STA-


TISTICA implic¼ a parcurgerea paşilor prezentaţi în continuare.
Se porneşte de la tabelul A2 al elementelor active. Pentru început se
selecteaz¼a din bara de meniu tipul de analiz¼ a utilizat – Statistics, Multivari-
ate Exploratory Techniques, Correspondence Analysis. În fereastra de dialog
ap¼arut¼a (…g.1.3.13.) se opteaz¼
a pentru analiza corespondenţelor simple (Cor-
respondence Analysis (CA)), se indic¼ a tipul de tabel analizat - în cazul acesta
tabel de contingenţ¼ a (Frequencies w/out grouping vars) şi se apas¼ a butonul
Variables with frequencies pentru selectarea variabilelor care particip¼ a la anal-
iz¼
a - în acest caz toate.

fig. 1.3.13. Fereastra de pornire

Dup¼ a ap¼ asarea butonului OK, o nou¼ a fereastr¼a (…g 1.3.14.) permite
generarea rezultatelor speci…ce analizei corespondenţelor simple. Tot aici este
prezentat un rezumat al datelor de plecare: num¼ arul de indivizi activi şi varia-
bile active, probabilitatea estimat¼ a (p) a ipotezei H0 de independenţ¼ a a liniilor
faţ¼
a de coloanele tabelului de contingenţ¼ a (vezi subcapitolul 1.3.1.2 pentru de-
a ( 2 ), num¼
talii ), inerţia global¼ arul gradelor de libertate (35 = (8 1) (6 1))
şi valorile proprii (rezultate în urma diagonaliz¼ arii matricii S a norului de
puncte linie).
80 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

fig. 1.3.14. Fereastra de rezultate

Se introduc etichetele şi valorile din tabelul A.3. (Anex¼ a) în tabelul


generat prin selectarea succesiv¼
a a Supplementary points, Add row points şi se
revine în submeniul Advanced. Dimensiunea spaţiului de proiecţie se decide
examinând diagrama valorilor proprii (Plot) şi aplicând regula cotului sau,
pentru mai multe detalii, tabelul 1.3.3. (Eigenvalues) care conţine:

- valorile singulare

- valorile proprii

- procentul din inerţia total¼


a explicat de …ecare valoare proprie, deci de
…ecare dimensiune,

- procentul cumulat de inerţie explicat¼


a

- valoarea din inerţia total¼


a explicat¼
a de …ecare valoare proprie, deci de
…ecare dimensiune.

Se observ¼
a c¼a primele dou¼ a valori proprii explic¼
a aproape 95% din in-
erţie, deci dou¼
a dimensiuni (planul principal) ofer¼ a un grad su…cient de pre-
cizie reprezent¼arii proiecţiilor. Aşadar se completeaz¼a în câmpul Number of
dimensions din submeniul Quick valoarea 2, apoi se revine în submeniul Ad-
vanced.
1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 81

tabelul 1.3.3. Valori proprii, procente de inerŢ ie

Butonul Row and column coordinates produce dou¼ a tabele - tabelul


1.3.4. şi tabelul 1.3.5., ce conţin rezultatele, atât pentru elementele active cât
şi pentru cele suplimentare, reprezentând:

- coordonatele proiecţiilor punctelor pe cele dou¼


a dimensiuni,

- ponderile (masele),

- calitatea reprezent¼arii punctelor în planul factorial, dat¼


a de suma cosi-
nusurilor p¼atrate pentru cele dou¼a axe factoriale,

- contribuţiile calculate pentru …ecare dintre cele dou¼


a dimensiuni (Inertia
aici).

Valori ca ponderea şi contribuţia nu sunt calculate pentru punctele su-


plimentare, acestea neparticipând efectiv la analiz¼ a.
O observaţie interesant¼ a este aceea c¼ a modalitatea cotidian naţional,
având o mas¼ a (deci frecvenţ¼a relativ¼a) mic¼a (0; 04), are totuşi o contribuţie
ridicat¼
a (0; 74) şi o foarte bun¼ a reprezentare relativ la prima ax¼ a factorial¼a
(0; 99). Aceast¼a ax¼ a este caracterizat¼a, în planul indivizilor, de cadrele supe-
rioare, având coordonate şi contribuţii ridicate, precum şi o apropiere semni-
…cativ¼a de ax¼a.
Cea de-a doua ax¼ a principal¼a separ¼a ghidul TV de reviste şi presa local¼a,
în planul variabilelor şi functionarii şi muncitorii de agricultori şi patroni, în
planul indivizilor.
82 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

tabelul 1.3.4. Rezultate specifice în planul indivizilor

tabelul 1.3.5. Rezultate specifice în planul variabilelor

Este evident acum faptul c¼ a prima ax¼a factorial¼


a corespunde unei inter-
pret¼
ari punctuale: categoria socioprofesional¼ a care a avut cele mai multe con-
tacte cu presa cotidian¼ a naţional¼a (cot_nat) este aceea a cadrelor superioare
(CSUP ), caracterizat¼ a totodat¼ a de un nivel superior al educaţiei (SUP ).
Pentru o mai bun¼ a vizualizare se realizeaz¼a proiecţia simultan¼ a a ele-
mentelor (variabile şi indivizi) (Row and col, 2D), obţinându-se gra…cul din
…g. 1.3.15. (din care am eliminat, pentru claritate, punctele suplimentare).
Proiecţiile în acest plan ale indivizilor secundari ofer¼a informaţii suplimentare
(…g. 1.3.16.)
1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 83

fig. 1.3.15 Indivizi activi si variabile active

fig. 1.3.16. Indivizi suplimentari

A doua ax¼a opune catagoriile sociale tinere, având o educaţie medie (şco-
lal¼
a profesional¼
a), care prefer¼a ghidurile TV, agricultorilor şi patronilor cu
vârste medii evident superioare şi având un nivel sc¼ azut al educaţiei, care
prefer¼
a cotidienele locale si revistele.
84 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Revenind la observaţia asupra variabilei cot_nat, ne intereseaz¼ a ce se în-


tâmpl¼ a dac¼
a excludem aceast¼ a variabil¼ a din calculul efectiv al axelor, considerând-
o suplimentar¼ a şi eliminând astfel contribuţia ridicat¼ a pe care aceasta o are
la prima ax¼ a factorial¼ a. Se reia aşadar analiza pornind de la tabelul 1.3.1.,
de data aceasta selectând în fereastera de început ca …ind active toate vari-
abilele, mai puţin cot_nat. Calculele ulterioare relev¼ a faptul c¼a noile valori
proprii (tabelul 1.3.6.) sunt foarte aproiate de cele vechi (tabelul 1.3.3.), iar
coordonatele pe prima ax¼ a (tabelul 1.3.7.) difer¼ a cu maxim 0,01 de cele vechi
(tabelul 1.3.5.) A doua ax¼ a factorial¼ a, pe care cot_nat are coordonata -0,54
şi cosinusul p¼atrat 0,88, este foarte apropiat¼ a de vechea prim¼ a ax¼
a principal¼ a.
Acest ultim demers arat¼ a c¼a rezultatele ACS pe acest exemplu sunt ro-
buste (eliminarea unei modalit¼ aţi cu contribuţie mare nu modi…c¼ a semni…cativ
rezultatele)

tabelul 1.3.6. Valori proprii, procente de inerŢ ie dupA¼


eliminarea cot_nat

tabelul 1.3.7. Rezultate specifice în planul variabilelor dupA¼


eliminarea cot_nat
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 85

1.4 Analiza corespondenţelor multiple (ACM)


Analiza corespondenţelor multiple (ACM) este o generalizare posibil¼ aa
analizei de corespondenţ¼
a.
Numele apare într-o lucrare a lui Lebart [40] dar principiile metodei urc¼
a
pîn¼
a la Guttman [31], Burt [8], Hayashi [36].
Sub numele de Homogeneity Analysis este dezvoltat¼ a de echipa lui J. De
Leew începând cu 1973, iar sub numele de Dual Scaling de c¼ atre Nishisato
[49].
Se noteaz¼
a cu:

s - num¼
arul întreb¼
arilor puse la n indivizi;

pq - num¼
arul modalit¼
aţilor întreb¼
arii q, q = 1; s ;

R = (riq )q=1;s
i=1;n
- tabelul de date condensat, unde riq = num¼
arul modal-
it¼
aţii întreb¼arii q aleas¼
a de individul i, deci riq pq .

Ipoteza fundamental¼ a: Modalit¼aţile …ec¼arei întreb¼ari se exclud reciproc,


iar o modalitate este obligatoriu aleas¼a.

Exemplul 1.4.1
La întrebarea " Starea dvs. civil¼a este...", cu modalit¼
aţile

1. celibatar 4. divorţat
2. c¼as¼atorit sau tr¼aind marital 5. nu r¼aspund
3. v¼aduv
exist¼
a cinci modalit¼
aţi de r¼
aspuns ce satisfac ipoteza fundamental¼
a

Un astfel de tabel (…g 1.4.1.) nu este exploatabil: sumele pe linii şi pe


coloane nu au niciun sens. Variabilele trebuie recodate.

fig. 1.4.1 Tabel de date sub formA¼ codificatA¼ condensatA¼ .


86 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

P
s
În acest sens se noteaz¼
a cu p = pq num¼
arul total de modalit¼
aţi ale
q=1
celor s întreb¼
ari şi se construieşte, pornind de la R tabelul
Z = [Z1 ; Z2 ; : : : ; Zq ; : : : ; Zs ]
cu n linii şi p coloane, tabel ce descrie cele s r¼
aspunsuri ale celor n indivizi
printr-un codaj binar.
Z se obţine din R astfel:
1; dac¼
a riq 6= 0
zij;q =
0; altfel
În notaţia de mai sus Zq este un tabel n pq …ecare linie conţinînd pq 1
zerouri şi un singur unu.

De…niţia 1.4.1 Tabelul Z se numeşte tabel disjunctiv complet.

fig. 1.4.2. ConstrucŢ ia tabelului disjunctiv complet

Marjele tabelului Z sunt:


p
X
zi = zij;q = s;
j=1
Xn
zj = zij;q = num¼
arul de indivizi care au ales modalitatea j a întreb¼
arii q.
i=1

Rezult¼
a
pq
X
n = z j = zq şi
j=1
Xn s
X p
n X
X
z = zi = zq = zij = ns = efectivul total.
i=1 q=1 i=1 j=1
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 87

De…niţia 1.4.2 B = Z0 Z se numeşte tabelul de contingenţ¼a Burt asociat tabelu-


lui disjunctiv complet Z.
P
n
Termenul general se scrie : bjj 0 = zij zij 0
i=1
Pp
Marjele sunt : bj = bjj 0 = s z j
j 0 =1
Pp
Efectivul total este : b= bj = s2 n:
j=1

Tabelul B este format din s2 blocuri unde se disting:

blocurile de tip Z0q Zq0 indexate de (q; q 0 ), de dimensiune pq pq0 , care


se obţin prin “încrucişarea” r¼ arile q şi q 0 ;
aspunsurilor la întreb¼

blocurile de tip Z0q Zq , obţinute prin “încrucişarea” r¼


aspunsurilor la
aceeaşi întrebare.

Tabelul B este o matrice diagonal¼ a având în vedere c¼ a dou¼ a modalit¼ aţi


ale aceleiaşi întreb¼
ari nu pot … alese simultan (datorit¼a ipotezei fundamentale).
Termenii de pe diagonal¼ a sunt efectivele fz j g ale modalit¼
aţilor întreb¼
arii q.

fig. 1.4.3. ConstrucŢ ia tabelului Burt pornind de la tabelul


disjunctiv complet Z

Se noteaz¼
a cu D matricea diagonal¼
ap p de…nit¼
a de relaţiile

djj = bjj = z j
djj 0 = 0; (8) j 6= j 0 cu j; j 0 = 1; p

Matricea D poate … de asemenea considerata ca …ind format¼a din s2


0
blocuri. Numai cele s matrici diagonale Dq = Z Z; q = 1; s ce formeaz¼a
blocurile diagonale ale lui B sunt matrici nenule:
88 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

fig. 1.4.4. Tabloul burt B Ş i matricea diagonalA¼ D asociatA¼


(datele sunt din fig. 1.4.1. Ş i din fig. 1.4.2.)

1.4.1 Principiile ACM


Analiza corespondenţelor multiple este analiza corespondenţelor simple
aplicat¼
a unui tabel disjunctiv complet.

fig. 1.4.5. Analiza de corespondenŢ A¼ multiplA¼

În consecinţ¼
a:
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 89

se aplic¼
a aceleaşi transform¼
ari tabelului de date pentru obţinerea pro…lurilor-
linie/pro…lurilor-coloan¼ a;

aceleaşi ponderi ale punctelor funcţie de pro…lurile marginale;

aceeaşi distanţ¼
a, distanţa 2.

Aşadar indivizii sunt toţi afectaţi de o pondere identic¼ a, egal¼a cu mi =


zi
ns = n1 ; i = 1; n.
z
Fiecare modalitate j este ponderat¼ a de frecvenţa sa, mj = nsj .
n
În R distanţa 2 între modalit¼ aţi, pe un tabel disjunctiv se scrie:
n
X 2
2 0 zij zij 0
d j; j = n
zj z j0
i=1

şi este nul¼a dac¼ a modalit¼ aţile j şi j 0 sunt alese de aceiaşi indivizi. În plus,
modalit¼ aţile de efectiv sc¼
azut, adic¼ a cele alese de puţini indivizi, sunt dep¼
artate
faţ¼
a de celelalte modalit¼ aţi.
În Rp distanţa 2 între indivizi, pe un tabel disjunctiv, se scrie
p
2 0 1X n 2
d i; i = zij zi0 j
s zj
j=1

şi este nul¼


a dac¼ a indivizii i şi i0 au ales aceleaşi modalit¼ aţi . Ei sunt cu atât
mai dep¼ artaţi cu cât au r¼aspuns mai diferit.
În plus, trebuie observat c¼ a o modalitate j intervine în distanţa dintre
indivizi cu atât mai mult cu cât masa ei este mai mic¼ a.
Reluând rezultatele analizei de corespondenţ¼ a şi notaţiile adoptate rezult¼
a:

1 zij
F = Z; cu termenul general fij = ;
ns ns
1 zj
Dp = D; cu termenul general f j = ij ;
ns ns
1 ij
Dn = In ; cu termenul general fi = :
n n
Pentru a g¼
asi axele factoriale u se diagonalizeaz¼
a matricea

1
S = F0 Dn 1 FDp 1 = Z0 ZD 1
s
cu termenul general (atenţie! s neindexat semni…c¼ a, în acest subcapitol,
num¼arul de întreb¼
ari)
n
1 X
sjj =
0 zij zij 0 :
s z j0
i=1
90 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

În Rp , ecuaţia celei de-a -a axe factoriale u este


1 0 1
Z ZD u = u :
s
şi ecuaţia celui de-al -lea factor ' = D 1u (modulo o constant¼
a) este
1 1
D Z0 Z' = ' :
s
Analog, în Rn ; ecuaţia celui de-al -lea factor este
1 1
ZD Z0 = :
s
Factorii ' şi (de norm¼ a ) reprezint¼ a coordonatele punctelor linie
şi ale punctelor coloan¼
a pe axa factorial¼a .
Relaţiile de tranziţie între factorii ' şi sunt:
1 1
' = p D Z0 ;
1
= p Z' :
s
Coordonatele factoriale ale individului i pe axa sunt date de:
p
X X
1 zij 1
;i =p ' ;j = p ' ;j
zi s
j=1 j2p(i)

unde p (i) desemneaz¼


a mulţimea modalit¼
aţilor alese de individul i.

Corolarul 1.4.1
Modulo coe…cientul p1 individul i se g¼ aseşte proiectat în planul factorial
principal în centrul de greutate (punctul de coordonate media aritmetic¼ a) al
modalit¼aţilor pe care le-a ales.
Analog, coordonatele factoriale ale modalit¼
aţii j pe axa sunt date de:
n
X X
1 zij 1
' ;j =p ;i = p ;i
zj zj
i=1 i2n(j)

unde n (j) desemneaz¼


a mulţimea indivizilor care au ales modalitatea j.

Observaţia 1.4.1
În formulele de mai sus, modalit¼
aţile/indivizii nu sunt ponderaţi; coordonatele
sunt simple medii aritmetice.
Norul modalit¼ aţilor din Rn poate … descompus în s submulţimi, a q-a
submulţime (subnor) corespunzând mulţimii pq a modalit¼
aţilor variabilei q.
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 91

Corolarul 1.4.2
aţilor din Rn
Centrele de greutate ale celor s submulţimi ale norului modalit¼
coincid cu centrul de greutate al norului global.

Demonstraţie. Într-adev¼ ar, coordonatele punctelor subnorului relativ la


variabila q sunt coordonatele lui Zq Dq 1 iar elementele de pe diagonala prin-
a a lui n1 Dq sunt masele relative ale celor pq puncte ale subnorului.
cipal¼
P
Deoarece zij = 1; a i-a component¼ a a centrului de greutate al sub-
j2p(q)
norului este
X djj zij 1
Gq;i = = = Gi ;
n djj n
j2p(q)

unde p (q) desemneaz¼a mulţimea modalit¼


aţilor variabilei nominale q: Rezult¼
a

a Gq;i nu depinde de q.

Observaţia 1.4.2
1. Dac¼a tabelul Z nu este complet disjunctiv, adic¼
a dac¼
a pentru cel puţin un
individ nicio modalitate a unei întreb¼ari nu a fost aleas¼
a, modalit¼ aţile
acelei variabile nu mai sunt centrate în centrul de greutate al norului
global.

2. Codi…carea disjunctiv¼ a complet¼ a permite transformarea unei variabile


continue într-o variabil¼
a nominal¼ a ale carei modalit¼ aţi sunt clase ordo-
nate. In aceast¼a situaţie este util s¼
a se traseze traiectoria care poate
sugera leg¼
aturi neliniare între aceast¼a variabil¼
a şi axele factoriale.

Coordonatele modalit¼ aţilor în Rn sunt coloanele tabelului ZD 1 . Aces-


tea genereaz¼ a un subspaţiu a c¼ arui dimensiune este rangul lui ZD 1 , deci
rangul lui Z = [Z1 ; Z2 ; : : : ; Zq ; : : : ; Zs ]. Reamintim c¼
a toate subspaţiile gen-
erate
P de coloanele lui Zq ; q = 1; s au în comun prima bisectoare, deoarece
zij = 1. Rangul maxim al lui Z este deci
j2p(q)

p1 + (p2 1) + : : : (ps 1) = p s + 1:

Rangul maxim al matricii de diagonalizat D 1 Z0 Z va … deci p s + 1.


Dar în analiza norului în raport cu originea O, prima bisectoare este vectorul
propriu corespunzînd valorii proprii 1.
În analiza în raport cu centrul de greutate G vor … g¼asite deci p s valori
proprii nenule. Alegând o baz¼ a în suportul norului, ne putem restrânge la a

auta valorile proprii ale unei matrici de ordin p s.
92 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

1.4.2 Calculul inerţiei


Distanţa de la o modalitate j la centrul de greutate G este
n
X 2
2 0 1 zij 1
d (j; G) = (j G) Dn (j G) = n =
zj n
i=1
" n n n
#
X 2
zij 1 X zij 1 X
= n 2 + 2 1 =
i=1
z 2j n
i=1
zj n
i=1
" n n
#
1 X 1 1 X 1
2
= n 2 zij 2 zij + 2 n =
zj n zj n
i=1 i=1
1 1 1 n
= n 2 + = 1
zj n n zj

2 = z şi
P
n
deoarece zij ij zij = z j .
i=1
Inerţia I (j) a unei modalit¼
aţi j este, prin de…niţie:
zj
I (j) = mj d2 (j; G) cu mj =
ns
rezult¼
a
1 zj
I (j) = 1 :
s n

Corolarul 1.4.3
Inerţia unei modalit¼ aţi este cu atît mai mare cu cît efectivul z j al acestei
modalit¼ aţi, adic¼
a num¼arul de indivizi care au ales-o, este mai mic.

Maximul 1s va … atins pentru modalit¼ aţile de efectiv nul. În consecinţ¼a,


se va evita în momentul codi…c¼ arii, introducerea unor modalit¼ aţi susceptibile
de a … alese de puţini indivizi, tocmai pentru a nu introduce perturbaţii în
primele axe factoriale.
Inerţia I (q) a unei întreb¼
ari q este, prin de…niţie,
pq
X 1
I (q) = I (j) = (pq 1) :
s
j=1

Corolarul 1.4.4
Inerţia unei întreb¼ari este cu atât mai mare cu cât num¼ arul de modalit¼aţi
1
asociat, pq , este mai mare. Minimul s este atins de întreb¼arile cu doar dou¼a
modalit¼ aţi de r¼
aspuns. În consecinţ¼
a, dac¼
a se doreşte ca toate întreb¼
arile

a joace un rol aproximativ egal atunci se va echilibra sistemul de întreb¼ ari
(variabilele vor … “decupate ” într-un num¼ ar egal de modalit¼
aţi).
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 93

Inerţia total¼
a este
s
X p
X s
X
zj 2 p
I= I (q) = d (j; G) = 1; deoarece pq = p
ns s
q=1 j=1 q=1

În particular I = 1 dac¼a toate întreb¼arile au dou¼a modali¼aţi de r¼


aspuns,
adic¼ a p = 2s.
În consecinţ¼
a depinzînd exclusiv de num¼ arul de întreb¼
ari şi de modal-
it¼
aţile asociate acestora, inerţia global¼
a nu are, în cazul ACM (ca şi în cazul
ACP normat, de altfel), nicio semn…caţie statistic¼ a, deoarece nu depinde de
leg¼
atura între variabile.

1.4.3 Reguli de interpretare


A spune c¼a exist¼
a a…nit¼
aţi între r¼
aspunsuri este acelaşi lucru cu a spune c¼
a
exist¼
a indivizi care au pro…le asem¼ an¼atoare din punct de vedere al atributelor
alese spre a-i descrie. Ţinînd cont de distanţele între elementele tabelului
disjunctiv complet şi de relaţiile baricentrice particulare se poate a…rma c¼ a:

Proximitatea între indivizi semni…c¼ a faptul c¼


a au ales global aceleaşi
modalit¼
aţi ca r¼
aspuns la întreb¼
arile puse.

Proximitatea între modalit¼aţi ale unor întreb¼


ari diferite semni…c¼a faptul

a ele au fost alese ca r¼
aspuns de grupe de indivizi asem¼ an¼
atori (c¼
aci
aşa cum s-a demonstrat mai sus, ele corespund centrelor de greutate ale
acelor grupe de indivizi).

Proximitatea între modalit¼ aţile aceleiaşi întreb¼


ari semni…c¼a faptul c¼a
grupele de indivizi care le-au ales sunt asem¼ an¼atoare (din construcţie,
modalit¼
aţile unei aceleiaşi variabile se exclud).

Regulile de interpretare a rezultatelor (coordonate, contribuţii, cosinus



atrat) privind elementele active ale unei ACM sunt asem¼ an¼
atoare cu cele core-
spunz¼atoare unei ACS. În plus, se poate calcula contribuţia unei variabile-
întreb¼ari la factorul sumând contribuţiile modalit¼ aţilor acesteia la factorul
respectiv:
pq pq
X X zj '2 ;j 1 X
Cr (q) = Cr (j) = = z j '2 ;j
ns ns
j2p(q) j=1 j=1

1.4.4 Principii de transformare a variabilei continue în vari-


abil¼
a discret¼
a
Pentru a … active într-o ACM, variabilele continue trebuie transformate
în variabile nominale (discrete). În acest proces apar urm¼
atoarele probleme:
94 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Cîte clase trebuie alese şi cum?

Unde trebuie plasate marginile claselor?

Din rezultatele de mai sus au reieşit urm¼ atoarele cerinţe: constituirea


de modalit¼ aţi de efective comparabile şi decuparea variabilelor astfel încît s¼
a
existe un num¼ ar de modalit¼aţi comparabile. Din practic¼ a, un num¼ ar de 4-8
modalit¼aţi par s¼ a acopere majoritatea aplicaţiilor.
În consecinţ¼ a este vorba de a g¼ asi un compromis între un decupaj acce-
ptabil tehnic din punct de vedere al principiilor de mai sus şi un decupaj care
exhib¼a cel mai bine informaţia ce trebuie reţinut¼ a. În concluzie, nu se poate
recurge la algoritmi „orbi” pentru a elabora un decupaj satisf¼ ac¼
ator. Astfel,
se poate reţine o modalitate cu un efectiv sc¼ azut dac¼a aceasta este important¼a
pentru studiu; analog, pentru a selecţiona bornele claselor unei variabile con-
tinue se vor respecta, mai degrab¼ a, pragurile naturale în contextul studiului

au, reieşite ca semni…cative dup¼ a examenul histogramei, decît decupajul în
clase de mase egale dar (uneori) inadecvate.
Transformarea variabilelor continue în variabile nominale duce la pierdera
unei p¼arţi din informaţia brut¼a dar prezint¼a unele avantaje:

Utilizarea simultan¼
a a variabilelor nominale şi continue în ACM;

Validarea a posteriori a datelor, permiţînd observarea ulterioar¼


a a even-
tualelor clase contigue;

Punerea în evidenţ¼
a a eventualelor leg¼
aturi neliniare între variabile con-
tinue. Asupra acestui ultim aspect vom insista puţin:

Dîndu-se p variabile continue, x1 ; x2 ; : : : ; xp ; ACP caut¼


a o combinaţie
liniar¼
a de dispersie maximal¼
a
0 1
Xp
max V @ uj xj A :
j=1

Dac¼a se urm¼areşte punerea în evidenţ¼


a a unor relaţii neliniare se vor c¼ auta
tranform¼ari funcţionale, f 1 x1 ; f 2 x2 ; : : : ; f p (xp ) ale variabilelor astfel încît

a se realizeze 0 1
Xp
max V @ f j xj A :
j=1

Num¼ arul de indivizi …ind …nit trebuie s¼ a ne limit¼am la transform¼ ari


funcţionale alese într-o mulţime …nit¼ a.
S¼a alegem f j ; funcţii scar¼
a (constante pe porţiuni). Se cunoaşte faptul

a aceste funcţii permit aproximarea oric¼ arei funcţii continue (teorema lui
Weierstrass).
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 95

Concret, se va împ¼ arţi intervalul de variaţie a lui xj în mj clase. f j xj


va … deci o funcţie cu valorile a1 ; a2 ; : : : ; amj pe intervale de decupaj ce se ex-
pliciteaz¼
a sub forma unei combinaţii liniare de funcţii indicator ale intervalului
de decupaj, avînd coe…cienţi a1 ; a2 ; : : : ; amj .
! !
Pp Pp
Criteriul max V f j xj este identic cu max V Zj aj .
j=1 j=1
Soluţia este dat¼
a de primele componente ale ACM pe tabelul

Z = [Z1 ; Z2 ; : : : ; Zq ; : : : ; Zs ] :

Sub rezerva de a avea su…ciente informaţii în …ecare clas¼ a se poate ast-


fel utiliza, pentru evidenţierea unor leg¼
aturi neliniare, în locul unei ACP pe
tabelul X o ACM pe tabelul Z obţinut din X ca mai sus.

1.4.5 Valori-test pentru modalit¼


aţi suplimentare
Coordonata factorial¼
a ' j a unei modalit¼ aţi j pe axa este, modulo
1
coe…cientul p , media aritmetic¼
a a coordonatelor ;i ale indivizilor care au
ales aceast¼
a modalitate ca r¼
aspuns, adic¼
a
1 X
' j = p i
zj
i2n(j)


a presupunem c¼ a o modalitate suplimentar¼ a j a fost aleas¼
a de nj indivizi
(nj = z j ). Ne propunem s¼ a test¼am dac¼ a aceast¼ a modalitate a fost aleas¼ a
întâmpl¼ator, sau dac¼a alegerea ei are o semni…caţie.
Fie ipoteza Ho : “cei nj indivizi au fost aleşi aleator din eşantionul de n
indivizi” (alegerea este presupus¼a f¼
ar¼
a revenire).
În ipoteza Ho media coordonatelor i ale celor nj indivizi este o vari-
abil¼
a aleatoare
n
1 X
x j = i
nj
i2n(j)

2 n nj
de E x j = 0 şi DH o
x j = n 1 nj repartizat¼
a hipergeometric.
2 [ n nj 1
Rezult¼
a E[ i] = 0 şi DHo i] = n 1 nj .

q
n n
De…niţia 1.4.3 t i = nj n 1j ' ;j se numeşte valoare-test şi m¼ asoar¼
a, în
num¼ ar de ecarturi-tip, distanţa între modalitatea j, adic¼
a quasi-baricentrul
celor nj indivizi, şi originea axei factoriale .
Conform teoremei limit¼ a-central¼ a, distribuţia lui t i tinde la o N (0; 1).
Astfel, poziţia unei modalit¼
aţi este intersant¼a într-o direcţie dat¼ a, dac¼a
subnorul al c¼arui baricentru este, ocup¼ a o zon¼a apropiat¼ a de aceast¼a ax¼a şi
destul de dep¼artat¼a de centrul de greutate global în direcţia axei.
96 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Valoarea-test este un criteriu care permite o apreciere rapid¼ a a poziţiei,


“semni…cativ¼a” sau nu, a unei modalit¼ aţi pe o ax¼ a. Se consider¼
a, în general,
ca ocupînd o poziţie semni…cativ¼a, modalit¼ aţile a c¼
aror valoare-test, în modul,
este mai mare sau egal¼ a cu 2, ceea ce corespunde unui prag de semni…caţie de
95%.
Propoziţia 1.4.1
Analiza corespondenţelor aplicat¼
a unui tabel disjunctiv complet Z este echiva-
lent¼
a cu analiza tabelului Burt asociat, în sensul c¼
a produce aceiaşi factori.
Demonstraţie. ' este al -lea vector propriu – factor al unei ACS pe un
tabel Z –al matricii S = 1s D 1 Z0 Z = 1s D 1 B , adic¼
a

S' = ' :

Pentru ACS-ul tabelului B asociat lui Z, tabelul frecvenţelor relative F


este
1 1
F =B şi Dp = Dn = D:
ns2 ns
Matricea de diagonalizat este
1 1 1
S = D BD B ) S = S2 :
s2
Se ştie c¼
a

1 1 1 1
D B' = ' j D B)
s s
1 1 1 1 1
) D BD B' = D B' =
s2 s
2
= ' = ' :

Rezult¼
a
2
S ' = '
Factorii celor dou¼a analize sunt deci coliniari în Rp dar valorile proprii asociate
difer¼
a; cele rezultate din analiza lui D, notate B sunt egale cu p¼ atratul celor
2
rezultate din analiza lui Z, adic¼ a B= .
Factorul ' rezultat din analiza lui Z şi reprezentînd coordonatele facto-
riale ale modalit¼aţilor, are ca norm¼
a pe , în timp ce factorul corespunzând
analizei lui B, notat 'B , are ca norm¼ a pe 2 .

Corolarul 1.4.5
Relaţia care leag¼
a cele dou¼
a sistme de coordonate factoriale este
p
'B = ' :
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 97

1.4.6 Exemplu
Descrierea datelor

Pentru 27 de rase de câini au fost culese informaţii privind anumite în-


suşiri …zice şi temperamentale, conform tabelului A.4. (Anex¼ a). Se doreşte
studierea leg¼ aturilor existente între rase şi aceste însuşiri, folosind metoda
analizei corespondenţelor multiple.
Pentru acest set de date se identi…c¼ a 8 variabile nominale astfel:

variabile nominale active:

– TALIE, având p1 = 3 modalit¼


aţi: 1 =mic¼ a, 2 =mijlocie, 3 =mare;
¼ având p2 = 3 modalit¼
– MASA, aţi: 1 =mic¼ a, 2 =mijlocie, 3 =mare;
– VIT=VITEZA,¼ având p3 = 3 modalit¼ aţi: 1 =mic¼a, 2 =mijlocie,3 =mare;
¼ având p4 = 3 modalit¼
– INT=INTELIGENŢA, aţi: 1 =sc¼
azut¼
a, 2 =medie,
3 =ridicat¼
a;
– AFECT=AFECŢIUNE, având p5 = 2 modalit¼
aţi: 1 =moderat¼
a,
2 =mare;
– AGR=AGRESIVITATE, având p6 = 2 modalit¼
aţi: 1 =moderat¼
a,
2 =mare;

variabile nominale suplimentare :

– FN=FUNCŢIA, având p = 3 modalit¼ aţi: 1=câine de companie,


2=câine de vân¼
atoare, 3=câine de paz¼
a;
– R=RASA, unde

BEAU=Beauceron EPAF=Epagneul Francez


BASS=Basset FOXH=Fox Hound
CIOB=Ciob¼
anesc German FOXT=Fox Terrier
BOXE=Boxer GASC=Marele Albastru de Gasconia
BULD=Bull Dog LABR=Labrador
BULM=Bull Masti¤ LEVR=Ogar
CANI=Caniche MAST=Masti¤
CHIH=Chihuahua PEKI=Pechinez
COCK=Cocker POIN=Pointer
COLL=Colley STBE=Saint Bernard
DALM=Dalmaţian SETT=Setter
DOBE=Dobermann TECK=Teckel
DOGG=Dog German TERN=Terre-Neuve
EPAB= Epagneul Breton
98 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Ca şi în exemplele anterioare, doar variabilele active particip¼ a efectiv


la calculul valorilor proprii şi deci la determinarea dimensiunilor spaţiului de
proiecţie, în timp ce variabilele suplimentare intervin doar în momentul inter-
pret¼
arii.
Aşadar, pentru acest exemplu:

n = 27 indivizi (rasele de câini), s = 6 num¼


arul de variabile active;

tabelul A.4 = tabelul de date condensat, pe baza c¼


aruia se construieşte
tabelul Burt;

o linie din acest tabel, de exemplu prima, se citeşte astfel: Un membru


al rasei Beauceron este caracterizat de talie mare, mas¼ a mijlocie, vitez¼
a
mare, inteligenţ¼
a ridicat¼
a, afecţiune mare, agresivitate mare şi este con-
siderat câine de paz¼ a;

p = 16 modalit¼
aţi ale variabilelor active, deci 16 coloane în tabelul Burt;
p 16
inerţia total¼
a este I = s 1= 6 1 = 1; 67 (vezi subcapitolul 1.4.2.).

Efectuarea analizei şi interpretarea rezultatelor


Aplicarea analizei corespondenţelor în cadrul programului STATISTICA
presupune parcurgerea mai multor paşi.
Pentru început se selecteaz¼a din bara de meniu tipul de analiz¼
a utilizat -
Statistics, Multivariate Exporatory Techniques, Correspondence Analysis şi în
fereastra de dialog ap¼arut¼
a se opteaz¼a pentru analiza corespondenţelor multi-
ple.

fig. 1.4.6. Fereastra de start

În continuare se indic¼
a tipul de tabel analizat - în cazul acesta, tabel sub form¼
a
condensat¼a (Raw Data), se apas¼ a butonul Variables (Factors in Burt Table)
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 99

pentru selectarea variabilelor care particip¼a la analiz¼


a - în acest caz toate şi,
dup¼a con…rmarea alegerii, se apas¼
a butonul Supplementary columns (variables)
pentru selectarea variabilelor suplimentare (R şi FN). Dup¼ a ap¼asarea butonu-
lui OK, o nou¼ a fereastr¼
a (…g. 1.4.7.) permite generarea rezultatelor speci-
…ce analizei corespondenţelor multiple. Tot aici este prezentat un rezumat
al datelor de plecare: variabile active şi suplimentare împreun¼ a cu num¼ arul
de modalit¼aţi corespunz¼ator, num¼arul total de modalit¼ aţi active şi valorile
proprii.

fig. 1.4.7. Fereastra de rezultate


Conform de…niţiei din subcapitolul 1.4.1, analiza corespondenţelor multi-
ple este analiza corespondenţelor simple realizat¼
a pe tabelul disjunctiv complet
provenit din tabelul sub form¼ a codi…cat¼a condensat¼ a (tabelul 1.4.1.). Progra-
mul STATISTICA produce toate rezultatele speci…ce acestei analize plecând
de la tabelul Burt asociat tabelului disjunctiv complet. La baza acestui de-
mers st¼a propoziţia 1.4.1. Tabelul Burt pentru acest exemplu se reg¼ aseşte în
submeniul Review, Observed frequencies.
100CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

fig. 1.4.8. Screeplot

Pasul urm¼ ator îl reprezint¼ a determinarea spaţiului de proiecţie. Dia-


grama Scree Plot din submeniul Advanced (…g 1.4.8.) indic¼ a cea de-a treia
valoare proprie, considerat¼ a în ordine descresc¼
atoare, ca …ind un factor de
structurare. Din tabelul 1.4.1. se deduce c¼ a primele trei dimensiuni ofer¼ ao
calitate a reprezent¼arii de 64; 63%. Analiza descris¼a în continuare a fost real-
izat¼
a în planul factorial principal (se completeaz¼a valoarea 2 în c¼
asuţa Number
of dimensions din submeniul Options), planul dat de factorii corespunz¼ atori
valorilor proprii 0.48 şi 0.38.

tabelul 1.4.1. Valori proprii, procente de inerŢ ie

Butonul Summary: Column coordinates produce tabelul ce conţine rezul-


tatele speci…ce pentru modalit¼
aţile active (tabelul 1.4.2.) şi suplimentare
(tabelul 1.4.3.):

coordonatele proiecţiilor pe cele dou¼


a dimensiuni,

ponderile (masele) (calculate doar pentru modalit¼


aţi active),

calitatea reprezent¼
arii în planul factorial, dat¼
a de suma cosinusurilor

atrate pentru cele dou¼a axe factoriale,

contribuţiile calculate pentru …ecare dintre cele dou¼


a dimensiuni (Inertia
aici) (calculate doar pentru modalit¼ aţi active).
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 101

tabelul 1.4.2. Rezultate specifice modalitA¼ Ţ ilor active

tabelul 1.4.3 Rezultate specifice modalitA¼ Ţ ilor suplimentare

Aceste rezultate se interpreteaz¼ a ca în cazul exemplului din subcapitolul


dedicat ACS, cu menţiunea c¼ a, pentru …ecare variabil¼
a activ¼a, contribuţia la
orice factor se calculeaz¼ a însumând contribuţiile tuturor modalit¼ aţilor vari-
abilei la factorul respectiv. De exemplu, variabila TALIE are o contribuţie de
0,12 + 0,046 + 0,13 = 0,30 la primul factor.
Realizând proiecţia simultan¼ a a variabilelor active şi suplimentare în
planul factorial principal (submeniul Advanced, 2D) se obţine gra…cul din …g.
1.4.9. Se observ¼a, aşadar, c¼
a:

în cazul variabilelor cu dou¼


a modalit¼
aţi (AFECT, AGR), modalit¼
aţile
sunt situate în cadrane opuse;

exist¼
a puncte pe gra…c care, deşi corespund unor rase diferite, se supra-
pun: BULD şi TECK, CHIH şi PEKI, DALM şi LABR. Aceasta este o
consecinţ¼
a gra…c¼
a a faptului c¼
a valorile din tabelul A.4. pentru aceste
perechi se identi…c¼
a aproape în totalitate. În general, rasele învecinate
102CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

posed¼a aceleaşi caracteristci …zice şi temperamentale (vezi subcapitolul


1.4.3).

fig. 1.4.9. variabile active Ş i suplimentare

Prima ax¼
a principal¼
a opune:

rasele agresive, în medie rapide, caracterizate de talie şi mas¼


a mari
- câinii de paz¼a (FN:3) precum Dog German (DOGG), Dobermann
(DOBE), Fox Hound (FOXH) etc. şi

rasele de talie şi mas¼


a mici, dar afecţiune ridicat¼
a - câinii de companie
(FN:1) precum Caniche (CANI), Cocker (COCK), Fox Terrier (FOXT)
etc.

A doua ax¼
a principal¼
a opune:

rasele inteligente, pentru care talia, masa şi viteza au valori medii - cainii
de vân¼ atoare (FN:2) precum Beauceron (BEAU), Ciob¼ anesc German
(CIOB), Doberman (DOBB) etc. şi

rasele mai puţin inteligente şi lente: Basset (BASS), Masti¤ (MAST).

Pentru o mai bun¼ a vizualizare, se pot elimina din …gura 1.4.9. punctele
corespunz¼
atoare variabilelor active (sau suplimentare) astfel: se selecteaz¼
a un
punct de pe gra…c, se apas¼a butonul drept al mouse-ului şi se alege opţiunea
Point Labels.
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 103

fig. 1.4.10. Point labels

În fereastra de dialog ap¼arut¼a (…g 1.4.10.) se deselecteaz¼ a opţiunea Display


point labels pentru variabilele active - Plot 1:ColCoords şi se pas¼
a butonul OK.
Se obţine gra…cul din …gura 1.4.11.

fig. 1.4.11. Variabile suplimentare


1.5

tabelul 1.5.1. ProprietA¼ Ţ ile elementelor principale din ACP, ACS, ACM
în spaŢ iul indivizilor (Rp ) respectiv al variabilelor (Rn ) (1)

ELEMENTE SPAŢIUL ACP ACS ACM


a
Sintez¼

fij
Tabelul F Rp X = (xij )j=1;p
i=1;n
,Y = (yij )j=1;p
i=1;n
X = Dn 1 F = fi ; Z = (zij )j=1;p
i=1;n
tabel
i=1;n
p
n oj=1;p

kij
sau Z = (zij )j=1;p
i=1;n
( fij = k ; fi: = fij ) disjunctiv complet
j=1
P

fij
E Rn aceleaşi ca în Rp X = Dp 1 F0 = fj aceleaşi ca în Rp
j=1;p
n
n oi=1;n

(f:j = fij )
i=1
P

n
ij
Ponderi F pi > 0 cu pi = 1 fi: ; i = 1; n fi: = n ; i = 1; n
i=1
(Matricea de D = diag (pi ) ; i = 1; n Dn = diag (fi: )
P

Dn = n1 In
ponderi)
zj
E f:j ; j = 1; p f:j = ij ns ; j = 1; p
1
Dp = diag (f:j ) Dp = ns D; D = diag (z j )
104CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

1 1
Metrica F M = diag(mj ); j = 1; p , M = Dp 1 = diag fj M = Dp 1 = nsD
M = Ip sau M = D1=s2

1
E D = diag (pi ) ; i = 1; n M = Dn 1 = diag fi: M = Dn 1 = nIn
tabelul 1.5.1. ProprietA¼ Ţ ile elementelor principale din ACP, ACS, ACM
în spaŢ iul indivizilor (Rp ) respectiv al variabilelor (Rn ) (2)
¼
1.5. SINTEZA

ELEMENTE SPAŢIUL ACP ACS ACM

Distanţa F d2 (i; i0 ) = d2 (i; i0 ) =


p p p
d2 (ei ; ej ) = kei ej k2M
fij 2 2
1 fi0 j n
= mk (xik xjk )2 = fj fi fi0 = 1s z j zij zi0 j
k=1 j=1 j=1
P P P

n 2 n 2
vjk 1 fij fij 0 zij zij 0
E cos ( jk ) = sj sk = rjk ; d2 (j; j 0 ) = fi fj f j0 d2 (j; j 0 ) = n zj z j0
i=1 i=1
rjk =coef. de corelaţie
P P

1
Matricea de F A= Y0 DYM = VM S = F0 Dn 1 FDp 1 S = 1s Z0 ZD
diagonalizat
1
E B= YMY0 D = WD T = FDp 1 F0 Dn 1 T = 1s ZD Z0

Axe factoriale F a 2Rp pt. care u 2Rp pt. care u 2Rp pt. care
Aa = a Su = u Su = u

E b 2Rp pt. care v 2Rn pt. care v 2Rn pt. care


Bb = b Tv = v Tv = v
105
tabelul 1.5.1. ProprietA¼ Ţ ile elementelor principale din ACP, ACS, ACM
în spaŢ iul indivizilor (Rp ) respectiv al variabilelor (Rn ) (3)

ELEMENTE SPAŢIUL ACP ACS ACM

Coordonatele F c = YMa = Yu 2Rn (c = Zu) = Dn 1 FDp 1 u =v


pe axele cu propr. s2 (c) = i = fi f j u j
j
P fij

factoriale
E d = Y0 Db = Y0 v 2 Rp (d = Z0 v) ' = Dp 1 F0 Dn 1 v ' =D 1u

cu propr. s2 (d) = ' j= fi f j v i


i
P fij

c şi d se numesc şi


componente principale

Relaţii de = p1 Dn 1 F' ; = s
p1 Z' ;
j j
bj = p1 YMaj = p1 cj
p
fij
tranziţie i = p1
fi ' j i = s
p1 ' j
j=1 j2p(i)
P P

aj = p1 ' = p1 Dp 1 F ; ' = p1 D 1 Z0 ;
j j
Y0 Dbj = p1 dj
n
fij 1
' j = p1
fj i ' j = zj
p i
i=1 i2n(j)
106CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

P P
Capitolul 2

METODE DE
CLASIFICARE

Tehnicile de clasi…care automat¼ a sunt destinate s¼ a produc¼ a grup¼ ari de


linii sau de coloane ale unui tabel; este vorba, cel mai adesea, de obiecte sau
indivizi descrişi printr-un num¼ ar de variabile sau de caractere.
Circumstanţele utiliz¼ arii acestor metode sunt analoage cu cele ale metode-
lor de analiz¼a factorial¼ a descrise în capitolul 1: utilizatorul se g¼ aseşte în faţa
unui tabel rectangular de valori numerice. Acest tabel poate … un tabel de vari-
abile continue, un tabel de contingenţ¼a sau un tabel de prezenţ¼a-absenţ¼a (tabel
ce conţine valori de zero sau unu dup¼ a cum un individ sau un obiect posed¼ a
sau nu un anumit caracter sau atribut). În anumite aplicaţii, utilizatorul poate
dispune de un tabel p¼ atrat, simetric, de similarit¼ aţi sau de distanţe.
Exist¼
a mai multe familii de algoritmi de clasi…care: algoritmi ce conduc
direct la partiţii, cum sunt metodele de agregare în jurul centrilor mobili, algo-
ritmi ascendenţi (sau algoritmi care construiesc clasele prin aglomerarea suc-
cesiv¼a a câte dou¼ a obiecte şi care furnizeaz¼
a o ierarhie de repatiţii de obiecte),
în …ne, algoritmi descendenţi (sau divizivi) care procedeaz¼ a prin dihotomii
succesive ale mulţimii obiectelor şi care furnizeaz¼ a o ierarhie de partiţii. Ne
vom limita în aceast¼ a lucrare la primele dou¼ a tehnici de clasi…care:

- grup¼ arile se pot face prin c¼


autarea direct¼
a a unei partiţii, afectând ele-
mentele la centrii provizorii ai claselor, apoi prin recentrarea claselor şi
agregarea iterativ¼ a a elementelor. Este vorba de tehnicile de agregare în
jurul centrilor mobili, tehnici înrudite cu metoda norilori dinamici sau
metoda k-means, metode grati…ante în cazul tabelelor mari (secţiunea
2.1).

- grup¼arile se pot face prin aglomerarea progresiv¼ a a elementelor dou¼a


câte dou¼ a. Este cazul clasi…c¼
arii ascendente ierarhice cu agregare dup¼
a
mai multe criterii. În lucrare sunt prezentate tehnica saltului minimal,
echivalent¼a dintr-un anumit punct de vedere cu c¼ autarea arborelui mini-

107
108 CAPITOLUL 2. METODE DE CLASIFICARE

mal, şi tehnica agreg¼arii dup¼a dispersie, interesant¼


a prin compatibilitatea
rezultatelor sale cu unele rezultate din analiza factorial¼ a (secţiunea 2.2).

Aceste tehnici prezint¼ a avantaje diferite, dar pot … utilizate şi împreun¼a.
Este, astfel, posibil¼
a o strategie de clasi…care bazat¼a pe un algoritm mixt bine
adaptat partiţion¼arii mulţimilor formate din mii de indivizi (secţiunea 2.3).
Metodele de clasi…care sau de tipologie (ştiinţa care le studiaz¼ a se nu-
meşte taxonomie) au ca scop regruparea indivizilor într-un num¼ ar restrâns de
clase omogene. Este vorba deci, spre deosebire de demersul analizei factoriale,
despre descrierea datelor procedând la o reducere a num¼ arului de indivizi (faţ¼
a
de o reducere a num¼ arului de variabile).
În cele ce urmeaz¼ a se vor avea în vedere doar metodele de clasi…care
automat¼ a. Clasele vor … obţinute pe baza algoritmilor formalizaţi şi nu prin
metode subiective sau vizuale ce fac apel la iniţiativa practicianului!

2.1 Generalit¼
aţi
În taxonomie, informaţia util¼a se prezint¼ a sub forma unui tabel n n;
conţinând distanţele sau disimilarit¼
aţile dintre cei n indivizi de clasi…cat.
Reamintim

De…niţia 2.1.1 Fie E mulţimea celor n obiecte de clasi…cat. Se numeşte


distanţ¼a o funcţie d : E E ! R+ ; cu propriet¼
aţile:

1. d (i; j) = d (j; i) ; (8) i; j 2 E (simetric¼


a);

2. d (i; j) 0; (8) i; j 2 E (pozitiv¼


a);

3. d (i; j) = 0 , i = j; (8) i; j 2 E (idempotent¼


a);

4. d (i; j) d (i; k) + d (k; j) ; (8) i; j; k 2 E (tranzitiv¼


a).

Pentru ca o distanţ¼a s¼a …e euclidian¼a ea trebuie s¼a …e generat¼


a de un
produs scalar.
Când datele sunt prezentate sub forma unui tabel X de n indivizi cu p
caracteristici numerice, cele mai des utilizate distanţe sunt:

- distanţa euclidian¼
a clasic¼
a, cu metrica M = I;

- distanţa euclidian¼
a cu metrica M = D 1 ;
s2

1
- distanţa Mahanalobis, cu metrica M = V ;
P
- distanţa L1 în care d (i; j) = xki xkj ;
k
¼ ŢI
2.1. GENERALITA 109

1
P q q
- distanţa Minkowski, Lq , în care d (i; j) = xki xkj .
k

De…niţia 2.1.2 Se numeşte similaritate o funcţie s : E E ! R+ , cu pro-


priet¼
aţile:
1. s (i; j) = s (j; i) ; (8) i; j 2 E (simetric¼
a);
2. s (i; j) 0; (8) i; j 2 E (pozitiv¼
a);
3. s (i; i) s (i; j) ; (8) i; j 2 E (nu exist¼
a un individ mai asem¼
an¼
ator decât
el însuşi).
De…niţia 2.1.3 Se numeşte disimilaritate o funcţie d : E E ! R+ , cu
propriet¼
aţile:
1. d (i; j) = d (j; i) ; (8) i; j 2 E (simetric¼
a);
2. d (i; j) 0; (8) i; j 2 E (pozitiv¼
a);
3. d (i; i) = 0; (8) i; j 2 E:
O situaţie frecvent întâlnit¼ a este cea în care datele se prezint¼
a sub forma
urm¼atoare: n indivizi sunt descrişi prin prezenţa/absenţa a p caracteristici
(datele iniţiale sunt, deci, sub form¼ a binar¼
a).
Datele binare sunt "compactate" în n numere ce caracterizeaz¼ a …ecare
cuplu de indivizi (deci 4 tabele n n) astfel:
a = num¼
arul de caracteristici comune;
b = num¼
arul de caracteristici posedate de i dar nu de j;
c = num¼
arul de caracteristici posedate de j dar nu de i;
d = num¼
arul de caracteristici neposedate nici de i şi nici de j;
Atenţie! Cu toate c¼ a logic a şi d sunt complementare, cele dou¼ a numere
nu joac¼
a acelaşi rol pentru datele reale; de exemplu, faptul c¼ a dou¼ a vegetale
nu cresc în acelşi loc, nu înseamn¼ a în mod necesar c¼ a sunt asem¼an¼ atoare.
Pe baza acestor 4 tabele se construieşte tabelul de similaritate sau, prin
complementare faţ¼ a de 1, tabelul de disimilaritate, utilizând diferiţi indici:
a
- Jaccard: a+b+c ;
2a
- Dice: 2a+b+c ;

p a
- Ochiai: ;
(a b)(a+c)
a
- Russel şi Rao: a+b+c+d ;
a+d
- Rogers şi Tanimoto: a+d+2(b+c) etc.
110 CAPITOLUL 2. METODE DE CLASIFICARE

2.2 Aspecte combinatorii ale clasi…c¼


arii
La prima vedere s-ar putea crede, deoarece E – multimea indivizilor de
clasi…cat este …nit¼
a (card (E) = n < 1 ), c¼ a problema clasi…c¼ arii este relativ
facil¼
a: se genereaz¼
a toate partiţiile posibile iar apoi se alege aceea/acelea care
satisface/satisfac un criteriu de optimalitate dat.
Din p¼acate, acest algoritm nu poate … implementat înc¼ a în practic¼a de-
oarece, chiar un calculator ce poate trata un milion de partiţii pe secund¼ a are
nevoie de 126 de mii de ani pentru a putea genera toate partiţiile unei mulţimi
de numai 25 de indivizi!
Va trebui deci, în majoritatea situaţiilor, s¼ a ne mulţumim cu soluţii
aproximative.
Se noteaz¼a cu Pn;k num¼ arul de partiţii în k clase a unei mulţimi de n
elemente (num¼ arul lui Stirling de speţa a doua).
Se observ¼a uşor c¼
a:
n (n 1)
Pn;1 = 1 = Pn;n ; Pn;n 1 =
2
Pn;1 = 2n 1
1:

Se demonstrez¼
a prin inducţie c¼
a:

Pn;k = Pn 1;k 1 + kPn 1;k :

Se poate, de asemenea, ar¼


ata c¼
a:
k
1 X i
Pn;k = Ck ( 1)k i n
i
k!
i=1

kn
şi deci, când n ! 1, Pn;k n! .
P
n
Se noteaz¼
a cu Pn = Pn;k num¼
arul total de partiţii ale unei mulţimi
k=1
de n elemente (numerele lui Bell). Dac¼
a se convine ca P0 = 1; atunci se poate
ar¼
ata prin inducţie c¼
a
1
2 1 X kn
Pn = P0 + (n 1) P1 + Cn+1 P2 + : : : + Pn 1 şi c¼
a Pn = :
e n!
k=1

2.3 Metode de clasi…care neierarhic¼


a
Aceste metode permit clasi…carea rapid¼ a a unor mulţimi destul de mari,
optimizând local un criteriu de tip inerţie.
Se presupune c¼a:

- cei n indivizi sunt puncte dintr-un spaţiu euclidian din Rp ; ceea ce per-
mite de…nirea distanţelor euclidiene dintre indivizi;
¼
2.3. METODE DE CLASIFICARE NEIERARHICA 111

- se doreşte clasi…carea indivizilor în k clase, unde k este cunoscut à priori.

Scopul …ec¼ arei clasi…c¼ ari …ind acela de a obţine clase cât mai omogene,
iar omogenitatea …ind caracterizat¼ a, din punct de vedere statistic, de dispersie,
rezult¼
a c¼
a o clas¼a va … cu atât mai omogen¼ a cu cât inerţia norului de puncte
ce o alc¼
atuieşte este mai mic¼ a.
Fie deci g1 ; g2 ; : : : ; gk centrele de greutate ale celor k clase. Atunci

inerţia clasei Ci este:


X
Ii = pj d2 (j; gi ) ;
j2Ci

cu pj ponderea individului j;

inerţia intraclase este:


k
X
IW = Pi Ii ;
i=1

cu Pi ponderea clasei i (num¼


arul de inidivizi din clasa i);

inerţia interclase este:


k
X
IB = Pi d2 (gi ; g) ;
i=1

cu g centrul de greutate al întregului nor de n indivizi.

Cum, conform principiului lui König-Huygens, inerţia total¼a a norului


este
I = IW + IB ;
un criteriu vizual de clasi…care pentru a determina, în medie, clase omogene,
const¼
a în a c¼ auta acea partiţie în k clase pentru care inerţia intraclase este
minim¼ a, deci inerţia interclase este maxim¼
a.

fig. 2.3.1. Descompunerea inerŢ iei conform principiului lui


Huygens
112 CAPITOLUL 2. METODE DE CLASIFICARE

Trebuie s¼a remarc¼ am, mai întâi, c¼ a acest criteriu presupune cunoaşterea
à priori a num¼ arului de clase şi c¼
a nu este posibil¼a compararea a dou¼ a partiţii
cu num¼ ar diferit de clase, având în vedere c¼ a cea mai bun¼ a partiţie de k clase
va avea o inerţie intraclase superioar¼ a oric¼
arei partiţii de k + 1 clase, iar la
limit¼
a, cea mai bun¼ a partiţie este cea trivial¼
a, în care …ecare individ formeaz¼ a
o clas¼
a (în acest caz IW = 0; c¼ aci …ecare individ este propriul s¼ au centru de
greutate).

2.3.1 Metoda centrelor mobile (a lui Forgy)


Fie E o mulţime de n indivizi caracterizaţi de p variabile. Vom pre-
supune spaţiul Rp ; ce conţine norul de n puncte-individ, dotat cu o distanţ¼a
corespunz¼ atoare, notat¼
a d (adesea distanţa euclidian¼ a sau distanţa 2 ).
a uzual¼
Se doreşte constituirea a k clase. Etapele algoritmului sunt urm¼ atoarele:

Pasul 1: Se aleg, în general aleator, k puncte distincte din E. Fie acestea c1 ; c2 ; : : : ; ck .


Se iniţializeaz¼
a:

j = 0; contorul de num¼
arare a iteraţiilor
(j)
IW = 1; inerţia intraclase (cu un num¼
ar foarte mare, dat).

Pasul 2: Se împarte mulţimea E în k clase astfel: pentru …ecare i, cu i = 1; k,

Eci = e 2 E j d (e; ci ) < d (e; cm ) ; m = 1; k; m 6= i

Cazul egalit¼
aţii se rezolv¼
a prin tragere la sorţi, în sensul c¼
a e este asignat
aleator acelor partiţii pentru care d e; ci1 = d e; ci2 = : : : = d e; cie .
Dac¼a card (Eci ) = 0; atunci se genereaz¼ a aleator un nou centru ci . Geo-
metric, …ecare clas¼ a este un domeniu poliedral convex determinat de
hiperplanele mediatoare pe segmentele ci cm cu m 6= i şi m = 1; k:

a centrele de greutate ale partiţiei fEci gki=1 şi se noteaz¼


Pasul 3: Se calculeaz¼ a cu
k
fgi gi=1 .
(j+1)
Se calculeaz¼
a IW = inerţia intraclase a partiţiei fEci gki=1 .

Pasul 4: Dac¼a j > N; unde N , dat, reprezint¼ a num¼arul total de iteraţii admis
(j+1) (j)
sau dac¼a IW IW "; unde ", dat, reprezint¼
a pragul sub care
ameliorarea inerţiei intraclase este considerat¼
a nesemni…cativ¼ a, atunci
STOP.
Altfel

ci = gi ; i = 1; k ;
j = j + 1;
salt la Pasul 2.
¼
2.3. METODE DE CLASIFICARE NEIERARHICA 113

Propoziţia 2.3.1
(j+1) (j)
Algoritmul converge într-un num¼
ar …nit de paşi, altfel spus IW IW şi
j < 1.

Demonstraţie. Având în vedere c¼ a algoritmul este iterativ, este su…cient



a demonstr¼
am inegalitatea pentru j = 1, iar pentru simpli…carea calculelor
presupunem c¼a ponderile indivizilor sunt egale cu p iar ponderile claselor cu
P.

(2) (1)
Atunci, trebuie demonstrat c¼
a IW IW :

Conform algoritmului, fEci g este partiţia având punctele


n …ec¼
o arei clase
(1)
grupate cât mai aproape de fci g şi cu centrele de greutate gi , deci

k
X X k X
X
(1) 2 (1) (1)
IW = P pd j; gi = pP d2 j; gi ;
i=1 j2Eci i=1 j2Eci

iar nfEgi go este partiţia având punctele


n …ec¼ oarei clase grupate cât mai aproape
(1) (2)
de gi şi cu centrele de greutate gi , deci

k
X X k X
X
(2) (2) (2)
IW = P pd2 j; gi = pP d2 j; gi ;
i=1 j2Egi i=1 j2Egi
114 CAPITOLUL 2. METODE DE CLASIFICARE

fig. 2.3.2. etapele algoritmului lui Forgy

Conform relaţiei lui Huygens


k X
X X
(1) (2) (1) (2)
d2 j; gi = IW + d 2 gi ; gi ;
i=1 j2Egi i

n o
(1)
deoarece gi nu sunt centrele de greutate ale lui fEgi g.
i
Rezult¼
a
k X
X
(2) (1)
IW d2 j; gi ;
i=1 j2Egi

(1) (2)
cu inegalitate strict¼
a dac¼ a gi 6= gi ; (8) i = 1; k .
P 2 (1) P 2 (1)
Dar d j; gi d j; gi prin construcţia celor dou¼
a par-
j2Egi j2Eci
tiţii, deoarece fEgi g este partiţia în care …ecare clas¼
a Egi p¼
astreaz¼
a punctele
(1) P 2 (1)
cele mai apropiate de gi , deci d j; gi este minim¼
a. Egalitatea are
j2Egi
loc doar dac¼
a fEgi g fEci g.
¼
2.3. METODE DE CLASIFICARE NEIERARHICA 115

Cu acestea
k X
X
(2) (1) (1)
IW d2 j; gi IW
i=1 j2Egi

Cum card (Eci ) = n < 1 rezult¼ a Pn;k < 1 ceea ce implic¼ a j < 1.
Experienţa arat¼ a c¼
a viteza de convergenţ¼ a este rapid¼a.
Trebuie remarcat şi faptul c¼a, la …ecare pas ne…ind necesar decât calculul
a nk distanţe, acelea dintre cei n indivizi şi cele k centre de greutate, nu este
necesar¼a menţinerea în memorie a tabelului cu cele n(n2 1) distanţe dintre
indivizi.
Inconvenienţele metodei sunt:

k trebuie cunoscut à priori;

optimul este dependent de alegerea iniţial¼


a a punctelor.

În metoda precedent¼ a se aşteapt¼


a ca toţi indivizii s¼
a …e afectaţi unei clase
pentru a calcula centrul de greutate.
Metoda k-mediilor (k-means) a lui MacQueen (conform [42]), recalculeaz¼ a
centrele de greutate dup¼a …ecare afectare.
Pentru a înl¼atura dependenţa metodei de punctele iniţiale se utilizeaz¼ a
metoda norilor dinamici a lui E. Diday (conform [17]), care este o generalizare
a metodei centrelor mobile în sensul c¼ a …ecare clas¼ a nu mai este reprezentat¼ a
de centrul s¼
au de greutate ci de un nucleu de g-puncte (cele mai centrale, de
exemplu), de o ax¼a principal¼
a, de un plan principal.

2.3.2 Exemplu
Descrierea datelor
Revenind la exemplul raselor de câini (subcapitolul 1.4.6) reamintim c¼ a
în urma aplic¼arii analizei corespondenţelor multiple au fost identi…cate patru
grup¼ari principale:

câinii de vân¼
atoare

câinii de paz¼
a

câinii de companie

rase lente şi mai puţin inteligente.

Acest rezultat va … comparat cu rezultatul obţinut utilizând metoda de


clasi…care neierarhic¼a k-means pentru identi…carea partiţiei optime în k = 4
clustere a mulţimii raselor de câini. Reamintim c¼
a o condiţie principal¼
a pentru
utilizarea acestei metode este cunoaşterea à priori a num¼ arului de clase (vezi
subcapitolul 2.3). Datele de intrare se reg¼ asesc în tabelul A.4. (Anex¼ a) cu
116 CAPITOLUL 2. METODE DE CLASIFICARE

menţiunea c¼
a, de aceast¼a dat¼a, variabila care d¼a denumirile raselor (R) nu va
mai constitui o variabil¼
a suplimentar¼ a ci o variabil¼
a de etichetare a indivizilor.
Pentru a realiza aceast¼a modi…care, în bara de meniu se apas¼ a Cases, Case
Names Manager şi, în fereastra ap¼ arut¼a, se completeaz¼ a numele variabilei de
unde se preiau numele indivizilor - R (…g. 2.3.3.).

fig. 2.3.3. Case names manager

Efectuarea analizei şi interpretarea rezultatelor


Din bara de meniu se selecteaz¼ a Statistics, Multivariate Exporatory Tech-
niques, Cluster Analysis şi, în fereastra de dialog ap¼ arut¼
a, se alege metoda de
analiz¼
a K-Means Clustering. Dup¼ a ap¼asarea butonului OK, în fereastra core-
spunz¼atoare metodei selectate se acceseaz¼ a meniul Advanced.

fig. 2.3.4. Fereastra de start

Butonul Variables a…şeaz¼ a lista variabilelor pentru analiz¼ a, dintre acestea


urmând a … selectate toate mai puţin variabila FN şi variabila R. În continuare,
ca entit¼aţi de clasi…cat, se aleg rândurile tabelului (adic¼ a indivizii - rasele de
câini) şi se indic¼
a num¼ arul de clustere în care se face clasi…carea - 4. Pentru
num¼ arul de iteraţii ale algoritmului de clasi…care (vezi subcapitolul 2.3.1) şi
centrele iniţiale ale clusterelor se p¼astreaz¼
a set¼arile implicite.
¼
2.3. METODE DE CLASIFICARE NEIERARHICA 117

Pentru activarea ferestrei ce permite generarea rezultatelor speci…ce clasi-


…c¼
arii prin metoda k-means (…g. 2.3.5.) se apas¼ a butonul OK. În acest¼a fereas-
tr¼
a este prezentat şi un rezumat al datelor de plecare: num¼ arul indivizilor (27
rase de câini) şi al variabilelor (6 însuşiri) care particip¼a la analiz¼
a, num¼ arul
de clustere formate (4) şi num¼ arul de iteraţii ale algoritmului de clasi…care (2).

fig. 2.3.5 Fereastra de rezultate

Generarea tuturor rezultatelor se va face din meniul Advanced. Con-


form indicaţiilor iniţiale, algoritmul a împ¼ arţit mulţimea raselor de câini în
patru clase, urm¼ arind formarea de grup¼ ari omogene şi bine de…nite, cu alte
cuvinte, valorile inerţiei inter-clase dep¼
aşesc semni…cativ valorile inerţiei intra-
clase. Tabelul 2.3.1., rezultat prin ap¼ asarea butonului Analysis of variance,
pune în evidenţ¼a valorile mari ale inerţiei inter-clase (Between SS ) comparativ
cu cele ale inerţiei intra-clase (Within SS ) pentru variabilele TALIE, MASA,
VITEZA. Mai mult, valorile testelor F la pragurile de semni…caţie p desem-
neaz¼a aceste variabile ca …ind principalele criterii de asignare a indivizilor la
clustere.
tabelul 2.3.1. Analiza varianŢ ei

Butonul Members of each cluster and distances genereaz¼ a, pentru …ecare


dintre cele patru clase, câte un tabel conţinând membrii clasei respective şi
118 CAPITOLUL 2. METODE DE CLASIFICARE

distanţa de la …ecare membru la centrul clasei din care face parte (tabelul
2.3.2.).
Caracteristicile speci…ce …ec¼arei clase sunt date de mediile variabilelor
ce particip¼a la analiz¼
a, calculate pentru …ecare clas¼a. Aceste rezultate sunt
disponibile în format tabelar, prin ap¼ asarea butonului Descriptive statistics
for each cluster, sau în format gra…c, prin ap¼asarea butonului Graph of means
(…g 2.3.6.).

tabelul 2.3.2. Membrii clusterelor Ş i distanŢ ele la centre

fig. 2.3.6. Graficul mediilor pe clustere


¼
2.3. METODE DE CLASIFICARE NEIERARHICA 119

Examinând tabelul 2.3.2. şi gra…cul din …gura 2.3.6.. rezult¼


a:

Clusterul 1 este caracterizat, în ansamblu, de: talie, mas¼ a şi agresiv-


itate maxime, vitez¼
a şi afecţiune minime, inteligenţ¼
a medie şi cuprinde
rasele TERN, STBE, MAST, BULM (vezi şi …g 2.3.7.).

Clusterul 2 este caracterizat, în ansamblu, de: talie şi vitez¼a maxime,


mas¼a medie, inteligenţ¼a medie (majoritatea membrilor au inteligenţ¼ a
medie sau ridicat¼ a), afecţiune medie (majoritatea membrilor manifest¼ a
afecţiune scazut¼
a, variabila AFECT are doar 2 modalit¼ aţi), agresivitate
medie şi cuprinde rasele DOBE, CIOB, BEAU, SETT, POINT, LEVR,
FOXH, COLL, GASC, EPAF, DOGG.

Clusterul 3 este caracterizat, în ansamblu, de: talie, mas¼ a şi vitez¼


a
medii, inteligenţ¼
a şi afecţiune maxime, agresivitate minim¼
a şi cuprinde
rasele LABR, EPAB, DALM, BOXE, CANI.

Clusterul 4 este caracterizat, în ansamblu, de: talie, mas¼ a şi inteligenţ¼


a
minime, vitez¼ a şi agresivitate reduse (cu excepţia FOXT, membrii sunt
caracterizaţi de modalitatea VIT1 - vitez¼ a mic¼a), afecţiune ridicat¼ a (cu
excepţia BASS, membrii sunt caracterizaţi de modalitatea AFECT2 -
afecţiune ridicat¼a, şi variabila AFECT are doar 2 modalit¼ aţi) şi cuprinde
rasele: COCK, FOXT, BASS, TECK, PEKI, CHIH, BULD. Se poate
spune, deci, c¼a acesta reprezint¼ a clusterul câinilor de companie.

fig. 2.3.7. Identificarea clusterlor obŢ inute prin metoda


k-means
120 CAPITOLUL 2. METODE DE CLASIFICARE

Concluzii:

clasi…carea obţinut¼
a prin metoda k-means se reg¼ aseşte aproape identic
în reprezentarea gra…c¼ a a variabilelor obţinut¼
a prin analiza corespon-
denţelor multiple.

cu toate acestea, clusterele obţinute prin metoda k-means nu coincid


în totalitate cu grup¼
arile identi…cate conform interpret¼
arii rezultatelor
ACM.

Aceast¼
a nepotrivire se datoreaz¼
a, probabil, faptului c¼
a:

informaţiile asupra raselor de câini (talie, mas¼


a...) nu sunt su…ciente
pentru a încadra cu precizie o ras¼
a într-o anumit¼a clas¼
a;

valorile reale ale variabilelor talie, mas¼


a, etc. au fost "reduse" la o sin-
gur¼
a valoare, în funcţie de num¼ arul de modalit¼ aţi ale variabilei - 1, 2, 3
sau 1, 2, conform apartenenţei la un anume interval de valori.

alegerea unui num¼ar prea mic de intervale de valori, deci de modalit¼


aţi,
pentru …ecare variabil¼
a.

2.4 Metode de clasi…care ierarhic¼


a
Principiile generale comune diverselor tehnici de clasi…care ascendente
ierarhice sunt simple. Aceste principii ţin mai mult de bunul simţ decât de
o teorie formalizat¼ a de aceea este di…cil s¼ a li se g¼aseasc¼a o paternitate. Ex-
punerile cele mai sistematice şi cele mai vechi sunt poate cele ale lui Sokal şi
Sneath (în [57]) apoi cele ale lui Lance şi Williams (în [39]).
Algoritmul const¼ a în crearea, la …ecare etap¼ a, a unei partiţii obţinute prin
agregarea celor mai apropiate dou¼ a elemente. Se va desemna prin element în
acelaşi timp indivizii sau obiectele de clasat cât şi grup¼ arile de indivizi generate
de algoritm. Exist¼ a diferite criterii de agregare, de unde şi un num¼ ar important
de variante ale acestei tehnici.
Algoritmul nu furnizeaz¼ a o partiţie în q clase a unei mulţimi de n obiecte,
ci o ierarhie de partiţii. Aceast¼ a ierarhie se prezint¼ a sub forma unui arbore
numit şi dendogram¼a şi conţine n 1 partiţii. Interesul pentru acest arbore
este dat de faptul c¼ a acesta poate furniza o idee despre num¼ arul de clase ce
exist¼
a efectiv în populaţie. Fiecare „t¼ aiere”a dendogramei furnizeaz¼ a o partiţie
având cu atât mai puţine clase, şi acestea …ind cu atât mai puţin omogene, cu
cât t¼
aierea se face mai sus.

2.4.1 Aspecte formale


De…niţia 2.4.1 Fie E o mulţime …nit¼ a. O mulţime de mulţimi, H P (E),
se numeşte ierarhie dac¼
a şi numai dac¼
a
¼
2.4. METODE DE CLASIFICARE IERARHICA 121

arţile lui E formate dintr-un element aparţin lui H;


a) E şi p¼

b) A \ B 2 fA; B; ?g ; (8) A; B 2 H:

De…niţia 2.4.2 Elementele din H se numesc partiţii ale mulţimii E.

De…niţia 2.4.3 Elementele unei partiţii a lui E se numesc clase.

Observaţia 2.4.1
1. Fiec¼
arei ierarhii îi corespunde un arbore de clasi…care.

2. Fiecare clas¼
a dintr-o ierarhie este reuniunea claselor incluse în ea.

Dac¼ a card (E) = n < 1, atunci card (H) = n deoarece, datorit¼ a condiţiei
b) din de…niţie, o partiţie cu k clase se formeaz¼a prin regruparea a dou¼ a clase
ale partiţiei cu k + 1 clase.
Cum partiţia Pn , cu n clase, este format¼ a din elementele mulţimii E şi
conţine câte un element în …ecare clas¼ a, iar partiţia P1 , cu o clas¼
a, este format¼a
din mulţimea E (ambele partiţii aparţin ierarhiei H; conform condiţiei a) din
de…niţie), H conţine practic n 2 partiţii netriviale ale lui E.

De…niţia 2.4.4 Se numeşte indice al ierarhiei H; o aplicaţie i : H ! R+


atoare ((8) A; B 2 H cu A
cresc¼ B ) i (A) < i (B)) şi care îndeplineşte
condiţia i (C) = 0; (8) C 2 Pn .

De…niţia 2.4.5 Indicele i al ierarhiei H, dac¼


a exist¼
a, se mai numeşte şi nivel
de agregare iar ierarhia dotat¼
a cu un astfel de indice se numeşte ierarhie in-
dexat¼a.
Exemplul 2.4.1
Fie E = fa; b; c; d; eg, atunci n = 5 = card (E)

cu
i (fag) = i (fbg) = i (fcg) = i (fdg) = i (feg) = 0
i (ff g) = i (fa; bg) = 0; 5 i (fhg) = i (fc; d; eg) = 2; 5
i (fgg) = i (fc; dg) = 2 i (fjg) = i (fa; b; c; d; eg) = 4
122 CAPITOLUL 2. METODE DE CLASIFICARE

Observaţia 2.4.2
a) În exemplul de mai sus indicele indic¼ a nivelul la care dou¼a clase s-au
grupat (motivaţie pentru utilizarea denumirii de nivel de agregare). Cu
cât indicele este mai mare cu atât mulţimea este mai eterogen¼a.
b) Cunoscând arborele de clasi…care este facil s¼ a se obţin¼
a o partiţie cu un
num¼ ar mai mic sau mai mare de clase. Pentru aceasta, este su…cient s¼ a
se taie arborele la un nivel dat şi s¼
a se considere clasele date de ramurile
care cad. Astfel, dac¼a în exemplul de mai sus se taie arborele de-a lungul
liniei punctate, se obţine o partiţie în 3 clase: ffa; bg ; fc; dg ; fegg .
Propoziţia 2.4.1
Fie E o mulţime şi :E E ! R+ o disimilaritate strict¼
a pe E. Atunci
0; dac¼
a A = fig ; i 2 E
i (A) =
min (i; j) ; dac¼
a A = A1 [ A2 ; A1 \ A2 = ?; i 2 A1 ; j 2 A2
induce pe E o ierarhie indexat¼
a cu nivelul de agregare i.
Demonstraţie. Din de…niţie, i este o funcţie pozitiv¼
a şi simetric¼
a.
Trebuie demonstrate dou¼ a a…rmaţii:
a i induce pe E o ierarhie, H;
a) c¼
b) c¼
a i este indicele acelei ierarhii, adic¼
a i este o funcţie cresc¼
atoare de
partiţii din H.
a) Fie Pn partiţia format¼a din n clase a mulţimii E. Din de…niţia funcţiei
de disimilaritate, i (A) = 0; (8) A 2 Pn . Se formeaz¼ a partiţia Pn 1
agregând elementele i şi j din Pn pentru care (i; j) este minim. Cum
este o disimilaritate strict¼
a, perechea (i; j) este unic¼
a. Din construcţie,
A \ B 2 fA; B; ?g ; (8) A; B 2 H.
Se formeaz¼ a partiţia Pn 2 agregând elementele i; j din Pn 1 pentru care
(i; j) este minim şi aşa mai departe pân¼
a la obţinerea partiţiei P1 .
Se de…neşte H = fP1 ; P2 ; : : : ; Pn g. Din construcţie, H veri…c¼
a cele dou¼
a
condiţii din de…niţia ierarhiei.
b) Fie A; B 2 H cu A B. Rezult¼ a B = A [ C şi A \ C = ?. Din de…niţie
(i; j) < (i; k) ; (8) i; j 2 A; k 2 C; deoarece este strict¼ a şi dac¼
a
(9) k0 astfel încât (i; j) < (i; k0 ) atunci din agregarea lui A rezult¼a k0
aparţine lui A şi nu lui C.
Pentru un j 2 A; …xat pentru moment dar altfel oarecare, min (i; j) <
i2A

min min (i; k) = i (B)(din de…niţie).


i2A k2C

Din construcţie, i (A) 2 min (i; j) jj 2 A : Cum inegalitatea de mai


i2A
sus este valabil¼
a oricare ar … j 2 A, rezult¼
a i (A) < i (B).
¼
2.4. METODE DE CLASIFICARE IERARHICA 123

2.4.2 Strategii de agregare


În funcţie de natura spaţiului în care se g¼
asesc îndivizii de agregat, se
vor folosi:

- metoda Ward, dac¼ a indivizii formeaz¼ a un nor într-un spaţiu euclidian,


de exemplu Rp , deci dac¼
a între ei se poate calcula o distanţ¼
a euclidian¼
a;
- strategii de agregare pe disimilarit¼
aţi, dac¼
a între indivizi se poate calcula
o disimilaritate strict¼
a.

2.4.2.1 METODA WARD Pe baza distanţei euclidiene se poate evalua


inerţia şi astfel se poate utilza principiul de agregare ce reuneşte acele clase
pentru care inerţia interclase descreşte cel mai puţin. Conform principiului lui
Huygens, inerţia global¼ a este suma inerţiilor interclase şi intraclase. Cu cât
clasele sunt mai omogene cu atât inerţia intraclase este mai mic¼ a, deci inerţia
interclase este mai mare. Clase omogene înseamn¼ a clase cu indivizi cât mai
puţini, deci partiţii cât mai bogate. Este …resc ca, prin fuzionarea a dou¼ a
clase, inerţia intraclase s¼
a creasc¼
a, deci inerţia interclase s¼
a scad¼
a. Se va alege,
deci, acea fuzionare pentru care inerţia interclase scade cel mai puţin, adic¼ a
sunt grupate clasele cele mai asem¼ an¼
atoare (adic¼ a cele mai apropiate).

Lema 2.4.1
Pierderea de inerţie interclase este dat¼
a de formula
PA PB 2
(A; B) = d (gA ; gB ) ;
PA + PB
unde A şi B sunt dou¼ a clase cu ponderile PA ; respectiv PB şi centrele de
greutate gA ; respectiv gB .
P
k
Demonstraţie. Inerţia interclase este IB = Pj d2 (gj ; g). Suma va conţine,
j=1
deci, şi termenii PA d2 (gA ; g) + PB d2 (gB ; g).
Dup¼ a fuziunea celor dou¼ a clase, dac¼
a se noteaz¼a cu gAB centrul de greu-
tate al noii clase, atunci cei doi termeni vor …înlocuiţi de (PA + PB ) d2 (gAB ; g) :
Deci pierderea de inerţie interclase este dat¼ a de diferenţa

PA d2 (gA ; g) + PB d2 (gB ; g) (PA + PB ) d2 (gAB ; g) : (1)

Din construcţie, gAB = PAPgBA +P


+PB gB
B
adic¼
a centrul de greutate al noii clase
este pe segmentul gA gB .
În 4ggA gB , utilizând o generalizare a teoremei medianei, m2c = 12 a2 +
1 2 1 2
2b 4 c , rezult¼
a

2 PA 2 PB 2 PA PB 2
d (g; gAB ) = d (gA ; g)+ d (gB ; g) 2 d (gA ; gB ) :
PA + PB PA + PB (PA + PB )
(2)
124 CAPITOLUL 2. METODE DE CLASIFICARE

¼ a medianei, aplicatA¼ în 4ggA gB


fig. 2.4.1. Teorema generalizatA

Introducând rezultatul din formula (2) în formula (1) se obţine rezultatul


din enunţul lemei.

Lema 2.4.2
Într-o ierarhie indexat¼
a, agregat¼
a pe baza unei distanţe euclidiene, suma indi-
cilor de agregare este egal¼
a cu inerţia total¼
a.

Demonstraţie. Conform principiului lui Huygens I = IW + IB ; unde IB este


inerţia interclase şi IW este inerţia intraclase.
La momentul iniţial, când E este împ¼ arţit¼
a în n clase,

IW (Pn ) = 0 ) IB (Pn ) = I:

La momentul …nal, când E are o singur¼


a clas¼
a,

IB (P1 ) = 0 ) IW (P1 ) = I:

Cum pierderea de inerţie interclase, adic¼


a IB (Ps ) IB (Ps 1) ; este egal¼
a
tocmai cu indicele de agregare, rezult¼
a
n
X n
X
i (Ps ) = [IB (Ps ) IB (Ps 1 )] = IB (Pn ) IB (P1 ) = I
s=2 s=2

Lema 2.4.3 (generalizarea formulei Lance-Williams)

(PA + PC ) (A; C) + (PB + PC ) (B; C) PC (A; B)


(C; (A; B)) = :
PA + PB + PC

Observaţia 2.4.3
Lema 2.4.3 permite calculul disimilarit¼ aţii dintre dou¼ a clase f¼
ar¼
a a … necesar¼
a
folosirea distanţelor euclidiene între centrele de greutate al acestor clase. În
plus, nici centrele de greutate nu mai trebuie calculate.
Aşadar, odat¼ a calculate disimilarit¼ aţile dintre indivizi, se poate lucra
numai pe matrici de disimilarit¼ aţi prin aplicarea succesiv¼ a a formulei Lance-
Williams.
¼
2.4. METODE DE CLASIFICARE IERARHICA 125

Demonstraţie. Conform Lemei 2.4.1


PC PAB 2
(C; (A; B)) = d (gC ; gAB ) ;
PC + PAB
unde PAB = PA + PB ; conform teoremei generalizate a medianei. Cum
PA PB
d2 (gC ; gAB ) = d2 (gA ; gC ) + d2 (gB ; gC )
PA + PB PA + PB
PA PB
d2 (gA ; gB ) ;
(PA + PB )2

iar, pe de alt¼
a parte, tot din Lema 2.4.1
PC PA 2
d (gC ; gA ) = (A; C) ;
PC + PA
PC PB 2
d (gC ; gB ) = (B; C) ;
PC + PB
PA PB 2
d (gA ; gB ) = (A; B) :
PA + PB
Rezult¼
a
1
d2 (gC ; gAB ) = [(PC + PA ) (A; C) + (PC + PB ) (B; C)
PC PAB
PC (A; B)]

deci
(PA + PC ) (A; C) + (PB + PC ) (B; C) PC (A; B)
(C; (A; B)) = :
PA + PB + PC

Rezultatul lemei permite enunţarea urm¼


atorului ALGORITM:

Pasul 1 Se înlocuieşte matricea D a distanţelor euclidiene dintre indivizi cu ma-


tricea
j>i Pi Pj 2
n =( ij )i=1;n cu ij = (A; B) = d (ei ; ej ) :
Pi + Pj

Pasul 2 În matricea n se caut¼


a min (i; j), se elimin¼
a linia şi coloana j, iar linia
i;j
şi coloana lui i se noteaz¼ b formându-se matricea
a cu ij, n 1. Indicele
b
de agregare al clasei ij este ij .

Pasul 3 Se calculeaz¼
a elementele matricii n 1 astfel:

- se copiaz¼
a coloanele matricii n;
126 CAPITOLUL 2. METODE DE CLASIFICARE

b se calculeaz¼
- coloana ij a dup¼
a formula generalizat¼
a a lui Lance-Williams:

b = (Pi + Pk ) ik+ (Pj + Pk ) jk Pk ij


k; ij
Pi + Pj + Pk
Pasul 4 Se pune n = n 1 şi n = n 1;
Dac¼
a n = 1 atunci STOP; altfel, salt la Pasul 2.

fig. 2.4.2. Aglomerarea progresivA¼ a 5 puncte


Observaţia 2.4.4
La etapa iniţial¼a, inerţia intraclase este nul¼ a şi inerţia interclase este egal¼ a
cu inerţia total¼a a norului deoarece …ecare element terminal constituie, la
acest nivel, o clas¼a. În etapa …nal¼ a, inerţia interclase devine nul¼ a iar inerţia
intraclase este echivalent¼ a cu inerţia total¼a pentru c¼ a, la acest nivel, exist¼ao
partiţie cu o singur¼a clas¼a ( …g. 2.4.2).

fig. 2.4.3. Calitatea globalA¼ a unei partiŢ ii

2.4.2.2 STRATEGII DE AGREGARE PE DISIMILARITA ¼ ŢI Dac¼ a


între indivizi este dat¼
a o matrice de disimilaritate strict¼
a, atunci se pot imag-
ina mai multe soluţii, mai mult sau mai puţin arbitrare. Cele mai utilizate
sunt:
- distanţa saltului minimal (single linkage), care favorizeaz¼
a mulţimile cu
puncte apropiate:
d (A; B) = min (ei ; ej ) ; ei 2 A; ej 2 B
¼
2.4. METODE DE CLASIFICARE IERARHICA 127

- distanţa diametrului (complete linkage), ce repar¼


a limitele primei dis-
tanţe, dar punctele trebuie s¼
a …e apropiate:

d (A; B) = max (ei ; ej ) ; ei 2 A; ej 2 B

- distanţa mediei (unweighted pair-group average linkage)

Px (x; z) + Py (y; z)
d (A; B) = cu A = fx; yg ; B = fzg :
Px + Py

Observaţia 2.4.5
Ierarhiile induse de diferitele distanţe sunt în general diferite. Se recomand¼ a
aşadar, utilizarea mai multor tipuri de clasi…c¼ari. Acestea nu trebuie s¼
a difere
prea mult când se priveşte partea superioar¼ a a arborelui de clasi…care. Dac¼ a
totuşi acest lucru se întâmpl¼ a, se poate conchide c¼ a mulţimea indivizilor se
preteaz¼a prost la orice clasi…care.
Exemplu:
Fie matricea de disimilaritate dintre indivizii fa; b; c; d; eg :

a b c d e
a 0 3 7 3 4
b 0 4 4 1
c 0 2 6
1
d 0 2
e 0

Intr-adev¼
ar, aceasta este o matrice de disimilaritate deoarece (c; e) >
(c; d) + (d; e) , 6 > 2 + 21 :

a aplic¼
am algoritmul de clasi…care ierarhic¼ a ascendent¼a folosind, pe
rând, tipurile de disimilarit¼
aţi enumerate mai sus.

Astfel, pentru disimilaritatea saltului minimal (Inf) se obţin urm¼


atoarele
etape:

a b c f
a 0 3 7 3
1
1. f = fd; eg ; i (f ) = 2 b 0 4 1
c 0 2
f 0

a c g
a 0 7 3
2. g = ff; bg ; i (g) = 1
c 0 2
g 0
128 CAPITOLUL 2. METODE DE CLASIFICARE

a h
3. h = fc; gg ; i (h) = 2 a 0 3
h 0

4. i = fa; hg ; i (i) = 3 .

Pentru disimilaritatea diametrului (Sup) se obţin urm¼


atoarele etape :

a b c f
a 0 3 7 4
1
1. f = fd; eg ; i (f ) = 2 b 0 4 4
c 0 6
f 0

c f g
c 0 6 7
2. g = fa; bg ; i (g) = 3
f 0 4
g 0

c h
3. h = ff; gg ; i (h) = 4 c 0 6
h 0

4. i = fh; cg ; i (i) = 7:
¼
2.5. CLASIFICARE MIXTA 129

Analog pentru disimilaritatea medie se obţine urm¼


atoarea dendogram¼
a:

În po…da faptului c¼ a …ecare arbore începe cu agregarea lui d şi e într-o


singur¼
a clas¼
a, f , urmeaz¼ a imediat diferenţe importante atunci când se cal-
culeaz¼
a distanţele de la f la ceilalţi indivizi:

dinf (b; f ) = inf (d (b; d) ; d (b; e)) = 1;


dsup (b; f ) = sup (d (b; d) ; d (b; e)) = 4;
dmed (b; f ) = 2; 5:

a not¼ am, îns¼a, c¼
a una din principalele di…cult¼ aţi în clasi…care const¼
a în
de…nirea unei distanţe sau disimilarit¼ aţi între indivizi, mai ales când aceştia
sunt descrişi prin caractere calitative.

2.5 Clasi…care mixt¼


a
Algoritmii de clasi…care sunt mai mult sau mai puţin adaptaţi pentru
volume mari de date. Astfel:
130 CAPITOLUL 2. METODE DE CLASIFICARE

metodele de agregare în jurul centrilor mobili pot manipula volume mari


cu preţuri mici dar au dezavantajul c¼ a produc partiţii dependente de
num¼arul ales de clase şi de centrii iniţiali;

metodele de agregare ierarhice sunt „deterministe” (în sensul c¼ a dau


întotdeauna acelaşi rezultat dac¼
a datele iniţiale sunt aceleaşi), dau indi-
caţii privind num¼
arul de clase ce trebuie reţinut dar sunt prost adaptate
la volume mari de date.

Combinarea celor dou¼ a metode a dat naştere unui algoritm mixt (hybrid
clustering, [64]).
Algoritmul de clasi…care mixt¼ a conţine trei etape: mulţimea elementelor
de clasi…cat este partiţionat¼ a (centrii mobili) în câteva zeci, eventual sute de
partiţii omogene; se procedeaz¼ a apoi la agregarea ierarhic¼ a a acestor grupe
cu scopul ca dendrograma obţinut¼ a s¼a sugereze num¼ arul de clase …nale ce
trebuie reţinute; în …ne, se optimizeaz¼ a (folosind iar¼
aşi tehnica centrilor mobili)
partiţia obţinut¼
a prin t¼
aierea arborelui.
Etapele algoritmului sunt:

1. Partiţionarea iniţial¼ a. Aceast¼ a etap¼ a vizeaz¼


a obţinerea rapid¼
a şi cu
un preţ sc¼
azut a unei partiţii de n obiecte în k clase omogene, unde k este
mult mai mare decât s; num¼ arul de clase dorit, dar mult mai mic decât
n. În acest scop este utilizat algoritmul centrilor mobili. Optimalitatea
nu este, desigur, atins¼a, dar partiţia obţinut¼a poate … ameliorat¼
a pornind
de la grup¼arile stabile (grupuri de indivizi sau elemente care apar mereu
în aceleaşi clase). Aceste grup¼ ari vor … elementele de baz¼ a în etapa
urm¼atoare.

2. Agregarea ierarhic¼ a a claselor obţinute. Aceast¼ a etap¼a const¼


a în
efectuarea unei clasi…c¼
ari ierarhice ascendente în care elementele termi-
nale ale arborelui sunt cele k clase ale partiţiei iniţiale. Scopul acestei
etape este de a reconstitui clasele care au fost fragmentate şi de a agrega
elementele aparent dispersate în jurul centrelor de origine. Arborele este
construit dup¼a strategia Ward care ţine seam¼ a de mase în momentul
alegerii elementelor de agregat.

3. Partiţia …nal¼a. Partiţia …nal¼a a populaţiei este dat¼


a prin t¼
aierea ar-
borelui obţinut în etapa precedent¼ a. Omogenitatea claselor obţinute
poate … optimizat¼ a prin reafectare.

Figura 2.5.1. schematizeaz¼


a etapele algoritmului de clasi…care mixt¼
a.
¼
2.5. CLASIFICARE MIXTA 131

fig. 2.5.1. Schema clasificA¼ rii mixte

2.5.1 Alegerea claselor prin "t¼


aierea" arborelui

Alegerea nivelului de t¼ aiere şi astfel, al num¼arului de clase ale partiţiei,


poate … facilitat¼ a de inspecţia vizual¼ a a arborelui. T¼aierea trebuie s¼ a se fac¼a
în intervalul dintre indici de valori mici, corespunzând unor clase omogene, şi
indici de valori mari ce disociaz¼ a clase bine conturate.
Într-o manier¼ a general¼a, cu cât se grupeaz¼ a mai mulţi indivizi, altfel spus
cu cât ne apropiem de vârful arborelui, cu atât mai mare va … distanţa între
dou¼ a clase vecine iar indicele de agregare va … mai mare. T¼ aind arborele la
nivelul unui salt important al acestui indice se poate spera în obţinerea unei
partiţii de bun¼ a calitate, în sensul c¼ a indivizii grupaţi sub nivelul de t¼ aiere
erau apropiaţi şi cei grupaţi deasupra nivelului de t¼ aiere sunt necesarmente
dep¼artaţi (ceea ce corespunde de…niţiei unei bune partiţii).
În practic¼a situaţia nu este îns¼ a atât de clar de…nit¼a. Ca şi în cazul ana-
lizei factoriale, se utilizeaz¼a criterii empirice: histograma indicilor de agregare.
132 CAPITOLUL 2. METODE DE CLASIFICARE

fig 2.5.2 Histogramele indicilor de nivel

2.5.2 Caracterizarea statistic¼


a a claselor
Elementele unei aceleiaşi clase se aseam¼ an¼
a din punct de vedere al cri-
teriilor alese pentru a le descrie. R¼ amâne de precizat care sunt criteriile care
se a‡a¼ la originea grup¼ arilor obţinute. Se procedeaz¼a la descrierea automat¼ aa
claselor, ceea ce constituie în practic¼ a o etap¼
a indispensabil¼a oric¼arei proceduri
de clasi…care.
Descrierea automat¼ a a claselor este, în general, bazat¼ a pe compararea
mediilor sau a procentelor din interiorul claselor cu mediile sau procentele
obţinute pe întreaga populaţie. Pentru a selecţiona variabilele continue sau
modalit¼ aţile variabilelor nominale caracteristice …ec¼ arei clase, se m¼asoar¼a ecar-
tul dintre valorile speci…ce clasei şi valorile globale. Aceste statistici pot …
convertite într-un criteriu numit valoare-test, care permite operarea unei se-
lecţii asupra variabilelor, desemnând astfel variabilele cele mai reprezentative
(conform [47]).

2.5.2.1 VALORI-TEST PENTRU VARIABILE CONTINUE Pen-


tru a caracteriza o clas¼
a prin variabile continue, se compar¼
a xk ; media variabilei
x în clasa k, cu media x în întreg norul. Valoarea-test este aici
xk x
tk = ;
sk (x)
2
cu s2k (x) = nn n1k s n(x)
k
; estimatorul dispersiei lui x în clasa k şi s2 (x)
dispersia empiric¼ a a lui x în întreg norul. Se recunoaşte aici, în s2k (x) ; dispersia
unei medii în cazul extragerii f¼ ar¼a revenire a k elemente.
În ipoteza nul¼a a unei extrageri aleatoare, f¼ ar¼
a revenire, a nk indivizi din
clasa k, variabila xk ; reprezentând media empiric¼ a în acea clas¼
a, are ca medie
şi dispersie empiric¼a global¼ 2
a pe x respectiv sk (x).
¼
2.5. CLASIFICARE MIXTA 133

Valoarea test urmeaz¼ a, aproximativ, o distribuţie Gauss-Laplace centrat–


redus¼a (teorema limit¼ a central¼a). Ea m¼ asoar¼a distanţa între media clasei şi
media general¼ a în ecarturi tip.
E de la sine înţeles c¼ a aceast¼a interpretare nu are sens decât pentru o
variabil¼
a x suplimentar¼ a, care nu a participat la construcţia claselor (nu se
poate stipula o independenţ¼ a între claselele unei partiţii şi variabilele care au
participat la de…nirea partiţiei). Se calculeaz¼ a apoi probabilitatea ca variabila

a dep¼aşeasc¼a valoarea absolut¼ a a diferenţei observate. Cu cât valoarea test
este mai mare (cu atât probabilitatea este mai mic¼ a) cu atât ipoteza de a
avea valori ale variabilei x extrase la întâmplare dintre valorile posibile este
discutabil¼a. În acest caz, media în clas¼ a difer¼
a de media general¼ a şi variabila
este caracteristic¼a clasei. Ordonarea variabilelor în funcţie de probabilit¼ aţile
cresc¼
atoare de a dep¼ aşi media general¼ a este echivalent¼ a cu ordonarea în funcţie
de valorile-test descresc¼ atoare.
Dac¼ a interpretarea probabilistic¼ a a valorilor-test pentru variabilele active
nu este licit¼a, este totuşi posibil s¼a …e folosite pentru a obţine un clasament
al acestora în vederea caracteriz¼ arii …ec¼
arei clase. Modulele acestor valori-test
reprezint¼a atunci simple m¼ asuri ale similarit¼
aţii între variabile şi clas¼a.

2.5.2.2 VALORI-TEST PENTRU VARIABILE NOMINALE O


modalitate (sau categorie) a unei variabile nominale este considerat¼ a carac-
teristic¼
a pentru clas¼ a dac¼a abundenţa în clas¼a este apreciat¼a ca semni…cativ
superioar¼a faţ¼
a de restul populaţiei. Notând cu njk num¼ arul de indivizi având
modalitatea j din cei nk indivizi ai clasei k, cu nj num¼ arul total de indivizi
având modalitatea j dintr-un total de n, abundenţa modalit¼ aţii j este de…nit¼a
njk
comparând procentul ei în clas¼ a, adic¼a nk , cu procentul în toat¼ a populaţia,
nj
adic¼a n.
În ipoteza nul¼ a, unde cei nk indivizi ai clasei k sunt extraşi aleator, f¼
ar¼a
revenire, din populaţia de n indivizi, procentajul indivizilor clasei k având
modalitatea j pe de-o parte, şi procentajul indivizilor având modalitatea j în
întreaga populaţie, pe de alt¼a parte, ar trebui s¼
a coincid¼a, modulo o ‡uctuaţie
aleatoare, adic¼ a:
njk nj
:
nk n

În ipoteza de independenţ¼ a, cei N indivizi ai clasei k care au modali-


tatea j reprezint¼
a o variabil¼ a aleatoare care urmeaz¼ a o lege hiper-geometric¼
a
n
Hg nk ; n; nj (nk reprezint¼ a num¼ arul de succese dintr-un total de n cu prob-
n
abilitatea de succes de nj ).
Suntem, deci, interesaţi de calculul lui

x=n
Xk X Cnxj Cnnk njx
pk (j) = Prob (N nkj ) = Prob (N = x) =
x=njk
Cnnk
134 CAPITOLUL 2. METODE DE CLASIFICARE

Cu cât aceast¼ a probabilitate este mai mic¼ a, cu atât ipoteza unei extrageri
aleatoare este mai di…cil de acceptat. Vom folosi aceast¼ a probabilitate pentru a
ordona modalit¼ aţile caracteristice clasei (cea mai caracteristic¼ a corespunzând
celei mai mici probabilit¼ aţi).
Aceast¼ a probabilitate este adesea foarte mic¼ a; este comod s¼ a i se substi-
tuie valoarea tk (N ) a variabilei Gauss-Laplace corespunzând aceleiaşi proba-
bilit¼
aţi. Ea m¼asoar¼a distanţa între proporţia în clas¼a şi proporţia general¼
a în
num¼ ar de abateri standard a legii normale. Cum

nj n nk nj nj
E (N ) = nk şi s2k (N ) = nk 1 )
n n 1 n n
N E (N )
) tk (N ) = :
sk (N )

Aceasta este valoarea-test pentru o modalitate a unei variabile nominale.


Acesta este un criteriu statistic doar pentru variabilele ilustrative.

2.5.3 Exemplu
Descrierea datelor
În cadrul subcapitolelor 1.4.6 respectiv 2.3.2, am analizat un set de date
(tabelul A.4. (Anex¼ a)) reprezentând informaţii asupra unor însuşiri …zice şi
temperamentale a 27 de rase de câini. Rezultatele obţinute relativ la clasi-
…carea acestor rase sunt uşor diferite pentru cele dou¼ a analize. Pentru a ne
decide asupra unei interpret¼ ari, vom aplica o metod¼ a de clasi…care ierarhic¼a-
Joining (Tree Clustering), al c¼arei avantaj îl reprezint¼
a capacitatea de oferi o
idee asupra num¼ arului de clase existente efectiv în cadrul populaţiei raselor de
câini. Se vor folosi pentru aceast¼ a analiz¼
a datele de intrare din tabelul A.4.,
modi…cate conform indicaţiilor din subcapitolul 2.3.2.

Efectuarea analizei şi interpretarea rezultatelor


Din bara de meniu se selecteaz¼ a Statistics, Multivariate Exporatory Tech-
niques, Cluster Analysis şi, în fereastra de dialog ap¼ arut¼
a, se alege metoda de
analiz¼
a Joining (tree clustering). Dup¼ a ap¼asarea butonului OK, în fereastra
corespunz¼ atoare metodei selectate se acceseaz¼ a meniul Advanced. Butonul
Variables a…şeaz¼
a lista variabilelor pentru analiz¼ a, dintre acestea urmând a …
selectate toate mai puţin variabila FN şi variabila R. În continuare se speci…c¼
a:

tipul datelor de intrare (input …le) - se alege opţiunea Raw data deoarece
tabelul A.4. nu reprezint¼ a o matrice de distanţe sau de corelaţii;

entit¼
aţile de clasi…cat (cluster ) - se alege opţiunea Cases (rows) deoarece
scopul analizei pentru acest exemplu este clasi…carea raselor de câini;
¼
2.5. CLASIFICARE MIXTA 135

strategia de agregare (amalgamation (linkage) rule) - se alege strate-


gia bazat¼ a pe distanţa diametrului (Complete Linkage). Rezultatele
obţinute folosind metoda Ward sunt similare (vezi subcapitolul 2.4.2.);

tipul de distanţ¼
a (Distance measure) - se alege distanţa euclidian¼
a (Euclid-
ean distances) deoarece indivizii sunt v¼azuţi ca puncte în spaţiul euclid-
ian R6 (6 reprezint¼ a num¼arul de variabile m¼asurate pe …ecare individ)

fig. 2.5.3. Fereastra de start

Pentru activarea ferestrei ce permite generarea rezultatelor speci…ce clasi-


…c¼
arii prin metoda k-means (…g. 2.5.3.) se apas¼ a butonul OK. În noua fereas-
tr¼
a este prezentat şi un rezumat al datelor de plecare: num¼ arul indivizilor (27
rase de câini) şi al variabilelor (6 însuşiri) care particip¼
a la analiz¼
a, metoda de
analiz¼
a (Joining), strategia de agregare (Complete Linkage) şi tipul distanţei
(Euclidean Distances).

Generarea tuturor rezultatelor se va face din meniul Advanced. Primul


pas în realizarea clasi…c¼
arii prin metoda Joining îl reprezint¼a calculul matricei
distanţelor (butonul Distance Matrix ) - distanţele euclidiene, în acest caz. O
submatrice a acestei matricii este prezentat¼a în tabelul 2.5.1.
136 CAPITOLUL 2. METODE DE CLASIFICARE

fig. 2.5.4. Fereastra de rezultate

tabelul 2.5.1. submatrice a matricei distanŢ elor euclidiene

Etapele rezultate în urma algoritmului de agregare bazat pe strategia


Complete Linkage pot … vizualizate prin ap¼ asarea butonului Amalgamation
schedule. Tabelul obţinut, redat parţial în continuare (tabelul 2.5.2.), conţine
pe prima coloan¼ a indicii de agregare şi pe …ecare linie membrii clusterului for-
mat în urma agreg¼ arii la nivelul respectiv. Se constat¼ a c¼
a primele "grup¼ ari"
se realizeaz¼
a între indivizii pentru care variabilele care îi caracterizeaz¼ a au va-
lori identice: BULD şi TECK, respectiv CHIH şi PEKI, DALM şi LABR, iar
indicii de agregare sunt nuli, egali cu distanţele dinte aceşti indivizi. Imaginea
arborelui de clasi…care (butonul Horizontal/Vertical hierarchical plot) sinte-
tizeaz¼a aceste informaţii într-o maniera mai sugestiv¼ a (…g. 2.5.6.).
¼
2.5. CLASIFICARE MIXTA 137

tabelul 2.5.2. etape de agregare

fig. 2.5.6. Arborele de clasificare

Clusterele rezultate în urma aplic¼


arii metodei Joining (…g 2.5.6. şi tabelul
2.5.3.) sunt apoape identice cu grup¼arile generate de metoda k-means (tabelul
138 CAPITOLUL 2. METODE DE CLASIFICARE

2.3.2.), singura diferenţ¼


a …ind dat¼
a de trecerea rasei FOXT din clusterul 4 în
clusterul 3.

tabelul 2.5.3. Membrii clusterelor obŢ inute prin metoda joining


Capitolul 3

METODE EXPLICATIVE
UZUALE

Acest capitol face leg¼ atura între demersurile exploratori i prezentate în


capitolele 1 şi 2, şi demersul inferenţial şi con…rmatoriu care constituie partea
clasic¼
a cea mai ampl¼ a a statisticii matematice.
S¼a recapitul¼ am, pe scurt, caracteristicile celor dou¼ a familii de metode

arora le corespund demersuri complementare.
Statistica descriptiv¼a şi exploratorie permite realizarea de rezumate şi
gra…ce mai mult sau mai puţin elaborate, descrierea mulţimilor de date sta-
tistice şi stabilirea de relaţii între variabile, f¼ar¼
a a acorda un rol privilegiat
vreunei variabile. Concluziile obţinute în aceast¼ a etap¼a privesc doar datele
studiate, f¼ ar¼
a a … generalizate la o populaţie mai larg¼ a. Analiza exploratorie
se sprijin¼a, în mod esenţial, pe noţiuni elementare - acelea de medie şi disper-
sie, pe reprezent¼ ari gra…ce şi pe tehnici descriptive multidimensionale de tipul
celor abordate în primele dou¼ a capitole.
Statsitica inferenţial¼a şi con…rmatorie permite validarea sau in…rmarea,
pornind de la teste statistice sau modele probabiliste, a ipotezelor formulate à
priori (adic¼ a urmarea unui demers exploratoriu) şi extrapolarea acestora de la
nivelul eşantionului la cel al unei populaţii mai mari. Statistica con…rmatorie
face apel, în special, la metodele numite explicative8 şi previzionale. Dup¼ a cum
le indic¼a numele, acestea sunt destinate s¼ a explice, apoi s¼
a prevad¼ a, urmând
anumite reguli de decizie, o variabil¼ a privilegiat¼a, cu ajutorul uneia sau mai
multor variabile explicative.
Demersurile sunt complementare, explorarea şi descrierea trebuind, în
general, s¼ a precead¼ a etapele explicative şi predictive. Într-adev¼ar, o explorare
preliminar¼ a este adesea util¼ a pentru a avea o prim¼ a idee despre natura leg¼ a-
8
Statistica nu explic¼
a nimic, dar furnizeaz¼a elemente potenţiale de explicaţii. De altfel,
termenii de variabil¼
a explicativ¼
a sau variabil¼
a de explicat nu sunt cei mai judicioşi. Se mai
spune independent şi dependent sau exogen şi endogen. Ultimii doi termeni sunt poate cei
mai adecvaţi dar nu sunt destul de evocatori. Adjectivul independent este, în schimb, surs¼ a
de confuzie.

139
140 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

turilor între variabile şi pentru a trata cu prudenţ¼ a variabilele corelate, şi deci
redundante, ce risc¼ a s¼
a încarce inutil modelul.
Metodele explicative prezentate în secţiunile 3.1 3.3 acoper¼ a utiliz¼arile
cele mai curente.
Analiza discriminant¼a (secţiunile 3.1 şi 3.2) este, schematic vorbind,
analog¼ a cu regresia multipl¼ a când variabila endogen¼ a y este discret¼a. În acest
caz, variabila de explicat de…neşte clasele unei partiţii à priori a populaţiei.
Scopul analizei îl constituie studierea legaturilor între variabilele explicative
şi clasele partiţiei (secţiunea 3.1). Se de…nesc astfel funcţii discriminante care
vor permite, într-o etap¼ a decizional¼a, afectarea de noi indivizi la aceste clase
(secţiunea 3.2).
Tehnicile de segmentare prin arbore binar (secţiunea 3.3) sunt prezen-
tate în cadrul acestui capitol din diferite motive. Pe de o parte ele se aplic¼ a
la toate variabilele, oricare ar … statutul sau natura lor, pe alt¼ a parte ele inte-
greaz¼ a simultan faza explicativ¼ a şi cea decizional¼
a. Aceste tehnici constituie,
astfel, o metod¼ a de previziune foarte accesibil¼ a ale c¼
arei rezultate sunt uşor de
interpretat.

3.1 Analiza discriminant¼


a
Este desemnat¼ a sub numele de analiz¼a discriminant¼a o familie de tehnici
destinate s¼
a claseze (s¼a afecteze la clase preexistente) indivizi caracterizaţi
printr-un num¼ ar de variabile continue sau discrete.
Metoda îşi are originea în lucr¼
arile lui R. A. Fisher [26] sau, într-o manier¼a
mai puţin direct¼
a, în cele ale lui P.C. Mahalanobis [43].
Analiza discriminant¼ a este una dintre tehnicile de analiz¼ a multidimen-
sional¼
a cele mai folosite în practic¼ a (diagnostic automat, controlul calit¼ aţii,
previziunea riscului, recunoaşterea formelor).

3.1.1 Notaţii şi formularea problemei


Dispunem de n observaţii (sau indivzi) asupra a p variabile (x1 ; x2 ; : : : ; xp ),
observaţii repartizate în q clase de…nite à priori de variabila y nominal¼ a, având
q modalit¼ aţi. În cele ce urmeaz¼ a vom nota cu y vectorul n-dimensional, cu
componente numere naturale, reprezentând num¼ arul clasei din care face parte
observaţia / individul i şi cu Y matricea disjunctiv¼ a n q corespunz¼ atoare.
Analiza discriminant¼ a îşi propune, într-o prim¼ a etap¼ a, s¼
a caracterizeze
cât se poate de bine cele q clase cu ajutorul celor p variable explicative, iar apoi,
într-o a doua etap¼ a, s¼
a rezolve problema afect¼ arii unui individ nou, caracterizat
prin cele p variabile, la una dintre clasele deja identi…cate pe baza eşantionului
de n indivizi (numit eşantion de înv¼aţare).
Se disting, în consecinţ¼a, dou¼ a demersuri:

primul, descriptiv, ce const¼


a în c¼
autarea funcţiilor de discriminare liniare
¼
3.1. ANALIZA DISCRIMINANTA 141

pe eşantionul de volum n (adic¼a g¼


asirea combinaţiilor liniare de variabile
explicative ale c¼
aror valori separ¼
a cel mai bine cele q clase);
al doilea, decizional, ce const¼a în a‡area claselor de afectare a celor n0
indivizi noi, descrişi prin variabilele explicative (x1 ; x2 ; : : : ; xp ) (numit
eşantion de test). Este vorba aici de o problem¼a de clasare în clase
preexistente, în opoziţie cu problemele de clasi…care (capitolul 2) care
constau în construirea de clase cât mai omogen posibil într-un eşantion
dat.

fig. 3.1.1. Principiul analizei discriminante

3.1.2 Analiza factorial¼


a discriminant¼
a
j=1;p
Fie tabelul observaţiilor X 2Mn p (R) cu X = (xij )i=1;n
Cei n indivizi sunt împ¼ arţiţi în q clase (clasele sunt presupuse disjuncte
şi se cunoaşte afectarea …ec¼arui individ la o clas¼ a).
Fiecare clas¼a k caracterizeaz¼ a un subnor Ik de nk indivizi, unde
q
X
nk = n:
k=1
Se noteaz¼ a cu gk centrul de greutate al clasei k şi cu g centrul de greutate
al norului, adic¼
a
1 X
gk = xkj unde xkj = xij
j=1;p nk
i2Ik

respectiv
n q
1X Xn
k k
g = (xj )j=1;p , cu xj = xij = x :
n n j
i=1 k=1

fig. 3.1.2. Reprezentarea norului de indivizi discriminaŢ i


142 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Pentru precizarea ideilor, se consider¼ a o mulţime X de date (puncte)


dintr-un spaţiu bidimensional. Valorile caracteristicilor x1 şi x2 ale punctelor
sunt date de proiecţiile norului X pe axele de coordonate Ox şi Oy. Structura
claselor lui X se poate detecta, în acest caz, prin simpla inspecţie vizual¼ a.
În unele situaţii se poate constata c¼ a nu exist¼ a în X o structur¼ a de
clase bine de…nit¼ a şi astfel diferiţi observatori pot indica diferite moduri de
grupare a datelor în clase. Aceasta relev¼ a faptul c¼a puterea de discriminare
a caracteristicilor (axelor) este slab¼ a pentru datele considerate. Exist¼ a dou¼a
posibilit¼aţi: …e c¼a nu s-au ales cele mai bune caracteristici ale datelor, …e

a datele sunt, prin natura lor, foarte asem¼ an¼
atoare. Pentru a evita aceast¼ a
situaţie, este uneori posibil¼ a determinarea unui nou sistem de coordonate faţ¼ a
de care structura de clase a norului X s¼ a …e mai evident¼ a decât în sistemul
iniţial. Axele noului sistem au, deci, o putere de discriminare a claselor din X
superioar¼ a celei a axelor iniţiale. În unele situaţii este su…cient¼
a determinarea
unei singure axe discriminante, astfel încât proiecţiile norului X pe aceast¼ a
ax¼a s¼a constea din clase compacte şi bine separate. În …g. 3.1.3., axa 1 are o
bun¼ a putere discriminant¼ a în timp ce axa 2, care este axa principal¼ a uzual¼a,
nu permite o separare a proiecţiilor celor dou¼ a grupe.

fig. 3.1.3. Axe cu proprietA¼ Ţ i de discriminare diferite

M¼arirea puterii discriminante a axelor poate …, aşadar, reclamat¼ a de


datele problemei, cu scopul de a putea "vedea" o anumit¼ a structur¼a în date.
Determinarea axelor discriminante poate servi şi ca o tehnic¼ a de reducere
a dimensiunii spaţiului variabilelor. Prin aceast¼ a tehnic¼a sunt selectate cele
mai relevante caracteristici. Reducerea dimensiunii poate … impus¼ a şi de nece-
sitatea vizualiz¼arii claselor prin proiectarea datelor într-un spaţiu cu una sau
dou¼a dimensiuni. În acest caz, cerinţa fundamental¼ a este ca, prin proiectarea
datelor într-un spaţiu de dimensiune redus¼a, la clase compacte şi bine sepa-
rate din spaţiul iniţial s¼a corespund¼a clase compacte şi bine separate din noul
spaţiu.
Fie combinaţia liniar¼ a, pentru individul i, format¼a cu cele p variabile
p
X
a (i) = aj (xij xj ) ; i = 1; n:
j=1

Variabila a = (a (i))ni=1 este centrat¼


a, deci de medie empiric¼
a 0. Atunci dis-
¼
3.1. ANALIZA DISCRIMINANTA 143

persia empiric¼
a a lui a este
2 32
n
X n
X Xp
1 1 4
D2 (a) = 2
a (i) = aj (xij xj )5
n n
i=1 i=1 j=1
p
n X
X p
X
1
= aj aj 0 (xij xj ) xij 0 xj 0 :
n
i=1 j=1 j 0 =1

Inversând ordinea de sumare şi notând


n
1X
tjj 0 = (xij xj ) xij 0 xj 0 = cov xj ; xj 0
n
i=1

dispersia empiric¼
a a variabilei a se poate scrie
p X
X p
2 j0=1;p
D (a) = aj aj 0 cov xj ; xj 0 = a0 Ta, unde T = tjj 0 j=1;p
:
j=1 j0=1

Ca şi în analiza dispersional¼


a (vezi, de exemplu, [60]) se poate descom-
pune matricea de covarianţ¼ a, T, într-o component¼ a intraclase (în interiorul
claselor) şi o component¼a interclase (între clase) obţinându-se formula de de-
scompunere a lui Huygens, sau ecuaţia analizei dispersionale.

a pornim de la identitatea

xij xj = xij xkj + xkj xj :


Atunci
2 3
Xq X
1 4
tjj0 = (xij xj ) xij0 xj 0 5 =
n
k=1 i2Ik
2 3
1 X 4X h i h i
q
= xij xkj + xkj xj xij 0 xkj0 + xkj0 xj 0 5=
n
k=1 i2Ik
q X
X q
1 1 XX k
= xij xkj xij 0 xkj0 + xj xj xkj0 xj 0 :
n n
k=1 i2Ik k=1 i2Ik

deoarece, din de…niţia lui xkj

X X
xij xkj xkj0 xj 0 = xkj0 xj 0 xij xkj =
i2Ik i2Ik
0 1
X
= xkj0 xj 0 @ xij nxkj A = 0
i2Ik
144 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

şi în mod analog


X
xkj xj xij 0 xkj0 = 0:
i2Ik

Notând cu
q
1 XX
djj 0 = xij xkj xij 0 xkj0
n
k=1 i2Ik

şi cu
q
X nk
ejj0 = xkj xj xkj0 xj 0
n
k=1
se poate scrie
T=D+E (1)
j 0 =1;p j 0 =1;p
unde D = djj 0 j=1;p şi E = ejj 0 j=1;p :
Astfel, dispersia unei combinaţii liniare de variabile, a, se descompune în

a0 Ta = a0 Da + a0 Ea: (2)

Reamintim c¼ a, dintre toate combinaţiile liniare de variabile, sunt c¼ au-


tate cele care au o dispersie intraclase minim¼ a şi o dispersie interclase maxim¼ a.
Rezult¼a c¼a, în proiecţie pe axa discriminant¼ a a; …ecare subnor trebuie s¼ a …e,
în m¼asura posibilului, în acelaşi timp bine grupat şi bine separat de ceilalţi
subnori.
0 Ea 0
Trebuie g¼ asit a astfel încât aa0 Da s¼a …e maxim¼ a (sau echivalentul, aa0Da
Ea
0
minim¼ a) sau, conform (2), s¼ a se maximizeze f (a) = aa0Ea Ta (raportul dintre
dispersia inter-clase şi dispersia total¼a).
Aşadar, un punct staţionar al lui f (a) se a‡a¼ rezolvând ecuaţia
(a0 Ta) (2Ea) (a0 Ea) (2Ta)
f 0 (a) = 0 =) =0
(a0 Ta)2
d
deoarece da (a0 Ea) = 2Ea dac¼ a E este simetric¼
a (şi este deoarece E şi T sunt
matrici de covarianţ¼
a, în plus T este inversabil¼
a). Rezult¼ a

a0 Ta Ea = a0 Ea Ta

a0 Ea 1
Ea= Ta j T
a0 Ta

1 a0 Ea
T Ea= a =f (a) a (3)
a0 Ta
Aşadar f (a) este maxim¼
a dac¼a este egal¼
a cu , valoarea proprie maxim¼
a
1
a matricii T E iar a este vector propriu corespunz¼ator lui maxim
¼
3.1. ANALIZA DISCRIMINANTA 145

Observaţia 3.1.1
1. T 1 E este o matrice p p, în general nesimetric¼ a. Din punct de vedere al
calcului numeric, având în vedere c¼ aq p, este mai uşor a a‡a vectorii
şi valorile proprii ale unei matrici simetrice de dimensiune q q şi a g¼ asi
o exprimare a lui a în funcţie de aceste elemente.

2. Se observ¼ a E este produsul unei matrci C 2 Mp q (având coe…-


a c¼
p nk k
cienţii cjk = n xj xj ) cu transpusa sa, deci, revenind în (3),
T 1 CC0 a = a sau CC0 a = Ta şi considerând a = T 1 Cw rezult¼
a

CC0 T 1
Cw = Cw (4)

Dac¼
a w este vector propriu corespunz¼ ator lui ; al matricii C0 T 1 C
atunci el veri…c¼
a relaţia (4) şi a şi veri…c¼a relaţia (3). Cum şi C0 T 1 C 2
Mq q (R) este simetric¼ a, în practic¼ a se diagonalizeaz¼ a aceast¼
a matrice iar
apoi se a‡a¼ a = T 1 Cw.

3. max se numeşte putere discriminant¼ a şi din (1) este mai mic¼ a sau egal¼ a
cu unu. Într-adev¼ a a0 Ta = a0 Da + a0 Ea: Dar T este
ar, din (1) rezult¼
pozitiv de…nit¼a (deoarece este matrice de covarianţ¼ a)) a0 Ta > 0; (8) a,
deci în egalitatea de mai sus se poate împ¼ arţi cu scalarul a0 Ta şi se obţine

a0 Da a0 Ea
1= + 0 :
a0 Ta a Ta

Cum scalarii a0 Da; a0 Ea şi a0 Ta sunt pozitivi (ca dispersii intraclase,


a0 Ea
respectiv interclase şi total¼
a)) 0 a0 Ta f (a) 1; (8) a; deci 0
max 1:

max = 1 corespunde cazului A) din …g. 3.1.4. În proiecţia pe


axa a dispersiile intraclase sunt nule. Cei k nori sunt …ecare într-
un hiperplan ortogonal pe a. Discriminarea pe aceast¼ a ax¼a este
perfect¼
a dac¼
a centrele de greutate se proiecteaz¼
a în puncte diferite.

max = 0 corespunde cazului în care cea mai bun¼ a ax¼a discrimi-


nant¼a nu poate s¼a separe centrele de greutate gi pentru c¼ a acestea
sunt confundate. Norii sunt, deci, concentrici şi neliniari separabili
(cazul B) din …g. 3.1.4.) Este posibil¼ a existenţa unei suprafeţe de
decizie neliniare; în cazul de faţ¼
a este vorba de o funcţie p¼atratic¼
a.
146 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

fig 3.1.4. exemplificarea diferitelor puteri de


discriminare ale unei axe
Valoarea proprie este o m¼asur¼a pesimist¼a a puterii de discriminare a unei
axe: cazul C) din …g. 3.1.4. arat¼ a c¼a cele dou¼
a clase sunt liniar separabile pe
axa considerat¼ a în po…da faptului c¼ a < 1.
Num¼ arul de valori proprii nenule, deci al axelor discriminante, este egal
cu q 1 în cazul obişnuit, unde n > p > q şi variabilele nu sunt legate prin
relaţii liniare.
Odat¼ a g¼asite axele cu puterea de discriminare cea mai bun¼ a, pasul ur-
m¼ator const¼ a în g¼ asirea suprafeţelor de decizie.

3.1.3 Metode geometrice


Metodele geometrice de analiz¼ a discriminant¼ a, esenţialmente descriptive,
se bazeaz¼
a pe noţiunea de distanţ¼a şi nu utilizeaz¼
a nici o noţiune probabilist¼
a.
Pentru detalii privind aceast¼
a secţiune pot … consultate monogra…ile [1], [21].

3.1.3.1 SUPRAFEŢE DE DECIZIE


În context geometric, discriminarea poate … interpretat¼ a ca o împ¼ arţire
a spaţiului variabilelor în regiuni, numite regiuni de decizie, …ecare regiune
…ind asociat¼ a cu o clas¼ a de obiecte. Regiunile de decizie şi implicit clasele
corespunz¼ atoare, se zic separabile dac¼
a pot …separate prin suprafeţe din spaţiul
variabilelor.
Suprafeţele de separare ale regiunilor de decizie se numesc şi suprafeţe
de decizie. Dac¼ a suprafeţele de decizie sunt hiperplane, clasele se zic liniar
separabile.
¼
3.1. ANALIZA DISCRIMINANTA 147

Suprafeţele de decizie pot … descrise cu ajutorul unei mulţimi de funcţii


de discriminare sau funcţii de decizie.

fig. 3.1.5. douA¼ clase liniar separabile din R2 , notate A1 Ş i A2


Clasele ce apar în multe probleme concrete nu pot …, în general, pre-
cis de…nite, deoarece apartenenţa unor elemente la una sau alta dintre clase
poate … incert¼ a. Aceste clase f¼ ar¼
a margini precise, în care tranziţia de la
apartenenţ¼ a la neapartenenţ¼a este mai degrab¼ a gradual¼ a, pot … descrise prin
mulţimi nuanţate (fuzzy sau cu apartenenţ¼a divizat¼a. Vezi, de exemplu, [22]).
Va … considerat, în cele ce urmeaz¼ a, cazul claselor separabile. Funcţia
de discriminare ataşeaz¼ a …ecare obiect/vector unei regiuni R din spaţiul va-
riabilelor, regiune delimitat¼ a prin intermediul unei mulţimi de suprafeţe de
decizie. O funcţie de discriminare instruibil¼a (cu înv¼aţare) tinde s¼ a reduc¼ a
num¼ arul obiectelor clasate incorect (misclasate), f¼ acând acest num¼ ar cât mai
mic posibil, eventual nul. Acest lucru se realizeaz¼ a prin ajustarea mulţimii R
a regiunilor de decizie ca r¼ aspuns la observaţiile f¼ acute asupra unei mulţimi
de obiecte de instruire. Mulţimea obiectelor de instruire se numeşte mulţime
de instruire. Ajustarea regiunilor de decizie ca rezultat al observaţiilor asupra
mulţimii de instruire reprezint¼ a faza de înv¼aţare sau instruire a funcţiei de
discriminare.
Dac¼ a se cunoaşte dinainte num¼ arul claselor şi dac¼
a pentru …ecare obiect
din mulţimea de instruire ştim clasa c¼ aruia acesta îi aparţine, înv¼ aţarea se
numeşte supervizat¼a sau cu profesor. Dac¼ a structura de instruire nu este
cunoscut¼ a, adic¼a pentru nici un obiect din aceast¼ a mulţime nu cunoaştem
dinainte clasa de apartenenţ¼ a, instruirea se numeşte nesupervizat¼a sau f¼ar¼a
profesor.
Procedura conform c¼ areia regiunile de decizie sunt ajustate ca r¼ aspuns
la observaţiile privind clasarea vectorilor din mulţimea de instruire, constituie
procedura de instruire. Dup¼ a ce clasele şi suprafeţele de decizie sunt stabilite
prin faza de instruire (funcţia de discriminare este instruit¼ a), funcţiei de dis-
criminare i se prezint¼ a date ale c¼aror clase nu se cunosc. Aceast¼ a faz¼a, în care
148 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

obiecte noi sunt asociate uneia sau alteia dintre clasele stabilite, se numeşte
faz¼a de lucru/decizional¼a /de afectare. Uneori faza de instruire şi cea de lucru
pot s¼a coincid¼a sau s¼a se suprapun¼ a parţial. Este ceea ce se întâmpl¼ a în cazul
clasi…c¼arii nesupervizate.
S¼a consider¼am c¼ a în mulţimea obiectelor (reprezentate sub form¼ a de vec-
tori) sunt prezente q clase, notate A1 ; : : : ; Aq . Distingem urm¼ atoarele trei
cazuri de separabilitate:
Cazul 1. Fiecare clas¼ a este separat¼ a de toate celelalte printr-o singur¼a
suprafaţ¼a de decizie. Exist¼a, deci, q funcţii de decizie. Not¼am cu gi (x) : Rp !
R funcţia de decizie corespunz¼ atoare clasei Ai . Ecuaţia suprafeţei de decizie
ce separ¼a clasa de toate celelalte clase este gi (x) = 0.
Pentru …ecare clas¼ a Ai regula de afectare este

daca x 2 Ai ; atunci gi (x) > 0:


Dac¼
a pentru un punct x; nou considerat,

gi (x) > 0 şi gj (x) < 0; j = 1; q; j 6= i

atunci x este ataşat clasei Ai .


Regiunea de decizie R; corespunz¼
atoare clasei Ai va …, aşadar,

Ri = x 2Rp jgi (x) > 0 şi gj (x) < 0; j = 1; q; j 6= i :

Punctele ce nu aparţin niciunei regiuni de decizie formeaz¼ a o regiune de


nedeterminare (RN). Suprafeţele de decizie aparţin regiunii de nedeterminare.
Este posibil ca regiunea de nedeterminare RN s¼ a conţin¼
a şi alte puncte decât
cele aparţinând suprafeţelor de decizie.

fig. 3.1.6. Cazul 1 de separabilitate


¼
3.1. ANALIZA DISCRIMINANTA 149

Cazul 2. Fiecare clas¼ a este separat¼


a de oricare alta printr-o suprafaţ¼a
de decizie. Clasele sunt, aşadar, dou¼ a câte dou¼ a separabile. Exist¼ a, deci,
q(q 1)
2 suprafeţe de decizie generate de funcţiile gij (x) : Rp ! R: Suprafaţa de
decizie corespunz¼ atoare claselor Ai şi Aj are ecuaţia gij (x) = 0. Funcţiile de
decizie satisfac condiţia gij (x) = gji (x) ; 8x 2Rp :
Punctele clasei Ai se a‡a¼ de partea pozitiv¼ a a suprafeţei gij (x) = 0 .
Regula de decizie este:

x 2 Ai , gij (x) > 0; (8) j 6= i:

Regiunea de decizie R corespunz¼


atoare clasei Ai este

Ri = fx 2Rp jgij (x) > 0; (8) j 6= ig :

La fel ca şi în condiţiile cazului l de separabilitate, este posibil s¼


a existe
o regiune de nedeterminare neaparţinând nici unei regiuni de decizie.

fig. 3.1.7. Cazul 2 de separabilitate

Cazul 3. Exist¼
a k funcţii de decizie. Regula de decizie se formuleaz¼
a
astfel:
x 2 Ai , gi (x) > gj (x) ; (8) j 6= i:
Regiunea de decizie R corespunz¼
atoare clasei Ai va … aşadar

Ri = fx 2Rp j gi (x) > gj (x) ; (8) j 6= ig :

Suprafaţa de decizie dintre clasele Ai şi Aj are ecuaţia

gi (x) = gj (x) ; (8) x 2Rp ; j 6= i:

Obiectele clasei Ai se a‡a¼ de partea pozitiv¼


a a suprafeţei de separare.
150 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Observaţia 3.1.2
Separabilitatea de tip 3 implic¼
a separabilitatea de tip 2. Într-adev¼
ar, s¼
a con-
sider¼
am
gij (x) = gi (x) gj (x)
şi s¼
a admitem separabilitatea claselor A1 ; : : : ; Aq în condiţiile cazului 3. Dac¼
a
x aparţine regiunii clasei Ai , atunci gi (x) > gj (x) ; 8j 6= i. Deci gij (x) >
0; 8j 6= i. Rezult¼
a aşadar c¼
a, dac¼
a clasele sunt separabile în condiţiile cazului
3, ele sunt separabile şi conform cazului 2. Reciproca nu este, în general,
valabil¼a.

În condiţiile cazului 3 de separabilitate nu exist¼


a alte regiuni de nedeter-
minare decât suprafeţele de separare (vezi …g 3.1.8.).

fig. 3.1.8. Cazul 3 de separabilitate

În cele ce urmeaz¼ a, prin separabilitatea a dou¼ a clase vom înţelege, în


absenţa altei preciz¼
ari, separabilitatea în condiţiile cazului 3.

3.1.3.2 FUNCŢII DE DECIZIE AFINE ŞI LINIARE


De o mare importanţ¼ a practic¼a este cazul claselor liniar separabile. În
aceast¼
a situaţie funcţiile de decizie sunt funcţii a…ne.
a g : Rp ! R , adic¼
O funcţie a…n¼a de decizie, g, este o aplicaţie liniar¼ ag
se poate scrie sub forma

g (x) = w0 x + wp+1 ; x 2Rp

cu
w = (w1 ; : : : ; wp )0 şi wi 2 R; i = 1; p:
Vectorul w se numeşte vector pondere sau vector parametru.
¼
3.1. ANALIZA DISCRIMINANTA 151

O convenţie uzual¼a este s¼a se adauge wp+1 ca ultim¼ a component¼ a a vec-


torului w. Se de…neşte astfel vectorul pondere extins, v = (w1 ; : : : ; wp ; wp+1 )0 şi,
respectiv, vectorul caracteristic¼a extins y = (x1 ; : : : ; xp ; 1)0 . Vectorii y vor … el-
emente ale spaţiului extins al caracteristicilor, spaţiu notat cu Y. Prin aceast¼ a
m¼arire a dimensiunii spaţiului caracteristicilor, propriet¼ aţile geometrice ale
claselor nu sunt alterate. Cu noile notaţii introduse funcţia a…n¼ a de decizie
se transform¼ a de decizie g : Y ! R; Y Rp+1 ; dat¼
a într-o funcţie liniar¼ a de
expresia
g (y) = v0 y; y 2 Y
Dac¼a gi este funcţia liniar¼
a de decizie corespunzând clasei Ai atunci, în
conformitate cu cazul 3 de separabilitate, un obiect y este ataşat clasei Ai
dac¼
a
gi (y) > gj (y) ; (8) j 6= i
Consider¼ am o funcţie r : Y ! f1; 2; : : : ; qg ce ataşeaz¼
a …ec¼
arui vector y
indicele unei clase. Regula de decizie se reformuleaz¼ a astfel:

r (y) = i , gi (x) > gj (x) ; (8) j 6= i

În cazul când exist¼a doar dou¼ a clase, putem considera o singur¼


a funcţie
de decizie g : Y ! R; dat¼
a de relaţia

g (y) = g1 (y) g2 (y) :

Dac¼a g (y) > 0, atunci y aparţine clasei A1 , iar dac¼


a g (y) < 0, atunci y
aparţine clasei A2 :

3.1.3.3 ECUAŢIA UNUI HIPERPLAN


Ecuaţia unui hiperplan, H, ce trece printr-un punct x0 şi este normal pe
un vector unitar u se poate scrie sub forma

hu; x x0 i = u0 (x x0 ) = 0

cu produsul scalar uzual.


Ecuaţia dreptei 4 ce trece printr-un punct z0 şi este ortogonal¼
a pe hiper-
planul H se scrie
x z0 = tu; t 2 R
adic¼
a
x = z0 + tu; t 2 R:
Pentru a g¼asi intersecţia lui H cu dreapta 4 înlocuim ecuaţia dreptei în
ecuaţia hiperplanului. Obţinem

u0 (z0 + tu x0 ) = 0
152 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

şi deci
tu0 u = u0 (x0 z0 )
de unde, ţinând cont c¼
a kuk = 1, g¼
asim
u0 (x0 z0 )
t= 2 = u0 (x0 z0 )
kuk
Punctul de intersecţie al dreptei 4 cu hiperplanul H va … aşadar
x1 = z0 + u0 (x0 z0 ) u:
Distanţa de la punctul z0 la hiperplan este, deci,
d (H; z0 ) = kx1 z0 k =
0
= u (x0 z0 ) kuk =
0
= u (x0 z0 )
Distanţa de la originea spaţiului la hiperplan se obţine considerând în
relaţia de mai sus z0 = 0 şi deci
D = d (H; 0) = u0 x0 :

3.1.3.4 HIPERPLANE DE SEPARARE


În cazul 3 de separabilitate regiunile de decizie sunt m¼ arginite de hiper-
plane sau de porţiuni de hiperplane. Dac¼ a regiunile Ri şi Rj au o frontier¼a
comun¼a, suprafaţa de decizie ce le separ¼
a este hiperplanul de ecuaţie
gi (y) gj (y) = vi0 vj0 y =0
Observ¼ am c¼a, în spaţiul extins al caracteristicilor, toate hiperplanele de
separare trec prin originea spaţiului.
În spaţiul caracteristicilor, ecuaţia suprafeţei de decizie este

gi (x) = gj (x)
deci se poate scrie
wi0 x+wi;p+1 = wj0 x+wj;p+1 sau w0 x+wp+1 = 0
unde am notat
w = wi wj
wp+1 = wi;p+1 wj;p+1:
Din relaţia de mai sus rezult¼ a c¼
a ecuaţia hiperplanului de separare în
spaţiul caracteristicilor se mai poate scrie sub forma
w0 wp+1
x+ =0
kwk kwk
¼
3.1. ANALIZA DISCRIMINANTA 153

Comparând aceast¼
a ecuaţie cu ecuaţia general¼
a

u0 x u0 x0 = 0

a hiperplanului ce trece prin punctul x0 , obţinem c¼


a vectorul unitar normal
pe hiperplan este
w
u=
kwk
şi
wp+1
u0 x0 = :
kwk
Rezult¼
a c¼
a distanţa de la origine la hiperplanul de separare se poate scrie

jwp+1 j
D = u0 x0 = :
kwk

Distanţa de la punctul z0 la hiperplan va …

d (H; z0 ) = u0 (x0 z0 ) =
wp+1 w0
= z0 =
kwk kwk
1
= w0 z0 + wp+1 :
kwk

Formulele stabilite se vor dovedi utile în studiul geometriei funcţiilor


discriminante liniare.

3.1.4 Funcţii discriminante de distanţ¼


a minim¼
a
În aceast¼ a secţiune ne propunem s¼ a ar¼
at¼am cum clasarea prin mini-
mizarea unei funcţii criteriu ne conduce la o clas¼ a de funcţii discriminante
liniare. Funcţia criteriu considerat¼a aici este distanţa de la vectorii caracter-
istic¼
a la prototipurile claselor.
P¼atratul distanţei euclidiene de la un vector x din X la prototipul Li al
clasei Ai , se scrie

d2 (x; Li ) = kx Li k2 = (x Li )0 (x Li ) =
0 0
= xx 2x Li + L0i Li

Un vector x este ataşat acelei clase Ai de al c¼arei prototip x este mai


aproape, adic¼
a
x 2Ai dac¼ a d (x; Li ) = min d x; Lj :
j
154 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Distanţele …ind întotdeauna pozitive, a minimiza d este echivalent cu a


minimiza d2 . Deoarece x0 x nu depinde de clasa i; distanţa de la x la prototipul
Li se mai scrie
1 0
d2 (x; Li ) = x0 x 2 x0 Li L Li :
2 i
O clasi…care echivalent¼
a cu regula de asignare de mai sus se obţine con-
siderând funcţia gi : Rp ! R dat¼
a de
1 0
gi (x) = x0 Li L Li :
2 i
Regula de decizie devine:
x 2Ai dac¼
a gi (x) = max gj (x)
j

Am obţinut c¼
a gi este o funcţie a…n¼
a de decizie. Notând
1
ci = Li şi ci;p+1 = L0i Li :
2
se poate scrie gi sub forma standard
gi (x) = c0i x+ci;p+1:
Suprafaţa de decizie ce separ¼
a clasele Ai şi Aj are ecuaţia
gi (x) = gj (x) :
adic¼
a, ţinând cont de forma lui gi ; rezult¼
a
1 0
(Li Lj )0 x L Lj L0i Li = 0;
2 j
ceea ce se mai poate scrie sub forma
1
(Li Lj )0 x (Li + Lj ) = 0:
2
Notând
1
c = Li Lj şi x0 = (Li + Lj ) ;
2
ecuaţia suprafeţei de decizie devine:
c0 (x x0 ) = 0
Suprafaţa de separare este, deci, un hiperplan ce trece prin punctul x0
şi este ortogonal pe vectorul c. Cu alte cuvinte, hiperplanul de separare este
ortogonal pe dreapta ce uneşte prototipurile claselor, pe care o intersecteaz¼ a
într-un punct situat la jum¼ atatea distanţei dintre prototipuri.
Funcţia discriminant¼
a cu distanţ¼
a minim¼ a este adecvat¼a pentru cazurile
când punctele unei clase tind s¼ a se aglomereze în vecin¼ atatea unui punct pro-
totip, formând un nor (cluster ) de puncte.
3.2. METODE PROBABILISTE DE DISCRIMINARE 155

3.2 Metode probabiliste de discriminare


Aceast¼a secţiune este dedicat¼
a aspectului inferenţial al analizei discrimi-
nante, prin abordarea probabilist¼ a a metodelor de discriminare. Principalul
instrument folosit este teoria bayesian¼a a deciziilor. Se vor considera diferite
metode de estimare a parametrilor necunoscuţi din densitatea de probabilitate
ataşat¼
a mulţimii datelor.

3.2.1 Preliminarii
De…niţia 3.2.1 Fie ( ; K; P ) un câmp de probabilitate şi A; B 2 K cu P (B) >
0: Probabilitatea
P (A \ B)
PB : K ! R cu PB (A) = P (AjB) =
P (B)

se numeşte probabilitatea condiţionat¼a a evenimentului A relativ la evenimen-


tul B.

Lema 3.2.1
Fie ( ; K; P ) un câmp de probabilitate şi fAi gi2I un sistem complet de eveni-
mente. Are loc urm¼ atoarea egalitate (formula lui Bayes a probabilit¼ aţii
cauzelor)

P (Ai \ B) P (Ai ) P P(B\A


(Ai )
i)
P (Ai ) P (BjAi )
P (Ai jB) = = =P :
P (B) P (B) P (Ai ) P (BjAi )
i

cu fP (Ai )g probabilit¼
aţi à priorice şi fP (BjAi )g probabilit¼
aţi à posteriori.

De…niţia 3.2.2 Fie( ; K; P ) un câmp de probabilitate, X variabil¼


a aleatoare
şi A 2 K cu P (A) > 0: Funcţia FA : R ! [0; 1] dat¼
a prin

FA (x) F (xjA) = P (X < xjA) ; (8) x 2 R

se numeşte funcţie de repartiţie a variabilei aleatoare X condiţionat¼a de eveni-


mentul A.

De…niţia 3.2.3 Analog, f ( jA)


R x : R ! R se numeşte densitate de repartiţie
condiţionat¼a, unde F (xjA) = 1 f (tjA) dt.

Observaţia 3.2.1
f (xjA) = F 0 (xjA) aproape peste tot.

Lema 3.2.2
P (A)f (xjA)
P (AjX = x) = f (x) :
156 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Fie (X; Y ) variabil¼ a aleatoare bidimensional¼ a, cu densitatea de probabi-


litate h şi funcţia de repartiţie F , adic¼
a
Z x Z y
F (x; y) = h (t; s) dt ds:
1 1

Funcţia de repartiţie a lui X este


Z x Z
FX (x) = P (X < x) = P (X < x; Y < 1) = F (x; 1) = h (t; s) dt ds:
1 R

şi densitatea de probabilitate a lui X este


Z
0
f (x) = FX (x) = h (x; s) ds:
R

Analog, densitatea de probabilitate a lui Y este


Z
0
g (y) = FY (y) = h (t; y) dt:
R

Lema 3.2.3
Dac¼a h este densitatea de probabilitate a variabilei aleatoare (X; Y ), f este
densitatea de probabilitate a variabilei aleatoare X şi g este densitatea de
probabilitate a variabilei aleatoare Y , atunci
R
1. f (x) = R h (x; y) dy;
R
2. g (y) = R h (x; y) dx;
h(x;y)
3. f (xjy) = g(y) dac¼
a g (y) > 0; altfel arbitrar;

4. g (yjx) = h(x;y)
f (x) dac¼
a f (x) > 0; altfel arbitrar;
R
5. f (x) = R f (xjy) g (y) dy;
R
6. g (y) = R g (yjx) f (x) dx;
f (xjy)g(y) R f (xjy)g(y)
7. g (yjx) = f (x) = (formula lui Bayes pentru den-
R f (xjt)g(t)dt
sit¼
aţi de probabilitate):

3.2.2 Formularea bayesian¼


a a problemei de discriminare
Problema de discriminare (sau clasare. Atenţie! nu de clasi…care),
formulat¼
a în termenii teoriei statistice a deciziei este urm¼
atoarea:
Dându-se:

K grupe (populaţii), 1 ; 2 ; : : : ; K ; speci…cate prin distribuţiile lor de


probabilitate, Pi (x) = P (X = xjx 2 i ) cu i = 1; K;
3.2. METODE PROBABILISTE DE DISCRIMINARE 157

qi ; i = 1; K; probabilit¼aţi à priori ca un individ (observaţie) s¼a provin¼a


din populaţiile i ,iP= 1; K ( fqi gK i=1 formeaz¼a un sistem complet de
probabilit¼aţi, adic¼a qi = 1),
i

X spaţiul observaţiilor asupra a p variabile aleatoare, 1; : : : ; p (predic-


tori),

fC(jji)gK i;j=1 ; costurile erorii de clasare (costul clas¼


arii unei observaţii
provenind din populaţia i în populaţia j ; i 6= j ),
S
K
s¼a se g¼aseasc¼a o partiţie R = fRi gKi=1 a spaţiului X (adic¼
a X= Ri ;
i=1
Ri \ Rj = ?; i 6= j; i; j = 1; K ) astfel încât
8 9
XK < XK =
qi C(jji)P (jji; R)
: ;
i=1 i6=j;j=1

s¼a …e minim¼a.
R
În cele de mai sus au fost notate cu P (jji; R) = Pi (x)dx; i 6= j;
Rj
aţile de eroare pentru o partiţie R dat¼
i; j = 1; K; probabilit¼ a.

3.2.2.1 REGULA BAYES PENTRU DISTRIBUŢII CUNOSCUTE


În aceast¼a secţiune presupunem cunoscute fqi gK K
i=1 şi fPi gi=1 . Aceasta va per-
mite s¼a se construiasc¼ a procedura de clasare cu propriet¼ aţi de optimalitate,
dar cu aplicabilitate practic¼ a direct¼ a redus¼a, deoarece în realitate, cel puţin
distribuţiile fPi gi sunt necunoscute.
P
K
Fie Y = f1; ; Kg spaţiul etichetelor claselor şi …e PY (x) = qi i (x)
i=1
distribuţia de probabilitate pe Y , unde s-a notat cu i (x) funcţia Dirac (adic¼
a
i (x) = 1 dac¼a x = i şi 0 în rest).

De…niţia 3.2.4 O funcţie c : X ! Y ce estimeaz¼a clasa c(x) =y 2 Y a lui x,


dup¼
a ce x 2X a fost observat, se numeşte plasator.
Pentru a aprecia calitatea plasatorului este natural s¼
a se studieze proba-
bilitatea de misclasare pentru clasa k:

pmc(k) = P [fc(x) 6= kj fx 2 k gg]:

Se consider¼ a `(c(x); j) funcţia de pierdere discret¼a pentru plasatorul c


faţ¼
a de clasa j şi riscul funcţional al plasatorului,
K
X K
X K
X Z
R(c) = M [`(c(x); j)] = qi pmc(i) = qi Pi (x)dx
i=1 i=1 i6=j;j=1R
j
158 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

deoarece, în acest caz particular, distribuţia de probabilitate pe X Y este,


din construcţie, (x; i) = qi Pe(x) (x), cu e(x) 2 Y notaţie pentru clasa lui x.
Dac¼a se consider¼ a costurile misclas¼ arii fC(jji)gK i;j=1 egale cu unitatea,
ipotez¼ a natural¼
a în multe situaţii practice, excepţie f¼acând situaţiile din medi-
cin¼a (când costul erorii de a considera un bolnav s¼ an¼
atos, poate … dramatic,
faţ¼
a de costul erorii consider¼
arii unui om s¼ an¼atos ca bolnav) atunci un plasator
va … optim dac¼ a minimizeaz¼ a riscul funcţional R(c) (adic¼ a exact funcţionala
din enunţul problemei de clasare).

a mai not¼am c¼ a probabilitatea à posteriori a unei clase i, dându-se X = x
este
qi Pi (x)
P (ijx) = K :
P
qj Pj (x)
j=1

Cu acestea se pot enunţa urm¼


atoarele rezultate:

Teorema 3.2.1 (a „regiunilor” [2]) Partiţia R a lui X care minimizeaz¼a


riscul funcţional este R = fRi gK
i=1 cu
8 9
< XK XK =
Ri = x 2Xj qj Pj (x) qj Pj (x); k 6= i; k = 1; K ; i = 1; K:
: ;
j6=i;j=1 j6=k;j=1

Demonstraţie. Pentru simpli…carea demonstraţiei s¼ a presupunem K = 2


(doar dou¼
a populaţii) şi C(1j2) = C(2j1). Atunci media costului misclasi…c¼
arii
este Z Z
q1 P1 (x)dx+q2 P2 (x)dx (1)
R2 R1

Pentru a minimiza pe (1), un x dat va … asignat populaţiei ce maxi-


mizeaz¼
a probabilitatea a posteriori a clasei sale. Astfel, dac¼
a

q1 P1 (x) q2 P2 (x)
(2)
q1 P1 (x) + q2 P2 (x) q1 P1 (x) + q2 P2 (x)

atunci x va … asignat lui 1 , altfel va … asignat lui 2 .


Cum este minimizat¼ a probabilitatea de misclasare în …ecare punct, este
minimizat costul misclas¼arii pe tot spaţiul.
Aşadar regiunile de decizie sunt:

R1 : x 2X; q1 P1 (x) q2 P2 (x) (3)


R2 : x 2X; q1 P1 (x) < q2 P2 (x)

Dac¼a q1 P1 (x) = q2 P2 (x); punctul poate … clasi…cat …e în 1 …e în 2


(arbitrar, în (3) a fost asignat lui 1 ).
Dac¼a q1 P1 (x) + q2 P2 (x) = 0; la fel, punctul poate … asignat oric¼
arei
regiuni.
3.2. METODE PROBABILISTE DE DISCRIMINARE 159

S¼a ar¼ at¼


am acum c¼ a (3) este cea mai bun¼
a procedur¼
a. Pentru orice partiţie
R? = (R1? ; R2? ) a lui X; probabilitatea de misclasare este

Z Z Z
q1 P1 (x)dx+q2 P2 (x)dx = (q1 P1 (x) q2 P2 (x)) dx+ (4)
R2? R1? R2?
Z Z
+q2 P2 (x)dx+q2 P2 (x)dx
R1? R2?

R R R
Dar q2 R? P2 (x)dx+q2 R? P2 (x)dx =q2 P2 (x)dx (= q2 dac¼ a supp P2
1 2
X sau constant¼ a, în caz contrar).
Relaţia (4) va … minim¼ a dac¼a R2? va include punctele x pentru care
q1 P1 (x) q2 P2 (x) < 0 şi va exclude punctele pentru care q1 P1 (x) q2 P2 (x) > 0;
adic¼a R2? = R2 ) R1? = R1 (ca partiţii ale aceluiaşi spaţiu).
a, în plus P PP12 (x)
Dac¼ (x)
= qq21 j i = 0; i = 1; 2; atunci procedura Bayes
este unic¼
a, excepţie o mulţime de probabilitate zero.
Dac¼
a C(1j2) 6= C(2j1) 6= 1 atunci regiunile de decizie se scriu

P1 (x) C(1j2)q2
R1 : x 2X; (5)
P2 (x) C(2j1)q1
P1 (x) C(1j2)q2
R2 : x 2X; <
P2 (x) C(2j1)q1

Observaţia 3.2.2
Regiunile de decizie Bayes se înscriu în cazul 3 de separabilitate.

Corolarul 3.2.1 ( [2])


a riscul funcţional este cB (x), dac¼
Plasatorul care minimizeaz¼ a P (jjx) = max P (ijx).
1 i K

Dac¼a maximul din enunţul de mai sus este atins pentru k K clase,
atunci lui cB (x) i se va asigna una dintre cele k valori, selectat¼ a aleator.
Dac¼a probabilitatea ca maximul s¼ a …e atins pentru mai mult de un i,
pentru x dat, este zero, atunci plasatorul şi deci şi partiţia R sunt unice,
modulo o mulţime de m¼ asur¼a nul¼a.
Nu exist¼a nici o restricţie pentru tipul de densit¼aţi P1 ; : : : ; Pk . În parti-
cular, acestea nu trebuie s¼ a …e densit¼aţi faţ¼
a de m¼
asura Lebesque.

De…niţia 3.2.5 Plasatorul cB (x) se numeşte plasator Bayes, riscul funcţional


pe care acesta îl minimizeaz¼ a se numeşte risc Bayes sau eroare Bayes, iar
partiţia R care determin¼
a şi este determinat¼
a de plasatorul Bayes, se numeşte
procedur¼a de discriminare (clasare) bayesian¼a.
160 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Dat¼a …ind importanţa conceptului, vom prezenta şi alte propriet¼ aţi ale
procedurilor de discriminare bayesian¼ a.
Fie r(i; j; R) = C(jji)P (jji; R) costul misclas¼
arii unei observaţii din pop-
ulaţia i în populaţia j prin procedura de clasare dat¼ a de partiţia R a spaţi-
ului X (numit¼ a în cele ce urmeaz¼a procedur¼a de clasare).

De…niţia 3.2.6 Procedura R este mai bun¼a decât procedura R? ,

r(i; j; R) r(i; j; R? ); (8) i 6= j; i; j = 1; K

şi cel puţin una dintre inegalit¼


aţi este strict¼
a.

De…niţia 3.2.7 Procedura R este admisibil¼a dac¼


a şi numai dac¼
a nu exist¼
ao
procedur¼ ?
a R mai bun¼a decât ea.

De…niţia 3.2.8 O clas¼ a de proceduri este complet¼a dac¼


a pentru orice proce-
dur¼
a ce nu aparţine clasei, exist¼
a întotdeauna o procedur¼a în clas¼
a care este
mai bun¼a decât ea.

De…niţia 3.2.9 O clas¼ a de proceduri este minimal¼a şi complet¼a dac¼


a nici una
din submulţimile sale nevide nu formeaz¼a o clas¼
a complet¼ a.

Propoziţia 3.2.1 ([2])


a P (Pj (x) = 0jx 2 i ) = 0; (8) i 6= j; i; j = 1; K atunci orice procedur¼
Dac¼ a
bayesian¼
a este admisibil¼
a.
Cu alte cuvinte, Propoziţia 3.2.1 a…rm¼a c¼
a o condiţie necesar¼a pentru ca
o procedur¼ a s¼
a …e admisibil¼
a (s¼a nu existe o procedur¼ a de clasare mai bun¼ a
decât ea) este ca suporturile tuturor distribuţiilor de probabilitate fPi gKi=1 a

difere între ele doar pe o mulţime de probabilitate nul¼ a.
Demonstraţie. Fie R = (R1 ; R2 ). Prin reducere la absurd presupunem c¼ a
procedura Bayes R nu este admisibil¼ a. Atunci (9) R? o procedur¼ a astfel încât

P (1j2; R? ) P (1j2; R) şi


?
P (2j1; R ) P (2j1; R)

cu cel puţin una din inegalit¼ aţi strict¼


a.
Dar R este procedur¼ a Bayes (adic¼ a minimizeaz¼
a media costului / proba-
bilit¼
aţii de misclasare), deci

q1 P (2j1; R) + q2 P (1j2; R) q1 P (2j1; R? ) + q2 P (1j2; R? ) ) (1)


? ?
q1 [P (2j1; R) P (2j1; R )] q2 [P (1j2; R ) P (1j2; R)]

a q1 > 0 şi P (1j2; R? ) P (1j2; R) ) membrul stâng al inegalit¼


Dac¼ aţii (1)
este nepozitiv ) P (2j1; R) P (2j1; R? ). Contradicţie, R? nu este admisibil¼ a.
Dac¼ ?
a q2 > 0, similar ) P (1j2; R) P (1j2; R ) deci iar¼aşi contradicţie.
3.2. METODE PROBABILISTE DE DISCRIMINARE 161

Dac¼
a q1 = 0 atunci

0 P (1j2; R? ) P (1j2; R) (2)

şi regiunea R1 : x 2X; q1 P1 (x) q2 P2 (x) a oric¼arei proceduri Bayes va conţine


doar
R punctele x pentru care P 2 (x) = 0 ) P (1j2; R) = 0, deoarece P (2j1; R) =
R1 P2 (x)dx şi din inegalitatea de mai sus rezult¼ a P (1j2; R? ) = 0.
Din ipoteza P (P2 (x) = 0jx 2 1 ) = 0 rezult¼ a, ca evenimente comple-
mentare, P (P2 (x) > 0jx 2 1 ) = 1.
S¼a observ¼am c¼a

P (2j1; R) = P (P2 (x) > 0jx 2 1) =1 (3)

şi cum R? este admisibil¼


a trebuie ca şi

P (2j1; R? ) = 1

Din (2) şi (3) rezult¼


a c¼
a nici una din inegalit¼ aţile de de…niţie a admisi-
?
aţii lui R nu sunt veri…cate. Contradicţie.
bilit¼
Dac¼ a q1 = 0 atunci P (2j1; R) P (2j1; R? ); contradicţie cu ipoteza de
admisibilitate a lui R? .
Propoziţia 3.2.2 ([2])
Dac¼a P ( PPji (x)
(x) = bjx 2 k ) = 0; ((8)) i 6= j; i; j; k = 1; K şi 0 b < 1, atunci
…ecare procedur¼ a admisibil¼
a este o procedur¼ a bayesian¼ a.
Cu alte cuvinte Propoziţia 3.2.2 a…rm¼ a c¼a o condiţie su…cient¼a pentru
ca o procedur¼a bayesian¼a s¼
a …e admisibil¼ a este ca oricare dou¼ a distribuţii de
probabilitate Pi respectiv Pj ; i; j = 1; K; s¼
a …e proporţionale între ele cel mult
pe o mulţime de probabilitate nul¼ a.
P1 (x)
Demonstraţie. În condiţia P ( P2 (x) = bjx 2 k ) = 0; k = 1; 2; 0 b < 1;
P1 (x)
faptul c¼
a P2 (x) = 1 înseamn¼
a c¼
a P2 (x) = 0:
Atunci, oricare ar … q1 ; procedura Bayes este unic¼ a. În plus, funcţia de
repartiţie a lui PP21 (x)
(x)
este continu¼
a.
Fie R o procedur¼ a admisibil¼
a. Atunci exist¼
a b astfel încât

P1 (x)
P (2j1; R) = P ( bjx 2 1) = P (2j1; R? );
P2 (x)
q2 P1 q2
unde R? este procedura Bayes corespunzând lui q1 a R1? :
= b; …indc¼ P2 > q1
q2
şi R2? : PP21 q1 .
Cum R este admisibil¼
a

P (1j2; R) P (1j2; R? ) (1)


162 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Din propoziţia de mai sus rezult¼ a R? Bayes este admisibil¼


a c¼ a, deoarece
sunt veri…cate ipotezele propoziţiei din cazurile particulare b = 0; b = 1, deci

P (1j2; R) P (1j2; R? ) (2)

Din (1) şi din (2) ) P (1j2; R) = P (1j2; R? ); deci R este o procedur¼
a
Bayes. Din unicitatea procedurii Bayes, R este aceeaşi cu R? .
Cu acestea, rezultatul cheie al analizei discriminante clasice este:

Teorema 3.2.2 ([2]) Dac¼a P ( PPji (x)


(x) = bjx 2 k ) = 0; ((8)) i 6= j; i; j; k = 1; K
şi 0 b < 1 , atunci clasa procedurilor bayesiene este minimal¼a şi complet¼a.
Acest rezultat justi…c¼ a de ce, atunci când ipotezele din Propoziţia 3.2.1,
Propoziţia 3.2.2 şi cele de la începutul acestui paragraf sunt îndeplinite, în-
treaga cercetare se reduce la a construi o procedur¼ a admisibil¼a sau la a apro-
xima, într-un anumit sens, o astfel de procedur¼ a.

3.2.2.2 CLASIFICAREA BAYES ÎN CAZUL A DOUA ¼ POPU-


LAŢII NORMALE, MULTIDIMENSIONALE, CU PARAMETRII
CUNOSCUŢI Fie k = 2 populaţii caracterizate de densit¼
aţile de probabi-
litate
1 1 0 1
Pi (x) = 1 1 exp (x i) (x i) ; i = 1; 2
(2 ) 2
p
j j 2 2

adic¼
a X 2 i ) X N ( i ; ) cu i 2 Mp 1 (R) vectorul medie şi 2
Mp p (R) matricea de varianţ¼a-covarianţ¼
a.
Raportul densit¼
aţilor este
1 0 1 (x
P1 (x) exp 2 (x 1) 1)
= 1 0 1 (x
=
P2 (x) exp 2 (x 2) 2)
1 0 1 0 1
= exp (x 1) (x 1) (x 2) (x 2)
2

Conform teoremei de mai sus, regiunea de clasi…care în 1 , şi anume


R1 ; este mulţimea punctelor x 2Rp pentru care raportul densit¼ aţilor este c,
cu c o constant¼ a convenabil aleas¼ a. Cum funcţia logaritmic¼ a este monoton
cresc¼atoare, condiţia de de…nire a lui R1 poate … rescris¼
a ca:
1 0 1 0 1
(x 1) (x 1) (x 2) (x 2) ln c:
2
Dup¼ a desfacerea parantezelor şi efectuarea reducerilor, termenul stâng al
inegalit¼
aţii de mai sus devine:

1 1 0
x0 ( 1 2) ( 1 + 2)
1
( 1 2)
2
3.2. METODE PROBABILISTE DE DISCRIMINARE 163

Observaţia 3.2.3
Primul termen al formulei de mai sus este binecunoscuta funcţie discriminant¼a
a lui Fisher.

Corolarul 3.2.2 (al teoremei „regiunilor”)


Dac¼a i ; i = 1; 2 sunt populaţii multidimensionale, normal distribuite de
medie i şi matricea de varianţ¼
a-covarianţ¼
a comun¼
a , atunci cele mai bune
regiuni de clasi…care sunt date de:

1 1 0
R 1 : x0 ( 1 2) ( 1 + 2)
1
( 1 2) ln c
2
1 1 0
R 2 : x0 ( 1 2) ( 1 + 2)
1
( 1 2) < ln c:
2
Dac¼
a probabilit¼
aţile à priorice q1 şi q2 sunt cunoscute, atunci c este dat
de
q2 C(1j2)
c= :
q1 C(2j1)

Observaţia 3.2.4
Cazul particular când q1 = q2 şi C(1j2) = C(2j1) implic¼
a c = 1 şi ln c = 0.

Dac¼a not¼am cu Li = 1
i prototipul populaţiei i; atunci suprafaţa
de separare a celor dou¼
a regiuni este hiperplanul
1
(L1 L2 )0 [x (L1 + L2 )] = 0
2
iar clasi…catorul obţinut este un clasi…cator cu distanţ¼a minim¼a.
Dac¼a probabilit¼aţile à priorice nu sunt cunoscute atunci C = ln c va …
ales astfel încât costurile misclas¼arii s¼
a …e egale. Mai riguros:

Teorema 3.2.3 (a egalit¼ aţii costurilor misclas¼ arii) Dac¼a i N ( i ; ) ;


i = 1; 2; regiunile Bayes sunt date de relaţiile din corolarul 3.2.2 cu C = ln c
ales astfel încât
" !# !
C + 12 C 21
C(1j2) 1 p = C(2j1) p

0 1(
unde C(ijj) sunt cele dou¼a costuri ale misclas¼arii, = ( 1 2) 1 2)
este distanţa Mahalanobis dintre cele dou¼a populaţii, iar (x) este funcţia de
Rx t2
repartiţie a variabilei aleatoare Gauss-Laplace, adic¼a (x) = 1 p12 e 2 dt.
1 0
Demonstraţie. Fie U = X0 1 ( 1 2) 2 ( 1 + 2)
1(
1 2) :
Regiunile Bayes sunt, conform Corolarului 3.2.2,

R1 : U C şi R2 : U < C;
164 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

iar costurile misclas¼


arii sunt
Z Z c
C(2j1) f (U jX 2 1 )dU = C(2j1) f1;U (t)dt;
R2 1

pentru U construit pe baza unei observaţii X 2 1 ; şi


Z Z 1
C(1j2) f (U jX 2 2 )dU = C(1j2) f2;U (t)dt;
R1 c

pentru U construit pe baza unei observaţii X 2 2 . Rc


Soluţia minimax de alegere a lui C impune ca C(2j1) 1 f1;U (t)dt =
R1
C(1j2) c f2;U (t)dt.
Pentru a …naliza demonstraţia mai r¼
amân de evaluat f (U jX 2 i ), dis-
tribuţiile condiţionate ale lui U .
Fie X 2 1 ) X N ( 1 ; ) ; atunci
1 0
U = X0 1
( 1 2) ( 1 + 2)
1
( 1 2)
2
este distribuit¼
a normal (c¼
aci combinaţii liniare de normale reprezint¼
a tot o
normal¼a), de medie

0 1 1 0 1 1 0 1
E[U ] = 1 ( 1 2) ( 1 + 2) ( 1 2) = ( 1 2) ( 1 2)
2 2
şi dispersie

D2 [U ] = D2 [X0 1
( 1 2 )] =
0 1 2 1
= ( 1 2) D [X] ( 1 2) =
0 1 1
= ( 1 2) ( 1 2) =
0 1
= ( 1 2) ( 1 2) :

1
Notând „distanţa”dintre cele dou¼
a populaţii cu rezult¼
aU N 2 ; .
1
Dac¼a X N ( 2 ; ) ; atunci U N 2 ; .
În concluzie
1 t 1 2 1 t+ 1 2
1 2 ( 2 ) 1 2( 2 )
f1;U (t) = p e şi f2;U (t) = p e
2 2
Cu acestea, egalitatea costurilor misclasi…c¼
arii se scrie
Z c (t 1
)
2 Z 1 (t+ 12 )
2
1 2 1
C(2j1) p e 2 dt = C(1j2) p e 2 dt:
1 2 c 2
1
t
În membrul stâng al egalit¼
aţii se face transformarea z = p2 , iar în
t+ 12
membrul drept al egalit¼
aţii se face transformarea z = p
3.2. METODE PROBABILISTE DE DISCRIMINARE 165

Cu jacobianul transform¼
arii (acelaşi pentru ambele transform¼
ari) egal cu
p1 , se obţine în …nal
1
Z c
p2 Z 1
1 z2 1 z2
C(2j1) p e 2 dz = C(1j2) c+ 1
p e 2 dz:
1 2 p2 2

R1 y2
şi ţinând cont c¼
a p1 e 2 dy = 1 (x), se obţine egalitatea din enunţul
x 2
teoremei.
Observaţia 3.2.5
1. Reprezentarea gra…c¼
a a problemei este dat¼
a în …gura urm¼
atoare:

fig. 3.2.1. Zona de misclasare în cazul a douA¼ populaŢ ii


normale unidimensionale

Zona haşurat¼
a este zona de misclasare.

a not¼am c¼a cele dou¼a condiţii pentru ca procedura de clasi…care s¼ a …e
minimal¼a şi complet¼a, anume P (P1 (x) = 0jx 2 2 ) = 0 şi P (P2 (x) =
0jx 2 1 ) = 0 cât şi P ( PP21 (x)
(x)
= bjx 2 1 ) = 0 şi P ( PP12 (x)
(x)
= bjx 2 2 ) = 0
sunt îndeplinite.

2. Dac¼
a C(1j2) = C(2j1) atunci egalitatea probabilit¼ aţilor de misclasare
R1 y2
implic¼ arii este p p12 e 2 dy =
a C = 0 şi deci probabilitatea misclas¼
p 2

1 2 .

3. Determinarea lui C care satisface cu o precizie su…cient¼ a condiţia din


enunţul teoremei se a‡a¼ rezolvând numeric, pe baza tabelelor existente,
p C(2j1) p p
ecuaţia k (x)+ (x + ) = 1; unde k = C(1j2) iar C = x + 12 .
1
4. În condiţiile de de…nire a regiunilor (R1 ; R2 ) apare termenul = ( 1 2 ).
Este interesant de notat c¼ 0
a x este funcţie liniar¼ a care maximizeaz¼a

[D(x0 djX 2 1) D(x0 djX 2 2 )]


2

D2 (x0 d)
166 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

(nu conteaz¼a de unde „vine”x c¼


aci cele dou¼
a populaţii au aceeaşi matrice
de varianţ¼
a-covarianţ¼
a, ).

Acesta este demersul folosit de Fisher pentru obţinerea funcţiei de dis-


criminare liniar¼
a ce-i poart¼
a numele.
Num¼ ar¼atorul câtului de mai sus este
0 0 2 0
1d 2d = d0 [( 1 2) ( 1 2 ) ]d

iar numitorul este

d0 E[(X E(X)) (X E(X))0 ]d = d0 d:

Problema s-a redus la urm¼atoarea problem¼ a de optimizare p¼


atratic¼
a cu
restricţii
0 0
maxp d [( 1 d20)( d1 2 ) ]d
d2R
d0 d =1
care se rezolv¼
a folosind tehnica multiplicatorilor lui Lagrange.
Fie deci lagrangeanul
0
L = d0 [( 1 2) ( 1 2 ) ]d d0 d 1

cu multiplicatorul lui Lagrange.

@L 0
= 0 ) 2[( 1 2) ( 1 2 ) ]d =2 d
@d
deoarece este simetric¼a.
0
Cum ( 1 2 ) d =s este un scalar, ecuaţia de mai sus se rescrie

s 1
1 2 = d)d= ( 1 2)
s
deoarece este pozitiv de…nit¼a, deci inversabil¼
a.
s
d este proporţional cu . Pentru determinarea lui se utilizeaz¼
a -
normarea lui d, adic¼
a

s 2 s 1
d0 d =1 ) ( 1 2)
1
( 1 2) =1) = :
k 1 2k

Aşadar x0 este funcţia liniar¼ a care are cea mai mare dispersie între clase
(dispersia interclase) relativ la dispersia în clase (dispersia intraclase).
Atunci când populaţiile sunt cunoscute, criteriul folosit este optim din
punct de vedere al minimiz¼ arii erorii de clasare. Când probabilit¼aţile à priori
nu sunt cunoscute, procedura genereaz¼ a o clas¼
a de proceduri admisibile. Ce
se poate spune despre cazul estimaţiilor?
3.2. METODE PROBABILISTE DE DISCRIMINARE 167

¼ POPU-
3.2.2.3 CLASIFICAREA BAYES ÎN CAZUL A DOUA
LAŢII NORMALE, MULTIDIMENSIONALE, CU PARAMETRII
NECUNOSCUŢI

(i) (i)
Estimatori de resubstituţie (plug-in) Fie x1 ; : : : ; xni 2 N ( i; ); i =
1; 2, dou¼
a selecţii bernoulliene.
Se cunosc rezultatele urm¼ atoare:
ni
1 X (i)
xi = xj ; i = 1; 2;
ni
j=1
ni
2 X
X (i) (i) 0
[(n1 1) + (n2 1)] S = [n1 + n2 2] S = xj xi xj xi
i=1 j=1

sunt estimatori nedeplasaţi, de verosimilitate maxim¼


a, ai lui i; i = 1; 2 şi .
Fie
1 (1)
Z12 = X x + x(2) ;
2
Y12 = x(1) x(2)

atunci
1 (1) 0
V12 = X0 S x(1) x(2) x + x(2) S 1
x(1) + x(2) =
2
0
1 (1)
= X x + x(2) S 1
x(1) x(2) = Z12 S 1
Y12 :
2

Din construcţie

(1) (1) 1 1
Y12 N ; +
n1 n2

iar
1 (1) (2) 1 1 (1)
Z12 N ; 1+ + ; dac¼
aX N ;
2 4n1 4n2
1 (2) (1) 1 1 (2)
Z12 N ; 1+ + ; dac¼
aX N ;
2 4n1 4n2

şi
1 1
cov(Z12 ; Y12 ) = :
2n1 2n2
Dac¼
a n1 = n2 atunci cov(Z; Y) = 0. În acest caz distribuţia lui V
când X 2 1 este aceeaşi cu a lui V când X 2 2 . Atunci, dac¼ a R1 =
fx 2 XjV (x) 0g, probabilit¼
aţile de misclasare sunt egale.
168 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Asimptotic, cum

x(1) ! (1)
; x(2) ! (2)
; când n1 ; n2 ! 1 şi
S ! ; când n1 ; n2 ! 1:

rezult¼
a
1
S x(1) x(2) ! 1 (1) (2)
şi
0 0
x(1) + x(2) S 1
x(1) x(2) ! (1)
+ (2) 1 (1) (2)

când n1 ; n2 ! 1; adic¼ a distribuţia asimptotic¼


a a lui V este U12 .
Concluzie: Pentru selecţii su…cient de mari folosirea estimaţiilor în locul
valorilor exacte implic¼
a erori mici.
Urmându-l pe [2] vom substitui parametrii estimaţi în relaţiile de de…niţie
ale regiunilor de decizie obţinând

1 1 (1) 0
R1 : x0 S x(1) x(2) x + x(2) S 1
x(1) x(2) ln k
2
1 1 (1) 0
R2 : x0 S x(1) x(2) x + x(2) S 1
x(1) x(2) < ln k:
2
Anderson (în [2]) argumenteaz¼ a c¼a acest criteriu minimizeaz¼ a costurile
misclas¼arii dac¼
a parametrii populaţiilor sunt cunoscuţi şi continu¼
a: „it seems
intuitively reasonable that the above relations should give good results”.
Dac¼a se doreşte clasi…carea selecţiilor reunite ca un tot, atunci se uti-
lizeaz¼
a urm¼ atorii estimatori, respectiv criteriu:

n = n1 + n2 ;
n
1X
x = xj
n
j=1

cu

xj 2 1 =2 2;
Xn
(n1 + n2 + n 3) S = S+ (xj x) (xj x)0
j=1

respectiv
0
1 1
R1 : x (x1 + x2 ) S (x1 x2 ) c
2
Se poate ar¼
ata c¼
a n! 1 ) P (1j2); P (2j1) ! 0.
3.2. METODE PROBABILISTE DE DISCRIMINARE 169

Particulariz¼
ari ale Teoremei 3.2.1.

a) Cazul K = 2 (dou¼
a clase). Particularizând regiunile de decizie de mai
sus, se obţine

R1 = fx 2 Xjq2 P2 (x) q1 P1 (x)g =


P1 (x) q2
= x 2 Xj :
P2 (x) q1

Punând Pi = pi ; q1 = q2 şi (i) şi estimaţi, rezult¼


a

R1 = fx 2 XjV12 (x) 0g şi R2 = X R1 :

Când
x(1) +x(2)
p = 1 atunci V12 (x) = 0 ) x = 2 ; "suprafaţa" de decizie este un punct;

p = 2 atunci V12 (x) = 0 ) „suprafaţa” de decizie este o dreapt¼


a;

p = 3 atunci V12 (x) = 0 ) suprafaţa de decizie este un plan;

p 4 atunci V12 (x) = 0 ) suprafaţa de decizie este un hiperplan.

b) Cazul K = 3 (trei clase). Particularizând, se obţin urm¼


atoarele regiuni
de decizie:
x 2 Xjq2 P2 (x) + q3 P3 (x) q1 P1 (x) + q3 P3 (x);
R1 = =
q2 P2 (x) + q3 P3 (x) q1 P1 (x) + q2 P2 (x)
P1 (x) q2 P1 (x) q3
= x 2 Xj ; ;
P2 (x) q1 P3 (x) q1
x 2 Xjq1 P1 (x) + q3 P3 (x) q1 P1 (x) + q2 P2 (x);
R2 = =
q1 P1 (x) + q3 P3 (x) q2 P2 (x) + q3 P3 (x)
P2 (x) q3 P2 (x) q1
= x 2 Xj ; ;
P3 (x) q2 P1 (x) q2
x 2 Xjq1 P1 (x) + q2 P2 (x) q1 P1 (x) + q3 P3 (x);
R3 = =
q1 P1 (x) + q2 P2 (x) q2 P2 (x) + q3 P3 (x)
P3 (x) q2 P3 (x) q1
= x 2 Xj ; ;
P2 (x) q3 P1 (x) q3

şi punând Pi = pi ; q1 = q2 = q3 şi (i) şi estimaţi, rezult¼


a

R1 = fx 2 XjV12 (x) > 0; V13 (x) > 0g ;


R2 = fx 2 XjV21 (x) > 0; V23 (x) > 0g =
= fx 2 XjV12 (x) < 0; V13 (x) > V12 (x)g ;
170 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

deoarece Vij (x) = Vji (x) şi V23 (x) = V13 (x) V12 (x) ; şi
R3 = fx 2 XjV32 (x) > 0; V31 (x) > 0g = fx 2 XjV13 (x) < 0; V12 (x) > V13 (x)g
Dac¼a p = 1 (o singur¼ a) şi presupunând x(1) < x(2) < x(3) ;
a caracteristic¼
atunci regiunile de decizie devin semidrepte şi segment de dreapt¼ a, adic¼
a:
x(1) + x(2)
R1 : x2R cu x < ;
2
x(1) + x(2) x(2) + x(3)
R2 : x2R cu x ;
2 2
x(2) + x(3)
R3 : x2R cu < x:
2
Când p = 2 regiunile de decizie devin semiplane (…gura 3.2.2.).

fig. 3.2.2. Exemplu de regiuni de decizie în cazul normalei


bidimensionale

a Fie ipoteza compozit¼


Estimatori de verosimilitate maxim¼ a
(1) (1)
x; x1 ; : : : ; xn1 2 N ( 1; )
H0 : (2) (2)
x1 ; : : : ; xn2 2 N ( 2 ; )
(1) (1)
x1 ; : : : ; xn1 2 N ( 1 ; )
HA : (2) (2)
x; x1 ; : : : ; xn2 2 N ( 2 ; )
3.2. METODE PROBABILISTE DE DISCRIMINARE 171

În ipoteza H0 estimatorii de verosimilitate maxim¼


a sunt:
(0) n1 x1 + x
b1 = ;
n1 + 1
(0)
b2 = x2 ;

2
Xn1
b (0) = 1 4 (1) (0) (1) (0) 0
xj b1 xj b1 +
n1 + n2 + 1
j=1
3
n2
X
(0) (0) 0 (2) (0) (2) (0) 0 5
+ x b1 x b1 + xj b2 xj b2
j=1

Se noteaz¼a
n
X (1)
1
(0) (1) (0) 0 (0) (0) 0
A= xj b1 xj b1 + x b1 x b1 :
j=1

Deoarece
n1
X (1) (1) 0 (0) (0) 0
A = xj x1 xj x1 + n1 x1 b1 x1 b1
j=1
(0) (0) 0
+ x b1 x b1
n1
X (1) (1) 0 n1
= xj x1 xj x1 + (x x1 ) (x x1 )0
n1 + 1
j=1

Rezult¼
a
b (0) = 1 n1
C+ (x x1 ) (x x1 )0
n1 + n2 + 1 n1 + 1
P
2 P
ni
(1) (1) 0
cu C = xj xi xj xi .
i=1 j=1
Analog, sub HA estimatorii de verosimilitate maxim¼
a sunt:
(A)
b1 = x1 ;
(A) n2 x2 + x
b2 = ;
n2 + 1
b (A) 1 n2
= C+ (x x2 ) (x x2 )0 :
n1 + n2 + 1 n2 + 1
Raportul de verosimilitate devine, aşadar
1+ n2
n2 +1 (x x2 )0 C 1 (x x2 )
= iar
1+ n1
n1 +1 (x x1 )0 C 1 (x x1 )
R1 : x cu C (acele puncte x care maximizeaz¼
a pe ).
172 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Estimare bayesian¼ a Natura discuţiei din acest paragraf este foarte difer-
it¼
a din punct de vedere conceptual de abordarea anterioar¼ a. Anterior a fost
prezentat¼a o metodologie pornind de la un punct de vedere frecventist: s-a
presupus o selecţie aleatoare dintr-o populaţie având densitatea de probabi-
litate f (x; ) cu x 2 X şi 2 . Parametrul necunoscut este presupus
…xat. O procedur¼ a de inferenţ¼
a frecventist¼
a depinde de funcţia de verosimili-
Q
n
tate L ( ) = f (xi ; ) ; unde este necunoscut dar …x.
i=1
În demersul bayesian experimentatorul presupune/crede, înainte de a
„vedea datele”(à priori), c¼ a parametrul necunoscut este o variabil¼ a aleatoare
având o distribuţie de probabilitate proprie pe (spaţiul parametrilor), notat¼ a
h ( ) şi numit¼a distribuţia à prioric¼a (prior distribution) a lui . f (x; ) devine,
în acest context, f (xj ).
Distribuţia à prioric¼ a h ( ) re‡ect¼a adesea intuiţia subiectiv¼a a statis-
ticianului privitoare la ce valori ale lui sunt mai puţin probabile când se
consider¼ a întreg spaţiul parametrilor, .
Distribuţia à prioric¼ a este, în cazul ideal, dat¼
a/…xat¼ a înainte de începerea
experimentului (a culegerii selecţiei bernoulliene).
Paradigma bayesian¼ a implic¼a combinarea informaţiilor à priorice cu cele
date de funcţia de verosimilitate şi obţinerea a ceea ce se numeşte distribuţie
à posteriori, via teorema Bayes.
Ca fapt istoric este de reţinut opoziţia vehement¼ a a lui R.A.Fisher la tot
ce era bayesian.
Se cunosc urm¼ atoarele fapte:

- distribuţia comun¼
a a lui x şi este dat¼
a de

f (xj ) h ( ) ((8)) x 2 X şi 2 :

- distribuţia marginal¼
a a lui x este, atunci,
Z
m (x) = f (xj ) h ( ) d

deci distribuţia lui condiţionat¼


a de evenimentul X = x este, conform
teoremei lui Bayes,

f (xj ) h ( )
h ( jx) = h ( jX = x) = ; m (x) > 0; x 2 X, 2 :
m (x)

De…niţia 3.2.10 h ( jx) se numeşte distribuţia à posteriori a lui .

De…niţia 3.2.11 Fie h ( ) 2 D; unde D este o familie de distribuţii particu-


lare. h ( ) se numeşte distribuţia à prioric¼a conjugat¼a , h ( jx) 2 D
3.2. METODE PROBABILISTE DE DISCRIMINARE 173

Propoziţia 3.2.3
Dac¼ a N (m; S) şi x N ( ; ) ; atunci h ( jx) este densitatea de probabi-
litate a unei N ( ; C) cu = S (S + ) 1 x + (S + ) 1 m şi
C = (S + ) 1 S.
Demonstraţie. Dup¼ a observarea lui x; densitatea condiţionat¼
a h ( jx) poate
… scris¼
a
h ( ) f (xj )
h ( jx) = R = Ch ( ) f (xj ) ;
R h ( ) f (xj ) d
cu C factor ce depinde de x dar nu şi de .
Din ipotezele propoziţiei rezult¼
a
1 1
h ( jx) = c1 exp ( m)0 S 1 ( m) exp (x )0 1
( x) =
2 2
1 0 1 1 0
= c1 exp mS m S 2 0S 1m
2 2
1 0 1
exp 2 0S 1
x + x0 1
x :
2
În …nal se obţine
1 0 1 1 0 1 1
h ( jx) = c2 exp +S 2 x+S m ; (1)
2
unde factorii care nu depind de au fost absorbiţi în c1 şi c2 .
Deoarece paranteza dreapt¼ a din exponentul egalit¼ aţii (1) este o form¼
a

atratic¼a, rezult¼
a c¼
a densitatea de probabilitate h ( jx) este o densitate a unei
variabile aleatoare normale. Pentru a determina parametrii acestei legi se scrie
h ( jx) sub forma
1 1 1
h ( jx) = c3 exp ( )0 C 1
( ) = c4 exp 0
C 1
2 C
2 2
(2)
Comparând (1) cu (2) se obţine
1 1 1 1 1 1 1 1
C = +S şi C = x+S m) =C x + CS m:
Se observ¼
a c¼
a, dac¼
aC 1 = 1 +S 1; atunci
1 1
C= ( + S) S = S (S + ) :
Într-adev¼
ar
h i 1 h i 1
1 1 1 1
C = (S + ) S =S (S + ) =
= S 1 (S + ) 1
= 1
+S 1 =C 1
h i 1 h i 1
C 1
= S (S + ) 1 = 1
S (S + ) 1 =
1 1 1 1 1
= (S + )S = +S =C :
Înlocuind (2) în expresia lui rezult¼
a formula din enunţ.
174 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Corolarul 3.2.3
Dac¼
a N ; 20 şi x N ; 2
1 atunci densitatea à posteriori a lui este
1 2 2 1
2 x 1 1 2 1 1
N ; cu = 2 + 2 2 + 2 şi = 0
2+
1
2 = 2 + 2 .
1 0 0 1 0 1 0 1

De…niţia 3.2.12 Fie X : ! R; variabil¼ a aleatoare cu densitatea de proba-


bilitate f (x; ) depinzând de . O funcţie T : ! R se numeşte statistic¼a
su…cient¼a pentru dac¼ a şi numai dac¼
a densitatea de probabilitate condiţion-
at¼
a a lui X este independent¼ a de ; adic¼
a

f (xjT (x) = t; ) = f (xjT (x) = t) ; (8) t 2 R:

Fie X = (x1 ; : : : ; xn ) o selecţie bernoullian¼


a asupra unei variabile aleatoare
ce depinde de un parametru .
Fie (T ) un estimator a lui şi …e funcţia de pierdere ce se obţine
estimând pe prin (T ):

L? ( ; ) L? ( ; (T )) = [ (T ) ]2 :

Riscul funcţional este, atunci,


Z
? ?
R ( ; ) = E [L ( ; )] = L? ( ; (t)) f (tj ) dt:

De…niţia 3.2.13 Se numeşte risc bayesian


Z
r? ( ; ) = R? ( ; ) h ( ) d :

De…niţia 3.2.14 Se numeşte estimator bayesian

r? ( ; ?
) = inf r? ( ; ) ; ?
2 B;
2B

unde B este clasa estimatorilor pentru care riscul bayesian este …nit.

Teorema 3.2.4 În cazul funcţiei de pierdere „suma p¼atratelor erorilor”, esti-


matorul bayesian ? ?
(t) este media distribuţiei à posteriori h ( jt) ; adic¼a
Z
?
(t) = h ( jt) d E [ jT (x) = t] ;

pentru toate valorile posibile observate t 2 .


?
Demonstraţie. Pentru a determina pe (t) trebuie minimizat

Z Z
? ?
r ( ; ) = L? ( ; (t)) f (tj ) h ( ) dt d =
Z Z
= L? ( ; (t)) f ( jt) d m (t) dt:
3.2. METODE PROBABILISTE DE DISCRIMINARE 175

Conform teoremei Fubini şi a faptului c¼


a integranzii sunt nenegativi
Z Z
L? ( ; (t)) f ( jt) d = 2
2 (t) + 2 (t) f ( jt) d =
2
= (t) 2 (t) E [ jT (x) = t] + (t) ;
R 2 R
unde s-a notat (t) = f ( jt) d şi s-a folosit egalitatea f ( jt) d = 1.
2
Consider¼am expresia (t) 2 (t) E [ jT (x) = t] + (t) ca o funcţie de
pe care dorim s¼
a o minimiz¼
am. Minimul este atins deoarece expresia ca funcţie
de este o parabol¼ a cu coe…cientul 2 lui pozitiv şi

@ 2 ?
(t) 2 E [ jt] + =0) = E [ jT (x) = t] :
@

Corolarul 3.2.4
Fie x1 ; : : : ; xn variabile aleatoare independente şi identic repartizate N ; 21
Pn
cu necunoscut şi 1 > 0 dat. Consider¼ am statistica T = n1 xi ; care este
i=1
su…cient¼a pentru . Se presupune c¼ a distribuţia à priori a lui pe spaţiul =
2
R este N ; 0 cu şi 0 > 0 2 R daţi. Atunci distribuţia à posteriori a lui
condiţionat¼
a de observaţiile x1 ; : : : ; xn este, conform propoziţiei anterioare,
N ; 2 cu

n 20 2
1
= 2 T (x) + ;
n 20 + n 1 n 2
0 + 2
1
2 2
2 0 1
= 2 + 2:
n 0 1

Observaţia 3.2.6

a observ¼ am c¼a este o combinaţie convex¼
a între x (= T (x) ) şi ; deci se
a‡a¼ între aceste valori.

Dac¼a 0 , dispersia mediei necunoscutei , este mai mare ca 1 , atunci


x. În acest caz, cunoaşterea mediei à priorice este de importanţ¼
a redus¼
a.
Dac¼
a, dimpotriv¼ a, 0 = 0; atunci = indiferent de observaţiile efectuate.
2
Raportul a = 12 m¼ asoar¼a încrederea à priori c¼
a este o estimare corect¼
a
0
a mediei. Dac¼a a < 1 atunci lim = lim x.
n!1 n!1
În concluzie, dac¼
a dispersia iniţial¼
a este mic¼
a, media estimat¼a tinde s¼
a

amân¼a în apropierea mediei iniţiale chiar dac¼ a media empiric¼ a x difer¼
a
considerabil de aceasta. Dac¼a raportul a este mic, atunci media şi dispersia
à priori au doar o in‡uenţ¼
a redus¼a asupra estim¼ arii parametrilor care sunt
determinaţi aproape exclusiv din datele empirice.
176 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

În lumina teoremei de mai sus, estimatorul Bayes al mediei unei variabile


aleatoare N ; 2 este, dac¼ a T (x) = t;
1
n n 1 1
(t) = bB = 2t + 2t 2 + 2 :
1 0 1 0

Analog, pentru cazul multidimensional se obţine


1 1
bB = S S+ 1 t+
1
S+
1
m:
n n n

Fie x = (x1 ; : : : ; xn ) o selecţie bernoullian¼


a din populaţiile 1 şi 2 .
Dac¼a X 2 1 ; atunci densitatea de probabilitate este fi (xj ) ; 2 i şi
densitatea à prioric¼ a este hi ( ) ; i = 1; 2. Dându-se probabilit¼ aţile à priorice
ale populaţiilor f 1 ; 2 g, …e acestea q1 respectiv q2 ; teorema Bayes calculeaz¼ a
probabilit¼
aţile à posteriori

mi (x) qi
P( i jx) = ; i = 1; 2;
m1 (x) q1 + m2 (x) q2
R
unde mi (x) = i fi (xj ) hi ( ) d este densitatea de probabilitate marginal¼
a
a lui x condiţionat de faptul c¼
a provine din i .
Este evident c¼a o procedur¼a bayesian¼
a de discriminare este
P( jx)
- x2 1 dac¼
a P(
1
2 jx) = B12 (x) qq12 1;

- x2 2 în caz contrar,
m1 (x)
unde B12 (x) = m2 (x) este cunoscut ca factorul Bayes al populaţiei 1
versus 2 .
3.2. METODE PROBABILISTE DE DISCRIMINARE 177

3.2.3 Exemplu
Descrierea datelor
Acest exemplu are ca scop construirea unor funcţii liniare care s¼a discrimineze
cât mai bine între trei tipuri de irişi pornind de la m¼asur¼atorile de lungime şi

aţime ale petalelor şi sepalelor. La baza exemplului st¼ a un set de date clasic
(tabelul A.5. din Anex¼ a), introdus de Fisher în 1936, în care se identi…c¼a:

p = 4 variabile independente:

– SEPALLEN=lungimea sepalelor,
– SEPALWID=l¼
aţimea sepalelor,
– PETALLEN=lungimea petalelor,
– PETALWID=l¼
aţimea petalelor,

variabla dependent¼
a (de grupare):

– IRISTYPE=tipul de iris, cu q = 3 modalit¼ aţi: SETOSA (Setosa),


VERISCOL (Veriscolor), VIRGINIC (Virginica), ce de…nesc clasele
(numeric egale ale) unei partiţii à priori a populaţiei de n = 150
observaţii.

Efectuarea analizei şi interpretarea rezultatelor


În programul STATISTICA, opţiunea pentru analiza discriminant¼ a este
disponibil¼
a în meniul Statistics, Multivariate Exploratory Techniques, Dis-
criminant Analysis. În fereastra activat¼ a (…g. 3.2.3.) se aleg variabilele
conform clasi…c¼arii de mai sus, speci…cându-se toate codurile pentru variabila
de grupare (butoanele Codes for grouping variable, All ), se opteaz¼ a pentru
analiza folosind metoda stepwise de selecţie a variabilelor (pentru detalii vezi
subcapitolul 4.1.6.) şi se apas¼
a butonul OK.

fig. 3.2.3. Fereastra de pornire


178 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Noua fereastr¼ a (…g. 3.2.4.) permite de…nirea parametrilor analizei dis-


criminante şi aplicarea unor metode descriptive de examinare a datelor. Pen-
tru început vom veri…ca îndeplinirea condiţiilor de realizare a analizei discri-
minante: normalitatea distribuţiei predictorilor în grupuri, homoscedastici-
tatea şi absenţa multicoliniarit¼aţii, procedeu pentru care STATISTICA pune
la dipoziţie o serie de gra…ce şi tabele în fereastra accesat¼
a prin ap¼
asarea bu-
tonului Review descriptive statistics din submeniul Descriptives.

fig. 3.2.4. fereastra de pornire (2)

Normalitatea distribuţiei predictorilor în grupuri se poate veri…ca


examinând diverse tipuri de gra…ce disponibile în meniul Within:

histograma categorizat¼ a - butonul Categorized histogram by group activeazã


o fereastr¼
a pentru selecţia variabilei independente de analizat. Gra…cul
rezultat indic¼
a repartiţia acesteia în grupurile formate de modalit¼ aţile
variabilei de grupare. Figura 3.2.5. reprezint¼ a histograma categorizat¼ a
a variabilei SEPALWID şi indic¼ a o repartiţie normal¼a a acesteia pentru
cele trei tipuri de irişi. Acelaşi tip de gra…c con…rm¼ a normalitatea în
cadrul grupurilor şi pentru celelalte trei variabile independente.

diagrama Box Plot categorizat¼ a - butonul Box plot of means by group


activeaz¼ a o fereastr¼
a de selecţie a variabilei a c¼
arei distribuţie urmeaz¼ a s¼
a
…e redat¼ a prin acest tip de diagram¼ a. Ca speci…caţii de realizare a dia-
gramelor se bifeaz¼ a opţiunea Mean/SD/1.96*SD şi se apas¼ a butonul OK
pentru generarea gra…cului în care: tendinţa central¼ a e ilustat¼a de me-
die şi redat¼ a gra…c printr-un marcaj central, dreptunghiul (box) indic¼ a
variabilitatea în jurul punctului central, ilustrat¼ a prin deviaţia standard
(SD) iar segmentele de la extremit¼ aţile dreptunghiurilor (whiskers) in-
dic¼
a intervalul de predicţie de 95%. Figura 3.2.6. reprezint¼ a diagrama
Box Plot categorizat¼ a a variabilei PETALLEN şi indic¼ a o repartiţie uni-
modal¼ a şi simetric¼
a (probabil normal¼ a) pentru cele trei tipuri de irişi.
Analog pentru celelalte trei variabile independente.
3.2. METODE PROBABILISTE DE DISCRIMINARE 179

fig. 3.2.5. Histograma categorizatA¼ pentru variabila SEPALWID

fig. 3.2.6. Diagrama Box Plot categorizatA¼ pentru variabila


PETALLEN

gra…cele Normal Probability Plot categorizate - butonul Categorized nor-


mal probabiliy plot by group activeaz¼
a o fereastr¼a pentru selecţia vari-
abilei independente de analizat. Dac¼ a gra…cul f(Fobs ; Fteo )g se supra-
pune peste prima bisectoare, atunci variabila predictor analizat¼ a este
180 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

normal repartizat¼ a în grupurile determinate de modalit¼ aţile variabilei


dependente. S-au notat cu Fobs ; p-cuantilele estimate ale variabilei pre-
dictor studentizat¼ a şi observat¼
a într-o clas¼
a dat¼
a a variabilei dependente
şi cu Fteo ; p-cuantilele teoretice ale variabilei Gauss-Laplace (normala
de medie zero şi dispersia unu). Figura 3.2.6. reprezint¼ a gra…cul Nor-
mal Probability Plot categorizat pentru variabila SEPALLEN şi indic¼ a
o repartiţie normal¼a a acesteia pentru cele trei tipuri de irişi. Acelaşi tip
de gra…c con…rm¼ a normalitatea în cadrul grupurilor şi pentru celelalte
trei variabile independente.

fig. 3.2.7. Normal Probability Plot pentru variabila SEPALLEN

Homoscedasticitatea se refer¼ a la egalitatea dispersiei predictorilor în


grupurile formate de modalit¼ aţile variabilei dependente. Butonul Categorized
scatterplot by group activeaz¼a o fereastr¼ a pentru selecţia variabilelor indepen-
dente de analizat. În …gura 3.2.8. reprezentând diagrama Scatterplot catego-
rizat¼
a pentru variabilele SEPALLEN şi PETALLEN, cele trei gra…ce ilustreaz¼ a
aproximativ aceeaşi form¼a a norului de puncte (elipse cu diametrul mare aprox-
imativ egal cu 2) con…rmând egalitatea aproximativ¼ a a varianţei în grupurile
determinate de variabila dependent¼ a. Aceast¼a concluzie este valabil¼a şi pentru
celalte combinaţii de câte dou¼a variabile predictor.
3.2. METODE PROBABILISTE DE DISCRIMINARE 181

fig. 3.2.8. Diagrama scatterplot categorizatA¼ pentru


variabilele SEPALLEN Ş i PETALLEN

Multicoliniaritatea se refer¼ a la redundanţa variabilelor predictor, mai


exact la situaţia în care dou¼ a variabile independente sunt foarte puternic core-
late sau în care una dintre acestea se poate exprima ca o combinaţie liniar¼ a
a celorlalte. În STATISTICA, evitarea fenomenului de multicoliniaritate se
realizeaz¼
a prin setarea unei valori prag de toleranţ¼ a (de obicei 0,01). În cazul
analizei Forward Stepwise, o variabil¼ a se introduce în model numai dac¼ a val-
oarea 1 R2 (unde R2 este coe…cientul de corelaţie multipl¼ a) nu se a‡a¼ sub
pragul de toleranţ¼ a stabilit.

Concluziile obţinute permit realizarea efectiv¼


a a analizei discriminante.
Se apas¼a butonul Cancel pentru a reveni la fereastra de pornire (…g. 3.2.4) şi
se acceseaz¼
a submeniul Advanced pentru a speci…ca detaliile analizei discrimi-
nante (…g 3.2.9).
182 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

fig. 3.2.9. SpecificaŢ ii pentru realizarea analizei discriminante

Ca metod¼a de selecţie a variabilelor se alege Forward stepwise, care presupune


introducerea în model, la …ecare pas, a variabilei celei mai semni…cative din
punct de vedere al discrimin¼ arii. Algoritmul Forward stepwise ruleaz¼ a pân¼
a
când una dintre condiţiile urm¼ atoare este îndeplinit¼
a:

toate variabilele au fost introduse în model,

a fost atins num¼ arul de paşi speci…cat în caseta Number of steps. Deoa-
rece în acest caz nu exist¼a speci…caţii à priori în acest sens, num¼
arul de
paşi este setat egal cu num¼ arul variabilelor.

niciuna dintre variabilele care nu sunt în model nu este considerat¼ a


semni…cativ¼a din punct de vedere al discrimin¼ arii, adic¼
a valoarea F
corespunz¼atoare este mai mic¼ a decât valoarea F to enter. În cazul
metodei Forward, valoarea F to remove nu intereseaz¼ a deoarece nicio
variabil¼
a nu va … eliminat¼
a din model. Pentru F to enter şi F to remove
se p¼
astreaz¼
a set¼
arile implicite.

pragul de toleranţ¼a pentru variabila care urmeaz¼ a s¼a …e introdus¼a în


model este sub limita impus¼ a de valoarea din caseta Tolerance. În cazul
acesta se m¼areşte num¼arul paşilor cu unu şi se analizeaz¼
a variabila ur-
m¼atoare din punct de vedere al puterii de discriminare.

În caseta Display results se opteaz¼ a pentru a…şarea rezultatelor la …ecare


pas (At each step) şi se apas¼
a butonul OK pentru începerea analizei.
Pasul 0.
În fereastra ap¼arut¼a (…g 3.2.10) sunt prezentate: pasul analizei, num¼ arul
de variabile din model şi indicatorul Wilk’s lambda al puterii de discrimnare
a modelului.
3.2. METODE PROBABILISTE DE DISCRIMINARE 183

fig. 3.2.10. Fereastra de rezultate - pasul 0

La pasul zero nici una dintre variabile nu a fost intodus¼


a în model, aşadar
singura opţiune accesibil¼
a în fereastra de rezultate (…g 3.2.10) este Variables
not in the model. Aceasta genereaz¼ a tabelul 3.2.1. în care sunt disponibile
valorile corespunz¼
atoare celor patru variabile independente pentru:

Wilk’s lambda - statistic¼a ce ilustreaz¼


a puterea de discriminare a modelului
dup¼a ce variabila corespunz¼ atoare a fost introdus¼a în model. Poate lua
valori în intervalul [0,1], 0 indicând putere maxim¼ a de discriminare.

Partial Wilk’s lambda - statistic¼a ce ilustreaz¼


a puterea de discriminare a
…ec¼arei variabile în cadrul modelului. Poate lua valori în intervalul [0,1],
0 indicând putere maxim¼ a de discriminare. La acest pas, valorile Partial
Wilk’s lambda coincid cu cele corespunz¼ atoare Wilk’s lambda.

F to enter - p-cuantila estimat¼


a a variabilei F care, în urma comparaţiei
cu pragul de semni…caţie …xat, indic¼a variabilele ce pot … introduse în
model la pasul urm¼ ator.

Toleranţa - este de…nit¼ a ca 1 R2 al variabilei respective cu toate vari-


abilele din model şi aceast¼a valoare este un indicator al redundanţei vari-
abilei respective. Evident, la acest pas R2 = 1 pentru toate variabilele
deoarece nicio variabil¼ a nu a fost înc¼a selectat¼
a.

Pentru a trece la pasul urm¼


ator se apas¼
a butonul Next.
Pasul 2.
La pasul 2, modelul, care acum conţine dou¼ a variabile, are o putere
discriminant¼
a semni…cativ¼ a (Wilk’s lambda= 0; 037; F = 307:1; p < 0:0001)
dup¼a cum se poate vedea în fereastera din …g. 3.2.11.
184 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

fig. 3.2.11. Fereastra de rezultate - pasul 2


Variabilele care au fost introduse în model (butonul Variables in the
model ) sunt, în aceast¼a ordine, PETALLEN şi SEPALWID şi au un nivel de
semni…caţie ridicat (tabelul 3.2.1). Celelalte dou¼a variabile (butonul Variables
not in the model ) îndeplinesc condiţiile pentru a … introduse în model şi val-
oarea statisticii Wilk’s lambda pentru PETALWID este superioar¼ a (tabelul
3.2.2), deci aceasta va … variabila considerat¼ a la pasul urm¼ ator.

tabelul 3.2.1 Variabilele din model, la pasul 2

tabelul 3.2.2 Variabilele din afara modelului, la pasul 2

Pasul 4.
La pasul patru, toate variabilele au fost introduse în model iar acesta
are o putere de discriminare semni…cativ¼ a (Wilk’s lambda= 0; 023; F = 199:1;
p < 0:0000). În tabelul obţinut prin ap¼asarea butonului Variables in the model
(tabelul 3.2.3), valorile Partial Wilk’s lambda indic¼a faptul c¼ a PETALLEN şi
PETALWID au cele mai mari valori ale puterii de discriminare, deci petalele
sunt cele care deosebesc cel mai bine cele trei tipuri de irişi.

tabelul 3.2.3 Variabilele din model, la pasul 4


3.2. METODE PROBABILISTE DE DISCRIMINARE 185

În continuare se va folosi analiza canonic¼ a (butonul Perform canonical


analysis din submeniul Advanced ) pentru calculul funcţiilor de discriminare
ortogonale, al c¼
aror num¼ar este dat de minimul dintre num¼ arul variabilelor
independente şi num¼arul modalit¼aţilor variabilei dependente minus 1. Prin
urmare, în acest caz vor … considerate dou¼ a funcţii de discriminare.

fig. 3.2.12. Analiza canonicA¼

Pentru a determina dac¼ a cele dou¼ a funcţii de discriminare sunt sem-


ni…cative din punct de vedere statistic, se analizeaz¼ a testele de semni…caţie
disponibile în tabelul 3.2.4., obţinut prin ap¼asarea butonului Summary: Chi
square test of succesive roots din submeniul Quick.

tabelul 3.2.4. Teste de semnificaŢ ie pentru funcŢ iile


discriminante

În general, primul rând al tabelului conţine valorile testelor de semni…-


caţie pentru efectul cumulat al funcţiilor de discriminare iar pe liniile urm¼
a-
toare sunt a…şate valorile testelor de semni…caţie dup¼ a eliminarea câte unei
funcţii de discriminare. În tabelul 3.2.4.

Valorile proprii (Eigenvalues) re‡ect¼ a importanţa funcţiilor identi…cate


în discriminarea claselor. Valoarea evident superioar¼ a corespunz¼ atoare
primei funcţii (32; 19) indic¼
a faptul c¼
a aceasta are cel mai important rol
186 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

în discriminare, cu toate c¼
a, dup¼
a cum vom vedea, ambele funcţii sunt
statistic semni…cative.

Coe…cienţii de corelaţie canonic¼


a (Canonical R) indic¼a intensitatea leg¼ a-
turii dintre funcţiile discriminante şi grupurile formate de modalit¼ aţile
variabilei dependente. Cu cât aceşti coe…cienţi au o valoare mai ridicat¼ a,
cu atât funcţiile considerate au un rol mai mare în discriminarea claselor,

Wilk’s lambda şi Chi-square sunt statistici folosite pentru a testa sem-
ni…caţia funcţiilor de discriminare.

Valorile p indic¼
a faptul c¼
a, pentru acest exemplu, ambele funcţii sunt
semni…cative din punct de vedere statistic.

Coe…cienţii variabilelor independente în cadrul celor dou¼ a funcţii de dis-


criminare (tabelul 3.2.5.) se genereaz¼ a ap¼
asând butonul Coe¢ cients for canon-
ical variables şi sunt disponibili în form¼a clasic¼
a (Raw coe¢ cients) sau stan-
dardizat¼a (Standardized coe¢ cients). Aceştia din urm¼ a sunt cei care se folosesc
pentru interpretare.

tabelul 3.2.5. CoeficienŢ ii funcŢ iilor de discriminare

Ca o prim¼ a observaţie, se remarc¼ a faptul c¼


a 99% (Cum. Prop.) din
puterea de discriminare este atribuit¼ a primei funcţii discriminante. Dup¼ a cum
era de aşteptat, aceasta este caracterizat¼ a în mod deosebit de coe…cienţii core-
spunz¼ atori variabilelor PETALLEN şi PETALWID, în timp ce pentru cea de-a
doua funcţie discriminant¼ a coe…cientul variabilei SEPALWID este reprezenta-
tiv. Aceast¼ a observaţie este susţinut¼
a şi de coe…cienţii de corelaţie dintre va-
riabile şi funcţiile de discriminare (tabelul 3.2.6.), care pot … accesaţi ap¼ asând
butonul Factor structure din submeniul Advanced.

tabelul 3.2.6. CoeficienŢ ii de corelaŢ ie


3.2. METODE PROBABILISTE DE DISCRIMINARE 187

Valorile funcţiilor discriminante calculate pe baza valorilor celor patru


predictori (scorurile canonice) sunt disponibile în submeniul Canonical sub
form¼a tabelar¼a (butonul Canonical scores for each case) sau gra…c¼ a (butonul
Scatterplot of canonicl scores). Diagrama scatterplot rezultat¼ a (…g 3.2.13)
ofer¼
a o imagine de ansamblu şi con…rm¼ a concluziile de pân¼
a acum.

fig. 3.2.13. Scatterplot pentru scorurile canonice

Având în vedere paşii realizaţi pân¼ a acum, se poate concluziona c¼ a dintre


cele trei tipuri de irişi, cei aparţinând grupului SETOSA sunt cel mai uşor de
deosebit. Distincţia se face prin intermediul primei funcţii de discriminare, car-
acterizat¼ a de coe…cienţi negativi pentru dimensiunile petalelor şi de coe…cienţi
pozitivi pentru dimensiunile sepalelor. Pe gra…cul din …gura 3.2.13, tipul SE-
TOSA este situat în extremitatea dreapt¼ a, deci membrii s¼ai sunt caracterizaţi
de valori ridicate ale acestei funcţii. Aşadar, cu cât irisul are petale mai lungi
şi late şi sepale mai înguste şi scurte, cu atât este mai puţin probabil ca acesta
s¼a …e de tip SETOSA.
Odat¼ a ce modelul a fost construit şi funcţiile de discriminare au fost
determinate, se pune problema aproxim¼ arii gradului de precizie a predicţiei
grupului din care face parte un (nou) individ. În acest scop, pentru individul
respectiv se calculeaz¼ a valorile funcţiilor de clasi…care pentru …ecare dintre cele
trei clase, individul …ind asignat acelui grup pentru care scorul este maxim.
(Atenţie! Funcţiile de clasi…care sunt diferite de funcţiile discriminante şi sunt
calculate automat în cadrul analizei). Pentru a examina coe…cienţii funcţiilor
de clasi…care (tabelul 3.2.7.) se revine în fereastra de pornire (…g. 3.2.4.)
ap¼ asând butonul Cancel, se acceseaz¼ a submeniul Advanced şi se apas¼ a pe bu-
tonul Clasi…cation functions.

tabelul 3.2.7. Valorile funcŢ iilor de clasificare


188 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Funcţiile de clasi…care sunt date de formula:


vi = ci + wi1 P ET ALLEN + wi2 SEP ALW ID +
+wi3 P ET ALW ID + wi4 SEP ALLEN;
unde ci sunt constantele corespunz¼ atoare grupurilor i şi wij ; i = 1; 3; j = 1; 4
sunt coe…cienţii din tabelul 3.2.7.
Atunci când se posed¼ a informaţii despre variabile înc¼ a dinainte de în-
ceputul analizei exist¼ a posibilitatea speci…c¼ arii unor probabilit¼ aţi à priori de
clasi…care în cele trei grupe. Nu este cazul în acest exemplu, aşadar probabilit¼ aţile
à priori se vor considera proporţionale cu dimensiunea grupurilor, deci egale
cu 1=3 = 0; 33.
Asign¼arile efective ale indivizilor din setul curent de date pot … examinate
în tabelul 3.2.8. (butonul Clasi…cation of cases), matricea de clasi…care (bu-
tonul Clasi…cation Matrix ) oferind o sintez¼ a a acestei situaţii (tabelul 3.2.9.).

tabelul 3.2.8. Clasificarea unor indivizi din setul curent de date

tabelul 3.2.9. Matricea de clasificare


3.3. SEGMENTARE 189

Se observ¼ a c¼
a toti irişii de tip SETOSA au fost corect clasi…caţi, fapt
la care ne aşteptam în urma observaţiilor de pân¼ a acum, şi c¼a irişii de tip
VERISCOL şi VIRGINIC au fost corect clasi…caţi în procent de 96% respec-
tiv 98%. Aceste rezultate indic¼ a o precizie foarte bun¼ a în clasi…care, dar
trebuie ţinut cont c¼
a aceasta s-a f¼ acut pe mulţimea indivizilor utilizaţi pentru
construirea modelului (mulţimea de antrenare), aşadar este foarte posibil ca
precizia s¼a scad¼
a atunci când sunt clasi…caţi indivizi noi (indivizi de test). Ma-
tricea de clasi…care pentru mulţimea de test poate … considerat¼ a un estimator
nedeplasat al erorii de misclasare.

3.3 Segmentare
Metodele de segmentare urm¼ aresc rezolvarea problemelor de discriminare
şi de regresie prin împ¼arţirea progresiv¼
a a eşantionului într-un arbore de decizie
binar¼a.
Pionieri în acest domeniu sunt consideraţi a … Sonquist şi Morgan precum
şi Morgan şi Messenger cu metoda AID (Automatic Interaction Detection).
Au urmat numeroase contribuţii iar lucr¼ arile lui Breiman cu metoda CART
(Classi…cation and Regression Tree) au îmbog¼ aţit domeniul şi au resuscitat
interesul pentru segmentare.
Propriet¼aţile metodei de segmentare pot … sintetizate astfel:

avantajele metodei:

– lizibilitatea regulilor de afectare, interpretarea rezultatelor …ind di-


rect¼a şi intuitiv¼
a;
– tehnica este neparametric¼ a şi impune puţine restricţii asupra va-
riabilelor. Se pot utiliza concomitent ca variabile explicative, va-
riabile continue, ordinale şi nominale, f¼ ar¼
a un codaj prealabil. În
plus, metoda ofer¼ a din o…ciu selecţia variabilelor, ţinând cont de
eventualele interacţii;
– tehnica este robust¼ a faţ¼
a de valorile eronate sau aberante şi ges-
tioneaz¼ a valorile lips¼
a atât la construcţia arborelui şi la estimarea
erorii sale de misclasare, cât şi în cazul unui nou subiect;
– metoda foloseşte acelaşi principiu, tehnici, algoritm, atât pentru
a analiza o variabil¼ a discret¼ a (analiza discriminant¼ a), cât şi una
continu¼ a (analiza de regresie);

dezavantajele metodei:

– regulile de afectare pot ap¼ area uneori ”aberante” şi prea sensibile
la perturbaţii uşoare ale datelor ;
– lipsa unei funcţii de afectare global¼
a (ce utilizeaz¼
a toate variabilele),
ce priveaz¼a utilizatorul de o reprezentare geometric¼ a.
190 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

3.3.1 Formularea problemei, principiu şi vocabular


Ne poziţion¼am în cadrul analizei discriminante: o variabil¼ a y "privile-
giat¼a", discret¼
a, cu k modalit¼aţi este "explicat¼
a" de variabilele (x1 ; : : : ; xp ).
Metoda de segmentare const¼ a în a calcula mai întâi variabila xj care
explic¼a cel mai bine variabila y. Aceast¼ a variabil¼
a de…neşte o prim¼a împ¼ arţire
a eşantionului în dou¼ a submulţimi, numite segmente. Se reitereaz¼ a procedeul
în interiorul …ec¼arui segment c¼autându-se a doua cea mai bun¼ a variabil¼ a şi aşa
mai departe.
Se construieşte astfel un arbore de decizie binar¼a, prin împ¼ arţirea succe-
siv¼
a a eşantionului în câte dou¼a submulţimi. Distingem astfel :

- segmentele intermediare sau nodurile, din care pornesc câte 2 segmente


descendente;

- segmentele terminale, care nu mai sunt împ¼


arţite;

- ramurile unui segment care conţine toate segmentele descendente din t,



ar¼
a t;

- arborele binar complet, notat Amax ;

- un sub-arbore A; obţinut din Amax prin "tunderea" uneia sau mai multor
ramuri.

fig. 3.3.1. Arbore de decizie binarA¼

3.3.1.1 CONSTRUCŢIA ARBORELUI DE DECIZIE BINARA ¼


Ideea de baz¼ a const¼a în efectuarea diviziunii unui nod astfel încât cele dou¼ a
segmente descendente s¼ a …e mai omogene decât nodul p¼arinte şi cât mai diferite
între ele faţ¼
a de variabil¼
a.
Aşadar, fazele de construire ale arborelui sunt :

a) stabilirea, pentru …ecare nod, a mulţimii diviziunilor admisibile;


3.3. SEGMENTARE 191

b) de…nirea unui criteriu de selecţionare a "celei mai bune" diviziuni a unui


nod;

c) de…nirea unei reguli care s¼


a permit¼
a declararea unui nod ca terminal sau
intermediar;

d) afectarea …ec¼
arui nod terminal unei clase;

e) estimarea riscului de misclasare.

Variabilele explicative pot … de natur¼


a oarecare. S¼
a le consider¼
am, pentru
moment, variabile continue.

1. La început exist¼
a un singur segment conţinând toţi indivizii;

2. Sunt examinate secvenţial toate variabilele explicative. Pentru o vari-


abil¼a dat¼
a, xj ; sunt trecute în revist¼
a toate diviziunile posibile xj < ,
cu o valoare oarecare din suportul lui xj . Fiecare diviziune împarte
eşantionul în segmente descendente: segmentul din stânga, ts ; conţine
indivizii ce îndeplinesc condiţia xj , iar segmentul din dreapta, td ;
conţine indivizii ce îndeplinesc condiţia xj > .

De…niţia 3.3.1 Se numeşte diviziune admisibil¼a o diviziune posibil¼


a cu seg-
mentele descendente, nevide, ale lui xj .
Dintre toate diviziunile admisibile dmj ; unde m reprezint¼a a m-diviziune
(sau a m valoare ordonat¼a a variabilei din eşantion), procedura selecţioneaz¼
a
pe "cea mai bun¼a", notat¼ ?
a dj , în sensul unui criteriu ce urmeaz¼
a a … precizat.

fig. 3.3.2. Diviziuni posibile pentru variabila x

Se obţine astfel, pentru …ecare din cele p variabile, diviziunea optim¼ a


"local¼ a cu d? ; care
a" şi se va reţine, în …nal, din cele p diviziuni, pe cea notat¼
va furniza cele dou¼ a segmente "cele mai caracteristice" vis-à-vis de y.
192 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

fig. 3.3.3. Cea mai bunA¼ diviziune pentru toate variabilele

1. Se aplic¼
a iterativ pasul 2 …ec¼
arui segment descendent obţinut.
Procedeul se opreşte când toate segmentele sunt declarate terminale:

- …e c¼
a nu mai necesit¼
a vreo diviziune;
- …e pentru c¼a "talia lor" (num¼arul de indivizi afectaţi nodului) este
inferioar¼
a unui efectiv …xat (în practic¼
a acesta se alege între 1 şi 5).

2. Afectarea unui individ nou se face prin "coborârea" lui pe ramurile ar-
borelui.

Dac¼a printre variabilele explicative se num¼


ar¼
a şi variabile discrete, atunci
diviziunile posibile pot …:

- una singur¼
a, dac¼a variabila explicativ¼
a xj este binar¼
a. În aceast¼
a situaţie
segmentul ts va conţine toate observaţiile pentru care xj = 1, iar seg-
mentul td toate observaţiile pentru care xj = 2 (am presupus c¼ a valorile
luate de variabila binar¼
a sunt 1 şi 2);
- k 1, dac¼ a variabila explicativ¼
a xj are k modalit¼aţi ordonate: 1; 2; : : : ; k,
cu k > 2. Într-adev¼ ar, prima diviziune va dirija toate observaţiile pen-
tru care xj = 1 spre segmentul ts şi toate observaţiile pentru care
xj 2 f2; 3; : : : ; kg spre segmentul td . A doua diviziune va dirija toate
observaţiile pentru care xj 2 f1; 2g spre segmentul ts şi toate observaţi-
ile pentru care xj 2 f3; : : : ; kg spre segmentul td . Diviziunea k 1 va
dirija toate observaţiile pentru care xj 2 f1; 2; 3; : : : ; k 1g spre segmen-
tul ts şi toate observaţiile pentru care xj = k spre segmentul td ;
- 2k 1 1, dac¼
a variabila explicativ¼
a xj are k modalit¼
aţi neordonate.

Pentru selectarea celei mai bune diviziuni a unui nod se pot utiliza mai
multe criterii. Breiman (în [7]) recomand¼
a utilizarea criteriilor bazate pe noţi-
unea de impuritate.
3.3. SEGMENTARE 193

De…niţia 3.3.2 Impuritatea unui segment (nod) a, notat¼ a i (a), este o funcţie
nenegativ¼a de P [1ja] ; : : : ; P [kja] (unde P [rja] este probabilitatea condiţion-
at¼
a de apartenenţ¼
a la un grup Gr ; r = 1; k , a mulţimii observaţiilor din nodul
a), care veri…c¼
a urm¼atoarele condiţii:

i) i (a) este maxim¼ a pentru P [rja] = k1 ; (8) r = 1; k (impuritatea unui


nod e maximal¼ a când, pentru acest nod, probabilit¼aţile de apartenenţ¼
a
la diferite grupe sunt egale între ele);

ii) i (a) este nul¼


a pentru P [rja] = 1 şi P [sja] = 0; (8) r 6= s şi r; s = 1; k
(impuritatea este nul¼a dac¼a nodul conţine observaţii aparţinând unui
singur grup);

iii) i (a) este o funcţie simetric¼


a de probabilit¼
aţi P [rja] ; r = 1; k.

Funcţiile de impuritate cele mai folosite sunt :


k
X
i (a) = P [rja] ln (P [rja]) şi
r=1
X
i (a) = P [rja] P [sja]
r6=s

Prima funcţie e derivat¼ a din noţiunea de informaţie sau de entropie


Shannon; a doua, numit¼ a indicele de diversitate Gini, a fost propus¼
a de Good-
man şi Kruskal în 1954.
Fie o diviziune d care împarte nodul a în ts şi td cu probabilit¼ aţile ps
P [ts ja] = PP(t(a)
s)
, respectiv pd = PP(t(a)
d)
.
Se de…neşte i (d; a) = i (a) ps i (ts ) pd i (td ), reducerea impurit¼aţii
nodului a datorat¼a diviziunii d.

Lema 3.3.1
Orice diviziune d a unui nod a duce la o reducere pozitiv¼
a sau nul¼
a a impu-
rit¼
aţii, adic¼
a:
i (d; a) 0;
egalitatea …ind obţinut¼
a dac¼
a şi numai dac¼
a P [rjts ] = P [rjtd ] = P [rja] ; (8)
r = 1; k:

Demonstraţie.

ps i (ts ) + pd i (td )
= ps f [P [1jts ] ; : : : ; P [kjts ]] + pd f [P [1jtd ] ; : : : ; P [kjtd ]] (1)
f [ps P [1jts ] + pd P [1jtd ] ; : : : ; ps P [kjts ] + pd P [kjtd ]]


aci i (a) este strict concav¼
a.
194 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Pe de alt¼
a parte

ps P [rjts ] + pd P [rjtd ] = P [rja] ; (8) r = 1; k

deci

f [ps P [1jts ] + pd P [1jtd ] ; : : : ; ps P [kjts ] + pd P [kjtd ]]


= f [P [1ja] ; : : : ; P [kja]] = i (a) (2)

Aşadar, din (1) şi (2)


i (d; a) 0 (3)
Dac¼a în (2)P [rjtd ] = P [rjts ], atunci (1) devine egalitate, deci şi (3)
devine egalitate.
Cele dou¼a funcţii de impuritate de mai sus sunt strict concave, deci cri-
teriile de diviziune bazate pe cele dou¼ a funcţii conduc întotdeauna la reducerea
pozitiv¼a a impurit¼aţii.
Cea mai bun¼ a diviziune este aceea pentru care reducerea impurit¼ aţii este
maxim¼ a, adic¼
a:
d?j = argmax i dm j ;t ;
m2dj

unde dj este mulţimea diviziunilor admisibile ale variabilei xj .


Pe mulţimea p a variabilelor, diviziunea nodului t este efectuat¼
a cu aju-
torul variabilei care asigur¼
a

d? = max d?j :
1 j p

3.3.1.2 REGULI DE AFECTARE La …ecare etap¼ a de construire a lui


Amax este posibil ca toate nodurile terminale, a; ale arborelui curent A s¼ a …e
afectate uneia din cele k grupe.
Fiec¼ arei erori de clasare i se asociaz¼ a unPpreţ de misclasare, (s=r) ;
s; r = 1; : : : ; k. Costul misclas¼arii este atunci (s=r) p (rja) şi nodul va …
r
asignat acelei clase pentru care
X
s? = argmin (s=r) p (rja) :
1 s k r

Dac¼ a minimul este atins pentru cel puţin dou¼ a clase atunci nodul este
afectat arbitrar uneia dintre aceste clase.
Urm¼ atoarea proprietate este foarte util¼
a în practic¼
a:

Lema 3.3.2
Dac¼a (s=r) = 1, (8) s 6= r şi (s=s) = 0, (8) s; atunci nodul va … asignat
clasei cu cei mai mulţi reprezentanţi în ea.
3.3. SEGMENTARE 195

Demonstraţie. Într-adev¼
ar, …e s0 acea clas¼
a. Se observ¼
a c¼
a
nr
p (rja) = ;
na

cu nr num¼arul de indivizi din clasa s0 a‡aţi în nodul a şi na num¼


arul de indivizi
din nodul a.
Conform ipotezei,
k
X k
X
nr < nr ; j = 1; k; j 6= s0 ;
r=1 r=1
r6=s0 r6=j

adic¼
a un sistem de k 1 inegalit¼
aţi cu acelaşi membru stâng.
Reducând termenii asemenea se obţin k 1 inegalit¼ aţi de forma

nr < ns0 ; r = 1; k; r 6= s0

adic¼
a ns0 este maximal.
Costul misclas¼
arii unei observaţii aparţinând nodului a, notat c (a), este
X
c (a) = min (s=r) p (rja) :
s
r

Costul misclas¼
arii datorat¼
a nodului a, notat C (a), este

C (a) = c (a) p (a) ;

unde p (a) este probabilitatea nodului.


Riscul erorii de afectare datorat arborelui A sau rata erorii aparente de
clasare datorat¼a arborelui A , notat¼
a TEA (taux d’erreur apparent) este
X X X X
T EA (A) = C (a) = (s=r) p (rja) r =
a2A s a2A(s)
~ r
XX nsr nr XX nsr
= (s=r) = (s=r) ;
s r
nr n s r
n

cu

- A~ mulţimea nodurilor terminale ale lui A,

- A~ (s) mulţimea nodurilor terminale ale lui A asignate clasei s,

- r probabilitatea à priori ca un nod s¼


a provin¼
a din clasa r,

- nsr num¼
arul de indivizi din clasa r clasaţi în clasa s; s 6= r.
196 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

3.3.2 Subarbori optimali


O ramur¼ a Aa a arborelui Amax , având ca r¼ ad¼acin¼
a nodul intermediar a
este constituit¼a din toţi descendenţii lui a. Tunderea ramurii Aa din arborele
Amax înseamn¼ a îndep¼artarea din Amax a tuturor descendenţilor lui a excepţie
el însuşi. Se noteaz¼a cu Amax Aa arborele astfel obţinut. Dac¼ a arborele A
este obţinut din Amax prin tunderi succesive atunci A este un subarbore a lui
Amax .
Prin "cel mai bun" subarbore se înţelege acel arbore care conţine minimul
de segmente terminale cu T EA minim¼ a şi furnizând o estimaţie corect¼
a a erorii
teoretice de clasare.
Metoda propus¼ a de Breiman pentru obţinerea celui mai bun subarbore
se bazeaz¼ a pe utilizarea unui eşantion-test şi prezint¼a un dublu avantaj:

- determin¼
a "cel mai bun" subarbore f¼ ar¼a s¼
a utilizeze teste statistice pen-
tru de…nirea unei reguli de oprire a diviziunii ;

- determin¼
a o estimaţie precis¼
a a erorii teoretice de clasare.

3.3.2.1 PROCEDURA DE SELECŢIE A SUBARBORELUI OPTI-


MAL Se împarte eşantionul de baz¼ a în dou¼ a p¼arţi: un eşantion de înv¼aţare
(de exemplu 2/3 din eşantionul de baz¼ a) şi un eşantion de testare (restul de
1/3 din eşantionul de baz¼ a).
Pornind de la eşantionul de înv¼ aţare se construieşte arborele Amax .
Operaţia de "tundere" a arborelui Amax const¼ a în construirea unui şir
optimal de subarbori incluşi, fAH ; : : : ; Ah ; : : : ; A1 g ; cu AH = Amax , Ah subar-
borele cu h segmente terminale, A1 eşantionul total. Fiecare subarbore Ah din
acest şir este optimal în sensul c¼ a eroarea aparent¼a (EA) a subarborelui este
minimal¼ a printre toţi subarborii având acelaşi num¼ ar de segmente terminale,
adic¼
a
EA (Ah ) = min EA (A)
A2Sh

cu Sh mulţimea subarborilor lui Amax cu h segmente terminale.


Se selecteaz¼ a din şirul de arbori optimali subarborele A? care prezint¼
a
eroarea teoretic¼a (ET) minim¼ a, adic¼
a

ET (A? ) = min ET (Ah )


1 h H

Eroarea teoretic¼a se estimeaz¼


a dup¼
a formula
X
d (A) =
ET Ret ;
t2A

cu Ret = net se2t , unde ne este volumul eşantionului test, net este num¼ arul de
e
n
2
indivizi din eşantionul test aparţinând segmentului t, iar set este dispersia de
3.3. SEGMENTARE 197

selecţie a variabilei y în interiorul segmentului t, adic¼


a

card(t)
1 X e
se2t = yi yt ;
et
n
i=1

unde e
y t este media de selecţie în interiorul segmentului t.

3.3.2.2 DIVIZIUNI ECHI-REDUCTIVE ŞI ECHI-DIVIZANTE


Cea mai bun¼ a diviziune (d? ) a unui nod este cea care asigur¼ a cea mai mare
reducere a dispersiei reziduale sau a impurit¼ aţii prin trecerea de la acel nod la
segmentele descendente. Aceast¼ a de…niţie este foarte strict¼a, putând exista di-
viziuni aproximativ la fel de bune dar foarte importante la nivelul interpret¼ arii.
Se pot de…ni astfel alte dou¼a tipuri de diviziuni:

diviziunile echi-reductive care asigur¼a, dup¼a diviziunea d? ; cele mai mari


reduceri ale impurit¼aţii sau cele mai mici dispersii reziduale. Ele permit
alegerea "celei mai bune" variabile explicative;

diviziunile echi-divizante care furnizeaz¼a repartiz¼


arile cele mai apropiate
de cea mai bun¼ a diviziune, d? . Ele permit clasarea indivizilor cu valori
lips¼
a tocmai la variabila(lele) ce de…neşte(sc) diviziunea.

Diviziunile echi-reductive se obţin înlocuind variabila x? ce d¼ a diviziunea


a d? cu variabila xi ; xi 6= x? ; ce d¼
optim¼ a diviziunea d?i cu reducerea impurit¼aţii
cea mai bun¼a dup¼a d? ; este, în alţi termeni, a doua cea mai bun¼ a diviziune a
nodului t. Prin extensie se pot de…ni a 3-a, a 4-a..., diviziune echi-reductiv¼ a.
Diviziunile echi-divizante (numite uneori supleante) permit clasarea unui
individ nou ce are ca dat¼ a lips¼
a tocmai m¼ asur¼
atoarea ce de…neşte diviziunea.
În acest caz se caut¼ a variabila care înlocuieşte cel mai bine variabila care
divizeaz¼
a nodul în sensul asigur¼arii unei separ¼
ari a indivizilor cît mai apropiate
de separarea realizat¼ a de d? . Analog se pot de…ni a 2-a, a 3-a,..., diviziune
echi-divizant¼
a.
198 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

3.3.3 Exemplu

Se consider¼a datele din tabelul A.6. ce ilustreaz¼a 100 de puncte generate


uniform în p¼ 2
atratul [ 0:5; 1:5] şi etichetate cu 1 respectiv 2 astfel încât "s¼
a
împart¼a" p¼ atratul iniţial în patru p¼
atrate aproximativ egale. În acest tabel
CoordX şi CoordY reprezint¼ a coordonatele carteziene ale punctului iar CLS
reprezint¼a eticheta clasei din care face parte. Figura 3.3.4. red¼ a aşezarea
punctelor în plan şi a fost obţinut¼
a selectând din bara de meniu Graphs, Cate-
gorized Graphs, Scatterplots şi desemnând axele conform speci…caţiilor de mai
sus, cu opţiunea Overlaid.

fig. 3.3.4. Scatterplot

Folosind datele din tabelul A.6, se doreşte construirea unui plasator care

a asigneze oric¼ arui punct nou considerat, din p¼ atratul iniţial, eticheta clasei
din care face parte, minimizând eroarea de misclasare. Ne a‡a¼m in faţa unei
probleme de analiz¼ a discriminant¼ a a c¼
arei rezolvare e…cient¼ a, în sensul min-
imiz¼arii erorii de misclasare, presupune folosirea arborilor de decizie binar¼ a.
Aceasta deoarece funcţiile de discriminare nu sunt liniare (sunt liniare doar pe
porţiuni) iar distribuţiile de probabilitate nu satisfac ipotezele teoremei 3.2.2.
Construcţia arborilor de decizie binar¼
a în cadrul pachetului de programe
STATISTICA presupune parcurgerea etapelor prezentate în continuare.
Pentru început se precizeaz¼ a tipul de analiz¼
a utilizat¼
a: Statistics, Multi-
variate Exploratory Techniques, Calssi…cation Trees iar în fereastra generat¼ a
(…g. 3.3.5.) se indic¼ a variabilele pentru analiz¼
a: variabila dependent¼ a - CLS
şi predictorii de tip continuu - CoordX şi CoordY.
3.3. SEGMENTARE 199

fig 3.3.5. Fereastra de start

Construcţia arborilor binari de clasifcare presupune divizarea (split) …ec¼ arui


nod astfel încât cei doi …i rezultaţi s¼ a …e mai omogeni decât nodul p¼ arinte şi
cât mai diferiţi între ei relativ la variabila considerat¼ a (variabila de split). În
submeniul Methods se opteaz¼ a pentru efectuarea diviziunii utilizând tehnica
C&RT style exhaustive search for univariate splits, ce presupune considerarea
tuturor posibilit¼ aţilor de split pentru …ecare variabil¼ a predictor şi …ecare nod
şi alegerea variantei optime în sensul minimiz¼ arii unui criteriu precizat. În
acest caz, criteriul ales este indicele lui Ginni de m¼ asur¼a a impurit¼ aţii (vezi
subcapitolul 3.3.1.1). Deoarece num¼ arul de puncte din cele dou¼ a clase este egal
şi nu sunt disponibile informaţii suplimentare, se p¼ astreaz¼
a opţiunile implicite
referitoare la probabilit¼ aţile à priori şi costurile de misclasare (…g. 3.3.6.).

fig 3.3.6. Submeniul methods

Metoda de "tundere" a arborilor (vezi subcapitolul 3.3.2) este Prune on


misclassi…cation error din submeniul Stopping options şi tot aici se speci…c¼ a
minimul de puncte dintr-o anumit¼ a clas¼
a admis într-un nod terminal: n = 5. O
metod¼ a e…cient¼
a de estimare a performanţelor subarborilor obţinuţi şi selectare
a celui de dimesiune optim¼a, este v-fold cross-validarea, în cadrul c¼
areia, pentru
…ecare dimensiune a arborelui:

1. se împarte mulţimea celor 100 de puncte (mulţimea de antrenare) în v


sugbrupuri aleatoare, de dimensiuni egale,
200 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

2. pentru i = 1 v

(a) se reţine subgrupul i ca mulţime de test şi se construieşte subar-


borele (se face antrenarea) pe baza celorlalte v 1 subgrupuri,
(b) se m¼
asoar¼
a riscul empiric pe subgrupul de test i.

3. estimatorul …nal nedeplsat al riscului real se calculeaz¼


a ca medie arit-
metic¼
a a riscurilor empirice corespunz¼
atoare celor v subgupuri de test.

În submeniul Advanced se completeaz¼ a 10 ca valoare a lui v pentru v-fold


crossvalidation şi se apas¼
a butonul OK.
Noua fereastr¼ a (…g. 3.3.7.) prezint¼
a contextul de lucru şi ofer¼
a acces la
tipurile de gra…ce şi tabele speci…ce acestei analize.

fig. 3.3.7. Fereastra de rezultate

Dup¼ a cum se observ¼ a în tabelul generat ap¼ asând butonul Tree sequence
din submeniul Tree structure, din cele 6 variante de arbori rezultate în urma
"tunderii" succesive a arborelui maximal, procedeul de cross-validare îl indic¼ a
pe cel cu 7 noduri terminale ca …ind optim: cel mai mic arbore de cost cât
mai apropiat de minim .
Pentru a vizualiza acest subarore, în submeniul Tree Plot se bifeaz¼ a opţi-
unea Node plot type: Hystograms, care presupune ilustrarea histogramelor
punctelor din …ecare nod în cadrul diagramei arborelui, şi se apas¼ a butonul
Classi…cation tree plot (…g. 3.3.8.). Se observ¼ a c¼
a iniţial cele dou¼
a clase conţin
acelaşi num¼ ar de puncte, dup¼ a cum indic¼a şi histograma din nodul 1 (nodul
r¼ad¼acin¼a ), şi se alege CoordX ca variabil¼a de split. La primul pas, în funcţie
de valoarea CoordX corespunz¼ atoare, un nou punct va … asignat nodului 2
(CoordX<=0.03086) sau 3 (CoordX>0.03086). Algoritmul se repet¼ a pân¼ a
când noul punct este afectat unui nod terminal - un nod pur (care conţine
puncte aparţinând unei singure clase) sau un nod cu minim 5 puncte dintr-o
anumit¼ a clas¼ a.
3.3. SEGMENTARE 201

fig. 3.3.8. Arbore binar de clasificare

Pentru detalii asupra structurii arborelui binar de clasi…care obţinut în


submeniul Tree Structure se apas¼ a Classi…cation tree structure. În tabelul
3.3.1 sunt speci…cate:

eticheta …ului drept şi …ului stâng, pentru …ecare nod neterminal,

num¼
arul de puncte din …ecare clas¼
a din nodul respectiv,

clasa c¼
areia ii va … asignat un punct alocat nodului respectiv,

condiţia de split, pentru …ecare nod neterminal,

variabila de split, pentru …ecare nod neterminal.

tabelul 3.3.1. Structura arborelui de clasificare


202 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Importanţa predictorilor în construcţia modelului (submeniul Tree Struc-


ture, butonul Predictor Importance) se m¼ asoar¼
a pe o scar¼a de la 0 (importanţ¼
a
minim¼ a) la 100 (importanţ¼
a maxim¼ a) şi constituie o informaţie util¼
a mai ales
în cazul unui num¼ ar mare de variabile explicative. Pentru exemplul curent,
valorile din tabelul 3.3.2 sunt apropiate, coordonata abscisei având o impor-
tanţ¼
a maxim¼ a.

tabelul 3.3.2. ImportanŢ a predictorilor

Matricea de misclasare (tabelul 3.3.4.) este disponibil¼ a în submeniul


Predicted Classes ap¼ asând butonul Misclassi…cation matrix. Se observ¼ a c¼
a
arborele obţinut a efectuat o singur¼
a eroare de clasare a datelor de antrenare.
Într-adev¼ar, examinând gra…cul din …gura 3.3.9. care ilustreaz¼ a repartizarea
punctelor în cele 7 noduri terminale, se observ¼
a c¼
a în regiunea corespunz¼ atoare
nodului terminal 9, care contine puncte din clasa 2, se reg¼ aseşte şi un punct
din clasa 1.

tabelul 3.3.4. Matricea de misclasare


3.3. SEGMENTARE 203

fig. 3.3.9. Repartizarea punctelor în nodurile terminale

Global Cross Validation, meniul Cross-validation, se alege v=10, butonul


Perform global CV, în fereastra ap¼
arut¼
a se apas¼
a butonul Global CV misclas-
si…cation matrix. =>puterea de generalizare este mai sc¼azut¼a.

tabelul 3.3.5. Cross-validare globalA¼


204 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Capitolul 4

MODELE LINIARE

Modelele liniare urm¼ aresc s¼


a explice sau s¼ a prezic¼
a o variabil¼
a continu¼
a,
numit¼ a variabil¼a dependent¼a/de explicat/endogen¼a cu ajutorul unor variabile
numite explicative/exogene/predictori. În general, termenul de model de re-
gresie este rezervat cazului în care variabilele explicative sunt continue. În
cazul în care acestea sunt variabile discrete (nominale) modelul se va numi de
analiz¼a dispersional¼a ( sau analiz¼a de varianţ¼a - ANOVA) iar dac¼ a mulţimea
variabilelor exogene este mixt¼ a vom vorbi de analiz¼a de covarianţ¼a.
Regresia reprezint¼ a, f¼
ar¼a îndoial¼a, metoda statistic¼ a cea mai utilizat¼a, în
po…da faptului c¼ a limitele ei nu sunt întotdeauna bine cunoscute. Literatura
privind modelele de regresie este foarte vast¼ a. O bibliogra…e comentat¼ a a câ-
torva sute de articole şi c¼
arţi se g¼
aseşte în [34]. Searle [54] şi Seber [55] trateaz¼a
exhaustiv problemele de analiz¼ a dispersional¼ a şi de covarianţ¼a. Lucrarea lui
Rao [50] - reeditare a unui manual clasic, studiaz¼ a inducţia statistic¼
a asupra
modelului liniar. Un alt manual clasic este lucrarea lui Draper şi Smith, [20].
Mosteller şi Tukey [48], Besley [6], Atkinson [4], prezint¼ a puncte de vedere
mai moderne, incluzând diverse metode de selecţie de variabile, în timp ce
Chatterjee şi Price [11] insist¼ a asupra implement¼ arii în practic¼
a a modelelor.
Saporta [53] realizeaz¼ a o prezentare mai concis¼ a a problematicii.

4.1 Modelul de regresie

4.1.1 Formularea problemei

Se dispune de n observaţii asupra p + 1 variabile: y; x1 ; x2 ; : : : ; xp : Se


urm¼areşte explicarea sau prezicerea variabilei dependente y cu ajutorul va-
riabilelor predictori x1 ; x2 ; : : : ; xp ; presupuse cunoscute. Relaţia dintre y şi

205
206 CAPITOLUL 4. MODELE LINIARE

x1 ; x2 ; : : : ; xp este presupus¼ a1 , adic¼


a liniar¼ a

yi = 0 + 1 xi1 + ::: + p xip + "i ; i = 1; n

unde 0 ; 1 ; : : : ; p sunt coe…cienţii necunoscuţi ai modelului. Termenul con-


stant 0 poate … considerat drept coe…cientul unei variabile explicative arti-
…ciale, x0 , ale c¼ arei valori xi0 sunt întotdeauna egale cu 1. Variabila "i se
numeşte reziduu/eroare şi reprezint¼
P a distanţa dintre valoarea observat¼ a, yi ; şi
cea calculat¼a de modelul liniar, x
j ij . În cazul în care nu se speci…c¼
a altfel,
j
"i sunt presupuse cantit¼
aţi aleatoare independente.
Pus sub o form¼
a matriceal¼ a modelul se exprim¼
a:

yn 1 = Xn (p+1) (p+1) 1 + "n 1

y = (y1 ; : : : ; yn )0 este
unde 0 1 vectorul observaţiilor asupra variabilei dependente,
1 x11 x1p
B1 x21 x2p C
B C
X = B. .. .. .. C este matricea observaţiilor asupra variabilelor ex-
@ .. . . . A
1 xn1 xnp
0
plicative, = 0 ; 1 ; : : : ; p este vectorul coe…cienţilor, " = ("1 ; : : : ; "n )0
este vectorul erorilor.
Pentru evaluarea coe…cienţilor necunoscuţi ai modelului, inclusiv a rezidu-
urilor "i se dispune de un sistem de n ecuaţii liniare având n+p+1 necunoscute.
Prin urmare, sistemul admite o in…nitate de soluţii. Fie b0 ; b1 : : : ; bp o soluţie
posibil¼a. Aceasta va trebui s¼ a minimizeze global mulţimea distanţelor de la
modelul liniar urmând un criteriu ce va … precizat, altfel spus:

se aleg (b0 ; b1 : : : ; bp ) care minimizeaz¼a mulţimea valorilor ei unde

ei = yi (b0 + b1 xi1 + : : : + bp xip ) :


P
Un criteriu posibil este norma Lk care implic¼
a minimizarea jei jk . Cazuri
particulare sunt:

norma L2 - caz în care procedeul de minimizare este denumit P Metoda


celor mai mici p¼atrate şi determin¼
a soluţia ce minimizeaz¼
a (ei )2 ;
norma L1 - caz în care procedeul de minimizare este denumit Metoda P
celor mai mici valori absolute şi determin¼
a soluţia ce minimizeaz¼
a jei j;
norma L1 - caz în care procedeul de minimizare este denumit Metoda
minmax şi determin¼
a soluţia ce minimizeaz¼
a max ei ;
i

1
Liniaritatea relaţiilor în raport cu coe…cienţii poate s¼
a apar¼
a dup¼
a o transformare pre-
a a datelor. De exemplu: y = 3 x1 1 x2 2 (1 + ") devine liniar dup¼
alabil¼ a transformarea
logaritmic¼
a log y = 1 log x1 + 2 log x2 + log 3 + log (1 + ")
4.1. MODELUL DE REGRESIE 207

Criteriul celor mai mici p¼


atrate conduce la calcule algebrice simple, se
preteaz¼a la interpret¼
ari geometrice clare şi permite interpret¼ari statistice in-
teresante, motiv pentru care se utilizeaz¼a cel mai des.
Folosirea normei L1 în cazul regresiei liniare apare pentru prima dat¼ a la
Laplace în 1793. Acest criteriu care nu privilegiaz¼ a ecarturile importante st¼ a
la baza metodelor de regresie mai robuste [35].

4.1.2 Estimarea funcţiei de regresie


De…niţia 4.1.1 Se numeşte funcţie de regresie liniar¼a multipl¼a funcţia:

ye f (x0 ; x1 ; : : : ; xp ) = b0 x0 + b1 x1 + : : : + bp xp :

Estimarea acestei funcţii, în aceast¼ a prezentare, presupune determinarea


coe…cienţilor b0 ; b1 : : : ; bp prin metoda celor mai mici p¼ atrate, pornind de la
observaţiile fyi ; xi0 = 1; xi1 ; : : : ; xip gni=1 .
În cazul regresiei simple linare ( p = 1):

funcţia de regresie se mai numeşte şi dreapt¼a de regresie,

b0 se numeşte intercepţie sau bias şi reprezint¼


a punctul de intersecţie al
dreptei de regresie cu axa Oy,

b1 se numeşte panta dreptei de regresie şi indic¼


a modi…carea proporţion-
al¼
a a variabilei dependente y la modi…carea cu o unitate a variabilei
predictor x1 .

În cele ce urmeaz¼ a vom presupune c¼ a variabilele sunt centrate, ceea ce


implic¼a b0 = 0. Una dintre propriet¼ aţile regresiei multiple este aceea c¼
a, ex-
cepţie f¼
acând b0 , toate estimaţiile coe…cienţilor r¼
amân neschimbate indiferent
dac¼
a variabilele sunt sau nu centrate.
Lema 4.1.1
Coe…cienţii funcţiei de regresie liniar¼
a multipl¼
a sunt:
1
b = X0 X X0 y:

Demonstraţie. Fie sistemul de ecuaţii de condiţie:

yn 1= Xn p bp 1 +en 1

e = Xb valorile prezise de modelul de regresie liniar¼


şi y a multipl¼
a. Într-o
manier¼ a general¼
a se caut¼
aye cât mai aproape de y. Deci estimarea funcţiei de
regresie se reduce la determinarea coe…cienţilor b care minimizeaz¼
a
X
e0 e = e2i = ky yek
208 CAPITOLUL 4. MODELE LINIARE

Termenul e0 e este un produs scalar care depinde de b1 : : : ; bp , aşadar o condiţie


necesar¼
a pentru a‡area unui punct de extrem este anularea derivatelor parţiale
de ordinul întâi, adic¼
a
@
e0 e = 0:
@b
Cum
e0 e = (y Xb)0 (y Xb) = y0 y 2b0 X0 y + b0 X0 Xb
deoarece
y0 Xb = b0 X0 y = scalar
rezult¼
a c¼
a
@
e0 e = 2X0 y+2X0 Xb:
@b
Astfel, condiţia de extrem devine:

X0 Xb = X0 y (4.1.1)

care este un sistem de p ecuaţii cu p necunoscute, numit şi sistem de ecuaţii


normale. Dac¼ a n p (mai multe ecuaţii de condiţie decât necunoscute) şi
dac¼a X este de rang maxim p, atunci X0 X este inversabil¼ a. Aşadar soluţia
sistemului (4.1.1) este:
1 0
b = X0 X Xy (4.1.2)

R¼amâne de veri…cat c¼ e o alt¼


a b este un punct de minim. Fie b a soluţie şi e
e
vectorul ecarturilor corespunz¼
atoare:

e
e=y e = (y
Xb Xb) + Xb e =e+X b
Xb e
b

Atunci
0
e0 e
e e = e0 e + 2 b e X0 (y
b Xb) + b e
b X0 X b e
b

iar în membrul drept, conform relaţiei 4.1.1, termenul central este nul şi egal-
itatea se reduce la
0
e0 e
e e = e0 e+ X b e
b X b e :
b

Membrul drept al identit¼ aţii este o sum¼


a de p¼ atrate ce nu poate … decât pozi-
tiv¼
a sau nul¼a. În concluzie e0 e este cea mai mic¼ a sum¼a a p¼
atratelor ecarturilor,
deci b este minim.
Propriet¼aţile algebrice ale coe…cienţilor b permit şi o interpretare geo-
metric¼a a operaţiilor efectuate. Ne plas¼ am în spaţiul Rn ; unde n este num¼ arul
observaţiilor f¼
acute asupra a p + 1 variabile: y;x1 ; : : : ; xp . C¼ autarea lui y
sub forma unei combinaţii liniare de x1 ; : : : ; xp se reduce la a de…ni ye într-un
subspaţiu, VX , generat de variabilele explicative. Tehnica ajust¼ arii celor mai
4.1. MODELUL DE REGRESIE 209

mici p¼ a ye; pe
atrate se reduce la aproximarea lui y prin proiecţia sa ortogonal¼
subspaţiul VX . Înlocuind b prin valoarea dat¼
a de (4.1.2), se obţine
1
e = Xb = X X0 X
y X 0 y = PX y

unde
1
PX = X X 0 X X0 ; (4.1.3)
este operatorul proiecţiei ortogonale pe VX .
Cum rezult¼ a din …g. 4.4.1, modelul teoretic y = X + " de…neşte o
descompunere a lui y în doi termeni necunoscuţi: X în VX şi " în Rn .
Metoda celor mai mici p¼ atrate propune ca soluţie descompunerea y = Xb + e;
care minimizeaz¼ a „lungimea” lui e proiectând ortogonal y pe Xb în VX şi "
pe e în subspaţiul din Rn ;ortogonal pe VX ; notat VX? : Cei doi vectori, Xb şi
e; sunt ortogonali.

fig. 4.1.1. ProiecŢ ia lui y pe VX


a remarc¼am c¼a variabilele …ind centrate, lungimile în Rn pot … inter-
pretate în termeni de dispersie. Teorema lui Pitagora aplicat¼ a în triunghiul
dreptunghic de catete Xb şi e şi ipotenuz¼
a y se scrie

y0 y = e0 e + b0 X0 Xb:

Împ¼
arţind cu n …ecare termen se obţine relaţia

1X 2 1X 1X 2
yi = (yi ye)2 + yei
n n n
unde
1X 2
yi reprezint¼a dispersia total¼a,
n
1X
(yi ye)2 reprezint¼ a dispersia rezidual¼a,
n
1X 2
yei reprezint¼
a dispersia explicat¼a.
n
210 CAPITOLUL 4. MODELE LINIARE

Pentru a avea o idee global¼ a asupra calit¼ aţii aproxim¼ arii se de…neşte
coe…cientul de corelaţie multipl¼a, R, ca …ind cosinusul unghiului între y şi Xb,
sau coe…cientul de corelaţie între valorile iniţiale şi cele ajustate:

e ) = cor (y; Xb)


R = cor(y; y


atratul s¼
au poate … exprimat sub diferite forme:
P 2
2 cov 2 (y; y
e) var (e
y) ye dispersia explicit¼
a
R = = = P i2 = :
var (y) var (ey) var (y) yi dispersia total¼
a

Termenul R2 se numeşte coe…cient de determinare . Dac¼ a R2 = 1, atunci


yei = yi pentru orice i; deci modelul liniar ajusteaz¼ a perfect datele.
În mod explicit, în funcţie de datele iniţiale, R2 se scrie ca
1
b0 X0 Xb y0 X (X0 X) X0 y
R2 = =
y0 y y0 y

Acest coe…cient descrie împ¼


arţirea dispersiei totale între dispersia explicat¼
a şi
cea rezidual¼
a:

a: R2 var (y) = var (e


dispersia explicat¼ y)
dispersia rezidual¼ 2
a: (1 R ) var (y) = var (e)
) dispersia total¼
a: var (y) = var (e
y) + var (e)
P 2
Astfel, prin minimizarea termenului ei se maximizeaz¼ a termenul R2 . Cu
alte cuvinte, metoda celor mai mici p¼atrate determin¼a acea combinaţie liniar¼a
a variabilelor explicative ce maximizeaz¼a corelaţia cu variabila explicat¼a y.

Observaţia 4.1.1
Valoarea lui R nu poate … totuşi un criteriu absolut de apreciere a calit¼ aţii
estim¼
arii. Într-adev¼ ar, trebuie remarcat c¼a introducerea în model a unei noi
varabile explicative nu poate decât s¼ a micşoreze suma p¼
atratelor ecarturilor şi
în consecinţ¼
a s¼
a creasc¼a valoarea lui R. Ad¼ augând o dimensiune spaţiului VX
distanţa de la y la acest subspaţiu scade.

4.1.3 Calitatea estim¼


arii
Pân¼ a acum ne-am limitat la a rezolva o problem¼ a pur numeric¼ a de inter-
polare, cu o m¼
asur¼
a global¼
a a calit¼
aţii dat¼
a de coe…cientul de corelaţie multipl¼
a,
R. Ne propunem, în cele ce urmeaz¼ a, s¼a test¼
am

calitatea acestei interpol¼


ari şi

semni…caţia statistic¼
a a coe…cienţilor de regresie,
4.1. MODELUL DE REGRESIE 211

ceea ce implic¼
a noi ipoteze asupra lui y şi ".
S¼a presupunem c¼ a reizduul "i este efectul cumulat al unui mare num¼ ar
de cauze neidenti…cate şi în consecinţ¼a îl putem considera ca o peturbaţie
aleatoare. Acest punct de vedere, extins la cele n relaţii ale modelului, in-
troduce un vector aleator de reziduuri, "; şi de…neşte y = Xb + " ca vector
aleator.
Tabelul 4.4.1. rezum¼ a caracteristicile diferitelor elemente ale modelului.

tabelul 4.1.1. Caracteristicile elementelor modelului de


regresie
y = X + " Observat Neobservabil
Aleator y "
Nealeator X

Se presupune c¼
a reziduurile "i au M ("i ) = 0, au aceeaşi dispersie var ("i ) =
2 şi sunt dou¼
a câte dou¼a necorelate, var ("i ; "j ) = 0; 8i = 1; n; j = 1; n. Deci

M (") = 0; var (") = M ""0 = 2


I

ceea ce implic¼
a relaţiile
2
M (y) = X ; var (y) = var (") = I (4.1.4)

Vectorul b = (X0 X) 1 X0 y al coe…cienţilor de regresie, …ind o funcţie de y,


este la rândul s¼
au un vector aleator. Cu acestea se poate formula urm¼ atoarea
lem¼a.
Lema 4.1.2
1. (a) b este un estimator nedeplasat al lui ;
(b) var (b) = 2 (X0 X) 1

Demonstraţie.

(a) Din formula 4.1.4


1 1
M (b) = X0 X X0 M (y) = X0 X X0 X = :

(b) Dispersia lui b se scrie ca

var (b) = M (b ) (b )0 :

Dar
1
b = X0 X X0 y =
1
= X0 X X0 (X + ") =
1
= X0 X X0 ":
212 CAPITOLUL 4. MODELE LINIARE

Se obţine deci

1 1
M (b ) (b )0 = X0 X X0 M ""0 X X0 X =
1 1
= X0 X X0 2
IX X0 X =
2 0 1
= XX

Teorema 4.1.1 (Gauss-Markov) b = (X0 X) 1 X0 y este estimatorul de dis-


persie minim¼a al lui în clasa estimatorilor liniari nedeplasaţi.
Demonstraţie. Fie By un alt estimator liniar nedeplasat al lui şi …e
(X0 X) 1 X0 y By diferenţa dintre cei doi estimatori. Cum aceştia sunt nede-
plasaţi rezult¼
a c¼
a
1 0
X0 X X X = BX :
Aceast¼
a relaţie este adev¼
arat¼
a pentru orice ; deci

BX = Ip+1 :

a alegem B = (X0 X) 1 X0 + C. Cum BX = Ip+1 rezult¼


S¼ a CX = 0.
Matricea de varianţ¼
a-covarianţ¼
a a lui By este:
h i h i0
1 0 1 0
var (By) = Bvar (y) B0 = X0 X X + C 2 I X0 X X +C =
h i
2 1 0 1 1 1 0 0
= X0 X X X X0 X + CX X0 X + X0 X X C +CC0

Cum CX = 0 rezult¼
a, conform lemei 4.1.2:
h i
2 1
var (By) = X0 X + CC =
2
= var (b) + CC0

Aşadar, …ecare component¼ a bi a lui b are o dispersie mai mic¼ a decât


(By)i iar pe de alt¼a parte var (By) var (b) este semi-pozitiv de…nit¼ a (într-
adev¼ar matricea CC0 este simetric¼ a iar termenii de pe diagonala principal¼ a
sunt nenegativi).

a not¼am c¼a 2 este dispersia teoretic¼a a reziduurilor şi în general nu
este cunoscut¼ a. Termenul 2 se poate estima prin s2 , dispersia empiric¼ a a
ecarturilor, calculat¼
a dup¼
a ajustare, deoarece:
Lema 4.1.3

e k2
ky y ky Xbk2
s2 = =
n p n p
este un estimator nedeplasat al lui 2.
4.1. MODELUL DE REGRESIE 213

Demonstraţie. S¼ a consider¼am triunghiul dreptunghic ale c¼ arui vârfuri sunt


extremit¼
aţile vectorilor y; Xb; şi X (…g. 4.1.1.). S-a notat cu PX proiectorul
pe VX - subspaţiul generat de variabilele exogene x1; ; : : : ; xp , şi cu I PX
proiectorul pe VX? :. Deoarece e = y Xb este perpendicular pe VX se observ¼ a

a
y Xb = (I PX ) ":
Aşadar, " se descompune în Xb X în VX şi y Xb în VX? . Cu acestea,
având în vedere c¼a I PX ; …ind proiector, este simetric:

(I PX )0 = I PX

şi idempotent:
I PX = (I PX )2 ;
rezult¼
a

ky Xbk2 = "0 (I PX )0 (I PX ) " =


0
= " (I PX ) " =
X
= ij "i "j ;
i;j

unde s-au notat cu ij componentele lui I PX .


Rezult¼
a
X
M ky Xbk2 = ij M ("i "j ) =
i;j
X
2
= ij ij =
i;j
n
X
2 2
= ii = tr (I PX )
i=1

unde ij este simbolul lui Kroneker. Dar urma unui proiector este egal¼ a cu ran-
gul s¼
au (deoarece valorile sale proprii sunt 0 sau 1) adic¼a este egal¼
a cu dimen-
siunea spaţiului de sosire care este aici VX? . Având în vedere c¼
a dim (VX ) = p
a dim VX? = n p, deci
rezult¼

M ky Xbk2 = 2
(n p) :

Dac¼a not¼
am cu V matricea de covarianţ¼
a empiric¼ a a variabilelor explica-
tive presupuse centrate V = n1 X0 X se obţine relaţia
2
1
var (b) = V
n
214 CAPITOLUL 4. MODELE LINIARE

S¼a remarc¼am dualitatea care exist¼ a între variabilele explicative şi coe-
…cienţii acestor variabile în modelul de regresie liniar¼a. Variabile explicative
necorelate (matricea V diagonal¼ a) implic¼a coe…cienţi de regresie necorelaţi.
Rezultatele precedente permit s¼ a imagin¼am diferite teste statistice în
ipoteze su…cient de generale. Într-adev¼ ar, dac¼
a speci…c¼ am legea de repartiţie
a reziduurilor, atunci putem obţine diferite teste clasice pe care le vom aminti
în cele ce urmeaz¼ a f¼
ar¼
a demonstraţie.
În continuare presupunem

: " vN 0n 1;
2
In n :

În acest caz, densitatea de probabilitate a vectorului aleator y este:

1 1
f (y; ; ) = p n exp 2
(y X )0 (y X )
2 2

deoarece y este un vector aleator normal n dimensional, de medie X şi ma-


trice de varianţ¼ a 2 I.
a-covarianţ¼

Lema 4.1.4
Estimatorii de verosimilitate maxim¼
a ai lui şi 2 sunt

b = b = X0 X 1 X0 y şi
1 1
b2 = ky Xbk2 = kek2 ; care este deplasat.
n n
Cum transform¼ arile liniare ale unui vector gaussian nu schimb¼
a legea sa
de repartiţie, b este un vector normal p dimensional, de medie şi matrice de
varianţ¼
a-covarianţ¼a 2 (X0 X) 1 .
Tot din ipoteza se mai poate deduce c¼ a2

k"k2
2
v 2
(n)

iar teorema lui Pitagora pentru triunghiul dreptunghic determinat de extrem-


it¼
aţile vectorilor y; Xb; şi X se transform¼
a în teorema lui Cochran rezultând

kX Xbk2 ky Xbk2
2
v 2
(p) şi 2
v 2
(n p) .

Cele dou¼
a variabile sunt independente, ca forme p¼
atratice de rang p respectiv
n p (rangul proiectorilor) de n variabile normale centrat-reduse.
ky Xbk2
Pornind de la distribuţia lui 2 se pot construi intervale de în-
credere pentru .
2
Fie x1 ; x2 ; : : : ; xn variabile indepedente, distribuite dup¼
a o lege normal¼ a standard.
Atunci variabila obţinut¼ atratelor lor, 2 = x21 + x22 + : : : + x2n urmeaz¼
a prin însumarea p¼ ao
distribuţie chi-p¼atrat cu n grade de libertate notat¼ a 2 (n).
4.1. MODELUL DE REGRESIE 215

Pentru a testa dac¼a o variabil¼


a explicativ¼
a xk are o in‡uenţ¼
a real¼
a asupra
variabilei endogene y se consider¼a urm¼atoarea pereche de iopteze:

H0 : k = 0 cu alternativa HA : k 6= 0:

Statistica testului este


bk
tk =
sk
unde q
sk este estimaţia abaterii standard a coe…cientului bk dat¼
a de formula
ky Xbk 1
sk = n p vkk , cu vkk al k–lea element de pe diagonala matricii (X0 X) .
În ipoteza \ H0 ; statistica tk este repartizat¼
a t(n p) (Student cu n p
grade de libertate, deoarece modelul estimeaz¼ a p coe…cienţi). Fie

pk = P (jt(n p)j tk ) :

Dac¼ a pk < 0; 05 se repinge ipoteza conform c¼ areia variabila xk nu are o in‡u-


enţ¼
a real¼ a asupra lui y cu un grad de încredere de 95%.
Testul de mai sus poate … extins la o combinaţie liniar¼ a oarecare de
coe…cienţi.
În cele de mai sus am v¼ azut cum se poate testa succesiv nulitatea …ec¼arui
coe…cient. Totuşi, r¼ aspunsurile la probleme de tipul " 1 = 0 f¼ ar¼
a nicio pre-
supunere asupra lui 2 " apoi " 2 = 0 f¼ ar¼
a nicio presupunere asupra lui 1 ”nu
determin¼ a r¼
aspunsul la o problem¼a de tipul " 1 = 0 şi simultan 2 = 0" deoa-
rece predictorii pot … foarte corelaţi între ei. De aici reiese utilitatea test¼
arii
nulit¼aţii simultane a mai multor coe…cienţi de regresie.
Dac¼ a presupunem, f¼ar¼
a a pierde din generalitate, c¼a primii q coe…cienţi
de regresie sunt zero atunci perechea de ipoteze a testului compus este

H0 : 1 = 2 = ::: = q = 0 (şi restul p q coe…cienţi sunt oarecare)

cu alternativa

HA : cel puţin unul dintre primii q coe…cienţi este nenul.

S¼a not¼am cu XH0 ultimele p q coloane ale lui X şi cu H0 ultimele


p q componente ale lui . Modelul de regresie se scrie matriceal în cele dou¼
a
ipoteze astfel:

H0 : y0 = XH0 H0 + "0 (modelul redus),


HA : y = X + " (modelul complet).

Se consider¼
a statistica

e 0 k2
ky y e k2 =q
ky y
F =
e k2 = (n
ky y p)
216 CAPITOLUL 4. MODELE LINIARE

a Fisher cu q şi n p grade de libertate3 .


care în ipoteza \ H0 este repartizat¼
Se noteaz¼
a
S0 = ky y e0 k2 şi S1 = ky ye k2 :

Dac¼ a diferenţa între cele dou¼a cantit¼


aţi S0 şi S1 este mare, deci F este mare,
atunci efectul primelor q variabile este important şi ipoteza nul¼ a va … respins¼
a;
cele q variabile x1 ; ; xq in‡uenţeaz¼
a simultan y.

a observ¼ am c¼ a sunt necesare dou¼ a estim¼ari succesive pentru a calcula
S1 şi S0 .
Dac¼ a dorim s¼ a test¼
am adecvarea modelului liniar la datele observate,
atunci vom testa nulitatea coe…cientului de determinare adic¼ a:

H0 : R2 = 0 (toţi coe…cienţii de regresie liniari sunt zero)

cu alternativa
HA : R2 6= 0

Se consider¼
a statistica

R2 =p
FR =
(1 R2 ) = (n p)

care, în ipoteza \ H0 ; este repartizat¼ a Fisher cu p şi n p grade de libertate.


Ipoteza H0 (a non-regresiei) corespunde şi nulit¼ aţii coe…cientului de corelaţie
multipl¼ a teoretic, R, în cadrul regresiei între variabilele aleatoare. În ipoteza
alternativ¼ a, Ha : R2 6= 0; se poate ar¼ata c¼a R2 este un estimator deplasat al
lui R2 , motiv pentru care unii autori folosesc în loc de R2 o form¼ a ajustat¼aa
acestuia, adic¼ a
2
Rb2 = (n 1) R p
n p
a deplasarea în 1=n dar poate conduce la valori negative a lui R2
care elimin¼
când acesta este foarte mic.
Un calcul elementar arat¼a c¼
a
n b2 s2 :
b2 = 1 R y
n 1

Dac¼ a se doreşte calcularea unui interval de încredere pentru o valoare


y0 prezis¼ a de modelul de regresie liniar¼ a multipl¼ a y; X ; 2 I , care cores-
punde unei observaţii suplimetare pentru care variabilele explicative iau valo-
rile x10 ; x20 ; : : : ; xp0 atunci, considerând x00 =(1; x10 ,x20 ,...,xp0 ), y
e0 = x00 b este
1
o variabil¼ a de medie x00
a aleatoare normal¼ şi dispersie 2 x00 (X0 X) x0 .

3
Fie variabilele aleatoare X s 2 ( 1 ) şi Y s 2 ( 2) : Atunci variabila aleatoare F s
2
( 1)
2(
2)
urmeaz¼a o repartiţie Fisher cu 1 şi 2 grade de libertate.
4.1. MODELUL DE REGRESIE 217

În ipoteza , statistica
y0 e0
y
q
1
b 1 + x00 (X0 X) x0

este repartizat¼
a t (n p) ; ceea ce permite estimarea unui interval de încredere
pentru “valoarea adev¼arat¼a” y0 cu un prag de semni…caţie dat.

4.1.4 Studiul reziduurilor şi al observaţiilor aberante


Studiul reziduurilor este important deoarece:
poate evidenţia posibilele observaţii aberante sau pe cele care joac¼
a
un rol important în determinarea funcţiei de regresie;
adesea este singura modalitate de a veri…ca empiric ipotezele mod-
elului (liniaritate, homoscedasticitate4 etc.). Dac¼ a aceste ipoteze sunt corecte
atunci gra…cul reziduurilor în funcţie de variabilele explicative nu trebuie s¼ a
prezinte nicio tendinţ¼
a.

Lema 4.1.5

2 1
var (e) = I X X0 X X0

e ?e (din construcţie) şi


Demonstraţie. Deoarece y

y = (y Xb) + Xb = e+e
y

rezult¼
a
var (y) = var (e) + var (e
y) :
Din ipoteza rezult¼
a
2 2 1
I =var (e) + X X0 X X0

deoarece, conform lemei 4.1.2


1
y) = var (Xb) = Xvar (b) X0 =
var (e 2
X X0 X X0 :

Deci var (e) = 2 I X (X0 X) 1 X0


Lema 4.1.5 arat¼
a c¼
a reziduurile sunt, în general, corelate.
Notând cu h i
1 0
hi = X X 0 X X
ii
obţinem
2
V (ei ) = (1 hi )
4
La date bivariate, variabila y prezint¼a homoscedasticitate dac¼a împr¼ aştierea valorilor y
nu depinde de x. Gra…c, secţiunile verticale în diagrama de împr¼ aştiere prezint¼a distribuţii
similare ale norilor de puncte. Noţiunea contrar¼
a este cea de heteroscedasticitate.
218 CAPITOLUL 4. MODELE LINIARE

1 P
n
cu n hi 1 şi hi = p deoarece urma unui proiector este egal¼
a cu rangul
i=1

au (valorile sale proprii …ind 0 sau 1) iar o estimaţie a dispersiei reziduului
este s2 (1 hi ) :

De…niţia 4.1.2 Se numeşte reziduu studentizat m¼


arimea
e (yi yei )
p i = p :
s 1 hi s 1 hi
Când n este mare, reziduurile studentizate trebuie s¼
a r¼
amân¼
a în intervalul
( 2; 2):
Un reziduu mare poate indica o valoare aberant¼ a. Pe de alt¼a parte, o
valoare poate … aberant¼
a f¼
ar¼
a ca reziduul s¼
au s¼
a …e important (…g. 4.1.2.).

fig. 4.1.2. Valoare aberantA¼ cu reziduu 0


Din acest motiv se recomand¼ a studiul in‡uenţei …ec¼
arei observaţii asupra rezul-
tatului.
S¼a începem prin a studia in‡uenţa unei observaţii asupra propriei predicţii.

De…niţia 4.1.3 Se numeşte reziduu prognozat ecartul yi ye( i) unde cu ye( i)


s-a notat prognoza lui yi dat¼ a de modelul liniar ajustat pe baza celor n 1
observaţii obţinute prin excluderea observaţiei i.
yei
Se poate ar¼ a reziduul prognozat este y1i
ata c¼ hi ([53]). Se recomand¼
a deci
prudenţ¼
a faţ¼
a de observaţiile cu hi mare.
M¼arimea
Xn 2
yi yei
Press =
1 hi
i=1
este o m¼asur¼a a puterii predictive a modelului.
Interesant¼a pentru demersul nostru este şi in‡uenţa unei observaţii asupra
coe…cienţilor regresiei.

De…niţia 4.1.4 Se numeşte distanţ¼a Cook m¼


arimea:
0
b b( i) (X0 X) b b( i) e y
y e( i)
Di = =
s2
pe s2
pe
e = Xb şi y
(deoarece y e( i) = Xb( i) ):
4.1. MODELUL DE REGRESIE 219

Distanţa Cook m¼ asoar¼


a ecartul dintre b şi b( i) şi o valoare supraunitar¼
a
a sa reprezint¼a un indicator al unei in‡uenţe anormale a observaţiei i asupra
coe…cienţilor de regresie.

4.1.5 Tehnici de stabilizare a coe…cienţilor de regresie


Sursa principal¼a de instabilitate în estimarea coe…cientului este re-
dundanţa predictorilor. Statistic, aceast¼ a situaţie se re‡ect¼a într-o corelaţie
puternic¼a între variabilele explicative.
Dac¼a predictorii sunt foarte corlelaţi între ei X0 X este prost condiţionat¼ a
(adic¼
a valoarea determinantului este apropiat¼ a de 0) şi inversa acestei matrici
va avea coe…cienţi foarte mari. În aceast¼ a situaţie, având în vedere c¼ a b =
(X0 X) 1 X0 y; coe…cienţii de regresie vor … estimaţi imprecis şi predicţia ye va
… obţinut¼
a cu erori mari chiar dac¼ 2
a R este aproape de 1.
Efectul coliniarit¼
aţii între predictori se m¼asoar¼a cu ajutorul:

factorilor de in‡aţie a dispersiei şi al

valorilor proprii ale matricii de corelaţie.

În cele ce urmeaz¼ a vom presupune c¼ a toate variabilele sunt centrat-


reduse, ceea ce nu in‡uenţeaz¼ a R2 ; îns¼
a X0 X devine egal cu nR, unde R
este matricea de corelaţie a predictorilor. Astfel
1 2
2R 1
var (b) = şi var (bi ) = R ii
:
n n
Dac¼a cele p variabile explicative sunt ortogonale, regresia multipl¼ a se reduce
2
la p regresii simple: var (bi ) = n .
Termenul R 1 ii se numeşte factor de in‡aţie a dispersiei pentru c¼ a
reprezint¼
a un factor de multiplicitate a dispersiei ca urmare a redundanţei
(multicoliniarit¼aţii) predictorilor. Media celor p factori de in‡aţie este utilizat¼
a
uneori ca indice global al multicoliniarit¼ aţii.

a consider¼ am descompunerea R = U U0 unde este matricea diago-
nal¼
a a valorilor proprii şi U este matricea vectorilor proprii ai lui R. În acest
caz
R 1 = U 1 U0
rezultând
p
X
2 (uij )2
var (bi ) = :
n j
j=1

var (bi ) depinde de inversele valorilor proprii ale lui R. Când predictorii sunt
puternic corelaţi, ultimele valori proprii sunt aproape nule, de unde rezult¼ a
instabilitatea lui bi .
Conform teoremei Gauss-Markov, metoda celor mai mici p¼ atrate furnizeaz¼a
estimatorii de dispersie minim¼ a ai lui i în clasa estimatorilor nedeplasaţi.
220 CAPITOLUL 4. MODELE LINIARE

Cum p¼ atratul erorii este egal cu dispersia plus p¼


atratul deplas¼arii, este posibil
ca în anumite condiţii s¼ a obţinem estimaţii mai precise ale coe…cienţilor cu o
deplasare uşoar¼ a.
În cele ce urmeaz¼ a vom considera doar dou¼ a tehnici de obţinere de coe-
…cienţi stabili:

Regresia pe componente principale;


Regresia Ridge;

Metodele de selecţie a variabilelor (subcapitolul 4.1.6) pot … şi ele con-


siderate ca remedii posibile ale multicoliniarit¼ aţii.
Regresia pe componente principale revine la înlocuirea celor p variabile
explicative cu cele p componente principale (demers posibil deoarece acestea
genereaz¼ a acelaşi spaţiu VX ) şi efectuarea regresiei multiple pe acestea din
urm¼ a. Componentele principale …ind necorelate (lema 1.2.9), conform obser-
vaţiei de mai sus regresia multipl¼ a se reduce la p regresii simple iar
p
X cor (y; ci )
e=
y i ci cu i = p sy
i=1 j

unde am notat cu ci componentele principale. Este su…cient s¼ a exprim¼ am ci


în funcţie de variabilele iniţiale pentru a obţine o formul¼
a de regresie liniar¼
a
multipl¼a.
Când coliniaritatea predictorilor este exact¼ a, atunci p = 0 iar o soluţie
pP1
a ecuaţiilor normale este ye= i ci .
i=1
Dac¼a se reţin doar q componente principale, eliminându-le pe cele de
dispersie mic¼ a, atunci se obţine o soluţie aproximativ¼ a proiectând y pe un
subspaţiu al lui VX .
S¼a observ¼am c¼ a acele componente principale care au o dispersie mare
nu sunt întotdeauna cele mai explicative şi c¼ a este mai util s¼
a le ordon¼
am în
funcţie de coe…cienţii lor de corelaţie cu y.
Regresia Ridge consider¼ a urm¼ atorii estimatori pentru
1
b (k) = X0 X+kI X0 y
unde k este o constant¼a pozitiv¼
a ce trebuie determinat¼a. b (0) este estimatorul
celor mai mici p¼
atrate.
Se poate ar¼
ata [53] c¼
a exist¼
a într-adev¼ar un k astfel încât
2 p
X
2 2 1
M kb (k) bk M kb k =
n i
i=1

Valoarea optimal¼ a a lui k depinzând de , necunoscut. În practic¼ a se variaz¼


ak
de la 0 la 1 pe datele centrat-reduse şi se studiaz¼
a variaţiile lui bj (k) (gra…cul
Trace Ridge).
4.1. MODELUL DE REGRESIE 221

4.1.6 Tehnici de selecţie a variabilelor


Pentru a micşora num¼ arul de predictori, a creşte viteza de calcul şi a
obţine formule stabile cu o putere predictiv¼ a bun¼a, se „explic¼a”y doar prin q
predictori în loc de p q.
Criteriile de c¼autare a celor q predictori depind de scopul regresiei: re-
constituirea lui y, prognoza de valori noi sau estimarea precis¼ a a unui model.
Criteriul coe…cientului de determinare R2 , este bine adaptat primului
obiectiv şi este cel mai utilizat în programele de regresie pas cu pas. Aşa cum
menţionam mai înainte, el variaz¼ a monoton cu num¼ arul variabilelor şi deci nu
poate … folosit pentru a alege cardinalul mulţimii de predictori.
Dac¼ a obiectivul este acela de a minimiza eroarea de prognoz¼ a, se reco-
mand¼ a folosirea lui s2 sau a lui P ress (mai greu de calculat). s2 nu variaz¼ a
monoton cu num¼ arul de variabile deoarece
n
s2 = 1 R2 s2y
n p

În schimb s2 variaz¼
a monoton cu R b2 , coe…cientul de determinare ajustat. Prin
urmare, este mai interesant s¼a consider¼ am Rb2 drept criteriu de alegere (cri-
teriul coe…cientului de determinare ajustat), deoarece astfel se pot compara
formule de regresie cu num¼ar diferit de variabile şi se poate alege acea formul¼
a
care minimizeaz¼a s2 sau maximizeaz¼ aR b2 .
Implementarea unuia dintre criteriile de mai sus se poate face:

printr-o c¼
autare exhaustiv¼
a sau

prin metode de c¼
autare pas cu pas.

C¼autarea exhaustiv¼a este recomandat¼ a atunci când p nu este prea mare


a investigarea tuturor formulelor: sunt Cpq formule de q variabile,
şi este posibil¼
deci în total 2p 1 regresii.
Dac¼a q este …xat, va … aleas¼a formula care maximizea¼ a pe R2 iar dac¼aq
nu este …xat, va … aleas¼ a formula care minimizeaz¼ 2
a pe s .
Metodele de c¼autare pas cu pas procedeaz¼ a prin eliminarea sau ad¼
augarea
succesiv¼ a de variabile.

Metoda descendent¼a const¼ a în eliminarea variabilei celei mai puţin semi-


n…cative dintre cele p variabile - în general aceea care diminueaz¼ a cel mai
puţin pe R2 . Se recalculeaz¼a coe…cienţii de regresie pân¼a la eliminarea
a p 1 variabile sau în funcţie de un test statistic precizat.

Metoda ascendent¼a procedeaz¼ a în sens invers: se porneşte de la cea


mai bun¼a regresie într-o variabil¼
a şi se adaug¼
a acea variabil¼
a care maxi-
mizeaz¼ 2
a pe R :
222 CAPITOLUL 4. MODELE LINIARE

Metoda stepwise reprezint¼a o perfecţionare a algoritmilor precedenţi. La


…ecare pas se efectueaz¼
a, în plus, teste de semni…caţie de tip Student
sau Fisher pentru a nu introduce o variabil¼ a nesemni…cativ¼ a şi pentru
a elimina eventual variabilele deja introduse care nu mai sunt atât de
informative în noul context. Algoritmul se termin¼ a când nu mai poate
… ad¼augat¼
a sau scoas¼
a vreo variabil¼
a.
Aceste metode nu dau obligatoriu cea mai bun¼ a regresie în q variabile şi
nici acelaşi rezultat, dar sunt uşor de implementat. Ele exclud posibilitatea de
a elimina o variabil¼ a semni…cativ¼ a. În acest context trebuie s¼
a atragem atenţia
asupra faptului c¼ a dac¼a se cunoaşte c¼a o variabil¼
a trebuie s¼
a …gureze într-un
model, din considerente …zice de exemplu, aceasta nu trebuie eliminat¼ a doar
pentru c¼a un test statistic a declarat-o nesemni…cativ¼ a.

4.1.7 Exemplu
Descrierea datelor
În urma unor m¼ asur¼
atori ecogra…ce realizate asupra a 414 nen¼
ascuţi s-au
obţinut valorile din tabelul A.7 (Anex¼a).
Variabilele din acest tabel reprezint¼a:
predictorii

– DBP = diametrul biparietal,


– PC = perimetrul cefalic,
– PA = perimetrul abdominal,

variabila dependent¼
a

– GN = greutatea la naştere.

Ne propunem construirea unui model de regresie capabil s¼ a determine,


pe baza datelor existente, greutatea la naştere pentru noi subiecţi pentru care
se cunosc valorile DBP, PC, PA. Altfel spus, utilizând valorile din tabelul
A.7., trebuie g¼asiţi coe…cienţii 0 ; 1 ; 2 ; 3 care permit predicţia optim¼ a
a variabilei dependente yi = 0 + 1 xi1 + 2 xi2 + 3 xi3 , unde yi reprezint¼ a
greutatea la naştere a subiectului i şi xi1 ; xi2 ; xi3 sunt valori ale predictorilor
mai sus menţionaţi pentru subiectul respectiv.

Efectuarea analizei şi interpretarea rezultatelor


În programul STATISTICA, opţiunea pentru analiza de regresie este
disponibil¼
a în meniul Statistics, Advanced Linear/Nonlinear Models, General
Regression Models. În fereastra activat¼a (…g. 4.1.3) se opteaz¼
a pentru modelul
regresiei multiple, având în vedere existenţa mai multor variabile predictor, şi
se apas¼a OK.
4.1. MODELUL DE REGRESIE 223

fig. 4.1.3. Fereastra de start

O nou¼a fereastr¼
a permite selectarea variabilelor pe categorii: predictorii
(DBP, PC, PA) şi variabila dependent¼ a (GN). Dup¼ a o nou¼ a ap¼
asare a bu-
tonului OK fereastra ap¼ arut¼a pune la dispoziţie diverse rezultate gra…ce sau
tabelare, speci…ce analizei de regresie. Pentru a…şarea listei complete a rezul-
tatelor (…g 4.1.4.) se apas¼
a butonul More results.

fig 4.1.4. Fereastra de rezultate

Pentru început se veri…c¼ a îndeplinirea condiţiei de normalitate a dis-


tribuţiei reziduurilor (Submeniul Residuals 1, butonul Residuals, cu opţiunea
Raw ).
224 CAPITOLUL 4. MODELE LINIARE

fig. 4.1.5. Reziduurile sunt normal distribuite

Examinarea histogramei din …g. 4.1.5. con…rm¼ a îndeplinirea acestei condiţii şi
permite trecerea la un alt pas premerg¼ ator analizei de regresie. Acesta const¼ a
în veri…carea existenţei leg¼
aturilor de tip liniar între variabila dependent¼ a şi
…ecare dintre predictori, leg¼ atur¼
a f¼
ar¼
a de care acest tip de analiz¼ a nu ar …
justi…cat. În acest scop se examineaz¼ a matricea corelaţiilor sau, pentru o
reprezentare mai sugestiv¼ a, diagramele de tip Scatterplot care se obţin plecând
de la matricea corelaţiilor (Correlations în submeniul Matrix, tabelul 4.1.1.)
prin:

click dreapta pe unul dintre coe…cienţii de corelaţie de pe linia variabilei


GN (de exemplu 0,73, reprezentând corelaţia dintre greutatea la naştere
şi diametrul biparietal),

selectarea Graphs of Input Data, Scatterplot by, Regression, 95% conf şi

alegerea variabilei DBP cu care GN se prepupune a avea o leg¼


atur¼
a
liniar¼
a.

Se va repeta algoritmul şi pentru ceilalţi doi predictori şi se vor obţine
gra…ce similare celui din …g. 4.1.6., în care forma norului de puncte indic¼ a,
într-adev¼
ar, existenţa unei relaţii liniare pozitive între cele dou¼
a variabile.
4.1. MODELUL DE REGRESIE 225

tabelul 4.1.1. matricea de corelaŢ ii

fig. 4.1.6. Scatterplot indicând o relaŢ ie liniarA¼ între


greutatea la naŞ tere Ş i diametrul biparietal

Concluziile obţinute permit realizarea efectiv¼a a analizei de regresie: cal-


culul coe…cienţilor dreptei de regresie şi determinarea calit¼aţii modelului.
Coe…cienţii liniei de regresie pot … vizualizaţi selectând Summary, Re-
gression coe…cients, procedeu în urma c¼ aruia se obţine tabelul 4.1.2. Aşadar,
ecuaţia liniei de regresie (în forma nestandardizat¼ a) este:

GN = 4765; 66 + 292; 283 DBP + 35; 995 PC + 124; 273 PA:

şi permite predicţia greut¼


aţii la naştere atunci când se cunosc valorile di-
ametrului biparietal, ale perimetrului cefalic şi ale perimetrului abdominal.
226 CAPITOLUL 4. MODELE LINIARE

tabelul 4.1.2 coeficienŢ ii de regresie

Pentru a determina în ce m¼ asur¼a variabilele independente contribuie la


predicţia greut¼aţii la naştere se analizeaz¼a coe…cienţii în forma nestandardizat¼a
(Param.) sau standardizat¼ a (Beta). Se observ¼ a c¼ a toţi sunt pozitivi, deci
valori ridicate ale diametrului biparietal, perimetrului cefalic şi perimetru-
lui abdominal implic¼ a o greutate superioar¼ a la naştere. În plus, perimetrul
abdominal are o contribuţie deosebit¼ a, având un coe…cient corespunz¼ ator de
0; 609. Aceste observaţii sunt con…rmate de matricea coe…cienţilor de core-
laţie (tabelul 4.1.1.) iar o imagine de ansamblu asupra contribuţiei celor trei
variabile este oferit¼ a şi de gra…cul Pareto (butonul Pareto chart of e¤ ects, …g.
4.1.7.).
Tabelul 4.1.2. ofer¼
a, în plus, valorile pentru:

erorile standard ale parametrilor estimaţi (Std. Err ) care indic¼ a disper-
sia faţ¼
a de linia de regresie a valorilor estimate şi contribuie la calculul
statisticilor t,

statisticile t, calculate pentru testarea semni…caţiei estimatorilor,

pragurile de semni…caţie p, ale c¼


aror valori mai mici decât 0; 05 con…rm¼
a
faptul c¼
a toţi estimatorii (DBC, PC, PA) sunt semni…cativi,

intervalele de încredere calculate la aceste praguri,

erorile standard şi intervalele de încredere pentru coe…cienţii standard-


izaţi.
4.1. MODELUL DE REGRESIE 227

fig. 4.1.7. Graficul Pareto

O comparaţie, sub form¼a de tabel sau gra…c scatterplot (…g 4.1.9.), din-
tre valorile prezise de modelul de regresie şi cele reale se obţine din subme-
niul Residuals1 (…g 4.1.8.) ap¼
asând butonul Predicted and residuals respectiv
Obs.& Pred.

fig. 4.1.8. Submeniul residuals1


228 CAPITOLUL 4. MODELE LINIARE

fig. 4.1.9. Valorile calculate Ş i valorile observate

Indicatorii calit¼
aţii ajust¼
arii (tabelul 4.1.3) se pot examina selectând
Summarry, Whole model R.

tabelul 4.1.3. Indicatori de ajustare

Aceşti indicatori sunt calculaţi pe baza erorii standard şi au urm¼


atoarele
semni…caţii:

coe…cientul de corelaţie multipl¼a (R) - indic¼ a nivelul corelaţiei dintre


valorile observate şi cele calculate. O valoare a sa ridicat¼ a (0.88) con…rm¼
a
o dependenţ¼a puternic¼ a între acestea, adic¼
a evoluţiile DBP, PA şi PC au
o puternic¼a in‡uenţ¼ a asupra evoluţiei greut¼aţii la naştere.
coe…cientul de determinare (R2 ) - reprezint¼ a p¼atratul coe…cientului de
corelaţie multipl¼
a şi indic¼
a în ce m¼asur¼a modelul de regresie red¼ a leg¼
a-
turile dintre variabila dependent¼ a şi variabilele predictor. Cu cât R2
este mai mare cu atât predicţia variabilei dependente este mai exact¼ a.
În acest caz, 78; 59% din variaţia greut¼ aţii la naştere este explicat¼a de
variaţia diametrului biparietal, a perimetrului cefalic şi a perimetrului
abdominal al f¼ atului, restul de 21; 41% datorându-se altor cauze.
valoarea ajustat¼a a coe…cientului de determinare (Adjusted R2 ) - este
valoarea corectat¼a a lui R2 în funcţie de num¼
arul de variabile predictor
şi de num¼ 2
arul de indivizi. Adjusted R se interpreteaz¼ a similar cu R2 :
¼
4.2. ANALIZA DISPERSIONALA 229

Modelul de regresie de mai sus a fost construit luând în considerare


toţi predictorii, declaraţi semni…cativi în urma utiliz¼
arii testului t. Metoda
ascendent¼ a de construcţie a modelului (…g. 4.1.10.) ofer¼
a aceleaşi rezultate şi
are urm¼ atoarea structur¼ a:

fig. 4.1.10. Metoda ascendentA¼

4.2 Analiza dispersional¼


a
Dac¼a variabilele explicative sunt discrete (nominale), regresia multipl¼ a
devine analiz¼a dispersional¼a (sau analiz¼a de varianţ¼a - ANOVA), tehnic¼ a
legat¼a de planurile de experienţ¼ a şi de tratamentul statistic al datelor ex-
perimentale.
La originea analizei dispersionale şi a planurilor de experienţ¼ a se a‡a¼ o
serie de articole ale lui R. A. Fisher [27] din anii dou¼ azeci ai secolului trecut.

a presupunem c¼ a dispunem de n observaţii asupra variabilei continue y
şi asupra a p variabile nominale x1 ; : : : ; xp cu respectiv m1 ; : : : ; mp modalit¼ aţi.
Matricea variabilelor explicative, X; se prezint¼ a sub forma unui tablou
disjunctiv complet [X1 ; : : : ; Xp ] : În acelaşi timp, pentru …ecare submatrice
Xk suma coloanelor este egal¼ a cu vectorul 1n . Exist¼ a deci p relaţii liniare
între coloanele lui X. Maricea X nu este de rang maxim şi deci X0 X nu este
inversabil¼a.
Sistemul de ecuaţii normale are o in…nitate de soluţii; toate soluţiile duc
e care este proiecţia lui y pe VX ; dar coe…cienţii bi nu sunt
la acelaşi vector y
unici.
Pentru a obţine o estimaţie unic¼ a b, trebuie impuse p restricţii liniare
privind codi…c¼ arile variabilelor calitative. Cea mai des utilizat¼ a restricţie cere
ca suma coe…ienţilor lui b relativ la …ecare variabil¼ a nominal¼ a s¼a …e nul¼ a. Se
poate veri…ca faptul c¼ a aceasta revine la suprimarea unei coloane din …ecare
230 CAPITOLUL 4. MODELE LINIARE

submatrice şi la înlocuirea coloanelor r¼


amase cu diferenţa dintre ele şi coloana
suprimat¼
a.
b , este de rang maxim:
Matricea variabilelor explicative astfel recodate, X
p
X
b =
rang X (mk 1) :
k=1

Pentru simpli…carea expunerii vom considera în cele ce urmeaz¼ a c¼a dis-


punem de dou¼ a variabile nominale A şi B; numite în acest context factori,
având I; respectiv J modalit¼ aţi numite, în acest context, nivele.
Analiza dispersional¼ a cu doi factori cu interacţiune se reduce la a efectua
regresia lui y cu matricea de condiţie

. b .. b .. b
b =
X 1..X 1 .X2 .X12 cu

b1
rang X b 2 = K; rang X
= J; rang X b 12 = JK;

unde X b 1 şi X
b 2 sunt matricile indicator reduse ale celor doi factori A şi B
b
iar X12 este matricea interacţiunilor corespunzând celor JK combinaţii ale
nivelelor lui A şi B: Cu acestea, modelul se scrie:

y= b1
1+X b2
+X b 12
+X +"

Se poate utiliza, deci, un program de regresie multipl¼ a pentru a efectua o


analiz¼
a dispersional¼a; forma particular¼
a a modelului permite, îns¼ a, organizarea
celulelor astfel încât s¼a se evite estimarea lui Xb 0X
b iar calculul statisticilor
testelor privind valorile coe…cienţilor s¼
a …e mult mai simple. Acest demers
este prezentat în cele ce urmeaz¼ a.
Presupunem c¼ a pentru …ecare pereche de nivele (j; k) exist¼
a njk observaţii
asupra variabilei y.
Se spune c¼a modelul este

complet dac¼
a njk > 0 pentru toate variabilele;

cu repetiţie, dac¼
a njk > 1;

echilibrat dac¼
a njk = I;

Ne vom limita la studiul cazului echilibrat.


Pentru organizarea experimentului bifactorial se utilizeaz¼
a un tabel cu
dubl¼
a intrare de tipul tabelului 4.2.1.

Tabelul 4.2.1.
¼
4.2. ANALIZA DISPERSIONALA 231

B B1 ::: Bj ::: BJ
A
A1 Y111
..
.
Yi11
..
.
YI11
..
.
Ak Y1jk
..
.
Yijk
..
.
YIjk
..
.
AK Y1JK
..
.
YiJK
..
.
YIJK

Experimentele fYijk gIi=1 cu (j; k) …xat, dar alfel oarecare, formeaz¼ a o


celul¼a. Un sistem de celule se numeşte bloc. În tabelul 4.2.1. intersecţia unei
linii cu o coloan¼
a formeaz¼a o celul¼
a şi o linie sau o coloan¼
a formeaz¼
a un bloc.
Se consider¼
a urm¼
atoarea ipotez¼ a fundamental¼ a:
Yijk = mjk + "ijk cu 1 i I; 1 j J; 1 k K
:
a aleatoare i.i.r N (0; 2 ) cu 2 =const.
"ijk variabil¼
Trebuie menţionat faptul c¼
a mulţi specialişti au remarcat c¼
a, în practic¼
a,
restricţiile sunt rareori perfect îndeplinite. Consecinţele ce decurg atunci
când ipotezele nu sunt îndeplinite sunt (vezi [56]):
i. nerespectarea normalit¼ aţii are o in‡uenţ¼
a foarte mic¼
a asupra inferenţei
despre medie, dar o in‡uenţ¼ a relativ important¼a asupra concluziilor re-
feritoare la dispersie;
ii. neomogenitatea dispersiilor celulelor/blocurilor are, de asemenea, o in-
‡uenţ¼
a nesemni…cativ¼a asupra concluziilor despre medii, dac¼
a experienţele
sunt echilibrate; nu acelaşi lucru se poate a…rma în cazul experienţelor
neechilibrate;
iii. violarea propriet¼aţii de independenţ¼
a, adic¼
a existenţa unor corelaţii nenule
între variabilele erori, are o in‡uenţ¼
a important¼ a relativ la concuziile de-
spre medii.
232 CAPITOLUL 4. MODELE LINIARE

Din aceast¼a prezentare rezult¼ a o caracteristic¼


a esenţial¼
a a metodei ANOVA:
aceasta este o metod¼ a statistic¼a robust¼ a, adic¼
a îşi p¼astreaz¼
a valoarea infor-
maţional¼
a şi decizional¼
a chiar şi în cazul nerespect¼ arii unor ipoteze.
Se presupune c¼ a efectul …x, mjk ; este de forma:

mjk = + k + j + jk

unde este efectul mediei, k este efectul principal al nivelului k al factorului A


(numit şi efectul liniei k), j este efectul principal al nivelului j al factorului B
(numit şi efectul coloanei j) iar jk este efectul ineracţiunilor celor doi factori.
În cazul în care parametrii k ; j ; jk sunt aleatori modelul se numeşte
cu factori aleatori, în caz contrar se numeşte model cu factori constanţi.
Metoda ANOVA este utilizat¼ a, în principal, cu scopul de a testa omo-
genitatea mediilor mjk ale populaţiilor implicate, cu alternativa neomogen-
it¼
aţii acestora, în ipoteza fundamental¼ a : Ipoteza de omogenitate a mediilor,
echivalent¼ a cu ipoteza efectului nul al factorilor asupra caracteristicii y inves-
tigate se testeaz¼ a cu ajutorul unor dispersii: de aici şi denumirea de analiz¼a
dispersional¼a. În cazul respingerii analizei de omogenitate, deci a accept¼ arii
alternativei, interesant şi important este a determina care dintre nivelurile fac-
torilor implicaţi au condus la respingerea omogenit¼ aţii. Procedeele prin care
se realizeaz¼ a acest lucru se numesc metode de comparaţie multipl¼a şi reprezint¼ a
un capitol special al metodologiei ANOVA.
Pentru a evita multicoliniaritatea, se presupun satisf¼ acute condiţiile su-
plimentare: X X X X
k = j = jk = jk = 0:
k j k j

În acest context se doreşte veri…carea ipotezelor statistice:

HA : k =0 1 k K;
HB : j =0 1 j J;
HAB : jk =0 1 k K; 1 j J:

Se noteaz¼
a:
XXX 1 XXX
Y = Yijk şi Y = Yijk ;
IJK
i j k i j k
X 1X
Y jk = Yijk şi Y jk = Yijk ;
I
i i
XX 1 XX
Y j = Yijk şi Y j = Yijk ;
IK
i k i k
XX 1 XX
Y k = Yijk şi Y k = Yijk :
IJ
i j i j
¼
4.2. ANALIZA DISPERSIONALA 233

Se observ¼
a c¼
a:

Yijk Y = Y k Y + Y j Y +
Y jk Y k Y j Y +
Yijk Y jk

şi c¼
a termenii acestei diferenţe corespund respectiv efectelor principale, in-
teracţiunilor şi unei ‡uctuaţii aleatoare. De asemenea, se observ¼
a c¼a, pentru
modelul echilibrat, este satisf¼ acut¼a relaţia
XXX 2
S2 = Yijk Y 2
= SA 2
+ SB 2
+ SAB 2
+ SR ;
i j k

unde
X 2
2
SA = IJ Y k Y ;
k
X 2
2
SB = IK Y j Y ;
j
XX 2
2
SAB = I Y jk Y j Y k +Y ;
j k
XXX 2
2
SR = Yijk Y jk :
i j k

În ipoteza ; estimaţiile parametrilor modelului, în sensul celor mai mici



atrate, sunt:

b jk = Y
m jk cu j = 1; J; k = 1; K;
b = Y ;
bk = Y k Y cu k = 1; K;
b = Y j Y cu j = 1; J;
j
bjk = Y jk Y j Y k +Y cu j = 1; J; k = 1; K:

Statistica F pentru veri…carea ipotezelor HA ; HB ; HAB are la num¼ ar¼


ator
respectiv media sumelor p¼ 2 2 2
atratelor SA ; SB ; SAB iar la numitor întotdeauna
media sumei p¼ atratelor rezidualelor SR 2 . Gradele de libertate sunt respectiv

( A ; R ) ; ( B ; R ) ; ( AB ; R ) unde

A = K 1;
B = J 1;
AB = (J 1) (K 1) ;
R = JK (I 1) :

Sinteza formulelor de calcul este dat¼


a în tabelul 4.2.2.
234 CAPITOLUL 4. MODELE LINIARE

În cazul interacţiunilor nule momentul …x devine mjk = + k + j iar


S 2 = SA2 +S 2 +S 2 unde S 2 = S 2 +S 2 cu
B R1 R1 AB R R1 = AB + R = IJK J K+1
grade de libertate (faptul c¼ a ipoteza HAB este veri…cat¼ a aceasta nu înseamn¼ a
practic c¼ 2
a SAB = 0). Sinteza formulelor este dat¼ a în tabelul 4.2.3.
În toate cazurile se respinge ipoteza nul¼ a a absenţei efectului unui factor
dac¼a probabilitatea dep¼ aşirii valorii F corespunz¼ atoare de c¼ atre o variabil¼
a
Fisher cu gradele de libertate speci…cate este mai mic¼ a decât un prag de în-
credere dat, de regul¼ a 5%. S¼ a observ¼ am c¼a procedura de mai sus poate …
generalizat¼a la modele cu mai mulţi factori şi nivele de interacţiune de ordin
superior. Totuşi, o anumit¼ a prudenţ¼a se impune din mai multe motive. Mai
întâi, este din ce în ce mai di…cil de apreciat şi de limitat clar natura ipotezelor
testate. Pe de alt¼ a parte, interacţiunile de ordin superior pot duce la "teste în
lanţ" delicat de interpretat (AB semni…cativ, BC nesemni…cativ, ABC sem-
ni…cativ etc..). În …ne, se poate ar¼ ata c¼
a o interacţiune, mai ales de ordin
superior, se poate datora prezenţei unor observaţii uşor aberante, caz în care
procedura nu este robust¼ a.
tabelul 4.2.2 formule de calcul (1)

Sursa de Grade de libertate Suma p¼


atratelor Media sumei Statistica F
variaţie p¼
atratelor
(df ) (SS) (M S = SS=df )
2 2
SA M SA
A A =K 1 2 = IJ
SA Y k Y M SA = A
FA = M SR
k
2 2
SB M SB
P

B B =J 1 2 = IK
SB Y j Y M SB = B
FB = M SR
j
2 2
2 SAB M SAB
P

Interacţiunile AB AB = (J 1) (K 1) SAB =I Y jk Y j Y k +Y M SAB = AB


FAB = M SR
j k
¼
4.2. ANALIZA DISPERSIONALA

2 2
2 SR
PP

Reziduurile R R = JK (I 1) SR = Yijk Y jk M SR = R
i j k
2
PPP

Total S = IJK 1 S2 = Yijk Y


i j k
PPP

tabelul 4.2.3 formule de calcul (2)

Sursa de Grade de libertate Suma p¼


atratelor Media sumei Statistica F
variaţie p¼atratelor
(df ) (SS) (M S = SS=df )
2
A =K 1 2 SA
A SA M SA = A
FA = M SA =M SR1
2
B =J 1 2 SB
B SB M SB = B
FB = M SB =M SR1
2
SR
1
Reziduurile R1 = R + AB = 2 = S2 + S2 M S R1 =
235

SR 1 R AB R1
R1 = IJK J K +1
Total S S2
236 CAPITOLUL 4. MODELE LINIARE

4.2.1 Exemplu
Descrierea datelor

Se consider¼ a dou¼a medicamente - unul de testat (T) şi unul de referinţ¼ a


(R). Medicamentele sunt administrate unui lot de subiecţi s¼ an¼atoşi în dou¼a
secvenţe (RT) şi (TR) şi dou¼ a perioade (I şi II). Fiecare subiect este asig-
nat aleator …e primei secvenţe (RT) …e celei de a doua (TR). Subiecţii din
cadrul secvenţei RT (TR) primesc medicamentul R(T) în prima perioad¼ a şi
medicamentul T(R) în cea de-a doua perioad¼ a. Perioadele de administrare
sunt separate printr-o perioad¼ a de "cur¼ aţire" de cel puţin trei ori timpul de
înjum¼at¼aţire al substanţei active din medicamentul administrat.
Scopul experimentului este de a stabili bioechivalenţa (acelaşi efect ter-
apeutic) celor dou¼ a medicamente. Acestea sunt bioechivalente în condiţiile în
care cantitatea total¼ a de substanţ¼a activ¼a din sânge, calculat¼ a pentru …ecare
medicament, nu difer¼ a semni…cativ. Un parametru farmacocinetic calculat
în mod obişnuit în acest scop este AUClast - aria de sub curba concentraţiei
plasmatice de la momentul zero pân¼ a la momentul determin¼ arii ultimei con-
centraţii plasmatice cuanti…cabile.
Datele exemplului provin din [9] şi sunt listate în tabelul A.8. (Anex¼ a).
Pentru acest set de date se identi…c¼ a:

variabila dependent¼
a:

– AUClast (Aria Under the Curve) - indicator al cantit¼


aţii totale de
substanţ¼
a activ¼
a din sânge.

variabilele independente (factorii cauzali):

– Seq - Secvenţa, cu modalit¼


aţile RT şi TR,
– Period - Perioada, cu modalit¼
aţile I şi II.

Se observ¼
a c¼
a experimentul are patru celule şi este echilibrat (njk = 12;
k; j = 1; 2).

Efectuarea analizei şi interpretarea rezultatelor

Pentru stabilirea bioechivalenţei se consider¼


a urm¼
atorul model de analiz¼
a
dispersional¼
a bifactorial¼
a cu num¼ar oarecare de experienţe:

Yijk = jk + "ijk ; 1 i nk ; k; j = 1; 2

unde efectul …x jk este de forma:


¼
4.2. ANALIZA DISPERSIONALA 237

Secvenţa Perioada (j=1,2)


(k=1,2) I II

1 (RT) 11 = + P1 + S 1 + FR 12 = + P2 + S 2 + FT

2 (TR) 21 = + P1 + S 1 + FT 22 = + P2 + S 2 + FR

cu
P1 + P2 = S1 + S2 = FT + FR = 0

iar

P1 (P2 ) reprezint¼
a efectul direct al administr¼
arii în perioada I (II),

S1 (S2 ) reprezint¼
a efectul adimistr¼
arii în secvenţa RT (TR),

FR (FT ) reprezint¼
a efectul direct al administr¼arii medicamentului R (T),
modelat aici ca efectul interacţiunii dintre factorii P şi S.

Datele din tabelul A.8. au fost prelucrate cu pachetul de date STATIS-


TICA, urmând paşii prezentaţi în continuare.
Pentru început se selecteaz¼ a din bara de meniu tipul de analiz¼ a utilizat -
Statistics, ANOVA; în fereastra ap¼ arut¼
a se opteaz¼ a pentru Factorial ANOVA,
în cadrul c¼areia sunt analizate şi efectele interacţiunilor dintre factori, iar ca
metod¼ a de speci…caţie se alege Quick specs.

fig. 4.2.1. Fereastra de pornire

În fereastra de start (…g 4.2.1.) butonul Variables permite selectarea


tipurilor de variabile conform speci…caţiilor de mai sus. În continuare se speci-
…c¼a toate nivelele factorilor (Factor Codes, All ) şi se apas¼
a butonul OK pentru
a accesa fereastra de rezultate (…g. 4.2.2.).
238 CAPITOLUL 4. MODELE LINIARE

fig. 4.2.2. Fereastra de rezultate (1)

Pentru început vom veri…ca îndeplinirea ipotezelor modelului: indepen-


denţa, normalitatea şi homoscedasticitatea, procedeu pentru care STATIS-
TICA pune la dipozitie o serie de gra…ce şi tabele în cea de-a doua fereastr¼
a
de rezultate (More results). (…g. 4.2.3.).

fig. 4.2.3. Fereastra de rezultate (2)

Având în vedere structura experimentului, eşantioanele formate se pot pre-


supune aleatoare şi independente deci se consider¼ a îndeplinit¼
a condiţia de in-
dependenţ¼a. Condiţia de normalitate a distribuţiei reziduurilor de veri…c¼ a în
submeniul Residuals 1. Gra…cul generat prin ap¼ asarea butonului Residuals cu
opţiunea Raw indic¼ a într-adev¼
ar o repartiţie normal¼a (…g. 4.2.4.).
¼
4.2. ANALIZA DISPERSIONALA 239

fig. 4.2.4. Reziduurile sunt normal distribuite

Homoscedasticitatea (omogenitatea varianţei) la nivelul subgrupurilor


determinate de modalit¼
aţile factorilor cauzali se veri…c¼
a aplic¼
and testul Levene
pentru …ecare dintre cele trei efecte Per, Seq, Per*Seq. Testul Levene este
de…nit astfel:

H0 : 1 = 2 = ::: = k;
HA : i 6= j pentru cel puţin o pereche (i; j) ; i; j = 1; k

unde k este num¼ arul subgrupurilor. Valorile statisticii asociate acestui test se
genereaz¼a ap¼
asând butonul Levene’s test şi se reg¼
asesc în tabelul 4.2.2. Pentru
toate cele trei efecte, valorile F la pragurile de semni…caţie p 0:05 indic¼a
acceptarea ipotezei nule, deci veri…carea condiţiei de homoscedasticitate.
240 CAPITOLUL 4. MODELE LINIARE

tabelul 4.2.2. Testul Levene pentru efectele Seq, Per, Seq*Per

Concluziile obţinute permit realizarea efectiv¼a a analizei de varianţ¼a.


Butonul All E¤ ects/Graphs din submeniul Quick activeaz¼ a o nou¼a fereastr¼
a
de dialog (…g. 4.2.5.) în cadrul c¼
areia pot … vizualizate principalele rezultate
ANOVA pentru cele trei efecte considerate.

fig. 4.2.5. Principalele rezultate ANOVA

Informaţii despre mediile pe grupe pentru …ecare efect se pot obţine sub form¼
a
gra…c¼
a sau tabelar¼ a (…g 4.2.6.), bifând opţiunea Graph respectiv Spreadsheet
din caseta Display şi ap¼
asând butonul OK.
¼
4.2. ANALIZA DISPERSIONALA 241

fig. 4.2.6. Mediile pe grupe

Se observ¼ a c¼
a mediile pe grupe au valori apropiate, valorile p 0:05 din …g.
4.2.5. con…rmând acceptarea ipotezelor nule. Aşadar analiza de varianţ¼ a pe
aceste date indic¼
a absenţa efectului secvenţei, al perioadei şi al medicamentu-
lui; prin urmare, cele dou¼a medicamente sunt bioechivalente.
242 CAPITOLUL 4. MODELE LINIARE

4.3 Modele liniare generalizate


Modelele generalizate (GLM - Generalised Linear Models) extind mode-
lele liniare de baz¼
a în dou¼
a direcţii:

1. Combinaţia liniar¼
a wi = b0 xi0 +b1 xi1 +: : :+bp xip a variabilelor explicative
poate … o funcţie g (numit¼a funcţie de leg¼atur¼a ) de M (yi ), adic¼
a

wi = g (M (yi ))

în comparaţie cu modelele liniare clasice în care

wi = M (yi ) :

2. Legea de probabilitate a lui y poate … şi un alt membru al clasei legilor


exponenţiale5 decât legea normal¼ a. Dac¼ a = ; ' = 2 ; a (') = ';
2 2 2
b ( ) = =2; c (y; ') = 1=2 y = + log 2 2 atunci se obţine
legea normal¼ a. Pentru alte valori ale parametrilor şi alte funcţii se pot
obţine legile binomial¼
a, Poisson, Gamma.

Ajustarea modelului se face prin metoda verosimilit¼ aţii maxime care, în


cazul legii normale, coincide cu metoda celor mai mici p¼ atrate.
Alegând diferite legi de probabilitate din clasa legilor exponenţiale şi
diferite funcţii de leg¼
atur¼
a pentru y, se pot obţine şi alte modele, printre care
un loc important îl ocup¼ a modelele log-liniare.

5 y b( )
Clas¼
a de legi de probabilitate cu densitatea de forma f (x; ; ') = exp a(')
+ c (y; ')
cu şi ' parametri şi a ( ) ; b ( ) ; c ( ) funcţii.
243
244 SETURILE DE DATE FOLOSITE ÎN EXEMPLE

Seturile de date folosite în


exemple

tabelul A.1. ACP: Tipuri de activitA¼ Ţ i

(Surs¼
a: Fişierul Activities.sta din colecţia de exemple a soft-ului STATISTICA)
245

tabelul A.2. ACS: Categorii socioprofesionale Ş i tipuri de media


(elemente active)

tabelul A.3. ACS: Categorii socioprofesionale Ş i tipuri de media


(elemente suplimentare)

(Sursa tabelelor A.2 şi A.3: Enquête Budget-temps Multimedia de 1991-1992, Centre
d’Etude des Supports de Publicité)
246 SETURILE DE DATE FOLOSITE ÎN EXEMPLE

tabelul A.4. ACM: Rase de câini (date sub formA¼ condensatA¼ )


247

¼ IriŞ i (1)
tabelul A.5. ANALIZA DISCRIMINANTA:

(Surs¼
a: Fişierul Irisdat.sta din colecţia de exemple a soft-ului STATISTICA)
248 SETURILE DE DATE FOLOSITE ÎN EXEMPLE

¼ IriŞ i (2)
tabelul A.5. ANALIZA DISCRIMINANTA:
249

¼ IriŞ i (3)
tabelul A.5. ANALIZA DISCRIMINANTA:
250 SETURILE DE DATE FOLOSITE ÎN EXEMPLE

¼ IriŞ i (4)
tabelul A.5. ANALIZA DISCRIMINANTA:
251

¼ IriŞ i (5)
tabelul A.5. ANALIZA DISCRIMINANTA:
252 SETURILE DE DATE FOLOSITE ÎN EXEMPLE

tabelul A.6. SEGMENTARE: puncte în plan (1)


253

tabelul A.6. SEGMENTARE: puncte în plan (2)


254 SETURILE DE DATE FOLOSITE ÎN EXEMPLE

tabelul A.7. REGRESIE: Greutatea la naŞ tere (1)

(Surs¼
a: A. Matos, S.Joao Hospital, Porto, Portugal)
255

tabelul A.7. REGRESIE: Greutatea la naŞ tere (2)


256 SETURILE DE DATE FOLOSITE ÎN EXEMPLE

tabelul A.7. REGRESIE: Greutatea la naŞ tere (3)


257

tabelul A.7. REGRESIE: Greutatea la naŞ tere (4)


258 SETURILE DE DATE FOLOSITE ÎN EXEMPLE

tabelul A.7. REGRESIE: Greutatea la naŞ tere (5)


259

tabelul A.7. REGRESIE: Greutatea la naŞ tere (6)


260 SETURILE DE DATE FOLOSITE ÎN EXEMPLE

tabelul A.7. REGRESIE: Greutatea la naŞ tere (7)


261

tabelul A.8. ANOVA: Stiudiu statistic de bioechivalenŢ A¼


262 SETURILE DE DATE FOLOSITE ÎN EXEMPLE
Bibliogra…e

[1] ANDERBERG M.R., Cluster Analysis for Applications, Academic Press,


N.Y., 1973.

[2] ANDERSON T.W., An Introduction to Multivariate Statistical Analysis


J. Wiley, N.Y., 1958.

[3] ANDERSON T.W., Asymptotic theory for principal component analysis:


the non-normal case, Australian J. of Statist., 19, p. 206-212, 1963.

[4] ATKINSON, A.C., Plots, Transformations and Regression: An Introduc-


tion to Graphical Methods of Diagnostic Regression Analysis, Clarendon
Press, Oxford, 1985.

[5] BENZÉCRI J.P., L’Analyse des Données. Tome 1: La Taxinomie, Tome


2: L’Analyse des Correspondances (2de. éd. 1976), Paris, Dunod , 1973.

[6] BESLEY, D. A., KUH E., WELSCH R. E., Regression Diagnostics: Iden-
tifying In‡uential Data and Sources of Colinearity, J. Wiley, N. Y., 1980.

[7] BREIMAN L., FRIEDMAN, J.H., OHLSEN R.A., STONE C.J., Classi-
…cation and Regression Trees, Belmont, Wadsworth, 1984.

[8] BURT C., The factorial analysis of qualitative data, British J. of Statist.
Psychol., 3, 3, p.166-185, 1950.

[9] CHOW S.C., LIU J.P., Design and Analysis of Bioavailability and Bioe-
quivalence Studies, Marcel Dekker, N.Y., 1992.

[10] COX D. R., Analyse des données binaires, Paris, Dunod, 1972.

[11] CHATTERJEE, S., PRICE, B., Regression Analysis by Examples, J. Wi-


ley, N.Y., 1991.

[12] DAUDIN J.J., DUBY C., TRÉCOURT P., Stability of principal compo-
nents studied by the bootstrap method, Statistics, 19, p. 241-258, 1988.

[13] DAVIS A.W., Asymptotic theory for principal component analysis: The
non-normal case, Australian J. of Stat., 19, p. 206-212, 1977

263
264 BIBLIOGRAFIE

[14] DAZY F., LE BARZIC J.F., L’analyse des données évolutives. Méthodes
et Applications, Paris, Ed. Technip, 1996.

[15] DEMIDOVITCH B., MARON I., Eléments de calcul numérique, Moscou,


Mir, 1973.

[16] DEMPSTER A.P., An overview of multivariate data analysis, J. Mult.


Analysis, 1, p. 316-346, 1971.

[17] DIDAY E., La méthode des nuées dynamiques, Revue Statist. Appl., 19,
2, p 19-34, 1971.

[18] DODGE Y. (ed.), Statsitical data Analysis Based on the L1 -Norm and
Related Methodes, North Holland, Amsterdam, 1987.

[19] DOMENGES D., VOLLE M., Analyse factorielle sphérique: une explo-
ration, Annales de l’INSEE, no 35, 1979.

[20] DRAPER, N. R., SMITH, H., Applied Regression Analysis, J. Wiley, N.


Y., 1981.

[21] DUDA R.O., HART P.E., Pattern Classi…cation and Scène Analysis, J.
Wiley, N.Y., 1973

[22] DUMITRESCU D., Principiile matematice ale teoriei clasi…c¼arii, Ed.


Academiei Române, Bucureşti, 1999.
¼
[23] ENACHESCU C. Aplicaţii ale reţelelor neuronale în teoria statistic¼a a
înv¼aţ¼arii, Bucureşti, Ed. Sigma, 1999.
¼
[24] ENACHESCU ¼
C., ENACHESCU D., Some simple rules for interpreting
outputs of principal components and correspondence analysis, Analele
Univ. Buc., Informatic¼a, XLIX, p.3-8, 2000.

[25] FALISSARD B., Déploiement d’une matrice de corrélation sur la sphère


unité de R3 , Revue de Statist. Appl., 43(2), p.35-48, 1995.

[26] FISHER R. A., The use of multiple measurements in taxonomic problems,


Ann. of Eugenics, 7, p 179-188, 1936.

[27] FISHER R. A., The Design of Experiments (1935), 9th edition 1971
reprinted 1974, Hafner Press, N.Y.

[28] GIFI A., Non Linear Multivariate Analysis, J.Wiley, Chichester, 1990.

[29] GOLDSTEIN M., DILLON W. R., Discrete Discriminant Analysis, J.


Wiley, Chichester, 1978.

[30] GOODMAN L.A., KRUSKAL W.H., Measures of association for cross


classi…cation., J. of Amer. Statist. Assoc., 49, p 732-764, 1954.
BIBLIOGRAFIE 265

[31] GUTTMAN L., The quanti…cation of a class of attributes: a theory and


method of a scale constructuion, In: The prediction of personal adjust-
ment (Horst P., ed.) p 251 -264, SSCR N. Y., 1941.
[32] HAND D. J., Discrimination and Classi…cation, J. Wiley, N. Y., 1981.
[33] HARMAN H.H., Modern Factor Analysis (2nd ed.), Chicago University
Press, Chicago, 1967.
[34] HARTER H. L., The method of least squares and some alternatives, In-
ternat. Stat. Review, Part 1 and 2: 42, p 147-174, p 235-264; Part 3 to 5:
43, p 1-44, p 125-190, p 269-278, 1974-1975.
[35] HUBER, P. J., The place of the L1 -Norm in robust estimation, In: Statis-
tical Data Analysis Based on the L1 -Norm and Related Methods, Dodge
Y. ed, North Holland, Amsterdam, p. 23-34, 1987.
[36] HAYASHI C., Theory and examples of quanti…cation, (II) Proc. of the
Institute of Statist. Math., 4 (2), p 19-30, 1956.
[37] JAMBU M., Exploration statistique et informatique des données, Paris,
Dunod, 1991.
[38] KAZMIERCZAK J.B., Analyse logarithmique: deux examples
d’application, Revue de Satist. Appl., 33(1), p. 13-24, 1985.
[39] LANCE G. N., WILLIAMS W. T., A general theory of classi…cation
sorting strategie, Computer J., 9, p 373-380, 1967.
[40] LEBART L., L’orientation du dépouillement de certaines enquêtes par
l’analyse des correspondances multiples, Consommation, 2, p 73-96,
Dunod, 1975.
[41] LEBART L., MORINEAU A., PIRON M., Statistique exploratoire mul-
tidimensionnelle, Paris, Dunod, 1995.
[42] MACQUEEN J. B., Some methods for classi…cation and analysis of mul-
tivariate observations, Proc. Symp. Math. Statist. and Probability (5th),
Berkeley, 1, p 281-297, Univ. of Calif. Press, Berkeley, 1967.
[43] MAHALANOBIS P.C., On the generalized distance in statistics, Proc.
Nat. Inst. Sci., India, 12, p 49-55, 1936.
[44] MALINVAUD E., Data analysis in applied socio-economic statistics with
spécial considération of correspondence analysis, Marketing Science Con-
férence Proceedings, HEC-ISA, Jouy en Josas, 1987.
[45] MEYER R., An eigenvector algorithm to …t Lp-distances matrices. In:
New Approches in Classi…cation and Data Analysis, Diday E. et al. (eds.),
Berlin, Springer Verlag, p. 502-509, 1994.
266 BIBLIOGRAFIE

[46] MORGAN J. M., MESSENGER R. C., THAID : a sequential search


program for the analysis of nominal scale dependent variables, Institute
for Social Research, Ann Arbor, University of Michigan, 1973.

[47] MORINEAU A., Note sur la caractérisation statistique d’une classe et


les valeurs-tests, Bull. Techn. du Centre de Statist. et d’Infor. Appl., 2,
p 20-27, 1984.

[48] MOSTELLER, F., TUKEY, J.W., Data Analysis and Regression, Addi-
son Wesley Reading, Mass., 1977.

[49] NISHISATO S., Analysis of Categorical Data. Dual Scaling and its Ap-
plication, Univ. of Toronto Press, 1980.

[50] RAO, C. R., Linear Statistical Inference and its Applications, J. Wiley,
N. Y., 1973.

[51] RAO C.R., The use and interpretation of principal component analysis
in applied research, Sankhya, serie A, 26, p. 329-357, 1964.

[52] RIPLEY B. D., Neural nerworks and related methods of classi…cation, J.


R. Statist. Soc., B, 56, n 3, p. 409-456, 1994.

[53] SAPORTA G., Probabilités, Analyse des Données et Statistique, Technip,


Paris, 1990.

[54] SEARLE, S. E., Linear Models, J. Wiley, N. Y., 1977.

[55] SEBER, G. A. F., Linear Regression Analysis, J. Wiley, N. Y., 1971.

[56] SHEFFE H., Analysis of Variance, J. Wiley, N. Y., 1959.

[57] SOKAL R. R., SNEATH P. H. A., Principles of Numerical Taxonomy,


Freeman and co., San-Francisco, 1963.

[58] SONQUIST J. A. AND MORGAN J. N., The Détection of Interaction


E¤ ects, Institute for Social Research, University of Michigan, Ann Arbor,
1964.

[59] TUKEY J. W., Exploratory Data Analysis. Addison Wesley Reading,


Mass., 1977.
¼
[60] VADUVA I., Analiz¼a dispersional¼a, Ed. Tehnic¼
a, 1970.

[61] VAN RIJCKEVORSEL J., The application of fuzzy coding and horseshoes
in multiple correspondances analysis, DSWO Press, Leiden, 1987.

[62] WARD J.H., Hierarchical grouping to optimize an objective function, J.


of Amer.Statist. Assoc., 58, p. 236-244., 1963.
BIBLIOGRAFIE 267

[63] WISHART D., Mode analysis: a generalization of nearest neighbour


which reduces chaining e¤ects. Numerical Taxonomy (A.J. Cole éd.) p.
282-311, Academic Press, London, 1969.

[64] WONG M.A., A hybrid clustering method for identifying high density
clusters, J of Amer. Statist. Assoc., 77, p 841-847, 1982.
268 BIBLIOGRAFIE
Data Mining. Methods and
Applications

Introduction
We are surmounted by data - scienti…c data, medical data, demographic
data, …nancial data and marketing data. People have no time to look at
this data. Human attention has become a precious resource. So, we must
…nd ways to automatically analyze the data, to automatically classify it, to
automatically summarize it, to automatically discovers and characterize trends
in it. This "mining in data", in order to …nd out automatically knowledges and
interesting / new informations, is to day one of the most active and exciting
research areas. Researchers in areas such databases, statistics, visualization,
arti…cial intelligence are contributing to this …eld.
My purpose in writing this book has been to give a systematic introduc-
tion of major concepts and methodologies of Data Mining and to present a
uni…ed framework that makes the subject more accesible.
The core of the book is formed by the notes of the courses delivered
by the author at the University of Bucharest, Faculty of Mathematics and
Computer Science for the master students in Informatics.
The background material needed to understand these book is general
knowledge of some basic topics in probability and statistics, linear algebra
and multivariate calculus.
The book is organized in four chapters. Chapter introduce the basic
multivariate exploratory technics. The Principal Components Analysis, for
continuous variables, and the Correspondance Analysis, for discrete variables,
are presented as technics not only to simplify and visualize, but also to explore,
analize and discover, because the reality is not only complex but also hidden.
Chapter 2 covers the cluster technics; we mean the non-hierarchical and
hierarchical, automated, clustering methods.
The last two chapters concern with basic explanatory technics. Chapter 3
covers the discriminant methods and chapter 4 covers the regression methods.

269
270 DATA MINING. METHODS AND APPLICATIONS

I hope that this book will prove useful to who are interested not only
in understanding the under laying theory of data mining but also in pursuing
researching this area. A list of relevant references is included with the aim of
providing guidance and direction for the reader’s own search of the scienti…c
literature.
Contents

Introduction
1. MULTIVARIATE EXPLORATORY TECHNIQUES
1.1 Mathematical Background
1.1.1 Metric Concepts in an Euclidian Field
1.1.2 Linear Operators
1.1.3 Eigenvectors and Eigenvalues
1.1.4 The Characteristic Polynomial
1.1.5 The Eigenvectors Basis
1.1.6 Quadratic Forms
1.1.7 Derivative. The Lagrange Multipliers Method for Quadratic
Forms
1.2 Principal Components Analysis
1.2.1 The Data and its Characteristics
1.2.2 General Analysis. Singular Values Decomposition
1.2.3 The Quality of a Principal Components Analysis
1.2.4 Nonparametrical Methods
1.2.5 Related Methods
1.2.6 Other Issues
1.2.7 Example
1.3 Correspondence Analysis
1.3.1 The Method
1.3.2 Rules to Explain the Outputs
1.3.3 Example
1.4 Multiple Correpondence Analysis
1.4.1 Overview
1.4.2 The Calculus of the Inertia
1.4.3 Reviewing the Results
1.4.4 Principles of Discretisation for Continuous Variables
1.4.5 Test-values for Supplementary Modalities
1.4.6 Example

271
272 CONTENTS

1.5 Synthesis
2. CLUSTER ANALYSIS
2.1 Overview
2.2 Combinatorial Aspects of Clustering
2.3 Non-hierarchical Methods
2.3.1 K-Means Clustering
2.3.2 Example
2.4 Hierarchical Methods
2.4.1 Formal Aspects
2.4.2 Amalgamation (linkage) rules
2.5 Mixture Exploratory Methods
2.5.1 Identifying clusters by cutting of the tree diagram
2.5.2 Statistical caractherisation of the clusters
2.5.3 Example
3. BASIC EXPLORATORY TECHNIQUES
3.1 Discriminant Analysis
3.1.1 Introduction
3.1.2 Factorial Discriminant Analysis
3.1.3 Geometrical Methods
3.1.4 Discriminant Functions of Minimal Distance
3.2 Probabilistic Methods for Discrimination
3.2.1 Introduction
3.2.2 The Bayesian Formulation
3.2.3 Example
3.3 Discriminant Trees
3.3.1 Background
3.3.2 Optimal Subtrees
3.3.3 Example
4. LINEAR MODELS
4.1 The Regression Model
4.1.1 Introduction
4.1.2 Fitting Linear Regression Models
4.1.3 The Quality of Fitting
4.1.4 Residuals and Outliers
4.1.5 Robust Regression Techniques
4.1.6 Variables Subset Selection
4.1.7 Example
4.2 Variational Analysis
4.2.1 Example
273

4.3 Generalized Linear Models


THE SETS OF DATA USED IN EXAMPLES

INDEX
REFERENCES
Indice

analiza neierarhic¼a, 110


în componente principale, 1, 15 prin metoda k-means, 107
în componente robuste, 51 coe…cient
corespondenţelor multiple, 2, 62, de corelaţie, 18
85 de corelaţie multipl¼
a, 210
corespondenţelor simple, 2, 62 de corelaţie Spearman, 50
cu variabile instrumentale, 52 de determinare, 210
de covarianţ¼a, 205 de determinare, ajustat, 221
de varianţ¼a, 205, 229 de disimilaritate, 3
discriminant¼ a, 140 de regresie, 207
dispersional¼ a, 205, 229 - intercepţie/bias, 207
logaritmic¼ a, 52 - pantã, 207
neparametric¼ a, 50 component¼a principal¼a, 33
parţial¼
a a corelaţiilor, 52 contribuţia
rangurilor, 50 în ACM, 93
vectorial¼a sferic¼a, 53 în ACP, 46
arbore în ACS, 76, 77
binar, 140 cosinusul p¼atrat, 77
binar complet, 190 costul erorii de clasare, 157
de clasi…care, 121 criteriu
de decizie binar¼ a, 189, 190 al cotului, 43
maximal, 196 al lui Kaiser, 43
minimal, 107 de minimizare, 206
axe - norma Lk , 206
principale, 33
descompunerea în valori singulare, 40
c¼autare exhaustiv¼a, 221 disimilaritate, 109
calitatea reprezent¼arii dispersie
în ACP, 44 de selecţie, 18
în ACS, 76 explicatã, 209
cerc de corelaţie, 37 rezidualã, 209
clasare, 141, 156 totalã, 209
clasi…care, 107 distanţ¼a, 108
automat¼ a, 107 a diametrului (complete linkage),
ierarhic¼
a, 107, 120 127
mixt¼a, 129 a mediei (average linkage), 127

274
INDICE 275

a saltului minimal (single linkage), quasi-baricentrice, 72


126 funcţie
chi-pãtrat, 64, 89 de decizie, 147
city-block, 53 - liniarã, 151
Cook, 218 de discriminare, 147
euclidianã, 11, 108 - instruibilã, 147
Hellinger, 66 de impuritate, 193
L1 , 108 de legãturã, 242
Mahalanobis, 108 de pierdere discretã, 157
Minkowski, 109 de regresie, 207
distribuţie de repartiţie condiţionat¼
a, 155
à posteriori, 172 discriminantã a lui Fisher, 163
à priori, 172
- conjugatã, 172 ierarhie, 120
Gauss-Laplace, 133 indexatã, 121
diviziune impuritate, 193
admisibilã, 191 funcţii de impuritate, 193
echi-divizantã/supleantã, 197 reducerea impurit¼ aţii, 193
echi-reductivã, 197 indice
optimã, 194 al unei ierarhii/nivel de agregare,
dreapta de regresie, 207 121
de diversitate Gini, 193
entropie Shannon, 193 Dice, 109
eroare, 206 Jaccard, 109
aparentã, 196 Ochiai, 109
Bayes, 159 Rogers şi Tanimoto, 109
teoreticã, 196 Russel şi Rao, 109
estimator individ, 17
bayesian, 174 activ, 48
de resubstituţie/plug-in, 167 suplimentar, 48
de verosimilitate maximã, 170 inerţie
într-un punct, 22
factor a unei clase, 111
de in‡aţie a dispersiei, 219 interclase, 111
principal, 33 intraclase, 111
formul¼a matricea de ~, 32
a lui Bayes pierderea de ~intraclase, 123
- a probabilit¼
aţii cauzelor, 155 rata de inerţie, 42
- pentru densit¼ aţi de probabili- totalã/globalã, 22
tate, 156 înv¼aţare
a lui Huygens, 22 eşantion de ~, 140
a lui Lance-Williams, 124 funcţie de discriminare cu ~, 147
de reconstituire, 40 nesupervizatã/fãrã profesor, 147
formule supervizatã/cu profesor, 147
276 INDICE

metoda al echivalenţei distribuţiilor, 66


minmax, 206 probabilitate
ANOVA, 232 à posteriori, 155, 158
Automatic Interaction Detection à priori, 155
(AID), 189 condiţionat¼ a, 155
CART, 189 de misclasare, 157
celor mai mici pãtrate, 206 procedur¼a
celor mai mici valori absolute, 206 admisibilã, 160
centrelor mobile (a lui Forgy), 112 completã, 160
k-means, 107, 115 de clasare, 160
norilor dinamici, 107, 115 de discriminare Bayesianã, 159
Ward, 123 minimal¼ a şi complet¼a, 160
metode putere discriminant¼ a, 145
de agregare în jurul centrilor mo-
bili, 107 regiune
de cãutare pas cu pas, 221 de decizie, 146
- metoda ascendentã, 221 de nedeterminare, 148
- metoda descendentã, 221 regresie
pe componente principale, 220
- metoda stepwise, 222
Ridge, 220
de clasi…care , 107
simpl¼a liniar¼a, 207
- ierarhicã, 120
regula
- neierarhicã, 110
Bayes, 157
de comparaţie multipl¼ a, 232
cotului (scree-test), 42
de compresie a datelor, 41
de decizie, 149
de segmentare, 189
reziduu, 206
de selecţie a variabilelor, 221
prognozat, 218
explicative, 139
studentizat, 218
factoriale, 1
risc
geometrice de analizã discriminantã,
Bayes, 159
146
funcţional al plasatorului, 158
probabiliste de discriminare, 155
model, 205 segmentare, 189
complet, 230 separabilitate
cu factori aleatori, 232 cazul 1 de ~, 148
cu factori constanţi, 232 cazul 2 de ~, 149
cu repetiţie, 230 cazul 3 de ~, 149
de regresie, 205 similaritate, 109
echilibrat, 230 sistem de ecuaţii normale, 208
liniar generalizat, 242 suprafeţe de decizie, 146

plan factorial principal, 33 tabel


plasator, 157 centrat, 18
Bayes, 159 centrat-redus, 18
principiu condensat, 85
INDICE 277

de contingenţ¼
a Burt, 87
de contingenţ¼
a/dependenţ¼
a/încrucişat,
62
de mãsurãtori, 16
de note, 16
de ranguri, 17, 50
disjunctiv complet, 86
"tundere", 196

variabil¼a, 17
activã, 48
dependentã/de explicat/endogenã,
205
explicativã/exogenã/predictor, 205
pasivã/suplimentarã/ilusrativã, 48

S-ar putea să vă placă și