Sunteți pe pagina 1din 50

Capitolul 3

METODE EXPLICATIVE
UZUALE

Acest capitol face leg atura ntre demersurile exploratori i prezentate n


capitolele 1 si 2, si demersul inferential si conrmatoriu care constituie partea
clasic
a cea mai ampl a a statisticii matematice.
Sa recapitul am, pe scurt, caracteristicile celor dou a familii de metode
c
arora le corespund demersuri complementare.
Statistica descriptiva si exploratorie permite realizarea de rezumate si
grace mai mult sau mai putin elaborate, descrierea multimilor de date sta-
tistice si stabilirea de relatii ntre variabile, far
a a acorda un rol privilegiat
vreunei variabile. Concluziile obtinute n aceast a etapa privesc doar datele
studiate, f ar
a a generalizate la o populatie mai larg a. Analiza exploratorie
se sprijina, n mod esential, pe notiuni elementare - acelea de medie si disper-
sie, pe reprezent ari grace si pe tehnici descriptive multidimensionale de tipul
celor abordate n primele dou a capitole.
Statsitica inferentiala si conrmatorie permite validarea sau inrmarea,
pornind de la teste statistice sau modele probabiliste, a ipotezelor formulate
priori (adic a urmarea unui demers exploratoriu) si extrapolarea acestora de la
nivelul esantionului la cel al unei populatii mai mari. Statistica conrmatorie
face apel, n special, la metodele numite explicative8 si previzionale. Dup a cum
le indica numele, acestea sunt destinate s a explice, apoi s
a prevad a, urmnd
anumite reguli de decizie, o variabil a privilegiata, cu ajutorul uneia sau mai
multor variabile explicative.
Demersurile sunt complementare, explorarea si descrierea trebuind, n
general, s a precead a etapele explicative si predictive. ntr-adevar, o explorare
preliminar a este adesea util a pentru a avea o prim a idee despre natura leg a-
8
Statistica nu explic
a nimic, dar furnizeaza elemente potentiale de explicatii. De altfel,
termenii de variabil
a explicativ
a sau variabil
a de explicat nu sunt cei mai judiciosi. Se mai
spune independent si dependent sau exogen si endogen. Ultimii doi termeni sunt poate cei
mai adecvati dar nu sunt destul de evocatori. Adjectivul independent este, n schimb, surs a
de confuzie.

139
140 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

turilor ntre variabile si pentru a trata cu prudent a variabilele corelate, si deci


redundante, ce risc a s
a ncarce inutil modelul.
Metodele explicative prezentate n sectiunile 3.1 3.3 acoper a utilizarile
cele mai curente.
Analiza discriminanta (sectiunile 3.1 si 3.2) este, schematic vorbind,
analog a cu regresia multipl a cnd variabila endogen a y este discreta. n acest
caz, variabila de explicat deneste clasele unei partitii priori a populatiei.
Scopul analizei l constituie studierea legaturilor ntre variabilele explicative
si clasele partitiei (sectiunea 3.1). Se denesc astfel functii discriminante care
vor permite, ntr-o etap a decizionala, afectarea de noi indivizi la aceste clase
(sectiunea 3.2).
Tehnicile de segmentare prin arbore binar (sectiunea 3.3) sunt prezen-
tate n cadrul acestui capitol din diferite motive. Pe de o parte ele se aplic a
la toate variabilele, oricare ar statutul sau natura lor, pe alt a parte ele inte-
greaz a simultan faza explicativ a si cea decizional
a. Aceste tehnici constituie,
astfel, o metod a de previziune foarte accesibil a ale c
arei rezultate sunt usor de
interpretat.

3.1 Analiza discriminant


a
Este desemnat a sub numele de analiza discriminanta o familie de tehnici
destinate s
a claseze (sa afecteze la clase preexistente) indivizi caracterizati
printr-un num ar de variabile continue sau discrete.
Metoda si are originea n lucr
arile lui R. A. Fisher [26] sau, ntr-o maniera
mai putin direct
a, n cele ale lui P.C. Mahalanobis [43].
Analiza discriminant a este una dintre tehnicile de analiz a multidimen-
sional
a cele mai folosite n practic a (diagnostic automat, controlul calit atii,
previziunea riscului, recunoasterea formelor).

3.1.1 Notatii si formularea problemei


Dispunem de n observatii (sau indivzi) asupra a p variabile (x1 ; x2 ; : : : ; xp ),
observatii repartizate n q clase denite priori de variabila y nominal a, avnd
q modalit ati. n cele ce urmeaz a vom nota cu y vectorul n-dimensional, cu
componente numere naturale, reprezentnd num arul clasei din care face parte
observatia / individul i si cu Y matricea disjunctiv a n q corespunz atoare.
Analiza discriminant a si propune, ntr-o prim a etap a, s
a caracterizeze
ct se poate de bine cele q clase cu ajutorul celor p variable explicative, iar apoi,
ntr-o a doua etap a, s
a rezolve problema afect arii unui individ nou, caracterizat
prin cele p variabile, la una dintre clasele deja identicate pe baza esantionului
de n indivizi (numit esantion de nvatare).
Se disting, n consecinta, dou a demersuri:

primul, descriptiv, ce const


a n c
autarea functiilor de discriminare liniare

3.1. ANALIZA DISCRIMINANTA 141

pe esantionul de volum n (adica g


asirea combinatiilor liniare de variabile
explicative ale c
aror valori separ
a cel mai bine cele q clase);
al doilea, decizional, ce consta n aarea claselor de afectare a celor n0
indivizi noi, descrisi prin variabilele explicative (x1 ; x2 ; : : : ; xp ) (numit
esantion de test). Este vorba aici de o problema de clasare n clase
preexistente, n opozitie cu problemele de clasicare (capitolul 2) care
constau n construirea de clase ct mai omogen posibil ntr-un esantion
dat.

fig. 3.1.1. Principiul analizei discriminante

3.1.2 Analiza factorial


a discriminant
a
j=1;p
Fie tabelul observatiilor X 2Mn p (R) cu X = (xij )i=1;n
Cei n indivizi sunt mp artiti n q clase (clasele sunt presupuse disjuncte
si se cunoaste afectarea ecarui individ la o clas a).
Fiecare clasa k caracterizeaz a un subnor Ik de nk indivizi, unde
q
X
nk = n:
k=1
Se noteaz a cu gk centrul de greutate al clasei k si cu g centrul de greutate
al norului, adic
a
1 X
gk = xkj unde xkj = xij
j=1;p nk
i2Ik

respectiv
n q
1X Xn
k k
g = (xj )j=1;p , cu xj = xij = x :
n n j
i=1 k=1

fig. 3.1.2. Reprezentarea norului de indivizi discriminaT i


142 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Pentru precizarea ideilor, se consider a o multime X de date (puncte)


dintr-un spatiu bidimensional. Valorile caracteristicilor x1 si x2 ale punctelor
sunt date de proiectiile norului X pe axele de coordonate Ox si Oy. Structura
claselor lui X se poate detecta, n acest caz, prin simpla inspectie vizual a.
n unele situatii se poate constata c a nu exist a n X o structur a de
clase bine denit a si astfel diferiti observatori pot indica diferite moduri de
grupare a datelor n clase. Aceasta relev a faptul ca puterea de discriminare
a caracteristicilor (axelor) este slab a pentru datele considerate. Exist a doua
posibilitati: e ca nu s-au ales cele mai bune caracteristici ale datelor, e
c
a datele sunt, prin natura lor, foarte asem an
atoare. Pentru a evita aceast a
situatie, este uneori posibil a determinarea unui nou sistem de coordonate fat a
de care structura de clase a norului X s a e mai evident a dect n sistemul
initial. Axele noului sistem au, deci, o putere de discriminare a claselor din X
superioar a celei a axelor initiale. n unele situatii este sucient
a determinarea
unei singure axe discriminante, astfel nct proiectiile norului X pe aceast a
axa sa constea din clase compacte si bine separate. n g. 3.1.3., axa 1 are o
bun a putere discriminant a n timp ce axa 2, care este axa principal a uzuala,
nu permite o separare a proiectiilor celor dou a grupe.

fig. 3.1.3. Axe cu proprietA T i de discriminare diferite

Marirea puterii discriminante a axelor poate , asadar, reclamat a de


datele problemei, cu scopul de a putea "vedea" o anumit a structura n date.
Determinarea axelor discriminante poate servi si ca o tehnic a de reducere
a dimensiunii spatiului variabilelor. Prin aceast a tehnica sunt selectate cele
mai relevante caracteristici. Reducerea dimensiunii poate impus a si de nece-
sitatea vizualizarii claselor prin proiectarea datelor ntr-un spatiu cu una sau
doua dimensiuni. n acest caz, cerinta fundamental a este ca, prin proiectarea
datelor ntr-un spatiu de dimensiune redusa, la clase compacte si bine sepa-
rate din spatiul initial sa corespunda clase compacte si bine separate din noul
spatiu.
Fie combinatia liniar a, pentru individul i, formata cu cele p variabile
p
X
a (i) = aj (xij xj ) ; i = 1; n:
j=1

Variabila a = (a (i))ni=1 este centrat


a, deci de medie empiric
a 0. Atunci dis-

3.1. ANALIZA DISCRIMINANTA 143

persia empiric
a a lui a este
2 32
n
X n
X Xp
1 1 4
D2 (a) = 2
a (i) = aj (xij xj )5
n n
i=1 i=1 j=1
p
n X
X p
X
1
= aj aj 0 (xij xj ) xij 0 xj 0 :
n
i=1 j=1 j 0 =1

Inversnd ordinea de sumare si notnd


n
1X
tjj 0 = (xij xj ) xij 0 xj 0 = cov xj ; xj 0
n
i=1

dispersia empiric
a a variabilei a se poate scrie
p X
X p
2 j0=1;p
D (a) = aj aj 0 cov xj ; xj 0 = a0 Ta, unde T = tjj 0 j=1;p
:
j=1 j0=1

Ca si n analiza dispersional
a (vezi, de exemplu, [60]) se poate descom-
pune matricea de covariant a, T, ntr-o component a intraclase (n interiorul
claselor) si o componenta interclase (ntre clase) obtinndu-se formula de de-
scompunere a lui Huygens, sau ecuatia analizei dispersionale.
S
a pornim de la identitatea

xij xj = xij xkj + xkj xj :


Atunci
2 3
Xq X
1 4
tjj0 = (xij xj ) xij0 xj 0 5 =
n
k=1 i2Ik
2 3
1 X 4X h i h i
q
= xij xkj + xkj xj xij 0 xkj0 + xkj0 xj 0 5=
n
k=1 i2Ik
q X
X q
1 1 XX k
= xij xkj xij 0 xkj0 + xj xj xkj0 xj 0 :
n n
k=1 i2Ik k=1 i2Ik

deoarece, din denitia lui xkj

X X
xij xkj xkj0 xj 0 = xkj0 xj 0 xij xkj =
i2Ik i2Ik
0 1
X
= xkj0 xj 0 @ xij nxkj A = 0
i2Ik
144 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

si n mod analog
X
xkj xj xij 0 xkj0 = 0:
i2Ik

Notnd cu
q
1 XX
djj 0 = xij xkj xij 0 xkj0
n
k=1 i2Ik

si cu
q
X nk
ejj0 = xkj xj xkj0 xj 0
n
k=1
se poate scrie
T=D+E (1)
j 0 =1;p j 0 =1;p
unde D = djj 0 j=1;p si E = ejj 0 j=1;p :
Astfel, dispersia unei combinatii liniare de variabile, a, se descompune n

a0 Ta = a0 Da + a0 Ea: (2)

Reamintim c a, dintre toate combinatiile liniare de variabile, sunt c au-


tate cele care au o dispersie intraclase minim a si o dispersie interclase maxim a.
Rezulta ca, n proiectie pe axa discriminant a a; ecare subnor trebuie s a e,
n masura posibilului, n acelasi timp bine grupat si bine separat de ceilalti
subnori.
0 Ea 0
Trebuie g asit a astfel nct aa0 Da sa e maxim a (sau echivalentul, aa0Da
Ea
0
minim a) sau, conform (2), s a se maximizeze f (a) = aa0Ea Ta (raportul dintre
dispersia inter-clase si dispersia totala).
Asadar, un punct stationar al lui f (a) se aa rezolvnd ecuatia
(a0 Ta) (2Ea) (a0 Ea) (2Ta)
f 0 (a) = 0 =) =0
(a0 Ta)2
d
deoarece da (a0 Ea) = 2Ea dac a E este simetric
a (si este deoarece E si T sunt
matrici de covariant
a, n plus T este inversabil
a). Rezult a

a0 Ta Ea = a0 Ea Ta

a0 Ea 1
Ea= Ta j T
a0 Ta

1 a0 Ea
T Ea= a =f (a) a (3)
a0 Ta
Asadar f (a) este maxim
a daca este egal
a cu , valoarea proprie maxim
a
1
a matricii T E iar a este vector propriu corespunzator lui maxim

3.1. ANALIZA DISCRIMINANTA 145

Observatia 3.1.1
1. T 1 E este o matrice p p, n general nesimetric a. Din punct de vedere al
calcului numeric, avnd n vedere c aq p, este mai usor a aa vectorii
si valorile proprii ale unei matrici simetrice de dimensiune q q si a g asi
o exprimare a lui a n functie de aceste elemente.

2. Se observ a E este produsul unei matrci C 2 Mp q (avnd coe-


a c
p nk k
cientii cjk = n xj xj ) cu transpusa sa, deci, revenind n (3),
T 1 CC0 a = a sau CC0 a = Ta si considernd a = T 1 Cw rezult
a

CC0 T 1
Cw = Cw (4)

Dac
a w este vector propriu corespunz ator lui ; al matricii C0 T 1 C
atunci el veric
a relatia (4) si a si verica relatia (3). Cum si C0 T 1 C 2
Mq q (R) este simetric a, n practic a se diagonalizeaz a aceast
a matrice iar
apoi se aa a = T 1 Cw.

3. max se numeste putere discriminant a si din (1) este mai mic a sau egal a
cu unu. ntr-adev a a0 Ta = a0 Da + a0 Ea: Dar T este
ar, din (1) rezult
pozitiv denita (deoarece este matrice de covariant a)) a0 Ta > 0; (8) a,
deci n egalitatea de mai sus se poate mp arti cu scalarul a0 Ta si se obtine

a0 Da a0 Ea
1= + 0 :
a0 Ta a Ta

Cum scalarii a0 Da; a0 Ea si a0 Ta sunt pozitivi (ca dispersii intraclase,


a0 Ea
respectiv interclase si total
a)) 0 a0 Ta f (a) 1; (8) a; deci 0
max 1:

max = 1 corespunde cazului A) din g. 3.1.4. n proiectia pe


axa a dispersiile intraclase sunt nule. Cei k nori sunt ecare ntr-
un hiperplan ortogonal pe a. Discriminarea pe aceast a axa este
perfect
a dac
a centrele de greutate se proiecteaz
a n puncte diferite.

max = 0 corespunde cazului n care cea mai bun a axa discrimi-


nanta nu poate sa separe centrele de greutate gi pentru c a acestea
sunt confundate. Norii sunt, deci, concentrici si neliniari separabili
(cazul B) din g. 3.1.4.) Este posibil a existenta unei suprafete de
decizie neliniare; n cazul de fat
a este vorba de o functie patratic
a.
146 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

fig 3.1.4. exemplificarea diferitelor puteri de


discriminare ale unei axe
Valoarea proprie este o masura pesimista a puterii de discriminare a unei
axe: cazul C) din g. 3.1.4. arat a ca cele dou
a clase sunt liniar separabile pe
axa considerat a n poda faptului c a < 1.
Num arul de valori proprii nenule, deci al axelor discriminante, este egal
cu q 1 n cazul obisnuit, unde n > p > q si variabilele nu sunt legate prin
relatii liniare.
Odat a gasite axele cu puterea de discriminare cea mai bun a, pasul ur-
mator const a n g asirea suprafetelor de decizie.

3.1.3 Metode geometrice


Metodele geometrice de analiz a discriminant a, esentialmente descriptive,
se bazeaz
a pe notiunea de distanta si nu utilizeaz
a nici o notiune probabilist
a.
Pentru detalii privind aceast
a sectiune pot consultate monograile [1], [21].

3.1.3.1 SUPRAFETE DE DECIZIE


n context geometric, discriminarea poate interpretat a ca o mp artire
a spatiului variabilelor n regiuni, numite regiuni de decizie, ecare regiune
ind asociat a cu o clas a de obiecte. Regiunile de decizie si implicit clasele
corespunz atoare, se zic separabile dac
a pot separate prin suprafete din spatiul
variabilelor.
Suprafetele de separare ale regiunilor de decizie se numesc si suprafete
de decizie. Dac a suprafetele de decizie sunt hiperplane, clasele se zic liniar
separabile.

3.1. ANALIZA DISCRIMINANTA 147

Suprafetele de decizie pot descrise cu ajutorul unei multimi de functii


de discriminare sau functii de decizie.

fig. 3.1.5. douA clase liniar separabile din R2 , notate A1 S i A2


Clasele ce apar n multe probleme concrete nu pot , n general, pre-
cis denite, deoarece apartenenta unor elemente la una sau alta dintre clase
poate incert a. Aceste clase f ar
a margini precise, n care tranzitia de la
apartenent a la neapartenenta este mai degrab a gradual a, pot descrise prin
multimi nuantate (fuzzy sau cu apartenenta divizata. Vezi, de exemplu, [22]).
Va considerat, n cele ce urmeaz a, cazul claselor separabile. Functia
de discriminare ataseaz a ecare obiect/vector unei regiuni R din spatiul va-
riabilelor, regiune delimitat a prin intermediul unei multimi de suprafete de
decizie. O functie de discriminare instruibila (cu nvatare) tinde s a reduc a
num arul obiectelor clasate incorect (misclasate), f acnd acest num ar ct mai
mic posibil, eventual nul. Acest lucru se realizeaz a prin ajustarea multimii R
a regiunilor de decizie ca r aspuns la observatiile f acute asupra unei multimi
de obiecte de instruire. Multimea obiectelor de instruire se numeste multime
de instruire. Ajustarea regiunilor de decizie ca rezultat al observatiilor asupra
multimii de instruire reprezint a faza de nvatare sau instruire a functiei de
discriminare.
Dac a se cunoaste dinainte num arul claselor si dac
a pentru ecare obiect
din multimea de instruire stim clasa c aruia acesta i apartine, nv atarea se
numeste supervizata sau cu profesor. Dac a structura de instruire nu este
cunoscut a, adica pentru nici un obiect din aceast a multime nu cunoastem
dinainte clasa de apartenent a, instruirea se numeste nesupervizata sau fara
profesor.
Procedura conform c areia regiunile de decizie sunt ajustate ca r aspuns
la observatiile privind clasarea vectorilor din multimea de instruire, constituie
procedura de instruire. Dup a ce clasele si suprafetele de decizie sunt stabilite
prin faza de instruire (functia de discriminare este instruit a), functiei de dis-
criminare i se prezint a date ale caror clase nu se cunosc. Aceast a faza, n care
148 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

obiecte noi sunt asociate uneia sau alteia dintre clasele stabilite, se numeste
faza de lucru/decizionala /de afectare. Uneori faza de instruire si cea de lucru
pot sa coincida sau sa se suprapun a partial. Este ceea ce se ntmpl a n cazul
clasicarii nesupervizate.
Sa consideram c a n multimea obiectelor (reprezentate sub form a de vec-
tori) sunt prezente q clase, notate A1 ; : : : ; Aq . Distingem urm atoarele trei
cazuri de separabilitate:
Cazul 1. Fiecare clas a este separat a de toate celelalte printr-o singura
suprafata de decizie. Exista, deci, q functii de decizie. Notam cu gi (x) : Rp !
R functia de decizie corespunz atoare clasei Ai . Ecuatia suprafetei de decizie
ce separa clasa de toate celelalte clase este gi (x) = 0.
Pentru ecare clas a Ai regula de afectare este

daca x 2 Ai ; atunci gi (x) > 0:


Dac
a pentru un punct x; nou considerat,

gi (x) > 0 si gj (x) < 0; j = 1; q; j 6= i

atunci x este atasat clasei Ai .


Regiunea de decizie R; corespunz
atoare clasei Ai va , asadar,

Ri = x 2Rp jgi (x) > 0 si gj (x) < 0; j = 1; q; j 6= i :

Punctele ce nu apartin niciunei regiuni de decizie formeaz a o regiune de


nedeterminare (RN). Suprafetele de decizie apartin regiunii de nedeterminare.
Este posibil ca regiunea de nedeterminare RN s a contin
a si alte puncte dect
cele apartinnd suprafetelor de decizie.

fig. 3.1.6. Cazul 1 de separabilitate



3.1. ANALIZA DISCRIMINANTA 149

Cazul 2. Fiecare clas a este separat


a de oricare alta printr-o suprafata
de decizie. Clasele sunt, asadar, dou a cte dou a separabile. Exist a, deci,
q(q 1)
2 suprafete de decizie generate de functiile gij (x) : Rp ! R: Suprafata de
decizie corespunz atoare claselor Ai si Aj are ecuatia gij (x) = 0. Functiile de
decizie satisfac conditia gij (x) = gji (x) ; 8x 2Rp :
Punctele clasei Ai se aa de partea pozitiv a a suprafetei gij (x) = 0 .
Regula de decizie este:

x 2 Ai , gij (x) > 0; (8) j 6= i:

Regiunea de decizie R corespunz


atoare clasei Ai este

Ri = fx 2Rp jgij (x) > 0; (8) j 6= ig :

La fel ca si n conditiile cazului l de separabilitate, este posibil s


a existe
o regiune de nedeterminare neapartinnd nici unei regiuni de decizie.

fig. 3.1.7. Cazul 2 de separabilitate

Cazul 3. Exist
a k functii de decizie. Regula de decizie se formuleaz
a
astfel:
x 2 Ai , gi (x) > gj (x) ; (8) j 6= i:
Regiunea de decizie R corespunz
atoare clasei Ai va asadar

Ri = fx 2Rp j gi (x) > gj (x) ; (8) j 6= ig :

Suprafata de decizie dintre clasele Ai si Aj are ecuatia

gi (x) = gj (x) ; (8) x 2Rp ; j 6= i:

Obiectele clasei Ai se aa de partea pozitiv


a a suprafetei de separare.
150 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Observatia 3.1.2
Separabilitatea de tip 3 implic
a separabilitatea de tip 2. ntr-adev
ar, s
a con-
sider
am
gij (x) = gi (x) gj (x)
si s
a admitem separabilitatea claselor A1 ; : : : ; Aq n conditiile cazului 3. Dac
a
x apartine regiunii clasei Ai , atunci gi (x) > gj (x) ; 8j 6= i. Deci gij (x) >
0; 8j 6= i. Rezult
a asadar c
a, dac
a clasele sunt separabile n conditiile cazului
3, ele sunt separabile si conform cazului 2. Reciproca nu este, n general,
valabila.

n conditiile cazului 3 de separabilitate nu exist


a alte regiuni de nedeter-
minare dect suprafetele de separare (vezi g 3.1.8.).

fig. 3.1.8. Cazul 3 de separabilitate

n cele ce urmeaz a, prin separabilitatea a dou a clase vom ntelege, n


absenta altei preciz
ari, separabilitatea n conditiile cazului 3.

3.1.3.2 FUNCTII DE DECIZIE AFINE SI LINIARE


De o mare important a practica este cazul claselor liniar separabile. n
aceast
a situatie functiile de decizie sunt functii ane.
a g : Rp ! R , adic
O functie ana de decizie, g, este o aplicatie liniar ag
se poate scrie sub forma

g (x) = w0 x + wp+1 ; x 2Rp

cu
w = (w1 ; : : : ; wp )0 si wi 2 R; i = 1; p:
Vectorul w se numeste vector pondere sau vector parametru.

3.1. ANALIZA DISCRIMINANTA 151

O conventie uzuala este sa se adauge wp+1 ca ultim a component a a vec-


torului w. Se deneste astfel vectorul pondere extins, v = (w1 ; : : : ; wp ; wp+1 )0 si,
respectiv, vectorul caracteristica extins y = (x1 ; : : : ; xp ; 1)0 . Vectorii y vor el-
emente ale spatiului extins al caracteristicilor, spatiu notat cu Y. Prin aceast a
marire a dimensiunii spatiului caracteristicilor, propriet atile geometrice ale
claselor nu sunt alterate. Cu noile notatii introduse functia an a de decizie
se transform a de decizie g : Y ! R; Y Rp+1 ; dat
a ntr-o functie liniar a de
expresia
g (y) = v0 y; y 2 Y
Daca gi este functia liniar
a de decizie corespunznd clasei Ai atunci, n
conformitate cu cazul 3 de separabilitate, un obiect y este atasat clasei Ai
dac
a
gi (y) > gj (y) ; (8) j 6= i
Consider am o functie r : Y ! f1; 2; : : : ; qg ce ataseaz
a ec
arui vector y
indicele unei clase. Regula de decizie se reformuleaz a astfel:

r (y) = i , gi (x) > gj (x) ; (8) j 6= i

n cazul cnd exista doar dou a clase, putem considera o singur


a functie
de decizie g : Y ! R; dat
a de relatia

g (y) = g1 (y) g2 (y) :

Daca g (y) > 0, atunci y apartine clasei A1 , iar dac


a g (y) < 0, atunci y
apartine clasei A2 :

3.1.3.3 ECUATIA UNUI HIPERPLAN


Ecuatia unui hiperplan, H, ce trece printr-un punct x0 si este normal pe
un vector unitar u se poate scrie sub forma

hu; x x0 i = u0 (x x0 ) = 0

cu produsul scalar uzual.


Ecuatia dreptei 4 ce trece printr-un punct z0 si este ortogonal
a pe hiper-
planul H se scrie
x z0 = tu; t 2 R
adic
a
x = z0 + tu; t 2 R:
Pentru a gasi intersectia lui H cu dreapta 4 nlocuim ecuatia dreptei n
ecuatia hiperplanului. Obtinem

u0 (z0 + tu x0 ) = 0
152 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

si deci
tu0 u = u0 (x0 z0 )
de unde, tinnd cont c
a kuk = 1, g
asim
u0 (x0 z0 )
t= 2 = u0 (x0 z0 )
kuk
Punctul de intersectie al dreptei 4 cu hiperplanul H va asadar
x1 = z0 + u0 (x0 z0 ) u:
Distanta de la punctul z0 la hiperplan este, deci,
d (H; z0 ) = kx1 z0 k =
0
= u (x0 z0 ) kuk =
0
= u (x0 z0 )
Distanta de la originea spatiului la hiperplan se obtine considernd n
relatia de mai sus z0 = 0 si deci
D = d (H; 0) = u0 x0 :

3.1.3.4 HIPERPLANE DE SEPARARE


n cazul 3 de separabilitate regiunile de decizie sunt m arginite de hiper-
plane sau de portiuni de hiperplane. Dac a regiunile Ri si Rj au o frontiera
comuna, suprafata de decizie ce le separ
a este hiperplanul de ecuatie
gi (y) gj (y) = vi0 vj0 y =0
Observ am ca, n spatiul extins al caracteristicilor, toate hiperplanele de
separare trec prin originea spatiului.
n spatiul caracteristicilor, ecuatia suprafetei de decizie este

gi (x) = gj (x)
deci se poate scrie
wi0 x+wi;p+1 = wj0 x+wj;p+1 sau w0 x+wp+1 = 0
unde am notat
w = wi wj
wp+1 = wi;p+1 wj;p+1:
Din relatia de mai sus rezult a c
a ecuatia hiperplanului de separare n
spatiul caracteristicilor se mai poate scrie sub forma
w0 wp+1
x+ =0
kwk kwk

3.1. ANALIZA DISCRIMINANTA 153

Comparnd aceast
a ecuatie cu ecuatia general
a

u0 x u0 x0 = 0

a hiperplanului ce trece prin punctul x0 , obtinem c


a vectorul unitar normal
pe hiperplan este
w
u=
kwk
si
wp+1
u0 x0 = :
kwk
Rezult
a c
a distanta de la origine la hiperplanul de separare se poate scrie

jwp+1 j
D = u0 x0 = :
kwk

Distanta de la punctul z0 la hiperplan va

d (H; z0 ) = u0 (x0 z0 ) =
wp+1 w0
= z0 =
kwk kwk
1
= w0 z0 + wp+1 :
kwk

Formulele stabilite se vor dovedi utile n studiul geometriei functiilor


discriminante liniare.

3.1.4 Functii discriminante de distant


a minim
a
n aceast a sectiune ne propunem s a ar
atam cum clasarea prin mini-
mizarea unei functii criteriu ne conduce la o clas a de functii discriminante
liniare. Functia criteriu considerata aici este distanta de la vectorii caracter-
istic
a la prototipurile claselor.
Patratul distantei euclidiene de la un vector x din X la prototipul Li al
clasei Ai , se scrie

d2 (x; Li ) = kx Li k2 = (x Li )0 (x Li ) =
0 0
= xx 2x Li + L0i Li

Un vector x este atasat acelei clase Ai de al carei prototip x este mai


aproape, adic
a
x 2Ai dac a d (x; Li ) = min d x; Lj :
j
154 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Distantele ind ntotdeauna pozitive, a minimiza d este echivalent cu a


minimiza d2 . Deoarece x0 x nu depinde de clasa i; distanta de la x la prototipul
Li se mai scrie
1 0
d2 (x; Li ) = x0 x 2 x0 Li L Li :
2 i
O clasicare echivalent
a cu regula de asignare de mai sus se obtine con-
sidernd functia gi : Rp ! R dat
a de
1 0
gi (x) = x0 Li L Li :
2 i
Regula de decizie devine:
x 2Ai dac
a gi (x) = max gj (x)
j

Am obtinut c
a gi este o functie an
a de decizie. Notnd
1
ci = Li si ci;p+1 = L0i Li :
2
se poate scrie gi sub forma standard
gi (x) = c0i x+ci;p+1:
Suprafata de decizie ce separ
a clasele Ai si Aj are ecuatia
gi (x) = gj (x) :
adic
a, tinnd cont de forma lui gi ; rezult
a
1 0
(Li Lj )0 x L Lj L0i Li = 0;
2 j
ceea ce se mai poate scrie sub forma
1
(Li Lj )0 x (Li + Lj ) = 0:
2
Notnd
1
c = Li Lj si x0 = (Li + Lj ) ;
2
ecuatia suprafetei de decizie devine:
c0 (x x0 ) = 0
Suprafata de separare este, deci, un hiperplan ce trece prin punctul x0
si este ortogonal pe vectorul c. Cu alte cuvinte, hiperplanul de separare este
ortogonal pe dreapta ce uneste prototipurile claselor, pe care o intersecteaz a
ntr-un punct situat la jum atatea distantei dintre prototipuri.
Functia discriminant
a cu distant
a minim a este adecvata pentru cazurile
cnd punctele unei clase tind s a se aglomereze n vecin atatea unui punct pro-
totip, formnd un nor (cluster ) de puncte.
3.2. METODE PROBABILISTE DE DISCRIMINARE 155

3.2 Metode probabiliste de discriminare


Aceasta sectiune este dedicat
a aspectului inferential al analizei discrimi-
nante, prin abordarea probabilist a a metodelor de discriminare. Principalul
instrument folosit este teoria bayesiana a deciziilor. Se vor considera diferite
metode de estimare a parametrilor necunoscuti din densitatea de probabilitate
atasat
a multimii datelor.

3.2.1 Preliminarii
Denitia 3.2.1 Fie ( ; K; P ) un cmp de probabilitate si A; B 2 K cu P (B) >
0: Probabilitatea
P (A \ B)
PB : K ! R cu PB (A) = P (AjB) =
P (B)

se numeste probabilitatea conditionata a evenimentului A relativ la evenimen-


tul B.

Lema 3.2.1
Fie ( ; K; P ) un cmp de probabilitate si fAi gi2I un sistem complet de eveni-
mente. Are loc urm atoarea egalitate (formula lui Bayes a probabilit atii
cauzelor)

P (Ai \ B) P (Ai ) P P(B\A


(Ai )
i)
P (Ai ) P (BjAi )
P (Ai jB) = = =P :
P (B) P (B) P (Ai ) P (BjAi )
i

cu fP (Ai )g probabilit
ati priorice si fP (BjAi )g probabilit
ati posteriori.

Denitia 3.2.2 Fie( ; K; P ) un cmp de probabilitate, X variabil


a aleatoare
si A 2 K cu P (A) > 0: Functia FA : R ! [0; 1] dat
a prin

FA (x) F (xjA) = P (X < xjA) ; (8) x 2 R

se numeste functie de repartitie a variabilei aleatoare X conditionata de eveni-


mentul A.

Denitia 3.2.3 Analog, f ( jA)


R x : R ! R se numeste densitate de repartitie
conditionata, unde F (xjA) = 1 f (tjA) dt.

Observatia 3.2.1
f (xjA) = F 0 (xjA) aproape peste tot.

Lema 3.2.2
P (A)f (xjA)
P (AjX = x) = f (x) :
156 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Fie (X; Y ) variabil a aleatoare bidimensional a, cu densitatea de probabi-


litate h si functia de repartitie F , adic
a
Z x Z y
F (x; y) = h (t; s) dt ds:
1 1

Functia de repartitie a lui X este


Z x Z
FX (x) = P (X < x) = P (X < x; Y < 1) = F (x; 1) = h (t; s) dt ds:
1 R

si densitatea de probabilitate a lui X este


Z
0
f (x) = FX (x) = h (x; s) ds:
R

Analog, densitatea de probabilitate a lui Y este


Z
0
g (y) = FY (y) = h (t; y) dt:
R

Lema 3.2.3
Daca h este densitatea de probabilitate a variabilei aleatoare (X; Y ), f este
densitatea de probabilitate a variabilei aleatoare X si g este densitatea de
probabilitate a variabilei aleatoare Y , atunci
R
1. f (x) = R h (x; y) dy;
R
2. g (y) = R h (x; y) dx;
h(x;y)
3. f (xjy) = g(y) dac
a g (y) > 0; altfel arbitrar;

4. g (yjx) = h(x;y)
f (x) dac
a f (x) > 0; altfel arbitrar;
R
5. f (x) = R f (xjy) g (y) dy;
R
6. g (y) = R g (yjx) f (x) dx;
f (xjy)g(y) R f (xjy)g(y)
7. g (yjx) = f (x) = (formula lui Bayes pentru den-
R f (xjt)g(t)dt
sit
ati de probabilitate):

3.2.2 Formularea bayesian


a a problemei de discriminare
Problema de discriminare (sau clasare. Atentie! nu de clasicare),
formulat
a n termenii teoriei statistice a deciziei este urm
atoarea:
Dndu-se:

K grupe (populatii), 1 ; 2 ; : : : ; K ; specicate prin distributiile lor de


probabilitate, Pi (x) = P (X = xjx 2 i ) cu i = 1; K;
3.2. METODE PROBABILISTE DE DISCRIMINARE 157

qi ; i = 1; K; probabilitati priori ca un individ (observatie) sa provina


din populatiile i ,iP= 1; K ( fqi gK i=1 formeaza un sistem complet de
probabilitati, adica qi = 1),
i

X spatiul observatiilor asupra a p variabile aleatoare, 1; : : : ; p (predic-


tori),

fC(jji)gK i;j=1 ; costurile erorii de clasare (costul clas


arii unei observatii
provenind din populatia i n populatia j ; i 6= j ),
S
K
sa se gaseasca o partitie R = fRi gKi=1 a spatiului X (adic
a X= Ri ;
i=1
Ri \ Rj = ?; i 6= j; i; j = 1; K ) astfel nct
8 9
XK < XK =
qi C(jji)P (jji; R)
: ;
i=1 i6=j;j=1

sa e minima.
R
n cele de mai sus au fost notate cu P (jji; R) = Pi (x)dx; i 6= j;
Rj
atile de eroare pentru o partitie R dat
i; j = 1; K; probabilit a.

3.2.2.1 REGULA BAYES PENTRU DISTRIBUTII CUNOSCUTE


n aceasta sectiune presupunem cunoscute fqi gK K
i=1 si fPi gi=1 . Aceasta va per-
mite sa se construiasc a procedura de clasare cu propriet ati de optimalitate,
dar cu aplicabilitate practic a direct a redusa, deoarece n realitate, cel putin
distributiile fPi gi sunt necunoscute.
P
K
Fie Y = f1; ; Kg spatiul etichetelor claselor si e PY (x) = qi i (x)
i=1
distributia de probabilitate pe Y , unde s-a notat cu i (x) functia Dirac (adic
a
i (x) = 1 daca x = i si 0 n rest).

Denitia 3.2.4 O functie c : X ! Y ce estimeaza clasa c(x) =y 2 Y a lui x,


dup
a ce x 2X a fost observat, se numeste plasator.
Pentru a aprecia calitatea plasatorului este natural s
a se studieze proba-
bilitatea de misclasare pentru clasa k:

pmc(k) = P [fc(x) 6= kj fx 2 k gg]:

Se consider a `(c(x); j) functia de pierdere discreta pentru plasatorul c


fat
a de clasa j si riscul functional al plasatorului,
K
X K
X K
X Z
R(c) = M [`(c(x); j)] = qi pmc(i) = qi Pi (x)dx
i=1 i=1 i6=j;j=1R
j
158 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

deoarece, n acest caz particular, distributia de probabilitate pe X Y este,


din constructie, (x; i) = qi Pe(x) (x), cu e(x) 2 Y notatie pentru clasa lui x.
Daca se consider a costurile misclas arii fC(jji)gK i;j=1 egale cu unitatea,
ipotez a natural
a n multe situatii practice, exceptie facnd situatiile din medi-
cina (cnd costul erorii de a considera un bolnav s an
atos, poate dramatic,
fat
a de costul erorii consider
arii unui om s anatos ca bolnav) atunci un plasator
va optim dac a minimizeaz a riscul functional R(c) (adic a exact functionala
din enuntul problemei de clasare).
S
a mai notam c a probabilitatea posteriori a unei clase i, dndu-se X = x
este
qi Pi (x)
P (ijx) = K :
P
qj Pj (x)
j=1

Cu acestea se pot enunta urm


atoarele rezultate:

Teorema 3.2.1 (a regiunilor [2]) Partitia R a lui X care minimizeaza


riscul functional este R = fRi gK
i=1 cu
8 9
< XK XK =
Ri = x 2Xj qj Pj (x) qj Pj (x); k 6= i; k = 1; K ; i = 1; K:
: ;
j6=i;j=1 j6=k;j=1

Demonstratie. Pentru simplicarea demonstratiei s a presupunem K = 2


(doar dou
a populatii) si C(1j2) = C(2j1). Atunci media costului misclasic
arii
este Z Z
q1 P1 (x)dx+q2 P2 (x)dx (1)
R2 R1

Pentru a minimiza pe (1), un x dat va asignat populatiei ce maxi-


mizeaz
a probabilitatea a posteriori a clasei sale. Astfel, dac
a

q1 P1 (x) q2 P2 (x)
(2)
q1 P1 (x) + q2 P2 (x) q1 P1 (x) + q2 P2 (x)

atunci x va asignat lui 1 , altfel va asignat lui 2 .


Cum este minimizat a probabilitatea de misclasare n ecare punct, este
minimizat costul misclasarii pe tot spatiul.
Asadar regiunile de decizie sunt:

R1 : x 2X; q1 P1 (x) q2 P2 (x) (3)


R2 : x 2X; q1 P1 (x) < q2 P2 (x)

Daca q1 P1 (x) = q2 P2 (x); punctul poate clasicat e n 1 e n 2


(arbitrar, n (3) a fost asignat lui 1 ).
Daca q1 P1 (x) + q2 P2 (x) = 0; la fel, punctul poate asignat oric
arei
regiuni.
3.2. METODE PROBABILISTE DE DISCRIMINARE 159

Sa ar at
am acum c a (3) este cea mai bun
a procedur
a. Pentru orice partitie
R? = (R1? ; R2? ) a lui X; probabilitatea de misclasare este

Z Z Z
q1 P1 (x)dx+q2 P2 (x)dx = (q1 P1 (x) q2 P2 (x)) dx+ (4)
R2? R1? R2?
Z Z
+q2 P2 (x)dx+q2 P2 (x)dx
R1? R2?

R R R
Dar q2 R? P2 (x)dx+q2 R? P2 (x)dx =q2 P2 (x)dx (= q2 dac a supp P2
1 2
X sau constant a, n caz contrar).
Relatia (4) va minim a daca R2? va include punctele x pentru care
q1 P1 (x) q2 P2 (x) < 0 si va exclude punctele pentru care q1 P1 (x) q2 P2 (x) > 0;
adica R2? = R2 ) R1? = R1 (ca partitii ale aceluiasi spatiu).
a, n plus P PP12 (x)
Dac (x)
= qq21 j i = 0; i = 1; 2; atunci procedura Bayes
este unic
a, exceptie o multime de probabilitate zero.
Dac
a C(1j2) 6= C(2j1) 6= 1 atunci regiunile de decizie se scriu

P1 (x) C(1j2)q2
R1 : x 2X; (5)
P2 (x) C(2j1)q1
P1 (x) C(1j2)q2
R2 : x 2X; <
P2 (x) C(2j1)q1

Observatia 3.2.2
Regiunile de decizie Bayes se nscriu n cazul 3 de separabilitate.

Corolarul 3.2.1 ( [2])


a riscul functional este cB (x), dac
Plasatorul care minimizeaz a P (jjx) = max P (ijx).
1 i K

Daca maximul din enuntul de mai sus este atins pentru k K clase,
atunci lui cB (x) i se va asigna una dintre cele k valori, selectat a aleator.
Daca probabilitatea ca maximul s a e atins pentru mai mult de un i,
pentru x dat, este zero, atunci plasatorul si deci si partitia R sunt unice,
modulo o multime de m asura nula.
Nu exista nici o restrictie pentru tipul de densitati P1 ; : : : ; Pk . n parti-
cular, acestea nu trebuie s a e densitati fat
a de m
asura Lebesque.

Denitia 3.2.5 Plasatorul cB (x) se numeste plasator Bayes, riscul functional


pe care acesta l minimizeaz a se numeste risc Bayes sau eroare Bayes, iar
partitia R care determin
a si este determinat
a de plasatorul Bayes, se numeste
procedura de discriminare (clasare) bayesiana.
160 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Data ind importanta conceptului, vom prezenta si alte propriet ati ale
procedurilor de discriminare bayesian a.
Fie r(i; j; R) = C(jji)P (jji; R) costul misclas
arii unei observatii din pop-
ulatia i n populatia j prin procedura de clasare dat a de partitia R a spati-
ului X (numit a n cele ce urmeaza procedura de clasare).

Denitia 3.2.6 Procedura R este mai buna dect procedura R? ,

r(i; j; R) r(i; j; R? ); (8) i 6= j; i; j = 1; K

si cel putin una dintre inegalit


ati este strict
a.

Denitia 3.2.7 Procedura R este admisibila dac


a si numai dac
a nu exist
ao
procedur ?
a R mai buna dect ea.

Denitia 3.2.8 O clas a de proceduri este completa dac


a pentru orice proce-
dur
a ce nu apartine clasei, exist
a ntotdeauna o procedura n clas
a care este
mai buna dect ea.

Denitia 3.2.9 O clas a de proceduri este minimala si completa dac


a nici una
din submultimile sale nevide nu formeaza o clas
a complet a.

Propozitia 3.2.1 ([2])


a P (Pj (x) = 0jx 2 i ) = 0; (8) i 6= j; i; j = 1; K atunci orice procedur
Dac a
bayesian
a este admisibil
a.
Cu alte cuvinte, Propozitia 3.2.1 arma c
a o conditie necesara pentru ca
o procedur a s
a e admisibil
a (sa nu existe o procedur a de clasare mai bun a
dect ea) este ca suporturile tuturor distributiilor de probabilitate fPi gKi=1 a
s
difere ntre ele doar pe o multime de probabilitate nul a.
Demonstratie. Fie R = (R1 ; R2 ). Prin reducere la absurd presupunem c a
procedura Bayes R nu este admisibil a. Atunci (9) R? o procedur a astfel nct

P (1j2; R? ) P (1j2; R) si
?
P (2j1; R ) P (2j1; R)

cu cel putin una din inegalit ati strict


a.
Dar R este procedur a Bayes (adic a minimizeaz
a media costului / proba-
bilit
atii de misclasare), deci

q1 P (2j1; R) + q2 P (1j2; R) q1 P (2j1; R? ) + q2 P (1j2; R? ) ) (1)


? ?
q1 [P (2j1; R) P (2j1; R )] q2 [P (1j2; R ) P (1j2; R)]

a q1 > 0 si P (1j2; R? ) P (1j2; R) ) membrul stng al inegalit


Dac atii (1)
este nepozitiv ) P (2j1; R) P (2j1; R? ). Contradictie, R? nu este admisibil a.
Dac ?
a q2 > 0, similar ) P (1j2; R) P (1j2; R ) deci iarasi contradictie.
3.2. METODE PROBABILISTE DE DISCRIMINARE 161

Dac
a q1 = 0 atunci

0 P (1j2; R? ) P (1j2; R) (2)

si regiunea R1 : x 2X; q1 P1 (x) q2 P2 (x) a oricarei proceduri Bayes va contine


doar
R punctele x pentru care P 2 (x) = 0 ) P (1j2; R) = 0, deoarece P (2j1; R) =
R1 P2 (x)dx si din inegalitatea de mai sus rezult a P (1j2; R? ) = 0.
Din ipoteza P (P2 (x) = 0jx 2 1 ) = 0 rezult a, ca evenimente comple-
mentare, P (P2 (x) > 0jx 2 1 ) = 1.
Sa observam ca

P (2j1; R) = P (P2 (x) > 0jx 2 1) =1 (3)

si cum R? este admisibil


a trebuie ca si

P (2j1; R? ) = 1

Din (2) si (3) rezult


a c
a nici una din inegalit atile de denitie a admisi-
?
atii lui R nu sunt vericate. Contradictie.
bilit
Dac a q1 = 0 atunci P (2j1; R) P (2j1; R? ); contradictie cu ipoteza de
admisibilitate a lui R? .
Propozitia 3.2.2 ([2])
Daca P ( PPji (x)
(x) = bjx 2 k ) = 0; ((8)) i 6= j; i; j; k = 1; K si 0 b < 1, atunci
ecare procedur a admisibil
a este o procedur a bayesian a.
Cu alte cuvinte Propozitia 3.2.2 arm a ca o conditie sucienta pentru
ca o procedura bayesiana s
a e admisibil a este ca oricare dou a distributii de
probabilitate Pi respectiv Pj ; i; j = 1; K; s
a e proportionale ntre ele cel mult
pe o multime de probabilitate nul a.
P1 (x)
Demonstratie. n conditia P ( P2 (x) = bjx 2 k ) = 0; k = 1; 2; 0 b < 1;
P1 (x)
faptul c
a P2 (x) = 1 nseamn
a c
a P2 (x) = 0:
Atunci, oricare ar q1 ; procedura Bayes este unic a. n plus, functia de
repartitie a lui PP21 (x)
(x)
este continu
a.
Fie R o procedur a admisibil
a. Atunci exist
a b astfel nct

P1 (x)
P (2j1; R) = P ( bjx 2 1) = P (2j1; R? );
P2 (x)
q2 P1 q2
unde R? este procedura Bayes corespunznd lui q1 a R1? :
= b; indc P2 > q1
q2
si R2? : PP21 q1 .
Cum R este admisibil
a

P (1j2; R) P (1j2; R? ) (1)


162 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Din propozitia de mai sus rezult a R? Bayes este admisibil


a c a, deoarece
sunt vericate ipotezele propozitiei din cazurile particulare b = 0; b = 1, deci

P (1j2; R) P (1j2; R? ) (2)

Din (1) si din (2) ) P (1j2; R) = P (1j2; R? ); deci R este o procedur


a
Bayes. Din unicitatea procedurii Bayes, R este aceeasi cu R? .
Cu acestea, rezultatul cheie al analizei discriminante clasice este:

Teorema 3.2.2 ([2]) Daca P ( PPji (x)


(x) = bjx 2 k ) = 0; ((8)) i 6= j; i; j; k = 1; K
si 0 b < 1 , atunci clasa procedurilor bayesiene este minimala si completa.
Acest rezultat justic a de ce, atunci cnd ipotezele din Propozitia 3.2.1,
Propozitia 3.2.2 si cele de la nceputul acestui paragraf sunt ndeplinite, n-
treaga cercetare se reduce la a construi o procedur a admisibila sau la a apro-
xima, ntr-un anumit sens, o astfel de procedur a.

3.2.2.2 CLASIFICAREA BAYES N CAZUL A DOUA POPU-


LATII NORMALE, MULTIDIMENSIONALE, CU PARAMETRII
CUNOSCUTI Fie k = 2 populatii caracterizate de densit
atile de probabi-
litate
1 1 0 1
Pi (x) = 1 1 exp (x i) (x i) ; i = 1; 2
(2 ) 2
p
j j 2 2

adic
a X 2 i ) X N ( i ; ) cu i 2 Mp 1 (R) vectorul medie si 2
Mp p (R) matricea de varianta-covariant
a.
Raportul densit
atilor este
1 0 1 (x
P1 (x) exp 2 (x 1) 1)
= 1 0 1 (x
=
P2 (x) exp 2 (x 2) 2)
1 0 1 0 1
= exp (x 1) (x 1) (x 2) (x 2)
2

Conform teoremei de mai sus, regiunea de clasicare n 1 , si anume


R1 ; este multimea punctelor x 2Rp pentru care raportul densit atilor este c,
cu c o constant a convenabil aleas a. Cum functia logaritmic a este monoton
crescatoare, conditia de denire a lui R1 poate rescris
a ca:
1 0 1 0 1
(x 1) (x 1) (x 2) (x 2) ln c:
2
Dup a desfacerea parantezelor si efectuarea reducerilor, termenul stng al
inegalit
atii de mai sus devine:

1 1 0
x0 ( 1 2) ( 1 + 2)
1
( 1 2)
2
3.2. METODE PROBABILISTE DE DISCRIMINARE 163

Observatia 3.2.3
Primul termen al formulei de mai sus este binecunoscuta functie discriminanta
a lui Fisher.

Corolarul 3.2.2 (al teoremei regiunilor)


Daca i ; i = 1; 2 sunt populatii multidimensionale, normal distribuite de
medie i si matricea de variant
a-covariant
a comun
a , atunci cele mai bune
regiuni de clasicare sunt date de:

1 1 0
R 1 : x0 ( 1 2) ( 1 + 2)
1
( 1 2) ln c
2
1 1 0
R 2 : x0 ( 1 2) ( 1 + 2)
1
( 1 2) < ln c:
2
Dac
a probabilit
atile priorice q1 si q2 sunt cunoscute, atunci c este dat
de
q2 C(1j2)
c= :
q1 C(2j1)

Observatia 3.2.4
Cazul particular cnd q1 = q2 si C(1j2) = C(2j1) implic
a c = 1 si ln c = 0.

Daca notam cu Li = 1
i prototipul populatiei i; atunci suprafata
de separare a celor dou
a regiuni este hiperplanul
1
(L1 L2 )0 [x (L1 + L2 )] = 0
2
iar clasicatorul obtinut este un clasicator cu distanta minima.
Daca probabilitatile priorice nu sunt cunoscute atunci C = ln c va
ales astfel nct costurile misclasarii s
a e egale. Mai riguros:

Teorema 3.2.3 (a egalit atii costurilor misclas arii) Daca i N ( i ; ) ;


i = 1; 2; regiunile Bayes sunt date de relatiile din corolarul 3.2.2 cu C = ln c
ales astfel nct
" !# !
C + 12 C 21
C(1j2) 1 p = C(2j1) p

0 1(
unde C(ijj) sunt cele doua costuri ale misclasarii, = ( 1 2) 1 2)
este distanta Mahalanobis dintre cele doua populatii, iar (x) este functia de
Rx t2
repartitie a variabilei aleatoare Gauss-Laplace, adica (x) = 1 p12 e 2 dt.
1 0
Demonstratie. Fie U = X0 1 ( 1 2) 2 ( 1 + 2)
1(
1 2) :
Regiunile Bayes sunt, conform Corolarului 3.2.2,

R1 : U C si R2 : U < C;
164 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

iar costurile misclas


arii sunt
Z Z c
C(2j1) f (U jX 2 1 )dU = C(2j1) f1;U (t)dt;
R2 1

pentru U construit pe baza unei observatii X 2 1 ; si


Z Z 1
C(1j2) f (U jX 2 2 )dU = C(1j2) f2;U (t)dt;
R1 c

pentru U construit pe baza unei observatii X 2 2 . Rc


Solutia minimax de alegere a lui C impune ca C(2j1) 1 f1;U (t)dt =
R1
C(1j2) c f2;U (t)dt.
Pentru a naliza demonstratia mai r
amn de evaluat f (U jX 2 i ), dis-
tributiile conditionate ale lui U .
Fie X 2 1 ) X N ( 1 ; ) ; atunci
1 0
U = X0 1
( 1 2) ( 1 + 2)
1
( 1 2)
2
este distribuit
a normal (c
aci combinatii liniare de normale reprezint
a tot o
normala), de medie

0 1 1 0 1 1 0 1
E[U ] = 1 ( 1 2) ( 1 + 2) ( 1 2) = ( 1 2) ( 1 2)
2 2
si dispersie

D2 [U ] = D2 [X0 1
( 1 2 )] =
0 1 2 1
= ( 1 2) D [X] ( 1 2) =
0 1 1
= ( 1 2) ( 1 2) =
0 1
= ( 1 2) ( 1 2) :

1
Notnd distantadintre cele dou
a populatii cu rezult
aU N 2 ; .
1
Daca X N ( 2 ; ) ; atunci U N 2 ; .
n concluzie
1 t 1 2 1 t+ 1 2
1 2 ( 2 ) 1 2( 2 )
f1;U (t) = p e si f2;U (t) = p e
2 2
Cu acestea, egalitatea costurilor misclasic
arii se scrie
Z c (t 1
)
2 Z 1 (t+ 12 )
2
1 2 1
C(2j1) p e 2 dt = C(1j2) p e 2 dt:
1 2 c 2
1
t
n membrul stng al egalit
atii se face transformarea z = p2 , iar n
t+ 12
membrul drept al egalit
atii se face transformarea z = p
3.2. METODE PROBABILISTE DE DISCRIMINARE 165

Cu jacobianul transform
arii (acelasi pentru ambele transform
ari) egal cu
p1 , se obtine n nal
1
Z c
p2 Z 1
1 z2 1 z2
C(2j1) p e 2 dz = C(1j2) c+ 1
p e 2 dz:
1 2 p2 2

R1 y2
si tinnd cont c
a p1 e 2 dy = 1 (x), se obtine egalitatea din enuntul
x 2
teoremei.
Observatia 3.2.5
1. Reprezentarea grac
a a problemei este dat
a n gura urm
atoare:

fig. 3.2.1. Zona de misclasare n cazul a douA populaT ii


normale unidimensionale

Zona hasurat
a este zona de misclasare.
S
a notam ca cele doua conditii pentru ca procedura de clasicare s a e
minimala si completa, anume P (P1 (x) = 0jx 2 2 ) = 0 si P (P2 (x) =
0jx 2 1 ) = 0 ct si P ( PP21 (x)
(x)
= bjx 2 1 ) = 0 si P ( PP12 (x)
(x)
= bjx 2 2 ) = 0
sunt ndeplinite.

2. Dac
a C(1j2) = C(2j1) atunci egalitatea probabilit atilor de misclasare
R1 y2
implic arii este p p12 e 2 dy =
a C = 0 si deci probabilitatea misclas
p 2

1 2 .

3. Determinarea lui C care satisface cu o precizie sucient a conditia din


enuntul teoremei se aa rezolvnd numeric, pe baza tabelelor existente,
p C(2j1) p p
ecuatia k (x)+ (x + ) = 1; unde k = C(1j2) iar C = x + 12 .
1
4. n conditiile de denire a regiunilor (R1 ; R2 ) apare termenul = ( 1 2 ).
Este interesant de notat c 0
a x este functie liniar a care maximizeaza

[D(x0 djX 2 1) D(x0 djX 2 2 )]


2

D2 (x0 d)
166 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

(nu conteaza de unde vinex c


aci cele dou
a populatii au aceeasi matrice
de variant
a-covariant
a, ).

Acesta este demersul folosit de Fisher pentru obtinerea functiei de dis-


criminare liniar
a ce-i poart
a numele.
Num aratorul ctului de mai sus este
0 0 2 0
1d 2d = d0 [( 1 2) ( 1 2 ) ]d

iar numitorul este

d0 E[(X E(X)) (X E(X))0 ]d = d0 d:

Problema s-a redus la urmatoarea problem a de optimizare p


atratic
a cu
restrictii
0 0
maxp d [( 1 d20)( d1 2 ) ]d
d2R
d0 d =1
care se rezolv
a folosind tehnica multiplicatorilor lui Lagrange.
Fie deci lagrangeanul
0
L = d0 [( 1 2) ( 1 2 ) ]d d0 d 1

cu multiplicatorul lui Lagrange.

@L 0
= 0 ) 2[( 1 2) ( 1 2 ) ]d =2 d
@d
deoarece este simetrica.
0
Cum ( 1 2 ) d =s este un scalar, ecuatia de mai sus se rescrie

s 1
1 2 = d)d= ( 1 2)
s
deoarece este pozitiv denita, deci inversabil
a.
s
d este proportional cu . Pentru determinarea lui se utilizeaz
a -
normarea lui d, adic
a

s 2 s 1
d0 d =1 ) ( 1 2)
1
( 1 2) =1) = :
k 1 2k

Asadar x0 este functia liniar a care are cea mai mare dispersie ntre clase
(dispersia interclase) relativ la dispersia n clase (dispersia intraclase).
Atunci cnd populatiile sunt cunoscute, criteriul folosit este optim din
punct de vedere al minimiz arii erorii de clasare. Cnd probabilitatile priori
nu sunt cunoscute, procedura genereaz a o clas
a de proceduri admisibile. Ce
se poate spune despre cazul estimatiilor?
3.2. METODE PROBABILISTE DE DISCRIMINARE 167

POPU-
3.2.2.3 CLASIFICAREA BAYES N CAZUL A DOUA
LATII NORMALE, MULTIDIMENSIONALE, CU PARAMETRII
NECUNOSCUTI

(i) (i)
Estimatori de resubstitutie (plug-in) Fie x1 ; : : : ; xni 2 N ( i; ); i =
1; 2, dou
a selectii bernoulliene.
Se cunosc rezultatele urm atoare:
ni
1 X (i)
xi = xj ; i = 1; 2;
ni
j=1
ni
2 X
X (i) (i) 0
[(n1 1) + (n2 1)] S = [n1 + n2 2] S = xj xi xj xi
i=1 j=1

sunt estimatori nedeplasati, de verosimilitate maxim


a, ai lui i; i = 1; 2 si .
Fie
1 (1)
Z12 = X x + x(2) ;
2
Y12 = x(1) x(2)

atunci
1 (1) 0
V12 = X0 S x(1) x(2) x + x(2) S 1
x(1) + x(2) =
2
0
1 (1)
= X x + x(2) S 1
x(1) x(2) = Z12 S 1
Y12 :
2

Din constructie

(1) (1) 1 1
Y12 N ; +
n1 n2

iar
1 (1) (2) 1 1 (1)
Z12 N ; 1+ + ; dac
aX N ;
2 4n1 4n2
1 (2) (1) 1 1 (2)
Z12 N ; 1+ + ; dac
aX N ;
2 4n1 4n2

si
1 1
cov(Z12 ; Y12 ) = :
2n1 2n2
Dac
a n1 = n2 atunci cov(Z; Y) = 0. n acest caz distributia lui V
cnd X 2 1 este aceeasi cu a lui V cnd X 2 2 . Atunci, dac a R1 =
fx 2 XjV (x) 0g, probabilit
atile de misclasare sunt egale.
168 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Asimptotic, cum

x(1) ! (1)
; x(2) ! (2)
; cnd n1 ; n2 ! 1 si
S ! ; cnd n1 ; n2 ! 1:

rezult
a
1
S x(1) x(2) ! 1 (1) (2)
si
0 0
x(1) + x(2) S 1
x(1) x(2) ! (1)
+ (2) 1 (1) (2)

cnd n1 ; n2 ! 1; adic a distributia asimptotic


a a lui V este U12 .
Concluzie: Pentru selectii sucient de mari folosirea estimatiilor n locul
valorilor exacte implic
a erori mici.
Urmndu-l pe [2] vom substitui parametrii estimati n relatiile de denitie
ale regiunilor de decizie obtinnd

1 1 (1) 0
R1 : x0 S x(1) x(2) x + x(2) S 1
x(1) x(2) ln k
2
1 1 (1) 0
R2 : x0 S x(1) x(2) x + x(2) S 1
x(1) x(2) < ln k:
2
Anderson (n [2]) argumenteaz a ca acest criteriu minimizeaz a costurile
misclasarii dac
a parametrii populatiilor sunt cunoscuti si continu
a: it seems
intuitively reasonable that the above relations should give good results.
Daca se doreste clasicarea selectiilor reunite ca un tot, atunci se uti-
lizeaz
a urm atorii estimatori, respectiv criteriu:

n = n1 + n2 ;
n
1X
x = xj
n
j=1

cu

xj 2 1 =2 2;
Xn
(n1 + n2 + n 3) S = S+ (xj x) (xj x)0
j=1

respectiv
0
1 1
R1 : x (x1 + x2 ) S (x1 x2 ) c
2
Se poate ar
ata c
a n! 1 ) P (1j2); P (2j1) ! 0.
3.2. METODE PROBABILISTE DE DISCRIMINARE 169

Particulariz
ari ale Teoremei 3.2.1.

a) Cazul K = 2 (dou
a clase). Particulariznd regiunile de decizie de mai
sus, se obtine

R1 = fx 2 Xjq2 P2 (x) q1 P1 (x)g =


P1 (x) q2
= x 2 Xj :
P2 (x) q1

Punnd Pi = pi ; q1 = q2 si (i) si estimati, rezult


a

R1 = fx 2 XjV12 (x) 0g si R2 = X R1 :

Cnd
x(1) +x(2)
p = 1 atunci V12 (x) = 0 ) x = 2 ; "suprafata" de decizie este un punct;

p = 2 atunci V12 (x) = 0 ) suprafata de decizie este o dreapt


a;

p = 3 atunci V12 (x) = 0 ) suprafata de decizie este un plan;

p 4 atunci V12 (x) = 0 ) suprafata de decizie este un hiperplan.

b) Cazul K = 3 (trei clase). Particulariznd, se obtin urm


atoarele regiuni
de decizie:
x 2 Xjq2 P2 (x) + q3 P3 (x) q1 P1 (x) + q3 P3 (x);
R1 = =
q2 P2 (x) + q3 P3 (x) q1 P1 (x) + q2 P2 (x)
P1 (x) q2 P1 (x) q3
= x 2 Xj ; ;
P2 (x) q1 P3 (x) q1
x 2 Xjq1 P1 (x) + q3 P3 (x) q1 P1 (x) + q2 P2 (x);
R2 = =
q1 P1 (x) + q3 P3 (x) q2 P2 (x) + q3 P3 (x)
P2 (x) q3 P2 (x) q1
= x 2 Xj ; ;
P3 (x) q2 P1 (x) q2
x 2 Xjq1 P1 (x) + q2 P2 (x) q1 P1 (x) + q3 P3 (x);
R3 = =
q1 P1 (x) + q2 P2 (x) q2 P2 (x) + q3 P3 (x)
P3 (x) q2 P3 (x) q1
= x 2 Xj ; ;
P2 (x) q3 P1 (x) q3

si punnd Pi = pi ; q1 = q2 = q3 si (i) si estimati, rezult


a

R1 = fx 2 XjV12 (x) > 0; V13 (x) > 0g ;


R2 = fx 2 XjV21 (x) > 0; V23 (x) > 0g =
= fx 2 XjV12 (x) < 0; V13 (x) > V12 (x)g ;
170 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

deoarece Vij (x) = Vji (x) si V23 (x) = V13 (x) V12 (x) ; si
R3 = fx 2 XjV32 (x) > 0; V31 (x) > 0g = fx 2 XjV13 (x) < 0; V12 (x) > V13 (x)g
Daca p = 1 (o singur a) si presupunnd x(1) < x(2) < x(3) ;
a caracteristic
atunci regiunile de decizie devin semidrepte si segment de dreapt a, adic
a:
x(1) + x(2)
R1 : x2R cu x < ;
2
x(1) + x(2) x(2) + x(3)
R2 : x2R cu x ;
2 2
x(2) + x(3)
R3 : x2R cu < x:
2
Cnd p = 2 regiunile de decizie devin semiplane (gura 3.2.2.).

fig. 3.2.2. Exemplu de regiuni de decizie n cazul normalei


bidimensionale

a Fie ipoteza compozit


Estimatori de verosimilitate maxim a
(1) (1)
x; x1 ; : : : ; xn1 2 N ( 1; )
H0 : (2) (2)
x1 ; : : : ; xn2 2 N ( 2 ; )
(1) (1)
x1 ; : : : ; xn1 2 N ( 1 ; )
HA : (2) (2)
x; x1 ; : : : ; xn2 2 N ( 2 ; )
3.2. METODE PROBABILISTE DE DISCRIMINARE 171

n ipoteza H0 estimatorii de verosimilitate maxim


a sunt:
(0) n1 x1 + x
b1 = ;
n1 + 1
(0)
b2 = x2 ;

2
Xn1
b (0) = 1 4 (1) (0) (1) (0) 0
xj b1 xj b1 +
n1 + n2 + 1
j=1
3
n2
X
(0) (0) 0 (2) (0) (2) (0) 0 5
+ x b1 x b1 + xj b2 xj b2
j=1

Se noteaza
n
X (1)
1
(0) (1) (0) 0 (0) (0) 0
A= xj b1 xj b1 + x b1 x b1 :
j=1

Deoarece
n1
X (1) (1) 0 (0) (0) 0
A = xj x1 xj x1 + n1 x1 b1 x1 b1
j=1
(0) (0) 0
+ x b1 x b1
n1
X (1) (1) 0 n1
= xj x1 xj x1 + (x x1 ) (x x1 )0
n1 + 1
j=1

Rezult
a
b (0) = 1 n1
C+ (x x1 ) (x x1 )0
n1 + n2 + 1 n1 + 1
P
2 P
ni
(1) (1) 0
cu C = xj xi xj xi .
i=1 j=1
Analog, sub HA estimatorii de verosimilitate maxim
a sunt:
(A)
b1 = x1 ;
(A) n2 x2 + x
b2 = ;
n2 + 1
b (A) 1 n2
= C+ (x x2 ) (x x2 )0 :
n1 + n2 + 1 n2 + 1
Raportul de verosimilitate devine, asadar
1+ n2
n2 +1 (x x2 )0 C 1 (x x2 )
= iar
1+ n1
n1 +1 (x x1 )0 C 1 (x x1 )
R1 : x cu C (acele puncte x care maximizeaz
a pe ).
172 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Estimare bayesian a Natura discutiei din acest paragraf este foarte difer-
it
a din punct de vedere conceptual de abordarea anterioar a. Anterior a fost
prezentata o metodologie pornind de la un punct de vedere frecventist: s-a
presupus o selectie aleatoare dintr-o populatie avnd densitatea de probabi-
litate f (x; ) cu x 2 X si 2 . Parametrul necunoscut este presupus
xat. O procedur a de inferent
a frecventist
a depinde de functia de verosimili-
Q
n
tate L ( ) = f (xi ; ) ; unde este necunoscut dar x.
i=1
n demersul bayesian experimentatorul presupune/crede, nainte de a
vedea datele( priori), c a parametrul necunoscut este o variabil a aleatoare
avnd o distributie de probabilitate proprie pe (spatiul parametrilor), notat a
h ( ) si numita distributia priorica (prior distribution) a lui . f (x; ) devine,
n acest context, f (xj ).
Distributia prioric a h ( ) reecta adesea intuitia subiectiva a statis-
ticianului privitoare la ce valori ale lui sunt mai putin probabile cnd se
consider a ntreg spatiul parametrilor, .
Distributia prioric a este, n cazul ideal, dat
a/xat a nainte de nceperea
experimentului (a culegerii selectiei bernoulliene).
Paradigma bayesian a implica combinarea informatiilor priorice cu cele
date de functia de verosimilitate si obtinerea a ceea ce se numeste distributie
posteriori, via teorema Bayes.
Ca fapt istoric este de retinut opozitia vehement a a lui R.A.Fisher la tot
ce era bayesian.
Se cunosc urm atoarele fapte:

- distributia comun
a a lui x si este dat
a de

f (xj ) h ( ) ((8)) x 2 X si 2 :

- distributia marginal
a a lui x este, atunci,
Z
m (x) = f (xj ) h ( ) d

deci distributia lui conditionat


a de evenimentul X = x este, conform
teoremei lui Bayes,

f (xj ) h ( )
h ( jx) = h ( jX = x) = ; m (x) > 0; x 2 X, 2 :
m (x)

Denitia 3.2.10 h ( jx) se numeste distributia posteriori a lui .

Denitia 3.2.11 Fie h ( ) 2 D; unde D este o familie de distributii particu-


lare. h ( ) se numeste distributia priorica conjugata , h ( jx) 2 D
3.2. METODE PROBABILISTE DE DISCRIMINARE 173

Propozitia 3.2.3
Dac a N (m; S) si x N ( ; ) ; atunci h ( jx) este densitatea de probabi-
litate a unei N ( ; C) cu = S (S + ) 1 x + (S + ) 1 m si
C = (S + ) 1 S.
Demonstratie. Dup a observarea lui x; densitatea conditionat
a h ( jx) poate
scris
a
h ( ) f (xj )
h ( jx) = R = Ch ( ) f (xj ) ;
R h ( ) f (xj ) d
cu C factor ce depinde de x dar nu si de .
Din ipotezele propozitiei rezult
a
1 1
h ( jx) = c1 exp ( m)0 S 1 ( m) exp (x )0 1
( x) =
2 2
1 0 1 1 0
= c1 exp mS m S 2 0S 1m
2 2
1 0 1
exp 2 0S 1
x + x0 1
x :
2
n nal se obtine
1 0 1 1 0 1 1
h ( jx) = c2 exp +S 2 x+S m ; (1)
2
unde factorii care nu depind de au fost absorbiti n c1 si c2 .
Deoarece paranteza dreapt a din exponentul egalit atii (1) este o form
a
p
atratica, rezult
a c
a densitatea de probabilitate h ( jx) este o densitate a unei
variabile aleatoare normale. Pentru a determina parametrii acestei legi se scrie
h ( jx) sub forma
1 1 1
h ( jx) = c3 exp ( )0 C 1
( ) = c4 exp 0
C 1
2 C
2 2
(2)
Comparnd (1) cu (2) se obtine
1 1 1 1 1 1 1 1
C = +S si C = x+S m) =C x + CS m:
Se observ
a c
a, dac
aC 1 = 1 +S 1; atunci
1 1
C= ( + S) S = S (S + ) :
ntr-adev
ar
h i 1 h i 1
1 1 1 1
C = (S + ) S =S (S + ) =
= S 1 (S + ) 1
= 1
+S 1 =C 1
h i 1 h i 1
C 1
= S (S + ) 1 = 1
S (S + ) 1 =
1 1 1 1 1
= (S + )S = +S =C :
nlocuind (2) n expresia lui rezult
a formula din enunt.
174 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Corolarul 3.2.3
Dac
a N ; 20 si x N ; 2
1 atunci densitatea posteriori a lui este
1 2 2 1
2 x 1 1 2 1 1
N ; cu = 2 + 2 2 + 2 si = 0
2+
1
2 = 2 + 2 .
1 0 0 1 0 1 0 1

Denitia 3.2.12 Fie X : ! R; variabil a aleatoare cu densitatea de proba-


bilitate f (x; ) depinznd de . O functie T : ! R se numeste statistica
sucienta pentru dac a si numai dac
a densitatea de probabilitate condition-
at
a a lui X este independent a de ; adic
a

f (xjT (x) = t; ) = f (xjT (x) = t) ; (8) t 2 R:

Fie X = (x1 ; : : : ; xn ) o selectie bernoullian


a asupra unei variabile aleatoare
ce depinde de un parametru .
Fie (T ) un estimator a lui si e functia de pierdere ce se obtine
estimnd pe prin (T ):

L? ( ; ) L? ( ; (T )) = [ (T ) ]2 :

Riscul functional este, atunci,


Z
? ?
R ( ; ) = E [L ( ; )] = L? ( ; (t)) f (tj ) dt:

Denitia 3.2.13 Se numeste risc bayesian


Z
r? ( ; ) = R? ( ; ) h ( ) d :

Denitia 3.2.14 Se numeste estimator bayesian

r? ( ; ?
) = inf r? ( ; ) ; ?
2 B;
2B

unde B este clasa estimatorilor pentru care riscul bayesian este nit.

Teorema 3.2.4 n cazul functiei de pierdere suma patratelor erorilor, esti-


matorul bayesian ? ?
(t) este media distributiei posteriori h ( jt) ; adica
Z
?
(t) = h ( jt) d E [ jT (x) = t] ;

pentru toate valorile posibile observate t 2 .


?
Demonstratie. Pentru a determina pe (t) trebuie minimizat

Z Z
? ?
r ( ; ) = L? ( ; (t)) f (tj ) h ( ) dt d =
Z Z
= L? ( ; (t)) f ( jt) d m (t) dt:
3.2. METODE PROBABILISTE DE DISCRIMINARE 175

Conform teoremei Fubini si a faptului c


a integranzii sunt nenegativi
Z Z
L? ( ; (t)) f ( jt) d = 2
2 (t) + 2 (t) f ( jt) d =
2
= (t) 2 (t) E [ jT (x) = t] + (t) ;
R 2 R
unde s-a notat (t) = f ( jt) d si s-a folosit egalitatea f ( jt) d = 1.
2
Consideram expresia (t) 2 (t) E [ jT (x) = t] + (t) ca o functie de
pe care dorim s
a o minimiz
am. Minimul este atins deoarece expresia ca functie
de este o parabol a cu coecientul 2 lui pozitiv si

@ 2 ?
(t) 2 E [ jt] + =0) = E [ jT (x) = t] :
@

Corolarul 3.2.4
Fie x1 ; : : : ; xn variabile aleatoare independente si identic repartizate N ; 21
Pn
cu necunoscut si 1 > 0 dat. Consider am statistica T = n1 xi ; care este
i=1
sucienta pentru . Se presupune c a distributia priori a lui pe spatiul =
2
R este N ; 0 cu si 0 > 0 2 R dati. Atunci distributia posteriori a lui
conditionat
a de observatiile x1 ; : : : ; xn este, conform propozitiei anterioare,
N ; 2 cu

n 20 2
1
= 2 T (x) + ;
n 20 + n 1 n 2
0 + 2
1
2 2
2 0 1
= 2 + 2:
n 0 1

Observatia 3.2.6
S
a observ am ca este o combinatie convex
a ntre x (= T (x) ) si ; deci se
aa ntre aceste valori.

Daca 0 , dispersia mediei necunoscutei , este mai mare ca 1 , atunci


x. n acest caz, cunoasterea mediei priorice este de important
a redus
a.
Dac
a, dimpotriv a, 0 = 0; atunci = indiferent de observatiile efectuate.
2
Raportul a = 12 m asoara ncrederea priori c
a este o estimare corect
a
0
a mediei. Daca a < 1 atunci lim = lim x.
n!1 n!1
n concluzie, dac
a dispersia initial
a este mic
a, media estimata tinde s
a
r
amna n apropierea mediei initiale chiar dac a media empiric a x difer
a
considerabil de aceasta. Daca raportul a este mic, atunci media si dispersia
priori au doar o inuent
a redusa asupra estim arii parametrilor care sunt
determinati aproape exclusiv din datele empirice.
176 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

n lumina teoremei de mai sus, estimatorul Bayes al mediei unei variabile


aleatoare N ; 2 este, dac a T (x) = t;
1
n n 1 1
(t) = bB = 2t + 2t 2 + 2 :
1 0 1 0

Analog, pentru cazul multidimensional se obtine


1 1
bB = S S+ 1 t+
1
S+
1
m:
n n n

Fie x = (x1 ; : : : ; xn ) o selectie bernoullian


a din populatiile 1 si 2 .
Daca X 2 1 ; atunci densitatea de probabilitate este fi (xj ) ; 2 i si
densitatea prioric a este hi ( ) ; i = 1; 2. Dndu-se probabilit atile priorice
ale populatiilor f 1 ; 2 g, e acestea q1 respectiv q2 ; teorema Bayes calculeaz a
probabilit
atile posteriori

mi (x) qi
P( i jx) = ; i = 1; 2;
m1 (x) q1 + m2 (x) q2
R
unde mi (x) = i fi (xj ) hi ( ) d este densitatea de probabilitate marginal
a
a lui x conditionat de faptul c
a provine din i .
Este evident ca o procedura bayesian
a de discriminare este
P( jx)
- x2 1 dac
a P(
1
2 jx) = B12 (x) qq12 1;

- x2 2 n caz contrar,
m1 (x)
unde B12 (x) = m2 (x) este cunoscut ca factorul Bayes al populatiei 1
versus 2 .
3.2. METODE PROBABILISTE DE DISCRIMINARE 177

3.2.3 Exemplu
Descrierea datelor
Acest exemplu are ca scop construirea unor functii liniare care sa discrimineze
ct mai bine ntre trei tipuri de irisi pornind de la masuratorile de lungime si
l
atime ale petalelor si sepalelor. La baza exemplului st a un set de date clasic
(tabelul A.5. din Anex a), introdus de Fisher n 1936, n care se identica:

p = 4 variabile independente:

SEPALLEN=lungimea sepalelor,
SEPALWID=l
atimea sepalelor,
PETALLEN=lungimea petalelor,
PETALWID=l
atimea petalelor,

variabla dependent
a (de grupare):

IRISTYPE=tipul de iris, cu q = 3 modalit ati: SETOSA (Setosa),


VERISCOL (Veriscolor), VIRGINIC (Virginica), ce denesc clasele
(numeric egale ale) unei partitii priori a populatiei de n = 150
observatii.

Efectuarea analizei si interpretarea rezultatelor


n programul STATISTICA, optiunea pentru analiza discriminant a este
disponibil
a n meniul Statistics, Multivariate Exploratory Techniques, Dis-
criminant Analysis. n fereastra activat a (g. 3.2.3.) se aleg variabilele
conform clasicarii de mai sus, specicndu-se toate codurile pentru variabila
de grupare (butoanele Codes for grouping variable, All ), se opteaz a pentru
analiza folosind metoda stepwise de selectie a variabilelor (pentru detalii vezi
subcapitolul 4.1.6.) si se apas
a butonul OK.

fig. 3.2.3. Fereastra de pornire


178 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Noua fereastr a (g. 3.2.4.) permite denirea parametrilor analizei dis-


criminante si aplicarea unor metode descriptive de examinare a datelor. Pen-
tru nceput vom verica ndeplinirea conditiilor de realizare a analizei discri-
minante: normalitatea distributiei predictorilor n grupuri, homoscedastici-
tatea si absenta multicoliniaritatii, procedeu pentru care STATISTICA pune
la dipozitie o serie de grace si tabele n fereastra accesat
a prin ap
asarea bu-
tonului Review descriptive statistics din submeniul Descriptives.

fig. 3.2.4. fereastra de pornire (2)

Normalitatea distributiei predictorilor n grupuri se poate verica


examinnd diverse tipuri de grace disponibile n meniul Within:

histograma categorizat a - butonul Categorized histogram by group activeaz


o fereastr
a pentru selectia variabilei independente de analizat. Gracul
rezultat indic
a repartitia acesteia n grupurile formate de modalit atile
variabilei de grupare. Figura 3.2.5. reprezint a histograma categorizat a
a variabilei SEPALWID si indic a o repartitie normala a acesteia pentru
cele trei tipuri de irisi. Acelasi tip de grac conrm a normalitatea n
cadrul grupurilor si pentru celelalte trei variabile independente.

diagrama Box Plot categorizat a - butonul Box plot of means by group


activeaz a o fereastr
a de selectie a variabilei a c
arei distributie urmeaz a s
a
e redat a prin acest tip de diagram a. Ca specicatii de realizare a dia-
gramelor se bifeaz a optiunea Mean/SD/1.96*SD si se apas a butonul OK
pentru generarea gracului n care: tendinta central a e ilustata de me-
die si redat a grac printr-un marcaj central, dreptunghiul (box) indic a
variabilitatea n jurul punctului central, ilustrat a prin deviatia standard
(SD) iar segmentele de la extremit atile dreptunghiurilor (whiskers) in-
dic
a intervalul de predictie de 95%. Figura 3.2.6. reprezint a diagrama
Box Plot categorizat a a variabilei PETALLEN si indic a o repartitie uni-
modal a si simetric
a (probabil normal a) pentru cele trei tipuri de irisi.
Analog pentru celelalte trei variabile independente.
3.2. METODE PROBABILISTE DE DISCRIMINARE 179

fig. 3.2.5. Histograma categorizatA pentru variabila SEPALWID

fig. 3.2.6. Diagrama Box Plot categorizatA pentru variabila


PETALLEN

gracele Normal Probability Plot categorizate - butonul Categorized nor-


mal probabiliy plot by group activeaz
a o fereastra pentru selectia vari-
abilei independente de analizat. Dac a gracul f(Fobs ; Fteo )g se supra-
pune peste prima bisectoare, atunci variabila predictor analizat a este
180 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

normal repartizat a n grupurile determinate de modalit atile variabilei


dependente. S-au notat cu Fobs ; p-cuantilele estimate ale variabilei pre-
dictor studentizat a si observat
a ntr-o clas
a dat
a a variabilei dependente
si cu Fteo ; p-cuantilele teoretice ale variabilei Gauss-Laplace (normala
de medie zero si dispersia unu). Figura 3.2.6. reprezint a gracul Nor-
mal Probability Plot categorizat pentru variabila SEPALLEN si indic a
o repartitie normala a acesteia pentru cele trei tipuri de irisi. Acelasi tip
de grac conrm a normalitatea n cadrul grupurilor si pentru celelalte
trei variabile independente.

fig. 3.2.7. Normal Probability Plot pentru variabila SEPALLEN

Homoscedasticitatea se refer a la egalitatea dispersiei predictorilor n


grupurile formate de modalit atile variabilei dependente. Butonul Categorized
scatterplot by group activeaza o fereastr a pentru selectia variabilelor indepen-
dente de analizat. n gura 3.2.8. reprezentnd diagrama Scatterplot catego-
rizat
a pentru variabilele SEPALLEN si PETALLEN, cele trei grace ilustreaz a
aproximativ aceeasi forma a norului de puncte (elipse cu diametrul mare aprox-
imativ egal cu 2) conrmnd egalitatea aproximativ a a variantei n grupurile
determinate de variabila dependent a. Aceasta concluzie este valabila si pentru
celalte combinatii de cte doua variabile predictor.
3.2. METODE PROBABILISTE DE DISCRIMINARE 181

fig. 3.2.8. Diagrama scatterplot categorizatA pentru


variabilele SEPALLEN S i PETALLEN

Multicoliniaritatea se refer a la redundanta variabilelor predictor, mai


exact la situatia n care dou a variabile independente sunt foarte puternic core-
late sau n care una dintre acestea se poate exprima ca o combinatie liniar a
a celorlalte. n STATISTICA, evitarea fenomenului de multicoliniaritate se
realizeaz
a prin setarea unei valori prag de tolerant a (de obicei 0,01). n cazul
analizei Forward Stepwise, o variabil a se introduce n model numai dac a val-
oarea 1 R2 (unde R2 este coecientul de corelatie multipl a) nu se aa sub
pragul de tolerant a stabilit.

Concluziile obtinute permit realizarea efectiv


a a analizei discriminante.
Se apasa butonul Cancel pentru a reveni la fereastra de pornire (g. 3.2.4) si
se acceseaz
a submeniul Advanced pentru a specica detaliile analizei discrimi-
nante (g 3.2.9).
182 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

fig. 3.2.9. SpecificaT ii pentru realizarea analizei discriminante

Ca metoda de selectie a variabilelor se alege Forward stepwise, care presupune


introducerea n model, la ecare pas, a variabilei celei mai semnicative din
punct de vedere al discrimin arii. Algoritmul Forward stepwise ruleaz a pn
a
cnd una dintre conditiile urm atoare este ndeplinit
a:

toate variabilele au fost introduse n model,

a fost atins num arul de pasi specicat n caseta Number of steps. Deoa-
rece n acest caz nu exista specicatii priori n acest sens, num
arul de
pasi este setat egal cu num arul variabilelor.

niciuna dintre variabilele care nu sunt n model nu este considerat a


semnicativa din punct de vedere al discrimin arii, adic
a valoarea F
corespunzatoare este mai mic a dect valoarea F to enter. n cazul
metodei Forward, valoarea F to remove nu intereseaz a deoarece nicio
variabil
a nu va eliminat
a din model. Pentru F to enter si F to remove
se p
astreaz
a set
arile implicite.

pragul de toleranta pentru variabila care urmeaz a sa e introdusa n


model este sub limita impus a de valoarea din caseta Tolerance. n cazul
acesta se mareste numarul pasilor cu unu si se analizeaz
a variabila ur-
matoare din punct de vedere al puterii de discriminare.

n caseta Display results se opteaz a pentru asarea rezultatelor la ecare


pas (At each step) si se apas
a butonul OK pentru nceperea analizei.
Pasul 0.
n fereastra aparuta (g 3.2.10) sunt prezentate: pasul analizei, num arul
de variabile din model si indicatorul Wilks lambda al puterii de discrimnare
a modelului.
3.2. METODE PROBABILISTE DE DISCRIMINARE 183

fig. 3.2.10. Fereastra de rezultate - pasul 0

La pasul zero nici una dintre variabile nu a fost intodus


a n model, asadar
singura optiune accesibil
a n fereastra de rezultate (g 3.2.10) este Variables
not in the model. Aceasta genereaz a tabelul 3.2.1. n care sunt disponibile
valorile corespunz
atoare celor patru variabile independente pentru:

Wilks lambda - statistica ce ilustreaz


a puterea de discriminare a modelului
dupa ce variabila corespunz atoare a fost introdusa n model. Poate lua
valori n intervalul [0,1], 0 indicnd putere maxim a de discriminare.

Partial Wilks lambda - statistica ce ilustreaz


a puterea de discriminare a
ecarei variabile n cadrul modelului. Poate lua valori n intervalul [0,1],
0 indicnd putere maxim a de discriminare. La acest pas, valorile Partial
Wilks lambda coincid cu cele corespunz atoare Wilks lambda.

F to enter - p-cuantila estimat


a a variabilei F care, n urma comparatiei
cu pragul de semnicatie xat, indica variabilele ce pot introduse n
model la pasul urm ator.

Toleranta - este denit a ca 1 R2 al variabilei respective cu toate vari-


abilele din model si aceasta valoare este un indicator al redundantei vari-
abilei respective. Evident, la acest pas R2 = 1 pentru toate variabilele
deoarece nicio variabil a nu a fost nca selectat
a.

Pentru a trece la pasul urm


ator se apas
a butonul Next.
Pasul 2.
La pasul 2, modelul, care acum contine dou a variabile, are o putere
discriminant
a semnicativ a (Wilks lambda= 0; 037; F = 307:1; p < 0:0001)
dupa cum se poate vedea n fereastera din g. 3.2.11.
184 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

fig. 3.2.11. Fereastra de rezultate - pasul 2


Variabilele care au fost introduse n model (butonul Variables in the
model ) sunt, n aceasta ordine, PETALLEN si SEPALWID si au un nivel de
semnicatie ridicat (tabelul 3.2.1). Celelalte doua variabile (butonul Variables
not in the model ) ndeplinesc conditiile pentru a introduse n model si val-
oarea statisticii Wilks lambda pentru PETALWID este superioar a (tabelul
3.2.2), deci aceasta va variabila considerat a la pasul urm ator.

tabelul 3.2.1 Variabilele din model, la pasul 2

tabelul 3.2.2 Variabilele din afara modelului, la pasul 2

Pasul 4.
La pasul patru, toate variabilele au fost introduse n model iar acesta
are o putere de discriminare semnicativ a (Wilks lambda= 0; 023; F = 199:1;
p < 0:0000). n tabelul obtinut prin apasarea butonului Variables in the model
(tabelul 3.2.3), valorile Partial Wilks lambda indica faptul c a PETALLEN si
PETALWID au cele mai mari valori ale puterii de discriminare, deci petalele
sunt cele care deosebesc cel mai bine cele trei tipuri de irisi.

tabelul 3.2.3 Variabilele din model, la pasul 4


3.2. METODE PROBABILISTE DE DISCRIMINARE 185

n continuare se va folosi analiza canonic a (butonul Perform canonical


analysis din submeniul Advanced ) pentru calculul functiilor de discriminare
ortogonale, al c
aror numar este dat de minimul dintre num arul variabilelor
independente si numarul modalitatilor variabilei dependente minus 1. Prin
urmare, n acest caz vor considerate dou a functii de discriminare.

fig. 3.2.12. Analiza canonicA

Pentru a determina dac a cele dou a functii de discriminare sunt sem-


nicative din punct de vedere statistic, se analizeaz a testele de semnicatie
disponibile n tabelul 3.2.4., obtinut prin apasarea butonului Summary: Chi
square test of succesive roots din submeniul Quick.

tabelul 3.2.4. Teste de semnificaT ie pentru funcT iile


discriminante

n general, primul rnd al tabelului contine valorile testelor de semni-


catie pentru efectul cumulat al functiilor de discriminare iar pe liniile urm
a-
toare sunt asate valorile testelor de semnicatie dup a eliminarea cte unei
functii de discriminare. n tabelul 3.2.4.

Valorile proprii (Eigenvalues) reect a importanta functiilor identicate


n discriminarea claselor. Valoarea evident superioar a corespunz atoare
primei functii (32; 19) indic
a faptul c
a aceasta are cel mai important rol
186 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

n discriminare, cu toate c
a, dup
a cum vom vedea, ambele functii sunt
statistic semnicative.

Coecientii de corelatie canonic


a (Canonical R) indica intensitatea leg a-
turii dintre functiile discriminante si grupurile formate de modalit atile
variabilei dependente. Cu ct acesti coecienti au o valoare mai ridicat a,
cu att functiile considerate au un rol mai mare n discriminarea claselor,

Wilks lambda si Chi-square sunt statistici folosite pentru a testa sem-


nicatia functiilor de discriminare.

Valorile p indic
a faptul c
a, pentru acest exemplu, ambele functii sunt
semnicative din punct de vedere statistic.

Coecientii variabilelor independente n cadrul celor dou a functii de dis-


criminare (tabelul 3.2.5.) se genereaz a ap
asnd butonul Coe cients for canon-
ical variables si sunt disponibili n forma clasic
a (Raw coe cients) sau stan-
dardizata (Standardized coe cients). Acestia din urm a sunt cei care se folosesc
pentru interpretare.

tabelul 3.2.5. CoeficienT ii funcT iilor de discriminare

Ca o prim a observatie, se remarc a faptul c


a 99% (Cum. Prop.) din
puterea de discriminare este atribuit a primei functii discriminante. Dup a cum
era de asteptat, aceasta este caracterizat a n mod deosebit de coecientii core-
spunz atori variabilelor PETALLEN si PETALWID, n timp ce pentru cea de-a
doua functie discriminant a coecientul variabilei SEPALWID este reprezenta-
tiv. Aceast a observatie este sustinut
a si de coecientii de corelatie dintre va-
riabile si functiile de discriminare (tabelul 3.2.6.), care pot accesati ap asnd
butonul Factor structure din submeniul Advanced.

tabelul 3.2.6. CoeficienT ii de corelaT ie


3.2. METODE PROBABILISTE DE DISCRIMINARE 187

Valorile functiilor discriminante calculate pe baza valorilor celor patru


predictori (scorurile canonice) sunt disponibile n submeniul Canonical sub
forma tabelara (butonul Canonical scores for each case) sau grac a (butonul
Scatterplot of canonicl scores). Diagrama scatterplot rezultat a (g 3.2.13)
ofer
a o imagine de ansamblu si conrm a concluziile de pn
a acum.

fig. 3.2.13. Scatterplot pentru scorurile canonice

Avnd n vedere pasii realizati pn a acum, se poate concluziona c a dintre


cele trei tipuri de irisi, cei apartinnd grupului SETOSA sunt cel mai usor de
deosebit. Distinctia se face prin intermediul primei functii de discriminare, car-
acterizat a de coecienti negativi pentru dimensiunile petalelor si de coecienti
pozitivi pentru dimensiunile sepalelor. Pe gracul din gura 3.2.13, tipul SE-
TOSA este situat n extremitatea dreapt a, deci membrii sai sunt caracterizati
de valori ridicate ale acestei functii. Asadar, cu ct irisul are petale mai lungi
si late si sepale mai nguste si scurte, cu att este mai putin probabil ca acesta
sa e de tip SETOSA.
Odat a ce modelul a fost construit si functiile de discriminare au fost
determinate, se pune problema aproxim arii gradului de precizie a predictiei
grupului din care face parte un (nou) individ. n acest scop, pentru individul
respectiv se calculeaz a valorile functiilor de clasicare pentru ecare dintre cele
trei clase, individul ind asignat acelui grup pentru care scorul este maxim.
(Atentie! Functiile de clasicare sunt diferite de functiile discriminante si sunt
calculate automat n cadrul analizei). Pentru a examina coecientii functiilor
de clasicare (tabelul 3.2.7.) se revine n fereastra de pornire (g. 3.2.4.)
ap asnd butonul Cancel, se acceseaz a submeniul Advanced si se apas a pe bu-
tonul Clasication functions.

tabelul 3.2.7. Valorile funcT iilor de clasificare


188 CAPITOLUL 3. METODE EXPLICATIVE UZUALE

Functiile de clasicare sunt date de formula:


vi = ci + wi1 P ET ALLEN + wi2 SEP ALW ID +
+wi3 P ET ALW ID + wi4 SEP ALLEN;
unde ci sunt constantele corespunz atoare grupurilor i si wij ; i = 1; 3; j = 1; 4
sunt coecientii din tabelul 3.2.7.
Atunci cnd se posed a informatii despre variabile nc a dinainte de n-
ceputul analizei exist a posibilitatea specic arii unor probabilit ati priori de
clasicare n cele trei grupe. Nu este cazul n acest exemplu, asadar probabilit atile
priori se vor considera proportionale cu dimensiunea grupurilor, deci egale
cu 1=3 = 0; 33.
Asignarile efective ale indivizilor din setul curent de date pot examinate
n tabelul 3.2.8. (butonul Clasication of cases), matricea de clasicare (bu-
tonul Clasication Matrix ) oferind o sintez a a acestei situatii (tabelul 3.2.9.).

tabelul 3.2.8. Clasificarea unor indivizi din setul curent de date

tabelul 3.2.9. Matricea de clasificare

S-ar putea să vă placă și