Metode de Invatare Supervizata

Capitolul 4.
Metode de nvare supervizat

n cele ce urmeaz vom prezenta pe scurt tehnici de nvare
supervizat. Reamintim c aceste tehnici au ca scop construirea unui model
al datelor iniiale n care o parte dintre variabile sunt explicative (variabile
predictor) i una sau mai multe variabile sunt variabile rspuns. Dintre
tehnicile supervizate amintim: regresia liniar multipl, regresia logistic,
analiza canonic i analiza discriminrii.
4.1 Analiza canonic
Este bine cunoscut faptul c, pentru a evalua legtura (liniar)
ntre dou variabile cantitative, putem alege s calculm coeficientul de
corelaie Pearson i s interpretm valoarea obinut. Dar dac am dori s
evalum legtura liniar ntre dou seturi de variabile (cantitative)? O idee
ce pare raional este cea a evalurii corelaiei ntre dou combinaii liniare,
care reprezint optimal cele dou seturi de variabile. Aceasta este ideea
exploatat n cadrul analizei canonice, introdus de ctre Hotelling n 1936!.
De obicei, analiza canonic este folosit n urmtorul context: asupra
unor indivizi ai populaiei s-au fcut att msurtori obiective, ct i
aprecieri subiective (exprimate ns cantitativ, sub forma unor note). Aadar,
primul set de variabile este format din cele obiective, fie acestea
x1 , x 2 ,..., x p . Datele obinute de la cei n indivizi vor forma matricea X (de
dimensiuni n p ). Al doilea set de variabile este format din cele
subiective, fie acestea y1 , y 2 ,..., y q , iar datele obinute de la cei n indivizi
vor forma matricea Y (de dimensiuni n q ).
De exemplu, indivizii ar putea fi un ansamblu de firme, variabilele
obiective ar putea fi indicatorii financiar-contabili, iar variabilele subiective
ar putea fi nota acordat (de ctre un panel de specialiti) politicii de
promovare a produselor, preferina acionarilor pentru active etc.
n spaiul R p+ q al variabilelor x1 , x 2 ,..., x p , y1 , y 2 ,..., y q , variabilele obiective vor determina un subspaiu, pe care s-l notm cu O.
Analog, subspaiul variabilelor subiective va fi notat cu S.
Odat aleas o variabil, indiferent de ce tip (obiectiv sau
subiectiv), valorile ei prelevate de la cei n indivizi formeaz un vector din
spaiul R n . n acest spaiu se poate considera o distan ntre vectori care s
in seama de eventuala pondere wi asociat individului i, distan definit

de formula
d( z1 , z 2 ) = ( z1 z 2 ) T W ( z1 z 2 ) n care W = diag( w1 , w2 ,..., wn )

Odat stabilite cele dou seturi de variabile, ne putem imagina
diverse combinaii liniare (cu coeficieni a j , bk reali)
= a1 x1 + a 2 x 2 + ... + a p x p ,
= b1 y 1 + b2 y 2 + ... + b p y q .
care sunt vectori n subspaiul O, respectiv S. Odat prelevate datele de la
cei n indivizi (ceea ce nseamn c matricele X i Y sunt cunoscute), valorile
acestor combinaii liniare se obin prin formulele
= Xa , = Yb
(1)
unde a este vectorul coloan al coeficienilor a1 , a 2 ,..., a p iar b este vectorul

coloan al coeficienilor b1 , b2 ,..., bq .
Pentru fiecare pereche de combinaii liniare, putem calcula
coeficientul de corelaie r , . Scopul analizei canonice asupra acestor date
const n gsirea acelei perechi * O , * S pentru care coeficientul
de corelaie (sau ptratul su) este maxim n valoare absolut, adic
r2*, * = max r2, .
(2)
O
S
y2
y1
x1
x2
x3
Figura 1. Caracteristicile canonice
Valoarea ptratului coeficientului de corelaie r2*, * este o msur a

modului n care notele subiective acordate indivizilor reflect caracteristicile
obiective ale lor. Evident, valori apropiate de 0 indic faptul c n aprecierea
subiectiv nu se ine seam deloc de caracteristicile obiective alese.
Pentru a ne asigura de unicitatea perechii *, * , vom presupune c
avem de-a face cu versori, adic *T W * = *T W* = 1 . Despre aceti
* = Xa * i * = Yb * se spune c sunt caracteristicile canonice, despre
vectorii coeficienilor a * i b * se spune c sunt factorii canonici, iar
valoarea r *,* este numit corelaia canonic. n analiza canonic se
ncearc, n cazul detectrii unei valori mari a corelaiei canonice,
determinarea caracteristicilor canonice care vor nlocui grupele de
variabile iniiale apoi explicarea acestor caracteristici canonice prin
variabilele iniiale, ceea ce implic aflarea factorilor canonici.
Formulele de calcul sunt uor de dedus geometric, ntruct
coeficientul de corelaie ntre doi vectori poate fi interpretat drept cosinusul
unghiului dintre ei. Dac presupunem c-l cunoatem pe * S , atunci
orice vector * O pentru care coeficientul de corelaie r *,* este maxim
va fi unul dintre cei pentru care unghiul (vezi figura 2) este minim, n
particular l vom putea alege ca proiecie a lui * pe subspaiul O. Dac
vom impune condiia ca * S i * O s fie versori, atunci proiecia lui
* pe subspaiul O va fi exact r * unde r = r *, * este corelaia canonic.
r*
Figura 2. Proiecia unei caracteristici canonice pe subspaiul celeilalte
n general, proiecia z a unui vector z R n pe subspaiul O (vezi

figura 3) se obine prin nmulire cu o matrice de proiecie:
z = projO ( z ) = Pz .
(3)
S exprimm pe z ca o combinaie liniar de vectorii x1 , x 2 ,..., x p
(cu coeficienii formnd vectorul a ):
z = Xa .
Dat fiind c diferena z z este un vector ortogonal pe subspaiul O,
el este ortogonal pe fiecare vector x j , iar din aceste condiii de
ortogonalitate deducem
T
x j Wz = x j Wz = x j WXa pentru j {1, 2, ..., p} ,
condiii ce se exprim unitar astfel

X TWz = X TWXa .
(4)
z
O
z
xj
Figura 3. Calculul proieciei unui vector
Admind c matricea X are rangul maxim (= p), drept consecin

matricea X TWX (de ordin p p ) este inversabil, iar ca urmare
a = ( X TWX ) 1 X TWz i astfel z = X ( X TWX ) 1 X TWz .

Am stabilit astfel c matricea de proiecie este P = X ( X TWX ) 1 X TW .
Dat fiind c proiecia P * a lui * este exact r * , obinem:
X ( X TWX ) 1 X TW* = r * .
(5)
n mod dual (inversnd rolurile subspaiilor O i S i admind c i

matricea Y are rangul maxim q),
Y (Y TWY ) 1Y TW * = r * .
(6)
Din ultimele dou relaii vom obine
X ( X TWX ) 1 X TWY (Y TWY ) 1Y TW * = r 2 * .
(7)
Pentru simplificarea scrierii, s facem notaiile:
V XX = X TWX , V XY = X TWY , VYX = Y TWX =V XYT , VYY = Y TWY ,

ceea ce conduce la re-exprimarea relaiei (7) n forma ce urmeaz:
XV XX 1V XY VYY 1Y TW * = r 2 * ,
(8)
ceea ce nseamn c r 2 este valoare proprie a matricei

XV XX 1V XY VYY 1Y TW , iar * este versorul propriu corespunztor.
Analog, * este versor propriu al matricei YVYY 1VYX V XX 1 X TW .
Determinarea corelaiei canonice i a caracteristicilor canonice este astfel
ncheiat prin rezolvarea a dou probleme de valori/vectori proprii.
Pentru a afla i factorii canonici, vom folosi exprimrile:
* = Xa * i * = Yb *
precum i relaiile de mai sus. Rezult imediat c a * este vector propriu al
matricei A = V XX 1V XY VYY 1VYX iar b * este vector propriu al matricei
B = VYY 1VYX V XX 1V XY , valoarea proprie corespunztoare fiind aceeai
r2 .
Implementarea algoritmic a formulelor de mai sus va putea s in
1
seam de relaia b* = VYY 1VYX a * precum i de altele asemntoare.
r
De asemenea, se pot programa cu uurin exprimri ale
caracteristicilor iniiale x j (sau y k ) n raport cu cele canonice. Softul
statistic ofer, de regul, toate aceste informaii.
4.2 Analiza discriminrii
Metodele de analiz a discriminrii se aplic unei populaii de

indivizi caracterizai prin variabile continue sau categoriale care sunt a
priori (uneori natural) mprii n grupuri. Scopul analizei discriminrii este

acela de a clasifica una sau mai multe observaii n aceste grupuri deja
precizate. De exemplu, sunt bine-cunoscute modelele de credit scoring
folosite de bnci. Acestea presupun c o banc important dispune de
informaii privind clienii si, att despre cei buni platnici (care ramburseaz
creditul fr probleme) ct i despre cei ru platnici (care au avut probleme
cu rambursarea creditului pe parcurs). Aceste informaii se pot referi la
vrst, salariu, starea social, stabilitatea slujbei, alte probleme cu
rambursarea vezi i exemplul 6 din Anexa 1. Cnd apare un client nou
care solicit un credit, banca trebuie s decid dac s-i acorde sau nu
mprumutul solicitat. Pentru banc, acest posibil nou client este un individ
descris prin caracteristicile sale: vrst, salariu, starea social etc. Banca va
decide dac i acord sau nu creditul aplicnd o regul de discriminare. n
urma aplicrii acestei reguli solicitantul va primi un scor i, pe baza
acestuia, va fi clasificat ntr-una dintre grupurile deja existente. Analiza
discriminrii ofer modalitatea de a discerne, adic de a formula regula de
discriminare folosind istoricul clienilor bncii dar, n acelai timp, ofer i o
msur a evalurii riscului unei decizii greite.
Sintetiznd, putem s afirmm c, n analiza discriminrii populaia
de indivizi care au fost cercetai este mprit n grupuri i c dispunem de
datele observate pentru aceti individ. (n unele situaii grupurile apar n
mod natural, n altele ele sunt rezultatul unei analize anterioare.)
Scopul unei metode de discriminare variaz dup domeniul n care

se aplic. S exemplificm cu urmtoarele dou exemple.
Exemplul 1. Presupunem c ne aflm n domeniul potal i avem n
vedere punerea la punct a unui sistem de recunoatere i de triere automat a
unor coduri potale scrise manual. n acest caz, populaia analizat este
constituit din secvene de 6 cifre (scrise manual) 10 grupuri posibile
pentru fiecare cifr a secvenei avnd fiecare caracteristicile sale
morfologice. Scopul unei analize de separare (discriminare) n acest context
este pur decizional, fiind vorba de a elabora reguli de decizie pentru
recunoaterea celor 10 cifre cu minim de eroare.
Exemplul 2 1 . n septembrie 1992 francezii s-au pronunat prin
referendum asupra ratificrii tratatului de la Maastricht privind actul de
nfiinare a Uniunii Europene. Votul a mprit votanii n dou grupuri: unii
au fost pentru, alii mpotriva tratatului. Comentatorii politici au fost
interesai, la vremea respectiv, s descrie din punct de vedere social/
1
Jean-Pierre NAKACHE, Analyse Discriminante sur Variables Qualitatives, Polytechnica

Paris, 1994.
economic portretul partizanilor, dar i pe cel al opozanilor tratatului. n

acest exemplu suntem confruntai cu o problem discriminant dar, de
aceast dat, scopul ei nu este decizional, ci explicativ: se urmrete s se
descopere ct mai bine care au fost motivaiile electorilor n decizia de vot.
n concluzie, putem afirma c, n general, analiza discriminant are
dou scopuri bine precizate, i anume:
Un scop decizional, destul de frecvent, ce are n vedere
construirea unei reguli de afectare a indivizilor la un grup, regul
ce poate fi aplicat i n viitor. Aceast regul se construiete n
funcie de ansamblul de variabile predictor observate asupra
indivizilor. O regul bun de afectare este aceea care va conduce
n viitor la erori de clasare a observaiilor viitoare ct mai mici
posibile.
Un scop explicativ, prin care se urmrete s se descopere
variabilele cele mai pertinente n descrierea diferenelor dintre
grupurile formate a priori.
4.2.1 Analiza discriminrii decizionale. Reguli de alocare
S presupunem c avem o populaie de indivizi mprit n J
grupuri (subpopulaii) disjuncte 1 , 2 ,..., J prin valorile 1, 2, ..., J ale
unei variabile categoriale. Fiecare individ al populaiei este descris prin p
variabile continue, notndu-se valorile ce-l caracterizeaz cu
x = ( x1 ,..., x p ) , deci poate fi identificat cu un punct din R p .
O regul de discriminare produce o separare a spaiului R p n

mulimile R1 , R2 ,..., R J astfel nct dac x R j atunci individul
caracterizat de x va fi considerat ca aparinnd grupului (subpopulaiei)
j . Sarcina principal n construirea unei reguli de discriminare este aceea
de a gsi regiuni bune R j astfel nct eroarea de clasificare greit a unui
individ s fie ct mai mic. Vom prezenta n continuare cteva reguli de
discriminare, pentru cazul n care sunt cunoscute repartiiile populaiilor.
A) Regula de discriminare prin verosimilitate maxim
Notm cu f i ( x ) densitatea de probabilitate a populaiei i ,
i {1, 2, ..., J } . Regula de discriminare prin verosimilitate maxim (ML =
maximum likelihood) aloc un individ descris prin punctul x la acea
populaie j pentru care se realizeaz probabilitatea maxim, adic:
x este alocat lui j j = arg max f i ( x) .

i =1,... J
(9)
S notm cu L j ( x ) acea densitate de probabilitate f j ( x) care

realizeaz maximul (9). Matematic, mulimea R j este definit astfel
R j = {x R p | f j ( x) > f i ( x), i = 1, 2,..., J , i j} .
S evalum eroarea de clasificare greit. S presupunem c avem

dou clase, adic J = 2. Putem calcula probabilitatea de a aloca pe x la
grupul 2 atunci cnd el este de fapt n grupul 1 astfel:
p 21 = P( x R2 | 1 ) =
R2
f1 ( s )ds
(10)
i similar, probabilitatea de a aloca pe x la grupul 1 atunci cnd el este de

fapt n grupul 2 este
p12 = P( x R1 | 2 ) =
R1
f 2 ( s )ds .
(11)
Putem s construim o regul de alocare asociind costuri unei

clasificri eronate. Astfel, o clasificare greit determin un cost C ( j | i ) al
erorii de clasificare a unui individ din populaia i n regiunea R j . Fie i
probabilitatea a priori asociat populaiei i , adic probabilitatea ca un
individ oarecare, ales aleatoriu, s fie din populaia i . (Aceast
probabilitate a priori poate fi estimat pe baza experienei anterioare asupra
populaiei studiate!).
Folosind noiunile precizate mai sus, putem s calculm un cost
mediu CM al erorii de clasificare prin:
CM = C (2 | 1) p 211 + C (1 | 2) p12 2 .
(12)
Evident, vom ncerca s construim reguli de alocare pentru care

expresia (12) s aib valoare minim. Pentru gruparea n dou populaii
regula de discriminare bazat pe realizarea unui cost mediu minim este dat
de urmtoarea
Teorem. Formula lui CM conduce la construirea urmtoarelor
regiuni de alocare:
f ( x) C (1 | 2)2
f1 ( x) C (1 | 2)2
<
R1 = x 1
, R2 = x
.
f 2 ( x) C (2 | 1)1
f 2 ( x) C (2 | 1)1
Observaie. Regula de alocare prin verosimilitate maxim este un

caz particular al regulii de alocare pe baza costului mediu minim. Ea se
obine lund costurile erorilor egale ntre ele, C ( 2 | 1) = C (1 | 2) = 1 , i de
asemenea probabilitile a priori egale, 1 = 2 .
Exemplu. S considerm cazul n care cele dou populaii sunt
repartizate normal 1 ~ N (1, 12 ) , 2 ~ N ( 2 , 22 ) , cunoscnd c
densitile de probabilitate sunt:
fi ( x) =
( x i ) 2
1
, i {1, 2}
exp
2
2 i
2
i
Astfel, x va fi alocat la 1 prin regula verosimilitii maxime

dac x R1 = {x | f1( x) > f 2 ( x)} . n acest caz, condiia f1( x) > f 2 ( x) este
echivalent cu
1
1 2 12 22
2 x 2 2 + 2 2 < 2 log 2
x
2 2
1
1
2
1 2 1 2
2
(13)
1
2
S presupunem c 1 = 0 , 1 = 1 i 2 = 1 , 2 = . Aplicarea
formulei (13) ne conduce la definirea regiunilor de alocare astfel:
R1 = x x <
1
4
3
4 + 6 log(2) sau x >
1
4 +
3
4 + 6 log(2)
R2 = R p \ R1 .
n cazul n care densitile de repartiie au aceleai dispersii i s
presupunem c 1 < 2 , regula de verosimilitate maxim conduce la
definirea urmtoarelor regiuni:
1
2
1
2
R1 = {x | x (1 + 1 )}, R2 = {x | x > (1 + 1 )} .
S presupunem acum c avem un numr oarecare de subpopulaii,

fie ele J i c densitile de probabilitate pe spaiul R p sunt normale cu
media = (1 ,..., J ) i matricea de varian-covarian . Avem
urmtoarea
Teorem. Prin regula de verosimilitate maxim (ML) un punct x se
aloc la populaia j dac i numai dac
j = arg min ( x i ) T 1 ( x i ) ,
i =1,... J
adic punctul se aloc acelei populaii pentru care distana Mahalanobis

ntre punct i valoarea medie este cea mai mic.
Observaie. n practic, vectorul mediilor este estimat prin centrele
de greutate ale grupurilor respective, iar matricea de varian-covarian este
estimat prin matricea ineriei ntre grupuri.
B) Regula de discriminare Bayes
n regula de discriminare prin verosimilitate maxim am considerat

i probabilitatea a priori asociat populaiei i (pentru i {1, 2, ..., J } ),
J
evident cu proprietatea
= 1.
Prin regula de alocare bayesian x se aloc acelui grup (populaii

j ) corespunztor probabilitii a posteriori maxime, adic:
x este alocat lui j j = arg max f i ( i | x) ,
i =1,... J
(14)
f i ( i | x) fiind probabilitatea a posteriori asociat populaiei i .
Prin formula lui Bayes avem:
f i ( i | x ) =
i f i ( x)
(15)
f ( x)
l l
l =1
i putem folosi regula de alocare:

x este alocat lui j j = arg max i f i ( x)
i =1,... J
(16)
Prin urmare, regiunea corespunztoare regulii de alocare (16) se

poate descrie astfel:
R j = {x R p | j f j ( x ) i f i ( x ), i = 1, 2,..., J }
(17)
Observaie: Regula Bayes este identic cu regula de discriminare

ML dac probabilitile a priori sunt i =
1
J
4.2.2 Analiza discriminrii factoriale
n 4.2.1 am prezentat modele de analiz a discriminrii ce au doar

un scop decizional. n acest paragraf vom prezenta tehnici de analiz a
discriminrii care au i un scop explicativ. Tehnica discriminrii factoriale
este asemntoare cu tehnica componentelor principale prezentat n
Capitolul 3.
Dac avem de rezolvat o problem de discriminare, atunci avem
indicat i o variabil rspuns de tip categorial. S presupunem c aceasta
are q modaliti; prin urmare, eantionul de n indivizi va fi grupat, dup
variabila categorial n q clase. Reamintim c:
a) matricea X ( n p ) a datelor reprezint n indivizi asupra crora sau msurat p variabile, aici variabile predictor. Aceast matrice o putem
privi fie linie cu linie exprimnd informaii despre cei n indivizi, fie coloan
cu coloan exprimnd informaii despre cele p variabile. Prin urmare:
oricrui individ i i corespunde n matricea X o linie, adic un
vector cu p elemente, care va fi scris: xi = ( xi1 , xi 2 ,..., xip ) R p ;
oricrei variabile j i corespunde n matricea X o coloan cu n
elemente, care va fi notat: x j = ( x1 j , x 2 j ,..., x nj ) T R n ;
b) am notat cu m = ( m1 , m 2 ,..., m p ) vectorului mediilor celor p
variabile, iar punctul de coordonate ( m1 , m 2 ,..., m p ) din Rp este numit
centrul de greutate al norului de puncte;
c) am notat cu s = ( s1 , s 2 ,..., s p ) vectorul abaterilor standard
calculate cu vectorii coloan ai matricei X.
Mai considerm :
d) matricea V = ( sij ) i =1, 2,...,n; j =1, 2,... p de varian-covarian estimat
pentru cele p variabile predictor;
e) vectorul mediilor variabilelor predictor pentru fiecare dintre cele q
clase. Corespunztor clasei l, fie m l = ( m1l , m 2l ,..., m lp ) vectorul mediilor
celor p variabile predictor calculat pe baza indivizilor din clasa l; el se
numete centrul de greutate al clasei l; evident l = 1,2,..., q ;
f) matricea de covarian W l a celor p variabile predictor, matrice

calculat pentru indivizii clasei l, l = 1,2,..., q ;
g) matricea W = W 1 + W 2 + ... + W p , care este numit matricea de
covarian pentru interiorul claselor;
h) matricea B = V W , care este numit matricea de covarian
ntre clase.
Fie n spaiul Rp o dreapt de versor u = (u1 , u 2 ,..., u p ) T . Dac n
analiza componentelor principale alegeam acea dreapt care s recupereze
cea mai mare cantitate de informaie din informaia total a norului de
puncte, n analiza discriminrii vom alege acea dreapt care permite o
separare optim a proieciilor n clase. S vedem la ce ne conduce acest
obiectiv!
Fie un individ k ale crui coordonate n spaiul variabilelor sunt
( x k1 , x k 2 ,..., x kp ) i care se identific cu un punct n Rp. Proiectnd acest
punct pe dreapta obinem valoarea
(18)
c k = x k1 u1 + x k 2 u 2 + ... + x kp u p
ce reprezint distana proieciei punctului pe dreapta fa de centrul de
greutate al norului de puncte m. Valoarea c k asociat individului k se mai
numete scor asociat dreptei . Pentru ansamblul indivizilor putem scrie
vectorul coloan al scorurilor
C = Xu
(19)
Vectorul u = (u1 , u 2 ,..., u p ) T , versor al dreptei , se numete factor
de discriminare iar C se mai numete componenta de discriminare.
Un model liniar al problemei de discriminare poate fi urmtorul:
z = 1 x1 + 2 x 2 + ... + p x p
(20)
n care z este o nou variabil, exprimat printr-o funcie liniar de cele p

variabile predictor. Dac 1 = u1 , 2 = u 2 ,..., p = u p , expresia din (20)
este numit funcie de discriminare iar coeficienii si se mai numesc i
coeficieni de discriminare.
Tehnica discriminrii factoriale se bazeaz pe descompunerea
varianei totale V n cele dou componente ale sale i anume W variana
pentru interiorul claselor i B pentru variana ntre clase, avem V = W + B .
Analog tehnicii componentelor principale, nlocuind indivizii prin

proieciilor lor pe o ax de versor u = (u1 , u 2 ,..., u p ) T , avem:
u T Vu = u T Wu + u T Bu .
(21)
Scopul unei tehnici de discriminare este acela de a gsi acea ax

pentru care discriminarea proieciilor pe ea s fie maxim. Un caz ideal ar fi
acela n care covariana pentru interiorul claselor este nul, u T Wu = 0
corespunznd situaiei n care toate punctele dintr-un grup sunt proiectate n
centrul de greutate al grupului respectiv. Am avea n acest caz
u T Vu = u T Bu iar alegerea celei mai bune axe de discriminare revine la
maximizarea expresiei u T B u (pentru soluionarea problemei vezi Capitolul
3, 3.1).
n practic se maximizeaz ns raportul
=
u T Bu
u T Vu
(22)
Se observ c acesta ia valori n intervalul [0, 1] i exprim, n

procente, bonitatea discriminrii.
Aflarea versorului u soluie a problemei (22) se reduce la aflarea
soluiei sistemului algebric de ecuaii:
V 1 Bu = u
(23)
cu alte cuvinte, u va trebui s fie unul dintre vectorii proprii ai matricei

V 1 B , corespunztor valorii proprii maxime. Dac notm cu f 1 un
asemenea vector propriu, el ne va determina primul factor de
discriminare. Apare o prim component de discriminare C 1 = Xf 1 .
Lund n continuare urmtoarea valoare proprie obinem al doilea factor de
discriminare f 2 i, corespunztor lui, a doua component de discriminare
C 2 = Xf 2 , etc.
S considerm c variabila categorial ce mparte populaia n clase
are doar dou modaliti, deci q = 2. Se poate demonstra c vectorii proprii
diferii de 0 ai matricei V 1 B sunt n numr de q 1. Avem aadar doar o
singur funcie de discriminare i un singur factor de discriminare
f 1 = V 1 (m 2 m1 ) .
Clasificarea indivizilor pe baza funciei de discriminare gsite se

face folosind relaia (18) pentru proiectarea centrelor de greutate ale celor
dou clase pe axa de discriminare. Fie aceste proiecii c1 , c 2 . Scorul de
separare (cutting score) al indivizilor pe axa de discriminare se obine cu
formula:
cCS =
n1c1 + n2 c 2
n1 + n2
(24)
(n care am notat cu n1 , n2 frecvenele celor dou clase).

Regula de decizie n reclasificare, pentru un individ cu scorul c k ,
este urmtoarea
dac c k < cCS , atunci individul k este repartizat primei clase,
dimpotriv
dac c k cCS , atunci individul k este repartizat celei de-a doua
clase.
Rata succesului discriminrii se calculeaz cu formula:
n + n22
p S = 11
n1 + n2
(25)
n care am folosit notaiile din urmtorul tabel:

Grupul
iniial
Numr de indivizi n
grupul iniial
n1
n11
n12
n2
n21
n22
Grupul dup reclasificare

1
2
Pentru dou clase cu frecvene egale, o procedur aleatoare de

repartizare n clase ar avea o rat a succesului de 50%; aadar, diferena
dintre p S i 50% poate fi folosit ca indicator al calitii discriminrii.
Unul dintre obiectivele analizei discriminrii este i acela de a repera
i explica contribuia variabilelor predictor n separarea n clase. Acest
obiectiv se realizeaz prin indicatori statistici specifici, n urmtoarele etape:
1)
Se verific mai nti importana fiecrei variabile predictor

folosind de exemplul testul statistic F de verificare a omogeneitii
claselor.
2)
Se calculeaz pentru fiecare variabil predictor statistica a lui

Wilks ca raport ntre suma ptratelor variaiilor n interiorul
claselor i variaia total. Valori apropiate de 0 indic faptul c
variabila predictor este discriminat.
3)
O variabil este cu att mai discriminat cu ct ei i corespunde o

valoare mai mare pentru statistica F i o valoare mai mic pentru
statistica a lui Wilks.
n softul statistic sunt disponibile urmtoarele abordri n analiza

discriminrii prin tehnici factoriale:
1.
Selectarea forward n care se ncepe cu un model vid, fr

nici o variabil predictor, adugndu-se pe rnd cte o
variabil predictor, anume aceea care contribuie cel mai mult
la discriminare. (Pentru alegerea ei se folosete statistica a
lui Wilks.)
2.
Eliminarea backward n care se pornete cu un model

complet, cu toate variabilele predictor prezente. Se elimin
pe rnd, la fiecare pas, variabila predictor care contribuie cel
mai puin la discriminare. (n alegere se folosete din nou
statistica a lui Wilks.)
Cele dou abordri sunt metode pas cu pas i ncearc s gseasc

cel mai bun model de discriminare.

Metode de Invatare Supervizata

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Metode de Invatare Supervizata

Încărcat de

Drepturi de autor:

Formate disponibile

Capitolul 4.

Metode de nvare supervizat

in seama de eventuala pondere wi asociat individului i, distan definit

d( z1 , z 2 ) = ( z1 z 2 ) T W ( z1 z 2 ) n care W = diag( w1 , w2 ,..., wn )

unde a este vectorul coloan al coeficienilor a1 , a 2 ,..., a p iar b este vectorul

r2*, * = max r2, .

Figura 1. Caracteristicile canonice

Valoarea ptratului coeficientului de corelaie r2*, * este o msur a

Figura 2. Proiecia unei caracteristici canonice pe subspaiul celeilalte

n general, proiecia z a unui vector z R n pe subspaiul O (vezi

x j Wz = x j Wz = x j WXa pentru j {1, 2, ..., p} ,

condiii ce se exprim unitar astfel

Admind c matricea X are rangul maxim (= p), drept consecin

a = ( X TWX ) 1 X TWz i astfel z = X ( X TWX ) 1 X TWz .

n mod dual (inversnd rolurile subspaiilor O i S i admind c i

Din ultimele dou relaii vom obine

X ( X TWX ) 1 X TWY (Y TWY ) 1Y TW * = r 2 * .

Pentru simplificarea scrierii, s facem notaiile:

V XX = X TWX , V XY = X TWY , VYX = Y TWX =V XYT , VYY = Y TWY ,

ceea ce nseamn c r 2 este valoare proprie a matricei

B = VYY 1VYX V XX 1V XY , valoarea proprie corespunztoare fiind aceeai

Metodele de analiz a discriminrii se aplic unei populaii de

priori (uneori natural) mprii n grupuri. Scopul analizei discriminrii este

Scopul unei metode de discriminare variaz dup domeniul n care

Jean-Pierre NAKACHE, Analyse Discriminante sur Variables Qualitatives, Polytechnica

economic portretul partizanilor, dar i pe cel al opozanilor tratatului. n

O regul de discriminare produce o separare a spaiului R p n

x este alocat lui j j = arg max f i ( x) .

S notm cu L j ( x ) acea densitate de probabilitate f j ( x) care

S evalum eroarea de clasificare greit. S presupunem c avem

i similar, probabilitatea de a aloca pe x la grupul 1 atunci cnd el este de

Putem s construim o regul de alocare asociind costuri unei

Evident, vom ncerca s construim reguli de alocare pentru care

Observaie. Regula de alocare prin verosimilitate maxim este un

Astfel, x va fi alocat la 1 prin regula verosimilitii maxime

4 + 6 log(2) sau x >

S presupunem acum c avem un numr oarecare de subpopulaii,

adic punctul se aloc acelei populaii pentru care distana Mahalanobis

n regula de discriminare prin verosimilitate maxim am considerat

Prin regula de alocare bayesian x se aloc acelui grup (populaii

f i ( i | x) fiind probabilitatea a posteriori asociat populaiei i .

Prin formula lui Bayes avem:

i putem folosi regula de alocare:

Prin urmare, regiunea corespunztoare regulii de alocare (16) se

Observaie: Regula Bayes este identic cu regula de discriminare

4.2.2 Analiza discriminrii factoriale

n 4.2.1 am prezentat modele de analiz a discriminrii ce au doar

f) matricea de covarian W l a celor p variabile predictor, matrice

n care z este o nou variabil, exprimat printr-o funcie liniar de cele p

Analog tehnicii componentelor principale, nlocuind indivizii prin

Scopul unei tehnici de discriminare este acela de a gsi acea ax

Se observ c acesta ia valori n intervalul [0, 1] i exprim, n

cu alte cuvinte, u va trebui s fie unul dintre vectorii proprii ai matricei

Clasificarea indivizilor pe baza funciei de discriminare gsite se

(n care am notat cu n1 , n2 frecvenele celor dou clase).

n care am folosit notaiile din urmtorul tabel:

Grupul dup reclasificare

Pentru dou clase cu frecvene egale, o procedur aleatoare de

Se verific mai nti importana fiecrei variabile predictor

Se calculeaz pentru fiecare variabil predictor statistica a lui

O variabil este cu att mai discriminat cu ct ei i corespunde o

n softul statistic sunt disponibile urmtoarele abordri n analiza

Selectarea forward n care se ncepe cu un model vid, fr

r2, = max r2, .

Valoarea ptratului coeficientului de corelaie r2, este o msur a