Sunteți pe pagina 1din 45

AnlisisDiscriminante

SantiagodelaFuenteFernndez

AnlisisDiscriminante

SantiagodelaFuenteFernndez

AnlisisDiscriminante

ANLISISDISCRIMINANTE
ElAnlisisDiscriminanteesunatcnicaestadsticamultivariantecuyafinalidadesanalizarsiexisten
diferenciassignificativasentregruposdeobjetosrespectoaunconjuntodevariablesmedidassobre
losmismospara,enelcasodequeexistan,explicarenqusentidosedanyfacilitarprocedimientos
declasificacinsistemticadenuevasobservacionesdeorigendesconocidoenunodelosgrupos
analizados.

Sepuedepredecirsiunaempresavaaentrarenbancarrota?
Esposiblepredecirconantelacinsiunclientequesolicitaunprstamoaunbancovaaserun
clientemoroso?
Existediscriminacinporrazonesdesexooderazaenunaempresaoenuncolegio?

ElAnlisisDiscriminantesepuedeconsiderarcomounanlisisderegresindondelavariable
dependienteescategricaytienecomocategoraslaetiquetadecadaunodelosgrupos,mientras
quelasvariablesindependientessoncontinuasydeterminanaqugrupospertenecenlosobjetos.

Sepretendeencontrarrelacioneslinealesentrelasvariablescontinuasquemejordiscriminenen
losgruposdadosalosobjetos.

Construirunaregladedecisinqueasigneunobjetonuevoconunciertogradoderiesgo,cuya
clasificacinpreviasedesconoce,aunodelosgruposprefijados.

Paraefectuarelanlisisesnecesarioconsiderarunaseriedesupuestos:
(a) Setieneunavariablecategricayelrestodevariablessondeintervalooderaznyson
independientesrespectodeella.
(b) Senecesitanalmenosdosgrupos,yparacadagruposenecesitandosomscasos.
(c) Elnmerodevariablesdiscriminantesdebesermenorqueelnmerodeobjetosmenos2,es
decir, (x 1 , x 2 ,L, x p ) donde p < (n 2) siendonnmerodeobjetos.
(d) Ningunavariablediscriminantepuedesercombinacinlinealdeotrasvariablesdiscriminantes.
(e) Elnmeromximodefuncionesdiscriminanteseselmnimo[nmerodevariables,nmerode
gruposmenos1]conqgrupos, (q 1) funcionesdiscriminantes.
(f) Lasmatricesdecovarianzasdentrodecadagrupodebendeseraproximadamenteiguales.
(g) Lasvariablescontinuasdebenseguirunadistribucinnormalmultivariante.

SantiagodelaFuenteFernndez

AnlisisDiscriminante

MODELOMATEMTICO
Partiendodeqgruposdondeseasignanaunaseriedeobjetosydepvariablesmedidassobre
ellos (x 1 , x 2 ,L, x p ) ,setratadeobtenerparacadaobjetounaseriedepuntuacionesqueindicanel
grupoalquepertenecen (y 1 , y 2 ,L, y m ) ,demodoqueseanfuncioneslinealesde (x 1 , x 2 ,L, x p ) :

y1 = w11 x1 + w12 x 2 + L + w1p xp + w10

LLLLLLLLLLLLL m = mn[ q 1, p ]
y = w x + w x + L + w x + w
m1 1
m2 2
mp p
10
m
talesquediscriminenoseparenlomximoposiblealosqgrupos.
Estascombinacioneslinealesdelaspvariablesdebenmaximizarlavarianzaentrelosgruposy
minimizarlavarianzadentrodelosgrupos.
DESCOMPOSICINDELAVARIANZA:Lavariabilidadtotaldelamuestrasepuededescomponeren
variabilidaddentrodelosgruposyentrelosgrupos.Paraello,separte:

Cov(x j , x j' ) =

1 n
(x ij x j ) (x ij' x j' )
n i=1

sepuedeconsiderarlamediadelavariable x j encadaunodelosgrupos (I1 , I2 ,L, Iq ) ,esdecir,

xk j =

1
nk

x
iIk

ij

para k = 1,L, q .

Deestaforma,lamediatotaldelavariable x j sepuedeexpresarcomofuncindelasmediasdentro

decadagrupo: nk x k j = x ij
iIk

conlocual, x j =

q
nk
1 n
1 q
1 q
x
=
x
=
n
x
=
xk j

ij
ij
k kj
n i=1
n k=1 iI
n k=1
k =1 n
k

As, Cov(x j , x j' ) =

1 q
(x ij x j ) (x ij' x j' )
n k=1 iI
k

(x ij x j ) = (x ij xk j ) + (xk j x j )

Poniendoencadaunodelostrminos:
seobtiene,
(x i j' x j' ) = (x i j' xk j' ) + (xk j' x j' )

Cov(x j , x j' ) =

q
nk
1 q
1 q
(
x

x
)
(
x

x
)
=
(
x

x
)
(
x

x
)
+
(x k j x j ) (x k j' x j' ) =

ij
j
ij
kj
i j'
k j'
ij'
j'
n k=1 iI
n k=1 iI
k =1 n
k

cov arianza total

= v (x j , x j' ) + f (x j , x j' ) a

678
t (x j , x j' ) =

cov arianza entre grupos

cov arianza dentro grupos

6
474
8
v (x j , x j' )

678
f (x j , x j' )

MATRICIALMENTE

6
474
8
T = V +F

Lacovarianzatotalesigualalacovarianzadentrodelosgruposmslacovarianzaentregrupos.

SantiagodelaFuenteFernndez

AnlisisDiscriminante

EXTRACCINFUNCIONESDISCRIMINANTES

LaideabsicadelAnlisisDiscriminanteconsisteenextraerapartirde (x 1 , x 2 ,L, x p ) variables


observadasenkgrupos,mfunciones (y 1 , y 2 ,L, y m ) deformaque:
yi = wi1 x1 + wi2 x2 + L + wip xp + wi0 donde m = mn( q 1, p ) ,talesque corre(y i , y j ) = 0 i j
Silasvariables (x 1 , x 2 ,L, x p ) estntipificadas,lasfunciones ( yi = wi1 x1 + wi2 x 2 + L + wip xp ) para

(i = 1,L, m) sedenominandiscriminantescannicas.

Lasfunciones (y 1 , y 2 ,L, y m ) seextraendemodoque:

y 1 sealacombinacinlinealde (x 1 , x 2 ,L, x p ) queproporcionalamayordiscriminacin


posibleentrelosgrupos.

y 2 sealacombinacinlinealde (x 1 , x 2 ,L, x p ) queproporcionalamayordiscriminacin


posibleentrelosgrupos,despusde y 1 ,talque corre(y 1 , y 2 ) = 0

Engeneral, y i eslacombinacinlinealde (x 1 , x 2 ,L, x p ) queproporcionalamayor

discriminacinposibleentrelosgrupos,despusde y i1 ,talque corre(y i , y j ) = 0 para

j = 1,L, (i 1)

MATRICIALMENTE:Sebuscaunafuncinlinealde (x 1 , x 2 ,L, x p ) : Y = w' X

SesabequeLacovarianzatotalesigualalacovarianzadentrodelosgruposmslacovarianzaentre
MATRICIALM ENTE
6
474
8
grupos: T = F + V .

Demodoque, Var(y) = w' T w = w'F w + w' V w


) Semaximizalavariabilidadentrelosgruposparadiscriminarlosmejor,esdecir,semaximizala
w'F w
varianzaentregruposenrelacinconeltotaldelavarianza: mx

w' T w
w'F w
seobservaqueesunafuncinhomognea,esdecir,
Considerandolafuncin f(w) =
w' T w
w'F w
f(w) = f( w) R .Elhechodequeseahomogneaimplicaquecalcular mx
equivale
w' T w
acalcular mx [w'F w] talque w' T w = 1

ComoeselesquemahabitualdelosmultiplicadoresdeLagrange,sedefine:
L = w'F w (w' T w 1)

L
= 2F w 2 T w = 0 F w = T w (T 1F) w = w
w

Enconsecuencia,elautovectorasociadoalaprimerafuncindiscriminanteloesdelamatriz (T 1F) ,
queengeneralnoessimtrica.
SantiagodelaFuenteFernndez

AnlisisDiscriminante

Como F w = T w ,setiene w'F w = w' T w =


Portanto,tomandoelvectorasociadoalmximoautovalorseobtendrlafuncinquerecogeel
mximopoderdiscriminante.
Elautovalorasociadoalafuncindiscriminanteindicalaproporcindevarianzatotalexplicadapor
lasmfuncionesdiscriminantesquerecogelavariable y i

Paraobtenermsfuncionesdiscriminantessesiguensacandolosautovectoresdelamatriz
w'2 w'2X = Y2

(T 1F) asociadosalosautovaloreselegidosenordendecreciente: LLLLLLL


w' w' X = Y
m
m
m

m = mn(q 1, p ) .Estosvectoressonlinealmenteindependientesydanlugarafunciones

incorreladasentres.
m

Lasumadetodoslosautovalores i eslaproporcindevarianzatotalquequedaexplicada,ose
i=1

conserva,alconsiderarslolosejesofuncionesdiscriminantes.
Comoconsecuencia,elporcentajeexplicadoporlavariable y i deltotaldevarianzaexplicadaporlas
funciones (y 1 , y 2 ,L, y m ) es:

100%

i=1

ANLISISDISCRIMINANTE:OBJETO

Clasificarlasobservacionesdelamuestraengrupos,apartirdelainformacin
suministradaporunconjuntodevariables.
Unconjuntodevariables
explicativasocriterio

Unavariablecategrica
sealandolosgrupos

Variablesclasificadoras

Variabledependiente

SantiagodelaFuenteFernndez

AnlisisDiscriminante

ANLISISDISCRIMINANTE(A.D.):CRITERIODECLASIFICACIN

Hiptesis:Lasdistribucionesslosediferencianporsulocalizacin(igualformayvarianza)

Setratademinimizarloserroresdeclasificacin
Sixi<CseclasificaenelgrupoI
Sixi>CseclasificaenelgrupoII

ElpuntoCsedenominapuntodecortediscriminante: C =

SantiagodelaFuenteFernndez

XI + XII
2

AnlisisDiscriminante

SantiagodelaFuenteFernndez

AnlisisDiscriminante

ENFOQUESDEANLISIS

Basadoenlaobtencindefuncionesdiscriminantesdeclculosimilaralasecuacionesde
regresinlinealmltiple.Consisteenconseguir,apartirdelasvariablesexplicativas,unas
funcioneslinealesdestasconcapacidadparaclasificaraotrosindividuos.Acadanuevocasose
aplicandichasecuacionesylafuncindemayorvalordefineelgrupoalquepertenece.

Basadoentcnicasdecorrelacincannicaydecomponentesprincipales(AnlisisFactorial)
denominadoAnlisisDiscriminanteCannico.

CLASIFICACINENDOSGRUPOS

SeestudialaaplicacindelAnlisisDiscriminante(AD)alaclasificacindeindividuosenelcaso
dequesepuedanasignarsolamenteadosgruposapartirdekvariablesdiscriminadoras.

Fisherresuelveelproblemamediantesufuncindiscriminante: D = w1 X1 + w2 X2 + L + wk Xk

Laspuntuacionesdiscriminantessonlosvaloresqueseobtienenaldarvaloresa
(X1 , X2 ,L , Xk ) enlaecuacinanterior.

Setratadeobtenerloscoeficientesdeponderacin w j

SiseconsideranNobservacionesLafuncindiscriminante Di = w1 X1i + w2 X2i + L + wk Xki para


i = 1,L , N .
(Di ) eslapuntuacindiscriminantecorrespondientealaobservacinisima.

D1 X11 X21 L Xk1 w1




D2 X12 X22 L Xk 2 w2
Lafuncindiscriminanteenformamatricial: =
M
M
M
M


D X

L
X
X
2N
kN wk
N 1N

Expresandoelmodeloenfuncindelasdesviacionesalamedia,resulta:

D1 d1 X11 X21 L Xk1 w1



D2 d2 X12 X22 L Xk2 w2

=
M esdecir,
M
M M

DN dN X1N X2N L XkN wk


d = X w (funcindiscriminanteendiferencias)

Lavariabilidaddelafuncindiscriminante(sumadecuadradosdelasdesviacionesdelas
variablesdiscriminantesconrespectoasumedia)seexpresa:
Sumadecuadradosexplicadaporestafuncin:

d' d = w' X' X w

X' X esunamatrizsimtricaqueexpresalasdesviacionescuadrticasconrespectoalamediade
lasvariables(sumadecuadradostotal).
SantiagodelaFuenteFernndez

AnlisisDiscriminante

SepuededescomponerensumadecuadradosentregruposFysumadecuadradosdentrodelos
gruposV:
T = X' X (matrizdesumadecuadradosyproductos
cruzados(varianzascovarianzas)paraelconjuntode
observaciones.

conlocual,

T = X' X = F + V

d' d = w' X' X w = w' (F + V) w = w' F w + w' V w

Losejesdiscriminantesvienendadosporlosvectorespropiosasociadosalosvalorespropiosde
lamatriz (V 1 F) ordenadosdemayoramenor.

Laspuntuacionesdiscriminantessecorrespondenconlosvaloresobtenidosalproyectarcada
puntodelespaciokdimensionaldelasvariablesoriginalessobreelejediscriminante.

Loscoeficienteswseobtienen: Mx =

w' F w separacin entre grupos


=
w' V w separacin dentro grupos

CLASIFICACIN

Seobtienenlaspuntuacionesdiscriminantesdiparacadaobservacin,introduciendolos
correspondientesvaloresdelaskvariablesenlafuncindiscriminante.

Seaplicaelcriteriodeclasificacin:

di<C(diC<0)pertenecealgrupoI
di>C(diC>0)pertenecealgrupoII

Otrocamino:funcionesdiscriminantesparacadagruposeclasificalaobservacinen
elgrupoenquelafuncincorrespondientearrojamayorvalor.

HIPTESIS

Lasvariablessonindependientesysedistribuyennormalmenteproblemasenla
estimacin.

Lasmatricesdelasvarianzasycovarianzassonigualesentodoslosgruposafectaala
clasificacin.

Nomulticolinealidadentrelasvariablesclasificadoras.

Lasrelacionessonlineales.

Noexistenvaloresanmalos(outliers).

SantiagodelaFuenteFernndez

AnlisisDiscriminante

CENTROIDESPARACADAGRUPO(GRUPOI,GRUPOII)

X1 I

X2 I
XI =
M

Xk I

X1II

X2 II
XII =
M

Xk II

LossubndicesIyIIindicanaqugrupopertenecelavariable.

DI = w1 X1 I + w2 X2 I + L + wk Xk I

PARACADAGRUPO
D = w X + w X +L+ w X
1 1 II
2 2 II
k k II
II
Si Di < C se clasifica al individuo i en el grupo I
CRITERIOPARACLASIFICAR

AUNINDIVIDUO
Si D > C se clasifica al individuo i en el grupo II
i

C:puntodecortediscriminante C =

DI + DII
2

ENGENERAL:

{DC = w

X1 + w2 X2 + L + wk XK C }seclasificadependiendosi (D C) espositivoonegativo.

INFERENCIASYCLCULODEPROBABILIDADES

LaobtencindelafuncindiscriminantelarealizFisheraplicandounenfoquepuramente
descriptivo.Cuandoenelanlisisdiscriminantesedeseanabordarcuestionesdecarcterinferencial
yotrosrelativosalmodelopoblacionalserequierelaformulacinpreviadehiptesisestadsticas.
Lascuestionesdetipoinferencialserefierenadiversoscontrastesdesignificacinsobreelmodelo,
ascomocontrastesutilizadosenelprocesodeseleccindevariablescuandoelnmerodestases
muygrandeynoseconoceapriorilasvariablesquesonrelevantesenelanlisis.
Porotraparte,elclculodeprobabilidaddepertenenciaaungruporequierequepreviamentese
hayapostuladoalgnmodeloprobabilsticodelapoblacin.
Lashiptesisestadsticasqueseadoptan,anlogasalaspostuladasenelanlisismultivariantedela
varianza,serefierentantoalapoblacincomoalprocesodeobtencindelamuestra.
) Lashiptesisestadsticassobrelapoblacin:

(a) Lamatrizdecovarianzasdetodoslosgruposesiguala(hiptesisdehomocedasticidad).
(b) Cadaunodelosgrupostieneunadistribucinnormalmultivariante.
Lashiptesisimplicanque x g N(g , )

SantiagodelaFuenteFernndez

AnlisisDiscriminante

) Lashiptesissobreelprocesodeobtencindelamuestra:Facilitanlarealizacindelprocesode
inferenciaapartirdelainformacindisponible:<<Sesuponequesehaextradounamuestra
aleatoriamultivarianteindependienteencadaunodelosGgrupos>>.

Bajolashiptesiscitadas,lafuncindiscriminanteobtenidaporFisheresptima.Lahiptesis
x g N(g , ) exigequelasvariablesclasificadorassiganunadistribucinnormal.Sinembargo,no
serarazonablepostularesthiptesisrespectoavariablescategricas,utilizadasfrecuentementeen
elanlisisdiscriminantecomovariablesclasificadoras.Sealarque,cuandoseutilizanvariablesde
estetipo,lafuncindiscriminantelinealdeFishernotieneelcarcterdeptima.

Contrastesdesignificacinyevaluacindelabondaddeajuste

Conloscontrastesdesignificacinqueserealizanenelanlisisdiscriminantecondosgrupossetrata
dedarrespuestaatrestiposdecuestionesdiferentes:
(a) Secumplelahiptesisdehomocedasticidaddelmodelo?
(b) Secumplenlashiptesisdenormalidad?
(c) Difierensignificativamentelasmediaspoblacionalesdelosdosgrupos?
Paraelcontrastedehomocedasticidad(silamatrizdecovarianzaseslamismaparalosdistintos
grupos)seutilizaelestadsticodeBarlettBox:
K

M=

S
g =1

(ng 1) / 2

Enelnumeradoraparecenlosdeterminantesdelasestimaciones
delamatrizdecovarianzasparacadagrupo.
Eneldenominador,eldeterminantedelaestimacinglobaldela
matrizdecovarianzas.

(n K) / 2

Cuandoelnumeradorseamuysuperioraldenominador,serindicativodequeexiste
heteroscedasticidad(noexistehomogeneidadentrelasmatricesdecovarianzasdecadagrupo).
G

donde: Sg =

Vg
ng 1

S =

Vg
g =1

nG

(n
g =1

1) Sg

nG

Kvariables

LamatrizSgesunaestimacindelamatrizdecovarianzascorrespondientealaceldagsimag,
S esunaestimacindelamatrizdecovarianzasglobal.
) LarespuestaalapreguntaDifierensignificativamentelasmediaspoblacionalesdelosdos
grupos?esdecisivaparalarealizacindelanlisisdiscriminante.Encasodequelarespuesta
fueranegativacareceradeinterscontinuarconelanlisis,yaquesignificaraquelasvariables
introducidasnotienencapacidaddiscriminantesignificativa.
H0 : 1 = 2
Lashiptesisnulayalternativaparadarrespuestaalacuestin,enelcasodedosgrupos
H1: 1 2

ElcontrastedelahiptesissepuederealizarespecficamentemedianteelestadsticoT2deHotelling:
nn
V +V
T2 = (y1 y2 )' S 1 (y1 y2 ) 1 2 donde S = 1 2
n1 + n2 2
n1 + n2
SantiagodelaFuenteFernndez

10

AnlisisDiscriminante

Lamatriz S esunestimadorinsesgadodelamatrizdecovarianzaspoblacional,obtenidobajoel
supuestodequelamatrizdecovarianzaspoblacionaleslamismaenlosdosgrupos.
Bajolahiptesisnula,elestadsticoT2deHotellingsedistribuye:
T2
n +n K 1
FK , n1 +n2 K1
1 2

K
n1 + n2 2

Existenotrosestadsticospararealizarelcontraste,diseadosparaelcasogeneraldeGgrupos,tales
comoelestadsticodeRaooelestadsticoVdeBarlett(estosdosltimosestadsticosestn
construidosapartirdeladeWilks).
Enelcasodequeserechacelahiptesisnula H0 : 1 = 2 ,sepuedeaplicarelanlisisunivariantede
lavarianzaparacontrastarlahiptesisdeigualdaddemediasparacadaunadelasvariables
clasificadorasporseparado.
Comomedidadeevaluacindelabondaddeajusteseutilizaelcoeficienteetacuadrado (2 ) ,que
eselcoeficientededeterminacinobtenidoalrealizarlaregresinentrelavariabledicotmica,que
indicalapertenenciaalgrupo,ylaspuntuacionesdiscriminantes.Alarazcuadradodeeste
coeficienteseledenominacorrelacincannica.
=

(correlacincannica)
1+

ratioqueseobtienealmaximizar Mx =

w1' F w1
separacin entre grupos
=
'
w1 V w1 separacin dentro grupos

Clculodeprobabilidadesdepertenenciaaunapoblacin

D = w 1 X 1 + w 2 X 2 + L + wk X k

Lasfuncionesdiscriminantesdeltipo
clasificanalosdiferentes
D C = w1 X 1 + w 2 X 2 + L + wk X k C
individuosenunouotrogrupo,peronoofrecenmsinformacinacercadelosindividuos
investigados.
Enmuchasocasionesesconvenientetenerinformacincomplementariaalaspuntuaciones
discriminantes.Sibienconestaspuntuacionessepuedeclasificaracadaindividuo,tambines
interesantedisponerdeinformacinsobrelaprobabilidaddesupertenenciaacadagrupo,puescon
estedatosepuederealizaranlisismsmatizados,eincluirotrasinformacionestalescomola
informacinapriorioloscostesqueimplicaunainformacinerrnea.
Pararealizarestetipodeclculossesuelenasumirlashiptesisestadsticassobrelapoblacin:
(c) Lamatrizdecovarianzasdetodoslosgruposesiguala(hiptesisdehomocedasticidad).
(d) Cadaunodelosgrupostieneunadistribucinnormalmultivariante.
Lashiptesisimplicanque x g N(g , ) ,considerandoademsqueseconocenlosparmetros
poblacionales.

SantiagodelaFuenteFernndez

11

AnlisisDiscriminante

Elclculodeprobabilidadesserealizaenelcontextodelateoradeladecisin,quepermiteteneren
cuentalaprobabilidaddepertenenciaaungrupo,comoloscostesdeunaclasificacinerrnea.
LaclasificacindelosindividuosserealizautilizandoelteoremadeBayes.Laaplicacindelteorema
deBayespermiteelclculodelasprobabilidadesaposterioriapartirdeestasprobabilidadesapriori
ydelainformacinmuestralcontenidaenlaspuntuacionesdiscriminantes.
EnelcasogeneraldeGgrupos,elteoremadeBayesestablecequelaprobabilidadaposterioride
pertenenciaaungrupogconunapuntuacindiscriminanteD,conprobabilidadesapriori g es:
Prob (g / D) =

g Prob (D / g)
G

Prob (D / i)
i=1

Laprobabilidadcondicionada Prob (D / g) seobtienecalculandolaprobabilidaddelapuntuacin


observadasuponiendolapertenenciaaungrupog.
G

Dadoqueeldenominador i Prob (D / i) esunaconstante,seutilizatambinlaformaequivalente:


i=1

Prob (g / D) g Prob (D / g)

proporcionalidad

Laclasificacindecadaindividuosepuederealizarmediantelacomparacindelasprobabilidadesa
posteriori.As,seasignarunindividuoalgrupoparaelcualseamayorsuprobabilidadaposteriori.
Sepresentaelclculodeprobabilidadesenelcasodedosgrupos,deformaqueseafcilmente
generalizablealcasodeGgrupos.
Elclculodeprobabilidadesserealizabajotressupuestosdiferentes:(a)Clculodeprobabilidades
sininformacinapriori.(b)Clculodeprobabilidadesconinformacinapriori.(c)Clculode
probabilidadesconinformacinaprioriconsiderandoloscostes.
) Clculodeprobabilidadesaposteriorisininformacinapriori

Enelclculodeestasprobabilidadesseconsideraquenoexisteconocimientopreviodelas
probabilidadesdepertenenciaacadagrupo.Cuandonoexistedichainformacin,seadoptael
supuestodequelaprobabilidaddepertenenciaaambosgruposeslamisma,esdecir,seadoptael
supuestodeque I = II .Estoimplicaqueestasprobabilidadesapriorinoafectanalosclculosde
lasprobabilidadesaposteriori.
Bajolashiptesisestadsticassobrelapoblacin,laprobabilidaddepertenenciaacadagrupo,dada
lapuntuacindiscriminanteobtenida,vienedadaporlaexpresin:
F

Prob (g / D) =

eg
eFI + eFII

g = I,II

FI y FII sonlasfuncionesdefinidas.

Unindividuoseclasificaenelgrupoparaelquelaprobabilidadseamayor.Estecriterioimplicaque
unindividuoseclasificarenelgrupoIsi FI > FII
Aplicandolafrmuladeprobabilidadaposteriorisellegaalosmismosresultadosqueaplicandola
D +D
frmuladiscriminantedeFisher.EstoimplicaqueelpuntodecorteCeselmismo: C = I II .
2
SantiagodelaFuenteFernndez

12

AnlisisDiscriminante

) Clculodeprobabilidadesaposterioriconinformacinapriori

Enocasionessedisponedeinformacindelaprobabilidadapriorisobrepertenenciadeunindividuo
acadaunodelosgrupos.Porejemplo,sepuedetenerinformacindequelosprstamosfallidos
suponenun10%deltotaldelosprstamosconcedidosalolargodecincoaos.Paratenerencuenta
estetipodeinformacinseintroducenprobabilidadesapriorienelanlisis.
Cuandoseutilizanprobabilidadesapriorilosindividuosseclasificanenelgrupoparaelquela
probabilidadaposterioriseamayor.
F

Prob (g / D) =

I e g
I eFI + II eFII

g = I,II

FI y FII sonlasfuncionesdefinidas.

Conestecriterio,unindividuoseclasificaenelgrupoIsi: FI ln I > FII ln II .


LaaplicacinimplicaqueelpuntodecortediscriminanteCvendrdadoporlaexpresin:
Cp =

DI + DII

ln II
2
I

Laratiodeprobabilidadesaprioridebeestablecersedeformaqueelpuntodecortesedesplace
haciaelgrupoconmenorprobabilidadapriori.Aldesplazarseelpuntodecortedeestaforma,se
tenderaclasificarunaproporcinmenordeindividuosenelgrupoconmenorprobabilidadapriori.
) Clculodeprobabilidadesaposterioriconinformacinaprioriyconsiderandocostes

Hastaahoranosehaconsideradoelcostequeunaclasificacinerrneapuedetener.Enmuchas
ocasioneselcostedeclasificacinerrneapuedediferirparacadaunodelosgrupos.Porejemplo,
enlaconcesindeprstamos,clasificarcomofallidoaunclientecumplidoryclasificarcomo
cumplidoraunfallido,noeslomismoparalaentidadbancaria.Enlaprimeradelasposibilidades,el
costeparaelbancoesdejardepercibirlosinteresesdelprstamoylaposibleprdidadeuncliente
queenrealidadescumplidor.Porelcontrario,enlasegundaposibilidadelcosteparaelbancoesla
prdidadelacantidadprestada,yaqueelclienteclasificadocomocumplidoresrealmentefallido.En
principio,ybajoelcriteriodeunaprudenteadministracinfinanciera,parecequeelsegundotipode
costeessuperioralprimero.
Cuandoseintroducencostesdeclasificacinnopuedehablarseyadeclculodeprobabilidadesa
posteriori.Noobstantesepuedeobteneruncriterioparaclasificarminimizandoelcostetotalde
clasificacinerrnea.Estetotalvienedadoporlaexpresin:
I Prob (II / I) Coste (II / I) + II Prob (I / II) Coste (I / II)
Cadaprobabilidadseencuentramultiplicadaporelcosteenqueseincurre.Alminimizarla
expresin,bajolashiptesisestadsticassobrelapoblacin,elpuntodecortediscriminante Cp , c se
obtieneconlaexpresin:
Cp , c =

Coste(I / II)
DI + DII
ln II
I Coste(II / I)
2

SantiagodelaFuenteFernndez

13

AnlisisDiscriminante

Enlosdesarrollosanterioressehasupuestoquelasprobabilidadessonconocidas.Enlaprctica,se
utilizanestadsticosmuestralesensulugar.Elempleodeestadsticosmuestralestienecomo
consecuenciaquesesubestimelaprobabilidaddeclasificacinerrnea,cometindoseporlotanto
sesgossistemticosenlaclasificacin.Paradisminuirestossesgossehanpropuesto,entreotros,dos
procedimientosalternativos.

Unprocedimientoconsisteendividirlamuestratotalendossubmuestras,utilizandolaprimera
muestraparaestimarlafuncindiscriminante,mientrasquelasegundaseutilizaparasu
validacin.As,lapotenciadiscriminantedelafuncinvendrdeterminadaporelporcentajede
individuosclasificadosenestasegundamuestra.

ElsegundoprocedimientoconsisteenexcluirunindividuodelgrupoI,calcularlafuncin
discriminante,yclasificardespusalindividuoquesehaexcluido.Haciendolomismoconel
restodeindividuosdelgrupoI,seestimalaProb(II/I)conelporcentajedeindividuosquehan
sidoclasificadosenelgrupoII.ProcediendoanlogamenteconlosindividuosdelgrupoII,se
estimalaProb(I/II).Aestesegundoprocedimientoseleconoceconladenominacinjacknife.

SeadjuntaunatablaresumendelEjercicio1,dondeseacompaalaspuntuaciones
discriminantesparalos16clientes.
Cliente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Grupo
pertenencia
I
I
I
I
I
I
I
I
II
II
II
II
II
II
II
II

Patrimonio
Neto
1,3
3,7
5
5,9
7,1
4
7,9
5,1
5,2
9,8
9
12
6,3
8,7
11,1
9,9

Deuda
Pendiente
4,1
6,9
3
6,5
5,4
2,7
7,6
3,8
1
4,2
4,8
2
5,2
1,1
4,1
1,6

Puntuacin
discriminante
5,9957
6,1213
1,141
3,4715
1,2043
1,8964
2,4267
1,7831
0,93
2,7086
1,3214
7,036
1,8459
4,4593
4,1473
5,2353

Grupo
clasificado
I
I
I
I
I
I
I
I
II
II
II
II
I
II
II
II

Enlatablasiguiente(resultadosdelaclasificacin)sereflejaelresumendelaclasificacindelatabla
dearriba.Avecesseutilizaenelanlisisdiscriminantelaexpresindematrizdeconfusinpara
referirsealatablasiguiente:

SantiagodelaFuenteFernndez

14

AnlisisDiscriminante

Enlatablaquesiguesehancalculadolasprobabilidadesaposteriori(sinincorporarinformacina
prioriniconsiderargastos)depertenenciaacadagrupoutilizandolafrmula:
F

eg
Prob (g / D) = FI FII
e +e

g = I,II

Comopuedeobservarse,lasprobabilidadesdepertenenciaalpropiogruposonelevadas,exceptoen
elclientecumplidor13queseclasificaerrneamenteenelgrupodefallidosyqueporaadidura
tieneunaprobabilidadmuybaja(0,1367)depertenenciaalgrupodeloscumplidores.
Cliente
1
2
3
4
5
6
7
8

Fallidos
Prob(I/D)
0,9975
0,9978
0,7575
0,9698
0,7687
0,8693
0,9185
0,8558

Prob(II/D)
0,0025
0,0022
0,2425
0,0302
0,2313
0,1307
0,0815
0,1442

Cliente
9
10
11
12
13
14
15
16

NoFallidos
Prob(I/D)
0,2826
0,0622
0,2100
0,0009
0,1367
0,0114
0,0155
0,0053

Prob(II/D)
0,7174
0,9378
0,7900
0,9991
0,8633
0,9886
0,9845
0,9947

Comosegundaaplicacin,serealizalaclasificacinincorporandoinformacinapriori.

Paraclasificaralosclientessevaautilizarelpuntodecorte Cp =

DI + DII

ln II
2
I

Siseestableceque 1 = 0,10 y 2 = 0,90 ,elvalorqueseobtiene:


Cp =

0,9
0,518 + 6,522
ln
= 3,520 2,1972 = 1,323
0,1
2

conloquelafuncindiscriminantedeFisherser:
D C = 1,035.Patrimonio _ Neto 0,932.Deuda _ Pendiente 1,323
resultando:
Cliente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Grupo
pertenencia
I
I
I
I
I
I
I
I
II
II
II
II
II
II
II
II

SantiagodelaFuenteFernndez

Patrimonio
Neto
1,3
3,7
5
5,9
7,1
4
7,9
5,1
5,2
9,8
9
12
6,3
8,7
11,1
9,9

Deuda
Pendiente
4,1
6,9
3
6,5
5,4
2,7
7,6
3,8
1
4,2
4,8
2
5,2
1,1
4,1
1,6

Puntuacin
discriminante
3,7987
3,9243
1,056
1,2745
0,9927
0,3006
0,2297
0,4139
3,127
4,9056
3,5184
9,233
0,3511
6,6563
6,3443
7,4323

Grupo
clasificado
I
I
I
I
I
I
I
I
II
II
II
II
I
II
II
II

15

AnlisisDiscriminante

Losclientes3,5,6y8,queantesestabanclasificadoscomofallidos,seclasificanahoracomo
cumplidores,yaquesupuntuacindiscriminantehapasadodenegativaapositiva.Lomismoocurre
conelcliente13queanteriormenteestabaclasificadoerrneamentecomofallidocuandoera
cumplidor.
Ahorasecalculaelpuntodecorteteniendoencuentalainformacinapriorieincorporando
tambinloscostesdelaclasificacinerrnea.Comorespectoalcoste,seadoptaelcriteriode
clasificarcomocumplidoraunclientefallidoes20vecessuperioralcostedeclasificarcomofallidoa
Coste (II / I)
unclientecumplidor.Esdecir,seestableceque,laratio:
= 20
Coste (I / II)

Elpuntodecortediscriminanteser:
Cp , c =

Coste(I / II) 0,518 + 6,522


0,9
DI + DII
=
ln
= 4 ,319
ln II
I Coste(II / I)
0,1.20
2
2

Laincorporacindeloscosteshadeterminadoqueelnuevopuntodecortediscriminante Cp , c est
situadoaladerechadelpuntoC,adiferenciadeloqueocurracuandosolamentesetenanen
cuentalasprobabilidadesapriori.
conloquelafuncindiscriminantedeFisherser:
D C = 1,035.Patrimonio _ Neto 0,932.Deuda _ Pendiente 4 ,319
resultando:
Cliente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Grupo
pertenencia
I
I
I
I
I
I
I
I
II
II
II
II
II
II
II
II

Patrimonio
Neto
1,3
3,7
5
5,9
7,1
4
7,9
5,1
5,2
9,8
9
12
6,3
8,7
11,1
9,9

Deuda
Pendiente
4,1
6,9
3
6,5
5,4
2,7
7,6
3,8
1
4,2
4,8
2
5,2
1,1
4,1
1,6

Puntuacin
discriminante
6,7947
6,9203
1,94
4,2705
2,0033
2,6954
3,2257
2,5821
0,131
1,9096
0,5224
6,237
2,6449
3,6603
3,3483
4,4363

Grupo
clasificado
I
I
I
I
I
I
I
I
II
II
II
II
I
II
II
II

Secompruebaquenoalteralaclasificacindeningnclienterespectoalautilizacindelpuntode
corteinicialC.Esdecir,laincorporacindeloscostesdeclasificacinerrneahacompensado,mso
menos,lamenorprobabilidadapriorideserunclientefallido.

SantiagodelaFuenteFernndez

16

AnlisisDiscriminante

CLASIFICACINENMSDEDOSGRUPOS:ANLISISDISCRIMINANTEMLTIPLE

Nmeromximodeejesdiscriminantes mn(G 1, k) ,dondeGeselnmerodecategoras.Se


obtienen (G 1) ejesdiscriminantessielnmerodevariablesexplicativasesmayoroigualque
(G 1) generalmente,estehechosuelesercierto.

Cadaunadelasfuncionesdiscriminantes Di seobtienecomofuncinlinealdelaskvariables
explicativas: Di = wi1 X1 + wi2 X2 + L + wik Xk i = 1,L , G 1

Los (G 1) ejesvienendefinidosrespectivamenteporlosvectores (w1 , w2 ,L , wG1 )

wG1, 1
w11
w21

wG1, 2
w12
w22
w1 =
, w2 =
, LL , wG1 =
M
M
M

w
w
wG1, k
1k
2k

Paralaobtencindelprimerejediscriminantesemaximizalaratiovariabilidadentregruposentre
variabilidaddentrogrupos,esdecir:
Mx 1 =

w1' F w1
separacin entre grupos
=
(criterioobtencindelprimerejediscriminante)
'
w1 V w1 separacin dentro grupos

Derivandolaratioeigualandoacero:

1
= 0 ,conlocual:
w1

1 2F w1 (w1' V w1 ) 2 V w1 (w1' F w1 )

=
=0
w1
(w1' V w1 ) 2

2F w1 (w1' V w1 ) 2 V w1 (w'1 F w1 ) = 0

2 F w1
(w'1 F w1 )
operandoconlaexpresin,resulta:
=1
= 1
2 V w1 (w1' V w1 )

siendo,portanto,

F w1 = V w1 1

1 w1 = V 1 F w1

Laobtencindelvector w1 resultaunproblemadeclculodeunvectorcaractersticoasociadoala
matriznosimtrica (V 1 F) .Delasracescaractersticasqueseobtienenalresolverlaecuacin

[ w

= V 1 F w1 seretienelamayor,yaque 1 eslaratioquesepretendemaximizary w1 esel


vectorcaractersticoasociadoadicharazcaracterstica.
1

w1' F w1
Como 1 eslaratio '
medirelpoderdiscriminantedelprimerejediscriminante.Elresto
w1 V w1
delosejesdiscriminantessonotrosvectorescaractersticosdelamatriz (V 1 F) ,ordenadossegnel
ordendecrecientedelasracescaractersticas.As,elsegundoejediscriminantetendrmenorpoder
discriminantequeelprimero,peromsquecualquieradelosrestantes.

Puestoquelamatriz (V 1 F) noessimtrica,engeneral,estoimplicarquelosejesdiscriminantesno
sernortogonales,esdecir,nosernperpendicularesentres.

SantiagodelaFuenteFernndez

17

AnlisisDiscriminante

Contrastesdesignificacin

Enelanlisisdiscriminantemltipleseplanteancontrastesespecficosparadeterminarsicadauno
delosvalores i esestadsticamentesignificativo,esdecir,paradeterminarsicadaunodelos
valores i contribuyeonoaladiscriminacinentrelosdiferentesgrupos.
EstetipodecontrastesserealizaapartirdelestadsticoVdeBarlett.ElestadsticoVesunafuncin
deladeWilksyseaproximaaunachicuadrado,tieneintersenelanlisisdiscriminanteporsu
descomponibilidad.
K + G

(ln )
EstadsticoVdeBarlett: V = n 1
2

Esteestadsticoseutilizaenelanlisis
multivarianteparacontrastarlashiptesis

K var iables categricas

G grupos

V K2 (G1)

H0 : 1 = 2 = L = G

H1 : No todas las g son iguales

) Enelanlisismultivariantedelavarianzaconunfactorsecontrastaestahiptesispara
determinarsielfactor(variablecategricaconGgrupos)explicalavariabilidaddelvectorde
variablesdependientesdeformasignificativa.
) Enelanlisisdiscriminantemltiplelahiptesisacontrastarsiguesiendolamisma,aunquelos
papelessehaninvertido.Ahoraserealizaelcontrasteparatratardedarrespuestaalapregunta:
LasKvariablesclasificadorascontribuyensignificativamenteadiscriminarentrelosGgrupos?

Sinoserechazalahiptesisnulacitada,nosedeberacontinuarelanlisis,puestoquelasvariables
clasificadorasutilizadasenlainvestigacinnotienenningnpoderdiscriminantesignificativo.

Paraexaminarelpoderdiscriminantedecadaunodelosejesqueseconstruyenenelanlisis
discriminante,sedescomponeelestadsticoVenproductosapartirdeladescomposicindela
deWilks.Deacuerdoconsudefinicin,elrecprocodesepuededescomponer:

1 T
= = V
V

T = V 1 T = V 1 T = V 1 (F + V) = I + V 1 F

teniendoencuentaqueeldeterminantedeunamatrizesigualalproductodesusraces
caractersticas,seobtieneque:

1
= I + V 1 F = (1 + 1 ) (1 + 2 ) L (1 + G1 )

sustituyendoenelestadsticoVdeBarlett,seobtienelaexpresinalternativadelestadstico:

K + G

EstadsticoVdeBarlett: V = n 1
2

G1

ln(1 + )
g=1

Siserechazalahiptesisnula,significaquealmenorunodelosejesdiscriminanteses
estadsticamentesignificativo.Estoimplicaasuvezqueelprimerejediscriminantees
estadsticamentesignificativo,debidoaqueesprecisamenteelquetienemayorpoder
discriminante.
Encasodequeseaceptelahiptesisdequeelprimerejediscriminanteessignificativo,sepasaa
contrastarlasignificacinconjuntadelrestodelosejesdiscriminantes,utilizandoelestadstico:
SantiagodelaFuenteFernndez

18

AnlisisDiscriminante

K + G

V = n 1
2

G1

ln(1 + )
g

g =2

Deformageneral,sepuedeestablecerlaexpresindecontrastacinsecuencialmedianteel
estadstico:
K + G

EstadsticoVdeBarlett: Vj = n 1
2

G1

ln(1 + )

g = j+1

donde

j = 0, 1, 2,L , G 2

As,enelprocesosecuencialsevaneliminandodelestadsticoVlasracescaractersticasquevan
resultandosignificativas,deteniendoelprocesocuandoseaceptelahiptesisnuladeno
significatividaddelosejesdiscriminantesquequedenporcontrastar.

SantiagodelaFuenteFernndez

19

AnlisisDiscriminante

PRSTAMOSRIESGO
Cuandounaentidadfinancieraconcedeunprstamopersonalaunclienteseenfrentaaladoble
posibilidaddequeseareintegradoodequenolosea.Enesteltimocasoelprstamoser
finalmenteclasificadocomofallido.Obviamente,silaentidadfinancieraconocieradeantemanoque
unapersonavaaresultarfallidanoleconcederaelprstamoenningncaso.Enestalnea,puede
utilizarlainformacinexistenteenlaentidadsobreprstamosconcedidosenelpasadoparala
concesindeprstamosfuturosdeformaqueseevite,oalmenos,sereduzcalaposibilidadde
concederprstamosquedespusfueranfallidos.
Enlosarchivosdelaentidadfinancieraexisteinformacindelascaractersticasdelaspersonasalas
queseleshaconcedidounprstamo,yaqueelclienteenelmomentodesolicitarelprstamoha
facilitadodatosacercadecuestionestalescomoingresos,edad,sexo,situacinfamiliar,antigedad
enelpuestodetrabajo,rgimendetenenciadelavivienda,etc.Esmuyposiblequelosclientes
cumplidorestenganunascaractersticasdistintasalosclientesfallidos.
Utilizandoestascaractersticassetratadeestablecerunasfuncionesqueclasifiquenloms
correctamenteposiblealosclientesalosqueseleshaconcedidounprstamoencumplidoresy
fallidos(finalidadexplicativa).Posteriormente,estasfuncionesseemplearn,enelcasodequese
hayarealizadoadecuadamentedichaclasificacin,paradeterminarsiseconcedenonolos
prstamosfuturosafuturossolicitantes(finalidadpredictiva).
ANLISISDISCRIMINANTECONSPSS
Latablaadjuntacontieneinformacinde16clientesdeunaentidadfinancieraalosqueseles
concediunprstamo.Pasados3aosdesdelaconcesindelprstamo,delos16clientes,haba8
quefueronclasificadoscomofallidos(grupo1)mientrasquelosotros8clientesfueroncumplidores
(grupo2),yaquereintegraronelprstamo.
Paracadaunodelos16clientessedisponedeinformacinsobreX1='supatrimonioneto'y
X2='susdeudaspendientes',enelmomentodelasolicitud.Conestainformacinsepretende
construirunafuncindiscriminantequesepare/diferencielomsposiblealosdosgruposyque
permitaclasificar,conlosmenoreserroresposibles,alosdistintosclientesenlosdosgrupos.
Cliente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
SantiagodelaFuenteFernndez

Prstamo
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2

PatrimonioNeto
1,3
3,7
5,0
5,9
7,1
4,0
7,9
5,1
5,2
9,8
9,0
12,0
6,3
8,7
11,1
9,9

DeudaPendiente
4,1
6,9
3,0
6,5
5,4
2,7
7,6
3,8
1,0
4,2
4,8
2,0
5,2
1,1
4,1
1,6

20

AnlisisDiscriminante

Eldirectordelaentidadfinancieratienedosnuevassolicitudesdeunprstamoinstantneo.El
primersolicitantedisponedeunpatrimonionetode10,1,conunasdeudaspendientesde6,8.Para
elsegundosolicitantelosvaloresdeestasvariablesson9,7y2,2respectivamente.Qudecisin
debetomar?
(Nota.Lasunidadesmonetariasseexpresanen100.000euros)
ParahacerunAnlisisDiscriminante,seseleccionasucesivamentedelmenprincipal:
AnalizarClasificarDiscriminante

Enprimerlugar,hayqueelegirculeslaVariabledeAgrupacin,esdecir,quvariablejuegael
papeldevariablecategricadependientecuyascategorasdefinenlosposiblesgruposde
pertenenciadelosindividuos.Enestecaso,lavariableesPrstamo.Adems,enelbotnconel
nombreDefinirRango,esnecesarioespecificarculessonlosvaloresMnimoyMximodeesta
variable.Seintroducenlosvalorescorrespondientes:Mnimo:1yMximo:2.
Lasotrasdosvariables,X1='Patrimonio_Neto'yX2='Deuda_Pendiente',seeligencomovariables
independientes,cuyosvaloresseutilizanparaconstruirlafuncindiscriminante.Estasvariables
puedenintroducirseenelmodelosimultneamenteoporetapas
SPSSofreceenlosdistintosbotonesactivadosdelcuadrodedilogo:'Seleccionar','Estadsticos',
'Clasificar','Guardar'.Elbotn'Mtodo'sloseactivasipreviamentesehaelegidoIntroducirlas
variablesconunMtodoporpasos.
Seleccionar:Permitereducirelanlisisaunsubgrupodelamuestratotal,subgrupoquevendr
definidoporunavariabledeseleccin.Estenoeselcaso,noseeligeestaopcin.
ESTADSTICOSUTILIZADOS:
FdeSnedecor:Secomparaparacadavariablelasdesviacionesdelasmediasdecadaunodelos
gruposalamediatotal,entrelasdesviacionesalamediadentrodecadagrupo.
SiFesgrandeparacadavariable,entonceslasmediasdecadagrupoestnmuyseparadasy
lavariablediscriminabien.
SiFespequeaparacadavariable,lavariablediscriminapoco,yaquehabrpoca
homogeneidadenlosgruposystosestarnmuyprximos.
SantiagodelaFuenteFernndez

21

AnlisisDiscriminante

deWilks:Seconsideranlasvariablesdemodoindividual,laeselcocienteentrelasumade
cuadradosdentrodelosgruposylasumadecuadradostotal(sindistinguirgrupos).Esto
equivalealasdesviacionesalamediadentrodecadagrupo,entrelasdesviacionesalamedia
totalsindistinguirgrupos.
Siespequeolavariablediscriminamucho:lavariabilidadtotalsedebealasdiferencias
entregrupos,noalasdiferenciasdentrodegrupos.
VARIABLESORIGINALESQUESECONSIDERAN:Laideadelanlisisdiscriminanteesconstruir
funcioneslinealesdelasvariablesoriginalesquediscriminenentrelosdistintosgrupos.Sinembargo,
notodaslasvariablesdiscriminandelamismaformaotienenlosmismosvaloresdelaFde
SnedecorodeladeWilks.Porello,alahoradeconstruirlasfuncioneslineales,noesnecesario
incluiratodaslasvariablesinicialesenlafuncin.
ComocriteriogeneralparaseleccionarunavariableseemplealaseleccindelvalordeladeWilks
o,demodoequivalente,delvalordesuFasociada.
Seutilizanfundamentalmentedosmtodosdeseleccindevariables:elmtododirecto(Introducir
independientesjuntas)yelmtodostepwise(Usarmtododeseleccinporpasos).Enelmtodo
directoseconsiderantodaslasvariablesoriginalesqueverifiquenuncriteriodeseleccin.
Elmtodostepwisefuncionaconvariospasos:
(a) Seincluyeenelanlisislavariablequetengaelmayorvalorrealaceptableparaelcriteriode
seleccinodeentrada.
(b) Seevalaelcriteriodeseleccinparalasvariablesnoseleccionadas.Lavariablequepresentael
valormsaltoparaelcriterioseselecciona(siemprequeseencuentredentrodeunlmite).
(c) Seexaminanlasvariablesseleccionadassegnuncriteriodesalidayseexaminantambinlas
variablesnoseleccionadas,paraversicumplenelcriteriodeentrada.Seexcluyenoseincluyen
variablessegncumplanloscriteriosdeentradaysalida.
(d) Serepiteelprocesohastaqueningunavariablemspuedaserseleccionadaoeliminada.
Ademsdetodoloexpuesto,enelSPSSseconsideraunnmeromximodepasos,dadoqueuna
variablepuedeserincluidayeliminadaenmsdeunaocasin.Setomaeldobledelnmerode
variablesoriginalescomonmeromximodepasosdelmtodostepwise.
EnSPSSseconsideratambinparacadavariablelatoleranciaasociada:Sedefineparaunconjunto
depvariables, Ri coeficientedecorrelacinmltiple,queexpresaelporcentajedevariabilidadde
lavariable (x i i = 1,L ,p) recogidaporelrestode (p 1) variables. R2i coeficientededeterminacin.

Latoleranciasedefinecomo (1 R2i ) .Cuantomayorsealatoleranciadeunavariable,ms


informacinindependientedelrestodevariablesrecoger.
Deestemodo,sienunaiteracindadadelprocedimientostepwiselavariableseleccionadaverifica
quesutoleranciaconrespectoalasvariablesyaincluidasenlafuncindiscriminanteesmuy
pequeaentonceslavariablenoseincluyeendichaetapa.As,seevitalaredundanciade
informacin.

SantiagodelaFuenteFernndez

22

AnlisisDiscriminante

Laopcin[Estadsticos]seencuentradivididaentres
grandesreas:Descriptivos,Coeficientesdelafunciny
Matrices.

DESCRIPTIVOS:
Medias:Proporcionaelvectordemedias(loscentroides)ydesviacionestpicasdecadavariable
paracadagrupo.
UnivarianteANOVA:Contrastaigualdaddemediasentrelosgruposparacadavariable.
MdeBox:Contrastalahiptesisnuladequelasmatricesdevarianzascovarianzaspoblacionales
sonigualesenlosdistintosgrupos.

COEFICIENTESDELAFUNCIN:
DeFisher:CoeficientesdelafuncindeclasificacinbajoNormalidad
Notipificados:CoeficientesdelafuncindiscriminantecannicadeFisher'centrados'

MATRICES:
Covarianzadegruposseparados:Proporcionalamatrizdevarianzasycovarianzasdecadagrupo,es
decir,lasmatricesS1yS2,donde:
nk

(X(i1k) X1(k) )2

Sk = nk i=1
(X(k ) X (k) )(X(k) X (k) )
i1
1
i2
2

i=1

X1(k ) )(X(i2k) X2(k ) )


k = 1,2
nk
(k )
(k ) 2
(Xi2 X2 )

i=1

(X
nk

i=1

(k )
i1

Covarianzaintragrupos:Proporcionalamatrizdevarianzasycovarianzas'combinada',obtenida
comomediaponderadadelasdosanteriores,esdecir:

S =

(n1 1) S1 + (n2 1) S2
n1 + n2 2

CovarianzaTotal:Proporcionalamatrizdevarianzasycovarianzasde(X1,X2)paratodoslos
n1+n2=16individuosdelapoblacin,sindistincindegrupo.

COMPROBACINSUPUESTOSPARAMTRICOS:Lafuncindiscriminanteminimizalaprobabilidadde
equivocarsealclasificaralosindividuosencadagrupo.Paraello,lasvariablesoriginalessedeben
distribuircomounanormalmultivarianteylasmatricesdecovarianzasdebendeserigualesentodos
losgrupos.Enlaprcticaesunatcnicarobustayfuncionabienaunquelasdosrestricciones
anterioresnoseverifiquen.
SantiagodelaFuenteFernndez

23

AnlisisDiscriminante

Siunconjuntodevariablessedistribuyecomounanormalmultivariante,entoncescualquier
combinacinlinealdeellassedistribuyecomounanormalmultivariante.Porello,sialgunade
lasvariablesoriginalesnosedistribuyecomounanormal,entoncesesseguroquetodaslas
variablesconjuntamentenosedistribuirncomounanormalmultivariante.
Lasegundarestriccinseocupadelaigualdadentrelasmatricesdecovarianzasdelosgrupos.
Paracomprobaresto,sepuedeutilizarlaPruebaMdeBox,quetienecomohiptesisnulaque
lasmatricesdecovarianzassoniguales.Sebasaenelclculodelosdeterminantesdelas
matricesdecovarianzasdecadagrupo.ElvalorobtenidoseaproximaporunaFdeSnedecor.Si
elp_valor<0,05serechazalaigualdadentrelasmatricesdecovarianzas.
EltestdeMdeBoxessensiblealafaltadenormalidadmultivariante,esdecir,matricesiguales
puedenaparecercomosignificativamentediferentessinoexistenormalidad.Porotraparte,si
lasmuestrassongrandes,pierdeefectividad(esmsfcilrechazarlahiptesisnula).

Enestecaso,sedejanlasopcionesquevienen
pordefectoenSPSS.

LambdadeWilks:Estadsticoquemideelpoderdiscriminantedeunconjuntodevariables
=

V
V
1
=
= min(q1, p)
(01)
T V +F
(1 + I)
i=1

Cuantomscercade0mayoreselpoderdiscriminantedelasvariablesconsideradas,ycuanto
mscercade1menoreselpoderdiscriminante.
Estadsticosasociados:FdeRao;2deBarlett(testssobrelasdiferenciasdemediasenambos
grupos)
Laisimacorrelacincannicavienedadapor: CRi =

i
1 + i

Mide,entrminosrelativos,elpoderdiscriminantedelaisimafuncindiscriminante,yaque
eselporcentajedelavariacintotalendichafuncinqueesexplicadaporladiferenciaentre
losgrupos, 0 CRi 1 ,cuantomscercade1estsuvalor,mayoreslapotenciadiscriminante
delaisimafuncindiscriminante.

SantiagodelaFuenteFernndez

24

AnlisisDiscriminante

Unaopcininteresanteenlaopcin
[Clasificacin]eslade'Reemplazarlos
valoresperdidosconlamedia'.Enmsde
unainvestigacin,poralgnmotivoenla
basededatoshayvaloresperdidos,ypara
queestosnoafectenlosresultadosfinales,
existestaopcindereemplazo,quese
recomiendautilizar.
PROBABILIDADESPREVIAS:
Sonlasprobabilidadesaprioriparacadagrupo.Enestecasoseranp1=p(perteneceralgrupo1),
p2=p(perteneceralgrupo2).Estosvaloresseutilizan,porejemplo,enlaregladeclasificacindela
mximaverosimilitudbajoelsupuestodenormalidad.
Todoslosgruposiguales:p1=p(perteneceralgrupo1)=p2=p(perteneceralgrupo2)=

USARMATRIZDECOVARIANZA:
Intragrupos:Deestamaneraseespecificaquecuandoseobtenganlosautovectoresdelamatriz
(V 1 F) ,quesonprecisamenteloscoeficientesdelasdistintasfuncionesdiscriminantes,seutilicela
restriccinaSa=1,utilizandolamatrizdevarianzasentregrupos'combinada'S.

MOSTRAR:
Resultadosparacadacaso:Muestraelprocesodeclasificacinpasoapasoparacadaunodelos16
individuosdelapoblacin,conlasprobabilidadesaposterioriparacadaunodeellos,calculadasa
partirdelaspuntuacionesdiscriminantes.
Tabladeresumen:Proporcionalamatrizdeconfusin,esdecirlamatrizdeclasificacinparalos
propios16individuosdelamuestraparalosqueconocemosdeantemanosuadscripcin.
Clasificacindejandounofuera:Proporcionalamatrizdeclasificacinperoobtenidaconelmtodo
Jacknife,queobtiene,engeneralunaestimacindelaproporcindeclasificacioneserrneasms
fiable.

GRFICOS:
Gruposcombinados:Representalaspuntuacionesdiscriminantesovaloresdela(s)funcion(es)
discriminante(s),paralos16individuosdelamuestra(8decadagrupo)todosjuntosenungrfico,
juntoconsuscentroides.
Comoslohayunafuncindiscriminanteestegrficonosehace(siseselecciona,luegonoaparece).
Gruposseparados:Representaungrficocomoelanteriorperoparacadagrupo.
Enestecaso,representaraenelprimergrficonicamentelos8individuosdelgrupo1yenel
segundoslolos8delgrupo2.
Mapaterritorial:Conunanicafuncindiscriminantenolohace.

SantiagodelaFuenteFernndez

25

AnlisisDiscriminante

Sisedeseaqueelanlisissea'Guardado'se
procedeadarunclicenelbotndelaopcin
[Anlisisdiscriminante].

ElVisorderesultadosdeSPSSmuestra:

Semuestranlosestadsticosdescriptivos:mediaydesviacintpicatotalde(X1,X2)sobrelos
n=n1+n2=16individuosyparalosdosgrupos:Mediaydesviacintpicade(X1,X2)paralosn1=8
clientesdelgrupo1,ymediaydesviacintpicade(X1,X2)paralosn2=8clientesdelgrupo2.
Seobservaqueelpuntodecortediscriminantedelosdosgruposparalavariable
X1='Patrimonio_Neto'seencuentraenelvalor7:
X1, I = 5

X1, II = 9

C1 =

X1 , I + X1, II
2

5+9
=7
2

Elpuntodecortesetomacomoreferenciaparaclasificaraunindividuoenunouotrogrupo(fallido,
cumplidores):SielPatrimonio_Netoesmenorque7seclasificaalclientecomofallido(grupo1),
mientrasqueseclasificacomocumplidor(grupo2)sielPatrimonio_Netoesmayorqueesacifra.
Porotraparte,elpuntodecortediscriminantedelosdosgruposparalavariableX2=
'Deuda_Pendiente'delosdosgruposser:
X2 , I = 5

X2 , II = 3

C1 =

X2 , I + X2 , II
2

5+3
=4
2

Silasdeudaspendientessonmayoresque4seclasificaalclientecomofallido(grupo1),mientras
queseclasificacomocumplidor(grupo2)silasdeudaspendientessonmenoresqueesacifra.
Loscontrastesdeigualdaddemedias
entrelosdosgruposparacadavariable
(enamboscasosserechazalahiptesis
nula,p_valor<0,05,esdecir,losdos
grupos,enmediasondiferentes).

SantiagodelaFuenteFernndez

26

AnlisisDiscriminante

LainformacindeestatabladeANOVAsunivariadossueleutilizarsecomopruebapreliminarpara
detectarsilosgruposdifierenenlasvariablesdeclasificacinseleccionadas;sinembargo,hayque
considerarqueunavariablenosignificativaanivelunivariantepodraaportarinformacin
discriminativaanivelmultivariante.

Lasalidadelamatrizdecovarianzasproporciona:
4 ,289 1,824
5,240 0,177
8,713 1,199
S1 =
, S2 =
, S total =

1,824 3,474
0,177 3,043
1,199 4 ,108

Porotraparte,lamediaponderadade S1 y S2 debedecoincidirconlamatriz'intragrupos
combinada',denominadaS.Esdecir,debeverificarseque:
4 ,764 1,001 (n1 1) S1 + (n2 1) S2 7
=
S =
=
n1 + n2 2
14
1,001 3,259

4 ,289 1,824 7
1,824 3,474 + 14

5,240 0,177
0,177 3,043

AparecedespuslaPruebadeBoxparaelcontrastedelahiptesisnuladeigualdaddelasmatrices
devarianzascovarianzaspoblacionales.Unodelossupuestosdelanlisisdiscriminanteesquetodos
losgruposprocedendelamismapoblaciny,msconcretamente,quelasmatricesdevarianzas
covarianzaspoblacionalescorrespondientesacadagruposonigualesentres.

ElestadsticoMdeBoxtomalaforma: M = (n g) log S (nj 1) log S j


j=1

DondeSeslamatrizdevarianzascovarianzascombinada, S j eslamatrizdevarianzascovarianzas
delgrupojsimo,neselnmerototaldecasosygelnmerodegrupos.ElestadsticoMcarecede
distribucinmuestralconocida,peropuedetransformarseenunestadsticoFeinterpretarsecomo
tal(muchosinvestigadorescriticanesteestadsticoporserdemasiadosensibleapequeas
desviacionesdelanormalidadmultivarianteyatamaosmuestralesgrandes,tendiendoaser
conservador).

SantiagodelaFuenteFernndez

27

AnlisisDiscriminante

Seobservaquelaprimeratablaofreceloslogaritmosdelosdeterminantesdetodaslasmatrices
utilizadasenelclculodelestadsticoM.Dadoqueelestadsticoesmultivariante,latablapermite
comprobarqugrupos(cuandohaymsdedos)difierenms.
Latabla(Resultadosdelaprueba)ofrecelapruebaMdeBoxysutransformacinenunestadsticoF.
Elresultadodelapruebahacequenoserechacelaigualdaddematricesdevarianzascovarianzas
(Sig=0,849>0,05),concluyendoquelosdosgrupostienenlamismamatrizdevarianzascovarianzas
(nohayungrupomsvariablequeotro).
Acontinuacinaparecenlosresultadosdelanlisisdiscriminante(estadsticosporpasos):

Lasvariablessonintroducidas/eliminadasdelmodeloenlamedidaenquetenganasociadoun
menorvalordelestadsticodeWilks.

Comohayg=2gruposyp=2variables,slohayq=min(k,g1)=1funcindiscriminante,o
equivalentemente,lamatriz (V 1 F) tienerangoq=min(k,g1)=1yslohayunautovalordistintode
cero,1=1,716,queeselqueapareceenlatabla.
Elautovalordeunafuncinseinterpretacomolapartedevariabilidadtotaldelanubedepuntos
proyectadasobreelconjuntodetodaslasfuncionesatribuiblealafuncin.Sisuvaloresgrande,la
funcindiscriminarmucho.
SantiagodelaFuenteFernndez

28

AnlisisDiscriminante

Adems,sereflejaelcoeficienteetaocorrelacincannica: =

1
1,716
=
= 0,795
1 + 1
1 + 1,716

Lascorrelacionescannicas,midenlasdesviacionesdelaspuntuacionesdiscriminantesentregrupos
respectoalasdesviacionestotalessindistinguirgrupos.Sisuvaloresgrande(prximoa1)la
dispersinserdebidaalasdiferenciasentregrupos,yenconsecuencia,lafuncindiscriminar
mucho.

ElestadsticodelcontrastedesignificacinglobalLambdadeWilks: =

1
1
=
= 0,368
1 + 1 1 + 1,716

queconducearechazarlahiptesisnuladeigualdaddemedias[pvalor=0,02<0,05],loqueindica
laconvenienciadeextraeruna(lanicaposible)funcindiscriminante,oloqueeslomismo,que
dichafuncinseasignificativa.
Interpretacindelasfuncionesdiscriminantes:alavistadelosvaloresde(X1,y),y(X2,y),parece

quelavariablequemscontribuyealadiscriminacinesX1='Patrimonio_Neto'

COEFICIENTESESTANDARIZADOS:Aparecenloscoeficientesdelafuncindiscriminantecannica
estandarizados,estoscoeficientesaparecencuandosetipificanoestandarizancadaunadelas
variablesclasificadorasparaquetenganmedia0ydesviacintpica1.Deestaformaseevitanlos
problemasdeescalaquepudieranexistirentrelasvariablesy,consecuentemente,lamagnitudde
loscoeficientesestandarizadossonunindicadordelaimportanciaquetienecadavariableenel
clculodelafuncindiscriminante.Enestalnea,seobservaquelavariablePatrimonio_Neto(X1)
tieneunainfluenciaqueescasiun50%superioralaejercidaporlavariableDeuda_Pendiente(X2).
MATRIZDEESTRUCTURA:Esconvenienteconocerculessonlasvariablesquetienenmayorpoder
discriminanteenordenaclasificaraunindividuoenunodelosgrupos(fallidos,cumplidores).Una
formademediresepoderdiscriminanteescalculandoelcoeficientedecorrelacinentrecadauna
delasvariablesylafuncindiscriminante.Estaesprecisamentelainformacinquesedaenlatabla
(Matrizdeestructura),enestecaso,lacorrelacindelafuncindiscriminanteconlavariable
Patrimonio_Neto(0,748)esmayorenvalorabsolutoqueconlavariableDeuda_Pendiente(0,452).
Lascomparacionesdebenhacersesiempreenvalorabsoluto.EnelprogramaSPSSlasvariables
aparecenordenadasdeacuerdoconelvalorabsolutodeloscoeficientesdecorrelacin.

LosCoeficientesdelasfuncionesdiscriminantescannicasdeFisherson:
SantiagodelaFuenteFernndez

29

AnlisisDiscriminante

Enlatablaapareceinformacindeloscoeficientesdelafuncindiscriminantecannicano
estandarizados.Loscoeficientesdeestafuncinsonestrictamenteproporcionalesaloscoeficientes
delafuncindiscriminantedeFisher (D C) .Enestecaso,elfactordeproporcionalidades0,408;
estoes,cadacoeficienteesiguala0,408multiplicadoporelcoeficientedelafuncindiscriminante
deFisher.Estoscoeficientesnoestandarizadosseobtienenutilizandolaregladenormalizacinde
w' V w = 1 ,aspues,setomacomonormaeldenominadordelavariacindentrodelosgrupos:
Loscoeficienteswseobtienen: Mx =

w' F w var iacin entre grupos


=
w' V w var iacin dentro grupos

Centroidesdecadagrupo(mediadelafuncindiscriminanteencadagrupo):
Conlosresultadosobtenidos,elpuntodecorte
discriminanteserelpuntomediodelasfuncionesenlos
D + D 1,225 + 1,225
centroidesdelosgrupos: C = 1 2 =
=0
2
2
Estadsticosdeclasificacin:

Probabilidadesaprioridepertenenciaalos
grupos(sesuponep1=p2=1/2)

Coeficientesdelafuncindeclasificacin:Aqusemuestranloscoeficientesdelasfuncionesde
clasificacinqueseobtendranbajoelsupuestodeNormalidadbivariantepara(X1,X2)enambas
poblaciones,utilizandoelcriteriodelamximaverosimilitudyprobabilidades(p1=p2=1/2)apriori
iguales.

Lasfuncionesdeclasificacinson:
FI = 0,777.Patrimonio _ Neto + 1,296.Deuda _ Pendiente 5,876

F = 1,813.Patrimonio _ Neto + 0,364 .Deuda _ Pendiente 9,396


II

SantiagodelaFuenteFernndez

30

AnlisisDiscriminante

Paraelgrupo1,lafuncindeclasificacinesdelaforma: dI (x) = x1' S 1 x

4 ,764 1,001
dI (x) = [5 5]

1,001 3,259

1 ' 1
x1 S x1 + ln(p1 )
2

Loscentrosdegravedadocentroidesdelos
dosgrupossern:

Matrizintragrupo
combinada:

X1, I 5
X1, II 9
xI = = xII = =
X2 , I 5
X2 , II 3

4 ,764 1,001
S=

1,001 3,259

4 ,764 1,001
X 1 1
X 2 [5 5] 1,001 3,259

5
5 + ln(0,5) =

X2
1 444
644
47
8
644
47
444
8
= 0,777.Patrimonio _ Neto + 1,296.Deuda _ Pendiente 5,876

Paraelgrupo2,lafuncindeclasificacinesdelaforma: dII (x) = x2' S 1 x


4 ,764 1,001
dII (x) = [9 3]

1,001 3,259

4 ,764 1,001
X1 1
X 2 [9 3] 1,001 3,259

1 ' 1
x2 S x2 + ln (p2 )
2

9
3 + ln(0,5) =

X2
1 444
644
47
8
644
47
444
8
= 1,813.Patrimonio _ Neto + 0,364 .Deuda _ Pendiente 9,396

Cadasujetoserasignadoalgrupoenelqueobtengaunmayorvalordeestasfunciones.
LafuncindiscriminantedeFisher [D C = FII FI ]:
D C = 1,035.Patrimonio _ Neto 0,932.Deuda _ Pendiente 3,520

ElprogramaSPSSnoofrecelafuncindiscriminantedeFisher.

SantiagodelaFuenteFernndez

31

AnlisisDiscriminante

Estadsticosporcasos:Paracadacaso,semuestranlaspuntuacionesdiscriminantes,las
distanciasdeMahalanobisdedichaspuntuacionesalcentroidedecadagrupoylasprobabilidadesa
posterioriobtenidasapartirdeesasdistancias.

Enestecasosolosehaencontradouncasomalclasificadosegnlafuncinlinealdiscriminante,se
tratadelgrupo2(caso13enlatabladeestadsticosdeclasificacin)quehasidoincluido
errneamentedentrodelgrupo1.

Comopuedeverselos
doscentrosdegravedad
equidistandelarecta
delimitadora.

Eldirectordelaentidadfinancieraclasificaalasdossolicitudesdeprstamos.Paraello,basta
sustituir,enlafuncindiscriminantedeFisher,losvaloresdePatrimonio_Netoy
Deuda_Pendiente:
D C = 1,035.Patrimonio _ Neto 0,932.Deuda _ Pendiente 3,520
Primersolicitante: D C = 1,035.(10,1) 0,932.(6,8) 3,520 = 0,5959
Segundosolicitante: D C = 1,035.(9,7) 0,932. (2,2) 3,520 = 4 ,469
Comolapuntuacinespositivaenamboscasos,seclasificanalosdossolicitantesenelgrupodelos
cumplidores,sibienhayquehacernotarqueelsegundosolicitantetieneunapuntuacin
discriminantemuchomselevada.
SantiagodelaFuenteFernndez

32

AnlisisDiscriminante

CRITERIOSALTERNATIVOSDECLASIFICACIN:Existenotrosmuchoscriteriosdeclasificacin.
Entreellos,destacarelanlisisderegresinylaaplicacindeladistanciadeMahalanobis.A
continuacinseindicansusrasgosbsicos,ascomosurelacinconelanlisisdiscriminantede
Fisher.
ANLISISDEREGRESIN:Larelacinentreelanlisisdiscriminanteyelanlisisderegresines
muyestrecha.Siserealizaunaajustepormnimoscuadrados,tomandocomovariable
dependientelavariabledicotmicaquedefinelapertenenciaaunouotrogrupoycomo
variablesexplicativasalasvariablesclasificadoras,seobtienenunoscoeficientesquetienenuna
estrictaproporcionalidadconloscoeficientesdelafuncindiscriminantedeFisher,
Apartirdelcoeficientededeterminacin,quesecalculaenelanlisisderegresin,sepuede
pasarconfacilidadaladistanciadeMahalanobisentrelosdoscentroidesdelosdosgrupos.
DISTANCIADEMAHALANOBIS(1936):Esunageneralizacindeladistanciaeucldea,quetiene
encuentalamatrizdecovarianzasintragrupos.ElcuadradodeladistanciadeMahalanobis
(DM2ij ) entrelosgruposiyjenunespaciodepdimensiones,siendo (Vw ) lamatrizdecovarianzas
intragrupos,vienedefinidadeforma: DM2ij = (x i x j )' Vw1 (x i x j )
dondelosvectores x i y x j representandospuntosenelespaciopdimensional.Enla
terminologausualparadesignarestadistanciaseprescindedelaM(introducidaparaevitar
confusionesconlaspuntuacionesdiscriminantesalasquesehadesignadoporD).
Elcuadradodeladistanciaeucldea d2ij entrelospuntos (i, j) vienedadoporlaexpresin:
p

d2ij = (xi x j ) (x i x j ) = (Xih X jh ) 2


h=1

LadistanciaeucldeaeselcasoparticulardeladistanciadeMahalanobisenlaque (Vw = I) .Es


decir,ladistanciaeucldeanotieneencuentaladispersindelasvariablesylasrelaciones
existentesentreellas,mientrasqueenladistanciadeMahalanobissquesedescuentanestos
factoresalintroducirenlaexpresin DM2ij = (x i x j )' Vw1 (x i x j ) lainversadelamatrizde
covarianzasintragrupos.
ConelcriteriodeMahalanobis,aplicando DM2ij = (x i x j )' Vw1 (x i x j ) ,secalculaladistanciaentre
cadapuntoylosdoscentroides.
DMi2, I = (x i xI )' Vw1 (x i xI )

As,paraelpuntoisimoseobtienenestasdosdistancias:
DM2 = (x x )' V 1 (x x )
i , II
i
II
w
i
II

Laaplicacindeestecriterioconsisteenasignarcadaindividuoalgrupoparaelqueladistancia
deMahalanobisesmenor.
LadistanciadeMahalanobisclasificaalosindividuosexactamenteigualquelohacelafuncin
discriminantedeFisher.Ladiferenciaentreunoyotrotipodeprocedimientoesque,mientrasla
distanciadeMahalanobissecalculaenelespaciodelasvariablesoriginales,enelcriteriode
Fishersesintetizantodaslasvariablesenlafuncindiscriminante,queeslautilizadapara
realizarlaclasificacin.

SantiagodelaFuenteFernndez

33

AnlisisDiscriminante

Enelfichero(prestamoriesgo.sav)sehanguardadolascolumnas:Dis_1(Grupopronosticado
paraelanlisis1),Dis1_1(Puntuacindiscriminantedelafuncin1paraelanlisis1),Dis1_2
(Probabilidadesdepertenenciaalgrupo1paraelanlisis1)yDis2_2(Probabilidadesde
pertenenciaalgrupo2paraelanlisis1)

SantiagodelaFuenteFernndez

34

AnlisisDiscriminante

CONCESINPRSTAMOSRIESGO
Unbancorealizaunestudioconelobjetivodeidentificarconlamayorprecisinposibleaquellas
solicitudesdeprstamosqueprobablementepuedanllegaraconvertirseenmorososofallidosenel
casoqueseconcedieran.Paraello,disponedelainformacinreflejadaenlatablaadjunta,relativaa
25clientesyalasvariablesqueseanalizan:
) Cumplimiento:Gradodecumplimientodelclienteenelreintegrodelprstamo.Tomaelvalor1
sielclienteescumplidor,2siesmorosoy3siesfallido.
) Ingresos:Ingresosanualesdelcliente,enmilesdeeuros.
) PatrimonioNeto:Patrimonionetodelclienteenmilesdeeuros.
) Vivienda:Variabledicotmicaquetomaelvalor1sielclienteespropietario;0encasocontrario.
) Casado:Variabledicotmicaquetomaelvalor1siestcasado;0enotrocaso.
) ContratoTrabajo:Variabledicotmicaquetomaelvalor1sielclienteesasalariadoconcontrato
fijo;0enotrocaso.
Cliente Cumplimiento Ingresos
1
1
32,7
2
1
18,6
3
1
24,6
4
1
37,2
5
1
23,7
6
1
7,5
7
1
29,4
8
1
53,4
9
1
20,1
10
1
31,2
11
1
17,1
12
1
39
13
1
45,6
14
2
26,1
15
2
8,1
16
2
12,6
17
2
8,7
18
2
38,4
19
2
22,8
20
2
14,7
21
3
19,8
22
3
5,1
23
3
7,2
24
3
11,1
25
3
15,9

Patrimonioneto
336
204
138
270
114
132
90
228
324
480
108
132
216
234
48
114
150
24
114
60
42
72
30
36
150

Vivienda Casado Contratotrabajo


1
1
0
1
0
1
0
1
1
1
0
1
1
1
1
1
1
1
0
1
1
1
1
1
0
1
1
1
1
0
1
1
1
1
1
1
1
1
1
1
1
0
0
1
1
0
0
1
1
0
1
0
1
1
1
1
0
0
1
1
0
1
0
0
1
0
1
1
1
1
0
0
0
0
0

SetratadeunAnlisisdiscriminantemltiple,yaqueelbancohaclasificadoalosclientesentres
grandesgrupos,habrqueconstruirfuncionesdiscriminantesquepermitanclasificar,conlos
menoreserroresposibles,alosclientesenlosdiferentesgrupos.Siseobtienenbuenosresultados,
estasfuncionesdiscriminantessepodrnutilizarparaanalizarsiseconcedeunprstamoonoaun
futuroclientepeticionario.

SantiagodelaFuenteFernndez

35

AnlisisDiscriminante

SeseleccionaCumplimientocomovariablede
agrupacin(cuyorangoes1y3)ylasotrascinco
variablescomoindependientes.
Elmtododeinclusinporpasos.

SantiagodelaFuenteFernndez

36

AnlisisDiscriminante

ElVisorderesultadosdeSPSSmuestra:

Lasmediasdelascinco
variablesintroducidascomo
independientesenelanlisis
sonmayoresenlacategorade
cumplidoresqueenlasotras
categoras.
As,losclientescumplidores,en
relacinconlosotrosdos
grupos(morosos,fallidos),
tienenmayoresingresos,un
mayorpatrimonio,son
propietariosdelaviviendaque
habitanestncasadosyson
asalariadosconcontratofijo.

LasANOVAsindicanquenoseobservan
diferenciassignificativasentreloscumplidores,
morososyfallidos,encuantoalhechodeser
propietarioonodelavivienda(Vivienda)yel
estarcasadoono(Casado).
Enconsecuencia,lasvariables(Vivienda)y(Casado)nodeberantenerunagraninfluenciaalahora
declasificaralosclientesenunouotrogrupo.Obsrvesequeenamboscasos,p_valor>0,05,se
aceptalahiptesisnula,esdecir,losgruposenmediasoniguales.
EnlasiguientetablaseobservaelcontrastedelaPruebadeBoxparadeterminarsiesaceptableono
lahiptesisdehomocedasticidad.Primeroapareceellogaritmodeldeterminantedelasmatricesde
V
covarianzasdelosresiduosdecadacelda,calculadassegnlaexpresin Sg = g (lamatrizSges
ng 1
unaestimacindelamatrizdecovarianzascorrespondientealaceldagsimag),ylamatrizde

SantiagodelaFuenteFernndez

37

AnlisisDiscriminante
G

V (n
g =1

g =1

1) Sg

=
(donde S esunaestimacin
nG
nG
delamatrizdecovarianzasglobal),ascomoelrangodecadaunadeestasmatrices.
covarianzasglobal,calculadasegnlaexpresin S =

Lasmatricessondeorden5x5,yaqueexistencincovariablesclasificadoras.
Silasmatricessonnosingulares(tieneninversa)surangodebedeser5.Seobserva,enestecaso,
quelamatrizcorrespondientealgrupo3(clientefallido)nosecalculaporqueexistenmuypocos
casosparasernosingular,enefectosepuedeobservarqueelnmerodeindividuosquepertenecen
algrupo3(clientesfallidos)esjustamente5yconestetamaolamatrizdecovarianzasdelos
residuosesnecesariamentesingular.

Debidoaquelamatrizdelgrupo3(fallidos)essingular,SPSScontrastalaigualdaddelasmatricesde
covarianzaspoblacionalesenlosgrupos1y2,respectivamente,clientecumplidoresymorosos,
estimandolamatrizdecovarianzasglobalconlosdatosdeestosdosgrupos.Elniveldesignificacin
crticoqueseobtieneenestecontrastees0,048,conloqueseaceptalahiptesisnulaparaunnivel
designificacindel1%(0,048>0,01),peronoparaunniveldel5%(0,048<0,05,rechazndosela
hiptesisnula).

EnlatabladeLambdadeWilksseaplicaelcontrastedesignificacinparaelconjuntodelosdosejes
discriminantes.ElcontrasteVdeBarlettqueseaplicaes:
K + G

Vj = n 1
2

G1

ln(1 + )

g= j+1

donde j = 0, 1

K + G

[ln(1 + 1 ) + ln(1 + 2 )] = 25 1 2 + 3 [ln(1 + 2,264) + ln(1 + 0,043)] = 26,343


V0 = n 1

2
2

Losgradosdelibertaddelachicuadradoson K (G 1) = 2 (3 1) = 4 yelniveldesignificacincrticoes
0,000<0,05rechazando,portanto,lahiptesisnula,loquesignificaquealmenosunodelosejes
discriminantesessignificativo,esdecir,elprimerejediscriminanteessignificativo(eselquetiene
SantiagodelaFuenteFernndez

38

AnlisisDiscriminante

mayorpoderdiscriminante).Advirtasequesinoserechazalahiptesisnulanodeberacontinuarel
anlisis.
ObsrvesequesecumplelarelacinentrelalandadeWilksylasracescaractersticas(autovalores):
=

1
1
=
= 0,294
(1 + 1 ) (1 + 2 ) (1 + 2,264) (1 + 0,043)

Unavezdeterminadalasignificatividaddelprimerejediscriminante,secontrastalasignificatividad
delosrestantes,enestecaso,delsegundoejediscriminante.Elcontrasteaaplicareselsiguiente:
K + G

[ln(1 + 2 )] = 25 1 2 + 3 [ln(1 + 0,043)] = 0,909


V1 = n 1

2
2

Losgradosdelibertaddelachicuadradoson (K 1)(G 1 1) = (2 1)(3 1 1) = 1 (enelanlisisno


entran3variablesclasificadoras)yelniveldesignificacincrticoes0,340>0,05,aceptandola
hiptesisnula,loquesignificaqueelsegundoejediscriminantenoessignificativamentedistintode
0paracualquieradelosnivelesdesignificacinusuales.
LarelacinentrelalandadeWilks(obtenidadespusdeexcluirlaprimerafuncindiscriminante)y
lasegundarazcaracterstica(segundoautovalor)eslasiguiente:
1 =

1
1
=
= 0,959
(1 + 2 ) (1 + 0,043)

Comoinformacincomplementaria,secalculalacorrelacincannicadecadafuncindiscriminante
conlavariablecategricaquedefinelosgrupos,obtenindose:
1 =

1
2,264
1
0,043
=
= 0,833 2 =
=
= 0,203
1 + 1
1 + 2,264
1 + 1
1 + 0,043

Losresultadosobtenidosconfirmanquelacapacidadexplicativadelasegundafuncindiscriminante
esmuyinferioralaprimera.Unaconfirmacinfinaldeestaconclusinesqueelporcentajede
varianzaexplicadaconlaprimerafuncindiscriminanteesdel98,1%,mientrasquelavarianza
explicadaconlasegundafuncindiscriminanteesdel1,9%.Conloqueaefectosprcticossepodra
prescindirdelasegundafuncindiscriminante,sinqueafectasedeformaimportantealos
resultadosdelaclasificacin.

SantiagodelaFuenteFernndez

39

AnlisisDiscriminante

COEFICIENTESESTANDARIZADOS:Aparecenloscoeficientesdelafuncindiscriminantecannica
estandarizados(media0ydesviacintpica1),deestaformaseevitanlosproblemasdeescalaque
pudieranexistirentrelasvariablesy,enconsecuencia,lamagnituddeloscoeficientes
estandarizadossonunindicadordelaimportanciaquetieneestavariableenelclculodelafuncin
discriminante.
MATRIZDEESTRUCTURA:Convieneconocerculessonlasvariablesquetienenmayorpoder
discriminanteenordenaclasificaraunindividuoenunodelosgrupos(cumplidor,moroso,fallido).
Unaformademediresepoderdiscriminanteescalculandoelcoeficientedecorrelacinentrecada
unadelasvariablesylafuncindiscriminante.Conunasteriscoseindicaelcoeficientemsgrande
(envalorabsoluto)quetienecadavariable.
As,lavariableCasadotienensumayorcoeficienteconlafuncindiscriminante1,mientrasquelas
variablesContrato_TrabajoeIngresoslotienenconlafuncindiscriminante2.

Aparecenlaspuntuacionesdeloscentroidesdelosgrupos(Patrimonio_Neto,Contrato_Trabajo)con
respectoalasfuncionesdiscriminantes(convienedarsecuentaqueenestecasonohayunpuntode
cortediscriminante,pueselconjuntodedatosseencuentraseparadoentresgrupos).
Ahorafaltacalcularelvalordetresfuncionesdeclasificacin,yseclasificaracadaindividuoen
aqulgrupocuyafuncindiscriminanteresultetomarelmayorvalor.

Deestaforma,lasfuncionesdeclasificacinson:
FI = 0,063.Patrimonio _ Neto + 13,721. Contrato _ Trabajo 13,590

FII = 0,039 .Patrimonio _ Neto + 9,604 . Contrato _ Trabajo 6,607


F = 0,018 .Patrimonio _ Neto + 3,662. Contrato _ Trabajo 2,051
III

(cliente cumplidor)
(cliente moroso)
(cliente fallido)

Parasuaplicacin,secalculalapuntuacindecadaindividuoencadaunodelosgrupos,utilizando
lasfuncionesclasificadoras.Finalmente,unindividuoseclasificaenelgrupoenelquehaalcanzado
lapuntuacinmselevada.
Elmapaterritorialsirveparavercmoquedanlaclasificacinenfuncindelasdosfunciones
linealesdiscriminantes:

SantiagodelaFuenteFernndez

40

AnlisisDiscriminante

Elmapaterritorialdelimita,enelplanodelasdosfuncionesdiscriminantes(noestandarizadas),las
reasqueseasignanacadagrupo.Elreasituadaenlapartederechadelafuncindiscriminante1
eslacorrespondientealgrupo1,mientrasqueelreadelaizquierdacorrespondealgrupo3.Se
clasificanenelgrupo2losindividuosconpuntuacionesdiscriminantescannicassituadasenel
tringulodelapartecentral.
LasalidadeSPSSrecogeelclculodeprobabilidadesaposteriori,puntuacionesdiscriminantesy
resultadosdelaclasificacin.Enestecaso,noaparecelacolumnaetiquetadacon(valoresfaltantes)
dondesereflejacasosoindividuosparalosquenosedisponedeinformacincompleta.Aparecela
columnaGruporealdepertenenciayGrupopronosticado,quecuandoaparececonunasterisco
reflejaqueelindividuoaquecorrespondaseleclasificadeformaerrnea.
Lascolumnassiguientessonrelativasalclculodeprobabilidades.Lasprobabilidadesaposteriori
P(G/D)secalculanparacadagrupoconlafrmula:
F
g grupo
I e g
Prob (g / D) =
g = I, II
(extendidaatresvariables)
FI
FII
I e + II e
i probabilid ad a priori

SantiagodelaFuenteFernndez

41

AnlisisDiscriminante

ConestecriterioseclasificaaunindividuoenelgrupoIsi: FI ln I > FII ln II .


LaaplicacindeestecriterioimplicaqueelpuntodecortediscriminanteCpvienedefinidopor:
Puntodecorteconinformacinapriori: Cp =

DI + DII

ln II
2
I

EnlasalidadelSPSSseindicalaprobabilidadaposteriorimsaltaconindicacinalgrupoaque
correspondeylasegundaprobabilidadmsaltaconindicacindelgrupo.Juntoalaprobabilidad
msaltaaparecelaprobabilidaddelapuntuacindiscriminanteP(D/G),quenotieneinters
especialenelanlisis.
Lasdosltimascolumnasserefierenalaspuntuacionesdiscriminantes.Cadaunadeellas
correspondeaunafuncindiscriminante.EnSPSSestaspuntuacionessecalculanutilizandolos
coeficientesdelasfuncionesdiscriminantescannicasnoestandarizadas.

Estadsticosporcaso:Paracadacaso,semuestranlaspuntuacionesdiscriminantes,lasdistanciasde
Mahalanobisdedichaspuntuacionesalcentroidedecadagrupoylasprobabilidadesaposteriori
obtenidasapartirdeesasdistancias.

Seobservaquehayseiscasosmalclasificados,comprobndosecomolasprobabilidadesde
pertenenciasonmayoresparalapertenenciaalgrupomayor,ytambinquelaspuntuaciones
discriminantessonlasquesitanacadacasoenelmapaterritorial.
Losresultadosdelainvestigacinsonsatisfactorios,yaquecontieneunporcentajeelevadode
clientesclasificadossatisfactoriamente(76%),sibienpreocupaelcasodeunclientemoroso(cliente
17)quehasidocalificadocomocumplidor.Estetipodeerrordeclasificacintienemucha
importancia,elbancosepreocupasobretodoqueunclientemorosoofallidopuedaserconsiderado
comocumplidor,pueselcostedeunaclasificacinerrneadeestetipoeselevadoparalaentidad.

SantiagodelaFuenteFernndez

42

AnlisisDiscriminante

SantiagodelaFuenteFernndez

43

S-ar putea să vă placă și