Documente Academic
Documente Profesional
Documente Cultură
SantiagodelaFuenteFernndez
AnlisisDiscriminante
SantiagodelaFuenteFernndez
AnlisisDiscriminante
ANLISISDISCRIMINANTE
ElAnlisisDiscriminanteesunatcnicaestadsticamultivariantecuyafinalidadesanalizarsiexisten
diferenciassignificativasentregruposdeobjetosrespectoaunconjuntodevariablesmedidassobre
losmismospara,enelcasodequeexistan,explicarenqusentidosedanyfacilitarprocedimientos
declasificacinsistemticadenuevasobservacionesdeorigendesconocidoenunodelosgrupos
analizados.
Sepuedepredecirsiunaempresavaaentrarenbancarrota?
Esposiblepredecirconantelacinsiunclientequesolicitaunprstamoaunbancovaaserun
clientemoroso?
Existediscriminacinporrazonesdesexooderazaenunaempresaoenuncolegio?
ElAnlisisDiscriminantesepuedeconsiderarcomounanlisisderegresindondelavariable
dependienteescategricaytienecomocategoraslaetiquetadecadaunodelosgrupos,mientras
quelasvariablesindependientessoncontinuasydeterminanaqugrupospertenecenlosobjetos.
Sepretendeencontrarrelacioneslinealesentrelasvariablescontinuasquemejordiscriminenen
losgruposdadosalosobjetos.
Construirunaregladedecisinqueasigneunobjetonuevoconunciertogradoderiesgo,cuya
clasificacinpreviasedesconoce,aunodelosgruposprefijados.
Paraefectuarelanlisisesnecesarioconsiderarunaseriedesupuestos:
(a) Setieneunavariablecategricayelrestodevariablessondeintervalooderaznyson
independientesrespectodeella.
(b) Senecesitanalmenosdosgrupos,yparacadagruposenecesitandosomscasos.
(c) Elnmerodevariablesdiscriminantesdebesermenorqueelnmerodeobjetosmenos2,es
decir, (x 1 , x 2 ,L, x p ) donde p < (n 2) siendonnmerodeobjetos.
(d) Ningunavariablediscriminantepuedesercombinacinlinealdeotrasvariablesdiscriminantes.
(e) Elnmeromximodefuncionesdiscriminanteseselmnimo[nmerodevariables,nmerode
gruposmenos1]conqgrupos, (q 1) funcionesdiscriminantes.
(f) Lasmatricesdecovarianzasdentrodecadagrupodebendeseraproximadamenteiguales.
(g) Lasvariablescontinuasdebenseguirunadistribucinnormalmultivariante.
SantiagodelaFuenteFernndez
AnlisisDiscriminante
MODELOMATEMTICO
Partiendodeqgruposdondeseasignanaunaseriedeobjetosydepvariablesmedidassobre
ellos (x 1 , x 2 ,L, x p ) ,setratadeobtenerparacadaobjetounaseriedepuntuacionesqueindicanel
grupoalquepertenecen (y 1 , y 2 ,L, y m ) ,demodoqueseanfuncioneslinealesde (x 1 , x 2 ,L, x p ) :
LLLLLLLLLLLLL m = mn[ q 1, p ]
y = w x + w x + L + w x + w
m1 1
m2 2
mp p
10
m
talesquediscriminenoseparenlomximoposiblealosqgrupos.
Estascombinacioneslinealesdelaspvariablesdebenmaximizarlavarianzaentrelosgruposy
minimizarlavarianzadentrodelosgrupos.
DESCOMPOSICINDELAVARIANZA:Lavariabilidadtotaldelamuestrasepuededescomponeren
variabilidaddentrodelosgruposyentrelosgrupos.Paraello,separte:
Cov(x j , x j' ) =
1 n
(x ij x j ) (x ij' x j' )
n i=1
xk j =
1
nk
x
iIk
ij
para k = 1,L, q .
Deestaforma,lamediatotaldelavariable x j sepuedeexpresarcomofuncindelasmediasdentro
decadagrupo: nk x k j = x ij
iIk
conlocual, x j =
q
nk
1 n
1 q
1 q
x
=
x
=
n
x
=
xk j
ij
ij
k kj
n i=1
n k=1 iI
n k=1
k =1 n
k
1 q
(x ij x j ) (x ij' x j' )
n k=1 iI
k
(x ij x j ) = (x ij xk j ) + (xk j x j )
Poniendoencadaunodelostrminos:
seobtiene,
(x i j' x j' ) = (x i j' xk j' ) + (xk j' x j' )
Cov(x j , x j' ) =
q
nk
1 q
1 q
(
x
x
)
(
x
x
)
=
(
x
x
)
(
x
x
)
+
(x k j x j ) (x k j' x j' ) =
ij
j
ij
kj
i j'
k j'
ij'
j'
n k=1 iI
n k=1 iI
k =1 n
k
= v (x j , x j' ) + f (x j , x j' ) a
678
t (x j , x j' ) =
6
474
8
v (x j , x j' )
678
f (x j , x j' )
MATRICIALMENTE
6
474
8
T = V +F
Lacovarianzatotalesigualalacovarianzadentrodelosgruposmslacovarianzaentregrupos.
SantiagodelaFuenteFernndez
AnlisisDiscriminante
EXTRACCINFUNCIONESDISCRIMINANTES
(i = 1,L, m) sedenominandiscriminantescannicas.
j = 1,L, (i 1)
SesabequeLacovarianzatotalesigualalacovarianzadentrodelosgruposmslacovarianzaentre
MATRICIALM ENTE
6
474
8
grupos: T = F + V .
w' T w
w'F w
seobservaqueesunafuncinhomognea,esdecir,
Considerandolafuncin f(w) =
w' T w
w'F w
f(w) = f( w) R .Elhechodequeseahomogneaimplicaquecalcular mx
equivale
w' T w
acalcular mx [w'F w] talque w' T w = 1
ComoeselesquemahabitualdelosmultiplicadoresdeLagrange,sedefine:
L = w'F w (w' T w 1)
L
= 2F w 2 T w = 0 F w = T w (T 1F) w = w
w
Enconsecuencia,elautovectorasociadoalaprimerafuncindiscriminanteloesdelamatriz (T 1F) ,
queengeneralnoessimtrica.
SantiagodelaFuenteFernndez
AnlisisDiscriminante
Paraobtenermsfuncionesdiscriminantessesiguensacandolosautovectoresdelamatriz
w'2 w'2X = Y2
m = mn(q 1, p ) .Estosvectoressonlinealmenteindependientesydanlugarafunciones
incorreladasentres.
m
Lasumadetodoslosautovalores i eslaproporcindevarianzatotalquequedaexplicada,ose
i=1
conserva,alconsiderarslolosejesofuncionesdiscriminantes.
Comoconsecuencia,elporcentajeexplicadoporlavariable y i deltotaldevarianzaexplicadaporlas
funciones (y 1 , y 2 ,L, y m ) es:
100%
i=1
ANLISISDISCRIMINANTE:OBJETO
Clasificarlasobservacionesdelamuestraengrupos,apartirdelainformacin
suministradaporunconjuntodevariables.
Unconjuntodevariables
explicativasocriterio
Unavariablecategrica
sealandolosgrupos
Variablesclasificadoras
Variabledependiente
SantiagodelaFuenteFernndez
AnlisisDiscriminante
ANLISISDISCRIMINANTE(A.D.):CRITERIODECLASIFICACIN
Hiptesis:Lasdistribucionesslosediferencianporsulocalizacin(igualformayvarianza)
Setratademinimizarloserroresdeclasificacin
Sixi<CseclasificaenelgrupoI
Sixi>CseclasificaenelgrupoII
ElpuntoCsedenominapuntodecortediscriminante: C =
SantiagodelaFuenteFernndez
XI + XII
2
AnlisisDiscriminante
SantiagodelaFuenteFernndez
AnlisisDiscriminante
ENFOQUESDEANLISIS
Basadoenlaobtencindefuncionesdiscriminantesdeclculosimilaralasecuacionesde
regresinlinealmltiple.Consisteenconseguir,apartirdelasvariablesexplicativas,unas
funcioneslinealesdestasconcapacidadparaclasificaraotrosindividuos.Acadanuevocasose
aplicandichasecuacionesylafuncindemayorvalordefineelgrupoalquepertenece.
Basadoentcnicasdecorrelacincannicaydecomponentesprincipales(AnlisisFactorial)
denominadoAnlisisDiscriminanteCannico.
CLASIFICACINENDOSGRUPOS
SeestudialaaplicacindelAnlisisDiscriminante(AD)alaclasificacindeindividuosenelcaso
dequesepuedanasignarsolamenteadosgruposapartirdekvariablesdiscriminadoras.
Fisherresuelveelproblemamediantesufuncindiscriminante: D = w1 X1 + w2 X2 + L + wk Xk
Laspuntuacionesdiscriminantessonlosvaloresqueseobtienenaldarvaloresa
(X1 , X2 ,L , Xk ) enlaecuacinanterior.
Setratadeobtenerloscoeficientesdeponderacin w j
Expresandoelmodeloenfuncindelasdesviacionesalamedia,resulta:
D2 d2 X12 X22 L Xk2 w2
=
M esdecir,
M
M M
DN dN X1N X2N L XkN wk
d = X w (funcindiscriminanteendiferencias)
Lavariabilidaddelafuncindiscriminante(sumadecuadradosdelasdesviacionesdelas
variablesdiscriminantesconrespectoasumedia)seexpresa:
Sumadecuadradosexplicadaporestafuncin:
X' X esunamatrizsimtricaqueexpresalasdesviacionescuadrticasconrespectoalamediade
lasvariables(sumadecuadradostotal).
SantiagodelaFuenteFernndez
AnlisisDiscriminante
SepuededescomponerensumadecuadradosentregruposFysumadecuadradosdentrodelos
gruposV:
T = X' X (matrizdesumadecuadradosyproductos
cruzados(varianzascovarianzas)paraelconjuntode
observaciones.
conlocual,
T = X' X = F + V
Losejesdiscriminantesvienendadosporlosvectorespropiosasociadosalosvalorespropiosde
lamatriz (V 1 F) ordenadosdemayoramenor.
Laspuntuacionesdiscriminantessecorrespondenconlosvaloresobtenidosalproyectarcada
puntodelespaciokdimensionaldelasvariablesoriginalessobreelejediscriminante.
Loscoeficienteswseobtienen: Mx =
CLASIFICACIN
Seobtienenlaspuntuacionesdiscriminantesdiparacadaobservacin,introduciendolos
correspondientesvaloresdelaskvariablesenlafuncindiscriminante.
Seaplicaelcriteriodeclasificacin:
di<C(diC<0)pertenecealgrupoI
di>C(diC>0)pertenecealgrupoII
Otrocamino:funcionesdiscriminantesparacadagruposeclasificalaobservacinen
elgrupoenquelafuncincorrespondientearrojamayorvalor.
HIPTESIS
Lasvariablessonindependientesysedistribuyennormalmenteproblemasenla
estimacin.
Lasmatricesdelasvarianzasycovarianzassonigualesentodoslosgruposafectaala
clasificacin.
Nomulticolinealidadentrelasvariablesclasificadoras.
Lasrelacionessonlineales.
Noexistenvaloresanmalos(outliers).
SantiagodelaFuenteFernndez
AnlisisDiscriminante
CENTROIDESPARACADAGRUPO(GRUPOI,GRUPOII)
X1 I
X2 I
XI =
M
Xk I
X1II
X2 II
XII =
M
Xk II
LossubndicesIyIIindicanaqugrupopertenecelavariable.
DI = w1 X1 I + w2 X2 I + L + wk Xk I
PARACADAGRUPO
D = w X + w X +L+ w X
1 1 II
2 2 II
k k II
II
Si Di < C se clasifica al individuo i en el grupo I
CRITERIOPARACLASIFICAR
AUNINDIVIDUO
Si D > C se clasifica al individuo i en el grupo II
i
C:puntodecortediscriminante C =
DI + DII
2
ENGENERAL:
{DC = w
X1 + w2 X2 + L + wk XK C }seclasificadependiendosi (D C) espositivoonegativo.
INFERENCIASYCLCULODEPROBABILIDADES
LaobtencindelafuncindiscriminantelarealizFisheraplicandounenfoquepuramente
descriptivo.Cuandoenelanlisisdiscriminantesedeseanabordarcuestionesdecarcterinferencial
yotrosrelativosalmodelopoblacionalserequierelaformulacinpreviadehiptesisestadsticas.
Lascuestionesdetipoinferencialserefierenadiversoscontrastesdesignificacinsobreelmodelo,
ascomocontrastesutilizadosenelprocesodeseleccindevariablescuandoelnmerodestases
muygrandeynoseconoceapriorilasvariablesquesonrelevantesenelanlisis.
Porotraparte,elclculodeprobabilidaddepertenenciaaungruporequierequepreviamentese
hayapostuladoalgnmodeloprobabilsticodelapoblacin.
Lashiptesisestadsticasqueseadoptan,anlogasalaspostuladasenelanlisismultivariantedela
varianza,serefierentantoalapoblacincomoalprocesodeobtencindelamuestra.
) Lashiptesisestadsticassobrelapoblacin:
(a) Lamatrizdecovarianzasdetodoslosgruposesiguala(hiptesisdehomocedasticidad).
(b) Cadaunodelosgrupostieneunadistribucinnormalmultivariante.
Lashiptesisimplicanque x g N(g , )
SantiagodelaFuenteFernndez
AnlisisDiscriminante
) Lashiptesissobreelprocesodeobtencindelamuestra:Facilitanlarealizacindelprocesode
inferenciaapartirdelainformacindisponible:<<Sesuponequesehaextradounamuestra
aleatoriamultivarianteindependienteencadaunodelosGgrupos>>.
Bajolashiptesiscitadas,lafuncindiscriminanteobtenidaporFisheresptima.Lahiptesis
x g N(g , ) exigequelasvariablesclasificadorassiganunadistribucinnormal.Sinembargo,no
serarazonablepostularesthiptesisrespectoavariablescategricas,utilizadasfrecuentementeen
elanlisisdiscriminantecomovariablesclasificadoras.Sealarque,cuandoseutilizanvariablesde
estetipo,lafuncindiscriminantelinealdeFishernotieneelcarcterdeptima.
Contrastesdesignificacinyevaluacindelabondaddeajuste
Conloscontrastesdesignificacinqueserealizanenelanlisisdiscriminantecondosgrupossetrata
dedarrespuestaatrestiposdecuestionesdiferentes:
(a) Secumplelahiptesisdehomocedasticidaddelmodelo?
(b) Secumplenlashiptesisdenormalidad?
(c) Difierensignificativamentelasmediaspoblacionalesdelosdosgrupos?
Paraelcontrastedehomocedasticidad(silamatrizdecovarianzaseslamismaparalosdistintos
grupos)seutilizaelestadsticodeBarlettBox:
K
M=
S
g =1
(ng 1) / 2
Enelnumeradoraparecenlosdeterminantesdelasestimaciones
delamatrizdecovarianzasparacadagrupo.
Eneldenominador,eldeterminantedelaestimacinglobaldela
matrizdecovarianzas.
(n K) / 2
Cuandoelnumeradorseamuysuperioraldenominador,serindicativodequeexiste
heteroscedasticidad(noexistehomogeneidadentrelasmatricesdecovarianzasdecadagrupo).
G
donde: Sg =
Vg
ng 1
S =
Vg
g =1
nG
(n
g =1
1) Sg
nG
Kvariables
LamatrizSgesunaestimacindelamatrizdecovarianzascorrespondientealaceldagsimag,
S esunaestimacindelamatrizdecovarianzasglobal.
) LarespuestaalapreguntaDifierensignificativamentelasmediaspoblacionalesdelosdos
grupos?esdecisivaparalarealizacindelanlisisdiscriminante.Encasodequelarespuesta
fueranegativacareceradeinterscontinuarconelanlisis,yaquesignificaraquelasvariables
introducidasnotienencapacidaddiscriminantesignificativa.
H0 : 1 = 2
Lashiptesisnulayalternativaparadarrespuestaalacuestin,enelcasodedosgrupos
H1: 1 2
ElcontrastedelahiptesissepuederealizarespecficamentemedianteelestadsticoT2deHotelling:
nn
V +V
T2 = (y1 y2 )' S 1 (y1 y2 ) 1 2 donde S = 1 2
n1 + n2 2
n1 + n2
SantiagodelaFuenteFernndez
10
AnlisisDiscriminante
Lamatriz S esunestimadorinsesgadodelamatrizdecovarianzaspoblacional,obtenidobajoel
supuestodequelamatrizdecovarianzaspoblacionaleslamismaenlosdosgrupos.
Bajolahiptesisnula,elestadsticoT2deHotellingsedistribuye:
T2
n +n K 1
FK , n1 +n2 K1
1 2
K
n1 + n2 2
Existenotrosestadsticospararealizarelcontraste,diseadosparaelcasogeneraldeGgrupos,tales
comoelestadsticodeRaooelestadsticoVdeBarlett(estosdosltimosestadsticosestn
construidosapartirdeladeWilks).
Enelcasodequeserechacelahiptesisnula H0 : 1 = 2 ,sepuedeaplicarelanlisisunivariantede
lavarianzaparacontrastarlahiptesisdeigualdaddemediasparacadaunadelasvariables
clasificadorasporseparado.
Comomedidadeevaluacindelabondaddeajusteseutilizaelcoeficienteetacuadrado (2 ) ,que
eselcoeficientededeterminacinobtenidoalrealizarlaregresinentrelavariabledicotmica,que
indicalapertenenciaalgrupo,ylaspuntuacionesdiscriminantes.Alarazcuadradodeeste
coeficienteseledenominacorrelacincannica.
=
(correlacincannica)
1+
ratioqueseobtienealmaximizar Mx =
w1' F w1
separacin entre grupos
=
'
w1 V w1 separacin dentro grupos
Clculodeprobabilidadesdepertenenciaaunapoblacin
D = w 1 X 1 + w 2 X 2 + L + wk X k
Lasfuncionesdiscriminantesdeltipo
clasificanalosdiferentes
D C = w1 X 1 + w 2 X 2 + L + wk X k C
individuosenunouotrogrupo,peronoofrecenmsinformacinacercadelosindividuos
investigados.
Enmuchasocasionesesconvenientetenerinformacincomplementariaalaspuntuaciones
discriminantes.Sibienconestaspuntuacionessepuedeclasificaracadaindividuo,tambines
interesantedisponerdeinformacinsobrelaprobabilidaddesupertenenciaacadagrupo,puescon
estedatosepuederealizaranlisismsmatizados,eincluirotrasinformacionestalescomola
informacinapriorioloscostesqueimplicaunainformacinerrnea.
Pararealizarestetipodeclculossesuelenasumirlashiptesisestadsticassobrelapoblacin:
(c) Lamatrizdecovarianzasdetodoslosgruposesiguala(hiptesisdehomocedasticidad).
(d) Cadaunodelosgrupostieneunadistribucinnormalmultivariante.
Lashiptesisimplicanque x g N(g , ) ,considerandoademsqueseconocenlosparmetros
poblacionales.
SantiagodelaFuenteFernndez
11
AnlisisDiscriminante
Elclculodeprobabilidadesserealizaenelcontextodelateoradeladecisin,quepermiteteneren
cuentalaprobabilidaddepertenenciaaungrupo,comoloscostesdeunaclasificacinerrnea.
LaclasificacindelosindividuosserealizautilizandoelteoremadeBayes.Laaplicacindelteorema
deBayespermiteelclculodelasprobabilidadesaposterioriapartirdeestasprobabilidadesapriori
ydelainformacinmuestralcontenidaenlaspuntuacionesdiscriminantes.
EnelcasogeneraldeGgrupos,elteoremadeBayesestablecequelaprobabilidadaposterioride
pertenenciaaungrupogconunapuntuacindiscriminanteD,conprobabilidadesapriori g es:
Prob (g / D) =
g Prob (D / g)
G
Prob (D / i)
i=1
Prob (g / D) g Prob (D / g)
proporcionalidad
Laclasificacindecadaindividuosepuederealizarmediantelacomparacindelasprobabilidadesa
posteriori.As,seasignarunindividuoalgrupoparaelcualseamayorsuprobabilidadaposteriori.
Sepresentaelclculodeprobabilidadesenelcasodedosgrupos,deformaqueseafcilmente
generalizablealcasodeGgrupos.
Elclculodeprobabilidadesserealizabajotressupuestosdiferentes:(a)Clculodeprobabilidades
sininformacinapriori.(b)Clculodeprobabilidadesconinformacinapriori.(c)Clculode
probabilidadesconinformacinaprioriconsiderandoloscostes.
) Clculodeprobabilidadesaposteriorisininformacinapriori
Enelclculodeestasprobabilidadesseconsideraquenoexisteconocimientopreviodelas
probabilidadesdepertenenciaacadagrupo.Cuandonoexistedichainformacin,seadoptael
supuestodequelaprobabilidaddepertenenciaaambosgruposeslamisma,esdecir,seadoptael
supuestodeque I = II .Estoimplicaqueestasprobabilidadesapriorinoafectanalosclculosde
lasprobabilidadesaposteriori.
Bajolashiptesisestadsticassobrelapoblacin,laprobabilidaddepertenenciaacadagrupo,dada
lapuntuacindiscriminanteobtenida,vienedadaporlaexpresin:
F
Prob (g / D) =
eg
eFI + eFII
g = I,II
FI y FII sonlasfuncionesdefinidas.
Unindividuoseclasificaenelgrupoparaelquelaprobabilidadseamayor.Estecriterioimplicaque
unindividuoseclasificarenelgrupoIsi FI > FII
Aplicandolafrmuladeprobabilidadaposteriorisellegaalosmismosresultadosqueaplicandola
D +D
frmuladiscriminantedeFisher.EstoimplicaqueelpuntodecorteCeselmismo: C = I II .
2
SantiagodelaFuenteFernndez
12
AnlisisDiscriminante
) Clculodeprobabilidadesaposterioriconinformacinapriori
Enocasionessedisponedeinformacindelaprobabilidadapriorisobrepertenenciadeunindividuo
acadaunodelosgrupos.Porejemplo,sepuedetenerinformacindequelosprstamosfallidos
suponenun10%deltotaldelosprstamosconcedidosalolargodecincoaos.Paratenerencuenta
estetipodeinformacinseintroducenprobabilidadesapriorienelanlisis.
Cuandoseutilizanprobabilidadesapriorilosindividuosseclasificanenelgrupoparaelquela
probabilidadaposterioriseamayor.
F
Prob (g / D) =
I e g
I eFI + II eFII
g = I,II
FI y FII sonlasfuncionesdefinidas.
DI + DII
ln II
2
I
Laratiodeprobabilidadesaprioridebeestablecersedeformaqueelpuntodecortesedesplace
haciaelgrupoconmenorprobabilidadapriori.Aldesplazarseelpuntodecortedeestaforma,se
tenderaclasificarunaproporcinmenordeindividuosenelgrupoconmenorprobabilidadapriori.
) Clculodeprobabilidadesaposterioriconinformacinaprioriyconsiderandocostes
Hastaahoranosehaconsideradoelcostequeunaclasificacinerrneapuedetener.Enmuchas
ocasioneselcostedeclasificacinerrneapuedediferirparacadaunodelosgrupos.Porejemplo,
enlaconcesindeprstamos,clasificarcomofallidoaunclientecumplidoryclasificarcomo
cumplidoraunfallido,noeslomismoparalaentidadbancaria.Enlaprimeradelasposibilidades,el
costeparaelbancoesdejardepercibirlosinteresesdelprstamoylaposibleprdidadeuncliente
queenrealidadescumplidor.Porelcontrario,enlasegundaposibilidadelcosteparaelbancoesla
prdidadelacantidadprestada,yaqueelclienteclasificadocomocumplidoresrealmentefallido.En
principio,ybajoelcriteriodeunaprudenteadministracinfinanciera,parecequeelsegundotipode
costeessuperioralprimero.
Cuandoseintroducencostesdeclasificacinnopuedehablarseyadeclculodeprobabilidadesa
posteriori.Noobstantesepuedeobteneruncriterioparaclasificarminimizandoelcostetotalde
clasificacinerrnea.Estetotalvienedadoporlaexpresin:
I Prob (II / I) Coste (II / I) + II Prob (I / II) Coste (I / II)
Cadaprobabilidadseencuentramultiplicadaporelcosteenqueseincurre.Alminimizarla
expresin,bajolashiptesisestadsticassobrelapoblacin,elpuntodecortediscriminante Cp , c se
obtieneconlaexpresin:
Cp , c =
Coste(I / II)
DI + DII
ln II
I Coste(II / I)
2
SantiagodelaFuenteFernndez
13
AnlisisDiscriminante
Enlosdesarrollosanterioressehasupuestoquelasprobabilidadessonconocidas.Enlaprctica,se
utilizanestadsticosmuestralesensulugar.Elempleodeestadsticosmuestralestienecomo
consecuenciaquesesubestimelaprobabilidaddeclasificacinerrnea,cometindoseporlotanto
sesgossistemticosenlaclasificacin.Paradisminuirestossesgossehanpropuesto,entreotros,dos
procedimientosalternativos.
Unprocedimientoconsisteendividirlamuestratotalendossubmuestras,utilizandolaprimera
muestraparaestimarlafuncindiscriminante,mientrasquelasegundaseutilizaparasu
validacin.As,lapotenciadiscriminantedelafuncinvendrdeterminadaporelporcentajede
individuosclasificadosenestasegundamuestra.
ElsegundoprocedimientoconsisteenexcluirunindividuodelgrupoI,calcularlafuncin
discriminante,yclasificardespusalindividuoquesehaexcluido.Haciendolomismoconel
restodeindividuosdelgrupoI,seestimalaProb(II/I)conelporcentajedeindividuosquehan
sidoclasificadosenelgrupoII.ProcediendoanlogamenteconlosindividuosdelgrupoII,se
estimalaProb(I/II).Aestesegundoprocedimientoseleconoceconladenominacinjacknife.
SeadjuntaunatablaresumendelEjercicio1,dondeseacompaalaspuntuaciones
discriminantesparalos16clientes.
Cliente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Grupo
pertenencia
I
I
I
I
I
I
I
I
II
II
II
II
II
II
II
II
Patrimonio
Neto
1,3
3,7
5
5,9
7,1
4
7,9
5,1
5,2
9,8
9
12
6,3
8,7
11,1
9,9
Deuda
Pendiente
4,1
6,9
3
6,5
5,4
2,7
7,6
3,8
1
4,2
4,8
2
5,2
1,1
4,1
1,6
Puntuacin
discriminante
5,9957
6,1213
1,141
3,4715
1,2043
1,8964
2,4267
1,7831
0,93
2,7086
1,3214
7,036
1,8459
4,4593
4,1473
5,2353
Grupo
clasificado
I
I
I
I
I
I
I
I
II
II
II
II
I
II
II
II
Enlatablasiguiente(resultadosdelaclasificacin)sereflejaelresumendelaclasificacindelatabla
dearriba.Avecesseutilizaenelanlisisdiscriminantelaexpresindematrizdeconfusinpara
referirsealatablasiguiente:
SantiagodelaFuenteFernndez
14
AnlisisDiscriminante
Enlatablaquesiguesehancalculadolasprobabilidadesaposteriori(sinincorporarinformacina
prioriniconsiderargastos)depertenenciaacadagrupoutilizandolafrmula:
F
eg
Prob (g / D) = FI FII
e +e
g = I,II
Comopuedeobservarse,lasprobabilidadesdepertenenciaalpropiogruposonelevadas,exceptoen
elclientecumplidor13queseclasificaerrneamenteenelgrupodefallidosyqueporaadidura
tieneunaprobabilidadmuybaja(0,1367)depertenenciaalgrupodeloscumplidores.
Cliente
1
2
3
4
5
6
7
8
Fallidos
Prob(I/D)
0,9975
0,9978
0,7575
0,9698
0,7687
0,8693
0,9185
0,8558
Prob(II/D)
0,0025
0,0022
0,2425
0,0302
0,2313
0,1307
0,0815
0,1442
Cliente
9
10
11
12
13
14
15
16
NoFallidos
Prob(I/D)
0,2826
0,0622
0,2100
0,0009
0,1367
0,0114
0,0155
0,0053
Prob(II/D)
0,7174
0,9378
0,7900
0,9991
0,8633
0,9886
0,9845
0,9947
Comosegundaaplicacin,serealizalaclasificacinincorporandoinformacinapriori.
Paraclasificaralosclientessevaautilizarelpuntodecorte Cp =
DI + DII
ln II
2
I
0,9
0,518 + 6,522
ln
= 3,520 2,1972 = 1,323
0,1
2
conloquelafuncindiscriminantedeFisherser:
D C = 1,035.Patrimonio _ Neto 0,932.Deuda _ Pendiente 1,323
resultando:
Cliente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Grupo
pertenencia
I
I
I
I
I
I
I
I
II
II
II
II
II
II
II
II
SantiagodelaFuenteFernndez
Patrimonio
Neto
1,3
3,7
5
5,9
7,1
4
7,9
5,1
5,2
9,8
9
12
6,3
8,7
11,1
9,9
Deuda
Pendiente
4,1
6,9
3
6,5
5,4
2,7
7,6
3,8
1
4,2
4,8
2
5,2
1,1
4,1
1,6
Puntuacin
discriminante
3,7987
3,9243
1,056
1,2745
0,9927
0,3006
0,2297
0,4139
3,127
4,9056
3,5184
9,233
0,3511
6,6563
6,3443
7,4323
Grupo
clasificado
I
I
I
I
I
I
I
I
II
II
II
II
I
II
II
II
15
AnlisisDiscriminante
Losclientes3,5,6y8,queantesestabanclasificadoscomofallidos,seclasificanahoracomo
cumplidores,yaquesupuntuacindiscriminantehapasadodenegativaapositiva.Lomismoocurre
conelcliente13queanteriormenteestabaclasificadoerrneamentecomofallidocuandoera
cumplidor.
Ahorasecalculaelpuntodecorteteniendoencuentalainformacinapriorieincorporando
tambinloscostesdelaclasificacinerrnea.Comorespectoalcoste,seadoptaelcriteriode
clasificarcomocumplidoraunclientefallidoes20vecessuperioralcostedeclasificarcomofallidoa
Coste (II / I)
unclientecumplidor.Esdecir,seestableceque,laratio:
= 20
Coste (I / II)
Elpuntodecortediscriminanteser:
Cp , c =
Laincorporacindeloscosteshadeterminadoqueelnuevopuntodecortediscriminante Cp , c est
situadoaladerechadelpuntoC,adiferenciadeloqueocurracuandosolamentesetenanen
cuentalasprobabilidadesapriori.
conloquelafuncindiscriminantedeFisherser:
D C = 1,035.Patrimonio _ Neto 0,932.Deuda _ Pendiente 4 ,319
resultando:
Cliente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Grupo
pertenencia
I
I
I
I
I
I
I
I
II
II
II
II
II
II
II
II
Patrimonio
Neto
1,3
3,7
5
5,9
7,1
4
7,9
5,1
5,2
9,8
9
12
6,3
8,7
11,1
9,9
Deuda
Pendiente
4,1
6,9
3
6,5
5,4
2,7
7,6
3,8
1
4,2
4,8
2
5,2
1,1
4,1
1,6
Puntuacin
discriminante
6,7947
6,9203
1,94
4,2705
2,0033
2,6954
3,2257
2,5821
0,131
1,9096
0,5224
6,237
2,6449
3,6603
3,3483
4,4363
Grupo
clasificado
I
I
I
I
I
I
I
I
II
II
II
II
I
II
II
II
Secompruebaquenoalteralaclasificacindeningnclienterespectoalautilizacindelpuntode
corteinicialC.Esdecir,laincorporacindeloscostesdeclasificacinerrneahacompensado,mso
menos,lamenorprobabilidadapriorideserunclientefallido.
SantiagodelaFuenteFernndez
16
AnlisisDiscriminante
CLASIFICACINENMSDEDOSGRUPOS:ANLISISDISCRIMINANTEMLTIPLE
Cadaunadelasfuncionesdiscriminantes Di seobtienecomofuncinlinealdelaskvariables
explicativas: Di = wi1 X1 + wi2 X2 + L + wik Xk i = 1,L , G 1
wG1, 1
w11
w21
wG1, 2
w12
w22
w1 =
, w2 =
, LL , wG1 =
M
M
M
w
w
wG1, k
1k
2k
Paralaobtencindelprimerejediscriminantesemaximizalaratiovariabilidadentregruposentre
variabilidaddentrogrupos,esdecir:
Mx 1 =
w1' F w1
separacin entre grupos
=
(criterioobtencindelprimerejediscriminante)
'
w1 V w1 separacin dentro grupos
Derivandolaratioeigualandoacero:
1
= 0 ,conlocual:
w1
1 2F w1 (w1' V w1 ) 2 V w1 (w1' F w1 )
=
=0
w1
(w1' V w1 ) 2
2F w1 (w1' V w1 ) 2 V w1 (w'1 F w1 ) = 0
2 F w1
(w'1 F w1 )
operandoconlaexpresin,resulta:
=1
= 1
2 V w1 (w1' V w1 )
siendo,portanto,
F w1 = V w1 1
1 w1 = V 1 F w1
Laobtencindelvector w1 resultaunproblemadeclculodeunvectorcaractersticoasociadoala
matriznosimtrica (V 1 F) .Delasracescaractersticasqueseobtienenalresolverlaecuacin
[ w
w1' F w1
Como 1 eslaratio '
medirelpoderdiscriminantedelprimerejediscriminante.Elresto
w1 V w1
delosejesdiscriminantessonotrosvectorescaractersticosdelamatriz (V 1 F) ,ordenadossegnel
ordendecrecientedelasracescaractersticas.As,elsegundoejediscriminantetendrmenorpoder
discriminantequeelprimero,peromsquecualquieradelosrestantes.
Puestoquelamatriz (V 1 F) noessimtrica,engeneral,estoimplicarquelosejesdiscriminantesno
sernortogonales,esdecir,nosernperpendicularesentres.
SantiagodelaFuenteFernndez
17
AnlisisDiscriminante
Contrastesdesignificacin
Enelanlisisdiscriminantemltipleseplanteancontrastesespecficosparadeterminarsicadauno
delosvalores i esestadsticamentesignificativo,esdecir,paradeterminarsicadaunodelos
valores i contribuyeonoaladiscriminacinentrelosdiferentesgrupos.
EstetipodecontrastesserealizaapartirdelestadsticoVdeBarlett.ElestadsticoVesunafuncin
deladeWilksyseaproximaaunachicuadrado,tieneintersenelanlisisdiscriminanteporsu
descomponibilidad.
K + G
(ln )
EstadsticoVdeBarlett: V = n 1
2
Esteestadsticoseutilizaenelanlisis
multivarianteparacontrastarlashiptesis
G grupos
V K2 (G1)
H0 : 1 = 2 = L = G
) Enelanlisismultivariantedelavarianzaconunfactorsecontrastaestahiptesispara
determinarsielfactor(variablecategricaconGgrupos)explicalavariabilidaddelvectorde
variablesdependientesdeformasignificativa.
) Enelanlisisdiscriminantemltiplelahiptesisacontrastarsiguesiendolamisma,aunquelos
papelessehaninvertido.Ahoraserealizaelcontrasteparatratardedarrespuestaalapregunta:
LasKvariablesclasificadorascontribuyensignificativamenteadiscriminarentrelosGgrupos?
Sinoserechazalahiptesisnulacitada,nosedeberacontinuarelanlisis,puestoquelasvariables
clasificadorasutilizadasenlainvestigacinnotienenningnpoderdiscriminantesignificativo.
Paraexaminarelpoderdiscriminantedecadaunodelosejesqueseconstruyenenelanlisis
discriminante,sedescomponeelestadsticoVenproductosapartirdeladescomposicindela
deWilks.Deacuerdoconsudefinicin,elrecprocodesepuededescomponer:
1 T
= = V
V
T = V 1 T = V 1 T = V 1 (F + V) = I + V 1 F
teniendoencuentaqueeldeterminantedeunamatrizesigualalproductodesusraces
caractersticas,seobtieneque:
1
= I + V 1 F = (1 + 1 ) (1 + 2 ) L (1 + G1 )
sustituyendoenelestadsticoVdeBarlett,seobtienelaexpresinalternativadelestadstico:
K + G
EstadsticoVdeBarlett: V = n 1
2
G1
ln(1 + )
g=1
Siserechazalahiptesisnula,significaquealmenorunodelosejesdiscriminanteses
estadsticamentesignificativo.Estoimplicaasuvezqueelprimerejediscriminantees
estadsticamentesignificativo,debidoaqueesprecisamenteelquetienemayorpoder
discriminante.
Encasodequeseaceptelahiptesisdequeelprimerejediscriminanteessignificativo,sepasaa
contrastarlasignificacinconjuntadelrestodelosejesdiscriminantes,utilizandoelestadstico:
SantiagodelaFuenteFernndez
18
AnlisisDiscriminante
K + G
V = n 1
2
G1
ln(1 + )
g
g =2
Deformageneral,sepuedeestablecerlaexpresindecontrastacinsecuencialmedianteel
estadstico:
K + G
EstadsticoVdeBarlett: Vj = n 1
2
G1
ln(1 + )
g = j+1
donde
j = 0, 1, 2,L , G 2
As,enelprocesosecuencialsevaneliminandodelestadsticoVlasracescaractersticasquevan
resultandosignificativas,deteniendoelprocesocuandoseaceptelahiptesisnuladeno
significatividaddelosejesdiscriminantesquequedenporcontrastar.
SantiagodelaFuenteFernndez
19
AnlisisDiscriminante
PRSTAMOSRIESGO
Cuandounaentidadfinancieraconcedeunprstamopersonalaunclienteseenfrentaaladoble
posibilidaddequeseareintegradoodequenolosea.Enesteltimocasoelprstamoser
finalmenteclasificadocomofallido.Obviamente,silaentidadfinancieraconocieradeantemanoque
unapersonavaaresultarfallidanoleconcederaelprstamoenningncaso.Enestalnea,puede
utilizarlainformacinexistenteenlaentidadsobreprstamosconcedidosenelpasadoparala
concesindeprstamosfuturosdeformaqueseevite,oalmenos,sereduzcalaposibilidadde
concederprstamosquedespusfueranfallidos.
Enlosarchivosdelaentidadfinancieraexisteinformacindelascaractersticasdelaspersonasalas
queseleshaconcedidounprstamo,yaqueelclienteenelmomentodesolicitarelprstamoha
facilitadodatosacercadecuestionestalescomoingresos,edad,sexo,situacinfamiliar,antigedad
enelpuestodetrabajo,rgimendetenenciadelavivienda,etc.Esmuyposiblequelosclientes
cumplidorestenganunascaractersticasdistintasalosclientesfallidos.
Utilizandoestascaractersticassetratadeestablecerunasfuncionesqueclasifiquenloms
correctamenteposiblealosclientesalosqueseleshaconcedidounprstamoencumplidoresy
fallidos(finalidadexplicativa).Posteriormente,estasfuncionesseemplearn,enelcasodequese
hayarealizadoadecuadamentedichaclasificacin,paradeterminarsiseconcedenonolos
prstamosfuturosafuturossolicitantes(finalidadpredictiva).
ANLISISDISCRIMINANTECONSPSS
Latablaadjuntacontieneinformacinde16clientesdeunaentidadfinancieraalosqueseles
concediunprstamo.Pasados3aosdesdelaconcesindelprstamo,delos16clientes,haba8
quefueronclasificadoscomofallidos(grupo1)mientrasquelosotros8clientesfueroncumplidores
(grupo2),yaquereintegraronelprstamo.
Paracadaunodelos16clientessedisponedeinformacinsobreX1='supatrimonioneto'y
X2='susdeudaspendientes',enelmomentodelasolicitud.Conestainformacinsepretende
construirunafuncindiscriminantequesepare/diferencielomsposiblealosdosgruposyque
permitaclasificar,conlosmenoreserroresposibles,alosdistintosclientesenlosdosgrupos.
Cliente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
SantiagodelaFuenteFernndez
Prstamo
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
PatrimonioNeto
1,3
3,7
5,0
5,9
7,1
4,0
7,9
5,1
5,2
9,8
9,0
12,0
6,3
8,7
11,1
9,9
DeudaPendiente
4,1
6,9
3,0
6,5
5,4
2,7
7,6
3,8
1,0
4,2
4,8
2,0
5,2
1,1
4,1
1,6
20
AnlisisDiscriminante
Eldirectordelaentidadfinancieratienedosnuevassolicitudesdeunprstamoinstantneo.El
primersolicitantedisponedeunpatrimonionetode10,1,conunasdeudaspendientesde6,8.Para
elsegundosolicitantelosvaloresdeestasvariablesson9,7y2,2respectivamente.Qudecisin
debetomar?
(Nota.Lasunidadesmonetariasseexpresanen100.000euros)
ParahacerunAnlisisDiscriminante,seseleccionasucesivamentedelmenprincipal:
AnalizarClasificarDiscriminante
Enprimerlugar,hayqueelegirculeslaVariabledeAgrupacin,esdecir,quvariablejuegael
papeldevariablecategricadependientecuyascategorasdefinenlosposiblesgruposde
pertenenciadelosindividuos.Enestecaso,lavariableesPrstamo.Adems,enelbotnconel
nombreDefinirRango,esnecesarioespecificarculessonlosvaloresMnimoyMximodeesta
variable.Seintroducenlosvalorescorrespondientes:Mnimo:1yMximo:2.
Lasotrasdosvariables,X1='Patrimonio_Neto'yX2='Deuda_Pendiente',seeligencomovariables
independientes,cuyosvaloresseutilizanparaconstruirlafuncindiscriminante.Estasvariables
puedenintroducirseenelmodelosimultneamenteoporetapas
SPSSofreceenlosdistintosbotonesactivadosdelcuadrodedilogo:'Seleccionar','Estadsticos',
'Clasificar','Guardar'.Elbotn'Mtodo'sloseactivasipreviamentesehaelegidoIntroducirlas
variablesconunMtodoporpasos.
Seleccionar:Permitereducirelanlisisaunsubgrupodelamuestratotal,subgrupoquevendr
definidoporunavariabledeseleccin.Estenoeselcaso,noseeligeestaopcin.
ESTADSTICOSUTILIZADOS:
FdeSnedecor:Secomparaparacadavariablelasdesviacionesdelasmediasdecadaunodelos
gruposalamediatotal,entrelasdesviacionesalamediadentrodecadagrupo.
SiFesgrandeparacadavariable,entonceslasmediasdecadagrupoestnmuyseparadasy
lavariablediscriminabien.
SiFespequeaparacadavariable,lavariablediscriminapoco,yaquehabrpoca
homogeneidadenlosgruposystosestarnmuyprximos.
SantiagodelaFuenteFernndez
21
AnlisisDiscriminante
deWilks:Seconsideranlasvariablesdemodoindividual,laeselcocienteentrelasumade
cuadradosdentrodelosgruposylasumadecuadradostotal(sindistinguirgrupos).Esto
equivalealasdesviacionesalamediadentrodecadagrupo,entrelasdesviacionesalamedia
totalsindistinguirgrupos.
Siespequeolavariablediscriminamucho:lavariabilidadtotalsedebealasdiferencias
entregrupos,noalasdiferenciasdentrodegrupos.
VARIABLESORIGINALESQUESECONSIDERAN:Laideadelanlisisdiscriminanteesconstruir
funcioneslinealesdelasvariablesoriginalesquediscriminenentrelosdistintosgrupos.Sinembargo,
notodaslasvariablesdiscriminandelamismaformaotienenlosmismosvaloresdelaFde
SnedecorodeladeWilks.Porello,alahoradeconstruirlasfuncioneslineales,noesnecesario
incluiratodaslasvariablesinicialesenlafuncin.
ComocriteriogeneralparaseleccionarunavariableseemplealaseleccindelvalordeladeWilks
o,demodoequivalente,delvalordesuFasociada.
Seutilizanfundamentalmentedosmtodosdeseleccindevariables:elmtododirecto(Introducir
independientesjuntas)yelmtodostepwise(Usarmtododeseleccinporpasos).Enelmtodo
directoseconsiderantodaslasvariablesoriginalesqueverifiquenuncriteriodeseleccin.
Elmtodostepwisefuncionaconvariospasos:
(a) Seincluyeenelanlisislavariablequetengaelmayorvalorrealaceptableparaelcriteriode
seleccinodeentrada.
(b) Seevalaelcriteriodeseleccinparalasvariablesnoseleccionadas.Lavariablequepresentael
valormsaltoparaelcriterioseselecciona(siemprequeseencuentredentrodeunlmite).
(c) Seexaminanlasvariablesseleccionadassegnuncriteriodesalidayseexaminantambinlas
variablesnoseleccionadas,paraversicumplenelcriteriodeentrada.Seexcluyenoseincluyen
variablessegncumplanloscriteriosdeentradaysalida.
(d) Serepiteelprocesohastaqueningunavariablemspuedaserseleccionadaoeliminada.
Ademsdetodoloexpuesto,enelSPSSseconsideraunnmeromximodepasos,dadoqueuna
variablepuedeserincluidayeliminadaenmsdeunaocasin.Setomaeldobledelnmerode
variablesoriginalescomonmeromximodepasosdelmtodostepwise.
EnSPSSseconsideratambinparacadavariablelatoleranciaasociada:Sedefineparaunconjunto
depvariables, Ri coeficientedecorrelacinmltiple,queexpresaelporcentajedevariabilidadde
lavariable (x i i = 1,L ,p) recogidaporelrestode (p 1) variables. R2i coeficientededeterminacin.
SantiagodelaFuenteFernndez
22
AnlisisDiscriminante
Laopcin[Estadsticos]seencuentradivididaentres
grandesreas:Descriptivos,Coeficientesdelafunciny
Matrices.
DESCRIPTIVOS:
Medias:Proporcionaelvectordemedias(loscentroides)ydesviacionestpicasdecadavariable
paracadagrupo.
UnivarianteANOVA:Contrastaigualdaddemediasentrelosgruposparacadavariable.
MdeBox:Contrastalahiptesisnuladequelasmatricesdevarianzascovarianzaspoblacionales
sonigualesenlosdistintosgrupos.
COEFICIENTESDELAFUNCIN:
DeFisher:CoeficientesdelafuncindeclasificacinbajoNormalidad
Notipificados:CoeficientesdelafuncindiscriminantecannicadeFisher'centrados'
MATRICES:
Covarianzadegruposseparados:Proporcionalamatrizdevarianzasycovarianzasdecadagrupo,es
decir,lasmatricesS1yS2,donde:
nk
(X(i1k) X1(k) )2
Sk = nk i=1
(X(k ) X (k) )(X(k) X (k) )
i1
1
i2
2
i=1
i=1
(X
nk
i=1
(k )
i1
Covarianzaintragrupos:Proporcionalamatrizdevarianzasycovarianzas'combinada',obtenida
comomediaponderadadelasdosanteriores,esdecir:
S =
(n1 1) S1 + (n2 1) S2
n1 + n2 2
CovarianzaTotal:Proporcionalamatrizdevarianzasycovarianzasde(X1,X2)paratodoslos
n1+n2=16individuosdelapoblacin,sindistincindegrupo.
COMPROBACINSUPUESTOSPARAMTRICOS:Lafuncindiscriminanteminimizalaprobabilidadde
equivocarsealclasificaralosindividuosencadagrupo.Paraello,lasvariablesoriginalessedeben
distribuircomounanormalmultivarianteylasmatricesdecovarianzasdebendeserigualesentodos
losgrupos.Enlaprcticaesunatcnicarobustayfuncionabienaunquelasdosrestricciones
anterioresnoseverifiquen.
SantiagodelaFuenteFernndez
23
AnlisisDiscriminante
Siunconjuntodevariablessedistribuyecomounanormalmultivariante,entoncescualquier
combinacinlinealdeellassedistribuyecomounanormalmultivariante.Porello,sialgunade
lasvariablesoriginalesnosedistribuyecomounanormal,entoncesesseguroquetodaslas
variablesconjuntamentenosedistribuirncomounanormalmultivariante.
Lasegundarestriccinseocupadelaigualdadentrelasmatricesdecovarianzasdelosgrupos.
Paracomprobaresto,sepuedeutilizarlaPruebaMdeBox,quetienecomohiptesisnulaque
lasmatricesdecovarianzassoniguales.Sebasaenelclculodelosdeterminantesdelas
matricesdecovarianzasdecadagrupo.ElvalorobtenidoseaproximaporunaFdeSnedecor.Si
elp_valor<0,05serechazalaigualdadentrelasmatricesdecovarianzas.
EltestdeMdeBoxessensiblealafaltadenormalidadmultivariante,esdecir,matricesiguales
puedenaparecercomosignificativamentediferentessinoexistenormalidad.Porotraparte,si
lasmuestrassongrandes,pierdeefectividad(esmsfcilrechazarlahiptesisnula).
Enestecaso,sedejanlasopcionesquevienen
pordefectoenSPSS.
LambdadeWilks:Estadsticoquemideelpoderdiscriminantedeunconjuntodevariables
=
V
V
1
=
= min(q1, p)
(01)
T V +F
(1 + I)
i=1
Cuantomscercade0mayoreselpoderdiscriminantedelasvariablesconsideradas,ycuanto
mscercade1menoreselpoderdiscriminante.
Estadsticosasociados:FdeRao;2deBarlett(testssobrelasdiferenciasdemediasenambos
grupos)
Laisimacorrelacincannicavienedadapor: CRi =
i
1 + i
Mide,entrminosrelativos,elpoderdiscriminantedelaisimafuncindiscriminante,yaque
eselporcentajedelavariacintotalendichafuncinqueesexplicadaporladiferenciaentre
losgrupos, 0 CRi 1 ,cuantomscercade1estsuvalor,mayoreslapotenciadiscriminante
delaisimafuncindiscriminante.
SantiagodelaFuenteFernndez
24
AnlisisDiscriminante
Unaopcininteresanteenlaopcin
[Clasificacin]eslade'Reemplazarlos
valoresperdidosconlamedia'.Enmsde
unainvestigacin,poralgnmotivoenla
basededatoshayvaloresperdidos,ypara
queestosnoafectenlosresultadosfinales,
existestaopcindereemplazo,quese
recomiendautilizar.
PROBABILIDADESPREVIAS:
Sonlasprobabilidadesaprioriparacadagrupo.Enestecasoseranp1=p(perteneceralgrupo1),
p2=p(perteneceralgrupo2).Estosvaloresseutilizan,porejemplo,enlaregladeclasificacindela
mximaverosimilitudbajoelsupuestodenormalidad.
Todoslosgruposiguales:p1=p(perteneceralgrupo1)=p2=p(perteneceralgrupo2)=
USARMATRIZDECOVARIANZA:
Intragrupos:Deestamaneraseespecificaquecuandoseobtenganlosautovectoresdelamatriz
(V 1 F) ,quesonprecisamenteloscoeficientesdelasdistintasfuncionesdiscriminantes,seutilicela
restriccinaSa=1,utilizandolamatrizdevarianzasentregrupos'combinada'S.
MOSTRAR:
Resultadosparacadacaso:Muestraelprocesodeclasificacinpasoapasoparacadaunodelos16
individuosdelapoblacin,conlasprobabilidadesaposterioriparacadaunodeellos,calculadasa
partirdelaspuntuacionesdiscriminantes.
Tabladeresumen:Proporcionalamatrizdeconfusin,esdecirlamatrizdeclasificacinparalos
propios16individuosdelamuestraparalosqueconocemosdeantemanosuadscripcin.
Clasificacindejandounofuera:Proporcionalamatrizdeclasificacinperoobtenidaconelmtodo
Jacknife,queobtiene,engeneralunaestimacindelaproporcindeclasificacioneserrneasms
fiable.
GRFICOS:
Gruposcombinados:Representalaspuntuacionesdiscriminantesovaloresdela(s)funcion(es)
discriminante(s),paralos16individuosdelamuestra(8decadagrupo)todosjuntosenungrfico,
juntoconsuscentroides.
Comoslohayunafuncindiscriminanteestegrficonosehace(siseselecciona,luegonoaparece).
Gruposseparados:Representaungrficocomoelanteriorperoparacadagrupo.
Enestecaso,representaraenelprimergrficonicamentelos8individuosdelgrupo1yenel
segundoslolos8delgrupo2.
Mapaterritorial:Conunanicafuncindiscriminantenolohace.
SantiagodelaFuenteFernndez
25
AnlisisDiscriminante
Sisedeseaqueelanlisissea'Guardado'se
procedeadarunclicenelbotndelaopcin
[Anlisisdiscriminante].
ElVisorderesultadosdeSPSSmuestra:
Semuestranlosestadsticosdescriptivos:mediaydesviacintpicatotalde(X1,X2)sobrelos
n=n1+n2=16individuosyparalosdosgrupos:Mediaydesviacintpicade(X1,X2)paralosn1=8
clientesdelgrupo1,ymediaydesviacintpicade(X1,X2)paralosn2=8clientesdelgrupo2.
Seobservaqueelpuntodecortediscriminantedelosdosgruposparalavariable
X1='Patrimonio_Neto'seencuentraenelvalor7:
X1, I = 5
X1, II = 9
C1 =
X1 , I + X1, II
2
5+9
=7
2
Elpuntodecortesetomacomoreferenciaparaclasificaraunindividuoenunouotrogrupo(fallido,
cumplidores):SielPatrimonio_Netoesmenorque7seclasificaalclientecomofallido(grupo1),
mientrasqueseclasificacomocumplidor(grupo2)sielPatrimonio_Netoesmayorqueesacifra.
Porotraparte,elpuntodecortediscriminantedelosdosgruposparalavariableX2=
'Deuda_Pendiente'delosdosgruposser:
X2 , I = 5
X2 , II = 3
C1 =
X2 , I + X2 , II
2
5+3
=4
2
Silasdeudaspendientessonmayoresque4seclasificaalclientecomofallido(grupo1),mientras
queseclasificacomocumplidor(grupo2)silasdeudaspendientessonmenoresqueesacifra.
Loscontrastesdeigualdaddemedias
entrelosdosgruposparacadavariable
(enamboscasosserechazalahiptesis
nula,p_valor<0,05,esdecir,losdos
grupos,enmediasondiferentes).
SantiagodelaFuenteFernndez
26
AnlisisDiscriminante
LainformacindeestatabladeANOVAsunivariadossueleutilizarsecomopruebapreliminarpara
detectarsilosgruposdifierenenlasvariablesdeclasificacinseleccionadas;sinembargo,hayque
considerarqueunavariablenosignificativaanivelunivariantepodraaportarinformacin
discriminativaanivelmultivariante.
Lasalidadelamatrizdecovarianzasproporciona:
4 ,289 1,824
5,240 0,177
8,713 1,199
S1 =
, S2 =
, S total =
1,824 3,474
0,177 3,043
1,199 4 ,108
Porotraparte,lamediaponderadade S1 y S2 debedecoincidirconlamatriz'intragrupos
combinada',denominadaS.Esdecir,debeverificarseque:
4 ,764 1,001 (n1 1) S1 + (n2 1) S2 7
=
S =
=
n1 + n2 2
14
1,001 3,259
4 ,289 1,824 7
1,824 3,474 + 14
5,240 0,177
0,177 3,043
AparecedespuslaPruebadeBoxparaelcontrastedelahiptesisnuladeigualdaddelasmatrices
devarianzascovarianzaspoblacionales.Unodelossupuestosdelanlisisdiscriminanteesquetodos
losgruposprocedendelamismapoblaciny,msconcretamente,quelasmatricesdevarianzas
covarianzaspoblacionalescorrespondientesacadagruposonigualesentres.
DondeSeslamatrizdevarianzascovarianzascombinada, S j eslamatrizdevarianzascovarianzas
delgrupojsimo,neselnmerototaldecasosygelnmerodegrupos.ElestadsticoMcarecede
distribucinmuestralconocida,peropuedetransformarseenunestadsticoFeinterpretarsecomo
tal(muchosinvestigadorescriticanesteestadsticoporserdemasiadosensibleapequeas
desviacionesdelanormalidadmultivarianteyatamaosmuestralesgrandes,tendiendoaser
conservador).
SantiagodelaFuenteFernndez
27
AnlisisDiscriminante
Seobservaquelaprimeratablaofreceloslogaritmosdelosdeterminantesdetodaslasmatrices
utilizadasenelclculodelestadsticoM.Dadoqueelestadsticoesmultivariante,latablapermite
comprobarqugrupos(cuandohaymsdedos)difierenms.
Latabla(Resultadosdelaprueba)ofrecelapruebaMdeBoxysutransformacinenunestadsticoF.
Elresultadodelapruebahacequenoserechacelaigualdaddematricesdevarianzascovarianzas
(Sig=0,849>0,05),concluyendoquelosdosgrupostienenlamismamatrizdevarianzascovarianzas
(nohayungrupomsvariablequeotro).
Acontinuacinaparecenlosresultadosdelanlisisdiscriminante(estadsticosporpasos):
Lasvariablessonintroducidas/eliminadasdelmodeloenlamedidaenquetenganasociadoun
menorvalordelestadsticodeWilks.
Comohayg=2gruposyp=2variables,slohayq=min(k,g1)=1funcindiscriminante,o
equivalentemente,lamatriz (V 1 F) tienerangoq=min(k,g1)=1yslohayunautovalordistintode
cero,1=1,716,queeselqueapareceenlatabla.
Elautovalordeunafuncinseinterpretacomolapartedevariabilidadtotaldelanubedepuntos
proyectadasobreelconjuntodetodaslasfuncionesatribuiblealafuncin.Sisuvaloresgrande,la
funcindiscriminarmucho.
SantiagodelaFuenteFernndez
28
AnlisisDiscriminante
Adems,sereflejaelcoeficienteetaocorrelacincannica: =
1
1,716
=
= 0,795
1 + 1
1 + 1,716
Lascorrelacionescannicas,midenlasdesviacionesdelaspuntuacionesdiscriminantesentregrupos
respectoalasdesviacionestotalessindistinguirgrupos.Sisuvaloresgrande(prximoa1)la
dispersinserdebidaalasdiferenciasentregrupos,yenconsecuencia,lafuncindiscriminar
mucho.
ElestadsticodelcontrastedesignificacinglobalLambdadeWilks: =
1
1
=
= 0,368
1 + 1 1 + 1,716
queconducearechazarlahiptesisnuladeigualdaddemedias[pvalor=0,02<0,05],loqueindica
laconvenienciadeextraeruna(lanicaposible)funcindiscriminante,oloqueeslomismo,que
dichafuncinseasignificativa.
Interpretacindelasfuncionesdiscriminantes:alavistadelosvaloresde(X1,y),y(X2,y),parece
quelavariablequemscontribuyealadiscriminacinesX1='Patrimonio_Neto'
COEFICIENTESESTANDARIZADOS:Aparecenloscoeficientesdelafuncindiscriminantecannica
estandarizados,estoscoeficientesaparecencuandosetipificanoestandarizancadaunadelas
variablesclasificadorasparaquetenganmedia0ydesviacintpica1.Deestaformaseevitanlos
problemasdeescalaquepudieranexistirentrelasvariablesy,consecuentemente,lamagnitudde
loscoeficientesestandarizadossonunindicadordelaimportanciaquetienecadavariableenel
clculodelafuncindiscriminante.Enestalnea,seobservaquelavariablePatrimonio_Neto(X1)
tieneunainfluenciaqueescasiun50%superioralaejercidaporlavariableDeuda_Pendiente(X2).
MATRIZDEESTRUCTURA:Esconvenienteconocerculessonlasvariablesquetienenmayorpoder
discriminanteenordenaclasificaraunindividuoenunodelosgrupos(fallidos,cumplidores).Una
formademediresepoderdiscriminanteescalculandoelcoeficientedecorrelacinentrecadauna
delasvariablesylafuncindiscriminante.Estaesprecisamentelainformacinquesedaenlatabla
(Matrizdeestructura),enestecaso,lacorrelacindelafuncindiscriminanteconlavariable
Patrimonio_Neto(0,748)esmayorenvalorabsolutoqueconlavariableDeuda_Pendiente(0,452).
Lascomparacionesdebenhacersesiempreenvalorabsoluto.EnelprogramaSPSSlasvariables
aparecenordenadasdeacuerdoconelvalorabsolutodeloscoeficientesdecorrelacin.
LosCoeficientesdelasfuncionesdiscriminantescannicasdeFisherson:
SantiagodelaFuenteFernndez
29
AnlisisDiscriminante
Enlatablaapareceinformacindeloscoeficientesdelafuncindiscriminantecannicano
estandarizados.Loscoeficientesdeestafuncinsonestrictamenteproporcionalesaloscoeficientes
delafuncindiscriminantedeFisher (D C) .Enestecaso,elfactordeproporcionalidades0,408;
estoes,cadacoeficienteesiguala0,408multiplicadoporelcoeficientedelafuncindiscriminante
deFisher.Estoscoeficientesnoestandarizadosseobtienenutilizandolaregladenormalizacinde
w' V w = 1 ,aspues,setomacomonormaeldenominadordelavariacindentrodelosgrupos:
Loscoeficienteswseobtienen: Mx =
Centroidesdecadagrupo(mediadelafuncindiscriminanteencadagrupo):
Conlosresultadosobtenidos,elpuntodecorte
discriminanteserelpuntomediodelasfuncionesenlos
D + D 1,225 + 1,225
centroidesdelosgrupos: C = 1 2 =
=0
2
2
Estadsticosdeclasificacin:
Probabilidadesaprioridepertenenciaalos
grupos(sesuponep1=p2=1/2)
Coeficientesdelafuncindeclasificacin:Aqusemuestranloscoeficientesdelasfuncionesde
clasificacinqueseobtendranbajoelsupuestodeNormalidadbivariantepara(X1,X2)enambas
poblaciones,utilizandoelcriteriodelamximaverosimilitudyprobabilidades(p1=p2=1/2)apriori
iguales.
Lasfuncionesdeclasificacinson:
FI = 0,777.Patrimonio _ Neto + 1,296.Deuda _ Pendiente 5,876
SantiagodelaFuenteFernndez
30
AnlisisDiscriminante
4 ,764 1,001
dI (x) = [5 5]
1,001 3,259
1 ' 1
x1 S x1 + ln(p1 )
2
Loscentrosdegravedadocentroidesdelos
dosgrupossern:
Matrizintragrupo
combinada:
X1, I 5
X1, II 9
xI = = xII = =
X2 , I 5
X2 , II 3
4 ,764 1,001
S=
1,001 3,259
4 ,764 1,001
X 1 1
X 2 [5 5] 1,001 3,259
5
5 + ln(0,5) =
X2
1 444
644
47
8
644
47
444
8
= 0,777.Patrimonio _ Neto + 1,296.Deuda _ Pendiente 5,876
1,001 3,259
4 ,764 1,001
X1 1
X 2 [9 3] 1,001 3,259
1 ' 1
x2 S x2 + ln (p2 )
2
9
3 + ln(0,5) =
X2
1 444
644
47
8
644
47
444
8
= 1,813.Patrimonio _ Neto + 0,364 .Deuda _ Pendiente 9,396
Cadasujetoserasignadoalgrupoenelqueobtengaunmayorvalordeestasfunciones.
LafuncindiscriminantedeFisher [D C = FII FI ]:
D C = 1,035.Patrimonio _ Neto 0,932.Deuda _ Pendiente 3,520
ElprogramaSPSSnoofrecelafuncindiscriminantedeFisher.
SantiagodelaFuenteFernndez
31
AnlisisDiscriminante
Estadsticosporcasos:Paracadacaso,semuestranlaspuntuacionesdiscriminantes,las
distanciasdeMahalanobisdedichaspuntuacionesalcentroidedecadagrupoylasprobabilidadesa
posterioriobtenidasapartirdeesasdistancias.
Enestecasosolosehaencontradouncasomalclasificadosegnlafuncinlinealdiscriminante,se
tratadelgrupo2(caso13enlatabladeestadsticosdeclasificacin)quehasidoincluido
errneamentedentrodelgrupo1.
Comopuedeverselos
doscentrosdegravedad
equidistandelarecta
delimitadora.
Eldirectordelaentidadfinancieraclasificaalasdossolicitudesdeprstamos.Paraello,basta
sustituir,enlafuncindiscriminantedeFisher,losvaloresdePatrimonio_Netoy
Deuda_Pendiente:
D C = 1,035.Patrimonio _ Neto 0,932.Deuda _ Pendiente 3,520
Primersolicitante: D C = 1,035.(10,1) 0,932.(6,8) 3,520 = 0,5959
Segundosolicitante: D C = 1,035.(9,7) 0,932. (2,2) 3,520 = 4 ,469
Comolapuntuacinespositivaenamboscasos,seclasificanalosdossolicitantesenelgrupodelos
cumplidores,sibienhayquehacernotarqueelsegundosolicitantetieneunapuntuacin
discriminantemuchomselevada.
SantiagodelaFuenteFernndez
32
AnlisisDiscriminante
CRITERIOSALTERNATIVOSDECLASIFICACIN:Existenotrosmuchoscriteriosdeclasificacin.
Entreellos,destacarelanlisisderegresinylaaplicacindeladistanciadeMahalanobis.A
continuacinseindicansusrasgosbsicos,ascomosurelacinconelanlisisdiscriminantede
Fisher.
ANLISISDEREGRESIN:Larelacinentreelanlisisdiscriminanteyelanlisisderegresines
muyestrecha.Siserealizaunaajustepormnimoscuadrados,tomandocomovariable
dependientelavariabledicotmicaquedefinelapertenenciaaunouotrogrupoycomo
variablesexplicativasalasvariablesclasificadoras,seobtienenunoscoeficientesquetienenuna
estrictaproporcionalidadconloscoeficientesdelafuncindiscriminantedeFisher,
Apartirdelcoeficientededeterminacin,quesecalculaenelanlisisderegresin,sepuede
pasarconfacilidadaladistanciadeMahalanobisentrelosdoscentroidesdelosdosgrupos.
DISTANCIADEMAHALANOBIS(1936):Esunageneralizacindeladistanciaeucldea,quetiene
encuentalamatrizdecovarianzasintragrupos.ElcuadradodeladistanciadeMahalanobis
(DM2ij ) entrelosgruposiyjenunespaciodepdimensiones,siendo (Vw ) lamatrizdecovarianzas
intragrupos,vienedefinidadeforma: DM2ij = (x i x j )' Vw1 (x i x j )
dondelosvectores x i y x j representandospuntosenelespaciopdimensional.Enla
terminologausualparadesignarestadistanciaseprescindedelaM(introducidaparaevitar
confusionesconlaspuntuacionesdiscriminantesalasquesehadesignadoporD).
Elcuadradodeladistanciaeucldea d2ij entrelospuntos (i, j) vienedadoporlaexpresin:
p
As,paraelpuntoisimoseobtienenestasdosdistancias:
DM2 = (x x )' V 1 (x x )
i , II
i
II
w
i
II
Laaplicacindeestecriterioconsisteenasignarcadaindividuoalgrupoparaelqueladistancia
deMahalanobisesmenor.
LadistanciadeMahalanobisclasificaalosindividuosexactamenteigualquelohacelafuncin
discriminantedeFisher.Ladiferenciaentreunoyotrotipodeprocedimientoesque,mientrasla
distanciadeMahalanobissecalculaenelespaciodelasvariablesoriginales,enelcriteriode
Fishersesintetizantodaslasvariablesenlafuncindiscriminante,queeslautilizadapara
realizarlaclasificacin.
SantiagodelaFuenteFernndez
33
AnlisisDiscriminante
Enelfichero(prestamoriesgo.sav)sehanguardadolascolumnas:Dis_1(Grupopronosticado
paraelanlisis1),Dis1_1(Puntuacindiscriminantedelafuncin1paraelanlisis1),Dis1_2
(Probabilidadesdepertenenciaalgrupo1paraelanlisis1)yDis2_2(Probabilidadesde
pertenenciaalgrupo2paraelanlisis1)
SantiagodelaFuenteFernndez
34
AnlisisDiscriminante
CONCESINPRSTAMOSRIESGO
Unbancorealizaunestudioconelobjetivodeidentificarconlamayorprecisinposibleaquellas
solicitudesdeprstamosqueprobablementepuedanllegaraconvertirseenmorososofallidosenel
casoqueseconcedieran.Paraello,disponedelainformacinreflejadaenlatablaadjunta,relativaa
25clientesyalasvariablesqueseanalizan:
) Cumplimiento:Gradodecumplimientodelclienteenelreintegrodelprstamo.Tomaelvalor1
sielclienteescumplidor,2siesmorosoy3siesfallido.
) Ingresos:Ingresosanualesdelcliente,enmilesdeeuros.
) PatrimonioNeto:Patrimonionetodelclienteenmilesdeeuros.
) Vivienda:Variabledicotmicaquetomaelvalor1sielclienteespropietario;0encasocontrario.
) Casado:Variabledicotmicaquetomaelvalor1siestcasado;0enotrocaso.
) ContratoTrabajo:Variabledicotmicaquetomaelvalor1sielclienteesasalariadoconcontrato
fijo;0enotrocaso.
Cliente Cumplimiento Ingresos
1
1
32,7
2
1
18,6
3
1
24,6
4
1
37,2
5
1
23,7
6
1
7,5
7
1
29,4
8
1
53,4
9
1
20,1
10
1
31,2
11
1
17,1
12
1
39
13
1
45,6
14
2
26,1
15
2
8,1
16
2
12,6
17
2
8,7
18
2
38,4
19
2
22,8
20
2
14,7
21
3
19,8
22
3
5,1
23
3
7,2
24
3
11,1
25
3
15,9
Patrimonioneto
336
204
138
270
114
132
90
228
324
480
108
132
216
234
48
114
150
24
114
60
42
72
30
36
150
SetratadeunAnlisisdiscriminantemltiple,yaqueelbancohaclasificadoalosclientesentres
grandesgrupos,habrqueconstruirfuncionesdiscriminantesquepermitanclasificar,conlos
menoreserroresposibles,alosclientesenlosdiferentesgrupos.Siseobtienenbuenosresultados,
estasfuncionesdiscriminantessepodrnutilizarparaanalizarsiseconcedeunprstamoonoaun
futuroclientepeticionario.
SantiagodelaFuenteFernndez
35
AnlisisDiscriminante
SeseleccionaCumplimientocomovariablede
agrupacin(cuyorangoes1y3)ylasotrascinco
variablescomoindependientes.
Elmtododeinclusinporpasos.
SantiagodelaFuenteFernndez
36
AnlisisDiscriminante
ElVisorderesultadosdeSPSSmuestra:
Lasmediasdelascinco
variablesintroducidascomo
independientesenelanlisis
sonmayoresenlacategorade
cumplidoresqueenlasotras
categoras.
As,losclientescumplidores,en
relacinconlosotrosdos
grupos(morosos,fallidos),
tienenmayoresingresos,un
mayorpatrimonio,son
propietariosdelaviviendaque
habitanestncasadosyson
asalariadosconcontratofijo.
LasANOVAsindicanquenoseobservan
diferenciassignificativasentreloscumplidores,
morososyfallidos,encuantoalhechodeser
propietarioonodelavivienda(Vivienda)yel
estarcasadoono(Casado).
Enconsecuencia,lasvariables(Vivienda)y(Casado)nodeberantenerunagraninfluenciaalahora
declasificaralosclientesenunouotrogrupo.Obsrvesequeenamboscasos,p_valor>0,05,se
aceptalahiptesisnula,esdecir,losgruposenmediasoniguales.
EnlasiguientetablaseobservaelcontrastedelaPruebadeBoxparadeterminarsiesaceptableono
lahiptesisdehomocedasticidad.Primeroapareceellogaritmodeldeterminantedelasmatricesde
V
covarianzasdelosresiduosdecadacelda,calculadassegnlaexpresin Sg = g (lamatrizSges
ng 1
unaestimacindelamatrizdecovarianzascorrespondientealaceldagsimag),ylamatrizde
SantiagodelaFuenteFernndez
37
AnlisisDiscriminante
G
V (n
g =1
g =1
1) Sg
=
(donde S esunaestimacin
nG
nG
delamatrizdecovarianzasglobal),ascomoelrangodecadaunadeestasmatrices.
covarianzasglobal,calculadasegnlaexpresin S =
Lasmatricessondeorden5x5,yaqueexistencincovariablesclasificadoras.
Silasmatricessonnosingulares(tieneninversa)surangodebedeser5.Seobserva,enestecaso,
quelamatrizcorrespondientealgrupo3(clientefallido)nosecalculaporqueexistenmuypocos
casosparasernosingular,enefectosepuedeobservarqueelnmerodeindividuosquepertenecen
algrupo3(clientesfallidos)esjustamente5yconestetamaolamatrizdecovarianzasdelos
residuosesnecesariamentesingular.
Debidoaquelamatrizdelgrupo3(fallidos)essingular,SPSScontrastalaigualdaddelasmatricesde
covarianzaspoblacionalesenlosgrupos1y2,respectivamente,clientecumplidoresymorosos,
estimandolamatrizdecovarianzasglobalconlosdatosdeestosdosgrupos.Elniveldesignificacin
crticoqueseobtieneenestecontrastees0,048,conloqueseaceptalahiptesisnulaparaunnivel
designificacindel1%(0,048>0,01),peronoparaunniveldel5%(0,048<0,05,rechazndosela
hiptesisnula).
EnlatabladeLambdadeWilksseaplicaelcontrastedesignificacinparaelconjuntodelosdosejes
discriminantes.ElcontrasteVdeBarlettqueseaplicaes:
K + G
Vj = n 1
2
G1
ln(1 + )
g= j+1
donde j = 0, 1
K + G
2
2
Losgradosdelibertaddelachicuadradoson K (G 1) = 2 (3 1) = 4 yelniveldesignificacincrticoes
0,000<0,05rechazando,portanto,lahiptesisnula,loquesignificaquealmenosunodelosejes
discriminantesessignificativo,esdecir,elprimerejediscriminanteessignificativo(eselquetiene
SantiagodelaFuenteFernndez
38
AnlisisDiscriminante
mayorpoderdiscriminante).Advirtasequesinoserechazalahiptesisnulanodeberacontinuarel
anlisis.
ObsrvesequesecumplelarelacinentrelalandadeWilksylasracescaractersticas(autovalores):
=
1
1
=
= 0,294
(1 + 1 ) (1 + 2 ) (1 + 2,264) (1 + 0,043)
Unavezdeterminadalasignificatividaddelprimerejediscriminante,secontrastalasignificatividad
delosrestantes,enestecaso,delsegundoejediscriminante.Elcontrasteaaplicareselsiguiente:
K + G
2
2
1
1
=
= 0,959
(1 + 2 ) (1 + 0,043)
Comoinformacincomplementaria,secalculalacorrelacincannicadecadafuncindiscriminante
conlavariablecategricaquedefinelosgrupos,obtenindose:
1 =
1
2,264
1
0,043
=
= 0,833 2 =
=
= 0,203
1 + 1
1 + 2,264
1 + 1
1 + 0,043
Losresultadosobtenidosconfirmanquelacapacidadexplicativadelasegundafuncindiscriminante
esmuyinferioralaprimera.Unaconfirmacinfinaldeestaconclusinesqueelporcentajede
varianzaexplicadaconlaprimerafuncindiscriminanteesdel98,1%,mientrasquelavarianza
explicadaconlasegundafuncindiscriminanteesdel1,9%.Conloqueaefectosprcticossepodra
prescindirdelasegundafuncindiscriminante,sinqueafectasedeformaimportantealos
resultadosdelaclasificacin.
SantiagodelaFuenteFernndez
39
AnlisisDiscriminante
COEFICIENTESESTANDARIZADOS:Aparecenloscoeficientesdelafuncindiscriminantecannica
estandarizados(media0ydesviacintpica1),deestaformaseevitanlosproblemasdeescalaque
pudieranexistirentrelasvariablesy,enconsecuencia,lamagnituddeloscoeficientes
estandarizadossonunindicadordelaimportanciaquetieneestavariableenelclculodelafuncin
discriminante.
MATRIZDEESTRUCTURA:Convieneconocerculessonlasvariablesquetienenmayorpoder
discriminanteenordenaclasificaraunindividuoenunodelosgrupos(cumplidor,moroso,fallido).
Unaformademediresepoderdiscriminanteescalculandoelcoeficientedecorrelacinentrecada
unadelasvariablesylafuncindiscriminante.Conunasteriscoseindicaelcoeficientemsgrande
(envalorabsoluto)quetienecadavariable.
As,lavariableCasadotienensumayorcoeficienteconlafuncindiscriminante1,mientrasquelas
variablesContrato_TrabajoeIngresoslotienenconlafuncindiscriminante2.
Aparecenlaspuntuacionesdeloscentroidesdelosgrupos(Patrimonio_Neto,Contrato_Trabajo)con
respectoalasfuncionesdiscriminantes(convienedarsecuentaqueenestecasonohayunpuntode
cortediscriminante,pueselconjuntodedatosseencuentraseparadoentresgrupos).
Ahorafaltacalcularelvalordetresfuncionesdeclasificacin,yseclasificaracadaindividuoen
aqulgrupocuyafuncindiscriminanteresultetomarelmayorvalor.
Deestaforma,lasfuncionesdeclasificacinson:
FI = 0,063.Patrimonio _ Neto + 13,721. Contrato _ Trabajo 13,590
(cliente cumplidor)
(cliente moroso)
(cliente fallido)
Parasuaplicacin,secalculalapuntuacindecadaindividuoencadaunodelosgrupos,utilizando
lasfuncionesclasificadoras.Finalmente,unindividuoseclasificaenelgrupoenelquehaalcanzado
lapuntuacinmselevada.
Elmapaterritorialsirveparavercmoquedanlaclasificacinenfuncindelasdosfunciones
linealesdiscriminantes:
SantiagodelaFuenteFernndez
40
AnlisisDiscriminante
Elmapaterritorialdelimita,enelplanodelasdosfuncionesdiscriminantes(noestandarizadas),las
reasqueseasignanacadagrupo.Elreasituadaenlapartederechadelafuncindiscriminante1
eslacorrespondientealgrupo1,mientrasqueelreadelaizquierdacorrespondealgrupo3.Se
clasificanenelgrupo2losindividuosconpuntuacionesdiscriminantescannicassituadasenel
tringulodelapartecentral.
LasalidadeSPSSrecogeelclculodeprobabilidadesaposteriori,puntuacionesdiscriminantesy
resultadosdelaclasificacin.Enestecaso,noaparecelacolumnaetiquetadacon(valoresfaltantes)
dondesereflejacasosoindividuosparalosquenosedisponedeinformacincompleta.Aparecela
columnaGruporealdepertenenciayGrupopronosticado,quecuandoaparececonunasterisco
reflejaqueelindividuoaquecorrespondaseleclasificadeformaerrnea.
Lascolumnassiguientessonrelativasalclculodeprobabilidades.Lasprobabilidadesaposteriori
P(G/D)secalculanparacadagrupoconlafrmula:
F
g grupo
I e g
Prob (g / D) =
g = I, II
(extendidaatresvariables)
FI
FII
I e + II e
i probabilid ad a priori
SantiagodelaFuenteFernndez
41
AnlisisDiscriminante
DI + DII
ln II
2
I
EnlasalidadelSPSSseindicalaprobabilidadaposteriorimsaltaconindicacinalgrupoaque
correspondeylasegundaprobabilidadmsaltaconindicacindelgrupo.Juntoalaprobabilidad
msaltaaparecelaprobabilidaddelapuntuacindiscriminanteP(D/G),quenotieneinters
especialenelanlisis.
Lasdosltimascolumnasserefierenalaspuntuacionesdiscriminantes.Cadaunadeellas
correspondeaunafuncindiscriminante.EnSPSSestaspuntuacionessecalculanutilizandolos
coeficientesdelasfuncionesdiscriminantescannicasnoestandarizadas.
Estadsticosporcaso:Paracadacaso,semuestranlaspuntuacionesdiscriminantes,lasdistanciasde
Mahalanobisdedichaspuntuacionesalcentroidedecadagrupoylasprobabilidadesaposteriori
obtenidasapartirdeesasdistancias.
Seobservaquehayseiscasosmalclasificados,comprobndosecomolasprobabilidadesde
pertenenciasonmayoresparalapertenenciaalgrupomayor,ytambinquelaspuntuaciones
discriminantessonlasquesitanacadacasoenelmapaterritorial.
Losresultadosdelainvestigacinsonsatisfactorios,yaquecontieneunporcentajeelevadode
clientesclasificadossatisfactoriamente(76%),sibienpreocupaelcasodeunclientemoroso(cliente
17)quehasidocalificadocomocumplidor.Estetipodeerrordeclasificacintienemucha
importancia,elbancosepreocupasobretodoqueunclientemorosoofallidopuedaserconsiderado
comocumplidor,pueselcostedeunaclasificacinerrneadeestetipoeselevadoparalaentidad.
SantiagodelaFuenteFernndez
42
AnlisisDiscriminante
SantiagodelaFuenteFernndez
43