Tesis MG - Seleccion de Hiperparametros en Maquinas de Soporte Vectorial. Univ Colombia.2004

DE HIPERPARAMETROS
SELECCION
EN MAQUINAS
DE
SOPORTE VECTORIAL
Por
Ricardo Henao
rhenao@unalmzl.edu.co
Director:
Jorge Eduardo Hurtado Gomez
ENVIADO EN PARCIAL CUMPLIMIENTO DE LOS

REQUERIMIENTOS PARA EL GRADO DE
INDUSTRIAL
MSC. EN CONTROL Y AUTOMATIZACION
EN LA
UNIVERSIDAD NACIONAL DE COLOMBIA
MANIZALES, COLOMBIA
MAYO 2004
c Derechos Reservados por Ricardo Henao, 2004


FACULTAD DE
INGENIERIAS ELECTRICA,
ELECTRONICA
Y COMPUTACION
Los abajo firmantes certifican haber leido y recomendado a la facultad
de Facultad de Ingeniera y Administracion la aceptacion de la tesis titulada
Selecci
on de Hiperpar
ametros en M
aquinas de Soporte Vectorial
por Ricardo Henao en parcial cumplimiento de lor requerimientos para el
grado de Msc. en Control y Automatizaci
on Industrial.
Fecha: Mayo 2004
Director:
Jorge Eduardo Hurtado Gomez
Jurados:
German Castellanos D.
Julio Fernando Suarez
Oscar Ortega L.
II

Fecha: Mayo 2004
Autor:
Ricardo Henao
Ttulo:
Selecci
on de Hiperpar
ametros en M
aquinas de Soporte
Vectorial
Facultad:
Ingenieras El
ectrica, Electr
onica y Computaci
on
Grado: M.Sc.
Termino: Julio
A
no: 2004
Con esta se concede permiso a la Universidad Nacional de Colombia de circular

y copiar este trabajo para propositos no comerciales y a discresion ante solicitud de
individuales o instituciones.
Firma del Autor
EL AUTOR SE RESERVA OTROS DERECHOS DE PUBLICACION Y NI

LA TESIS NI EXTRACTOS EXTENSOS DE ELLA PUEDEN SER PUBLICADOS O
REPRODUCIDOS EN OTRA FORMA SIN LA AUTORIZACION POR ESCRITO DEL
AUTOR.
EL AUTOR CERTIFICA QUE HA OBTENIDO PERMISO PARA EL USO DE
CUALQUIER MATERIAL CON DERECHOS RESERVADOS QUE APARECIERE EN
LA TESIS (EXCEPTO EXTRACTOS CORTOS QUE UNICAMENTE REQUIEREN UN
RECONOCIMIENTO APROPIADO EN EL CASO ESCRITOS ACADEMICOS) Y QUE
TAL USO ES CLARAMENTE RECONOCIDO.
III
Indice General
Indice General
IV
Indice de Tablas
VII
Indice de Figuras
VIII
Resumen
IX
Abstract
Agradecimientos
XI
1. Introducci
on
1.1. Trabajo Previo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Objetivos Principales del Trabajo . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Estructura del Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. M
2.1. Clasificacion con Vectores de Soporte . . . . . . . . . . . . . . . . . . . . . .
2.2. Caso Linealmente no Separable . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Maquinas de Soporte no Lineales . . . . . . . . . . . . . . . . . . . . . . . .
2.4. Capacidad de Generalizacion . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.4.1. Riesgo Actual, Riesgo Emprico y Dimension VC . . . . . . . . . . .
11
2.4.2. La Dimension VC de las SVM
13
IV
. . . . . . . . . . . . . . . . . . . . .
2.4.3. Procedimiento Leave-One-Out . . . . . . . . . . . . . . . . . . . . .
13
2.4.4. Cotas para el Estimador de Leave-One-Out . . . . . . . . . . . . . .
14
2.5. Algoritmo de Entrenamiento
. . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.5.1. Metodo de Descomposicion . . . . . . . . . . . . . . . . . . . . . . .
18
2.5.2. Seleccion del Conjunto de Trabajo y Criterio de Parada . . . . . . .
19
2.5.3. Convergencia del Metodo de Descomposicion . . . . . . . . . . . . .
22
2.5.4. Solucion Analtica . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.5.5. Calculo de b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.5.6. Contraccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
2.5.7. Caching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.5.8. Complejidad Computacional . . . . . . . . . . . . . . . . . . . . . .
29
2.6. Maquinas de Soporte Multi Clase . . . . . . . . . . . . . . . . . . . . . . . .
30
3. Selecci
on de Hiperpar
ametros en M
32
3.1. B
usqueda en Malla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
3.2. B
usqueda en Lnea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
3.2.1. Cota de Radio/Margen para L2 . . . . . . . . . . . . . . . . . . . . .
35
3.2.2. Cota de Radio/Margen para L1 . . . . . . . . . . . . . . . . . . . . .
36
3.3. Limitaciones Actuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
4. Estrategias Evolutivas
39
4.1. Adaptacion Arbitraria de Distribuciones Normales . . . . . . . . . . . . . .
41
4.2. Adaptacion de la Matriz de Covarianza . . . . . . . . . . . . . . . . . . . .
43
4.3. Trayectoria Evolutiva: Cumulacion . . . . . . . . . . . . . . . . . . . . . . .
45
4.4. El Algoritmo (W , )-CMA-ES . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.5. Valores para los Parametros Internos . . . . . . . . . . . . . . . . . . . . . .
49
4.6. Limitaciones y Aspectos Practicos . . . . . . . . . . . . . . . . . . . . . . .
50
5. M
etodo Propuesto
51
5.1. CMA-ES-SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
5.2. Caractersticas del CMA-ES-SVM . . . . . . . . . . . . . . . . . . . . . . .
54
5.3. Implementacion y Aspectos Practicos . . . . . . . . . . . . . . . . . . . . . .

6. Resultados Num
ericos
55
56
6.1. Conjuntos Artificiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
6.1.1. Balanceado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
6.1.2. No Balanceado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
6.1.3. Damero . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
6.1.4. Dos Curvas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
6.1.5. Dos Anillos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
6.1.6. Anillos Cruzados . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
6.2. Conjuntos Estandares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
6.3. Conjunto Multi Clase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
6.4. Resultados con Kernel Polinomial . . . . . . . . . . . . . . . . . . . . . . . .
68
6.5. Conjuntos de Problemas Reales . . . . . . . . . . . . . . . . . . . . . . . . .
69
6.5.1. Identificacion de Voces Patologicas . . . . . . . . . . . . . . . . . . .
69
6.5.2. Clasificacion de Arritmias en ECG . . . . . . . . . . . . . . . . . . .
70
7. Discusi
on Final, Sumario y Trabajo Posterior
73
A. Kernels
76
A.1. Kernels Definidos Positivos . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
A.2. Reproduccion de un Mapeo con Kernel . . . . . . . . . . . . . . . . . . . . .
77
A.3. Reproduccion de un Espacio de Hilbert mediante Kernels . . . . . . . . . .
79
A.4. El Kernel de Mercer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
A.5. Ejemplos y Propiedades de Kernels . . . . . . . . . . . . . . . . . . . . . . .
81
B. Algoritmo BFGS
83
Ap
endices
76
VI
Indice de Tablas
4.1. Parametros defecto para (W , ) . . . . . . . . . . . . . . . . . . . . . . . .
49
6.1. Estructura de los conjuntos artificiales . . . . . . . . . . . . . . . . . . . . .
57
6.2. Resultados para el conjunto balanceado . . . . . . . . . . . . . . . . . . . .
58
6.3. Resultados para el conjunto no balanceado
. . . . . . . . . . . . . . . . . .
59
6.4. Resultados para el conjunto damero . . . . . . . . . . . . . . . . . . . . . .
61
6.5. Resultados para el conjunto dos curvas . . . . . . . . . . . . . . . . . . . . .
61
6.6. Resultados para el conjunto dos anillos . . . . . . . . . . . . . . . . . . . . .
63
6.7. Resultados para el conjunto anillos cruzados . . . . . . . . . . . . . . . . . .
63
6.8. Estructura de los conjuntos estandares . . . . . . . . . . . . . . . . . . . . .
65
6.9. Resultados para los conjuntos estandar . . . . . . . . . . . . . . . . . . . . .
66
6.10. Resultados para los conjuntos estandar. (Continuacion) . . . . . . . . . . .
67
6.11. Estructura de los conjuntos multi clase . . . . . . . . . . . . . . . . . . . . .
68
6.12. Resultados para conjuntos multi clase . . . . . . . . . . . . . . . . . . . . .
68
6.13. Resultados para kernel polinomial . . . . . . . . . . . . . . . . . . . . . . .
69
6.14. Estructura del conjunto para identificacion de voces patologicas . . . . . . .
70
6.15. Resultados para identificacion de voces patologicas . . . . . . . . . . . . . .
71
6.16. Estructura del conjunto para clasificacion de arritmias en ECG . . . . . . .
72
6.17. Resultados para clasificacion de arritmias en ECG . . . . . . . . . . . . . .
72
VII
Indice de Figuras
2.1. Hiperplanos que separan correctamente los datos . . . . . . . . . . . . . . .
2.2. Mapeo del espacio de entrada en otro de dimension alta . . . . . . . . . . .
10
2.3. Solucion analtica de un problema de optimizacion de dos variables . . . . .
24
4.1. Lneas de igual densidad de probabilidad en dos distribuciones normales . .
40
6.1. Izquierda: Conjunto balanceado. Derecha: Conjunto no balanceado . . . . .
57
6.2. Izquierda: Conjunto damero. Derecha: Conjunto dos curvas . . . . . . . . .
60
6.3. Izquierda: Conjunto dos anillos. Derecha: Conjunto anillos cruzados
. . . .
62
A.1. Problema de clasificacion mapeado con kernel polinomial . . . . . . . . . . .
76
VIII
Resumen
Este trabajo de tesis presenta un nuevo metodo de seleccion automatica de hiperparametros
en maquinas de soporte vectorial utilizando estrategias evolutivas y cotas efectivas del error
de validacion o riesgo emprico. El desarrollo descrito en esta tesis involucra una tecnica
de estrategias evolutivas denominada adaptacion de matriz de covarianza, que a grandes
rasgos reduce el tiempo de convergencia en la medida que un menor n
umero de evaluaciones
de la funcion objetivo son necesarias y que desaleatoriza al maximo el procedimiento para
obtener soluciones mas estables. En particular, dos cotas del error de validacion fueron
empleadas, la validacion cruzada como generalizacion del esquema LOO y el span como
medida efectiva tanto teorica como practica ya que no necesita m
ultiples evaluaciones de
la SVM, es continua, posee conexion directa con otras como Radio/Margen y requiere una
carga computacional considerablemente peque
na. Ademas, permite la posibilidad de emplear diferentes funciones kernel debido a que no exige diferenciabilidad en dicha funcion,
esquemas multi clase y seleccion de m
ultiples parametros sin tener que reformular substancialmente todo el algoritmo. Por u
ltimo, los resultados numericos muestran un desempe
no
bastante competitivo con las otras tecnicas revisadas en este trabajo.
IX
Abstract
This thesis work introduces a new method for automatic hiperparameter selection for
support vector machines using evolutive strategies and validation error or empirical risk
bounds. The actual approach involves an evolution strategy technique designated as covariance matrix adaptation, which in general terms reduces the convergence rates and obtain
steady solutions due to its derandomized nature. In particular, two empirical risk bounds
where used, crossvalidation as generalized LOO scheme and span bound because do not
require multiple SVM evaluations, is continuous, and hold direct connection with some
others like Radius/Margin and its computational cost is low as well. Besides, this method
allows a wide variety of kernel functions since do not demand differentiability, multi-class
schemes and multiple parameter selection without substantial reformulation of the entire
algorithm. Finally, the numerical results reveal a competitive performance related to another considered methods within this work.
Agradecimientos
El autor quiere agradecer al Profesor Jorge Eduardo Hurtado supervisor de esta tesis, por
sus m
ultiples sugerencias y apoyo constante no solo durante el tiempo que duro este trabajo
sino desde que estoy trabajando con el. Tambien, al Profesor German Castellanos por todo
el apoyo prestado desde que estoy trabajando en investigacion.
Ademas, a los profesores S.S. Keerthi, C.J. Lin y N. Hansen por toda la ayuda prestada a
traves de correos electronicos.
Finalmente, Fabian Ojeda y Juan Carlos Ria
no por la ayuda prestada con la revision de
este trabajo y comentarios pertinentes, al grupo de Control y Procesamiento Digital de
Se
nales por proporcionar un espacio apropiado para el trabajo de investigacion, incluso
mas alla del alcance de este trabajo. Los demas supongo saben quienes son.
Esta investigaci
on fue realizada en el marco de la investigaci
on An
alisis y procesamiento
digital de im
agenes medicas y se
nales bioelectricas realizada por la Universidad Nacional
de Colombia sede Manizales mediante la orden contractual 472 de 2003 emitida por el
DIMA.
Manizales, Colombia
Ricardo Henao
Julio 22, 2004
XI
Captulo 1
Introducci
on
I shall certainly admit a system as empirical or scientific only if it is capable of being tested by
experience. These considerations suggest that not the verifiability but the falsifiability of a system is
to be taken as a criterion of demarcation. It must be possible for an empirical scientific system to
be refuted by experience.
K. Popper. The Logic of Scientific Discovery (1934, ch. 1, sect. 6)
En el area de reconocimiento de patrones y mas especficamente en la parte de clasificacion, las

maquinas de soporte vectorial (SVM), se han convertido en los u
ltimos a
nos en una de las tecnicas
mas importantes sobre otras muy populares como: kesimo vecino cercano (KNN), redes neuronales artificiales (ANN) y
arboles de clasificacion (CART); dado que su aparato matematico esta
fundamentado sobre bases muy s
olidas [ver Vapnik, 1995] que hacen que posea m
ultiples ventajas
sobre las otras tecnicas mencionadas [ver Vapnik, 1998, Scholkopf and Smola, 2002]. Sinembargo,
Lin [2003] presenta en perspectiva la posibilidad de hacer que las maquinas de soporte vectorial
se conviertan en el principal metodo de clasificacion (seg
un KDNuggets 2002 Poll 1 , las redes
neuronales y los
arboles de clasificaci
on permanecen como principales herramientas) argumentando
que el problema de las SVM es el mal empleo que se les da probablemente por falta de conocimiento
1
http:://www.kdnuggets.com, A Site for Data Mining, Knowledge Discovery, Genomic Mining, Web
Mining.
de la metodologa. Lo que usualmente los usuarios desprevenidos estan haciendo es (ver blackboard
http://www.kernel-machines.org): convertir la informacion a clasificar al formato de alg
un programa SVM disponible sin tener en cuenta en la mayora de los casos las implicaciones del formato,
escalamiento, etc, para luego tratar aleatoriamente con valores de parametros y kernels indiscriminadamente sin hacer validaci
on y sin saber de antemano que los parametros por defecto en dichos
programas son sorprendentemente importantes y el hecho es que muchos de los usuarios obtienen
como resultado valores de error y generalizacion insatisfactorias.
Lo mnimo que se espera que haga el usuario seg
un Lin [2003] es escalar los datos para validacion
y entrenamiento, considerar el kernel RBF (Radial Basis Function) y encontrar valores adecuados
para C y 2 (o ). Ahora, esto de encontrar valores adecuados a veces no es tarea facil, sin
mencionar que lo que se pretende no es encontrar valores adecuados sino los mejores valores para
un caso dado. Hasta el momento, las tecnicas de seleccion de parametros o seleccion del modelo
como tambien es llamado son las siguientes: b
usqueda manual intuitiva, cotas para LOO (leave one
out) o para riesgo emprico, b
usqueda en dos sentidos y b
usqueda en malla.
1.1.
Trabajo Previo
En el tema de selecci
on de hiperpar
ametros en SVM no se ha hecho mucho hasta el momento debido
a que es un tema relativamente nuevo, sinembargo el trabajo realizado es bastante significativo. En
el trabajo con reconocimiento de patrones y mas especficamente en el area de clasificadores es
necesario encontrar medidas que sean proporcionales al error de clasificacion (funcion de riesgo y
dimension VC), es decir, que sean referentes al momento de seleccionar los parametros en la SVM
sin tener que realizar un proceso de validacion, que dependiendo del volumen de los datos puede
ser prohibitivo en terminos de tiempo y recursos computacionales. [Wahba et al., 2000] establece
mediante demostraciones matem
aticas y pruebas numericas la consistencia de la validacion cruzada
(en particular LOO) como medida del error en SVM con relacion a medidas de margen en el
hiperespacio de SVM. Joachims [2000] realiza pruebas con SVM utilizando como medidas del error:
error de entrenamiento, hold-out testing, Boostrap, Jack-knife y validacion cruzada en contraste a
una tecnica introducida por el llamada estimador basada en la solucion de los en el problema
dual de SVM y las perdidas del entrenamiento , obteniendo mejores resultados que validacion
cruzada y Boostrap en varias bases de datos estandar. Vapnik and Chapelle [2000] introduce el
concepto de span de los vectores de soporte como forma de obtener parametros optimos en SVM
por este ser una medida bastante precisa de el error de validacion. Jaakkola and Haussler [1999]
realiza pruebas matem
aticas para llegar a una formulacion que genera una cota superior para
LOO analizando la soluci
on de la funcion de costo de SVM. Opper and Winther [2000] utilizan un
metodo inspirado en la teora de respuesta lineal y prueban que bajo el supuesto de que los vectores
de soporte no cambian cuando se remueve un ejemplo bajo el esquema de LOO se puede obtener
una matriz de productos punto entre los vectores de soporte que deriva en una cota superior para
la estimaci
on del error. Vapnik [1998] propone bajo el supuesto que la solucion de SVM no presenta
errores de entrenamiento, una cota para el error de validacion basada en LOO que es la relacion entre
el margen y el radio de los vectores de soporte de la maquina entrenada. Keerthi and Ong [2000]
hace un an
alisis del aporte del valor del corrimiento en la formulacion de SVM en la optimalidad del
entrenamiento. Sundararajan and Keerthi [2001] deriva resultados de la probabilidad surrogativa
de Geisser (GPP), error predictivo de Geisser (GPE) y error de validacion cruzada para escoger los
parametros del kernel en el caso RBF. Lee and Lin [2001] propone un metodo de seleccion automatica
basada en LOO y una reducci
on simple del espacio de b
usqueda de los hiperparametros utilizando
una descomposici
on matricial del problema dual de SVM (BSVM). Chapelle et al. [2002] propone
una metodologa fundamentada en la diferenciabilidad del kernel, el criterio de Radio/Margen y
su dependencia con la soluci
on del problema de optimizacion de SVM para derivar un esquema
de gradiente descendiente para obtener hiperparametros optimos. Keerthi and Lin [2003] hacen un
analisis del comportamiento asint
otico de los parametros de SVM con kernel gaussiano y derivan
un procedimiento heurstico para encontrarlos y obtener un error de generalizacion bajo. Keerthi
[2002] presenta una implementaci
on del metodo de Chapelle et al. [2002] utilizando kernel RBF,
NPA (algoritmo de punto cercano) como algoritmo de optimizacion iterativo para SVM, SMO
(optimizaci
on secuencial mnima) para resolver el problema de Radio/Margen y quasi-Newton como
procedimiento de gradiente descendiente. Chung et al. [2003] utiliza la cota Radio/Margen con kernel
gaussiano para hacer una modificaci
on en el esquema de SVM y derivar a partir de L1-SVM y L2SVM un metodo de selecci
on autom
atica de parametros. Duan et al. [2003] hace una evaluacion
emprica del desempe
no de varias medidas para seleccion de hiperparametros, entre ellos: error de
validacion (como referente), validaci
on cruzada, cota i alpha, cota VC (Vapnik-Chervonekis),
2
Span aproximado y D2 kwk , utilizando bases de datos estandar en reconocimiento de patrones.
1.2.
Objetivos Principales del Trabajo
Las publicaciones reportadas hasta la fecha presentan un marcado interes por encontrar cotas del
riesgo emprico de manera que no sea necesario llevar a cabo una validacion para evaluar la solucion
obtenida por una SVM para un problema dado. En la medida en que ha sido posible se han
desarrollado metodos de selecci
on automatica de hiperparametros haciendo uso de dichas cotas y
metodos de optimizaci
on. Con esto, no es parte de esta tesis realizar un trabajo de investigacion
acerca de las cotas, ni de la forma o caractersticas del espacio de los hiperparametros o relaciones
entre ellos. Teniendo en cuenta las consideraciones anteriores, los objetivos de este trabajo son:
Profundizar en las tecnicas actuales basandose en la teora de SVM con el fin de desarrollar
un algoritmo de selecci
on automatica de hiperparametros en SVM con miras obtener un buen
desempe
no de los clasificadores en cuanto a error de validacion y costo computacional.
Analizar las tecnicas actuales de seleccion de parametros para identificar sus ventajas y
desventajas, como base del trabajo a realizar. Investigar acerca de metodos de optimizacion,
b
usqueda y par
ametros efectivos en SVM para luego desarrollar un algoritmo de seleccion
de hiperpar
ametros autom
atica que ofrezca ventajas sobre las otras desarrolladas hasta el
momento.
Para finalizar, se debe decir que en cuanto a los experimentos numericos realizados, las comparaciones con otras tecnicas han de realizarse de acuerdo a las posibilidades y el criterio del autor.
1.3.
Estructura del Documento
Partiendo del hecho que se considera primordial que este documento sea lo mas compacto y completo
posible, en los captulos 2 y 4 se presentan respectivamente, los fundamentos teoricos y consideraciones pr
acticas de las SVM y la clase de estrategias evolutivas empleadas en este trabajo. En el
captulo 3 se describen los metodos de seleccion automatica como componentes del marco comparativo usado para los experimentos en el captulo 6. En el captulo 5 se describe y se hacen
las consideraciones pertinentes con respecto al algoritmo propuesto. El documento termina con
un sumario de los resultados obtenidos e ideas para un trabajo posterior, ademas de un apendice
concerniente a kernels como complemento a los fundamentos teoricos de las SVM.
Captulo 2
M
Las Maquinas de Soporte Vectorial (SVM), han mostrado en los u
ltimos a
nos su capacidad en la
clasificaci
on y reconocimiento de patrones en general. El objetivo de este captulo es presentar los
fundamentos b
asicos, tanto te
oricos como practicos de las SVM y soportar su potencial en tareas
de clasificaci
on. Intuitivamente, dado un grupo de datos distribuidos en dos clases, una SVM lineal
busca un hiperplano de tal manera que la mayor cantidad de puntos de la misma clase queden
al mismo lado, mientras se maximiza la distancia de dichas clases al hiperplano. De acuerdo a
Vapnik [1995], este hiperplano minimiza el riesgo de clasificaciones erroneas en el grupo tomado
para realizar el proceso de validaci
on.
2.1.
Clasificaci
on con Vectores de Soporte
Para un grupo de entrenamiento de tama

no N compuesto de pares atributo-etiqueta (xi , yi )1iN ,
siendo xi Rn y yi {1, 1}, se desea obtener una ecuacion para un hiperplano que divida dicho
grupo de entrenamiento, de manera que aquellos puntos con igual etiqueta queden al mismo lado
del hiperplano. Esto significa encontrar un w y un b tal que
yi (w0 xi + b) > 0, i = 1, ..., N
(2.1)
Si existe un hiperplano que satisfaga (2.1), se dice que los datos son linealmente separables. En este
caso, w y b se pueden escalar as,
mn yi (w0 xi + b) 1
1iN
de tal manera, que el punto mas cercano al hiperplano tenga como distancia 1/kwk. Luego (2.1) se
puede escribir como
yi (w0 xi + b) 1
(2.2)
as, entre todos los posibles hiperplanos, aquel cuya distancia al punto mas cercano es maxima se
denomina el
optimo hiperplano de separacion (OSH). Mientras la distancia al hiperplano optimo
sea 1/kwk, encontrar el OSH equivale a resolver el siguiente problema
mn
w,b
1 0
ww
2
(2.3)
sujeto a yi (w0 xi + b) 1, i
La cantidad 2/kwk es llamada margen y el hiperplano que maximiza dicho margen, OSH. El
margen puede ser visto como una medida de la dificultad del problema, as, entre mas peque
no sea
el margen m
as difcil es el problema; o de otro modo, se espera una mejor capacidad de generalizacion
si el margen es m
as grande (ver figura 2.1).
Mientras w0 w sea convexo, minimizar la ecuacion (2.3) sujeto a (2.2) es posible utilizando multiplicadores de Lagrange [Burges, 1998]. Sean = {1 , ..., N } los N multiplicadores de Lagrange no
negativos asociados a (2.2), para minimizar (2.3) se debe encontrar el punto de silla de la siguiente
funcion de Lagrange
L(w, b, ) =
N
X
1 0
ww
i [yi (w0 xi + b) 1]
2
i=1
(2.4)
Para encontrar dicho punto, hay que minimizar la funcion (2.4) sobre w y b, y luego maximizarla
sobre los multiplicadores de Lagrange i 0. El punto de silla debe satisfacer las condiciones de
Figura 2.1: Hiperplanos que separan correctamente los datos. El OSH de la derecha tiene
un margen mayor por lo tanto se espera una mejor generalizacion
Karush-Kuhn-Tucker (KKT) [Burges, 1998],
L(w, b, ) X
=
yi i = 0
b
i=1
N
X
L(w, b, )
=w
i yi xi = 0
w
i=1
(2.5)
Substituyendo (2.5) en (2.4) el problema de optimizacion apunta ahora a resolver
m
ax
N
X
sujeto a
N
X
1X
i j yi yj x0i xj
2 i,j
(2.6)
yi i = 0 y i 0, i
i=1
Esto puede ser logrado utilizando metodos de programacion cuadratica estandar [Burges, 1998].
0
Una vez el vector 0 = {i0 , ..., N
} solucion de (2.6) ha sido encontrado, a partir de (2.5), el OSH
(w, b) tiene la siguiente forma
w0 =
N
X
i=1
i0 yi xi
(2.7)
mientras b0 puede ser obtenido a partir de las condiciones de KKT
i0 [yi (w0 xi + b) 1] = 0
(2.8)
Notese que de la ecuaci

on (2.8), los puntos para los cuales i0 > 0, satisfacen la desigualdad en
(2.2). Geometricamente, esto significa que aquellos puntos son los mas cercanos al OSH (ver figura
2.1). Estos puntos juegan un papel importante debido a que son los u
nicos valores necesarios en la
expresion para el OSH (ver ecuaci
on 2.7) y son llamados vectores de soporte (SV), por el hecho
que dan soporte a la expansi
on de w0 .
Dado un vector de soporte xi , el par
ametro b puede ser obtenido de las condiciones KKT como
b0 = yi w00 xi
El problema de clasificar un nuevo punto x, es resuelto examinando el signo de w00 x + b0 . Ahora,
considerando la expansi
on (2.7) de w0 , la funcion de decision f (x) para el hiperplano puede ser
escrita como
f (x) = sign
N
X
!
i0 yi x0i x
+b
i=1
2.2.
Caso Linealmente no Separable
Si los datos son linealmente no separables, buscar un OSH carece completamente de sentido. Con
la finalidad de posibilitar las violaciones, se pueden introducir variables slack (de relajacion)
(1 , ..., N ), para i 0 [Cortes and Vapnik], de manera que la expresion (2.2) se puede escribir
como
yi (w0 xi + b) 1 + i , i
El proposito de las variables i es permitir puntos erroneamente clasificados, los cuales correspondan
P
a i > 1, por lo tanto, i es una cota superior del n
umero de errores de entrenamiento. El OSH
generalizado puede ser obtenido como la solucion del siguiente problema
mn
w,b
X
1 0
w w+C
i
2
i=1
(2.9)
sujeto a yi (w xi + b) 1 + i y 0, i
El primer termino es minimizado para controlar la capacidad de aprendizaje del mismo modo que
en el caso separable; el segundo termino permite mantener bajo control el n
umero de clasificaciones
erroneas. El par
ametro C es elegido por el usuario de manera que un valor grande es equivalente
a asignar una alta penalizaci
on a los errores. En analoga con el caso separable, la utilizacion de
multiplicadores de Lagrange deriva en el siguiente problema de optimizacion,
m
ax
N
X
i
sujeto a
N
1 X
i j yi yj x0i xj
2 i,j=0
(2.10)
yi i = 0 y 0 i C, i
de la ecuaci
on (2.10) se puede notar que la u
nica diferencia hasta el momento con el caso separable
es que ahora tiene una cota superior C.
2.3.
M
aquinas de Soporte no Lineales
El principio de SVM no lineal consiste en mapear el espacio de entrada a un espacio de representacion

de dimensi
on alta a traves de una funcion no lineal elegida a priori [Boser et al., 1992], ver figura
2.2.
Sinembargo en este caso, surge un problema computacional, la dimension del espacio de representacion puede ser muy alta y la dificultad radica en como construir un hiperplano de separacion
en este espacio. La respuesta al problema parte de que para construir dicho hiperplano, el mapeo
z = (x) no necesita ser explcito, de manera que reemplazando x por (x) en (2.6) se tiene
10
Hiperplano ptimo en el
espacio de representacin
Espacio de entrada
Espacio de representacin
Figura 2.2: La SVM mapea el espacio de entrada en otro de representacion de dimensi

on
alta y luego construye un OSH sobre este u
ltimo
m
ax
N
X
i
sujeto a
N
X
1X
i j yi yj (xi )0 (xj )
2 i,j
yi i = 0 y i 0, i
i=1
de lo anterior, el algoritmo de entrenamiento solo depende de los datos a traves de los productos
punto en el espacio de representaci
on, esto es, funciones de la forma (xi )0 (xj ). Sea dada una funcion kernel simetrica K tal que K(xi , xj ) = (xi )0 (xj ), de modo que el algoritmo de entrenamiento
dependa solo de K y el mapeo no sea usado explcitamente.
Dado : Rd H, el kernel K es K(xi , xj ) = (xi )0 (xj ), pero de manera inversa, dado un kernel
K se deben establecer las condiciones para que el mapeo exista. Tales condiciones son aseguradas
por las condiciones de Mercer (ver apendice A):
Teorema 1 Sea K(x, y) una funci
on simetrica continua en L2 (C), luego, existe un mapeo y una
expansi
on, tal que
K(x, y) =
X
i=1
(x)0i (y)i
(2.11)
11
si y solo si, para alg

un g L2 (C), tal que
Z
K(x, y)g(x)g(y)dxdy 0
(2.12)
CC
Notese que para casos especficos, puede no ser facil mostrar cuando las condiciones de Mercer son
cumplidas, mientras que (2.12) debe mantenerse para alg
un g L2 (C). Sin embargo, es facil probar
que la condici
on se cumple para el kernel polinomial K(x, y) = (x0 y)p [ver Burges, 1998].
Los primeros kernels investigados para reconocimiento de patrones fueron los siguientes
Polinomial: K(x, y) = (x0 y + c)d para c > 0
Funci
on de base radial (RBF): K(x, y) = exp(kx yk2 ) para > 0
Sigmoide: tanh(x0 y + )
El primero resulta en un clasificador con funcion de decision polinomial, el segundo un clasificador
con funci
on de base radial y el u
ltimo un tipo particular de red sigmoidal de dos capas. Para el caso
de RBF, el n
umero de centros (n
umero de SV), los centros (SV), los pesos (i ) y el desplazamiento
(b) son generados autom
aticamente por la SVM en la etapa de entrenamiento y dan excelentes
resultados en comparaci
on a la red RBF clasica [Scholkopf et al., 1996]. De la misma forma, para el
caso del perceptr
on multicapa (MLP), la arquitectura (n
umero de nodos ocultos) es determinada
por el entrenamiento de la SVM.
2.4.
Capacidad de Generalizaci
on
En esta secci
on, se dan algunas bases teoricas que describen la capacidad de generalizacion de las
SVM.
2.4.1.
Riesgo Actual, Riesgo Emprico y Dimensi

on VC
Suponiendo que se tienen N observaciones (xi , yi )1iN para xi Rn y yi {1, 1} donde yi es

la etiqueta para xi , se asume existe una probabilidad P (x, y) para la cual los datos estan descritos.
Sea dada una m
aquina cuya tarea es aprender a mapear xi yi , dicha maquina es ciertamente
12
definida como un grupo de posibles mapeos x f (x, ) donde las funciones f (x, ) son descritas
por los par
ametros ajustables . Una eleccion particular de , genera una maquina entrenada en
particular. Esto es, por ejemplo, una red neuronal con una arquitectura fija, donde corresponde
a los pesos y los desplazamientos, es en efecto una maquina de aprendizaje.
La esperanza del error de validaci
on, para una maquina entrenada es por consiguiente [Vapnik,
1995]:
Z
R() =
1
|y f (x, )|dP (x, y)
2
La cantidad R() es llamada riesgo esperado o simplemente riesgo. Se llamara aqu riesgo actual
para enfatizar que es la cantidad en la que finalmente se esta interesado. El riesgo emprico,
Remp (x) est
a definido como la medida de error en un grupo dado de validacion:
Remp () =
La cantidad Q((xi , yi ), ) =
1
2 |yi
N
1 X
|yi f (x, )|
2N i=1
f (x, )| es llamada perdida. Para el caso descrito aqu, solo
toma valores entre 0 y 1. Si se escoge un , de manera que 0 1, luego, con una probabilidad
de al menos 1 , la siguiente cota se mantiene [Vapnik, 1995]
s
R() Remp () +

h(log(2N/h) + 1) log(/4)
N
donde h es un entero no negativo llamado dimension de Vapnik-Chervonenkis (VC) y es la medida

de la capacidad de la m
aquina de aprendizaje. El segundo termino de la desigualdad es llamado
confidencia VC, el cual es tan peque
no como la dimension VC, por lo tanto una forma de controlar
la capacidad de generalizaci
on de una maquina es manipular la dimension VC.
Sea definido un grupo de funciones {f ()}, tal que para un grupo dado de N puntos, se puedan
etiquetar de todas las posibles 2N formas, y para cada etiqueta, un miembro del grupo {f ()} pueda
encontrar la manera de asignar dichas etiquetas. Se dice que este grupo de puntos es fragmentado
por el grupo de funciones. La dimension VC para el grupo de funciones {f ()} esta definido como
el n
umero m
aximo de puntos de entrenamiento que pueden ser fragmentados por {f ()}.
13
2.4.2.
La Dimensi
on VC de las SVM
Primero, se presenta un teorema que establece una cota de la dimension VC para hiperplanos de
separacion
Teorema 2 Sea X Rn un conjunto de vectores, x X, kxk2 < R. Un subconjunto S de
hiperplanos, tales que (w, b) S,
inf |w0 x + b| = 1
xX
|w| A
tiene una dimensi
on VC acotada por
V Cdim < mn(R2 A2 , n) + 1

De manera que minimizando w0 w, tambien la cota de la dimension VC para los hiperplanos de
separacion y, por lo tanto una mejor generalizacion esperada. Notese que en el caso de SVM no lineal,
este teorema debe ser aplicado sobre el espacio de representacion, as, la capacidad de generalizacion
esta bajo control, incluso si el espacio es infinito dimensional.
2.4.3.
Procedimiento Leave-One-Out
Una manera de predecir el desempe

no de generalizacion de una SVM es estimar la dimension VC
calculando el termino R2 w0 w. Otra manera es utilizar un estimador Leave-one-Out (LOO) [Vapnik,
1998]. Dada una muestra de N + 1 ejemplos de entrenamiento, el procedimiento para LOO consiste
en seguir los siguientes pasos (i):
Remover el ejemplo xi del grupo de entrenamiento
Entrenar la m
aquina con el nuevo grupo de entrenamiento a fin de obtener los i
Probar si xi es correctamente clasificado
El n
umero de errores cometidos por la maquina en el procedimiento LOO esta denotado por LN +1 .
Por definici
on
14
LN +1 =
N
+1
X
Q((xi , yi ), )
n=1
La cantidad
LN +1
N +1 ,
es la estimaci
on del error de generalizacion. Gracias a esto el siguiente teorema
es valido
Teorema 3 (Luntz y Brailovsky, 1969) El estimador LOO es no sesgado, esto es

E
LN +1
N +1

= E(RN )
La esperanza del termino del lado izquierdo es tomada del grupo de entrenamiento de tama
no
N + 1 y E(RN ) es la esperanza del riesgo actual para OSH construidos sobre la base de un grupo
de entrenamiento de tama
no N . Entonces, para controlar la capacidad de generalizacion se debe
tratar de minimizar el n
umero de errores cometidos en el procedimiento LOO.
Nota 1 Para SVM, el procedimiento LOO se debe realizar solo en los vectores de soporte, los no
vectores de soporte ser
an reconocidos correctamente debido a que un no vector de soporte no afecta
la funci
on de decisi
on.
2.4.4.
Cotas para el Estimador de Leave-One-Out
Se muestran aqu, diferentes cotas para el estimador LOO en SVM.
N
umero de SV
Debido al hecho presentado en la nota 1, se puede restringir la sumatoria solo a los vectores de
soporte y luego acotar superiormente cada termino en la suma por 1, de lo cual se obtiene la
siguiente cota del n
umero de errores cometidos por el procedimiento LOO [Vapnik, 1995]
T =
NSV
N
de donde NSV es el n
umero de vectores de soporte.
15
Jaakkola-Haussler
Para SVM sin valor de desplazamiento, analizando el proceso de optimizacion del algoritmo de SVM
cuando se calcula el error LOO, Jaakkola and Haussler [1999] provee la siguiente desigualdad
yp (f 0 (xp ) f p (xp )) p0 K(xp , xp ) = Up

de la cual se extrae la siguiente cota
T =
N
1 X
(p0 K(xp , xp ) 1)
N p=1
En [Wahba et al., 2000] se propone una estimacion de los errores producidos bajo el esquema LOO,
para el cual en el caso de SVM con margen rgido (C = ) se vuelve
T =
1 X 0
p K(xp , xp )
N
lo cual se puede ver como una cota superior de Jaakkola-Haussler siempre y cuando (x 1) x
para x 0.
Opper-Winther
En el caso de SVM con margen rgido sin desplazamiento, Opper and Winther [2000] utiliza un
metodo basado en la teora de respuesta lineal para probar que bajo el supuesto que un grupo de
vectores de soporte no cambia cuando se remueve un ejemplo p, se tiene
yp (f 0 (xp ) f p (xp )) =
p0
1
(KSV
)pp
donde KSV es la matriz de productos internos entre los vectores de soporte y que lleva a la siguiente
estimacion
16
T =
N
p0
1 X
1)
( 1
N p=1 (KSV )pp
Radio-Margen
Sea que el margen
optimo es igual a M y que las imagenes (xi ) de los vectores de entrenamiento
xi , estan contenidas en una esfera de radio R. Entonces, el siguiente teorema se mantiene [Vapnik
and Chapelle, 2000]
Teorema 4 Dado un conjunto de entrenamiento Z = {(x1 , y1 ), ..., (xN , yN )}, un espacio de representaci
on en H y un hiperplano (w, b), el margen M (w, b, Z) y el radio R(Z) son definidos como
M (w, b, Z) =
mn
(xi ,yi )Z
yi (w0 (xi ) + b)
kwk
R((Z)) = mn k(xi ) + ak
a,xi
El algoritmo de margen m
aximo, LN : (X Y)N H R toma como entrada el conjunto de
entrenamiento de longitud N y devuelve un hiperplano en el espacio de representaci
on, tal que
el margen es maximizado. N
otese que asumiendo que dicho grupo de entrenamiento es separable,
entonces M (w, b, Z) > 0. Bajo este supuesto, para todas las medidas de probabilidad P (Z), la
probabilidad esperada de clasificaci
on err
onea es
perr (w, b) = P (sign(w0 (X) + b) 6= Y )

con la cota
E{perr (LN 1 (Z))}
1
E
N
R2 (Z)
2
M (L(Z), Z)

(2.13)
donde la esperanza es tomada sobre un subconjunto aleatorio de Z de longitud N 1 para el lado

izquierdo y N para el derecho en (2.13).
Este teorema se ajusta a la idea de construccion de un hiperplano que separe los datos con un margen
grande (entre m
as grande sea dicho margen, mejor sera el desempe
no del hiperplano construido).
17
De acuerdo al teorema 4, el desempe

no promedio depende de E
R2
M2
y no simplemente de cuan
grande sea el margen M .

Para SVM sin desplazamiento y sin errores de entrenamiento, Vapnik [1998] propone la siguiente
cota superior para el n
umero de errores cometidos por LOO
T =
1 R2
N M2
(2.14)
donde R y M son respectivamente el radio y el margen definidos en el teorema 4.
Span de los Vectores de Soporte

Vapnik and Chapelle [2000] derivaron otra estimacion utilizando el concepto del span de los vectores
de soporte. Bajo el supuesto de que los SV permanecen intactos durante el procedimiento de LOO,
la siguiente igualdad es cierta
yp (f 0 (xp ) f p (xp )) = p0 Sp2

donde Sp es la distancia entre el punto (xi ) y la coleccion p , y a su vez,
p =
i6=p , 0i >0
i (xi ) ,
=1
i6=p
de lo que se obtiene, el n
umero exacto de errores cometidos por LOO bajo el supuesto previo. As,
la cota para LOO se define como sigue
T =
N
1 X
(p0 Sp2 1)
N p=1
(2.15)
Ademas, la estimaci
on del span puede ser relacionada con las otras mencionadas con formulaciones
simples [Chapelle et al., 2002].
18
2.5.
Algoritmo de Entrenamiento
Considerando la f
ormula general para la SVM, es decir, no lineal y no separable:
m
ax
N
X
i
sujeto a
N
X
1X
i j yi yj K(xi , xj )
2 i,j
(2.16)
yi i = 0 y 0 i C, i
i=1
el metodo de descomposici
on es tenido en cuenta considerando la densidad de la matriz kernel
K(xi , xj ) de la ecuaci
on (2.11). Buena parte del trabajo al rededor de este metodo puede ser
encontrado en [Osuna et al., 1997, Joachims, 1999, Platt, 1999, Saunders et al., 1998].
2.5.1.
M
etodo de Descomposici
on
Partiendo de la ecuaci
on (2.16) se puede realizar la siguiente representacion vectorial:
mn
1 0
Q e0
2
(2.17)
sujeto a y 0 = 0 y 0 i C, i
donde Qij = yi yj K(xi , xj ) y e = 1, i.
Algoritmo 1
Dado un n
umero q < N , como tama
no del conjunto de trabajo, se encuentra 1 soluci
on
inicial y se hace k = 1
Si k es la soluci
on
optima de la ecuaci
on (2.17) se termina, de otro modo se busca un conk
k
junto B {1, ..., N } con tama
no q. Se definen L {1, ..., N }\B, B
y L
como subvectores
de k correspondientes a B y a L respectivamente
19
Se resuelve el siguiente problema respecto de B :

mn
B
1 0
k 0
QBB B (eB + QBL L
) B
2 B
(2.18)
0
0 k
sujeto a yB
B = yL
L y 0 (B )i C, i
"
donde
QBB
QBL
QLB
QLL
#
es una permutaci
on de la matriz Q
k+1
k+1
k
Se deja B
como soluci
on
optima de (2.18) y L
L
. Se hace k = k + 1 y se vuelve al
paso 2
La idea b
asica del algoritmo de descomposicion es que en cada iteracion los ndices {1, ..., N } del
conjunto de entrenamiento, sean separados en dos mas peque
nos B y L, donde B es el de trabajo. El
0
0
QBB B (eB QBL L )0 B + 12 L
QLL L
vector L es fijado de manera que el objetivo sea 21 B
e0L L . Luego, se resuelve un subproblema respecto de B , B es actualizado en cada iteracion (notese

que para simplificar la notaci
on se utiliza B en vez de B k ) y el decrecimiento estricto de la funcion
objetivo se sostiene (ver secci
on 2.5.3 referente a la convergencia teorica del algoritmo).
2.5.2.
Selecci
on del Conjunto de Trabajo y Criterio de Parada
Una de las partes importantes en el algoritmo de descomposicion es la seleccion del grupo de trabajo
B. La condici
on de Karush-Kuhn Tucker (KKT) en la ecuacion (2.17) muestra que existe un escalar
y dos vectores no negativos y , tales que
Q + e + by =
i i = 0, i (C )i = 0
(2.19)
i 0, i 0, i
Notese que si se escriben las condiciones de KKT para el primario y el dual, resultan ser las mismas y
el multiplicador de Lagrange de la restriccion lineal y 0 = 0 coincide con el valor de desplazamiento
b en la funci
on de decisi
on. Luego, la ecuacion (2.19) puede reescribirse como
20
Q + e + by 0, si = 0
= 0, si 0 < < C
0, si = C
ahora, utilizando y = 1, i y asumiendo que C > 0, se tiene que
y = 1, t < C (Q + e)t + b 0 b (Q + e)t = f ()t

y = 1, t > 0 (Q + e)t b 0 b (Q + e)t = f ()t
y = 1, t < C (Q + e)t b 0 b (Q + e)t = f ()t
y = 1, t > 0 (Q + e)t + b 0 b (Q + e)t = f ()t
donde f () = 21 0 Q + e0 y f () es el gradiente de f () en y considerando
i argmax({f ()t |yt = 1, t < C}, {f ()t |yt = 1, t > 0})
(2.20)
j argmin({f ()t |yt = 1, t < C}, {f ()t |yt = 1, t > 0})

de manera que B = {i, j} puede usarse como grupo de trabajo para el subproblema en la ecuacion
(2.18) del metodo de descomposici
on, donde i y j son los dos elementos que mas violan las condiciones de KKT. La idea de utilizar dos elementos como grupo de trabajo son tomadas del algoritmo
de optimizaci
on secuencial mnima (SMO) de Platt [1999]. La principal ventaja de esto, es que
la solucion analtica de la ecuaci
on (2.17) puede ser obtenida sin la necesidad de un programa de
optimizaci
on comercial. N
otese que la ecuacion (2.20) es un caso especial del metodo SV M light
en Joachims [1999]. Para ser m
as preciso, en SV M light , si es la solucion actual del problema, el
siguiente es resuelto
mnd f ()0 d
y 0 d = 0, 1 d 1,
(2.21)
dt 0, si t = 0, dt 0, si t = 0
|{dt dt 6= 0}| = q
(2.22)
notese que |{dt dt 6= 0}| es el conjunto de componentes de d que no son cero. La restriccion en la
ecuacion (2.22) implica que la componente descendiente involucra solamente q variables. Luego, las
21
componentes de con dt diferentes de cero son incluidas en el grupo de trabajo B utilizado para
construir el subproblema en la ecuaci
on (2.18). En efecto, d u
nicamente se usa para identificar B y
no para encontrar la direcci
on de b
usqueda.
Puede ser visto claramente que si q = 2 la solucion de la ecuacion (2.21) es
i = argmin{f ()t dt |yt dt = 1; dt 0, si t = 0; dt 0, si t = C}

j = argmin(f ()t dt |yt dt = 1; dt 0, si t = 0; dt 0, si t = C}
la cual es igual a la ecuaci
on (2.20) y corresponde a la segunda modificacion del algoritmo SMO en
Keerthi et al. [1999].
Ahora, se pueden definir
(
gi
f ()i si yi = 1, i < C
f ()i si yi = 1, i > 0
(2.23)
(
gj
f ()j si yj = 1, j < C
f ()j si yj = 1, j > 0
(2.24)
De la ecuaci
on (2.21) se tiene que
gi gj
(2.25)
lo cual implica que es una soluci

on optima de la ecuacion (2.16), de manera que el criterio de
parada puede ser escrito e implementado de la siguiente forma como
gi gj +
donde es una constante positiva peque
na.
(2.26)
22
2.5.3.
Convergencia del M
etodo de Descomposici
on
La convergencia de los metodos de descomposicion fue inicialmente estudiada en Chang et al. [2000]
sinembargo, no coinciden con las implementaciones existentes. En esta seccion, solo se tienen en
cuenta resultados de convergencia para el metodo especfico de descomposicion de la seccion 2.5.1.
A partir de Keerthi and Gilbert [2002] se tiene que
Teorema 5 Dado cualquier > 0 despues de un n
umero finito de iteraciones la expresi
on en (2.26)
ser
a satisfecha.
El teorema 5 establece la llamada propiedad de terminacion finita, de modo que se tiene la seguridad
de que luego de un n
umero finito de pasos el algoritmo terminara.
Teorema 6 Si {k } es la secuencia generada por el algoritmo de descomposici
on en la secci
on
2.5.1, el lmite de cualquiera de sus subsecuencias convergentes es soluci
on
optima de la ecuaci
on
(2.17).
El teorema 5 no implica el teorema 6 si se consideran gj y gj en la ecuacion (2.26) como funciones de
que no son continuas. Por consiguiente no se puede tomar el lmite en ambos lados de la ecuacion
(2.26) y afirmar que cualquier punto convergente ya satisface las condiciones de KKT.
El teorema 6 fue inicialmente demostrado como una caso especial de los resultados generales en Lin
[2001c] donde algunos supuestos son necesarios. Partiendo de la demostracion en Lin [2001a], los
supuestos son eliminados, por tanto el teorema es completamente valido.
Considerando la convergencia local, debido a que el algoritmo utilizado es una caso especial de uno
discutido en Lin [2001b], se tiene el siguiente teorema
Teorema 7 Si Q es definida positiva y el dual del problema de optimizaci
on es degenerado (ver
supuesto 2 en Lin [2001b]), existe un c < 1, tal que luego de que k suficientemente grande,
f (k+1 ) f ( ) c(f (k ) f ( ))
donde es la soluci
on
optima de (2.17).
23
Con esto, el metodo de descomposicion aqu descrito es linealmente convergente. Los resultados
mostrados en esta secci
on, son v
alidos para kernels que pueden ser considerados como el producto
punto entre dos vectores de caractersticas, esto es, Q es semidefinida positiva. Por ejemplo, para
algunos kernels como el sigmoidal (ver ecuacion A.5) Q puede no ser semidefinida positiva por
tanto la ecuaci
on (2.17) es un problema de optimizacion no convexo que puede contener varios
mnimos locales. Sinembargo, con unas peque
nas modificaciones del algoritmo 1 se puede garantizar
la convergencia a un mnimo local (ver Lin and Lin [2003]).
2.5.4.
Soluci
on Analtica
Con la selecci
on del grupo de trabajo en la seccion 2.5.2, la ecuacion (2.18) se convierte en un
problema de dos variables
1
mn [i j ]
i ,j 2
"
Qii
Qij
Qji
Qjj
#"
i
j
#
+ (Qi,L L 1)i + (Qj,L L 1)j
(2.27)
0 k
sujeto a yi i + yj j = 0 yL
L
0 i , j C
0
L yj j ) en la funcion objetivo de la ecuacion (2.18)
En Platt [1999] se sustituye i por yi (yL
y se resuelve la minimizaci
on sin restricciones respecto a i , obteniendose la siguiente solucion
jnew
+
j
j +
Gi Gj
Qii +Qjj +2Qij
Gi +Gj
Qii +Qjj 2Qij
si yi 6= yj
(2.28)
si yi = yj
donde
Gi f i y Gj f ()j
Si este u
ltimo valor est
a por fuera de de la posible region para i , el valor en la ecuacion (2.28) es
truncado y asignado a jnew . Por ejemplo, si yi = yj y C i + j 2C, jnew debe satisfacer
L i + j C jnew C H
24
de modo que el m
aximo valor para inew y jnew es C. Por consiguiente
j +
G i + Gj
L
Qii + Qjj 2Qij
entonces jnew = L y
inew = i + j jnew = C
(2.29)
Esto puede ser ilustrado en la figura 2.3 en la cual se optimiza una funcion cuadratica sobre un
segmento de recta. El segmento de recta es la interseccion entre la restriccion lineal yi i + yj j y
las restricciones acotadas 0 i y j C.
Figura 2.3: Solucion analtica de un problema de optimizacion de dos variables

No obstante, la igualdad en la ecuaci
on (2.29) podra no mantenerse si la operacion de punto flotante
causara que i + j jnew = i + j (i + j C) lo cual es diferente de C. Luego, en la mayora
de los casos, una peque
na tolerancia es especificada de manera que todo i C es una cota
superior y i = 0. Esto u
ltimo es necesario ya que algunos datos podran ser considerados
erroneamente como vectores de soporte. En adicion el calculo del valor de desplazamiento tambien
necesita correcci
on para aquellos valores libres de i (0 i C).
En Hsu and Lin [2002b] es se
nalado que si todos los i obtienen sus valores mediante asignaciones
directas, no es necesario utilizar un valor de . Para ser mas precisos, en una operacion de punto
flotante si i C es asignado, una futura comparacion entre i y C retornara verdadero siempre
y cuando contengan la misma representacion interna.
25
Otro peque
no problema es que el denominador en la ecuacion (2.28) puede ser cero. Cuando esto
sucede,
Qij = (Qii + Qij )/2

por lo tanto
Qii Qjj Q2ij = Qii Qjj (Qii + Qjj )2 /4 = (Qii Qij )2 /a 0

Ahora, considerando que QBB es definida positiva, el denominador cero en la ecuacion (2.28) no es
posible. De ah que este problema solo pueda suceder cuando Q sea singular de 22. A continuacion
se discuten dos situaciones en las cuales dicha matriz puede ser singular
La funci
on no mapea los datos en vectores independientes en el espacio de alta dimensionalidad haciendo que Q sea solo semidefinida positiva. Por ejemplo utilizando un kernel lineal
o polinomial de orden bajo.
Algunos kernels tienen una interesante propiedad por la cual (xi ) (i) son independientes
siempre y cuando xi 6= xj . Un ejemplo de esto es el kernel RBF (ver Micchelli [1986]), debido
a que en muchas situaciones pr
acticas algunos xi son los mismos lo cual implica columnas (o
filas) de Q que son exactamente iguales y con esto la posibilidad de que QBB sea singular.
De cualquier manera, incluso si el denominador en la ecuacion (2.28) es cero no hay problemas
numericos desde que en la ecuaci
on (2.26) se puede ver que
gi + gj
y durante el proceso de iteraci
on
gi + gj = (Gi Gj ), si yi 6= yj , (y)
gi + gj = (Gi Gj ), si yi = yj
26
Si la matriz del kernel no es semidefinida positiva Qii + Qjj 2Qij puede no ser positiva entonces la
ecuacion (2.28) puede no producir una actualizacion de modo que el valor objetivo sea disminuido.
Ademas el algoritmo puede permanecer en un solo punto quedandose en un ciclo infinito. En Lin
and Lin [2003] se estudia este problema en detalle y se propone la siguiente modificacion
jnew
+
j
j +
Gi Gj
m
ax(Qii +Qjj +2Qij ,0)
Gi +Gj
m
ax(Qii +Qjj 2Qij ,0)
si yi 6= yj
si yi = yj
as, se garantiza el decrecimiento estricto de la funcion objetivo.
2.5.5.
C
alculo de b
Despues de encontrar la soluci

on al problema de optimizacion la variable b debe ser calculada para
ser utilizada en la funci
on de decisi
on. Las condiciones KKT de la ecuacion (2.17) fueron mostradas
en la ecuaci
on (2.20). Ahora, para el caso de y = 1 si existen i que satisfagan 0 i C entonces
se hace, r1 = f ()i . Para evitar errores numericos, se promedian como
P
0i C,yi =1
r1 =
f ()i
0i C,yi =1
Por otro lado, si no existe tal i , r1 debe satisfacer
m
ax
i =C,yi =1
f ()i r1
mn
i =0,yi =1
f ()i
de donde r1 toma el punto medio del rango. Para yi = 1 un r2 se calcula de manera similar y
luego de que ambos r1 y r2 son obtenidos,
b =
r1 r 2
2
Notese que las condiciones de KKT pueden ser escritas como
m
ax
i >0,yi =1
f ()i
mn
i <C,yi =1
f ()i
27
de modo que el siguiente criterio de parada puede ser utilizado practicamente: el algoritmo de
descomposici
on para si en la iteraci
on satisface
m
ax(
mn
i <C,yi =1
f ()i +
mn
i <C,yi =1
max
i >0,yi =1
f ()i +
f ()i ,
max
i >0,yi =1
f ()i ) <
donde > 0 es una constante elegida como tolerancia de parada.
2.5.6.
Contracci
on
Considerando que en muchos de los problemas practicos, el n

umero de vectores de soporte libres
(0 i C) es peque
no, la tecnica de contraccion reduce el tama
no del problema de trabajo
sin considerar algunas variables acotadas [Joachims, 1999]. En un punto cercano al final del proceso iterativo, el metodo de descomposicion identifica un posible conjunto A de modo que todos
los vectores de soporte libres queden contenidos en el. Para esto, el siguiente teorema muestra
que en las iteraciones finales de la descomposicion propuesta en la seccion 2.5.2 solo las variables
correspondientes a un conjunto peque
no tienen la posibilidad de moverse [Lin, 2002]
Teorema 8 Si lmk k =
por el teorema 6, entonces,
es una soluci
on
optima. Incluso,
cuando k es suficientemente grande, solo los elementos en
{t| yt f (
)t = max(
max
f (
)i ,
= mn(
mn
f (
)i ,
i <C,yi =1
i <C,yi =1
max
i >0,yi =1
mn
i >0,yi =1
f (
)i )
f (
)i )
pueden todava seguir siendo modificados.

por lo tanto, se tiende a pensar que si la variable i es igual a C para algunas iteraciones, al final
de la soluci
on, esta permanece como cota superior. De ah que en vez de resolver todo el problema
de la ecuaci
on (2.17), se trabaja con uno de menor tama
no
mn
A
sujeto a
1 0
k 0
QAA A (eA + QAL L
) A
2 A
0
yA
A
0 k
yL
L
y 0 (A )i C, i
(2.30)
28
donde L = {1, ..., N }\A. Sinembargo, esta heurstica puede fallar si la solucion de la ecuacion (2.30)
no es una parte correspondiente a la de la ecuacion (2.17). Cuando esto sucede, el problema completo
se vuelve a optimizar desde un punto donde B es una solucion optima de la ecuacion (2.30) y L
son variables acotadas identificadas antes del proceso de contraccion. Notese que mientras que se
esta resolviendo el problema de contraccion solo se conoce el gradiente QAA A + QAL L + eA
de la ecuaci
on (2.30). Considerando esto u
ltimo, cuando se optimiza de nuevo el problema de la
ecuacion (2.17) se debe reconstruir completamente el gradiente de f ()i lo cual es un tanto costoso
en terminos computacionales. Para evitar esto, en vez de iniciar el proceso de contraccion al final
del proceso iterativo, se inicia desde el principio como sigue:
Luego de cada mn(N, 1000) iteraciones se tratan de contraer algunas variables. As, durante
el proceso iterativo,
mn({f (k )t |yt = 1, t < C}, {f (k )t |yt = 1, t > 0}) = gii
< m
ax({f (k )t |yt = 1, t < C}, {f (k )t |yt = 1, t > 0}) = gjj
la ecuaci
on (2.25) no se satisface todava. Entonces, se supone que si gi gii de la ecuacion
(2.23) y t est
a dentro del rango, es muy posible que t no vuelva a cambiar, por lo tanto se
desactiva esa variable. Similarmente para gj gjj de la ecuacion (2.24) con t dentro del
rango. De esta manera, el conjunto A de variables activas es dinamicamente reducido cada
mn{L, 1000} iteraciones.
Es claro que la estrategia de contraccion arriba mencionada es muy agresiva considerando
que el metodo de descomposicion tiene una convergencia lenta y una gran cantidad de las
iteraciones es consumida alcanzando el dgito final de precision requerido, no es deseado que
se pierdan iteraciones innecesariamente debido a una contraccion erronea. Con esto, cuando el
metodo de descomposici
on alcanza primero la tolerancia gi gj +10, el gradiente completo
es reconstruido. Luego, basados en la informacion correcta, se utilizan las ecuaciones (2.23)
y (2.24) para desactivar algunas variables y continuar con el metodo de descomposicion.
Como el tama
no del conjunto A es dinamicamente reducido, para disminuir el costo computacional
del gradiente f () durante las iteraciones se mantiene siempre
i = C
G
X
j =c
qij , i
29
As, para el gradiente f ()i con i 3 A se tiene
f ()i =
i +
Qij j = G
i=1
2.5.7.
Qij j , i
0<j <C
Caching
Otra tecnica para reducir el costo computacional es el caching. teniendo en cuenta que que Q es
completamente densa y puede no ser guardada en la memoria del computador, los elementos Qij
son calculados en cuanto sea necesario. Luego, utilizando la idea de almacenamiento de cache se
pueden guardar los elementos de Qij recientemente usados [Joachims, 1999] haciendo que el costo
computacional de posteriores iteraciones sea menor.
El teorema 8 soporta el uso de caching debido a que en las iteraciones finales, solo algunas columnas
de la matriz Q siguen siendo necesitadas de manera que si el cache contiene dichas columnas, se
pueden evitar la mayora de las evaluaciones del kernel para esta etapa.
Para la implementaci
on pr
actica, se utiliza una estrategia simple consistente en dinamicamente
guardar solo las columnas recientes utilizadas de la matriz QAA de la ecuacion (2.30).
2.5.8.
Complejidad Computacional
La discusi
on en la secci
on 2.5.3 es acerca de la convergencia global asintotica del metodo de descomposicion. En adici
on, la convergencia lineal (teorema 7) es una propiedad de la tasa de convergencia
local. En esta secci
on, se discute la complejidad computacional del metodo.
k
La mayor cantidad de operaciones residen en el calculo de QBL L
+ eB y la actualizacion de
f (k ) a f (k+1 ). N
otese que f () es usada tanto en la seleccion del grupo de trabajo como
en la condici
on de parada, de modo que puede considerarse todo junto como
k
QBL L
+ eB = f (k ) QBB bk
(2.31)
30
k
f (k+1 ) = f (k ) + Q:,B (bk+1 B
)
(2.32)
donde Q:,B es la submatriz de Q con ndices en B. Esto es, en la kesima iteracion con f (k )
conocido y la parte derecha de la ecuacion (2.31) como constructor del subproblema. Luego de
que el subproblema es resuelto, la ecuacion (2.32) es empleada para obtener el proximo f (k+1 ).
Como B contiene solo dos elementos y resolver el subproblema es facil, el costo sustancial reside
k
en el calculo de Q:,B (bk+1 B
). La operacion en s toma O(2N ), sinembargo si Q:,B no esta
disponible en el cache y cada operacion del kernel cuesta O(n) en efecto, cada columna de Q:,B
necesita O(nN ). De manera que la complejidad es iteracionesO(N ) o iteracionesO(N n) seg
un
sea el caso teniendo en cuenta que si se utiliza contraccion, N disminuye gradualmente. Desafortunadamente, no se sabe mucho acerca de la complejidad del n
umero de iteraciones. Sinembargo,
algunos resultados interesantes fueron obtenidos por Hush and Scovel [2003] aunque solo para los
metodos de descomposici
on descritos en Chang et al. [2000].
2.6.
M
aquinas de Soporte Multi Clase
En esta secci
on se discute el metodo para SVM multi clase uno contra uno [Knerr et al., 1990],
en el cual k(k 1)/2 clasificadores deben ser construidos para entrenar pares de diferentes clases.
La primera utilizaci
on de este metodo con SVM fue en Friedman [1996], KreSSel [1999]. Para el
entrenamiento de las clases iesima y jesima se resuelve el siguiente problema binario:
mn
wij ,bij , ij
X ij
1 ij 0 ij
(w ) w + C
(t )
2
t
(wij )0 (xt ) + bij 1 tij , si xt I
(wij )0 (xt ) + bij 1 + tij , si xt J
tij 0
En la clasificaci
on se utiliza la estrategia de votacion de manera que la clase se asigna para cada
punto x como la resultante con mayor n
umero de votos o en el caso que dos clases tengan igual
n
umero de votos, simplemente la de menor ndice.
31
La otra tecnica m
as usada para SVM multi-clase es uno contra todos en la cual se construyen
k modelos binarios entre la clase iesima y el resto de las muestras de las otras clases juntas.
Sinembargo, no se considera debido a que en la literatura [Weston and Watkins, 1998, Platt et al.,
2000] presenta un menor desempe
no que uno contra uno.
Ademas, si bien se entrenan m
as clasificadores k(k 1)/2, cada problema es mas peque
no (ademas
relativamente balanceado) haciendo que el tiempo de entrenamiento total no sea mayor al de uno
contra todos. Algunos detalles comparativos de estas y otras tecnicas puede ser encontrado en Hsu
and Lin [2002a].
Captulo 3
Selecci
on de Hiperpar
ametros en
M
En el problema de aprendizaje supervisado se toma un conjunto de pares entrada salida y se
trata de construir una funci
on f que mapea los vectores de entrada xi Rn en etiquetas yi
{1, 1}. El objetivo consiste entonces en encontrar una f F que minimize el riesgo emprico Remp
(ver secci
on 2.4.1) en ejemplos posteriores. Los algoritmos de aprendizaje usualmente dependen de
parametros que controlan el tama
no de la clase F o en la forma como la b
usqueda es realizada
en F. Actualmente existen varias tecnicas para encontrar dichos parametros. El riesgo emprico o
error de generalizaci
on puede ser estimado o bien utilizando algunos de los datos no empleados en el
entrenamiento (validaci
on de muestra independiente o validacion cruzada) o mediante alguna cota
dada por el an
alisis te
orico (ver secci
on 2.4.4).
Usualmente existen m
ultiples par
ametros para ajustar al mismo tiempo, es mas, la estimacion del
error no es una funci
on explcita de tales valores de manera que la estrategia natural es una b
usqueda
exhaustiva en el espacio de los par
ametros lo cual corresponde a correr el algoritmo de entrenamiento
en cada valor posible previamente almacenado en un vector (sujeto a alguna discretizacion). Otra
manera, es encontrar una metodologa que automaticamente los ajuste, en el caso de la SVM,
tomando ventaja tanto de sus propiedades de formulacion como de su algoritmo.
De manera especfica, los par
ametros de los cuales depende la SVM son: el denotado como C que
32
33
controla el balance entre la maximizacion del margen y la penalizacion del error, as como todos
los que aparecen en el mapeo no lineal al espacio de representacion o kernel. Como es ampliamente
conocido, uno de los factores m
as importantes en el desempe
no de las SVM es la seleccion de la
funcion kernel, sinembargo, en la pr
actica muy pocos son utilizados debido a la dificultad inherente
en el ajuste de dichos par
ametros.
3.1.
B
usqueda en Malla
Esta tecnica ha sido utilizada durante los u

ltimos a
nos, aunque nunca fue presentada formalmente.
Debido a su simplicidad, es usada ampliamente por muchos investigadores del area de aprendizaje
de maquina. Esta procedimiento consiste en construir una malla acotada de vectores de parametros
conteniendo todas las posibles combinaciones en un espacio acotado de b
usqueda y para un paso
de discretizaci
on escogido. Debido a que es necesario utilizar alguna medida del desempe
no de la
SVM, la validaci
on cruzada de n particiones es usada de modo que el vector de parametros elegido
es aquel para el cual el error de validacion sea menor para una tarea en especfico. La b
usqueda en
malla para el kernel RBF est
a dada por la siguiente definicion:
Definici
on 9 Para un par de par
ametros de la SVM y el kernel: C y respectivamente, con
Cmin , min como cotas inferiores, Cmax , max como cotas superiores y C , como los pasos de
discretizaci
on, la malla de entrenamiento puede ser construida como sigue:
(Ci , j ) = (Cmin + iC , min + j ) para 0 i n y 0 j m

donde n =
Cmax Cmin
,
C
m=
max min
y (Ci , j ) conforman una matriz de tama

no n m.
Dado que todas las combinaciones son necesarias para calcular una solucion, un total de (n+1)(m+
1) optimizaciones de la funci
on de SVM son empleadas.
3.2.
B
usqueda en Lnea
Esta tecnica inicialmente presentada por Chapelle et al. [2002] emplea el hecho de que la cota
de Radio/Margen (ver secci
on 2.4.4) es diferenciable, con el objeto de desarrollar un algoritmo
34
optimo para encontrar los par

ametros de la SVM partiendo de la idea que la b
usqueda exhaustiva
en el espacio de par
ametros puede ser prohibitiva. Esta metodologa propone tomar ventaja de
propiedades especficas de la formulacion de la SVM para minimizar una cota de la estimacion del
error de generalizaci
on empleando un algoritmo de gradiente descendiente sobre un conjunto de
parametros dados.
Reescribiendo la f
ormula de Radio/Margen dada en la ecuacion (2.14) se tiene
LOO 4R2 kwk2
(3.1)
donde w es la soluci
on de (2.3) y R es el radio de la esfera mas peque
na conteniendo todos los (xi ).
Ademas, Vapnik [1998] muestra que R2 es el valor objetivo del siguiente problema de optimizacion:
mn 1 0 K
sujeto a 0 i , i = 1, ..., l
(3.2)
eT = 1
sinembargo, debido a que es posible que los (xi ) sean no linealmente separables no es practico usar
(2.3). Adem
as, un altamente no lineal, puede producir facilmente sobre entrenamiento. Luego, es
mejor resolver una de las siguientes variaciones de (2.9),
X
1
i
mn w0 w + C
w,b, 2
i=1
L1 SVM
(3.3)
N
1 0
CX 2
ww+
2
2 i=1 i
L2 SVM
(3.4)
mn
w,b,
De modo que ahora se puede hacer referencia a dos clases de SVM, L1-SVM y L2-SVM respectivamente dependiendo si los errores son penalizados lineal o cuadraticamente. A continuacion, se
describen los metodos de selecci
on para Radio/Margen utilizando L1 y L2.
35
3.2.1.
Cota de Radio/Margen para L2
Con relaci
on a la formulaci
on para L2-SVM en (3.4) y haciendo K(xi , xj ) = zi .zj , el problema de
SVM puede ser convertido a margen rgido como:
mn
w
e
1
kwk
e 2
2
(3.5)
sujeto a yi (w
ei .zi + b) 0 i
donde zi denota la transformaci
on a un espacio de representacion modificado dado por:
e i , xj ) = K(xi , xj ) + 1 ij
zei .e
zj = K(x
C
con ij = 1, si i = j y 0 en otro caso. As, la expresion en (3.1) puede ser volverse a escribir como
se muestra en Vapnik and Chapelle [2000]
LOO f (C, ) ,
1 2
R kwk
e 2
N
(3.6)
siendo w
e como la soluci
on de (3.5). Debido a que (3.6) es diferenciable respecto de C y , es apropiado utilizar alguna de las tecnicas basadas en gradiente descendiente, por ejemplo el algoritmo
Quasi-Newton para minimizar f (C, ). El calculo del gradiente de f (C, ) requiere que kwk
e 2 y R2
sean conocidos, sinembargo, recientemente Chapelle et al. [2002] provee un resultado bastante u
til
que hace f
acil la obtenci
on de dichos gradientes una vez los duales de (3.4) y (3.2) son resueltos.
Con esto u
ltimo se mantiene que:
f
1 kwk
e 2 2
R2
= [
R + kwk
e 2
]
C
N C
C
X i
kwk
e 2
=
C
C2
i
X i
R2
=
(1 i )
C
C2
i
2
f
1 kwk
e 2 2
2 R
=
[
R
+
k
wk
e
]
2
N 2
2
2
X
kwk
e 2
e i , xj ) kxi xj k
=
i j yi yj K(x
2
4
2
i,j
2
X
R2
e i , xj ) kxi xj k
=
K(x
i
j
2
2 4
i,j
luego, si kwk
e 2 , R2 , y est
an disponibles, el gradiente de f (C, ) es facil de obtener. Como es
sugerido en Chapelle et al. [2002], u1 = ln C y u2 = ln 2 deben ser usados en vez de C and 2 .
36
Para este trabajo, BFGS como algoritmo quasi-Newton es empleado para minimizar f (C, ) (ver
apendice B). Como se presenta en Keerthi [2002], una tecnica de gradiente descendiente requiere
muchas m
as evaluaciones debido a la sensibilidad de tal procedimiento a errores de calculo numerico
en f (c, 2 ) y sus gradientes. Para el algoritmo BFGS, se escogio = 1 (ver ecuacion B) como
parametro inicial y C = 1, 2 = n como condiciones iniciales donde n es la dimension de xi . El
criterio de parada fue tomado como |f (u + 1) f (u)| 105 f (u), seg
un sugerencia en Keerthi
[2002].
3.2.2.
Cota de Radio/Margen para L1
En Chung et al. [2003] se propone la siguiente modificacion de (3.1) para L1-SVM:
(R2 +
i )
)(kwk2 + 2C
C
i=1
(3.7)
siendo una constante positiva cercana a 1. Denotando (3.7) como f (C, 2 ) y usandola como cota
de (3.3) las derivadas parciales se calculan como:
A = kwk2 + 2C
N
X
i=1
f
A
B
=
B+
A
C
C
C
X
A
=2
i
C
i
B
= 2
C
C
B = R2 +
f
A
B
=
B+
A
2
2
2
2
X
A
e i , xj ) kxi xj k
=
i j yi yj K(x
2
4
2
i,j
2
X
B
e i , xj ) kxi xj k
=
i j K(x
2
4
2
i,j
donde se toma el valor = 1 seg

un Chung et al. [2003]. Del mismo modo que para L2-SVM,
la transformaci
on de variable, algoritmo de optimizacion y condiciones iniciales fueron usadas.
Para el par
ametro de BFGS, =
1
2
(ver ecuacion B) fue elegido debido a que es probable que se
obtengan valores mas all

a de la regi
on considerada ([-10,10]x[-10,10] para este trabajo) generando
una posible inestabilidad numerica. Ademas, para el criterio de parada se prefiere utilizar la siguiente
formulaci
on compuesta:
37
kf (xk )k
103 or kf (xk )k 103
kf (x0 )k
donde x0 es la soluci
on inicial. En Chung et al. [2003] se afirma que el criterio de parada propuesto
por Keerthi [2002] puede no ser adecuado para este caso, por eso se sigue mas bien el lineamiento
de Lin and More [1999].
3.3.
Limitaciones Actuales
En esta secci
on se presentan algunas discusiones acerca de la viabilidad y limitaciones de las tecnicas
arriba descritas.
Para el caso de b
usqueda en malla, los requerimientos en cuanto a evaluaciones de la funcion de SVM
pueden tornarse prohibitivos para grupos de datos de entrenamiento de mediano y gran tama
no.
Si bien se sugiere que los valores m
aximos y mnimos para C y sean [-10,10]x[-10,10] como por
defecto, el tama
no del paso es todava una incognita porque un valor grande no es suficiente para
obtener resultados satisfactorios y por el contrario uno peque
no, incrementa dramaticamente el
n
umero de evaluaciones sin de ninguna manera garantizar buenos resultados. En cuanto a ventajas,
dado que este procedimiento utiliza solamente validacion cruzada como medida de riesgo, el uso
indiscriminado de kernels y esquemas multi-clase es posible pero teniendo en cuenta que m
ultiples
parametros tornan m
as complejo el espacio de b
usqueda, por lo tanto, se espera un incremento
considerable en la carga computacional y por consiguiente es importante tener cuidado al escoger el
tama
no del paso. Otro asunto importante es que el tama
no de la particion en la validacion cruzada,
es directamente proporcional al n
umero de evaluaciones de la funcion de SVM as que tambien debe
tenerse en cuenta.
En es esquema de b
usqueda en lnea utilizando Radio/Margen solo son necesarias una pocas evaluaciones de la funci
on de SVM para satisfacer el criterio de parada, por esto, m
ultiples parametros
pueden ser considerados para cualquier tarea. Desde que esta tecnica hace uso de propiedades de
diferenciabilidad, es imperativo obtener las funciones de los gradientes para cualquier dual y kernel
que se desee utilizar. Adem
as, algunos problemas pueden devolver resultados inesperados ya que
la superficie del Radio/Margen posee diversos mnimos locales y se sabe bien que usualmente los
algoritmos basados en gradiente descendiente son sensibles a dicha condicion. Otro problema es
38
que aunque en la literatura disponible, los valores iniciales y el criterio de parada muestran buenos
resultados, a
un permanecen como caso de estudio [Chung et al., 2003]. La principal ventaja de este
esquema es que resulta ser bastante conveniente para problemas a gran escala en el sentido que solo
basta con un n
umero peque
no de iteraciones para alcanzar el criterio de parada.
En resumen, la b
usqueda en malla es en terminos generales una solucion facil y flexible para la
seleccion del modelo para problemas relativamente peque
nos y la b
usqueda en lnea una tecnica
especializada difcil de implementar pero apropiada para tareas de cualquier tama
no y tipo de
kernel desde que las condiciones de diferenciabilidad sean satisfechas.
Captulo 4
Estrategias Evolutivas
La estrategia evolutiva (ES) consiste en un algoritmo de b
usqueda estocastico que minimiza una
funcion objetivo no lineal, la cual es un mapeo de un espacio de b
usqueda S R a R. Los pasos
dados para efectuar dicha b
usqueda son realizados por una variacion estocastica llamada mutacion
de los puntos o recombinaciones de ellos encontrados hasta un momento dado. La mutacion es
usualmente es efectuada a
nadiendo una realizacion a un vector aleatorio distribuido normal. Es
sencillo imaginar que los par
ametros de una distribucion normal son parte esencial en el desempe
no
(en terminos del n
umero de evaluaciones de la funcion objetivo para alcanzar cierto valor) del
algoritmo de b
usqueda. Entre otros, los parametros que definen la distribucion de la mutacion
son llamados par
ametros estrategicos en contraste a los parametros concernientes a los puntos
en el espacio de b
usqueda denominados parametros objeto. En terminos generales, no existe un
conocimiento detallado acerca de una eleccion apropiada para los parametros estrategicos. Si bien,
el conjunto de valores para los par
ametros estrategicos que pueden ser observados durante el proceso
de b
usqueda es peque
no [Rechemberg, 1984] y un grupo de buenos valores iniciales para dichos
parametros difiere substancialmente de problema a problema, usualmente pueden cambiar durante
la b
usqueda incluso en varios
ordenes de magnitud. Por esta razon, una auto adaptacion de la
distribuci
on de mutaci
on que din
amicamente vare los parametros estrategicos durante el proceso
de b
usqueda es una caracterstica imperativa en las ES.
A continuaci
on se revisan tres pasos consecutivos para adaptar una distribucion normal de mutacion
en ES.
39
40
Figura 4.1: Lneas de igual densidad de probabilidad en dos distribuciones normales

1.
La distribuci
on normal se escoge isotropica. Las superficies de igual densidad de probabilidad
son crculos (figura 4.1, izquierda) o hiperesferas (si n 3) y la varianza de toda la distribucion
(como el paso global o longitud esperada del paso) es el u
nico parametro estrategico libre.
2.
El concepto de paso global puede ser generalizado. Cada eje de coordenadas es asignado a
una varianza diferente (figura 4.1, centro) de modo que existan n parametros estrategicos
libres. La desventaja de este concepto es la dependencia del sistema de coordenadas y por
consiguiente la perdida de la invarianza respecto a la rotacion.
3.
Una generalizaci
on posterior adapta el sistema de coordenadas ortogonal, de manera que
cada eje es asignado a una varianza diferente (figura 4.1, derecha). As, cualquier distribucion
normal con media cero puede ser producida con (n2 + n)/2 parametros estrategicos libres e
invarianza respecto a la rotaci
on en el espacio de b
usqueda.
La adaptaci
on de par
ametros estrategicos en ES tpicamente hace parte de la idea de control mutativo de par
ametros estrategicos (MSC). El concepto de control mutativo puede ser ejemplificado en
(1, )-ES para un u
nico paso global o mutativo puro con x(g) Rn y (g) R+ el vector de parametros objeto y el paso en la generacion g respectivamente. El paso de mutacion de la generacion
g a la g + 1 se mantiene para cada subdivision k = 1, ..., :
(g+1)
(g+1)
xk
donde,
= (g) + exp(k )
(g+1)
= x(g) + k
zk
(4.1)
41
k R ,siendo k = 1, ..., realizaciones independientes de un n

umero aleatorio con media cero.
Tpicamente, k es distribuido normal con desviacion estandar 1/ 2n [Back and Schwefel,

1993]. Usualmente se prefiere escoger P (k = 0,3) = P (k = 0,3) = 1/2 [Rechemberg, 1984]
zk N (0, I) Rn para k = 1, ..., realizaciones independientes de un vector aleatorio con distribuci
on normal con I matriz identica. Esto es, las componentes de zk estan identica e
independientemente (iid) distribuidas
Luego de que pasos de mutaci
on son realizados, la mejor subdivision (respecto del vector de
parametros objeto x(g) ) es seleccionado para iniciar el siguiente paso generacional. La ecuaci
on
(4.1) hace posible la mutaci
on del parametro estrategico y la desviacion estandar de representa
la fuerza de la mutaci
on en el nivel actual del parametro estrategico.
El concepto de adaptaci
on fue primeramente introducido por Rechemberg [1984] para pasos globales
e individuales. Schwefel [1992] expandio el proceso mutativo a la adaptacion arbitraria de distribuciones normales de mutaci
on. Ostermeier et al. [1994] presento un primer nivel de desaleatorizacion
en el control de los par
ametros estrategicos para facilitar la adaptacion de pasos individuales en
poblaciones peque
nas y constantes. Hansen and Ostermeier [2001] desarrolla un segundo nivel de
desaleatorizaci
on pero aplicado a la adaptacion de distribuciones normales arbitrarias o adaptacion
de matriz de covarianza (CMA).
4.1.
Adaptaci
on Arbitraria de Distribuciones Normales
Fundamentalmente existen dos motivaciones para la adaptacion de distribuciones de mutacion normales con media cero.
La codificaci
on apropiada para un problema dado es crucial para la b
usqueda eficiente utilizando algoritmos evolutivos, por esta razon es deseable un mecanismo adaptivo de codificaci
on. La restricci
on de tal codificacion (decodificacion) a transformaciones lineales parece
razonable ya que O(n2 ) par
ametros requieren ser adaptados. Es facil demostrar que en el caso
de mutaci
on aditiva, las transformaciones lineales del espacio de b
usqueda son equivalentes
a transformaciones lineales de la distribucion de mutacion. Las transformaciones lineales de
la distribuci
on normal de mutacion siempre resultan nuevamente en distribuciones normales
con media cero mientras que cualquier distribucion normal con media cero puede ser obtenida
42
mediante una transformaci

on lineal apropiada. Esto u
ltimo sostiene la equivalencia entre una
codificaci
on (decodificaci
on) lineal generalizada y la adaptacion de todos los parametros de
la distribuci
on en la matriz de covarianza.
Se asume que la funci
on objetivo sea no lineal y significativamente no separable, de otra manera el problema sera comparativamente sencillo debido a que puede ser resuelto resolviendo
n problemas unidimensionales, mientras que la adaptacion de funciones objetivo no separables
no es posible si solamente pasos individuales son dinamicamente modificados. Esto requiere
una distribuci
on de mutaci
on mucho mas general que sugiere la adaptacion de funciones de
distribuci
on normales arbitrarias.
Escoger que la media sea cero es intuitivamente evidente y concuerda con Beyer and Deb [1994]
debido a que una media diferente de cero implica que la poblacion debe moverse a otro lugar en
el espacio de los par
ametros estrategicos, lo cual puede interpretarse como extrapolacion. En comparacion a un ES simple, la extrapolacion puede resultar ventajosa en muchas funciones de costo,
sinembargo en contraste a un ES con desaleatorizacion de toda la matriz de covarianza la ventaja no parece ser importante. En general, cualquier mecanismo de adaptacion que dinamicamente
modifique la forma de codificar o decodificar, debe cumplir las siguientes demandas fundamentales
[Hansen and Ostermeier, 2001]:
Adaptaci
on La adaptaci
on debe ser satisfactoria de manera que despues de una fase de adaptacion,
P
de modo que las tasas de progreso la funcion objetivo hiperesferica i x2i deben ser comparables a las realizadas para alguna funcion objetivo cuadratica convexa, esto es, una funcion
f : x 7 x0 Hx + b0 x + c donde la matriz Hessiana H Rnn es simetrica y definida positiva,
b Rn y c R [Beyer, 1995].
Desempe
no El desempe
no de la funcion hiperesferica debe ser comparable al correspondiente a
(g)
(g+n)
(1, 5)ES con

optimo paso, donde ln(fbest /fbest )/ 0,1410 es la perdida por un factor de
10 que sugiere ser aceptable.
Invarianza Las propiedades de invarianza del algoritmo (1, )ES con distribucion de mutacion
isotr
opica con respecto a la transformacion del espacio de parametros objeto debe ser preservada. En particular, la traslacion, rotacion y reflexion de los parametros objeto no debe
tener influencia en el comportamiento de la estrategia, aparte de ser estrictamente monotona
creciente.
43
Estacionariedad Con el fin de alcanzar un comportamiento razonable de la estrategia, alg

un tipo
de condici
on de estacionariedad en los parametros estrategicos debe ser completamente soportada por una selecci
on puramente aleatoria, lo cual es analogo a escoger un valor de media
igual a cero para la mutaci
on de los parametros objeto, de manera que la no estacionariedad
pueda ser cuantificada y evaluada.
Desde el punto de vista conceptual, el primer objetivo de la adaptacion de parametros estrategicos
es ser invariante a algunas transformaciones del espacio de parametros objeto. Sea dada la funci
on
objetivo f : x 7 f (c A x), la adaptacion de un paso global puede producir la invarianza para
c 6= 0. La codificaci
on (decodificaci
on) generalizada puede adicionalmente resultar en invariante
respecto de la matriz A que es de rango completo. Esta u
ltima es un buen punto de inicio para
lograr las demandas de adaptaci
on, ademas, desde el punto de vista practico, dicha invarianza es
una caracterstica u
til para evaluar un algoritmo de b
usqueda dado.
4.2.
Adaptaci
on de la Matriz de Covarianza
La adaptaci
on de matriz de covarianza [Hansen and Ostermeier, 1996] es un esquema de auto
adaptaci
on desaleatorizada de segundo nivel. Para empezar, esta implementa directamente la idea de
MSC de aumentar la probabilidad de producir pasos de mutacion exitosos. La matriz de covarianza
de la distribuci
on de mutaci
on es cambiada con el fin de incrementar la probabilidad de producir
de nuevo un paso de mutaci
on seleccionado. Luego, la tasa de cambio es ajustada de acuerdo
al n
umero de par
ametros estrategicos a ser adaptados (esto es, ccov de la ecuacion (4.6)) y por
u
ltimo, sujeto a una selecci
on aleatoria, la esperanza de la matriz de covarianza C es estacionaria.
Incluso, el mecanismo de adaptaci
on es inherentemente independiente del sistema de coordenadas
dado. En resumen, la CMA implementa el analisis de componentes principales (PCA) de los pasos
seleccionados previamente para determinar una nueva distribucion de mutacion.
As, considerese un metodo especial para producir realizaciones con distribucion normal de n dimensiones con media cero. Si los vectores z1 , ..., zm R para m n que ademas llenan Rn y N (0, 1)
valores iid, se tiene
N (0, 1)z1 + ... + N (0, 1)zm
(4.2)
44
es un vector aleatorio normal distribuido con media cero de manera que eligiendo zi = 1, ..., m
apropiadamente cualquier distribuci
on con media cero puede ser obtenida. La distribucion de la
ecuacion (4.2) es generada a
nadiendo distribuciones N (0, 1) N (0, zi zi0 ) de modo que si el vector zi es dado, la distribuci
on normal que produce dicho vector es la que tiene mayor densidad
de todas las distribuciones normales con media cero. As, la CMA construye la distribucion de
mutacion de los pasos seleccionados. De la ecuacion (4.2), en lugar de los vectores zi , los pasos
de mutaci
on seleccionados son utilizados con pesos exponencialmente descendientes con el objeto
de hacer tender la distribuci
on de mutacion a reproducir los pasos seleccionados en generaciones
pasadas realizando un alineamiento de las distribuciones antes y despues de la seleccion. Con esto
u
ltimo, si ambas distribuciones resultan parecidas bajo seleccion aleatoria se elimina la posibilidad
de cambios posteriores [Hansen, 2000].
A continuaci
on se presenta una descripcion precisa de CMA, como sigue
Aparte de la adaptaci
on de la forma de la distribucion, la varianza global de la distribucion de
mutaci
on es adaptada por separado. Se encuentra que dicha forma de adaptacion es u
til por
dos razones [Hansen and Ostermeier, 2001]. Primero, los cambios de la varianza global y de
la forma de la distribuci
on deben operar en diferentes escalas de tiempo, n para ser precisos
a diferencia de la forma de distribucion que opera a razon de n2 debido a que la varianza
debe estar en capacidad de cambiar tan rapido como se requiere en funciones objetivo simples
P
como la esfera i x2i . Segundo, si la varianza global no es adaptada mas rapido que la forma
de la distribuci
on, un valor inicial peque
no para este parametro puede amenazar el proceso
de b
usqueda. Si esto no fuera, la estrategia vera un entorno lineal haciendo que la adaptacion
err
oneamente alargara la varianza en una direccion.
La CMA es formulada por un n
umero de fuentes 1 y multi recombinacion ponderada
(g)
resultando en una evidentemente mas sofisticada manera de calcular el paso seleccionado zsel .
La tecnica de cumulaci
on es aplicada a los vectores que construyen la distribucion, de manera
(g)
que en vez de pasos simples zsel , trayectorias evolutivas p(g) son empleadas as, estas u
ltimas
representan una secuencia de pasos de mutacion seleccionados.
El esquema de adaptaci
on debe ser formalizado en el sentido de la matriz de covarianza debido
a que almacenar tanto como g vectores es prohibitivo. Esto es, en cada generacion g luego de la
seleccion de los mejores puntos de b
usqueda se lleva a cabo como:
45
1.
La matriz de covarianza de la nueva distribucion C (g) es calculada con referencia a C (g1) y

(g)
zsel . En otras palabras, la matriz de covarianza de la distribucion actual es adaptada.

2.
La varianza global es adaptada por medio del control de la longitud de la trayectoria cumulativa reemplazando zk por una trayectoria evolutiva conjugada.
3.
De la matriz de covarianza, el eje principal de la nueva distribucion y sus varianzas son

calculadas. Para producir realizaciones de la nueva distribucion, otras n son agregadas lo
cual corresponde a los ejes principales de la distribucion de mutacion con forma de elipsoide
(ver figura 4.1).
Con esto u
ltimo, los requerimientos de almacenamiento son O(n2 ). En general, para un n moderado
dicho costo es insignificante [Press and Flannery, 1992].
4.3.
Trayectoria Evolutiva: Cumulaci

on
El concepto de MSC utiliza informaci

on de un solo paso generacional. En contraste, puede ser ventajoso emplear toda la trayectoria seguida por la poblacion durante un n
umero dado de generaciones
ya que es preferible maximizar la tasa de progreso en vez de enfatizar la probabilidad de seleccion.
Consecuentemente, se expande la idea de control de parametros estrategicos en el sentido que la
adaptaci
on debe maximizar la probabilidad de subdivision satisfactoria [Hansen and Ostermeier,
1996].
Una trayectoria evolutiva contiene informacion adicional acerca de la seleccion en comparacion a
un simple paso, as que las correlaciones entre pasos sucesivos tomados entre generaciones deben
ser tenidas en cuenta, ya que si la correlacion es paralela, significa que los pasos van en la misma
direccion, por lo tanto la trayectoria es relativamente larga, en cambio, si la correlacion es anti
paralela, los pasos se cancelan unos con otros, lo cual indica que la trayectoria es relativamente
corta. Consecuentemente, para maximizar el paso de mutacion eficientemente, es necesario realizar
pasos largos donde la trayectoria es larga y viceversa. La trayectoria evolutiva es calculada como
un proceso iterativo de sumas ponderadas de pasos seleccionados que obedece a
p(g+1) = (1 c)p(g) +
p
(g+1)
c(2 c)zsel
(4.3)
46
donde 0 c 1 y p(0) = 0. Este procedimiento, introducido por [Ostermeier et al., 1994] se

p
(g+1)
denomina cumulaci
on. As mismo, c(2 c) es el factor de normalizacion: asumiendo que zsel y
p(g) en la ecuaci
on (4.3) es iid, se mantiene que p(g+1) p(g) independientemente de c (0, 1] y sus
p
varianzas son identicas debido a que 1 = (1 c2 ) + c(2 c). Si c = 1, no se lleva a cabo ninguna
(g+1)
cumulaci
on y p(g+1) = zsel
. La informacion acumulada en p(g) es estrictamente 1/c [Hansen and
Ostermeier, 1997], as que luego de 1/c generaciones la informacion original en p(g) es reducida
por un factor de 1/e 0,37 sugiriendo que c1 puede ser interpretado como el n
umero de pasos
sumados.
4.4.
El Algoritmo (W , )-CMA-ES
En esta secci
on se describe formalmente la estrategia evolutiva basada en los metodos presentados
en las secciones 4.2 y 4.3. La recombinacion por pesos es una generalizacion de la recombinacion
m
ultiple denotada como (I , ), donde todos los pesos son iguales [Beyer, 1995]. En este esquema, la
(g)
(g)
(g)
transicion de la generaci
on g a la g + 1 de los parametros x1 , ..., x Rn , pc
(g)
Rn , C (g) Rnn ,
Rn y (g) R+ como se escribe de la ecuacion (4.4) a la (4.9) y que de hecho, definen

(0)
completamente el algoritmo. La inicializacion es haciendo pc

que el vector inicial de par
ametros objeto
(0)
hxiW
(0)
= p
= 0 y C (0) = I, mientras
y el paso inicial (0) deben ser elegidos seg

un el
problema abordado.
(g+1)
El vector de par
ametros objeto xk
(g+1)
xk
con individuos k = 1, ..., se calcula como
(g)
(g+1)
= hxiW + (g) B (g) D(g) zk

|
{z
N (0,C (g) )
(4.4)
donde lo siguiente aplica:

(g+1)
xk
(g)
hxiW
Rn , es el vector de par
ametros objeto del individuo kesimo en la generacion g + 1
P
(g)
:= P 1 wi i=1 wi xi: , wi Rn , correspondiente a la media ponderada de los mejores
i=1
individuos en la generaci
on g, con i : el iesimo mejor individuo
(g) R+ tama
no del paso en la generacion g y (0) la componente inicial entendida como la
desviaci
on est
andar del paso de mutacion
47
(g+1)
Rn para k = 1, ..., y g = 1, 2, ... realizaciones independientes de un vector aleatorio (0, I)
zk
con distribuci
on normal
C (g) matriz n n simetrica definida positiva. C (g) , es la matriz de covarianza del vector aleatorio con distribuci
on normal B (g) D(g) N (0, I). C (g) determina B (g) y D(g) haciendo C (g) =
B (g) D(g) (B (g) D(g) )0 = B (g) (D(g) )2 B (g) y resolviendo la descomposicion de valor singular
(SVD)
(g)
D(g) matriz diagonal n n (matriz de pasos) con dii de D(g) los valores propios de la matriz de
covarianza C (g)
B (g) matriz ortogonal n n (matriz de rotacion) que determina el sistema de coordenadas. Las
columnas de B (g) se definen como los vectores propios de la matriz de covarianza C (g) . La
(g)
iesima componente diagonal al cuadrado (dii )2 de D(g) es el valor propio correspondiente

(g)
a la iesima columna bi
(g)
de B (g) , esto es, C (g) bi
(g)
(g)
= (dii )2 bi
(g+1)
Las superficies con igual densidad de probabilidad de D(g) zk
para i = 1, ..., n
son hiperelipsoides paralelas. B (g)
reorienta dichas elipsoides para hacerlas independientes del sistema de coordenadas. La matriz
de covarianza C (g) determina D(g) y B (g) a partir de los signos de las columnas en B (g) y las
permutaciones de las columnas en ambas matrices.
(g+1)
Sea, C (g) adaptada seg

un la evoluci
on de la trayectoria de pc
, entonces para la construccion de
(g+1)
pc
(g)
(g)
se usa el u
ltimo termino de la ecuacion (4.4) quitando
(g)
. Luego, la transicion de pc
se calcula como sigue:
(g+1)
Z (g+1)
u
(g) (g)
p(g+1)
= (1 cc )p(g)
D hzik
c
c + cc cW B
|
{z
}
cW
g+1
g
hx
i
hx
i
(
W
W
W
W)
(g)
X (g+1) (g+1) 0 (g) (g) 0

= B (g) D(g)
zi
(zi
) (B D )
(4.5)
(4.6)
(g+1)
iIsel
C (g+1) = (1 ccov )C (g) + ccov (cov p(g+1)

(p(g+1)
)0 + (1 cov )Z (g+1) )
c
c
(4.7)
donde,
(g+1)
pc
(g+1)
Rn , es la suma de las diferencias ponderadas de los puntos hxiW . Ademas, pc

es matriz simetrica de rango uno
(g+1) 0
(pc
48
cc (0, 1) determina la acumulaci

on de tiempo para pc , la cual es en general 1/cc
p
cuc := cc (2 cc ) normaliza la varianza de pc debido a que 1 = (1 cc )2 + (cuc )2 (ver seccion 4.3)
P
wi
(g+1)
(g+1)
cW := Pi=1
es seleccionado aleatoriamente de modo que cW hzik
y zk
tengan la misma
2
i=1
wi
varianza
(g+1)
hzik
:=
P 1
i=1 wi
que para
i=1
(g)
(g+1)
wi zi: con zk
de la ecuacion (4.4) y i : y wi de la misma manera
(g)
hxiW
ccov (0, 1) raz

on de cambio de la matriz de covarianza C. Para la implementacion de la modifi

21
caci
on dada por Hansen et al. [2003] ccov = cov 2 + (1 cov ) mn 1, (n+2)
2 +
n+ 2
cov (0, 1) par

ametro de control. Si cov = 1 se tiene ccov como en el algoritmo original de CMA
y con cov = 1/ seg
un sugerencia en Hansen et al. [2003]
La adaptaci
on adicional del paso (g) es necesaria para el control de la longitud de la trayectoria en
el algoritmo CMA-ES, de modo que una trayectoria evolutiva conjugada debe ser calculada para
la cual el escalamiento con D(g) es omitido
p(g+1)
=
(g+1)
(g+1)
(g)
(1 c )p + cu cW B (g) hzik

bn
kp(g+1) kX
(g) d1 Xb
(4.8)
(4.9)
donde se tiene que,

(g+1)
Rn trayectoria evolutiva no escalada por D(g)

(g+1)
g
W
cW B (g) hzik
es B (g) (D(g) )1 (B (g) )1 c(g)
hxW ig+1
hx
i
W
W
W
p
c (0, 1) determina la acumulaci

on de tiempo para pc , la cual es en general 1/cc
p
cu := c (2 c ) que satisface 1 = (1 c )2 + (cu )2 (ver seccion 4.3)
d 1 par
ametro de condensaci
on que determina la posible tasa de cambio de (g) en la secuencia
generacional.

2 n+1
/ n2 esperanza del vector aleatorio N (0, I). Una buena
2
1
1
aproximaci
on es Xbn n 1 + 4n
+ 21n
[Hansen and Ostermeier, 1997]
2
Xbn = E(kN (0, I)k) =
49
Sin tener en cuenta la omisi

on de D(g) , las ecuaciones (4.5) y (4.7) son identicas. Debido a que
(g+1)
B (g) hzik
es distribuido normal, la longitud de los pasos en diferentes direcciones son comparables

y la esperanza de la longitud de p denotada como Xbn es conocida [Hansen and Ostermeier, 2001].
La cumulaci
on en la ecuaci
on (4.5) a menudo acelera la adaptacion de la matriz de covarianza,
sinembargo, en realidad no es algo esencial de modo que cc puede tomarse como 1. Para el control
de la longitud de la trayectoria, la cumulacion es muy importante, luego c1
debe no ser considep
rablemente m
as peque
no que n/2. A medida que se aumenta n la longitud de los pasos se vuelve
cada vez mas similar haciendo la seleccion irrelevante.
4.5.
Valores para los Par

ametros Internos
Ademas del tama

no de la poblaci
on y el n
umero de parientes , los parametros de estrategia
(w1 , ..., w ), cc , ccov , c y d deben ser elegidos. Para esto existen valores por defecto resumidos en
la tabla [Hansen and Ostermeier, 2001].
4 + 3ln(n)
/2
ln
wi=1,...,

+1
+ ln(i)
2
cc
4
n+4
ccov
2
(2+
(2))2
c
4
n+4
d
+1
c1
Tabla 4.1: Parametros defecto para (W , )

En terminos generales, la selecci
on de los parametros , y (w1 , ..., w ) es comparativamente
no crtica, de manera que pueden tomar valores en un rango muy amplio sin afectar el procedimiento de adaptaci
on. Se recomienda siempre elegir < /2 [Beyer, 1996, Herdy, 1993]
y los pesos de recombinaci
on acorde a w1 ... w 0 [Hansen and Ostermeier, 2001].
Aparte de eso, para implementar la modificacion de Hansen et al. [2003], debe hacerse ccov =

21
cov 2 + (1 cov ) mn 1, (n+2)
2 + . Para el caso de (I , )-CMA-ES es decir, cuando
n+ 2
w1 = ... = w se escoge = /4 por defecto. Para casos de exploracion extrema puede ser
tan grande como se desee, manteniendo una relacion acorde con , y en particular para problemas
donde no existe mucho ruido, = 9 es a menudo apropiado incluso para valores grandes de n
[Ostermeier and Hansen, 1999].
50
4.6.
Limitaciones y Aspectos Pr
acticos
Hasta el momento, las limitaciones de CMA resultan ser la insuficiencia de informacion para realizar
la selecci
on (lo cual no sucede siempre y cuando la funcion de costo este bien formulada, ver Hansen
and Ostermeier [1997]) y problemas de precision numerica, que resultan en inestabilidad de la
b
usqueda y una condici
on de la matriz de covarianza consistente en un incremento no acotado que
genera convergencia prematura.
El paso inicial (0) debe escogerse de manera que no tienda a incrementar significativamente
en las primeras 2/c generaciones, de otro modo el algoritmo puede ser ineficiente en el sentido
de requerir un n
umero considerable de evaluaciones adicionales. Para prevenir errores de calculo,
se debe asegurar una condici
on m
axima numerica para C (g) (por ejemplo 1014 ), de modo que
si la diferencia entre el mayor y el menor valor propio sobrepasan dicha condicion, la operacion
(g)
(g)
C (g) := C (g) + (m
ax(dii )2 /1014 mn(dii )2 ))I limita la condicion de una manera razonable hasta
1014 + 1.
Debido a que el cambio de C (g) es comparativamente lento, es posible no actualizar B (g) y D(g) en
ltimo reduce la carga

cada generaci
on, sino cada n o mejor, luego de n/10 generaciones. Esto u
computacional de la estrategia de O(n3 ) a O(n2,5 ) o O(n2 ) respectivamente.
Concerniente a la convergencia del metodo, no existe hasta ahora una prueba formal debido a
que usualmente parecen carecer de relevancia practica [Hansen, 2004], sinembargo Bienven
uea and
Francois [2003] presenta pruebas y dificultades de la convergencia global en estrategias evolutivas
con adaptaci
on del tama
no del paso, Jagersk
upper [2003] un analisis de estrategias evolutivas para
problemas de minimizaci
on en espacios eucldeos y Rudolph [1999] contraejemplos en convergencia
global de estrategias evolutivas auto adaptivas.
Captulo 5
M
etodo Propuesto
Luego de la etapa de revisi
on bibliografica se llego a la conclusion que dos posibles soluciones al
problema de selecci
on de hiperpar
ametros en maquinas de soporte vectorial podran ser: seguir
utilizando las propiedades de diferenciabilidad de algunas cotas del error de generalizacion, lo cual
implicara, o bien buscar otra cota que no hubiera sido usada, o alternativamente emplear un
metodo diferente de b
usqueda en lnea, o descartar la diferenciabilidad y encontrar un metodo que
efectivamente minimize una funci
on dada que tambien resulte ser cota del error de generalizacion.
El principal inconveniente de la primera idea es que las limitaciones derivadas de la diferenciabilidad
como un espacio de b
usqueda restringido, kernels y soporte multi clase permaneceran, haciendo
que el mejoramiento de las tecnicas actuales residiera solamente en aumentos de la precision de
clasificaci
on y/o disminuci
on en el n
umero de vectores de soporte. En el segundo caso, existen
muchas posibilidades, ya que los llamados metodos de b
usqueda global que generalmente estan
inspirados en fen
omenos naturales principalmente exigen solamente que la funcion tenga un mnimo
no necesariamente u
nico. Dentro de los metodos de b
usqueda global, tal vez los mas utilizados son
el recocido simulado, la quimotaxis y los algoritmos evolutivos, aunque esta u
ltima es tal vez la
mas investigada hasta el momento. La programacion genetica, tiene en terminos generales tres
subdivisiones: programaci
on evolutiva, algoritmos geneticos y estrategias evolutivas. Sin considerar
de antemano la programaci
on evolutiva, debido a que la historia de los algoritmos geneticos ha
sido principalmente construida a traves del pragmatismo puro, a diferencia de la historia de las
estrategias evolutivas que desde el principio se ha dedicado al entendimiento de los algoritmos
desde un punto de vista te
orico [Beyer, 2001] y sin tener en cuenta otros factores como que los
51
52
algoritmos geneticos funcionan sobre un esquema de codificacion binaria, las estrategias evolutivas
fueron elegidas como punto de partida para encontrar un optimizador. El trabajo de investigacion
hasta ahora realizado ha demostrado que las estrategias evolutivas poseen un poder de optimizacion
muy grande, sinembargo, siempre hay un factor aleatorio en la solucion que puede ser balanceado
empleando un criterio de parada a menudo conocido y un n
umero considerablemente grande de
evaluaciones de la funci
on de costo, de ah el inconveniente de esta tecnica aplicada a la seleccion
de hiperpar
ametros en SVM. Recientemente con el desarrollo de tecnicas de desaleatorizacion y
seleccion adaptiva del tama
no del paso en estrategias evolutivas, se puede enfrentar razonablemente
el problema de este trabajo y m
as teniendo en cuenta las propiedades del algoritmo CMA-ES
descrito en la secci
on 4.4.
En este captulo se presenta una descripcion del algoritmo propuesto ademas de las caractersticas
del mismo, detalles de su implementacion y aspectos practicos para tener en cuenta.
5.1.
CMA-ES-SVM
El algoritmo propuesto consta b

asicamente de tres partes: la maquina de soporte vectorial (SVM)
descrita en el captulo 2, adaptaci
on de matriz de covarianza (CMA-ES) como esquema de auto
adaptaci
on del tama
no del paso en la estrategia evolutiva que sirve como optimizador de los hiperparametros y finalmente la funci
on que va a servir como cota del error de generalizacion y objetivo
de CMA-ES. Con relaci
on a la funci
on objetivo, se seleccionaron dos funciones: validacion cruzada
de n particiones con la idea de mantener algo de la simplicidad del algoritmo de b
usqueda en malla
y el span de los vectores de soporte descrito en la seccion 2.4.4, basicamente para evitar m
ultiples
evaluaciones de la funci
on de SVM en cada iteracion del algoritmo de optimizacion.
Acerca de la funci
on validaci
on cruzada solo hay que decir que para este trabajo, n es igual a 4.
Este valor se obtuvo en pruebas preliminares que no se presentan en este documento y el criterio
fue el mnimo valor de n para el cual se obtienen buenos resultados considerando conjuntos de
entrada de diferentes dimensiones. Intuitivamente se podra pensar que n debera ser una funcion
del tama
no de la entrada pero si se aumenta proporcional con el tama
no de la entrada tambien el
costo computacional y si se disminuye es obvio que la solucion tiende a no ser muy confiable debido
a que se presenta una variaci
on significante de los vectores de soporte (ver definicion de LOO que
es un caso particular de validaci
on cruzada en la seccion 2.4.3).
53
En el caso de la funci
on span de los vectores de soporte, se escogio debido a que en Chapelle et al.
[2002] se muestra que existe una conexion directa entre esta y Jaakkola-Haussler, Opper-Winther
y Radio/Margen (ver secci
on 2.4.4) es decir, son casos particulares. Aunque dos de las tecnicas de
seleccion autom
atica descritas en el captulo 3 utilizan Radio/Margen, en este trabajo no se emplea
por la raz
on enunciada anteriormente y ademas debido a que esta u
ltima es computacionalmente
mas exigente que la funci
on span. De la ecuacion (2.15), Sp2 se calcula como:
1
e sv
Sp2 = 1/(K
)pp
(5.1)
. Con el objeto de suavizar el comportamiento del span y hacer p continuo

10 0
a las variaciones de los vectores de soporte se introduce un termino de regularizacion ( = 0,1 para
e sv =
con K
este trabajo), as:

n
n
X
X

1 2

p = P
mn (xp )
i (xi )
+

0 i
, i =1

i6=p
i6=p i
(5.2)
de (10), la ecuaci
on (5.3) se vuelve
1
e sv
Sp2 = 1/(K
+ D)pp + Dpp
donde D es una matriz diagonal con elementos Dii = 1/i0 y Dn+1,n+1 = 0. Chapelle et al. [2002]
sugiere hacer (x) = (1+exp(5x))1 de la ecuacion (2.15) para suavizar la aproximacion del error
de validaci
on. Las constantes en (x) se obtienen de calcular la estimacion de densidad posterior
para una m
aquina de soporte vectorial [Platt, 2000].
Con la SVM y la funci
on objetivo cubierta, el algoritmo CMA-ES utiliza como parametros defecto los
mostrados en la tabla 4.1, tama
no del paso inicial 0,3 [Hansen, 2004] y entrada, los hiperparametros
que van a ser buscados por ejemplo, C, 2 para el caso de kernel RBF con la transformacion de
variable u1 = ln(C) y u2 = ln( 2 ) sugerida por Chapelle et al. [2002]. Los valores iniciales para los
hiperpar
ametros son ln C = 0 y ln 2 = 0 para el kernel RBF, tolerancia de parada 103 , es decir,
|f (u + 1) f (u)| 103 f (u) [Keerthi, 2003] y tolerancia de los parametros de entrada 105 de la
misma forma.
54
De lo anterior se conforman dos algoritmos diferentes: CMA-ES-CV y CMA-ES-SB para funcion

validacion cruzada y span de los vectores de soporte respectivamente. Sinembargo, debido a que
el span funciona sobre un esquema de clasificacion binaria, se propone una reformulacion para
problemas multi clase.
Proposici
on 10 Siguiendo el esquema multi clase uno contra uno de la secci
on 2.6 para un
conjunto de k clases se deben entrenar k(k 1)/2 clasificadores, por lo tanto el la nueva funci
on se
escribe,
Tspan mc
1
=
k
k(k1)/2
Ti
(5.3)
donde Ti es el span de cada problema binario. Adem

as, como Ti R+ se mantiene que
LOO Ti Tspan mc
De modo que Tspan mc es tambien una cota del error de generalizaci
on.
Es facil ver que la funci
on de la ecuacion (5.3) trata de minimizar independientemente los valores
de span para cada esquema binario.
5.2.
Caractersticas del CMA-ES-SVM
Considerando que CMA-ES-SVM no utiliza la diferenciabilidad de las funciones CV y SB, tampoco

lo requiere en la funci
on kernel de manera que en lo que se refiere a la funcion kernel, la u
nica
limitacion es que la matriz K tenga inversa, que no supone un inconveniente si el kernel es de
Mercer (ver secci
on 12). En cuanto a esquemas multi clase, el algoritmo CV no tiene problemas
y SB tampoco debido a la proposici
on 10. Dadas las caractersticas del algoritmo CMA-ES, se espera que el n
umero de iteraciones requeridas para alcanzar el criterio de parada no sea superior a
las requeridas por la b
usqueda en malla. Sujeto a la cantidad de iteraciones necesarias, el algoritmo propuesto puede ser apropiado para resolver problemas con m
ultiples parametros y/o de gran
tama
no. Considerando que en CMA-ES se puede acotar el espacio de b
usqueda acotando el rango
55
de los par
ametros a buscar, se pueden resolver problemas con ciertos kernels o diferentes tipos de
formulaci
on de SVM que requieren dichos rangos y estan definidos.
5.3.
Implementaci
on y Aspectos Pr
acticos
La implementaci
on del algoritmo est
a hecha de la siguiente manera: el algoritmo tanto de la SVM,
CMA-ES y span de los vectores de soporte estan escritos en Fortran90 y las llamadas a funciones y
la validaci
on cruzada, es decir la interfase, en Matlab, esto u
ltimo con propositos practicos referentes
a la realizaci
on de las pruebas. Debido a que el n
ucleo del algoritmo esta en Fortran, los tiempos de
ejecucion y requerimientos de memoria no son exigentes por lo menos para las pruebas realizadas
en este trabajo.
Con miras a mejorar el desempe
no del algoritmo, los conjuntos de entrada deben estar en formato
ralo (sparse), esto considerando que en muchos casos de los conjuntos de entrada a una SVM
contienen muchos ceros que pueden ahorrar calculos internos, ademas el n
umero maximo de iteraciones del algoritmo fue seleccionado tal que en ning
un momento supere el n
umero de iteraciones
que necesita la b
usqueda en malla para C = [5, 5] y = [5, 5] con = 0,5 es decir 484.
Captulo 6
Resultados Num
ericos
Los resultados numericos mostrados en esta seccion fueron obtenidos realizando tareas de clasificacion sobre tres tipos diferentes de datos: artificialmente construidos (toydata), estandares de
UCI (Repository Of Machine Learning Databases and Domain Theories) y StatLog (Department
of Statistics and Modelling Science) [ver Blake and Merz, 1998, King et al., 1995] y problemas
con bases de datos reales del medio, ademas de conjuntos multi clase y resultados para el kernel
polinomial. Los experimentos fueron llevados a cabo utilizando b
usqueda en malla, Radio/Margen
para L1 y L2 y el algoritmo propuesto CMA-ES-SVM (ver secciones 3.1, 3.2 y 5.1) para una SVM
entrenada con el algoritmo de descomposicion SMO [Platt, 1999] considerando las modificaciones
propuestas por Keerthi et al. [1999] y Joachims [1999] para mejorar el desempe
no del clasificador
(ver secci
on 2.5). Los kernel empleados fueron el RBF de la ecuacion (A.6) utilizando =
1
2 2
para
la implementaci
on y el polinomial no homogeneo de la ecuacion (A.7).
6.1.
Conjuntos Artificiales
Los conjuntos de datos utilizados para esta prueba fueron construidos artificialmente con base en
distribuciones normales para generar problemas de clasificacion binaria de dos dimensiones, con
fines practicos fueron denominados: balanceado, no balanceado, damero, dos curvas, dos anillos y
anillos cruzados. Para cada conjunto, tres subconjuntos de diferentes tama
nos se conformaron como
56
57
se muestra en la tabla 6.1. El principal interes de esta prueba es la observacion de fenomenos como
sobre-entrenamiento y capacidad de generalizacion.
Subconjunto
A
B
C
Grupo de Entrenamiento
100
1000
400
Grupo de Validacion
100
1000
1600
Total
200
2000
2000
Tabla 6.1: Estructura de los conjuntos artificiales
6.1.1.
Balanceado
El conjunto llamado balanceado (ver figura 6.1:Izquierda), es el tpico caso de clasificacion binario
compuesto de dos distribuciones normales diferentes en la media y la desviacion estandar. El nombre
se debe a que el 50 % de las observaciones pertenecen a cada clase.
20
20
18
15
16
14
X2
12
X2
10
10
10
X1
12
14
16
18
20
10
X1
12
14
16
18
Figura 6.1: Izquierda: Conjunto balanceado. Derecha: Conjunto no balanceado

La tabla 6.2 muestra que la precisi
on del clasificador decrementa con el n
umero de observaciones
utilizadas para el entrenamiento. En este caso, los resultados obtenidos en cuanto a precision y
n
umero de vectores de soporte es similar, sinembargo, para los subconjuntos A y B, R/M L1 mostro
un ligero mejor comportamiento mientras que para C, CMA-ES-SVM-SB presento un desempe
no
superior. En cuanto a R/M L2, en todos los casos utiliza un n
umero menor de iteraciones aunque
la diferencia no es substancialmente grande sin considerar la b
usqueda en malla. Como se puede
observar, para la b
usqueda en malla en el subconjunto B solo 121 iteraciones fueron utilizadas en
58
Subconjunto
Metodo
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Precision( %)
94.0000
95.0000
95.0000
95.0000
94.0000
93.1000
93.1000
93.5000
93.3000
93.3000
93.3750
93.4375
93.3125
93.6250
93.6250
NSV
56
88
32
47
33
352
779
270
271
274
129
317
118
115
106
SVM
Iteraciones
484
10
12
16
20
121
11
14
24
20
484
10
16
16
20
C
0.1767
0.3959
0.5267
0.9821
0.6298
0.0312
0.1266
0.1505
0.9672
0.8318
0.1767
0.2032
0.2557
0.7546
0.6988
0.50000
0.08060
0.22061
0.87847
0.34655
0.03125
0.05240
0.22123
1.13534
1.13902
0.35355
0.03810
0.25632
0.69325
0.43198
Tabla 6.2: Resultados para el conjunto balanceado

vez de 484, esto debido a que para los parametros del algoritmo se empleo C = [5, 5] y = [5, 5]
con = 1 en vez de = 0,5.
6.1.2.
No Balanceado
En contraste al conjunto balanceado, el conjunto no balanceado se construye de la misma manera

con la u
nica diferencia que solo un tercio del total de las observaciones pertenecen a una de las
clases dejando el resto a la otra (ver figura 6.1:Derecha). Esto surge de la idea que debido a que
el parametro C en la formulaci
on de SVM es el compromiso entre la maximizacion del margen y
la penalizaci
on de las violaciones, un conjunto como este puede producir convergencia prematura y
por lo tanto un indeseable desempe
no de generalizacion.
El conjunto no balanceado muestra general un mejor desempe
no por parte de R/M L1 (ver tabla
6.3), aunque la diferencia es peque
na en comparacion con los otros algoritmos sin tener en cuenta al 59 % obtenido por la b
usqueda en malla. Respecto del n
umero de iteraciones, R/M L2 se
comporta mejor sin estar lejos de R/M L1 y CMA-ES-SVM-SB. El algoritmo R/M L2 presenta
sobre-entrenamiento que es claramente inaceptable debido a que el n
umero de vectores de soporte
59
Subconjunto
Metodo
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Precision( %)
59.0000
69.0000
69.0000
62.0000
66.0000
64.1000
64.1000
64.1000
66.0000
66.1000
67.1250
65.8125
67.1250
66.6250
66.6250
NSV
67
100
70
81
82
644
1000
614
731
694
310
400
280
286
278
SVM
Iteraciones
484
12
14
20
20
121
15
16
40
20
484
14
16
64
20
C
22.627
0.1051
0.0031
0.7659
0.9797
1.0000
0.0344
0.0420
1.1510
0.8310
0.0625
0.0587
0.0482
0.7518
1.4389
0.70710
0.04010
0.00043
1.74071
0.57164
0.12500
0.04510
0.00003
1.33250
0.64327
1.00000
0.02700
0.00002
0.53596
0.25882
Tabla 6.3: Resultados para el conjunto no balanceado

es igual al n
umero de observaciones utilizadas para el entrenamiento en los tres subconjuntos.
6.1.3.
Damero
El problema damero (ver figura 6.2:Derecha) es bastante com

un entre los investigadores de aprendizaje de m
aquina y es interesante debido a que aunque es separable en el espacio es realmente
difcil de resolver [Kaufman, 1999], ademas es muy sensible al fenomeno de sobre-entrenamiento.
Los resultados obtenidos para el conjunto damero se muestran en la tabla 6.4 y aunque no son
buenos, representan para CMA-ES-SVM-SB una ventaja ya que para los subconjuntos A y C
obtiene una precisi
on considerablemente superior. Si bien los resultados indican una tendencia al
sobre-entrenamiento en el caso de subconjunto B donde R/M L2 obtiene el mejor valor de precisi
on
no debe ser tenido en cuenta considerando que el sobre-entrenamiento es crtico. De los resultados
obtenidos se puede agregar que los procedimientos presentados no son suficiente para resolver un
problema como este partiendo de el hecho que una SVM lo puede resolver, dicho sea esto con un
ajuste manual y exhaustivo de los parametros [ver Keerthi et al., 2000].
60
2.5
1
2
0.9
1.5
0.8
1
0.7
0.5
X2
X2
0.6
0.5
0.4
0.5
0.3
1
0.2
1.5
0.1
0.1
0.2
0.3
0.4
0.5
X1
0.6
0.7
0.8
0.9
2
2.5
1.5
0.5
0
X
0.5
1.5
2.5
Figura 6.2: Izquierda: Conjunto damero. Derecha: Conjunto dos curvas
6.1.4.
Dos Curvas
El conjunto dos curvas (ver figura 6.2:Izquierda) pretende mostrar la adaptabilidad del hiperplano
construido con relaci
on a la maximizacion del margen y la penalizacion de violaciones debido a que
en particular, una penalizaci
on alta mejora la maximizacion del margen pero hace mas complejo
el hiperplano construido considerando que solo una peque
na cantidad de puntos hacen imposible
obtener un hiperplano lineal.
Los resultados de la tabla 6.5 muestran para el subconjunto A que b
usqueda en malla se comporta
mejor a pesar del n
umero de iteraciones respecto de R/M L2 que solamente requiere 9. Para el
subconjunto B, R/M L2 obtiene la mejor precision en el menor n
umero de iteraciones pero CMAES-SVM-CV y CMA-ES-SVM-SB necesitan una cantidad muy inferior de vectores de soporte con
un aumento razonable de iteraciones y una disminucion de 0,3 % en precision que dado el caso es
insignificante. En el caso del subconjunto C los resultados son claros para CMA-ES-SVM-CV.
6.1.5.
Dos Anillos
El problema de dos anillos (ver figura 6.3:Izquierda) fue construido para mostrar cierto tipo de
hiperplanos circulares complejos que evidentemente conforman una solucion separable. A simple
vista podra parecer que es f
acil de solucionar para una SVM, sinembargo para la seleccion de
parametros puede ser complicado considerando que en muchos casos la solucion no resulta en una
61
Subconjunto
Metodo
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Precision( %)
49.0000
49.0000
49.0000
49.0000
57.0000
49.0000
51.0000
49.0000
49.5000
49.2000
51.7500
49.0625
49.8125
50.6875
60.1250
NSV
80
100
90
91
91
976
1000
950
955
984
363
400
388
372
391
SVM
Iteraciones
484
9
16
24
20
121
13
14
64
20
484
9
14
64
20
C
32.000
0.1155
4.8445
0.7018
1.3869
1.0000
0.0218
28.942
13.824
1.3646
2.0000
0.1424
16.080
1.9762
1.0577
32.0000
0.04040
0.00003
0.81822
1.52333
1.00000
0.00720
0.00002
3.45486
1.57509
22.6274
0.04500
0.00002
4.74398
1.72699
C
8.0000
0.9041
0.8297
1.0836
1.1894
1.0000
0.3949
0.4459
1.2603
0.5311
0.1767
1.1144
1.1897
0.8901
0.0395
0.06250
0.82130
1.65872
1.16295
0.28540
8.00000
1.54160
5.16419
1.02717
0.78951
1.00000
1.92110
4.81017
1.03460
0.80975
Tabla 6.4: Resultados para el conjunto damero
Subconjunto
Metodo
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Precision( %)
99.0000
99.0000
99.0000
99.0000
99.0000
98.3000
98.6000
98.3000
98.3000
98.3000
97.6250
97.1875
97.4375
98.8125
98.7500
NSV
14
80
24
19
34
193
635
186
54
65
56
242
87
36
141
SVM
Iteraciones
484
9
15
24
122
121
7
12
24
20
484
7
15
24
110
Tabla 6.5: Resultados para el conjunto dos curvas
62
1.5
1.5
0.5
0.5
X2
X2
forma regular que intuitivamente producira una mejor generalizacion.
0.5
0.5
1.5
1.5
0.5
0
X
0.5
1.5
1.5
1.5
0.5
0
X
0.5
1.5
Figura 6.3: Izquierda: Conjunto dos anillos. Derecha: Conjunto anillos cruzados
El problema dos anillos muestra en general (ver tabla 6.6) resultados similares con una precision
ligeramente superior para b
usqueda en malla en los casos A y B y para CMA-ES-SVM-CV en el
subconjunto C. En terminos de n
umero de vectores de soporte, CMA-ES-SVM-CV se comporta
mejor teniendo en cuenta que la diferencia con el mejor valor de precision para A y B es tan solo
1 % y 0,3 % respectivamente. En cuanto a iteraciones requeridas para alcanzar la solucion R/M L2
obtiene la menor cantidad, sinembargo R/M L1 y CMA-ES-SVM-SB estan en un rango comparable
con precisi
on y NSV tendiente al mejor valor.
6.1.6.
Anillos Cruzados
Anillos cruzados (ver figura 6.3:Derecha) es una modificacion de dos anillos con un nivel mas alto de
complejidad. Esta prueba se hace solo por razones comparativas en terminos de precision y n
umero
de vectores de soporte, este u
ltimo visto como una medida de generalizacion (ver seccion 2.4.4).
Los resultados en la tabla 6.7 son bastante similares a los de la tabla 6.6 con la particularidad
que CMA-ES-SVM-SB se comporta mejor en terminos de precision para los tres subconjuntos.
Aunque CMA-ES-SVM-SB en ninguno de los casos obtiene el menor n
y la diferencia es relativamente grande sobre todo para el subconjunto A no sugiere una solucion
sobre-entrenada como si lo est
a para R/M L2. Ademas, el n
umero de iteraciones utilizadas por
CMA-ES-SVM-SB es razonable en comparacion a los obtenidos por R/M L2 en A y C y R/M L1
63
Subconjunto
Metodo
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Precision( %)
74.0000
74.0000
73.0000
73.0000
74.0000
77.6000
77.3000
77.5000
77.2000
77.0000
74.6875
73.6875
74.9375
77.2500
77.0625
NSV
70
100
75
58
64
535
1000
598
521
534
254
400
264
247
249
SVM
Iteraciones
484
11
19
60
20
121
23
16
60
20
484
11
19
56
20
C
2.8284
0.1711
0.2619
1.7536
1.4504
2.0000
0.0669
0.0998
2.3166
1.1002
8.0000
0.0916
0.1369
0.6311
2.3044
0.17677
6.58140
6.36363
2.68843
0.91898
2.00000
6.17230
13.0436
1.25861
1.23556
0.08838
3.97070
7.85481
1.34829
0.64741
C
22.627
7.3345
0.2139
1.1665
1.1963
0.0312
0.0714
0.1025
1.0145
1.5732
1.0000
0.1155
0.1703
1.1916
1.2151
22.6274
0.00130
6.50939
1.59761
1.10306
2.00000
5.26960
17.0128
1.30406
0.82018
2.00000
6.17310
17.3078
1.35039
1.18019
Tabla 6.6: Resultados para el conjunto dos anillos
Subconjunto
Metodo
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Precision( %)
65.0000
50.0000
71.0000
76.0000
77.0000
73.9000
74.8000
74.5000
76.4000
76.7000
75.0625
75.3750
75.3125
75.5625
75.7500
NSV
62
100
92
78
83
785
1000
599
588
595
209
400
237
249
252
SVM
Iteraciones
484
16
18
48
20
121
20
14
60
20
484
8
23
60
20
Tabla 6.7: Resultados para el conjunto anillos cruzados
64
en B. Debido a que no se da una reduccion substancial en la precision y en el NSV se puede decir

que dos anillos y anillos cruzados tienen el mismo comportamiento, razon por la cual las variaciones
de complejidad anteriormente mencionadas no son relevantes para la SVM.
Los resultados obtenidos de las pruebas con conjuntos artificiales mostraron que los rangos de
precision para los metodos explorados no son tan grandes aunque CMA-ES-SVM-SB obtuvo la
mayor cantidad de m
aximos de precisi
on con 9 en total seguido de CMA-ES-SVM-CV y R/M L2 con
6. En terminos de n
umero de vectores de soporte, los mejores fueron CMA-ES-SVM-CV y b
usqueda
en malla con 6 m
aximos y en peor R/M L2 que varias veces presento sobre-entrenamiento. En cuanto
al n
umero de iteraciones, es claro que el mejor es R/M L2 que en 16 ocasiones utilizo el mnimo
aunque en la mayora de los casos estaba bastante cerca de los requerimientos de R/M L1 y CMAES-SVM-SB. En general, los hiperpar
ametros encontrados por los diferentes metodos presentan en
rango una variaci
on considerable lo cual hace pensar que el espacio de tales hiperparametros es
bastante complejo.
6.2.
Conjuntos Est
andares
Los conjuntos de datos empleados en esta seccion son como se dijo anteriormente parte de la
coleccion UCI y StatLog y son: Australian Credit Approval (Australian), Banana, Wisconsin
Breast Cancer (Breast), Prima Indians Diabetes (Diabetes), German Credit Data (German),
Heart Disease (Heart), Johns Hopkins University Ionosphere (Ionosphere), Wisconsin Diagnostic
Breast Cancer (WDBC), Wine, Wisconsin Prognostic Breast Cancer (WPBC); todos ellos de
diferentes naturalezas y tama
nos respecto a observaciones y caractersticas. La estructura de los
conjuntos mencionados se muestra en la tabla 6.8. En la mayora de los casos la cantidad de datos
que deben ser utilizados para entrenamiento es sugerida por el autor, por esta razon es tenida en
cuenta donde es aplicable.
Los resultados para los conjuntos estandar mostrados en la tabla 6.9 establecen que para Australian, R/M L1 se comporta mejor con un n
umero de iteraciones razonablemente bueno en comparacion a R/M L2. En el caso de Banana, R/M L2 obtiene el mejor resultado, sinembargo con un
n
umero de vectores de soporte muy inferior CMA-ES-SVM-CV y CMA-ES-SVM-SB obtienen una
precision similar. Para Breast, R/M L2 y CMA-ES-SVM-CV obtienen la misma precision pero el
segundo requiere casi cuatro veces menos vectores de soporte. Con el conjunto Diabetes, R/M L1
65
Conjunto
Australian
Banana
Breast
Diabetes
German
Heart
Ionosphere
WDBC
Wine
WPBC
Caractersticas
14
2
9
8
24
13
34
30
13
33
390
400
383
468
700
170
200
300
100
100
Grupo de Validacion
300
3900
300
300
300
100
151
269
78
94
Total
690
4300
683
768
1000
270
351
569
178
194
Tabla 6.8: Estructura de los conjuntos estandares

obtiene el mejor resultado con un requerimiento de iteraciones superior al de R/M L2.
En la tabla 6.10, German presenta soluciones claramente sobre-entrenadas con n
umero de iteraciones similar excluyendo la b
usqueda en malla y un ligero mejor pero no substancial desempe
no en
terminos de precisi
on por parte de CMA-ES-SVM-SB. El conjunto Heart presenta dos soluciones
no sobre-entrenadas, sinembargo, en comparacion a la mejor considerando la precision, CMA-ESSVM-SB presenta la diferencia menos crtica igual a 5 %. Los resultados para Ionosphere exhiben
un mejor valor de precisi
on para CMA-ES-SVM-SB pero un menor n
para CMA-ES-SVM-CV con un decremento peque
no en la precision ( 1,5 %) y n
umero de iteraciones para ambos en un rango razonable en comparacion al requerido por R/M L2. El conjunto
WDBC muestra resultados sobre-entrenados con un mejor desempe
no por parte de R/M L2 en los
tres aspectos considerados. Para Wine y WPBC todas las soluciones estan sobre-entrenadas y el
rango de precisi
on no es muy grande sinembargo, los mejores valores son obtenidos por CMA-ESSVM-SB.
En los casos en los que se obtienen soluciones sobre-entrenadas puede suceder que la cantidad de
informaci
on disponible no es suficiente para describir el problema, ahora un escalamiento del espacio
de entrada puede mejorar significativamente los resultados [Hsu et al., 2003] aunque no se hizo para
mantener intactos los conjuntos empleados.
66
Conjunto
Australian
Banana
Breast
Diabetes
German
Metodo
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Precision( %)
83.0000
68.0000
90.3333
68.0000
68.0000
52.0204
88.5510
44.0612
88.0250
87.2051
98.0000
98.6667
97.6667
98.6667
82.0000
73.0000
76.6667
99.6667
99.0000
90.3333
68.3333
69.3333
59.3333
69.0000
69.7333
NSV
366
390
227
390
390
363
325
366
157
184
144
211
194
53
280
441
468
38
68
68
699
700
700
700
700
SVM
Iteraciones
484
17
24
24
20
484
10
22
60
20
484
10
22
68
8
484
14
26
80
20
484
13
31
24
24
Tabla 6.9: Resultados para los conjuntos estandar
C
8.0000
0.0769
2.9196
1.0383
0.9946
0.2500
0.4043
0.0009
0.6588
0.8646
1.0000
0.3650
2.6937
2.4195
1.2134
8.0000
0.0876
2.1907
2.1544
0.9978
8.0000
0.0561
1.8113
1.5060
0.0874
0.03125
0.03960
0.00135
0.92379
0.99855
22.6274
2.56800
2.54732
0.82409
0.45077
0.04419
0.00820
0.09096
0.00178
1.14696
0.03125
0.00013
0.00007
0.89073
0.99967
0.12500
0.00360
0.19466
0.07581
0.00874
67
Conjunto
Heart
Ionosphere
WDBC
Wine
WPBC
Metodo
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Precision( %)
56.0000
70.0000
50.0000
56.0000
65.0000
98.0132
97.3510
87.7550
97.3510
98.8079
75.0929
91.4498
75.4647
75.4647
75.4647
73.0769
75.6410
78.2051
78.9744
78.9744
75.5319
75.5319
75.5319
75.5319
75.5319
NSV
170
170
100
170
152
123
176
156
118
165
300
293
300
300
300
100
100
100
100
100
100
100
100
100
100
SVM
Iteraciones
484
17
16
24
62
484
12
26
33
32
484
14
18
24
20
484
17
29
24
20
484
14
28
24
8
C
1.0000
0.0871
7.3345
0.5475
1.0001
1.0000
1.0000
11.546
0.8053
1.0000
8.0000
0.3117
1.0266
0.9635
1.0000
8.0000
0.2116
1.7472
1.4848
1.0000
1.0000
0.4356
1.7472
1.1510
1.0000
Tabla 6.10: Resultados para los conjuntos estandar. (Continuacion)
1.00000
0.00017
0.00130
0.80396
1.35995
0.17677
0.22620
0.73379
0.16735
1.02646
0.03125
0.00001
0.49741
0.70089
0.09837
0.03125
0.00003
0.01176
1.10888
0.75017
1.00000
0.00021
0.01176
0.99132
1.01649
68
6.3.
Conjunto Multi Clase
Con la finalidad de probar el funcionamiento del algoritmo propuesto bajo un esquema de entrada
multi clase, se tomaron tres conjuntos de datos estandar llamados: Iris Plant database (Iris), Satellite Image (Satimage) y Image Segmentation Database (Segment). El primero se escogio debido a
que es tal vez el m
as com
un en reconocimiento de patrones y los otros dos para tener la posibilidad
de probar el desempe
no del algoritmo propuesto ante espacios de entrada grandes. La estructura
de los conjuntos se muestra en la tabla 6.11.
Conjunto
Iris
Satimage
Segment
Caractersticas
3
36
20
Clases
4
7
7
120
4435
1848
Grupo de Validacion
30
2000
462
Tabla 6.11: Estructura de los conjuntos multi clase

Conjunto
Iris
Satimage
Segment
Metodo
CMA-ES-SVM-CV
CMA-ES-SVM-SB
CMA-ES-SVM-CV
CMA-ES-SVM-SB
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Precision( %)
96.6667
96.6667
90.5000
89.7000
96.1788
94.7827
NSV
43
45
1405
1494
401
478
SVM
Iteraciones
24
20
60
20
122
8
C
0.9271
0.9786
2.0457
1.248
3.1174
1.0013
1.14668
0.96603
0.91758
1.00010
0.00019
0.99945
Tabla 6.12: Resultados para conjuntos multi clase

Los resultados presentados en la tabla 6.12 muestra un mejor resultado en terminos de precision
y n
umero de vectores de soporte para CMA-ES-SVM-CV. En el caso CMA-ES-SVM-SB revela un
n
umero menor de iteraciones en los tres conjuntos con un sacrificio en la precision relativamente
peque
no. Considerando que se trata un esquema multi clase y dos de las bases de datos son grandes
se puede decir que las dos formas del algoritmo propuesto se comportan bastante bien.
6.4.
Resultados con Kernel Polinomial
El objetivo de esta prueba es observar el funcionamiento del algoritmo propuesto a un kernel

diferente a RBF, para esto se utiliza el kernel polinomial no homogeneo de la la ecuacion (A.7) para
69
dos conjuntos de datos anteriormente utilizados: uno binario, Breast y otro multi clase, Iris. El
grado del polinomio se escogi
o en el rango d = (1, 6) N, c = [0, 1] R y la transformacion para
u = ln C se mantiene. Como valores iniciales se seleccionaron d = 3, c = 0 y u = ln C = 0.
Conjunto
Iris
Breast
Metodo
CMA-ES-SVM-CV
CMA-ES-SVM-SB
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Precision( %)
93.3333
93.3333
92.3333
94.6667
SVM
NSV Iteraciones
13
28
17
23
31
28
26
9
C
1.2860
1.0758
1.0774
0.6611
d
2
3
3
2
c
0.00000
0.13460
0.04723
0.00000
Tabla 6.13: Resultados para kernel polinomial

Los resultados obtenidos en la tabla 6.13 muestran que efectivamente al algoritmo propuesto funciona para este kernel en especfico. De la formulacion del kernel polinomial se puede anotar que
en este caso se deben ajustar 3 par
ametros en vez de dos y que considerando esto la cantidad de
iteraciones sigue siendo considerablemente peque
na. Aunque las pruebas presentadas en esta seccion
son para un solo kernel diferente, son concluyentes pues el n
umero de parametros se incremento,
el rango de d y c debe ser limitado para que el kernel cumpla con las condiciones de Mercer y en
general el kernel polinomial es problematico.
6.5.
Conjuntos de Problemas Reales
En esta secci
on, se presentan resultados producto de aplicaciones realizadas en el Grupo de Control
y Procesamiento Digital de Se
nales 1 como parte de trabajos de grado. Detalles de las etapas de
preproceso, extracci
on de atributos y comparativos con otras tecnicas pueden ser encontradas en
las referencias, en este trabajo solo se presentan resultados obtenidos para SVM.
6.5.1.
Identificaci
on de Voces Patol
ogicas
Las muestras de voz utilizadas, fueron obtenidas de una poblacion adulta de la ciudad de Manizales,
donde se evaluaron pacientes de ambos sexos con edades entre los 18 y 62 a
nos. El n
umero total de
registros analizados fue de 91, todos valorados por un fonoaudiologo. Cada muestra consiste en un
1
Grupo de investigaci
on perteneciente a la Universidad Nacional de Colombia, Sede Manizales
70
registro de la fonaci
on sostenida de los cinco fonemas vocalicos (a, e, i, o, u). Las clases de voz a
identificar son: voz normal y voz patol
ogica. Se conformaron seis conjuntos (ver tabla 6.14), los dos
primeros llamados A y B utilizan wavelets para extraccion de caractersticas, los segundos C y D
caractersticas ac
usticas y los u
ltimos dos C scaled y D scaled son versiones escaladas dividiendo
por el m
aximo en el rango de [1, 1] debido a que todos los valores en estos conjuntos son mayores
que cero. Esto u
ltimo se hace para observar los efectos del escalamiento en los metodos tratados.
Los detalles de la extracci
on de caractersticas y resultados comparativos con otras tecnicas de
clasificaci
on pueden encontrarse en Ojeda [2003].
Conjunto
A
B
C, C escalado
D, D escalado
Caractersticas
12
60
5
25
40
40
40
40
Grupo de Validacion
51
51
51
51
Tabla 6.14: Estructura del conjunto para identificacion de voces patologicas

Los resultados mostrados en la tabla 6.15 muestran en general mejor desempe
no por parte de
CMA-ES-SVM-CV ya que en cinco de los seis conjuntos obtuvo la mayor precision con n
umero
de vectores de soporte e iteraciones cercanas a los valores maximos. En particular, el conjunto D
presenta soluciones muy pobres tanto en precision como en NSV (sobre-entrenamiento evidente).
Con relaci
on al escalamiento del espacio de entrada, es claro que aumenta el desempe
no tanto en
precision como en n
umero de vectores de soporte y respecto del n
umero de iteraciones, la diferencia
es mnima.
Nota 2 Aunque el procedimiento de escalamiento es recomendado como preproceso de la m
aquina
de soporte vectorial, se debe considerar que no para todos los conjuntos dicho procedimiento funciona, es m
as, se considera que solo debe ser aplicable cuando el vector de medias de conjunto de
entrada sea grande o los rangos de cada vector de caractersticas esten en rangos bastante dispares.
6.5.2.
Clasificaci
on de Arritmias en ECG
Se utilizo un metodo para clasificar se

nales de ECG con extraccion de caractersticas basada en la
informaci
on contenida en los coeficientes de aproximacion de su descomposicion wavelet. El estudio
incluyo 11 formas de onda etiquetadas de la base de datos de arritmias MIT-BIH: Latido auricular
prematuro desviado (a), latido de escape ventricular (E), fusion de latido ventricular y normal
71
Conjunto
Metodo
C escalado
D escalado
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Malla
R/M L2
R/M L1
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Precision( %)
94.1176
92.1569
80.3922
94.1176
92.3529
96.0784
96.0784
96.0784
96.0784
94.7059
84.3137
82.3529
84.3137
85.8235
84.9020
50.9804
66.6667
50.9804
50.9804
50.9804
88.2353
88.2353
88.2353
88.2353
88.2353
90.1961
88.2353
74.5098
92.1569
74.5098
NSV
21
40
36
27
37
35
33
33
28
26
33
40
34
40
40
40
40
40
40
40
19
30
27
21
26
24
40
39
35
40
SVM
Iteraciones
484
11
36
56
68
484
12
21
68
20
484
11
22
24
20
484
10
18
24
8
484
13
22
42
44
484
11
30
44
8
C
8.0000
0.7107
1.8009
2.1107
0.7632
1.0000
309.30
1.7700
2.7656
0.9023
1.0000
1.4624
2.4789
1.1301
0.8959
1.0000
0.7190
1.2500
1.0931
1.0000
2.8284
3.6882
2.4000
1.6667
1.0000
4.0000
0.6011
1.9495
1.5011
1.0000
Tabla 6.15: Resultados para identificacion de voces patologicas
0.06250
0.30910
1.68241
0.21627
1.02996
0.06250
0.06850
0.06854
0.05171
0.99613
0.03125
0.00990
0.04060
0.73876
0.91364
1.00000
0.00140
0.49999
0.73549
1.21107
0.50000
1.76240
2.58179
0.74259
1.04677
0.03125
0.06510
0.65397
0.28671
1.01866
72
(F), fusi
on de latido acelerado y normal (f), bloqueo de rama izquierda (L), latido normal (N),
latido acelerado (P), onda P no conducida (p), bloqueo rama derecha (R), contraccion ventricular
prematura (V) y fibrilaci
on ventricular (VF) [ver Orozco, 2003]. Para esta prueba tres conjuntos
se seleccionaron para dos cantidades de varianza acumulada de un procedimiento de analisis de
componentes principales (PCA), es decir: A el conjunto completo, B para PCA varianza 95 % y C
para PCA varianza 90 %. La estructura de los datos se muestra en la tabla 6.16.
Conjunto
A
B
C
Caractersticas
25
11
8
400
400
400
Grupo de Validacion
700
700
700
Tabla 6.16: Estructura del conjunto para clasificacion de arritmias en ECG

Conjunto
A
B
C
Metodo
CMA-ES-SVM-CV
CMA-ES-SVM-SB
CMA-ES-SVM-CV
CMA-ES-SVM-SB
CMA-ES-SVM-CV
CMA-ES-SVM-SB
Precision( %)
95.4286
94.7143
94.7143
94.2857
95.0000
94.2857
NSV
232
229
222
224
207
222
SVM
Iteraciones
60
26
24
8
28
8
C
15.875
1.0001
1.237
1.0001
1.8569
1.0001
0.30604
1.00010
1.05880
1.00010
1.00010
1.00010
Tabla 6.17: Resultados para clasificacion de arritmias en ECG

Para el conjunto de arritmias, los resultados mostrados en la tabla 6.17 son en terminos generales
mas favorables para CMA-ES-SVM-CV, sinembargo, CMA-ES-SVM-SB no esta muy alejado de los
maximos de precisi
on y NSV. Se debe anotar que los resultados son bastante buenos en adicion a
que el conjunto es multi clase y a que la respuesta de la SVM a PCA es consistente en terminos de
disminuci
on del n
umero de vectores de soporte.
Captulo 7
Discusi
on Final, Sumario y
Trabajo Posterior
En terminos generales, los resultados obtenidos en este trabajo muestran que el algoritmo propuesto
en sus dos variantes (CMA-ES-SVM-CV y CMA-ES-SVM-SB) es bastante competitivo en comparacion a las tecnicas basadas en la diferenciabilidad de las cotas del error (L1-SVM y L2-SVM), si se
observa que en varias ocasiones, las desarrolladas en este trabajo obtuvieron desempe
nos similares
y otras tantas veces superiores en las pruebas de conjuntos artificiales, estandares y de problemas reales, sin tener en cuenta el beneficio adicional proporcionado por el soporte multi-clase, la
posibilidad de utilizar kernels no diferenciables y la seleccion de m
ultiples parametros.
Si se observa cuidadosamente, el rango de precision para la diferentes pruebas efectuadas no fue muy
grande, sinembargo, muchas veces superior para el caso de CMA-ES-SVM-SB, ademas, en los casos
en los que las tecnicas utilizadas para realizar la comparacion obtuvieron mejores valores de precision
no lo eran tanto respecto del algoritmo desarrollado en este trabajo. Por otro lado, el n
umero de
vectores soporte obtenido en los diferentes experimentos es satisfactorio y considerablemente mejor
para CMA-ES-SVM-CV, si se parte de el hecho que NSV tambien es una medida de generalizacion
para SVM y sin mencionar que entre mas peque
na sea esta cantidad menor es la carga computacional
requerida tanto para el entrenamiento como para la validacion.
En el tiempo en que se estaba planeando la realizacion de este trabajo, se tena pensado que
73
74
el algoritmo que se desarrollara, utilizara mayor cantidad de iteraciones dado que no se estaba
viendo como un problema de b
usqueda en lnea sino global, sinembargo dadas las caractersticas
del optimizador que se iba a utilizar, es decir CMA-ES, se esperaba que por lo menos el n
umero
de iteraciones siempre fuera inferior al requerido por la b
usqueda en malla, por el contraro y dada
la dificultad de las funciones a minimizar (SB y CV), los experimentos mostraron que el algoritmo
propuesto estaba la mayora de veces relativamente cerca del mnimo. Ademas, si bien L2-SVM en
casi todas las pruebas requiri
o el mnimo de iteraciones, nunca lo obtuvo en NSV y en repetidas
veces mostr
o tendencia al sobre-entrenamiento.
Debido a que el soporte multi clase era una propiedad del algoritmo propuesto, se realizaron algunas pruebas con la finalidad de observar su comportamiento y se aprovecho tambien para utilizar
espacios de entrada grandes en terminos de observaciones y caractersticas. Aunque los resultados carecen de marco comparativo, en terminos de precision y NSV fueron bastante buenos y el
incremento en el n
umero de iteraciones requeridas por las dos variantes del algoritmo en ning
un
caso fueron desproporcionadas a las que se observaron en las pruebas con conjuntos artificiales y
estandares.
Otra caracterstica del algoritmo desarrollado en este trabajo es la posibilidad de utilizar diferentes
funciones kernel sin requerir propiedades de diferenciabilidad en ellas. En realidad, no se realizaron
pruebas para esto porque la utilizaci
on de kernels especializados (no son diferenciables generalmente)
esta reservada casi que exclusivamente para aplicaciones especficas de las cuales el autor no posee
un conocimiento suficiente, sinembargo, con fines ilustrativos se presentaron algunos resultados
para el kernel polinomial no homogeneo, que ademas posee tres hiperparametros en vez de dos
y con la dificultad adicional de requerir hiperparametros acotados. Debido a que se careca de
marco comparativo, se utilizaron conjuntos de los experimentos anteriores con resultados del todo
satisfactorios.
Con referencia al los par
ametros requeridos por el algoritmo propuesto, se podra pensar que se esta
resolviendo un problema de selecci
on de parametros que a su vez requiere parametros, lo cual es de
alg
un modo ir
onico, sinembargo, en cuanto al tama
no inicial del paso, el parametro de la funcion
span y el criterio de parada, se siguieron estrictamente las sugerencias de los autores y aunque
son heursticos funcionan bastante bien considerando los resultados obtenidos. En algunas pruebas
preliminares que no se incluyeron en este documento, se realizaron experimentos para probar la
viabilidad de los par
ametros mencionados anteriormente incluyendo el n
umero de particiones de
la validaci
on cruzada y el criterio de parada dependiente de los hiperparametros que de manera
75
definitiva llevaron a ponerlos como por defecto.

Los resultados obtenidos en este trabajo hacen que el algoritmo propuesto sea ideal para para aplicaciones especficas donde se requiera un clasificador con arquitectura robusta sobre todo en terminos
de automatizaci
on, debido a que en muchas de ellas se necesita una maquina que se actualice o
se construya independientemente sin la necesidad de reformular completamente la estructura del
problema.
Si se trata de evaluar independientemente las dos variantes del algoritmo presentadas en este trabajo
se debe decir que: CMA-ES-SVM-SB es la eleccion apropiada teniendo en cuenta la precision y el
n
umero de iteraciones y CMA-ES-SVM-CV si en el problema que se esta tratando se considera mas
importante un n
umero de vectores de soporte menor ya sea por el costo computacional o por que
se tiene un n
umero limitado de observaciones. En contraste, si de antemano se tiene conocimiento
que el problema a resolver es muy complejo tal vez CMA-ES-SVM-SB ofrezca mas ventajas dados
los resultados obtenidos y la cantidad de iteraciones que naturalmente tenderan a incrementar.
En resumen, se cree que los objetivos propuestos para este trabajo de tesis fueron cubiertos con creces
y que los resultados obtenidos contribuyen significativamente al campo del aprendizaje de maquina
en cuanto a que hacen que la SVM sea un clasificador autonomo en terminos de arquitectura, ademas
es un paso adelante para hacer que las SVM se conviertan en el principal metodo de clasificacion
que es lo que los investigadores en esta area tanto desean. Ademas, este trabajo puede suponer toda
una nueva gama de posibilidades, ya que la mezcla del aprendizaje de maquina con las estrategias
evolutivas podra dar respuesta a muchos problemas en los que una solucion como la que aqu se
plantea no ha sido contemplada todava.
Para finalizar, hay en este trabajo varias posibilidades para investigacion posterior. Tal vez la mas
evidente es la referente al criterio de parada que ni en este trabajo ni en la literatura disponible
encuentran una soluci
on definitiva. Evaluar el algoritmo propuesto con aplicaciones especficas que
requieran funciones kernel especializadas y/o un n
umero considerablemente mayor de hiperparametros, que dado el conocimiento del autor, se da principalmente en procesamiento de imagenes y
bioinform
atica. Extender el algoritmo propuesto a esquemas de regresion y variantes de SVM como
aprendizaje activo, an
alisis de componente principales no lineal (KPCA), discriminantes de Fisher
con kernel (KFD) y selecci
on de caractersticas con SVM. Y alternativamente desarrollo de otra
cota o utilizaci
on de alguna diferente podra mejorar el desempe
no del algoritmo propuesto.
Ap
endice A
Kernels
La funcion kernel es descrita como una medida de similitud que puede ser vista como el producto
punto en un espacio llamado de caractersticas (ver figura A.1). El proposito de esto, es proporcionar
un entendimiento intuitivo de dichas funciones en vez de presentar la teora analtica de cuales clases
de kernels admiten la representaci
on de un producto punto en un espacio de caractersticas dado.
En esta secci
on se hace de manera m
as formal y precisa. Los kernels aqu presentados, son funciones
simetricas que corresponden a productos punto en un espacio de caractersticas en H via un mapeo
.
Figura A.1: Ejemplo de un problema de clasificacion binaria mapeado en un espacio de

caractersticas utilizando un kernel polinomial
76
77
A.1.
Kernels Definidos Positivos
Un kernel positivo definido es aquel para el cual, dado un conjunto X y una funcion K : X X
produce una matriz gramo positiva definida. El termino kernel proviene del primer uso de este tipo
de funciones en el campo de los operadores integrales estudiados por Hilbert y otros. Una funcion
R
k que produce un operador Tk utilizando (Tk f )(x) = X k(x, x0 )f (x0 )dx0 es llamada kernel de Tk .
En la literatura, una gran cantidad de nombres han sido utilizados para designar kernels definidos
positivos tales como: kernels reproducidos, kernels de Mercer, kernels admisibles, kernel definido no
negativo, funci
on de covarianza, etc. Sinembargo para evitar posibles confusiones, lo mas preferible
es utilizar el termino kernel semi definido positivo. Las definiciones de kernels y matrices definidos
positivos difieren en el hecho que para el primer caso es posible elegir libremente los puntos en los
que se eval
ua K de modo que para cualquier eleccion, una matriz positiva definida es obtenida.
La condici
on de definido positivo implica ademas positividad en la diagonal y simetra incluso
para el caso de valores complejos. Las funciones kernel pueden ser vistas como productos punto
generalizados en el sentido que cualquier producto punto es un kernel, sinembargo la linealidad
de los argumentos vista como propiedad esencial de los productos punto, no lo es en los kernels
en general. De otro lado, la desigualdad de Cauchy-Schwarz valida en los productos puntos provee
tambien una natural generalizaci
on de los kernels.
A.2.
Reproducci
on de un Mapeo con Kernel
Asumiendo que K es un kernel definido positivo con valores reales y X es un conjunto no vaco de
patrones que deben ser representados como su similitud respecto a todos los otros puntos de dicho
conjunto supone una representaci
on bastante amplia. A continuacion se presenta como construir un
espacio de caractersticas asociado a . Para empezar, se debe construir un espacio de productos
punto que contenga todas la im
agenes de la entrada bajo , para lo cual es necesario definir un
espacio vectorial tomando las combinaciones lineales de la forma
f (.) =
m
X
i k(., xi )
(A.1)
i=1
donde m N y x1 , x2 , ..., xm X . Ahora se define un producto punto entre f y otra funcion de
78
manera que
0
hf, gi =
m X
m
X
i j k(xi , x0j )
(A.2)
i=1 j=1
De modo que la ecuaci

on (A.2) contiene los coeficientes de expansion que no necesariamente tienen
que ser u
nicos. Como u
ltimo paso, debe ser probado que dicha funcion esta bien definida, para esto
0
hf, gi =
m
X
j f (x0j )
(A.3)
j=1
haciendo k(x0j , xi ) = k(xi , x0j ). La suma en la ecuacion (A.3), no depende entonces de una expansion
de f en particular. La u
ltima ecuaci
on y su version para g muestran que h., .i es bilineal y simetrico,
es mas, es definido positivo debido a que esto implica que k o cualquier funcion f escrita como A.1
mantiene
hf, f i =
m
X
i j k(xi , xj ) 0
i,j=1
De modo que h., .i es definido positivo y ademas hk(., x), f i = f (x). As, un kernel definido positivo
puede verse como un producto punto en otro espacio con la siguiente propiedad
h(x), (x0 )i = k(x, x0 )
(A.4)
Por consiguiente, el espacio de productos punto H es en este sentido una posible realizacion del
espacio de caractersticas asociado al kernel. La identidad en (A.4) forma la base para el llamado
truco kernel en el cual, dado un algoritmo formulado en terminos de un kernel definido positivo k,
es posible construir una alternativa para reemplazar k por alg
un otro e
k tambien definido positivo.
79
A.3.
Reproducci
on de un Espacio de Hilbert mediante Kernels
En la secci
on anterior, se trat
o con un tipo de funciones que reproducen espacios vectoriales y
que adem
as est
an dotadas de un producto punto. Estos espacios son designados como espacios
de productos punto o equivalentemente pre-espacios de Hilbert, la razon para eso u
ltimo, es que
pueden tornarse en espacios de Hilbert mediante la utilizacion de un simple truco matematico.
Esta conversi
on supone varias ventajas como que siempre es posible definir proyecciones. Ahora,
para convertir el pre espacio de Hilbert de funciones (A.1) dotadas del producto punto en (A.2)
en uno de Hilbert (en R), hay que completar la norma correspondiente a dicho producto punto
p
nadiendo limites de secuencias que son convergentes en esa norma.
(kf k := hf, f i) a
Definici
on 11 (Espacio de Hilbert reproducido por kernel (RKHS)) Sea un conjunto no
vaco X y H un espacio de funciones f : X R. Luego, H es llamado espacio reproducido de
p
Hilbert por kernel dotado de u producto punto h., .i y una norma kf k := hf, f i si existe una
funci
on k : X H H con las siguientes propiedades
1.
k tiene la propiedad de reproducci

on
hf, k(x, .)i = f (x)f H

en particular,
hk(x, .), k(x0 , .)i = k(x, x0 )
2.
(A.5)
k abarca H, esto es H = span(k(x, .)|x X ) donde X denota la adherencia del conjunto X.
De (A.5), se puede probar que k es simetrico y ademas definido positivo. Notese tambien que RKHS
u
nicamente determina k, esto es, no existen dos kernels k y k 0 que abarcan el mismo espacio H.
A.4.
El Kernel de Mercer
En esta secci
on se presenta otra construccion de un espacio de Hilbert que ha jugado un papel
crucial en el entendimiento de las SVM. Es por esto que generalmente en la literatura de SVM los
80
kernels son presentados utilizando el teorema de Mercer.

Teorema 12 (Mercer) Suponga k L (X ) una funci
on real simetrica tal que el operador integral
Tk : L2 (X L2 (X ))
Z
(Tk F )(x) :=
k(x, x0 )f (x0 )d(x0 )
X
es positiva definida, esto es, f L2 (X ) se tiene
k(x, x0 )f (x)f (x0 )d(x)d(x0 ) 0
X2
Haciendo j L2 (X ) las funciones propias ortonormales de Tk asociadas al valor propio j > 0

ordenadas en sentido no decreciente, se tiene
1.
(j )j `1
2.
k(x, x0 ) =
PNH
i=1
j j (x)j (x0 ) se mantiene para casi todos (x, x0 ). Tambien, NH N o
NH , y en el u
ltimo caso, la serie converge absoluta y uniformemente para casi todos
(x, x0 )
Del teorema anterior, se asume un espacio de medida finito (X , ) donde es la probabilidad de
medida y X un subconjunto compacto de R. El termino casi todos se refiere excepto para conjuntos
de medida cero o en terminos de la medida de Lebesgue-Borel conjuntos enumerables de puntos
individuales son conjuntos de medida cero.
Ambos, el kernel de Mercer y el definido positivo, pueden ser representados como productos punto
en un espacio de Hilbert. El siguiente teorema muestra el caso cuando los dos tipos de kernels
coinciden.
Teorema 13 (Los kernels de Mercer son definidos positivos) Sea X = [a, b] un intervalo
compacto y k : [a, b] [a, b] C continuo. Luego, k es definido positivo si y solo si
Z
a
Z
a
k(x, x0 )f (x)f (x0 )dxdx0 0
81
para cada funci

on continua f : X C
Notese que las condiciones del teorema 13 son mas restrictivas que las del 12 y con esto los kernels
de Mercer tambien son kernels reproducidos.
A.5.
Ejemplos y Propiedades de Kernels
En todos los ejemplos a continuaci

on se asume el espacio de entrada perteneciente a los reales
(X R).
Kernel polinomial homogeneo de grado d.
k(x, x0 ) = hx, x0 id
Kernel Gaussiano de base radial, sugerido por Boser et al. [1992], con > 0 (o =
k(x, x0 ) = exp
kx x0 k2
2 2
1
2 2 ).
(A.6)
Kernel sigmoidal, con > 0 y > 0. No es definido positivo para algunos valores de y
sinembargo ha sido utilizado en la practica.
k(x, x0 ) = tanh(hx, x0 i + )
Kernel polinomial no homogeneo, con d N y c 0
k(x, x0 ) = (hx, x0 i + c)d
(A.7)
Bn -Spline kernel, con IX denotando la funcion caracterstica del conjunto X y el operador

de convoluci
on (f g)(x) := f (x0 )g(x0 x)dx0 . Este kernel calcula B-splines de orden 2p + 1
con p N definidas por la convolucion de las 2p + 1 particiones en el intervalo [1/2, 1/2]
k(x, x0 ) = B2p+1 (kx x0 k) con Bn := ni=1 I[1/2,1/2]
82
Kernel racional cuadr

atico, c 0
k(x, x0 ) = 1
kx x0 k2
kx x0 k2 + c
Notese que todos los kernels mencionados anteriormente son unitariamente invariantes lo cual es
interesante (k(x, x0 ) = k(U x, U x0 ) si U > = U 1 ), es decir, son invariantes a rotaciones. Los kernels
de base radial (RBF), son los que pueden escribirse de la forma k(x, x0 ) = f (d(x, x0 )) donde d es
una metrica en X y f una funci
on en R+
0 (por ejemplo los gaussianos y Bn -splines). Usualmente,
p
la metrica surge del producto punto d(x, x0 ) = kx x0 k = hx x0 i, hx x0 i. Los kernels RBF
ademas de ser unitariamente invariantes, son invariantes a la traslacion, en otras palabras, k(x, x0 ) =
k(x x0 , x0 x0 ) para todo x0 X .
Una propiedad interesante de los kernels polinomiales es que son invariante a las transformaciones
ortogonales en R debido a que induce un mapeo al espacio de todos los monomios de grado d. Otra
estructura adicional de los kernels gaussianos RBF se debe a que k(x, x) = 1 para todo x X lo
cual implica que cada observaci
on tiene longitud unitaria. Es mas, como k(x, x0 ) > 0 para todo
x, x0 X todos los puntos son mapeados en el mismo cuadrante del espacio de caractersticas,
equivalente a decir que el
angulo entre dos puntos mapeados cualquiera es siempre menor que /2.
Lo anterior parece indicar que para el caso gaussiano, los datos mapeados ocupan un area muy
peque
na dentro del espacio de caractersticas, sinembargo visto de otra manera, estos ocupan el
espacio que sea lo m
as grande posible debido a que la matriz gramo de un kernel gaussiano es de
rango completo lo que significa que abarca un sub espacio m-dimensional de H. Es de suponer que
un kernel de este tipo definido en un dominio de infinita cardinalidad, sin restricciones previas del
n
umero de muestras de entrenamiento producira un espacio de caractersticas infinito dimensional.
Ap
endice B
Algoritmo BFGS
Muchos de los problemas que se presentan en ingeniera usualmente involucran un objetivo com
un
relacionado con encontrar soluciones cuantitativas a partir de un conjunto de ecuaciones que generalmente no son lineales lo cual apunta a la aplicacion de la teora de optimizacion. Los problemas
de optimizaci
on pueden ser clasificados como restringidos o no restringidos como las SVM y las redes
neuronales del tipo perceptr
on respectivamente. Sinembargo, como un problema de optimizacion
restringido puede ser transformado en uno no restringido, muchos de los investigados involucrados
prefieren tratar con estos u
ltimos [Phua et al., 1997].
A grandes rasgos, un problema de optimizacion no restringido puede ser definido como sigue:
mn f (x)
x
con x un vector ndimensional real y f (x) una funcion no lineal en R.

Aunque existen muchos tecnicas para resolver problemas de optimizacion no restringidos, el metodo
quasi-Newton (QN) es tal vez el m
as utilizado. As
umase que en la kesima iteracion un punto de
aproximaci
on xk y una matriz Hk de dimension n n estan disponibles, luego el metodo procede
generando una secuencia de puntos de aproximacion por medio de la ecuacion,
xk+1 = xk + k dk
83
84
donde k > 0 es el paso calculado para satisfacer ciertas condiciones de la b

usqueda en linea y dk
es un vector real de dimensi
on n que representa la direccion de la b
usqueda. Para los metodos QN,
dk esta definido por:
dk = Hk gk
donde gk = f (xk ) es el gradiente del vector f (x) evaluado en el punto x = xk . Una caracterstica
importante de los metodos QN es que la matriz Hk es usualmente seleccionada para satisfacer la
ecuacion QN,
Hk+1 yk = k k
con k = xk+1 xk , yk = f (xk+1 ) f (xk ) y > 0 un parametro libre.
Uno de los metodos QN m
as conocidos es el BFGS propuesto independientemente por Broyden,
Fletcher, Goldfarb, Shanno [1970]. La actualizacion en BFGS esta definida por la siguiente ecuacion
Hk+1 = Hk +
1
k0 yk

k +
yk0 Hk yk
k0 yk
k k0 k yk0 Hk Hk yk k0
con 1. El metodo BFGS fue inicialmente implementado por Shanno and Phua [1976] y esta
disponible en ACM Mathematical Software Library.
Referencias
T. Back and H.-P. Schwefel. An overview of evolutionary algorithms for parameter optimization.
Evolutionary Computation, 1(1):123, 1993.
H.-G. Beyer. Toward a theory of evolution strategies: On the benefit of sex - the (/mu1 , )-theory.
H.-G. Beyer. On the asymptotic behavior of multirecombinant evolution strategies. In Springer,
editor, Proceedings of PPSN IV, Parallel Problem Solving from Nature, pages 122133, Berlin,
1996.
H.-G. Beyer and K. Deb. On the desired behaviors of self-adaptive evolutionary algorithms. In
Springer, editor, Proceedings of PPSN VI, Parallel Problem Solving from Nature, pages 5968,
Berlin, 1994.
Hans-Georg Beyer. The Theory of Evolution Strategies. Springer Verlag, Berlin, 2001. ISBN 3-54067297-4.
A. Bienven
uea and O. Francois. Global convergence for evolution strategies in spherical problems:
some simple proofs and dificulties. Theoretical Computer Science, 306(1):269289, 2003.
C.L. Blake and C.J. Merz. UCI repository of machine learning databases, 1998.
B. Boser, I. Guyon, and V. Vapnik. A training algorithm for optimal margin classifer. In Pat
Langley, editor, In Proc. 5th ACM Workshop on Computational Learning Theory, pages 144
152, Pittsburgh, PA, 1992.
C.J.C. Burges. A tutorial on support vector machines for pattern recognition. Knowledge Discovery
and Data Mining, 2(2):121167, 1998.
85
86
C.-C. Chang, C.-W. Hsu, and C.-J. Lin. The analysis of decomposition methods for support vector
machines. IEEE Transactions on Neural Networks, 11(4):10031008, 2000.
Olivier Chapelle, Vladimir Vapnik, Olivier Bousquet, and Sayan Mukherjee. Choosing multiple
parameters for support vector machines. Machine Learning, 46(1-3):131159, 2002.
K.-M. Chung, W.-C. Kao, C.-L. Sun, L.-L. Wang, , and C.-J. Lin. Radius margin bounds for support
vector machines with the rbf kernel. Neural Computation, 15(11):26432681, 2003.
C. Cortes and V. Vapnik. Support vector network. Machine Learning, 20(1).
K. Duan, S.S. Keerthi, and A.N. Poo. Evaluation of simple performance measures for tuning svm
hyperparameters. Neurocomputing, 51(1):4159, 2003.
J. Friedman. Another approach to polychotomous classification. Technical report, Department of
Statistics, Stanford University, 1996.
N. Hansen. Invariance, self-adaptation and correlated mutations in evolution strategies. In Springer,
editor, Proceedings of PPSN VI, Parallel Problem Solving from Nature, pages 355364, Berlin,
2000.
N. Hansen. Comunicaci
on personal, 2004.
N. Hansen, S.D M
uller, and P. Koumoutsakos. Reducing the time complexity of the derandomized
evolution strategy with covariance matrix adaptation (cma-es). MIT Journals, 11(1):118, 2003.
N. Hansen and A. Ostermeier. Adapting arbitrary normal mutation distributions in evolution
strategies: The covariance matrix adaptation. In IEEE Press, editor, Proceedings of the 1996
IEEE International Conference on Evolutionary Computation, pages 312317, Piscataway, New
Jersey, 1996.
N. Hansen and A. Ostermeier. Convergence properties of evolution strategies with the derandomized
covariance matrix adaptation: The (/i , )cma-es. In Verlag Mainz, editor, Proceedings of
EUFIT97, Fifth European Congress on Intelligent Techniques and Soft Computing, pages 650
654, Aachen, 1997.
N. Hansen and A. Ostermeier. Completely derandomized self-adaptation in evolution strategies.
87
M. Herdy. The number of offspring as strategy parameter in hierarchically organized evolution

strategies. SIGBIO Newsletter, 13(2):27, 1993.
C.-W. Hsu and C.-J. Lin. A comparison of methods for multi-class support vector machines. IEEE
Transactions on Neural Networks, 13(2):415425, 2002a.
C.-W. Hsu and C.-J. Lin. A simple decomposition method for support vector machines. Machine
Learning, 46(1):291314, 2002b.
C.W. Hsu, C.C. Chang, and C.J. Lin. A practical guide to support vector classification. Technical report, Department of Computer Science and Information Engineering, National Taiwan
University, 2003.
D. Hush and C. Scovel. Polynomial-time decomposition algorithms for support vector machines.
Machine Learning, 51(1):5171, 2003.
T. Jaakkola and D. Haussler. Probabilistic kernel regression models. In In Proceedings of the
1999 Conference on AI and Statistics, San Mateo, CA, 1999. Morgan Kaufmann Publishers, San
Francisco, CA.
Jens Jagersk
upper. Analysis of a simple evolutionary algorithm for minimization in euclidean
spaces. In Springer Verlag, editor, ICALP2003 Thirtieth International Colloquium on Automata,
Languages and Programming, pages 10681079, Eindhoven, The Netherlands, 2003.
T. Joachims. Making Large-Scale Support Vector Machine Learning Practical, in Advances in Kernel
Methods - SupportVector Learning. MIT Press, Cambridge, MA, 1999. ISBN 0-262-19416-3.
Thorsten Joachims. Estimating the generalization performance of a SVM efficiently. In Pat Langley,
editor, Proceedings of ICML-00, 17th International Conference on Machine Learning, pages 431
438, Stanford, US, 2000. Morgan Kaufmann Publishers, San Francisco, CA.
L. Kaufman. Solving the quadratic programming problem arising in support vector classification,
in Advances in Kernel Methods - Support Vector Learning. MIT Press, Cambridge, MA, 1999.
ISBN 0-262-19416-3.
S. Keerthi, S. Shevade, C. Bhattacharyya, and K. Murthy. Improvements to platts smo algorithm
for svm classifier design. Technical report, Control Division, Dept. of Mechanical Engineering,
National University of Singapore, 1999.
88
S. S. Keerthi and E. G. Gilbert. Convergence of a generalized SMO algorithm for SVM classifier
design. Machine Learning, 46(1-3):351360, 2002.
S.S. Keerthi. Efficient tuning of svm hyperparameters using radius/margin bound and iterative
algorithms. IEEE Transactions on Neural Networks, 13(5):12251229, 2002.
S.S. Keerthi. Comunicaci
on personal, 2003.
S.S. Keerthi and C.-J. Lin. Asymptotic behaviors of support vector machines with gaussian kernel.
Neural Computation, 15(7):16671689, 2003.
S.S. Keerthi and C.J. Ong. On the role of the threshold parameter in svm training algorithms. Technical report, Dept. of Mechanical and Production Engineering, National University of Singapore,
2000.
S.S. Keerthi, S.K. Shevade, C. Bhattacharyya, and K.R.K. Murthy. A fast iterative nearest point
algorithm for support vector machine classifier design. IEEE Transactions on Neural Networks,
11(1):124136, 2000.
R.D. King, C. Feng, and A. Sutherland. Statlog: Comparison of classification algorithms on large
real-world problems. Applied Artificial Intelligence, 306(1):289333, 1995.
S. Knerr, L. Personnaz, and G. Dreyfus. Single-layer learning revisited: a stepwise procedure for
building and training a neural network, in Neurocomputing: Algorithms, Architectures and Applications. Springer, N.Y., 1990. ISBN 3-540-53278-1.
U. KreSSel. Pairwise Classification and Support Vector Machines, in Advances in Kernel Methods
and Support Vector Learning. MIT Press, Cambridge, MA, 1999. ISBN 0-262-19416-3.
Jen-Hao Lee and Chih-Jen Lin. Automatic model selection for support vector machines. Technical report, Department of Computer Science and Information Engineering, National Taiwan
University, 2001.
C.-J. Lin. Asymptotic convergence of an smo algorithm without any assumptions. IEEE Transactions on Neural Networks, 13(1):248250, 2001a.
C.-J. Lin. Linear convergence of a decomposition method for support vector machines. Technical report, Department of Computer Science and Information Engineering, National Taiwan
University, 2001b.
89
C.-J. Lin. On the convergence of the decomposition method for support vector machines. IEEE
Transactions on Neural Networks, 12(6):12881298, 2001c.
C.-J. Lin. A formal analysis of stopping criteria of decomposition methods for support vector
machines. IEEE Transactions on Neural Networks, 13(5):10451052, 2002.
C.-J. Lin and J. J. More. Newtons method for large bound-constrained optimization problems.
SIAM Journal on Optimization, 9(4):11001127, 1999.
Chih-Jen Lin. Can support vector machine be a major classification method ?, 2003.
H.-T. Lin and C.-J. Lin. A study on sigmoid kernels for svm and the training of non-psd kernels by smo-type methods. Technical report, Department of Computer Science and Information
Engineering, National Taiwan University, 2003.
C. A. Micchelli. Interpolation of scattered data: Distance matrices and conditionally positive definite
functions. Constructive Approximation, 2(1):1122, 1986.
F. Ojeda. Extracci
on de caractersticas usando transformada wavelet en la identificacion de voces
patologicas. Trabajo de grado, Universidad Nacional de Colombia, Manizales, 2003.
M. Opper and O. Winther. Gaussian Processes and SVM: Mean Field and Leave-One-Out. In A.
Smola, P. Bartlett, B. Sch
olkopf and D.Schuurmans, Advances in Large Margin Classifiers. MIT
Press, Cambridge, MA, 2000. ISBN 0-387-94559-8.
M. Orozco. Clasificaci
on de arritmias cardacas usando transformada wavelet y tecnicas de reconocimiento de patrones. Trabajo de grado, Universidad Nacional de Colombia, Manizales,
2003.
A. Ostermeier, A. Gawelczyk, and N. Hansen. Step-size adaptation based on non-local use of
selection information. In Springer, editor, Proceedings of PPSN IV, Parallel Problem Solving
from Nature, pages 189198, Berlin, 1994.
A. Ostermeier and N. Hansen. An evolution strategy with coordinate system invariant adaptation
of arbitrary normal mutation distributions within the concept of mutative strategy parameter
control. In Morgan Kaufmann, editor, Proceedings of the Genetic and Evolutionary Computation
Conference, GECCO-99, pages 902909, San Francisco, 1999.
E. Osuna, R. Freund, and F. Girosi. Training support vector machines: An application to face
detection. In IEEE, editor, In Proceedings of CVPRS97,

pages 130136, New York, NY, 1997.
90
K.H. Phua, Fan W., and D. Ming. Parallel algorithms for large scale nonlinear unconstrained optimization. Technical report, Department of Information Systems & Computer Science, National
University of Singapore, 1997.
J. C. Platt, N. Cristianini, and J. Shawe-Taylor. Large margin dags for multiclass classification.
Advances in Neural Information Processing Systems, 12(1):547553, 2000.
J.C. Platt. Probabilities in Support Vector Machines. In A. Smola, P. Bartlett, B. Sch
olkopf and
D.Schuurmans, Advances in Large Margin Classifiers. MIT Press, Cambridge, MA, 2000. ISBN
0-387-94559-8.
John C. Platt. Fast Training of Support Vector Machines using Sequential Minimal Optimization,
in Advances in Kernel Methods - Support Vector Learning. MIT Press, Cambridge, MA, 1999.
ISBN 0-262-19416-3.
Teukolsky S. Vetterling W. Press, W. and B. Flannery. Numerical Recipes in C: The Art of Scientific
Computing. Cambridge University Press, Cambridge, second edition edition, 1992. ISBN 0-52143108-5.
I. Rechemberg. The evolution Strategy: A Mathematical Model of Darwinian Evolution. Springer,
berlin, 1984.
G
unter Rudolph. Self-adaptation and global convergence: A counter-example. In Peter J. Angeline,
Zbyszek Michalewicz, Marc Schoenauer, Xin Yao, and Ali Zalzala, editors, Proceedings of the
Congress on Evolutionary Computation, pages 646651, Mayflower Hotel, Washington D.C., USA,
1999. IEEE Press.
C. Saunders, M. O. Stitson, J. Weston, L. Bottou, B. Schlolkopf, and A. Smola. Support vector
machine reference manual. Technical report, Royal Holloway, University of London, Egham, UK,
1998.
B. Scholkopf, K. Sung, C. Burges, F. Girosi, P.Niyogi,

T. Poggio, and V. Vapnik. Comparing support
vector machines with gaussian kernels to radial basis function classifiers. IEEE Transactions on
Signal Processing, A.I. Memo (1599), 45(11):27582765, 1996.
Bernhard Sch
olkopf and Alex Smola. Learning with Kernels Support Vector Machines, Regularization, Optimization and Beyond. MIT Press, Cambridge, MA, 2002. ISBN 0-387-94559-8.
91
H.-P. Schwefel. Numerical Optimization of Computer Models. Wiley, Chichester, 1992. ISBN
0-471-09988-0.
D.F. Shanno and K.H. Phua. Algorithm 500: Minimization of unconstrained multivariate functions.
ACM Transactions on Mathematical Software, 2(1):8794, 1976.
S. Sundararajan and S.S. Keerthi. Predictive approaches for choosing hyperparameters in gaussian
processes. Neural Computation, 13(5):11031118, 2001.
V. Vapnik. The Nature of Statistical Learning Theory. Springer, N.Y., 1995. ISBN 0-387-94559-8.
V. Vapnik. Statistical Learning Theory. Wiley, N.Y., 1998. ISBN 0-387-94559-8.
Vladimir Vapnik and Olivier Chapelle. Bounds on error expectation for support vector machines.
Neural Computation, 12(9):20132036, 2000.
G. Wahba, Y. Lin, and H. Zhang. Generalized Approximated Cross-Validation for Support Vector Machines: Another Way to Look at Margin Like Quantities. In A. Smola, P. Bartlett, B.
Sch
olkopf and D.Schuurmans, Advances in Large Margin Classifiers. MIT Press, Cambridge,
MA, 2000. ISBN 0-387-94559-8.
J. Weston and C. Watkins. Multi-class support vector machines. Technical report, Royal Holloway,
University of London, Egham, UK, 1998.

Tesis MG - Seleccion de Hiperparametros en Maquinas de Soporte Vectorial. Univ Colombia.2004

Încărcat de

Informații document

Descriere originală:

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tesis MG - Seleccion de Hiperparametros en Maquinas de Soporte Vectorial. Univ Colombia.2004

Încărcat de

Drepturi de autor:

Formate disponibile

DE HIPERPARAMETROS

ENVIADO EN PARCIAL CUMPLIMIENTO DE LOS

c Derechos Reservados por Ricardo Henao, 2004

UNIVERSIDAD NACIONAL DE COLOMBIA

Fecha: Mayo 2004

Julio Fernando Suarez

UNIVERSIDAD NACIONAL DE COLOMBIA

Con esta se concede permiso a la Universidad Nacional de Colombia de circular

Firma del Autor

EL AUTOR SE RESERVA OTROS DERECHOS DE PUBLICACION Y NI

1.1. Trabajo Previo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2. Objetivos Principales del Trabajo . . . . . . . . . . . . . . . . . . . . . . . .

1.3. Estructura del Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1. Clasificacion con Vectores de Soporte . . . . . . . . . . . . . . . . . . . . . .

2.2. Caso Linealmente no Separable . . . . . . . . . . . . . . . . . . . . . . . . .

2.3. Maquinas de Soporte no Lineales . . . . . . . . . . . . . . . . . . . . . . . .

2.4. Capacidad de Generalizacion . . . . . . . . . . . . . . . . . . . . . . . . . .

2.4.1. Riesgo Actual, Riesgo Emprico y Dimension VC . . . . . . . . . . .

2.4.2. La Dimension VC de las SVM

2.4.3. Procedimiento Leave-One-Out . . . . . . . . . . . . . . . . . . . . .

2.4.4. Cotas para el Estimador de Leave-One-Out . . . . . . . . . . . . . .

2.5. Algoritmo de Entrenamiento

2.5.1. Metodo de Descomposicion . . . . . . . . . . . . . . . . . . . . . . .

2.5.2. Seleccion del Conjunto de Trabajo y Criterio de Parada . . . . . . .

2.5.3. Convergencia del Metodo de Descomposicion . . . . . . . . . . . . .

2.5.4. Solucion Analtica . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.5.8. Complejidad Computacional . . . . . . . . . . . . . . . . . . . . . .

2.6. Maquinas de Soporte Multi Clase . . . . . . . . . . . . . . . . . . . . . . . .

3.2.1. Cota de Radio/Margen para L2 . . . . . . . . . . . . . . . . . . . . .

3.2.2. Cota de Radio/Margen para L1 . . . . . . . . . . . . . . . . . . . . .

3.3. Limitaciones Actuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.1. Adaptacion Arbitraria de Distribuciones Normales . . . . . . . . . . . . . .

4.2. Adaptacion de la Matriz de Covarianza . . . . . . . . . . . . . . . . . . . .

4.3. Trayectoria Evolutiva: Cumulacion . . . . . . . . . . . . . . . . . . . . . . .

4.4. El Algoritmo (W , )-CMA-ES . . . . . . . . . . . . . . . . . . . . . . . . .

4.5. Valores para los Parametros Internos . . . . . . . . . . . . . . . . . . . . . .

4.6. Limitaciones y Aspectos Practicos . . . . . . . . . . . . . . . . . . . . . . .

5.2. Caractersticas del CMA-ES-SVM . . . . . . . . . . . . . . . . . . . . . . .

5.3. Implementacion y Aspectos Practicos . . . . . . . . . . . . . . . . . . . . . .

6.1. Conjuntos Artificiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.1.4. Dos Curvas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.1.5. Dos Anillos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.1.6. Anillos Cruzados . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.2. Conjuntos Estandares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.3. Conjunto Multi Clase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.4. Resultados con Kernel Polinomial . . . . . . . . . . . . . . . . . . . . . . . .

6.5. Conjuntos de Problemas Reales . . . . . . . . . . . . . . . . . . . . . . . . .

6.5.1. Identificacion de Voces Patologicas . . . . . . . . . . . . . . . . . . .

6.5.2. Clasificacion de Arritmias en ECG . . . . . . . . . . . . . . . . . . .

A.1. Kernels Definidos Positivos . . . . . . . . . . . . . . . . . . . . . . . . . . .

A.2. Reproduccion de un Mapeo con Kernel . . . . . . . . . . . . . . . . . . . . .

A.3. Reproduccion de un Espacio de Hilbert mediante Kernels . . . . . . . . . .

A.4. El Kernel de Mercer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

A.5. Ejemplos y Propiedades de Kernels . . . . . . . . . . . . . . . . . . . . . . .

6.1. Estructura de los conjuntos artificiales . . . . . . . . . . . . . . . . . . . . .

6.2. Resultados para el conjunto balanceado . . . . . . . . . . . . . . . . . . . .

6.3. Resultados para el conjunto no balanceado

6.4. Resultados para el conjunto damero . . . . . . . . . . . . . . . . . . . . . .

6.5. Resultados para el conjunto dos curvas . . . . . . . . . . . . . . . . . . . . .

6.6. Resultados para el conjunto dos anillos . . . . . . . . . . . . . . . . . . . . .

6.7. Resultados para el conjunto anillos cruzados . . . . . . . . . . . . . . . . . .

6.8. Estructura de los conjuntos estandares . . . . . . . . . . . . . . . . . . . . .

donde > 0 es una constante elegida como tolerancia de parada.