Sunteți pe pagina 1din 24

2

Indice general
1. Introducci on 5
1.1. Mantenimiento . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Caractersticas deseables de un sistema de diagnostico de fallas 6
1.2.1. Deteccion y diagnostico r apido . . . . . . . . . . . . . . 7
1.2.2. Aislamiento . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3. Robustez . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.4. Requerimiento de modelado . . . . . . . . . . . . . . . 7
1.2.5. Requerimiento computacionales y de almacenamiento . 8
1.2.6. Identicacion de m ultiples fallas . . . . . . . . . . . . . 8
1.3. Redes Neuronales Feedforward con una sola capa oculta . . . . 8
1.4. Redes neuronales de base radial . . . . . . . . . . . . . . . . . 11
1.5. Support Vector Machines . . . . . . . . . . . . . . . . . . . . . 13
1.5.1. Espacios inducidos . . . . . . . . . . . . . . . . . . . . 18
1.6. ELM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3
4

INDICE GENERAL
Captulo 1
Introducci on
1.1. Mantenimiento
El mantenimiento predictivo es cada da mas utilizado en todo tipo de
industria, especialmente en aquellas de producci on continua. En numero-
sas publicaciones ha quedado de maniesto lo ventajoso que es su uso para
obtener mayor conabilidad [3] y menores costos de mantenimiento [1]. Sin
embargo, no siempre es el tipo de mantenimiento mas conveniente de utilizar.
Los tipos o estrategias de mantenimiento se clasican, generalmente, en
tres categoras:
Mantenimiento reactivo o de funcionamiento hasta la falla (MR). En
esta estrategia se le permite a la maquina operar hasta que falle, o has-
ta que soporte. Solo en ese instante se realiza la reparacion o remplazo
de ella. A este tipo de mantenimiento tambien a veces se le llama co-
rrectivo, aunque esta aceptacion actualmente se usa para otro tipo de
mantenimiento. (faltan citas)
Mantenimiento preventivo basado en tiempo (MP). Consiste en reparar
o cambiar componentes de una maquina a intervalos de tiempo jos,
aun cuando dicha maquina este operando satisfactoriamente.
Mantenimiento predictivo o basado en la condici on de la maquina
(MPD). Consiste en determinar en todo instante la condici on mecanica
real de la maquina mientras ella se encuentre operando, a traves de un
programa sistem atico de mediciones de algunos parametros o sntomas.
5
6 CAP

ITULO 1. INTRODUCCI

ON
El mantenimiento, entonces, se programa de acuerdo a la evolucion de su
condici on mec anica. Nombres sinonimos que se usan para este tipo de mante-
nimiento son: Mantenimiento seg un condici on o mantenimiento sintom atico.
Existen varias otras clasicaciones que se pueden hacer de los tipos de
mantenimiento. Una, es dividirlo en planicado (MP, MPD) y no planicado
(MR). Otra es agregar un nuevo tipo de mantenimiento, que actualmente se
esta utilizando bastante: el mantenimiento correctivo (MR), el cual se rela-
ciona con las soluciones de ingeniera que se realizan para corregir problemas
recurrentes.
El mantenimiento reactivo es el mas f acil de implementar, sin embargo,
presenta tres desventajas b asicas:
Permitir que falle un componente de una maquina puede causar da no
a otros y consecuentemente los costos pueden ser muy altos.
La falla puede ocurrir a una hora inconveniente, o si el equipo es movil,
en un lugar inconveniente de manera que no estar a disponible ni el
personal ni los repuestos necesarios para su reparacion.
Hay plantas que no pueden ser detenidas de un momento, a otro, sea
porque proveen un servicio esencial o porque manejan productos ta-
les como alimentos o materiales fundidos, los cuales se deteriorar an o
solidicar an o produciran otros efectos da ninos si la planta se detiene
repentinamente.
1.2. Caractersticas deseables de un sistema
de diagnostico de fallas
Si queremos comparar distintos propuestas de sistemas de diagn ostico,
es util identicar el conjunto de caractersticas deseables que un sistema de
diagn ostico debe poseer, as podremos evaluar las distintas propuestas en
base a un conjunto com un de requerimientos o estandares.
1.2. CARACTER

ISTICAS DESEABLES DE UNSISTEMADE DIAGNOSTICODE FALLAS7


1.2.1. Deteccion y diagn ostico rapido
El sistema de diagnostico debe responder r apidamente al detectar y diag-
nosticar mal-funciones en el proceso, sin embargo la r apida respuesta al diag-
nostico de falla y la tolerancia al rendimiento normal de operaci on son dos
metas en conicto [6]. Un sistema que es dise nado para detectar fallas (en par-
ticular cambios abruptos) sera muy sensitivo a inuencias de alta frecuencia,
eso hace que el sistema sea sensitivo al ruido y puede provocar falsas alar-
mas durante la operacion normal. Esto es analogo a la compensacion entre
robustez y rendimiento descrita en la literatura de control.
1.2.2. Aislamiento
El aislamiento es la habilidad de que el sistema de diagnostico pueda
distinguir entre diferentes fallas. Bajo condiciones ideales libres de ruido y
modelando las incertidumbres, las cantidades que el sistema genere como
salidas deben ser ortogonales a las fallas que no han ocurrido. Por supuesto
que la habilidad para dise nar clasicadores depende de gran manera de las
caractersticas del proceso. Al igual que la caractersticas anteriores tambien
existe una compensaci on entre aislabilidad y el rechazo de incertidumbres
en el modelado. La mayora de los clasicadores trabajan con varias formas
de informacion redundante y por lo tanto existe solo un limitado grado de
libertad para dise nar el clasicador. Debido a esto un clasicador con un
alto grado de aislabilidad usualmente hacen un pobre trabajo al rechazar las
incertidumbres del modelado y viceversa.
1.2.3. Robustez
Uno deseara que el sistema de diagnostico sea robusto a varios tipos de
ruido e incertidumbres. Nos gustara que el rendimiento de nuestro sistema
decaiga lentamente en lugar de fallar total y abruptamente. (*Falta investigar
mas acerca de robustez, requieres mas fuentes)
1.2.4. Requerimiento de modelado
La cantidad de modelado requerido para el desarrollo de un clasicador de
diagnostico es una cuestion importante. Para un despliegue rapido y facil en
tiempo real, el esfuerzo de modelado debe ser tan minimo como sea posible.
8 CAP

ITULO 1. INTRODUCCI

ON
1.2.5. Requerimiento computacionales y de almacena-
miento
Usualmente, soluciones rapidas en tiempo real requeririan algoritmos e
implementaciones que computacionalmente son menos complejas pero pue-
den requerir altos requerimientos de almacenamiento. Se prefeieren sistemas
de diagnostico que sean capaces de lograr un balance razonable entre estos
dos requerimientos.
1.2.6. Identicaci on de m ultiples fallas
La habilidad de identicar m ultiples fallas es importante pero un reque-
rimiento difcil. Es un problema difcil debido a la interacci on natural de
muchas fallas. En general en un sistema no lineal, la interaccion usualmen-
te es sinergica y por lo tanto un sistema de diagnostico puede no ser capaz
de usar los patrones individuales de fallas para modelar los efectos de fallas
combinadas. Por otro lado, enumerar y dise nar separadamente para m ultiples
combinaciones de fallas puede convertirse prohibitivo para procesos grandes,
combinatoriamente hablando.
1.3. Redes Neuronales Feedforward con una
sola capa oculta
Debido a que en este trabajo se utilizaran como herramientas dos tipos
de redes neuronales, una red neuronal feedforward con una sola capa oculta
(Single Hidden Layer Feedforward Neural Networks, SLFN) y una red neu-
ronal de base radial (RBN), se considera oportuno dedicar esta seccion y la
pr oxima a hacer un an alisis general de las mismas.
Las SLFN representan una de las posibles arquitecturas de los perceptro-
nes multicapa. Las redes SLFN tienen tres capas: la capa de entrada, la capa
oculta con funciones de activaci on no lineales y una capa lineal de salida [2],
[5]. En su forma b asica, todas las entradas se conectan a cada una de las
neuronas ocultas y la arquitectura de la red queda como la del ejemplo que
aparece en la gura 1.1. Tanto la capa oculta como la de salida, o ambas,
pueden incluir un umbral o bias. Este tipo de redes pueden funcionar como
1.3. REDES NEURONALES FEEDFORWARDCONUNASOLACAPAOCULTA9
Figura 1.1: Ejemplo de arquitectura de una SLFN con tres entradas, 4 nodos
ocultos y un nodo de salida
aproximadores universales de funciones, en el sentido de que pueden aproxi-
mar cualquier funcion continua sobre un compacto de R
n
. Las redes SLFN
pueden aprender a partir de un conjunto de ejemplos de entrenamiento, con-
siguiendo aproximar relaciones no lineales entre datos de entrada y salida,
siendo uno de los tipos de redes neuronales m as empleados en la practica.
En la gura 1.2 aparece el detalle de la estructura interna correspondiente
a un nodo oculto con M entradas (en el ejemplo de la gura 1.1 M = 3). Las
variables x
i
de entrada se propagan hacia todos los nodos de la capa oculta
y con una ponderacion marcada por los pesos w
ij
entre las capas de entrada
y oculta. Las neuronas de la capa oculta procesan la informacion recibida
y aplican una funcion de activacion g() a la suma de los productos de las
entradas por sus correspondientes pesos, seg un la siguiente expresi on:
y
j
= g
_
M

i=1
x
i
w
ij
+b
i
_
(1.1)
La funci on g de activaci on es una funcion no lineal, tpicamente la sig-
moidal o la tangente hiperb olica.
10 CAP

ITULO 1. INTRODUCCI

ON
Figura 1.2: Detalle de la estructura interna correspondiente a un nodo oculto
El valor de la salida de una SLFN como la mostrada en la gura 1.1, para
un patron de entrada x es:
O =
N

j=1
y
i

j
+b
0
(1.2)
siendo N el n umero de nodos en la capa oculta,
j
los pesos que co-
nectan la capa oculta con la de salida y b
0
el bias o umbral del nodo de
salida. La capa de salida es lineal y, en nuestro caso, formada por un so-
lo nodo. Los pesos
j
pueden ser estimados usando metodos matriciales de
mnimos cuadrados ya que la funci on aproximada O() es lineal con los pesos.
El ajuste adecuado de los pesos w
ij
,
j
, y de los parametros b
j
, se deter-
mina de manera que se optimice la aproximaci on de f(x) a la funci on que
deseemos. La velocidad de aprendizaje de estos par ametros y, en general, de
todos los par ametros en las redes neuronales feedforward suele ser un proceso
muy lento porque se basa com unmente en un proceso iterativo que va ajus-
tando todos los parametros, existiendo dependencia entre diferentes capas de
par ametros (pesos y bias).
Tradicionalmente, los metodos basados en el descenso del gradiente [2],
[5] han sido usados para entrenar las redes del tipo feedforward. Algunos de
los inconvenientes asociados a estos metodos de aprendizaje incluyen su len-
titud, por la necesidad de aplicar un proceso iterativo de ajuste de muchos
par ametros, y el riesgo de converger en mnimos locales.
1.4. REDES NEURONALES DE BASE RADIAL 11
1.4. Redes neuronales de base radial
Las redes neuronales de base radial (RBF) utilizan como funciones de
activacion funciones de base radial, y aproximan otras funciones mediante
una combinaci on lineal de estas funciones de base radial. A su vez, una fun-
ci on de base radial (radial basis function, RBF) es una funcion con valor real
que s olo depende de la distancia al origen, de modo que g(x) = g(x); o
alternativamente de la distancia a alg un otro punto central , de modo que
g(x, ) = g(x ). Existen muchos tipos de funciones de base radial, pero
una muy com unmente utilizada es la gaussiana:
g(x, ) = exp
_

x
2

2
_
; > 0 (1.3)
Las funciones de base radial se pueden usar para construir aproximaciones
de otras funciones de la siguiente forma:
f(x) =
N

j=1

j
g (x
j
) (1.4)
donde la funcion aproximada f(x) es representada como una suma de N
funciones de base radial, cada una con su propio centro
j
y ponderada por
un coeciente o peso
j
.
La arquitectura de una red neuronal de base radial (RBN) sigue la to-
pologa de la red SLFN, como la representada en la gura 1.1, pero exhibe
diferencias basicas respecto a esta ultima. En lo referente a los umbrales de
las neuronas, en las RBN unicamente las neuronas de la capa de salida poseen
un umbral, mientras que las SLFN tambien poseen umbrales en su capa ocul-
ta. Otra diferencia importante es que no existen pesos de entrada asociados
a los nodos de la capa oculta. En su lugar, se dene un vector centroide por
cada nodo oculto que identica al centro de la funci on de base radial (RBF)
del nodo correspondiente (aunque, a veces, a estos vectores centroides se les
suele llamar vectores de pesos).
12 CAP

ITULO 1. INTRODUCCI

ON
Figura 1.3: Estructura interna de un nodo oculto, para el caso de una RBN
En la pr actica, es muy com un jar al mismo valor la anchura (desviaci on
est andar,
j
) de las campanas de Gauss en todos los nodos de la capa oculta,
para simplicar el entrenamiento de la red. En una RBN el primer c alculo
efectuado en la capa oculta es hallar en un nodo j de la capa oculta la
distancia radial (distancia euclidea) d
j
entre el vector de entrada x, con M
observaciones, a ese nodo en particular y el vector centroide
j
de ese mismo
nodo (1.5).
d
j
= x
j
=
_
(x
1

1j
)
2
+ (x
2

2j
)
2
+... + (x
M

Mj
)
2
(1.5)
Este valor d
j
es un componente de la entrada para activar la funci on
radial g(d
j
) = g(x
j
). Este valor establece la principal diferencia con
las redes MLP (perceptron multicapa), entre ellas la SLFN, quienes incluyen
el producto interno en sus capas ocultas de las entradas por sus respectivos
pesos, como queda expresado en la ecuacion 1.1. En la gura 1.3 se muestra
la estructura interna de un nodo oculto correspondiente a una RBN.
A medida que la distancia entre y x decrece, la salida de la funci on de
base radial aumenta, llegando a valer un m aximo de uno cuando esta distan-
cia es cero. Por tanto, una neurona de base radial act ua como un detector que
produce un valor m aximo de uno cuando la entrada x es identica al vector de
pesos
j
de la neurona. Cada neurona de la capa oculta sacara un valor que
depender a de la distancia que el vector de entrada dista del vector centroide
de esa neurona. Si las funciones de base radial gaussiana tienden r apidamen-
te a cero, el cambio de los par ametros de una neurona tendr a efectos muy
1.5. SUPPORT VECTOR MACHINES 13
peque nos para valores de entrada lejanos al centro de esa neurona. As, las
neuronas de base radial con vectores centroides muy diferentes del vector de
entrada sacar an valores proximos a cero y sus efectos seran mnimos sobre
las neuronas lineales de salida. Una RBN con sucientes neuronas ocultas es
capaz de aproximar cualquier funci on continua con una precisi on arbitraria.
La salida de cada neurona de la capa oculta se obtiene como:
y
j
= exp
_
_

M
i=1
(x
i

ij
)
2

j
_
_
(1.6)
y el valor de la salida para un patron de entrada x:
O =
N

j=1
y
j

j
+b
0
(1.7)
siendo N el n umero de nodos en la capa oculta y b
0
el bias o umbral del
nodo de salida.
El ajuste adecuado de los centroides
ij
, de los pesos
j
, de las varianzas

j
o anchura de las RBF y del umbral b
0
, se determina de manera que se
optimice la aproximacion de f(x) a la funcion que deseemos. La velocidad de
aprendizaje de estos par ametros y, en general, de todos los par ametros en las
redes neuronales feedforward suele ser un proceso muy lento porque se basa
com unmente en un proceso iterativo que va ajustando todos los par ametros,
existiendo dependencia entre diferentes capas de parametros (pesos y bias).
En la siguientes secciones se explican metodos novedosos de reciente apari-
ci on con el que se consigue un entrenamiento mucho m as rapido que con el
cl asico entrenamiento por descenso por gradiente.
1.5. Support Vector Machines
La revoluci on digital ha hecho posible que la captura de datos sea facil
y su almacenamiento tenga un costo muy bajo. Como resultado, enormes
cantidades de informaci on con diferentes tipos de datos son almacenados
continuamente en bases de datos, para un posterior uso y analisis. Esto ha
14 CAP

ITULO 1. INTRODUCCI

ON
provocado que los metodos habituales empleados en el an alisis de datos sean
obsoletos al ser empleados en grandes conjuntos de datos. Debido a esto,
metodos semiautom aticos de an alisis son necesarios, teniendo como objetivo
principal entender y analizar enormes cantidades de datos.
La informacion almacenada en bases de datos crece signicativamente
da con da. Debido al incremento en la cantidad de datos y a un en las
caractersticas asociadas a estos datos, se necesitan tecnicas de exploraci on
vers atiles, robustas y ecientes que puedan hacer frente a los cambios actua-
les. Estas tecnicas de exploracion pueden ser supervisadas o no supervisadas.
Un proceso de clasicacion incluye dos fases: entrenamiento y prueba. En
la fase de entrenamiento, un conjunto de datos inicial es usado para deci-
dir que parametros deber an ser ponderados y combinados con el objetivo de
separar varias clases de objetos. El aprendizaje intenta descubrir una repre-
sentaci on optima a partir del conjunto de datos cuya membresa o etiqueta
de clase es conocida. En la fase de prueba, los pesos determinados en la fa-
se de entrenamiento son aplicados a un conjunto de objetos (conjunto de
prueba) cuyas etiquetas de clase se desconoce, con el objetivo de determinar
su clase. Algunos metodos de clasicacion involucran un enfoque heurstico
que pretende encontrar la mejor soluci on para el problema de optimizacion.
Existen varias tecnicas de clasicacion convencionales en la literatura,
e.g. reglas basadas en clasicadores de vecinos cercanos (nearest neighbor),
clasicadores Bayesianos, redes neuronales articiales, arboles de decision y
SVM. De las tecnicas anteriores, las redes neuronales son una de las tecnicas
m as usadas. Como aproximador universal, las redes neuronales han sido am-
pliamente utilizadas en un gran n umero de aplicaciones. Sin embargo, deben
tomarse en cuenta muchos factores al construir una red para un problema
dado: el algoritmo de aprendizaje, la arquitectura, el n umero de neuronas
por capa, el n umero de capas, la representacion de los datos y mucho m as.
Adem as, estas son muy sensibles a la presencia de ruido en los datos de en-
trenamiento. Los arboles de decisi on, tambien han sido ampliamente usados
en problemas de clasicaci on. Estos son usualmente m as veloces que las redes
neuronales en la fase de entrenamiento, Sin embargo, no presentan exibili-
dad al modelar los par ametros ??. Un simple clasicador puede ser el enfoque
de vecino cercano [31]. Los metodos de vecino cercano tienen la ventaja de
que son faciles de implementar, no obstante, estos suelen ser bastante lentos
si el conjunto de datos de entrada es muy grande. Por otro lado, estos son
1.5. SUPPORT VECTOR MACHINES 15
muy sensibles a la presencia de par ametros irrelevantes.
De estas tecnicas, las SVM es una de las tecnicas m as conocidas para op-
timizar la soluci on esperada ??. Se ha mostrado que las SVM son superiores
a otros metodos de aprendizaje supervisado .(Faltan Referencias) Debido a
sus buenos fundamentos teoricos y su buena capacidad de generalizacion las
SVM han llegado a ser en los ultimos a nos uno de los metodos de clasica-
ci on m as utilizado. Las cotas de decisi on son determinadas directamente a
partir de los datos de entrenamiento al emplear SVM de tal forma que la
separaci on existente (margen) entre las cotas de decision sea maximizada en
un espacio altamente dimensional llamado espacio de caractersticas. Esta
estrategia de clasicacion minimiza los errores de clasicaci on de los datos
de entrenamiento y obtiene una mejor habilidad de generalizacion, i.e. las
habilidades de clasicaci on de las SVM y otras tecnicas dieren signicativa-
mente, especialmente cuando el n umero de datos de entrada es peque no. Las
SVM son una poderosa tecnica empleada en clasicaci on de datos y an alisis
de regresion.
Una ventaja notable de las SVM radica en el hecho de que estas obtienen
un subconjunto de vectores soporte durante la fase de aprendizaje, que a me-
nudo es s olo una peque na parte del conjunto de datos original. Este conjunto
de vectores soporte representa una tarea de clasicacion dada y es formado
por un conjunto compacto de datos. Sin embargo, para encontrar un hiper-
plano de separacion las SVM necesitan resolver un problema de programaci on
cuadr atica (QP), que involucra una matriz de densidad NN, donde N es el
n umero de puntos en el conjunto de datos. Ya que la mayora de las rutinas
de QP tienen complejidad cuadr atica, las SVM requieren grandes cantidades
de tiempo computacional y memoria para bases de datos muy grandes , i.e.
la complejidad del entrenamiento de las SVM es altamente dependiente del
tama no del conjunto de datos.
La velocidad de entrenamiento y generalizacion de las SVM puede ser in-
crementada eliminando subconjuntos de datos no representativos a partir del
conjunto de datos original y centrar la mayor carga de trabajo sobre aquellos
subconjuntos mas representativos del conjunto de datos entero, lo cual es
crucial en conjuntos de datos grandes. Esto es posible de realizar implemen-
tando metodos de agrupamiento y seccionamiento de los conjuntos de datos
de entrada.
16 CAP

ITULO 1. INTRODUCCI

ON
Debido a sus buenos fundamentos te oricos y su buena capacidad de gene-
ralizaci on las SVM han llegado a ser en los ultimos a nos uno de los metodos
de clasicaci on m as utilizado. Sin embargo, las SVM requieren grandes canti-
dades de tiempo computacional en la fase de entrenamiento cuando el n umero
de datos de entrenamiento es muy grande. Un gran n umero de implementa-
ciones basadas en SVM han sido desarrolladas con el objetivo de afrontar
este problema. Muchos trabajos de investigaci on han tratado de encontrar
posibles metodos para implementar SVM en grandes conjuntos de datos. Ge-
neralmente estos metodos pueden ser divididos en dos tipos:
el primer tipo consiste en encontrar candidatos a vectores soporte, re-
duciendo el conjunto de trabajo y empleando tecnicas de b usqueda, de
tal forma que la SVM modicada sea capaz de entrenar conjuntos de
datos con unicamente datos representativos reduciendo el tiempo de
entrenamiento a un tiempo aceptable;
el segundo tipo consiste en descomponer el conjunto de datos de entrada
en conjuntos peque nos, de tal forma que las SVM clasicas puedan ser
utilizadas.
Los metodos de agrupamiento son una efectiva herramienta para reducir
el tama no de los conjuntos de datos. El uso de tecnicas de agrupamiento
antes de utilizar el clasicador es una estrategia interesante para problemas
con grandes conjuntos de datos. Aunque muchos metodos para resolver el
problema de optimizaci on de las SVM mediante metodos de agrupamiento
est an disponibles en la literatura, se listan aqu solo algunas tecnicas intere-
santes usadas para entrenar SVM con grandes conjuntos de datos, tales como
CB-SVM, CB-SOCP, CT-SVM, y RS-MCS.
CB-SVM aplica micro-agrupamiento jer arquico que escanea el conjunto
de datos entero una sola vez. El metodo propuesto escala bien para gran-
des conjuntos de datos y las precisiones obtenidas mediante este metodo son
comparables a las otras implementaciones de SVM. Sin embargo, el micro-
agrupamiento empleado en CB-SVMes demasiado dependiente de la dimen-
si on del conjunto de datos de entrada y puede no desempe narse bien en
conjuntos de datos altamente dimensionales, adem as el algoritmo est a di-
1.5. SUPPORT VECTOR MACHINES 17
se nado para trabajar unicamente con kernel lineal.
CB-SOCP es dise nado para grandes conjuntos de datos. Sus autores asu-
men que las densidades de clase de los datos de entrada pueden ser modelados
usando una combinacion de modelos. El algoritmo emplea BIRCH con el ob-
jetivo de estimar las estadsticas de los componentes. El metodo propuesto
es escalable para grandes conjuntos de datos y las precisiones obtenidas so-
bre diferentes conjuntos de datos empleando CB-SOCP son comparables a
las obtenidas con otras implementaciones de SVM. Sin embargo, el algorit-
mo CB-SOCP muestrea aleatoriamente el conjunto de datos de entrada, este
proceso podra afectar el proceso de entrenamiento de las SVM, especialmen-
te cuando la probabilidad de distribucion de los datos de entrenamiento y
prueba son diferentes.
CT-SVM aplica tecnicas de reduccion mediante an alisis de agrupamien-
to para encontrar vectores soporte relevantes con el objetivo de agilizar el
proceso de entrenamiento. El algoritmo construye un arbol de agrupamiento
jer arquico para cada clase a partir del conjunto de datos de entrada; esto lo
hace de forma iterativa en varias etapas de entrenamiento. En cada etapa,
una SVM es entrenada sobre los nodos de cada arbol. Los vectores soporte del
clasicador son empleados como conocimiento previo que determinan el cre-
cimiento del arbol.

Unicamente a los vectores soporte les es permitido crecer
en el arbol, mientras los puntos que no son vectores soporte son eliminados.
Este metodo es escalable para grandes conjuntos de datos, sin embargo el al-
goritmo es sensible en conjuntos de datos con ruido y susceptible a conjuntos
de datos incompletos.
RS-MCS emplea pares de puntos espejos y un sistema de clasicador
m ultiple para reducir el tiempo de entrenamiento de una SVM. Los autores
desarrollan un enfoque mediante agrupamiento K-Means con el objetivo de
seleccionar y combinar un n umero dado de clasicadores, los cuales toman
en cuenta precisi on y eciencia. Las precisiones obtenidas empleando este al-
goritmo son buenas, sin embargo este metodo trabaja con conjuntos de datos
de peque no y mediano tama no.
Algunas de las razones por las que este metodo ha tenido exito es que no
padece de mnimos locales y el modelo solo depende de los datos con mas
informaci on llamados vectores de soporte. Las grandes ventajas que tiene
18 CAP

ITULO 1. INTRODUCCI

ON
SVM son:
Una excelente capacidad de generalizaci on, debido a la minimizacion
del riesgo estructurado.
Existen pocos parametros a ajustar; el modelo solo depende de los datos
con mayo informaci on.
La estimacion de los paarametros se realiza a traves de la optimiza-
ci on de una funcion de costo convexa, lo cual evita la existencia de un
minimo local.
La solucion de SVM es esparse, esto es que la mayoria de las variables
son cero en la solucion de SVM, esto quiere decir que el modelo nal
puede ser escrito como una combinacion de un numero muy peque no
de vectores de entrada, llamado vectores de soporte.
Las maquinas de vectores de soporte son un nuevo sistema de aprendizaje
el cual ha tenido un desarrollo muy signicativo en los ultimos a nos tanto en
la generaci on de nuevos algoritmos como en las estrategias para su implemen-
taci on. SVM es un sistema de aprendizaje basado en el uso de un espacio de
hip otesis de funciones lineales en un espacio de mayor dimension inducido por
un Kernel, en el cual las hip otesis son entrenadas por un algoritmo tomado
de la teora de optimizacion el cual utiliza elementos de la teora de gene-
ralizaci on. SVM es un sistema para entrenar maquinas de aprendizaje lineal
ecientemente tanto que para clasicacion como para regresion se han encon-
trado muchas aplicaciones como clasicacion de imagenes, reconocimiento de
caracteres, deteccion de protenas, clasicacion de patrones, identicacion de
funciones, etc. A continuaci on se describe el sistema SVM para la identi-
cacion de funciones no lineales. Para lograr esto comenzaremos dando una
breve introduccion a las funciones kernel, la teoria de generalizacion y la teo-
ria de optimizacion las cuales nos ayudaran a comprender mejor al sistema
SVM, y por ultimo se describiran los metodos de SVM para regresi on.
1.5.1. Espacios inducidos
Debido a las limitaciones computacionales de las maquinas de aprendi-
zaje lineal estas no pueden ser utilizadas en la mayoria de las aplicaciones
del mundo real. La representacion por medio del Kernel ofrece una solucion
1.5. SUPPORT VECTOR MACHINES 19
alternativa a este problema, proyectando la informacion a un esacio de ca-
racteristicas de mayor dimension el cual aumenta la capacidad cmputaional
de las maquinas de aprendizaje linea. La forma mas comun en que las maqui-
nas de aprendizaje lineales aprenden una funcion objetivo es cambiando la
representacion de la funcion, esto es similar a mapear el espacio de entradas
X a un nuevo espacio de caracteristicas F = (x)|x X. Esto es:
x = {x
1
, x
2
, ..., x
n
} (x) = {(x)
1
, (x)
2
, ..., (x)
n
} (1.8)
Denicion 1.1. Las cantidades introducidas para describir la informacion
original o atributos son conocidas como caracteristicas, mientras que a la
seleccion de la mejor representacion se le conoce como seleccion de caracte-
risticas
En la gura se muestra un mapeo de un espacion de entradas de dos
dimensiones a un espacio de caracteristicas de dos dimensiones, donde la
informacion no puede ser separada por una maquina lineal en el espacio
de entradas miesntras que en el espacio de caracteristicas esto resulta muy
sencillo.
Las maquinas de aprendizaje lineales son funciones reales f : X R
n

Y R. La funcion f se considera como una funcion lineal de x X, tal que


se puede escribir como
f(x) = < w x > +b (1.9)
= wx
T
+b (1.10)
=
n

i=1
w
i
x
i
+b (1.11)
donde w es el vector de pesos y b es el bias, terminos tomados de la litera-
tura de redes neuronales. este tipo de maquinas admiten una representacion
dual, esto es si denimos a w =

n
i=1

i
y
i
x
i
tenemos que la funcion lineal se
puede escribir en su forma dual esto es:
f(x) =
n

i=1

i
y
i
< x
i
x
i
> +b (1.12)
donde < > es el producto interno. Una propiedad importante de la re-
presentaci on dual es que la informacion de entrenamiento entra a la funcion
a traves de las entradas de la matriz de Gram G =< x
i
x
i
>. A n de
20 CAP

ITULO 1. INTRODUCCI

ON
aprender relaciones no lineales con maquinas lineales es necesario seleccionar
un conjunto de caracteristicas no lineales con las cuales poder reescribir la
informacion original en una nueva representacion. de ahi que l conjunto de
hipotesis que se consideran son del tipo:
f(x) =
n

i=1
w
i

i
(x) +b (1.13)
donde : X F es un mapeo no lineal que va del espacio de entradas a
algun espacio de caracteristicas. Debido a que las maquinas de aprendizaje
lineal admiten una representacion dual podemos escribir la hipotesis como
una combinacion lineal de la informacion de entrada (x
i
, y
i
), de la siguiente
manera:
f(x) =
N

i=1

i
y
i
<
T
i
(x)
i
(x) > +b (1.14)
esto es si podemos calcular el producto interno en el espacio de caracteristicas
como una funcion de las entrads, estaremos realizando un mapeo del espacio
de entradas a el espacio de caracteristicas donde se realizara el aprendizaje
como una maquina lineal
Denici on 1.5.1. Un kernel es una funcion, tal que para todo x, z X
K(x, z) =< (x) (z) >=
l

i=1

T
i
(x)
i
(z) (1.15)
donde es una mapeo del espacio de entradas X al espacio de caracteristicas
F.
1.6. ELM
El tiempo de aprendizaje es un factor importante cuando se dise na cual-
quier algoritmo de inteligencia computacional para clasicacion, control, etc.
Recientemente, la maquina de aprendizaje extremo (ELM:.
Ex
treme Learning
Machine, por sus siglas en ingles), ha sido propuesto, la cual reduce signi-
cativamente el tiempo necesario para entrenar una red neuronal. En esta
parte se da una peque na introduccion de maquinas de aprendizaje extremo
as como sus aplicaciones.
1.6. ELM 21
Las redes neuronales han sido extensivamente usadas en muchos campos
debido a su habilidad para aproximar mapeos complejos no lineales direc-
tamente desde una entrada muestra, ademas de proporcionar modelos para
una amplia clase de fen omenos naturales y articiales que son difciles de ma-
nejar usando tecnicas clasicas de modelado. Existen varios algoritmos para
entrenar las redes neuronales como: la propagaci on hacia atr as, maquinas de
soporte de vectores, Modelo oculto de Markov, etc. Una de las desventajas
de las redes neuronales es el tiempo de aprendizaje.
Recientemente Huang propuso un nuevo algoritmo de aprendizaje para
una arquitectura de red neuronal prealimentada de una sola capa llamado
maquina de aprendizaje extremo.
el
cual supera los problemas causados por
los algoritmos basados en gradiente descendiente tales como el algoritmo
de propagaci on hacia atras aplicados en las redes neuronales articiales. EL
aprendizaje de maquina extremo puede reducir signicativamente la canti-
dad de tiempo necesaria para entrenar una red neuronal.
La maquina de aprendizaje extremo propuesta por Huang utiliza la ar-
quitectura de una red neuronal de una sola capa prealimentada. Aleatoaria-
mente se eligen los pesos de entrada y analiticamente los pesos de salida de
la red neuronal. Se tiene mucho mejor desempe no de generalizacion con la
velocidad de aprendizaje mucho mas rapida. Requiere menos intervenciones
humanas y se puede ejecutar miles de veces mas rapido que los metodos
convencionales. Automaticamente determina todos los parametros de la red
analiticamente lo que evita la intervencion humana y lo hace mucho mas e-
ciente en aplicaciones en linea y de tiempo real. La maquina de aprendizaje
extremo tiene muchas ventajas, facilidad de uso, mayor velocidad de apren-
dizaje, rendimiento mas alto de generalizacion, ademas de mayor adecuacion
para funciona de activiacion no lineales y funciones kernel.
En este apartado se estudiara el algoritmo maquina de aprendizaje extre-
mo (ELM) particularizado para redes SLFN. Para el caso particular de c omo
aplicarlo a redes RBF
La mayora de trabajos anteriores sobre el entrenamiento de redes neu-
ronales han considerado necesario el ajuste de pesos de entrada a la capa
oculta, as como sus bias. En las redes neuronales feedforward de una sola
capa oculta con funciones de activaci on innitamente diferenciables en su ca-
22 CAP

ITULO 1. INTRODUCCI

ON
pa oculta, sus pesos de entrada a la capa oculta y bias pueden ser asignados
al azar y a un as pueden aprender con exactitud N observaciones, siendo N
el n umero de nodos ocultos. Ademas, suponiendo un n umero M de muestras
de entrenamiento, se demuestra que para un error nulo de entrenamiento en
las SLFN, el n umero requerido de nodos ocultos es N M y que se pueden
asignar al azar los pesos de entrada y los bias de la capa oculta, siempre que
las funciones de activaci on de dicha capa son innitamente diferenciables.
Algunas de estas funciones innitamente diferenciables, incluyen las sigmoi-
dales, las de base radial, seno, coseno, exponencial, etc.
Una vez que los pesos de entrada y los bias de la capa oculta han sido
asignados al azar, la red puede ser considerada simplemente como un sis-
tema lineal y los pesos de salida de la capa oculta se pueden determinar
analticamente a traves de una simple operacion con las matrices inversas
generalizadas de las salidas de la capa oculta.
El algoritmo llamado maquina de aprendizaje extremo (extreme learning
machine, ELM) se basa precisamente en este concepto y su velocidad de
aprendizaje puede llegar a ser miles de veces m as r apida que la de los al-
goritmos de aprendizaje tradicionales, como el algoritmo de descenso por
gradiente. Adem as, no solo tiende a alcanzar errores de entrenamiento m as
bajos, sino que tambien obtiene valores de pesos con norma mnima, lo que
incide en una mejor generalizaci on de la red.
El hecho de que una red de este tipo con N nodos ocultos y con funciones
de activacion g(x) pueda aproximar S muestras con error cero, signica que:
S

k=1
O
k
t
k
= 0 (1.16)
siendo t
k
el target o salida deseada para el vector x
k
como muestra de
entrada. De aqu se deduce que deben existir valores de
j
, w
j
y bj tales que:
N

j=1

j
g(x
k
w
j
+b
j
) = t
k
; k = 1, ..., S (1.17)
donde wj = [w
1j
; w
2j
; ...; w
Mj
]
T
es el vector de pesos que conecta el j-
esimo nodo oculto con los M nodos de entrada,
j
= [
1j
;
2j
; ...;
mj
]
T
es
1.6. ELM 23
el vector de pesos que conecta el j-esimo nodo oculto con los m nodos de
salida (en la gura 4.17 se ha considerado un solo nodo de salida), y b
j
es
el umbral del j-esimo nodo oculto. x
k
w
j
denota el producto interno de x
k
y
w
j
. La ecuaci on anterior en realidad representa S ecuaciones, que en forma
matricial puede reescribirse como:
H = T (1.18)
donde:
H(w
1
, ..., w
N
, b
1
, ..., b
N
, x
1
, ..., x
S
) =
_

_
g(w
1
x
1
+b
1
) g(w
N
x
1
+b
N
)
. . .
.
.
. . . .
g(w
1
x
S
+b
1
) g(w
N
x
S
+b
N
)
_

_
(1.19)
Si el n umero N de nodos ocultos es igual que el n umero S de muestras
distintas de entrenamiento, N = S, la matriz H es cuadrada y se puede
invertir una vez se hayan asignado al azar los vectores de peso de entrada
w
j
y los bias ocultos bj , pudiendo la SLFN as aproximar estas muestras
de entrenamiento con error cero. Sin embargo, en la mayora de los casos
el n umero de nodos ocultos es mucho menor que el n umero de muestras
distintas de entrenamiento, N << S, con lo que H es una matriz no cuadrada
y podran no existir w
j
, b
j
y
j
(j = 1; ...; N) tales que H = T. Una de
las soluciones de mnimos cuadrados del sistema lineal de ecuaciones anterior
es la solucion de norma mnima [137, 138], es decir, una solucion tal que
||

|| |||| y se obtiene as:

= H

T (1.20)
donde H

es la matriz inversa generalizada de Moore-Penrose.


Por tanto, un sencillo metodo de entrenamiento para SLFNs, denominado
m aquina de aprendizaje extremo (algoritmo ELM) puede ser resumido como
sigue:
Algoritmo ELM: dado un conjunto de entrenamiento = (x
k
; t
k
)|x
k
R
M
; t
k
R
m
; k = 1; ...; S,
una funcion de activaci on g(x) innitamente diferenciable y un n umero N de
nodos ocultos,
24 CAP

ITULO 1. INTRODUCCI

ON
Paso 1 : Asignar al azar el valor de los pesos de entrada w
j
y los bias
b
j
, j = 1; ...; N.
Paso 2 : Calcular la matriz de salida de la capa oculta, H.
Paso 3 : Calcular los pesos de salida = H

T, donde T = [t
1
; ...; t
S
]
T
.
El tiempo de aprendizaje para una red que usa el algoritmo ELM est a prin-
cipalmente determinado por el tiempo invertido en calcular la matriz inversa
generalizada de Moore-Penrose H

de la capa oculta.
Bibliografa
[1] Chris Aldrich and Lidia Auret. Unsupervised Process Monitoring and
Fault Diagnosis with Machine Learning Methods. Advances in Computer
Vision and Pattern Recognition. Springer-Verlag, 1 edition, 2013.
[2] S. Haykin. Neural Networks: A Comprehensive Foundation. Prentice
Hall, 1999.
[3] Tshilidzi Marwala. Condition Monitoring Using Computational Intelli-
gence Methods. Springer-Verlag, 1 edition, 2012.
[4] V.N. Vaptnik. The nature os statical learning theory. 1995.
[5] P.I. Vi nuela and I.M.G. Leon. Redes de neuronas articiales: Un enfoque
practico. Pearson Eduaci on, 2004.
[6] A.S. Willsky. A survey of design methods for failure detection in dynamic
systems. Automatica, 12:601611, 1976.
25

S-ar putea să vă placă și