Sunteți pe pagina 1din 9

Capítulo 1.- INTRODUCCION.

1.1.- Conceptos Generales.

Aunque el empleo práctico de métodos y vías para reconocer (identificar) patrones tiene
raíces mucho más antiguas, es posible afirmar que el auge y la popularidad de estas técnicas
ha coincidido con el desarrollo de los modernos equipos de computación, que han permitido
la manipulación, en un período de tiempo aceptable, de los grandes volúmenes de datos
requeridos en muchos de los problemas en que se utilizan estos métodos. Entre otras
aspiraciones, en el presente texto se pretende mostrar que el empleo adecuado de estas
técnicas automatizadas puede conducir no sólo a mayor rapidez sino también a resultados que
pueden competir en calidad con los obtenidos por analistas humanos, y en determinados
casos, superarlos.

Los métodos de Reconocimiento de Patrones han encontrado aplicación en numerosos


campos, como son :

a) reconocimiento de caracteres
b) diagnóstico médico
c) teledetección de recursos naturales
d) identificación de caras humanas y de huellas digitales
e) análisis de señales e imágenes biomédicas
f) clasificación de suelos
g) conteo de células sanguíneas
h) análisis de los registros de pozos (carotaje)
i) arqueología
j) pronóstico de yacimientos minerales
k) reconocimiento oral
l) análisis de la actividad sismológica
m) clasificación de documentos
y muchos otros

En los últimos treinta años se han editado decenas de libros y cientos de artículos sobre el
Reconocimiento de Patrones, lo que refleja el alto grado de interés que esta actividad ha
despertado. A pesar de esta popularidad resulta difícil encontrar definiciones generales y
precisas. Entre las publicadas se destacan las siguientes:

Concepto de Patrón-
Tou y González (1974): es la descripción de un objeto.
Meisel (1972): en su sentido más amplio son los medios mediante los cuales interpretamos
el mundo.
Chen (1973): Es un modelo, guía o plan usado al hacer cosas. Puede ser concreto o
abstracto. Concreto: casi todo lo que está al alcance de nuestros sentidos.

Clases de Patrones
Tou y González (1974 ): es una categoría determinada por algunos atributos comunes
dados.
Chen ( 1973 ): es un grupo de patrones con ciertas propiedades comunes.

El Problema de Reconocimiento de Patrones


Chen (1973): El problema consiste en clasificar un patrón en una de las clases, sobre la base
de ciertas observaciones o mediciones.
Tou y González (1974): Las funciones básicas de un sistema de RP son detectar y extraer
rasgos comunes a partir de los que describen los objetos pertenecientes a una misma clase de
patrones, y reconocer este patrón en cualquier nuevo ambiente para clasificarlo como un
miembro de una de las clases que se consideran.
Meisel (1972): RP es el desarrollo, a partir de patrones identificados, de una regla de
decisión y su empleo. El verdadero reconocimiento ocurre en el empleo de la regla, el
patrón es definido en el proceso de aprendizaje basado en las muestras identificadas de ese
patrón.
Batchelor (1974) definió esta temática de la manera siguiente: "...el Reconocimiento de
Patrones, está relacionado con la construcción de máquinas capaces de realizar tareas tales
como lectura, reconocimiento del habla, o diagnóstico de enfermedades. El elemento
común en esos problemas es la necesidad de un equipo que pueda tomar decisiones. El
estudio de tales máquinas es llamado Clasificación de Patrones."

El objetivo básico del Reconocimiento de Patrones es el desarrollo y la aplicación de técnicas


capaces de identificar entes (individuos, objetos), es decir, de asignarlos a las clases
correspondientes, de forma automática y con el mínimo de intervención humana.

1.2.- Enfoques para el problema del Reconocimiento de Patrones.

Existen varios enfoques para el estudio de las cuestiones relacionadas con el reconocimiento
de patrones. Los que mayor atención han recibido son el estadístico (que es el que se estudia
en el presente texto), y el sintáctico (estructural, lingüístico).

a) Enfoque Estadístico: Se considera que la cuestión de si un patrón pertenece o no a una


clase, puede ser tratada como un caso especial del problema de la teoría estadística de la
decisión.
Además, se supone que los patrones se pueden representar por arreglos de números
(vectores),
y que se requiere tener en cuenta la variabilidad intrínseca en las clases. Es decir, se necesita
la capacidad para enfrentar el hecho de que patrones de una misma clase difieren entre si
respecto a sus características, y esta diferencia no está causada únicamente por errores o
deficiencias en el proceso de medición, sino que existen razones inherentes al proceso que se
estudia, que contribuyen a esa variabilidad.

b) Enfoque Estructural o sintáctico: Se apoya en la descripción de los patrones a partir de sus


elementos básicos (primitivas), junto con reglas sintácticas (gramática) que especifican la
forma en que esas primitivas se pueden combinar para dar lugar a un patrón legítimo dentro
de una clase de interés.
Entre los enfoques alternativos es posible mencionar los siguientes:

c) Difuso (Fuzzy): Permite funciones de pertenencia fuzzy. Para situaciones en las que no es
conveniente tomar decisiones terminantes o excluyentes, y en las que existe un alto grado de
incertidumbre.

d) Agrupamiento o Clustering (no supervisado): incluye diversas técnicas para detectar


irregularidades o estructuras en el conjunto de datos disponible. Puede servir para sugerir
modelos hipotéticos para el mecanismo de generación de los datos o determinar la existencia
de clases previamente desconocidas. Para algunos autores, este enfoque no forma parte del
reconocimiento de patrones, sino que debe ser considerado dentro del análisis exploratorio de
datos.

1.3.-Proceso de Reconocimiento de Patrones.

Es conveniente conceptualizar el problema de RP en etapas, como en la figura siguiente:

( M e c a n i s m o d e r e t r o a li m e n t a c i ó n )

O b s e r v Sa c e i ó n n s oP r r e p r o c e sS a e m l e i ce . n t Vo C a l r a i a s bi f li ecA ass i gc n i óa c ni ó n

Figura 1.1

Según ese esquema, son tres las etapas fundamentales:

1. Preprocesamiento previo de la información, para mejorar su calidad o eliminar detalles no


importantes.

2. Selección de las variables con mayor poder discriminatorio, para reducir la dimensión del
problema. Esto permite mejorar la efectividad y la precisión del clasificador, simplificar la
modelación del problema y facilitar la labor computacional.

3. Clasificación o identificación propiamente dicha, que puede considerarse (en el enfoque


estadístico) como un problema de docimacia de hipótesis y que se lleva a cabo, debido al
carácter multidimensional de la información utilizada, empleando métodos de análisis
multivariado, como el análisis discriminante.
En lo que respecta al establecimiento de los mecanismos de retroalimentación, no ha sido
posible ir más allá de planteamientos teóricos acerca de su conveniencia, pues las dificultades
prácticas han resultado insolubles hasta el presente.

1.4.- Enfoque estadístico.

Aunque en la actualidad se le considera como una disciplina independiente (según algunos


autores, con fronteras no bien definidas con el Procesamiento de Imágenes y la Inteligencia
Artificial), el Reconocimiento de Patrones tiene fuertes raíces históricas en la Estadística.
Desde los trabajos de Fisher (1936), técnicas para discriminar o clasificar han sido
incorporadas a textos y cursos del Análisis Estadístico Multivariado.

No obstante, se le atribuye a Chow (1957) la formulación rigurosa por primera vez del
problema de Reconocimiento de Patrones en términos de la teoría de la decisión estadística.
En este marco de trabajo la meta es encontrar el clasificador óptimo. Cuando se dispone de
información suficiente esa optimalidad se alcanza con la bien conocida Regla de Bayes o
Clasificador de Bayes, que se discutirá en el capítulo siguiente. Este clasificador minimiza el
riesgo esperado para cada decisión.

Algunas generalidades de este enfoque:

1) Cada individuo o patrón se representa por un vector X = (x 1, x2, x3,.....,xp) de p-


componentes o mediciones (variables, rasgos, atributos, características, indicadores),
considerándose como un punto en un espacio p-dimensional.
Aún dentro de una misma clase, diferentes individuos producen diferentes valores para una
misma medición, o el mismo individuo varía su valor en diferentes momentos. Luego se
puede decir que xi es una variable aleatoria y X es un vector aleatorio.

El conjunto de patrones de una clase corresponde a un conjunto de puntos p-dimensionales


que ocupan una región determinada en el espacio definido por las variables o atributos.

2) Desde un punto de vista matemático el Reconocimiento de Patrones puede formalizarse


como una función, definida con dominio en el espacio de las mediciones o atributos, y con
imagen en el conjunto de las clases presentes en el problema particular que se estudia.

La entrada a una máquina de Reconocimiento de Patrones es un conjunto de p mediciones y


la salida es la etiqueta o código que identifica a una de las clases que se consideran. Por eso
se acostumbre a representar la entrada por un vector p-dimensional X, llamado vector patrón.
Dado un clasificador, el resultado de la clasificación depende de los valores registrados en las
variables o atributos (componentes del vector) patrón X, lo que se denota por:

c = δ(X)
donde c ε {1,2,...m}es la etiqueta correspondiente a una de las m clases consideradas en el
problema, y

δ(X) es la llamada función de decisión.

El diseño de una máquina de Reconocimiento de Patrones puede ser descrito como la


búsqueda de una regla que divida el espacio de las variables en regiones de decisión, cada
una de esas regiones asociada a una clase determinada. Para evitar confusión y ambigüedad,
esas regiones deben ser disjuntas (no solape) y cubrir todo el espacio definido por las
variables o atributos. El borde o frontera de cada región es una frontera de decisión.
Determinar a que región corresponde un patrón dado X equivale entonces a asignar X a la
clase asociada a esa región.

Con frecuencia resulta conveniente visualizar las regiones y fronteras de decisión. Cuando el
número de variables es menor o igual a 3, diagramas de dispersión como el que se muestra a
continuación constituyen herramientas útiles para identificar estructuras particulares de los
datos, detectar observaciones atípicas, o para estudiar los aspectos geométricos y
computacionales de las fronteras de decisión. Para un número de variables mayor que 3, se
requieren técnicas de visualización más complejas.

x1

Frontera de
decisión

x2

Figura 1.2

Modificaciones a las definiciones anteriores son aportadas por:


-la teoría de los conjuntos difusos (fuzzy) en la que un patrón X puede asignarse a más de
una clase, con diferentes grados de pertenencia.
-la adición al clasificador de la posibilidad de dejar algunos patrones sin asignar o clasificar
(rechazar), cuando no hay evidencia suficientemente fuerte a favor de ninguna de las clases
consideradas.

Entre los factores más importantes a considerar durante la selección y el diseño del
clasificador están la probabilidad de clasificación errónea y el costo de llevar a cabo la
clasificación (la complejidad del algoritmo y el gasto en que se incurre al tomar las
mediciones). La máquina de Reconocimiento de Patrones más simple utiliza hiperplanos para
separar las regiones de decisión, lo que equivale a la definición de funciones lineales para
resolver el problema de la clasificación. Además de su simplicidad matemática y
computacional, estos clasificadores lineales son los clasificadores óptimos para determinados
casos.

Con una visión más general y práctica, puede concebirse el proceso formado por dos etapas
básicas: construir la regla de decisión y emplearla.
Si después de un tiempo (por ejemplo, en tareas de pronósticos) se conoce la verdadera
clasificación, la regla de decisión puede evaluarse.
Pudiera considerarse también el ajuste del clasificador después de una cierta cantidad de
elementos clasificados. O sea, no limitar el aprendizaje a la etapa previa (a la información
aportada por la muestra de entrenamiento), sino continuar incrementando el conocimiento
incorporado al sistema, a partir de la experiencia acumulada (éxitos y errores) a través del
proceso de trabajo mismo, en la ejecución de la clasificación de patrones nuevos.

3) El tipo de función de decisión depende también del nivel de conocimiento que se posea a
priori sobre el problema en cuestión
.
Si se conocen las distribuciones de probabilidad de las clases, podemos usar la teoría
estadística de la decisión para diseñar la máquina que será óptima en el sentido de minimizar
el riesgo esperado u otro criterio de rendimiento seleccionado (en general, se necesitaría
entonces conocer también las probabilidades a priori de las clases y disponer de una
definición adecuada de la función de costo). Resulta muy difícil, en la práctica, disponer de
todos estos elementos.

Si se conoce la forma funcional de esas distribuciones probabilísticas (o se acepta alguna de


ellas como supuesto del problema, por ejemplo la distribución normal o gaussiana, como es
habitual) pero no los parámetros, esa forma funcional determina la estructura general del
clasificador, y los parámetros correspondientes pueden estimarse a partir de la muestra de
entrenamiento. Se trabajaría entonces con un método supervisado paramétrico.

Cuando existan motivos que impidan la aceptación de un determinado supuesto


probabilístico, o el conocimiento sobre el problema sea muy escaso, será necesario optar por
un método no paramétrico, cuya eficiencia depende muy fuertemente de la calidad de la
muestra de entrenamiento que se ha podido recolectar: tamaño de la muestra,
representatividad de la misma para la población de la que fue extraída, seguridad en las
etiquetas de sus elementos, etc.

El diseñador debe ponderar varios factores al decidir la estructura: rendimiento deseado,


complejidad permisible y su conocimiento previo del problema.

Una vez que la estructura general se ha decidido, la forma final del clasificador queda
determinada por la muestra de entrenamiento, es decir, por la información suministrada por
un grupo de individuos que identifican a todas las clases que resultan de interés en el
problema que se estudia.

La muestra de entrenamiento (ME) no es más que un conjunto de muestras aleatorias y se


representa de la siguiente forma:

ME = { (X1,Y1), (X2,Y2), ..., (Xn,Yn) }


donde la etiqueta Y puede tomar valores en {1,..,m} y Yi designa la verdadera clase del
prototipo o patrón de entrenamiento Xi , entre las m posibles clases.

Esto se conoce con el nombre de métodos supervisados (o entrenamiento con supervisor).


Estos métodos se pueden subdividir en dos categorías:

a) paramétrico: en los que se supone conocida la forma de las funciones de densidad del
modelo en cuestión y la muestra de entrenamiento se utiliza para "aprender" o estimar los
parámetros desconocidos de esas densidades.

b) no paramétricos: son completamente independientes de cualquier tipo de supuesto sobre la


estructura probabilística.

Ejemplos de métodos no paramétricos son la bien conocida función discriminante de Fisher


(1936 ), los clasificadores lineales adaptables (p. ejemplo, Sklansky y Wassel , 1981), y la
regla NN (Nearest Neighbor rule), que se presentará en los próximos capítulos.

Los métodos no supervisados (algoritmos de cluster) se emplean cuando no se conoce la


clasificación correcta de los patrones disponibles.

Aunque en la mayoría de los textos sólo se consideran los dos casos que se acaban de
mencionar (supervisados y no supervisados), es posible hablar de una situación intermedia:
imperfectamente supervisada. Son problemas prácticos, que se presentan con cierta
frecuencia en las aplicaciones, y en los que se dispone de una muestra de entrenamiento, pero
no se cumple el supuesto de que la identificación de todos los prototipos de esa muestra de
entrenamiento sea correcta. Son varias las razones que pueden provocar esta situación:
dificultades en el proceso de identificación, alto costo de esa actividad, ambigüedad en la
definición de las clases, presencia de prototipos que representen a más de una clase, etc.

1.5.- Características del presente texto.

Este material ha sido confeccionado sobre la base de notas originalmente preparadas (y


revisadas) para varios cursos de postgrado sobre la temática, impartidos tanto en
universidades de Cuba como de México, y está dirigido a especialistas en diversas ramas de la
actividad socio-económica, que estén interesados en familiarizarse con estas tareas. Se
exponen algoritmos relacionados con los temas señalados en cada uno de los capítulos y se
incluye además, en cada aspecto, una reseña bibliográfica para los que deseen profundizar en
estas cuestiones.

El objetivo de este texto es fomentar el interés investigativo en diversos aspectos del


Reconocimiento de Patrones, tanto en los estrictamente matemáticos y computacionales
como en las cuestiones metodológicas de relevancia para las aplicaciones. De esta manera, ses
pretende que sirva como referencia para las personas involucradas en el estudio y el empleo
de estos métodos.
La estructura de este texto está dada por los siguientes capítulos:

1. Introducción. Conceptos generales.


2. Elementos de la teoría de la decisión estadística.
3. Cuestiones del aprendizaje
4. Clasificadores secuenciales.
5. Clasificadores adaptables.
6. La regla NN (Nearest Neighbor rule).
7. Estimación de la probabilidad de clasificación errónea.
8. Selección de variables.
9. Aspectos de la clasificación en problemas de las geociencias.

Si se desea una comprensión cabal de todas las fundamentaciones estadísticas en las que se
apoya el Reconocimiento de Patrones estadístico, la lectura de este texto requeriría un
conocimiento previo de los elementos de Álgebra Lineal, Teoría de las Probabilidades y de
Inferencia Estadística, en los niveles en que usualmente se estudian en los primeros años de
las especialidades universitarias de ciencias e ingeniería. Para aquellos interesados solamente
en captar las ideas básicas y conseguir el dominio suficiente para el empleo de estos métodos
en tareas prácticas, se ha tratado de desarrollar una exposición lo más sencilla y comprensible
posible. Comentarios y señalamientos serán bien recibidos.

1.6.- Bibliografía.

Batchelor, B.G. (1974): Practical Approach to Pattern Classification. Plenum Press,


Londres.

Chen, C.H (1973): Statistical Pattern Recognition. Spartan Books, New York.

Chow, C.K. (1957): An optimum character recognition system using decision functions. IRE
Trans. Elec. Comp, EC-6, 247-254.

Devijver, P.A., Kittler, J. (1982). Pattern Recognition: a statistical approach. Prentice Hall,
Londres.

Fisher, R.A (1936): The use of multiple measurements in taxonomic problems. Annals of
Eugenics.

James, M. (1985). Classification algorithms. Collins, Londres.

Meisel, N.S (1972): Computer-oriented approaches to Pattern Recognition. Academic Press,


New York.

Schalkoff, R.J. (1992).Pattern Recognition: Statistical, Structural and Neural Approaches.


Wiley and Sons, New York.
Sklansky, L., Wassel, G.N. (1981): Pattern classifiers and trainable machines. Springer
Verlag, New York.

Tou, J.T, González, R.C (1974): Pattern Recognition Principles. Addison-Wesley Co,
Massachutsetts.

S-ar putea să vă placă și