Sunteți pe pagina 1din 31

Algoritmos de clasificacin

Mtra. En C.C. Rosa Mara Rodrguez Aguilar

Qu es WEKA?
Weka es un conjunto de libreras de JAVA para
la extraccin de conocimientos desde bases de
datos. Es un software que fue desarrollado por
la universidad de Waikato (Nueva Zelanda) bajo

licencia de software libre, lo cual ha impulsado


que sea una de las suites ms utilizadas en el
rea en los ltimos aos.

Introduccin
WEKA es un entorno para experimentacin de
anlisis de datos que permite aplicar, analizar y
evaluar las tcnicas ms relevantes de anlisis de
datos, principalmente las provenientes del
aprendizaje automtico, sobre cualquier
conjunto de datos del usuario.

Introduccin
WEKA contiene las herramientas necesarias para
realizar transformaciones sobre los datos, tareas de
clasificacin, regresin, clustering, asociacin y
visualizacin, entre otras tareas.
Para ello nicamente se requiere que los datos a
analizar se almacenen con un cierto formato,
conocido como ARFF (Attribute-Relation File

Format).

Preparacin de los datos


Los datos de entrada a la herramienta, sobre los
que operarn las tcnicas implementadas, deben
estar codificados en un formato especfico,
denominado Attribute-Relation File Format
(extensin "arff"). La herramienta permite
cargar los datos en tres soportes: archivos de
texto, acceso a una base de datos y acceso a
travs de internet sobre una direccin URL de
un servidor web.

Archivos .arff
Originalmente Weka trabaja con estos archivos. Este
formato est compuesto por una estructura
claramente diferenciada en tres partes:
1. Cabecera. Dne el nombre de la relacin. Su formato
es el siguiente:

@relation <nombre-de-la-relacin>
Donde <nombre-de-la-relacin> es de tipo String (tipos de
datos de Java). Si dicho nombre contiene algn espacio ser
necesario expresarlo entrecomillado.

Archivos .arff
2. Declaraciones de atributos. En esta
seccin se declaran los atributos que
contendr el archivo de trabajo junto a su
tipo. La sintaxis es la siguiente:
@attribute <nombre-del-atributo>
<tipo>
Donde <nombre-del-atributo> es de tipo
String teniendo las mismas restricciones
que en el caso anterior.

Archivos .arff
Weka acepta diversos tipos de datos:
a) NUMERIC Expresa nmeros reales
b) INTEGER Expresa nmeros enteros.
c) DATE Expresa fechas, para ello este tipo debe ir
precedido de una etiqueta de formato entrecomillada. La
etiqueta de formato est compuesta por caracteres
separadores (guiones y/o espacios) y unidades de
tiempo:
dd Da.
MM Mes.
yyyy Ao.
HH Horas.
mm Minutos.
ss Segundos.

Archivos .arff
d) STRING Expresa cadenas de texto, con las
restricciones del tipo String.
e) ENUMERADO El identicador de este tipo
consiste en expresar entre llaves y separados
por comas los posibles valores (caracteres o
cadenas de caracteres) que puede tomar el
atributo. Por ejemplo, si tenemos un atributo
que indica el tiempo podra denirse:
@attribute tiempo {soleado,lluvioso,nublado}

Archivos .arff
3. Seccin de datos. Se declaran los datos que
contendr la relacin separando entre comas los
atributos y con saltos de lnea las relaciones.
@data
En el caso de que algn dato sea desconocido se
expresar con un smbolo de cierre de
interrogacin (?").
Es posible aadir comentarios con el smbolo %,
que indicar que desde ese smbolo hasta el nal de
la lnea es todo un comentario. Los comentarios
pueden situarse en cualquier lugar del archivo.

Archivo .arff de ejemplo


% Archivo de prueba para Weka.
@relation prueba

@attribute nombre STRING


@attribute ojo_izquierdo {Bien,Mal}
@attribute dimension NUMERIC
@attribute fecha_analisis DATE "dd-MM-yyyy
HH:mm"

@data
Antonio,Bien,38.43,"12-04-2003 12:23"
Maria Jose,?,34.53,"14-05-2003 13:45"
Juan,Bien,43,"01-01-2004 08:04"
Maria,?,?,"03-04-2003 11:03

@data

Objetivos del anlisis


Es conveniente hacer una
consideracin acerca de los
objetivos perseguidos en el anlisis.
Un paso previo a la bsqueda de
relaciones y modelos subyacentes
en los datos ha de ser la
comprensin del dominio de
aplicacin y establecer una idea
clara acerca de los objetivos del
usuario final.

Interfaz de WEKA
Explorer: es la
opcin que permite
llevar a cabo la
ejecucin de los
algoritmos de anlisis
implementados sobre
los archivos de
entrada (con esta
opcin se trabajara
durante el curso).

Interfaz de WEKA
Experimenter: esta
opcin permite definir
experimentos ms
complejos, con objeto
de ejecutar uno o
varios algoritmos sobre
uno o varios conjuntos
de datos de entrada, y
comparar
estadsticamente los
resultados.

Interfaz de WEKA

KnowledgeFlow: esta
opcin es una novedad
de WEKA 3-4 que
permite llevar a cabo las
mismas acciones del
"Explorer", con una
configuracin totalmente
grfica, inspirada en
herramientas de tipo
"data-flow" para
seleccionar componentes
y conectarlos en un
proyecto de minera de
datos, desde que se
cargan los datos, se

Modo Explorador
El modo Explorador es el modo ms usado y ms
descriptivo. ste permite realizar operaciones
sobre un slo archivo de datos. La ventana
principal es la mostrada en la gura siguiente.

Modo Explorador
El explorador permite tareas de:
1. Preprocesado de los datos y
aplicacin de ltros.
2. Clasicacin.
3. Clustering.
4. Bsqueda de Asociaciones.
5. Seleccin de atributos.
6. Visualizacin de datos.

Preprocesado
El primer paso para comenzar a
trabajar en el explorador es
denir el origen de los datos.
Weka
soporta diferentes fuentes que
coinciden con los botones que
estn debajo de las pestaas
superiores mostrados en la
ventana anterior. Las diferentes
posibilidades son las siguientes:
Open File

Preprocesado
Para cargar un archivo arff
simplemente se debe buscar la
ruta donde se encuentra el archivo
y seleccionarlo. Si dicho archivo
no tiene extensin arff, al abrirlo
Weka intentar interpretarlo, si
no lo consigue aparecer un
mensaje de error .

Preprocesado
Open Url
Con este botn se abrir una
ventana que permitir introducir
una direccin donde se encuentre
el archivo deseado. El tratamiento
de los archivos (restricciones de
formato, etc.).

Preprocesado
Cargar datos,
guardar
datos
filtrados

Tipos de
algoritmos

Seleccin y
aplicacin
de filtros

Atributo
s en la
relacin
actual

Propiedades
del atributo
seleccionado

Caractersticas de los atributos

Caractersticas de los atributos

En la parte derecha aparecen las


propiedades del atributo
seleccionado. Si es un atributo
simblico, se presenta la distribucin
de valores de ese atributo (nmero de
instancias que tienen cada uno de los
valores). Si es numrico aparece los
valores mximo, mnimo, valor medio
y desviacin estndar.

Caractersticas de los atributos

Otras caractersticas que se destacan


del atributo seleccionado son el tipo
(Type), nmero de valores distintos
(Distinct), nmero y porcentaje de
instancias con valor desconocido para
el atributo (Missing, codificado en el
fichero arff con ?), y valores de
atributo que solamente se dan en una
instancia (Unique).

Caractersticas de los atributos

Adems, en la parte inferior se


presenta grficamente el histograma
con los valores que toma el atributo.
Si es simblico, la distribucin de
frecuencia de los valores, si es
numrico, un histograma con
intervalos uniformes.

Caractersticas de los atributos

En el histograma se puede presentar


adems con colores distintos la
distribucin de un segundo atributo
para cada valor del atributo
visualizado. Por ltimo, hay un botn
que permite visualizar los
histogramas de todos los atributos
simultneamente.

Ejercicio a aplicar el algoritmo


Una persona se dispone a jugar golf y tomar su
decisin de asistir considerando los siguientes
factores climatolgicos :

Ejercicio a aplicar el algoritmo (b)

Variables
Capture primeramente el archivo de acuerdo a
las especificaciones del formato en Weka
Preprocese su archivo
Se visualizar una tabla con las variables y sus
atributos respectivos. Se presenta adems la
opcin para eliminar variables antes de la
clasificacin.
Seleccione uno de los algoritmos clasificadores
mostrados en Weka

Variables
Se muestra un informe como resumen de la
clasificacin generada segn los datos de
entrenamiento.
En la pestaa Visualize se puede observar una
matriz de correspondencia entre las variables, lo
cual nos permitir analizar la relacin de
dependencia existente entre ellas.

Reporte Prctica
Genere el reporte de la prctica de acuerdo a lo
siguiente:
Portada.
Descripcin del problema
Script
Pantallas con la informacin del anlisis del
algoritmo utilizado.
Comentarios

S-ar putea să vă placă și