Documente Academic
Documente Profesional
Documente Cultură
Qu es WEKA?
Weka es un conjunto de libreras de JAVA para
la extraccin de conocimientos desde bases de
datos. Es un software que fue desarrollado por
la universidad de Waikato (Nueva Zelanda) bajo
Introduccin
WEKA es un entorno para experimentacin de
anlisis de datos que permite aplicar, analizar y
evaluar las tcnicas ms relevantes de anlisis de
datos, principalmente las provenientes del
aprendizaje automtico, sobre cualquier
conjunto de datos del usuario.
Introduccin
WEKA contiene las herramientas necesarias para
realizar transformaciones sobre los datos, tareas de
clasificacin, regresin, clustering, asociacin y
visualizacin, entre otras tareas.
Para ello nicamente se requiere que los datos a
analizar se almacenen con un cierto formato,
conocido como ARFF (Attribute-Relation File
Format).
Archivos .arff
Originalmente Weka trabaja con estos archivos. Este
formato est compuesto por una estructura
claramente diferenciada en tres partes:
1. Cabecera. Dne el nombre de la relacin. Su formato
es el siguiente:
@relation <nombre-de-la-relacin>
Donde <nombre-de-la-relacin> es de tipo String (tipos de
datos de Java). Si dicho nombre contiene algn espacio ser
necesario expresarlo entrecomillado.
Archivos .arff
2. Declaraciones de atributos. En esta
seccin se declaran los atributos que
contendr el archivo de trabajo junto a su
tipo. La sintaxis es la siguiente:
@attribute <nombre-del-atributo>
<tipo>
Donde <nombre-del-atributo> es de tipo
String teniendo las mismas restricciones
que en el caso anterior.
Archivos .arff
Weka acepta diversos tipos de datos:
a) NUMERIC Expresa nmeros reales
b) INTEGER Expresa nmeros enteros.
c) DATE Expresa fechas, para ello este tipo debe ir
precedido de una etiqueta de formato entrecomillada. La
etiqueta de formato est compuesta por caracteres
separadores (guiones y/o espacios) y unidades de
tiempo:
dd Da.
MM Mes.
yyyy Ao.
HH Horas.
mm Minutos.
ss Segundos.
Archivos .arff
d) STRING Expresa cadenas de texto, con las
restricciones del tipo String.
e) ENUMERADO El identicador de este tipo
consiste en expresar entre llaves y separados
por comas los posibles valores (caracteres o
cadenas de caracteres) que puede tomar el
atributo. Por ejemplo, si tenemos un atributo
que indica el tiempo podra denirse:
@attribute tiempo {soleado,lluvioso,nublado}
Archivos .arff
3. Seccin de datos. Se declaran los datos que
contendr la relacin separando entre comas los
atributos y con saltos de lnea las relaciones.
@data
En el caso de que algn dato sea desconocido se
expresar con un smbolo de cierre de
interrogacin (?").
Es posible aadir comentarios con el smbolo %,
que indicar que desde ese smbolo hasta el nal de
la lnea es todo un comentario. Los comentarios
pueden situarse en cualquier lugar del archivo.
@data
Antonio,Bien,38.43,"12-04-2003 12:23"
Maria Jose,?,34.53,"14-05-2003 13:45"
Juan,Bien,43,"01-01-2004 08:04"
Maria,?,?,"03-04-2003 11:03
@data
Interfaz de WEKA
Explorer: es la
opcin que permite
llevar a cabo la
ejecucin de los
algoritmos de anlisis
implementados sobre
los archivos de
entrada (con esta
opcin se trabajara
durante el curso).
Interfaz de WEKA
Experimenter: esta
opcin permite definir
experimentos ms
complejos, con objeto
de ejecutar uno o
varios algoritmos sobre
uno o varios conjuntos
de datos de entrada, y
comparar
estadsticamente los
resultados.
Interfaz de WEKA
KnowledgeFlow: esta
opcin es una novedad
de WEKA 3-4 que
permite llevar a cabo las
mismas acciones del
"Explorer", con una
configuracin totalmente
grfica, inspirada en
herramientas de tipo
"data-flow" para
seleccionar componentes
y conectarlos en un
proyecto de minera de
datos, desde que se
cargan los datos, se
Modo Explorador
El modo Explorador es el modo ms usado y ms
descriptivo. ste permite realizar operaciones
sobre un slo archivo de datos. La ventana
principal es la mostrada en la gura siguiente.
Modo Explorador
El explorador permite tareas de:
1. Preprocesado de los datos y
aplicacin de ltros.
2. Clasicacin.
3. Clustering.
4. Bsqueda de Asociaciones.
5. Seleccin de atributos.
6. Visualizacin de datos.
Preprocesado
El primer paso para comenzar a
trabajar en el explorador es
denir el origen de los datos.
Weka
soporta diferentes fuentes que
coinciden con los botones que
estn debajo de las pestaas
superiores mostrados en la
ventana anterior. Las diferentes
posibilidades son las siguientes:
Open File
Preprocesado
Para cargar un archivo arff
simplemente se debe buscar la
ruta donde se encuentra el archivo
y seleccionarlo. Si dicho archivo
no tiene extensin arff, al abrirlo
Weka intentar interpretarlo, si
no lo consigue aparecer un
mensaje de error .
Preprocesado
Open Url
Con este botn se abrir una
ventana que permitir introducir
una direccin donde se encuentre
el archivo deseado. El tratamiento
de los archivos (restricciones de
formato, etc.).
Preprocesado
Cargar datos,
guardar
datos
filtrados
Tipos de
algoritmos
Seleccin y
aplicacin
de filtros
Atributo
s en la
relacin
actual
Propiedades
del atributo
seleccionado
Variables
Capture primeramente el archivo de acuerdo a
las especificaciones del formato en Weka
Preprocese su archivo
Se visualizar una tabla con las variables y sus
atributos respectivos. Se presenta adems la
opcin para eliminar variables antes de la
clasificacin.
Seleccione uno de los algoritmos clasificadores
mostrados en Weka
Variables
Se muestra un informe como resumen de la
clasificacin generada segn los datos de
entrenamiento.
En la pestaa Visualize se puede observar una
matriz de correspondencia entre las variables, lo
cual nos permitir analizar la relacin de
dependencia existente entre ellas.
Reporte Prctica
Genere el reporte de la prctica de acuerdo a lo
siguiente:
Portada.
Descripcin del problema
Script
Pantallas con la informacin del anlisis del
algoritmo utilizado.
Comentarios