Sunteți pe pagina 1din 1

Minera de datos con Weka (ficheros ARFF)

http://www.locualo.net/programacion/mineria-datos-weka-ficheros-arff...

Minera de datos con Weka (ficheros ARFF)


En el artculo anterior vimos un ejemplo de utilizacin de la herramienta Explorer de Weka con uno de los ficheros de ejemplo que vienen con la aplicacin. El ejemplo era algo sencillo, pero vimos tambin alguna posible aplicacin de la herramienta a la vida real. Aunque Weka acepta en teora ficheros csv para obtener los datos de entrada e incluso soporta consultas a base de datos, yo he tenido problemas para cargar datos en los dos formatos, por lo que recomiendo crear nosotros mismos un fichero con formato ARFF (el formato propio de Weka) con nuestros propios datos para empezar a sacarles todo el jugo. La estructura de un fichero con formato ARFF es muy sencilla, por lo que seguro que no tendremos ningn problema a la hora de crearlo. Vamos a ver primero un ejemplo y despus lo comentaremos paso a paso:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 @relation weather @attribute @attribute @attribute @attribute @attribute outlook {sunny, overcast, rainy} temperature real humidity real windy {TRUE, FALSE} play {yes, no}

@data sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes rainy,70,96,FALSE,yes rainy,68,80,FALSE,yes rainy,65,70,TRUE,no overcast,64,65,TRUE,yes sunny,72,95,FALSE,no sunny,69,70,FALSE,yes rainy,75,80,FALSE,yes sunny,75,70,TRUE,yes overcast,72,90,TRUE,yes overcast,81,75,FALSE,yes rainy,71,91,TRUE,no

Este fichero con formato ARFF es el que utilizamos en el artculo anterior para nuestro primer ejemplo de introduccin a la minera de datos. Se divide en tres partes: @relation, @attribute y @data: 1. @relation <relation-name> (lnea 1) Todo fichero ARFF debe comenzar con esta declaracin en su primera lnea (no podemos dejar lneas en blanco al principio). <relation-name> ser una cadena de caracteres y si contiene espacios la pondremos entre comillas. 2. @attribute <attribute-name> <datatype> (lneas de la 3 a la 7) En esta seccin incluiremos una lnea por cada atributo (o columna) que vayamos a incluir en nuestro conjunto de datos, indicando su nombre y el tipo de dato. Con <attribute-name> indicaremos el nombre del atributo, que debe comenzar por una letra y si contiene espacios tendr que estar entrecomillado. Con <datatype> indicaremos el tipo de dato para este atributo (o columna) que puede ser: numeric (numrico) string (texto) date [<date-format>] (fecha). En <date-format> indicaremos el formato de la fecha, que ser del tipo "yyyy-MM-dd'T'HH:mm:ss". <nominal-specification>. Estos son tipos de datos definidos por nosotros mismos y que pueden tomar una serie de valores que indicamos (lnea 3). 3. @data (a partir de la lnea 9) En esta seccin incluiremos los datos propiamente dichos. Separaremos cada columna por comas y todas filas debern tener el mismo nmero de columnas, nmero que coincide con el de declaracines @attribute que aadimos en la seccin anterior. Si no disponemos de algn dato, colocaremos un signo de interrogacin (?) en su lugar. El separador de decimales tiene que ser obligatoriamente el punto y las cadenas de tipo string tienen que estar entre comillas simples.

1 de 1

07/01/2012 13:50

S-ar putea să vă placă și