Sunteți pe pagina 1din 20

MINERIA DE DATOS

WEKA
Por: Francisco Ferrero Mateos MJess Martnez Vega
UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

MINERIA DE DATOS
MINERA DE DATOS
Conjunto de tcnicas que nos permiten obtener un modelo de conocimiento a partir de un volumen de datos que servir para la toma de decisiones.

WEKA
WEKA (Waikato Environment for Knowledge Analysis) fue desarrollado en la universidad de Waikato en Nueva Zelanda. Se trata de un programa o entorno para el anlisis de conocimientos. Est escrito en java por lo que se convierte en un sistema multiplataforma. Implementa numerosos algoritmos de aprendizaje y mltiples herramientas para transformar las bases de datos y realizar un exhaustivo anlisis.

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

ALGORITMOS DE APRENDIZAJE
ALGORITMOS DE APRENDIZAJE
De los muchos algoritmos de aprendizaje que WEKA implementa nosotros vamos a trabajar con algoritmos cuya clasificacin de datos est basada en rboles de decisin. En particular:

Anlisis de datos nominales OneR J4.8 Anlisis de datos numricos DECISION STUMP M5
UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

ALGORITMOS datos nominales


OneR
Algoritmo de clasificacin que genera un rbol de decisin de un nico nivel. Capaz de inferir reglas de clasificacin a partir de un conjunto de instancias. Crea una regla para cada atributo en los datos de entrenamiento, luego escoge la regla con la tasa de error[1] ms pequeo como su "one rule". Para crear una regla para cada atributo debe determinarse la clase ms frecuente para cada valor del atributo.

[1] La tasa de error de una regla es el nmero de instancias de los datos de entrenamiento en los que la clase del valor de un atributo no concuerda con la asociacin que la regla le da al valor de ese atributo.
UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

ALGORITMOS datos nominales


J4.8
Se trata de una implementacin propia de WEKA para el algoritmo C4.5, un algoritmo basado en clasificacin por rbol de decisin. El algoritmo ofrece la posibilidad de poder parar antes de alcanzar las hojas en cada subrbol: PODA. Se pueden usar dos parmetros para parar el algoritmo: 1. minNumObj (m): para, si el n de elementos de un subconjunto es menor que m. 2. confidenceFactor: para, si la tasa de desclasificados en el subconjunto es menor que este umbral. Para seleccionar los nodos se basa en un sistema de penalizacin que consiste en aadir un trmino denominado Split information que desanima la seleccin de atributos con muchos valores distribuidos uniformemente.

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

ALGORITMOS datos numricos


DECISION STUMP
Consiste en la creacin de un rbol binario de profundidad la unidad. Toda instancia inclasificable quedar colgada de una nueva rama que se une al nodo raz. Parece obvio predecir que los errores que se cometern a la hora de clasificar los datos sern elevados.

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

ALGORITMOS datos numricos


M5
MODO ENTRENAMIENTO
A: Setosa Attribute 4,4,3,0 4,7,3,2 6,7,3,1 5,8,2,7 Class 1 1 0 0 M5 Model Tree A Attribute 4,4,3,0 4,7,3,2 6,7,3,1 5,8,2,7 B: Virgnica Attribute 4,4,3,0 4,7,3,2 6,7,3,1 5,8,2,7 Class 0 0 1 0 M5 Model Tree B Attribute 4,4,3,0 4,7,3,2 6,7,3,1 5,8,2,7 Class Setosa Setosa Virgnica Versicolor C: Versicolor Class 0 0 0 1 M5 Model Tree C

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

ALGORITMOS datos numricos


M5
MODO TEST

Attribute 5,7,3,0

Target ?

Model Tree A =0.05

Model Tree B =0.07

Model Tree C =0.93

Target: Versicolor

Conocimientos previos
La validacin cruzada (cross vlidation) consiste en el - a empleo de k subconjuntos del conjunto de datos, k/2 se emplean para entrenamiento y k/2 para la validacin del esquema de aprendizaje. Cuando la validacin se realiza con subconjuntos mezclados aleatoriamente se denomina validacin cruzada estratificada. De este modo se consigue una clase determinada aparezca con la misma probabilidad en todos los subconjuntos de validacin. Slo es vlido para conjuntos de datos nominales. Dentro de las distintas medidas que se ofrecen se prestar mayor atencin al coeficiente de correlacin que mide la correlacin estadstica entre los datos predecidos y los datos reales (proceso de validacin del esquema).

Vocabulario

Clase: tienen un sentido similar al de los objetos de Java. Agrupamiento de instancias/objetos con unos atributos/caractersticas similares. Instancia: objeto que pertenece a una clase determinada. Atributo: valor de una determinada caracterstica.

RESULTADOS datos nominales


VOWELS
Este archivo contiene numerosas instancias cuyo formato es el siguiente:

Atributos
Entren Nhab. Sexo /Test
Andrew David Jo Penny Mike Rich Sarah Wendy Bill Mark Kate Rose Nick Tim Sue
Realiz.0 Realiz.1 Realiz.2 Realiz.3 Realiz.4 Realiz.5 Realiz.6 Realiz.7 Realiz.8 Realiz.9

Clase

Realizaciones que cada hablante hace de una misma clase, en este caso de una misma vocal

hid hEd hYd hOd hUd hed

hId hAd had hod hud

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos nominales


OBJETIVOS A partir de una instancia se deber inducir cul es la clase a la que pertenece.
Entren Nhab. Sexo /Test
Andrew David Jo Penny Mike Rich Sarah Wendy Bill Mark Kate Rose Nick Tim Sue
Realiz.0 Realiz.1 Realiz.2 Realiz.3 Realiz.4 Realiz.5 Realiz.6 Realiz.7 Realiz.8 Realiz.9

Clase

Realizaciones que cada hablante hace de una misma clase, en este caso de una misma vocal

hid hEd hYd hOd hUd hed

hId hAd had hod hud

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos nominales


OneR
Validacin cruzada con 10 subconjuntos
Como podemos apreciar el error a la hora de la clasificacin es muy alto

SUMARIO RESULTADOS
Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 187 35.4167 % 341 64.5833 % 0.2896 0.1174 0.3427 71.0417 % 119.1987 % 528

MATRIZ DE CONFUSIN La matriz de confusin demuestra lo mostrado por la cross-validation, en lugar de disponer de una matriz diagonal aparecen errores en las predicciones alrededor de la diagonal principal.
a b c d e f g h i j k 27 15 0 0 3 2 0 0 1 0 0 | 8 27 7 3 1 1 0 0 0 0 1 | 2 6 36 0 0 4 0 0 0 0 0 | 0 0 7 13 6 12 0 0 1 3 6 | 0 0 0 3 8 6 17 2 7 2 3 | 0 0 2 12 10 13 3 0 0 3 5 | 0 0 3 2 6 3 17 6 6 4 1 | 0 0 0 2 3 1 3 27 4 5 3 | 0 0 4 7 8 6 8 6 1 7 1 | 0 0 3 3 9 5 6 9 4 9 0 | 0 0 12 10 5 11 0 0 0 1 9 | a b c d e f g h i j k = = = = = = = = = = = hid hId hEd hAd hYd had hOd hod hUd hud hed

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos nominales


OneR
Validacin cruzada con 10 subconj.
Como vemos ha escogido la Realizacin 1 como one rule

MODELO CLASIFICACIN
< -0.1235 < 0.522 < 1.046 < 1.2654999999999998 < 1.3900000000000001 < 1.4929999999999999 < 1.609 < 1.6524999999999999 < 1.852 < 1.9725000000000001 < 2.1675 < 2.2794999999999996 < 2.393 < 2.553 < 2.734 < 2.84 < 3.18 < 3.87 < 4.2555 < 4.7445 >= 4.7445 (244/528 instances correct) Feature 1: -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> hid hId hEd had hed hAd had hed hAd had hYd hud hYd hud hOd hYd hOd hod hUd hod hud

Como podemos apreciar, el rbol generado es de profundidad 1

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos nominales


J4.8
Validacin cruzada con 10 subconj.
Como podemos apreciar el error a la hora de la clasificacin es notablemente menor que en OneR

SUMARIO RESULTADOS
Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 418 110 0.7708 0.0424 0.1871 25.6237 % 65.0786 % 528 79.1667 % 20.8333 %

MATRIZ DE CONFUSIN Se ha reducido el error absoluto al aumentar el nmero de instancias clasificadas, dato que se demuestra al ver la matriz de confusin. El nmero de predicciones acertadas ha aumentado ya que no aparecen tantos datos alrededor de la diagonal principal.
a b c d e f g h i j k 46 1 0 0 0 0 0 0 0 1 0 1 45 2 0 0 0 0 0 0 0 0 0 5 39 0 0 3 0 0 0 1 0 0 0 1 42 0 4 0 0 1 0 0 0 0 0 0 40 5 0 0 0 0 3 0 0 0 7 3 33 0 0 0 0 5 0 0 0 0 4 0 32 6 4 0 2 0 0 0 0 0 0 4 43 1 0 0 0 0 1 1 0 1 4 2 32 5 2 0 0 0 2 0 1 0 0 10 33 2 0 0 0 1 2 5 2 0 1 4 33 | | | | | | | | | | | a b c d e f g h i j k = = = = = = = = = = = hid hId hEd hAd hYd had hOd hod hUd hud hed

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos nominales


J4.8
10 PLIEGUES CROSS VALIDATION MODELO CLASIFICACIN La razn por la que este algoritmo supone tan importante mejora radica en el tamao del rbol de decisin generado, mucho mayor en este caso, y por lo tanto el nmero de reglas que emplear el clasificador ser mucho mayor.

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos numricos


POLLUTION
Este archivo contiene numerosas instancias cuyo formato es el siguiente:

Atributos

PREC JANT

JULT

OVR65

POPN

EDUC

HOUS DENS NONW

PREC Average annual precipitation in inches JANT Average January temperature in degrees F JULT Same for July OVR65 % of 1960 SMSA population aged 65 or older POPN Average household size EDUC Median school years completed by those over 22 HOUS % of housing units which are sound & with all facilities DENS Population per sq. mile in urbanized areas, 1960 NONW % non-white population in urbanized areas, 1960

WWDRK % employed in white collar occupations POOR % of families with income < $3000 HC Relative hydrocarbon pollution potential NOX Same for nitric oxides SO@ Same for sulphur dioxide HUMID Annual average % relative humidity at 1pm MORT Total age-adjusted mortality rate per 100,000

WWDR POOR K

HC

NOX

SO@ HUMID MORT

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos numricos


OBJETIVOS: Inducir a travs del resto de atributos la tasa de mortalidad.
PREC JANT JULT OVR65 POPN EDUC HOUS DENS NONW
WWDRK % employed in white collar occupations POOR % of families with income < $3000 HC Relative hydrocarbon pollution potential NOX Same for nitric oxides SO@ Same for sulphur dioxide HUMID Annual average % relative humidity at 1pm MORT Total age-adjusted mortality rate per 100,000

PREC Average annual precipitation in inches JANT Average January temperature in degrees F JULT Same for July OVR65 % of 1960 SMSA population aged 65 or older POPN Average household size EDUC Median school years completed by those over 22 HOUS % of housing units which are sound & with all facilities DENS Population per sq. mile in urbanized areas, 1960 NONW % non-white population in urbanized areas, 1960

WWDR POOR K

HC

NOX

SO@ HUMID MORT

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos numricos


Decision Stump
Validacin cruzada con 10 subconj. Observar el bajo coeficiente de correlacin. Este clasificador no es muy fiable. Tasas de error muy grandes! SUMARIO RESULTADOS
Correlation coefficient Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 0.3568 49.7471 59.6498 100.1308 % 96.6995 % 60

MODELO DE CLASIFICACIN
NONW <= 7.949999999999999 : 896.44008 NONW > 7.949999999999999 : 971.7286857142849 NONW is missing : 940.3584333333332

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos numricos


M5
Validacin cruzada con 10 subconjuntos
Mayor coeficiente de correlacin!!!!

SUMARIO RESULTADOS
Correlation coefficient Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 0.7641 30.5184 39.9143 61.4274 % 64.7059 % 60

CLASIFICACIN

M5 pruned model tree: (using smoothed predictions) LM1 (60/61.139%) LM num: 1 Number of Rules : 1

Linear Regression Model MORT = 1.8565 * PREC + -2.262 * JANT + -3.32 * JULT + -10.9205 * OVR65 + -137.3831 * POPN + -23.4211 * EDUC + 4.6623 * NONW + -0.9221 * HC + 1.871 * NOX + 1934.0539

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

S-ar putea să vă placă și