Mineria de Datos

MINERIA DE DATOS
WEKA
Por: Francisco Ferrero Mateos MJess Martnez Vega
UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones
MINERIA DE DATOS
MINERA DE DATOS
Conjunto de tcnicas que nos permiten obtener un modelo de conocimiento a partir de un volumen de datos que servir para la toma de decisiones.
WEKA
WEKA (Waikato Environment for Knowledge Analysis) fue desarrollado en la universidad de Waikato en Nueva Zelanda. Se trata de un programa o entorno para el anlisis de conocimientos. Est escrito en java por lo que se convierte en un sistema multiplataforma. Implementa numerosos algoritmos de aprendizaje y mltiples herramientas para transformar las bases de datos y realizar un exhaustivo anlisis.
ALGORITMOS DE APRENDIZAJE
ALGORITMOS DE APRENDIZAJE
De los muchos algoritmos de aprendizaje que WEKA implementa nosotros vamos a trabajar con algoritmos cuya clasificacin de datos est basada en rboles de decisin. En particular:
Anlisis de datos nominales OneR J4.8 Anlisis de datos numricos DECISION STUMP M5
ALGORITMOS datos nominales

OneR
Algoritmo de clasificacin que genera un rbol de decisin de un nico nivel. Capaz de inferir reglas de clasificacin a partir de un conjunto de instancias. Crea una regla para cada atributo en los datos de entrenamiento, luego escoge la regla con la tasa de error[1] ms pequeo como su "one rule". Para crear una regla para cada atributo debe determinarse la clase ms frecuente para cada valor del atributo.
[1] La tasa de error de una regla es el nmero de instancias de los datos de entrenamiento en los que la clase del valor de un atributo no concuerda con la asociacin que la regla le da al valor de ese atributo.
ALGORITMOS datos nominales

J4.8
Se trata de una implementacin propia de WEKA para el algoritmo C4.5, un algoritmo basado en clasificacin por rbol de decisin. El algoritmo ofrece la posibilidad de poder parar antes de alcanzar las hojas en cada subrbol: PODA. Se pueden usar dos parmetros para parar el algoritmo: 1. minNumObj (m): para, si el n de elementos de un subconjunto es menor que m. 2. confidenceFactor: para, si la tasa de desclasificados en el subconjunto es menor que este umbral. Para seleccionar los nodos se basa en un sistema de penalizacin que consiste en aadir un trmino denominado Split information que desanima la seleccin de atributos con muchos valores distribuidos uniformemente.
ALGORITMOS datos numricos

DECISION STUMP
Consiste en la creacin de un rbol binario de profundidad la unidad. Toda instancia inclasificable quedar colgada de una nueva rama que se une al nodo raz. Parece obvio predecir que los errores que se cometern a la hora de clasificar los datos sern elevados.

M5
MODO ENTRENAMIENTO
A: Setosa Attribute 4,4,3,0 4,7,3,2 6,7,3,1 5,8,2,7 Class 1 1 0 0 M5 Model Tree A Attribute 4,4,3,0 4,7,3,2 6,7,3,1 5,8,2,7 B: Virgnica Attribute 4,4,3,0 4,7,3,2 6,7,3,1 5,8,2,7 Class 0 0 1 0 M5 Model Tree B Attribute 4,4,3,0 4,7,3,2 6,7,3,1 5,8,2,7 Class Setosa Setosa Virgnica Versicolor C: Versicolor Class 0 0 0 1 M5 Model Tree C

M5
MODO TEST
Attribute 5,7,3,0
Target ?
Model Tree A =0.05
Model Tree B =0.07
Model Tree C =0.93
Target: Versicolor
Conocimientos previos
La validacin cruzada (cross vlidation) consiste en el - a empleo de k subconjuntos del conjunto de datos, k/2 se emplean para entrenamiento y k/2 para la validacin del esquema de aprendizaje. Cuando la validacin se realiza con subconjuntos mezclados aleatoriamente se denomina validacin cruzada estratificada. De este modo se consigue una clase determinada aparezca con la misma probabilidad en todos los subconjuntos de validacin. Slo es vlido para conjuntos de datos nominales. Dentro de las distintas medidas que se ofrecen se prestar mayor atencin al coeficiente de correlacin que mide la correlacin estadstica entre los datos predecidos y los datos reales (proceso de validacin del esquema).
Vocabulario
Clase: tienen un sentido similar al de los objetos de Java. Agrupamiento de instancias/objetos con unos atributos/caractersticas similares. Instancia: objeto que pertenece a una clase determinada. Atributo: valor de una determinada caracterstica.
RESULTADOS datos nominales

VOWELS
Este archivo contiene numerosas instancias cuyo formato es el siguiente:
Atributos
Entren Nhab. Sexo /Test
Andrew David Jo Penny Mike Rich Sarah Wendy Bill Mark Kate Rose Nick Tim Sue
Realiz.0 Realiz.1 Realiz.2 Realiz.3 Realiz.4 Realiz.5 Realiz.6 Realiz.7 Realiz.8 Realiz.9
Clase
Realizaciones que cada hablante hace de una misma clase, en este caso de una misma vocal
hid hEd hYd hOd hUd hed
hId hAd had hod hud

OBJETIVOS A partir de una instancia se deber inducir cul es la clase a la que pertenece.
Entren Nhab. Sexo /Test
Andrew David Jo Penny Mike Rich Sarah Wendy Bill Mark Kate Rose Nick Tim Sue
Realiz.0 Realiz.1 Realiz.2 Realiz.3 Realiz.4 Realiz.5 Realiz.6 Realiz.7 Realiz.8 Realiz.9
Clase
Realizaciones que cada hablante hace de una misma clase, en este caso de una misma vocal
hid hEd hYd hOd hUd hed
hId hAd had hod hud

OneR
Validacin cruzada con 10 subconjuntos
Como podemos apreciar el error a la hora de la clasificacin es muy alto
SUMARIO RESULTADOS
Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 187 35.4167 % 341 64.5833 % 0.2896 0.1174 0.3427 71.0417 % 119.1987 % 528
MATRIZ DE CONFUSIN La matriz de confusin demuestra lo mostrado por la cross-validation, en lugar de disponer de una matriz diagonal aparecen errores en las predicciones alrededor de la diagonal principal.
a b c d e f g h i j k 27 15 0 0 3 2 0 0 1 0 0 | 8 27 7 3 1 1 0 0 0 0 1 | 2 6 36 0 0 4 0 0 0 0 0 | 0 0 7 13 6 12 0 0 1 3 6 | 0 0 0 3 8 6 17 2 7 2 3 | 0 0 2 12 10 13 3 0 0 3 5 | 0 0 3 2 6 3 17 6 6 4 1 | 0 0 0 2 3 1 3 27 4 5 3 | 0 0 4 7 8 6 8 6 1 7 1 | 0 0 3 3 9 5 6 9 4 9 0 | 0 0 12 10 5 11 0 0 0 1 9 | a b c d e f g h i j k = = = = = = = = = = = hid hId hEd hAd hYd had hOd hod hUd hud hed

OneR
Validacin cruzada con 10 subconj.
Como vemos ha escogido la Realizacin 1 como one rule
MODELO CLASIFICACIN
< -0.1235 < 0.522 < 1.046 < 1.2654999999999998 < 1.3900000000000001 < 1.4929999999999999 < 1.609 < 1.6524999999999999 < 1.852 < 1.9725000000000001 < 2.1675 < 2.2794999999999996 < 2.393 < 2.553 < 2.734 < 2.84 < 3.18 < 3.87 < 4.2555 < 4.7445 >= 4.7445 (244/528 instances correct) Feature 1: -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> hid hId hEd had hed hAd had hed hAd had hYd hud hYd hud hOd hYd hOd hod hUd hod hud
Como podemos apreciar, el rbol generado es de profundidad 1

J4.8
Validacin cruzada con 10 subconj.
Como podemos apreciar el error a la hora de la clasificacin es notablemente menor que en OneR
SUMARIO RESULTADOS
Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 418 110 0.7708 0.0424 0.1871 25.6237 % 65.0786 % 528 79.1667 % 20.8333 %
MATRIZ DE CONFUSIN Se ha reducido el error absoluto al aumentar el nmero de instancias clasificadas, dato que se demuestra al ver la matriz de confusin. El nmero de predicciones acertadas ha aumentado ya que no aparecen tantos datos alrededor de la diagonal principal.
a b c d e f g h i j k 46 1 0 0 0 0 0 0 0 1 0 1 45 2 0 0 0 0 0 0 0 0 0 5 39 0 0 3 0 0 0 1 0 0 0 1 42 0 4 0 0 1 0 0 0 0 0 0 40 5 0 0 0 0 3 0 0 0 7 3 33 0 0 0 0 5 0 0 0 0 4 0 32 6 4 0 2 0 0 0 0 0 0 4 43 1 0 0 0 0 1 1 0 1 4 2 32 5 2 0 0 0 2 0 1 0 0 10 33 2 0 0 0 1 2 5 2 0 1 4 33 | | | | | | | | | | | a b c d e f g h i j k = = = = = = = = = = = hid hId hEd hAd hYd had hOd hod hUd hud hed

J4.8
10 PLIEGUES CROSS VALIDATION MODELO CLASIFICACIN La razn por la que este algoritmo supone tan importante mejora radica en el tamao del rbol de decisin generado, mucho mayor en este caso, y por lo tanto el nmero de reglas que emplear el clasificador ser mucho mayor.
RESULTADOS datos numricos

POLLUTION
Este archivo contiene numerosas instancias cuyo formato es el siguiente:
Atributos
PREC JANT
JULT
OVR65
POPN
EDUC
HOUS DENS NONW
PREC Average annual precipitation in inches JANT Average January temperature in degrees F JULT Same for July OVR65 % of 1960 SMSA population aged 65 or older POPN Average household size EDUC Median school years completed by those over 22 HOUS % of housing units which are sound & with all facilities DENS Population per sq. mile in urbanized areas, 1960 NONW % non-white population in urbanized areas, 1960
WWDRK % employed in white collar occupations POOR % of families with income < $3000 HC Relative hydrocarbon pollution potential NOX Same for nitric oxides SO@ Same for sulphur dioxide HUMID Annual average % relative humidity at 1pm MORT Total age-adjusted mortality rate per 100,000
WWDR POOR K
HC
NOX
SO@ HUMID MORT

OBJETIVOS: Inducir a travs del resto de atributos la tasa de mortalidad.
PREC JANT JULT OVR65 POPN EDUC HOUS DENS NONW
WWDRK % employed in white collar occupations POOR % of families with income < $3000 HC Relative hydrocarbon pollution potential NOX Same for nitric oxides SO@ Same for sulphur dioxide HUMID Annual average % relative humidity at 1pm MORT Total age-adjusted mortality rate per 100,000
PREC Average annual precipitation in inches JANT Average January temperature in degrees F JULT Same for July OVR65 % of 1960 SMSA population aged 65 or older POPN Average household size EDUC Median school years completed by those over 22 HOUS % of housing units which are sound & with all facilities DENS Population per sq. mile in urbanized areas, 1960 NONW % non-white population in urbanized areas, 1960
WWDR POOR K
HC
NOX
SO@ HUMID MORT

Decision Stump
Validacin cruzada con 10 subconj. Observar el bajo coeficiente de correlacin. Este clasificador no es muy fiable. Tasas de error muy grandes! SUMARIO RESULTADOS
Correlation coefficient Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 0.3568 49.7471 59.6498 100.1308 % 96.6995 % 60
MODELO DE CLASIFICACIN
NONW <= 7.949999999999999 : 896.44008 NONW > 7.949999999999999 : 971.7286857142849 NONW is missing : 940.3584333333332

M5
Validacin cruzada con 10 subconjuntos
Mayor coeficiente de correlacin!!!!
SUMARIO RESULTADOS
Correlation coefficient Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 0.7641 30.5184 39.9143 61.4274 % 64.7059 % 60
CLASIFICACIN
M5 pruned model tree: (using smoothed predictions) LM1 (60/61.139%) LM num: 1 Number of Rules : 1
Linear Regression Model MORT = 1.8565 * PREC + -2.262 * JANT + -3.32 * JULT + -10.9205 * OVR65 + -137.3831 * POPN + -23.4211 * EDUC + 4.6623 * NONW + -0.9221 * HC + 1.871 * NOX + 1934.0539

Mineria de Datos

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Mineria de Datos

Încărcat de

Drepturi de autor:

Formate disponibile

MINERIA DE DATOS

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

ALGORITMOS datos nominales

ALGORITMOS datos nominales

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

ALGORITMOS datos numricos

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

ALGORITMOS datos numricos

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

ALGORITMOS datos numricos

Model Tree A =0.05

Model Tree B =0.07

Model Tree C =0.93

RESULTADOS datos nominales

hid hEd hYd hOd hUd hed

hId hAd had hod hud

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos nominales

hid hEd hYd hOd hUd hed

hId hAd had hod hud

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos nominales

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos nominales

Como podemos apreciar, el rbol generado es de profundidad 1

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos nominales

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos nominales

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos numricos

HOUS DENS NONW

SO@ HUMID MORT

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos numricos

SO@ HUMID MORT

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos numricos

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

RESULTADOS datos numricos

UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones

S-ar putea să vă placă și