Documente Academic
Documente Profesional
Documente Cultură
WEKA
Por: Francisco Ferrero Mateos MJess Martnez Vega
UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones
MINERIA DE DATOS
MINERA DE DATOS
Conjunto de tcnicas que nos permiten obtener un modelo de conocimiento a partir de un volumen de datos que servir para la toma de decisiones.
WEKA
WEKA (Waikato Environment for Knowledge Analysis) fue desarrollado en la universidad de Waikato en Nueva Zelanda. Se trata de un programa o entorno para el anlisis de conocimientos. Est escrito en java por lo que se convierte en un sistema multiplataforma. Implementa numerosos algoritmos de aprendizaje y mltiples herramientas para transformar las bases de datos y realizar un exhaustivo anlisis.
ALGORITMOS DE APRENDIZAJE
ALGORITMOS DE APRENDIZAJE
De los muchos algoritmos de aprendizaje que WEKA implementa nosotros vamos a trabajar con algoritmos cuya clasificacin de datos est basada en rboles de decisin. En particular:
Anlisis de datos nominales OneR J4.8 Anlisis de datos numricos DECISION STUMP M5
UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones
[1] La tasa de error de una regla es el nmero de instancias de los datos de entrenamiento en los que la clase del valor de un atributo no concuerda con la asociacin que la regla le da al valor de ese atributo.
UNIVERSIDAD CARLOS III Inteligencia en Redes de Comunicaciones
Attribute 5,7,3,0
Target ?
Target: Versicolor
Conocimientos previos
La validacin cruzada (cross vlidation) consiste en el - a empleo de k subconjuntos del conjunto de datos, k/2 se emplean para entrenamiento y k/2 para la validacin del esquema de aprendizaje. Cuando la validacin se realiza con subconjuntos mezclados aleatoriamente se denomina validacin cruzada estratificada. De este modo se consigue una clase determinada aparezca con la misma probabilidad en todos los subconjuntos de validacin. Slo es vlido para conjuntos de datos nominales. Dentro de las distintas medidas que se ofrecen se prestar mayor atencin al coeficiente de correlacin que mide la correlacin estadstica entre los datos predecidos y los datos reales (proceso de validacin del esquema).
Vocabulario
Clase: tienen un sentido similar al de los objetos de Java. Agrupamiento de instancias/objetos con unos atributos/caractersticas similares. Instancia: objeto que pertenece a una clase determinada. Atributo: valor de una determinada caracterstica.
Atributos
Entren Nhab. Sexo /Test
Andrew David Jo Penny Mike Rich Sarah Wendy Bill Mark Kate Rose Nick Tim Sue
Realiz.0 Realiz.1 Realiz.2 Realiz.3 Realiz.4 Realiz.5 Realiz.6 Realiz.7 Realiz.8 Realiz.9
Clase
Realizaciones que cada hablante hace de una misma clase, en este caso de una misma vocal
Clase
Realizaciones que cada hablante hace de una misma clase, en este caso de una misma vocal
SUMARIO RESULTADOS
Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 187 35.4167 % 341 64.5833 % 0.2896 0.1174 0.3427 71.0417 % 119.1987 % 528
MATRIZ DE CONFUSIN La matriz de confusin demuestra lo mostrado por la cross-validation, en lugar de disponer de una matriz diagonal aparecen errores en las predicciones alrededor de la diagonal principal.
a b c d e f g h i j k 27 15 0 0 3 2 0 0 1 0 0 | 8 27 7 3 1 1 0 0 0 0 1 | 2 6 36 0 0 4 0 0 0 0 0 | 0 0 7 13 6 12 0 0 1 3 6 | 0 0 0 3 8 6 17 2 7 2 3 | 0 0 2 12 10 13 3 0 0 3 5 | 0 0 3 2 6 3 17 6 6 4 1 | 0 0 0 2 3 1 3 27 4 5 3 | 0 0 4 7 8 6 8 6 1 7 1 | 0 0 3 3 9 5 6 9 4 9 0 | 0 0 12 10 5 11 0 0 0 1 9 | a b c d e f g h i j k = = = = = = = = = = = hid hId hEd hAd hYd had hOd hod hUd hud hed
MODELO CLASIFICACIN
< -0.1235 < 0.522 < 1.046 < 1.2654999999999998 < 1.3900000000000001 < 1.4929999999999999 < 1.609 < 1.6524999999999999 < 1.852 < 1.9725000000000001 < 2.1675 < 2.2794999999999996 < 2.393 < 2.553 < 2.734 < 2.84 < 3.18 < 3.87 < 4.2555 < 4.7445 >= 4.7445 (244/528 instances correct) Feature 1: -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> -> hid hId hEd had hed hAd had hed hAd had hYd hud hYd hud hOd hYd hOd hod hUd hod hud
SUMARIO RESULTADOS
Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 418 110 0.7708 0.0424 0.1871 25.6237 % 65.0786 % 528 79.1667 % 20.8333 %
MATRIZ DE CONFUSIN Se ha reducido el error absoluto al aumentar el nmero de instancias clasificadas, dato que se demuestra al ver la matriz de confusin. El nmero de predicciones acertadas ha aumentado ya que no aparecen tantos datos alrededor de la diagonal principal.
a b c d e f g h i j k 46 1 0 0 0 0 0 0 0 1 0 1 45 2 0 0 0 0 0 0 0 0 0 5 39 0 0 3 0 0 0 1 0 0 0 1 42 0 4 0 0 1 0 0 0 0 0 0 40 5 0 0 0 0 3 0 0 0 7 3 33 0 0 0 0 5 0 0 0 0 4 0 32 6 4 0 2 0 0 0 0 0 0 4 43 1 0 0 0 0 1 1 0 1 4 2 32 5 2 0 0 0 2 0 1 0 0 10 33 2 0 0 0 1 2 5 2 0 1 4 33 | | | | | | | | | | | a b c d e f g h i j k = = = = = = = = = = = hid hId hEd hAd hYd had hOd hod hUd hud hed
Atributos
PREC JANT
JULT
OVR65
POPN
EDUC
PREC Average annual precipitation in inches JANT Average January temperature in degrees F JULT Same for July OVR65 % of 1960 SMSA population aged 65 or older POPN Average household size EDUC Median school years completed by those over 22 HOUS % of housing units which are sound & with all facilities DENS Population per sq. mile in urbanized areas, 1960 NONW % non-white population in urbanized areas, 1960
WWDRK % employed in white collar occupations POOR % of families with income < $3000 HC Relative hydrocarbon pollution potential NOX Same for nitric oxides SO@ Same for sulphur dioxide HUMID Annual average % relative humidity at 1pm MORT Total age-adjusted mortality rate per 100,000
WWDR POOR K
HC
NOX
PREC Average annual precipitation in inches JANT Average January temperature in degrees F JULT Same for July OVR65 % of 1960 SMSA population aged 65 or older POPN Average household size EDUC Median school years completed by those over 22 HOUS % of housing units which are sound & with all facilities DENS Population per sq. mile in urbanized areas, 1960 NONW % non-white population in urbanized areas, 1960
WWDR POOR K
HC
NOX
MODELO DE CLASIFICACIN
NONW <= 7.949999999999999 : 896.44008 NONW > 7.949999999999999 : 971.7286857142849 NONW is missing : 940.3584333333332
SUMARIO RESULTADOS
Correlation coefficient Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 0.7641 30.5184 39.9143 61.4274 % 64.7059 % 60
CLASIFICACIN
M5 pruned model tree: (using smoothed predictions) LM1 (60/61.139%) LM num: 1 Number of Rules : 1
Linear Regression Model MORT = 1.8565 * PREC + -2.262 * JANT + -3.32 * JULT + -10.9205 * OVR65 + -137.3831 * POPN + -23.4211 * EDUC + 4.6623 * NONW + -0.9221 * HC + 1.871 * NOX + 1934.0539