GarciaPro7 Dotx

Implementacin del algoritmo Id3 y J48 de weka
para procesamiento de datos meteorolgicos de

Toluca
PRESENTA:
Elizabeth Garca Nava.
ASESOR:
ING. RAFAEL CRUZ REYES.
29 MAYO, 2016.
Contenido.
1
1.-Resumen.......................................................................................................... 3
2.-Antecedentes................................................................................................... 3
3.- Planteamiento del Problema............................................................................. 7
4.- Objetivo General.............................................................................................. 7
5.- Hiptesis......................................................................................................... 8
6.- Justificacin.................................................................................................... 8
7.- Objetivos Particulares...................................................................................... 8
8.- Marco Terico................................................................................................ 10
9.- Estado del Arte.............................................................................................. 11
10.- Marco Metodolgico..................................................................................... 13
11.-Anexo 1........................................................................................................ 14
Marco Terico.................................................................................................... 14
12.-Anexo 2........................................................................................................ 19
Estado del Arte................................................................................................... 19
13. Anexo 3........................................................................................................ 26
Marco metodolgico........................................................................................ 26
14.- Cronograma................................................................................................. 33
15.- Referencias Bibliogrficas............................................................................34
1.-Resumen.
A travs del tiempo se ha modificado y ha evolucionado el obtener el
pronstico del clima, anteriormente se predecan por los patrones de las nubes
actualmente siguen siendo fundamentales, pero se han visto beneficiadas ya que
estas actividades se han automatizado gracias a los sistemas de alta tecnologa
en meteorologa.
Es por esto la propuesta de este trabajo de investigacin sobre al
descubrimiento de reglas para generar pronostico mediante la Implementacin del
algoritmo Id3 y J48 de weka para procesamiento de datos meteorolgicos de
Toluca.
2.-Antecedentes.
A travs del tiempo se ha modificado y ha evolucionado el obtener el
pronstico del clima, anteriormente se predecan por los patrones de las nubes
actualmente siguen siendo fundamentales, pero se han visto beneficiadas ya que
estas actividades se han automatizado gracias a los sistemas de alta tecnologa
en meteorologa. Todo se debe a que la informacin y el constante cambio de
climas debido a diferentes aspectos que influyen en esta no se tienen un
pronstico exacto [Pacheco, 2005].
Los mtodos mencionados se han vuelto obsoletos por el crecimiento en
volumen y la variedad de informacin que existe, por lo cual han surgido nuevas
herramientas y tcnicas que ayudan a la extraccin de conocimiento til, una de
ellas es la minera de datos [Lpez, 2006].
Se denomina Minera de Datos a la aplicacin de tcnicas de aprendizaje
automtico, que exploran grandes cantidades de datos para descubrir patrones
importantes previamente desconocidos [Britos, 2005; Prez, 2006; Tan, 2006],
tiles y comprensibles para las personas que desean utilizar los datos para la
toma de decisiones [Hand, 2001; Prez, 2006].
La minera de datos puede analizar cualquier tipo de informacin, siendo las
tcnicas de minera diferentes para cada una de ellas [Hernndez, 2004], pero en
concreto se puede ver que las herramientas de minera para el descubrimiento de
conocimiento se aplican en bases de datos relacionales, espaciales, temporales,
textuales y multimedia; adems de datos no estructurados provenientes de la web
[ Cios, 2007].
Este proceso consiste en una serie de pasos de transformacin, que

adems se encarga de la preparacin de los datos y de la interpretacin de los
resultados obtenidos [Han, 2006; Molina, 2006]. Los pasos segn [Hernndez,
2004] son:
Integracin y recopilacin de datos
Seleccin, limpieza y transformacin
Minera de datos
Evaluacin e interpretacin
Difusin y uso.
Para poder implementar la tcnica seleccionada, se debe proceder a elegir algn

software que facilite el trabajo de aprendizaje automtico. Hoy en da contamos
con software especializado en minera de datos, WEKA (acrnimo de Waikato
Environment for Knowledge Analysis) es uno de ellos, es un entorno para
experimentacin de anlisis de datos que permite aplicar, analizar y evaluar las
tcnicas ms relevantes de anlisis de datos, principalmente las provenientes del
aprendizaje automtico, sobre cualquier conjunto de datos del usuario. Para ello
nicamente se requiere que los datos a analizar se almacenen con un cierto
formato, conocido como ARFF (Attribute-Relation File Format).Weka contiene un
conjunto de algoritmos de aprendizaje automtico .Los algoritmos o bien se
pueden aplicar directamente a un conjunto de datos o llamadas de su propio
cdigo Java. Este software se usara para implementar las tcnicas de la minera
de datos provienen de la Inteligencia artificial y de la estadstica, dichas tcnicas,
no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un
conjunto de datos para obtener resultados [Corso, 2006].
Para poder realizar en anlisis de datos del clima en Toluca utilizare el
modelo de rboles de decisin mediante el mbito de la inteligencia artificial, dada
una base de datos se construyen estos diagramas de construcciones lgicas, muy
similares a los sistemas de prediccin basados en reglas, que sirven para
representar y categorizar una serie de condiciones que suceden de forma
sucesiva, para la resolucin de un problema. Podr trabajar con rboles de
decisin mediante weka en este software se encuentra la tcnica predictiva en
donde podemos trabajar con los algoritmos Id3 y J48 [Orallo 2006; Ramrez 2006]
que de acuerdo a los arboles generados poder obtener reglas sintcticas.
ID3 y J48 son algoritmos de clasificacin, que podemos ejecutar con la

herramienta Experimenter: esta opcin permite definir experimentos ms
complejos, con objeto de ejecutar uno o varios algoritmos sobre uno o varios
conjuntos de datos de entrada, y comparar estadsticamente los resultados
[Witten, 2000].
El Reconocimiento de Patrones es el estudio de cmo las mquinas pueden
observar el ambiente o entorno, aprender a distinguir patrones de inters a partir
de la experiencia, y tomar decisiones razonables con respecto a las categoras a
las que pertenecen dichos patrones. El mejor reconocedor de patrones conocido
hasta ahora es el ser humano, no sabindose a ciencia cierta cul es el proceso
mediante el cual los humanos realizamos esta tarea [Ceijas, 2011].
Dentro del mundo de reconocimiento de patrones existen dos grandes
grupos de familias que enfocan de una manera diferente el problema de la
clasificacin. Por un lado est la clasificacin no supervisada, trata a la
clasificacin como el descubrimiento de las clases de un determinado problema.
Es decir que contamos con un conjunto de elementos descriptos por un
conjunto de caractersticas, sin conocer a que clase pertenece cada uno de ellos.
En cambio en la clasificacin supervisada enfoca el problema de clasificacin de
otra manera, es decir parte de un conjunto de elementos descripto por un conjunto
de caractersticas y conocemos la clase al cual pertenece. A este concepto se lo
suele denominar conjunto de datos de entrenamiento o conjunto de aprendizaje
[Wirth, 2006].
La clasificacin supervisada ha sido aplicada en numerosos mbitos como
el diagnstico de enfermedades, la concesin o rechazo de crditos bancarios,
deteccin de anormalidades en cromosomas etc. [Shearer, 2006].
Reconocimiento Estadstico de Patrones.- Este enfoque se basa en la teora
de probabilidad y estadstica y supone que se tiene un conjunto de medidas
numricas con distribuciones de probabilidad conocidas y a partir de ellas se hace
el reconocimiento [Khabaza, 2008].
Por otra parte se presenta el software con el cual estar trabajando mediante
esta metodologa weka es una herramienta de minera de datos WEKA. WEKA,
acrnimo de Waikato Environment for Knowledge Analysis, es un entorno para
aprendizaje automtico, sobre cualquier conjunto de datos del usuario.
Para ello nicamente se requiere que los datos a analizar se almacenen con un
cierto formato, conocido como ARFF (Attribute-Relation File Format). WEKA se
distribuye como software de libre distribucin desarrollado en Java. Est
constituido por una serie de paquetes de cdigo abierto con diferentes tcnicas de
preprocesado, clasificacin, agrupamiento, asociacin, y visualizacin, as como
facilidades para su aplicacin y anlisis de prestaciones cuando son aplicadas a
los datos de entrada seleccionados [Lpez, 2006].
Estos paquetes pueden ser integrados en cualquier proyecto de anlisis de datos,
e incluso pueden extenderse con contribuciones de los usuarios que desarrollen
nuevos algoritmos.
Con objeto de facilitar su uso por un mayor nmero de usuarios, WEKA
adems incluye una interfaz grfica de usuario para acceder y configurar las
diferentes herramientas integradas.
Para seleccionar algunas de las tcnicas disponibles para aplicarlas a
ejemplos concretos, siguiendo el acceso desde la herramienta al resto de tcnicas
implementadas, una mecnica totalmente anloga a la presentada a modo
ilustrativo.
Para reforzar el carcter prctico de este captulo, adems se adoptar un formato
de tipo tutorial, con un conjunto de datos disponibles sobre el que se irn
aplicando las diferentes facilidades de WEKA. Se sugiere que el lector aplique los
pasos indicados y realice los anlisis sugeridos para cada tcnica con objeto de
familiarizarse y mejorar su comprensin. Los ejemplos seleccionados son
contienen datos provenientes del campo de la enseanza, correspondientes a
alumnos que realizaron las pruebas de selectividad en los aos 1993-2003
procedentes de diferentes centros de enseanza secundaria de la comunidad de
Madrid. Por tanto, esta gua ilustra la aplicacin y anlisis de tcnicas de
extraccin de conocimiento sobre datos del campo de la enseanza, aunque sera
directa su traslacin a cualquier otra disciplina [Steinach, 2006]
La minera de datos consiste en la extraccin no trivial de informacin que reside
de manera implcita en los datos. Dicha informacin era previamente desconocida
y podr resultar til para algn proceso. En resumen, la minera de datos prepara,
sondea y explora los datos para sacar la informacin oculta en ellos.Minera de
datos abarca todo un conjunto de tcnicas enfocadas en la extraccin de
conocimiento implcito en las bases de datos. Las bases de la minera de datos se
encuentran en la inteligencia artificial y en el anlisis estadstico. Mediante los
modelos extrados utilizando tcnicas de minera de datos se aborda la solucin a
problemas de prediccin, clasificacin y segmentacin [Zamorano, 2006].
Un proceso tpico de minera de datos consta de los siguientes pasos generales:

Seleccin del conjunto de datos: tanto en lo que se refiere a las variables
dependientes, como a las variables objetivo, como posiblemente al muestreo de
los registros disponibles. Anlisis de las propiedades de los datos: en especial los
histogramas, diagramas de dispersin, presencia de valores atpicos y ausencia
de datos (valores nulos). Transformacin del conjunto de datos de entrada: en
esta etapa se realizar un conjunto de operaciones con la finalidad de preparar los
datos de anlisis, con el objetivo de adaptarlos para aplicar la tcnica de minera
de datos que mejor se adapte al problema. Seleccionar y aplicar la tcnica de
minera de datos: La eleccin de la tcnica depender de la naturaleza del
problema a resolver. Para poder implementar la tcnica seleccionada, se debe
proceder a elegir algn software que facilite el trabajo de aprendizaje automtico
[Sierra, 2006].
Si el modelo obtenido no superara esta evaluacin el proceso se podra
repetir desde el principio o, si se considera oportuno, a partir de cualquiera de los
pasos anteriores. Como ya se ha comentado, las tcnicas de la minera de datos
provienen de la Inteligencia artificial y de la estadstica, dichas tcnicas, no son
ms que algoritmos, ms o menos sofisticados que se aplican. Sobr un conjunto
de datos para obtener resultados. En la fase de minera de datos, se decide cul
es la tarea a realizar (clasificar, agrupar etc.) y se elige la tcnica descriptiva o
predictiva que se va a utilizar [Prez, 2007].
3.- Planteamiento del Problema.

El clima siempre est en constante cambio he aqu una de las
caractersticas principales de este, hay diferentes maneras de describir el cambio
climatolgico , se pretende pronosticar el clima a travs de tcnicas de minera de
datos el uso de herramientas tales como reconocimiento de patrones, aprendizaje
automtico y algoritmos de weka esto se demuestra cuando se realiza una anlisis
del constante cabio del clima con la cantidad de datos que se han registrado a lo
largo de muchos aos , ayudar de manera ms precisa a generar un pronstico
por medio de una herramienta computacional [Clinton,2006].
Despus de lo anterior se puede, formular lo siguiente, Descubrir las reglas
aplicando los algoritmos ID3 y J48 para los datos meteorolgicos de Toluca.
4.- Objetivo General.

Descubrir cul es el algoritmo ms eficiente para generar las reglas
sintcticas con ayuda de tcnicas de minera de datos para los datos
meteorolgicos de Toluca aplicando los algoritmos ID3 y J48.
5.- Hiptesis.
Si aplico los algoritmos ID3 y J48 a un conjunto de datos meteorolgicos
histricos ser posible conocer los patrones del pronstico del clima de la ciudad
de Toluca ms cercanos a los datos relacionados con los que se tienen
histricamente.
6.- Justificacin.
Analizar los resultados de las pruebas que se realicen con cada algoritmo y
evaluar los resultados de cada algoritmo. Para que de esta manera se puedan
identificar las reglas de cada algoritmo con los datos del clima de Toluca en un
determinado tiempo.
7.- Objetivos Particulares.
1) Comprensin del negocio.
Se ha realizado una Investigacin y anlisis de la informacin

correspondiente para comprender los cambios climatolgicos en la
ciudad de Toluca con el algoritmo J48.
2) Integracin y recopilacin de datos
Recolectar los datos que sern puestos a estudio, para poder

verificar sus propiedades de esta forma se podr comprender como
son estos datos que se utilizaran para el algoritmo J48.
3) Seleccin, limpieza y transformacin
Seleccionar los datos meteorolgicos de Toluca correspondientes

para el algoritmo J48.
Ajustar los datos meteorolgicos de Toluca para que puedan se

aceptados por el algoritmo J48.
Aplicar los cambios correspondientes a los datos meteorolgicos de

Toluca para transformar el documento original a .arrf.
4) Modelado.
Implementacin del modelo para el algoritmo J48 y construccin del mismo.
5) Comprensin del negocio.
Se ha realizado una Investigacin y anlisis de la informacin

correspondiente para comprender los cambios climatolgicos en la
ciudad de Toluca con el algoritmo Id3.
6) Integracin y recopilacin de datos
Recolectar los datos que sern puestos a estudio, para poder

verificar sus propiedades de esta forma se podr comprender como
son estos datos que se utilizaran para el algoritmo Id3.
7) Seleccin, limpieza y transformacin
Seleccionar los datos meteorolgicos de Toluca correspondientes

para el algoritmo Id3.
Ajustar los datos meteorolgicos de Toluca para que puedan ser

aceptados por el algoritmo Id3.
Aplicar los cambios correspondientes a los datos meteorolgicos de

Toluca para transformar el documento original a .arrf.
8) Modelado.
Implementacin del modelo para el algoritmo Id3 y construccin del mismo.
9) Evaluacin e interpretacin.
Aplicar las tcnicas de evaluacin para el algoritmo J48.
Aplicar las tcnicas de evaluacin para el algoritmo ID3..
10) Despliegue de los Resultados.
Se obtienen los resultados y se compara cul de los

modelosproporciona un mejor resultado, en relacin a lo que est
esperando.
8.- Marco Terico.

Minera de Datos
El
proceso
Conocimiento
de
[Zaki,
2014],
[Cao,
2009],
[Hammergren, 2009], [ Ballard, 1998],
[Dean, 2014], [ Witten, 2011], [Aldana,
2009], [Cios, 2007], [Pyle, 1999],
[Maimon, 2010] [ North, 2012], [Han,
2006], [Lane, 2007], [Ullman, 2010],
[Molina, 2006].
Extraccin
del [Hernndez, 2004], [Witten, 2011; ],

[Aldana, 2009], [ Cios, 2007], [Maimon,
2010], [North, 2012; Han, 2006],
[Molina, 2006].
Preparacin de Datos
[Hernndez, 2004], [ Zaki, 2014],

[Ballard, 1998], [Witten, 2011], [Cios,
2007; Pyle, 1999], [Maimon, 2010],
[North, 2012], [Han, 2006], [ Ullman,
2010], [Molina, 2006].
Tcnicas de Minera de datos
[Hernndez, 2004], [Zaki, 2014], [Cao,

2009], [Cichosz, 2015], [Witten, 2011],
[Aldana, 2009], [Cios, 2007], [Maimon,
2010], [ North, 2012], [Han, 2006],
[Ullman,
2010],
[Mitchell,
1997],
[Murphy, 2012], [Chakrabarti, 2003],
[Molina, 2006].
Tcnicas de Evaluacin
[Hernndez, 2004], [Witten, 2011],

[Cios, 2007], [Maimon, 2010], [North,
2012], [Han, 2006], [Ullman, 2010],
[Molina, 2006].
Minera de Datos
[Zaki,
2014],
[Cao,
2009],
[Hammergren, 2009], [Ballard, 1998],
[Dean, 2014], [ Witten, 2011], [Aldana,
2009], [Cios, 2007], [Pyle, 1999],
[Maimon, 2010], [North, 2012], [Han,
2006], [Lane, 2007], [Ullman, 2010],
[Molina, 2006].
El
proceso
Conocimiento
de
Extraccin
del [Hernndez, 2004], [Witten, 2011],

2010], [North, 2012], [Han, 2006],
[Molina, 2006].
Tcnicas de Minera de datos
[Hernndez, 2004], [Zaki, 2014], [Cao,

2009], [ Cichosz, 2015], [Witten, 2011],
2010], [North, 2012], [Han, 2006],
[Ullman,
2010],
[Mitchell,
1997],
[Murphy, 2012], [Chakrabarti, 2003],
[Molina, 2006].
Preparacin de Datos
[Hernndez, 2004], [Zaki, 2014],

[Ballard, 1998], [Witten, 2011], [Cios,
2007], [Pyle, 1999], [Maimon, 2010],
[North, 2012], [Han, 2006], [Ullman,
2010], [Molina, 2006].
Tcnicas de Evaluacin
[Hernndez, 2004], [Witten, 2011],

[Cios, 2007], [Maimon, 2010], [North,
2012], [Han, 2006], [Ullman, 2010],
[Molina, 2006].
9.- Estado del Arte

El futuro de la inteligencia artificial y la ciberntica
[Warwick,2000]
Agentes Inteligentes: el siguiente paso en la [Julin,200],[Botti,2000]

Inteligencia Artificial
(IA: Inteligencia Artificial)
[Thomas, 2001].
Pronstico de las tasas de cambio. una aplicacin [Duque, 2006],[Villada, 2006].

al yen japons mediante redes neuronales
artificiales
LaTeora de los Conjuntos Aproximados y las [Crdenas,2007],
Tcnicas de Boostrap para la Edicin deConjuntos [Yail,2007],[Bello, ,2007],
de Entrenamiento. SuAplicacin en el Pronstico
Meteorolgico
Aplicacin de tcnicas de minera de datos en la [Zunino,2005]
construccin y validacin de modelos predictivos y
asociativos a partir de especificaciones de
requisitos de software
Tcnicas de la inteligencia artificial en minera de [Fernando Virseda, 2002].
datos
La minera de datos: anlisis de bases de datos en [CARIDAD Jos MI,2002]

la empresa
Minera de Datos: Conceptos y Tendencias
[Riquelme Jos C.,2006].
ADVANCED STRING PATTERNSAn Empirical [Ouzhan,2007],

Anlisis of Pattern Scan Order
in Pattern [ Klekci,2007]
Matching
Forecast model bias correction in ocean data [Gennady,2004],[ Chepurin, ,
assimilation
2004],[ James ,2004],
[ Carton,2004],[Dick
Dee,2004],[
Meteorological
workshop.
data
processingand
A Faster Quick Search Algorithm
analysis [Waterloo,
[Maarten,2010].
[Jiel, 2014],
[Jiang, 2014].
2010],
[Yue,
10.- Marco Metodolgico.

Crisp-DM
[Chapman, 1999] [Cios, 2007]
Comprensin del negocio
[Chapman, 1999] [ Cios, 2007]
Comprensin de los datos
[Chapman, 1999] [Cios, 2007]
Preparacin de los datos
[Chapman, 1999] [Cios, 2007]
Modelado Evaluacin
[Chapman, 1999] [Cios, 2007]
Despliegue de los Resultados
[Chapman, 1999] [ Cios, 2007]
WEKA - Aprendizaje automtico para [Chapman, 1999] [ Cios, 2007]

minera de datos
2014],
Introduccin a Weka
[Maimon, 2010].
El explorador
[Witten, 2011].
La interfaz de flujo del conocimiento
[Witten, 2011].
El experimentador
[Witten, 2011].
Tutorial de ejercicios para el explorador [Witten, 2011].

de Weka
Tcnicas de anlisis de datos en Weka
[Molina, 2006].
Implementacin de las tcnicas de [Molina, 2006]

anlisis de datos en Weka
11.-Anexo 1
Marco Terico
Para la toma de decisiones en IA lo hace por medio de la lgica difusa la
cual sienta las bases de una nueva forma de lgica. El ser humano muestra
dicultad para tomar decisiones cuando se tiene informacin imprecisa. La lgica
difusa fue creada para emular la lgica humana y tomar decisiones acertadas a
pesar de la informacin [Ponce, 2010].
La teora de la decisin, que combina la teora de la probabilidad con la
teora de la utilidad, proporciona un marco completo y formal para la toma de
decisiones (eco- nmicas o de otra ndole) realizadas bajo incertidumbre, esto es,
en casos en los que las descripciones probabilsticas capturan adecuadamente la
forma con la que se toman las decisiones en el entorno; lo cual es adecuado para
grandes economas en las que cada agente no necesita prestar atencin a las
acciones que lleven a cabo el resto de los agentes individualmente. Cuando se
trata de pequeos economas, la situacin se asemeja ms a la de un juego: las
acciones de un jugador pueden afectar significativamente a la utilidad de otro
(tanto positiva como negativamente) [Russell, 2004].
Nosotros nos centramos en problemas de toma de decisiones en

condiciones de incertidumbre .el marco que adoptamos para la modelacin y
resolucin de estos problemas es el anlisis de decisiones con base en sistemas
expertos [Gmez, 1998].
La mayor parte de los trabajos sobre inteligencia artificial tratan de las
decisiones automatizables .Nuestro objetivo ha sido incluir unas decisiones que a
priori parecan estar excluidas de este proceso o aquellas partes del procesos que
se pueden automatizar para entender como la informacin puede plantear
problemas tcnicos [Bourcier, 2003].
Las ciencias computacionales son todas aquellas ramas que se relacionan
con la computacin [Sedgewick,2003 ] nos dice es un tema muy extenso sobre
computadoras y est organizado por cuatro reas arquitectura, programacin,
teora de sistemas y tratamiento de la informacin mientras que otros autores
[turbide,2011] nos dicen que solo es tecnologa para el tratamiento de informacin
y no nos menciona la interaccin de componentes ms especficos a diferencia de
[Evans, 2011] que son ms especficos y se involucran ms sobre el tema tcnico
Estas funciones son realizadas desde perspectivas tericas y prcticas; en la parte
terica por medio del diseo, eficiencia y aplicacin de algoritmos (secuencia de
acciones para resolver un problema o ejecutar una tarea) y en la parte prctica,
involucra la implementacin de dichos algoritmos en hardware y software de
computadoras [Forouzan 2003]. Las CC son un rea muy extensa donde Los
mtodos formales se describen mejor como la aplicacin de una amplia variedad
de fundamentos tericos de las ciencias de la computacin, en particular la lgica
computacional, lenguajes formales, teora de autmatas y Semntica de lenguajes
de programacin pero tambin reas como sistemas de tipos y tipos de datos
algebraicos a problemas en la especificacin y verificacin de software y hardware
[Sabherwal, 2010].
Las disciplinas sobresalientes en esta ciencia son el aprendizaje
automtico, visin artificial, procesamiento de imgenes, computacin evolutiva
mediante mtodos y aplicacin de algoritmos [Cano, 2007].Dentro de las ramas de
las CC se encuentra una gran variedad de disciplinas entre las que se encuentran
la inteligencia, robtica [Conesa, 2010].Las CC pueden desarrollar varias reas
mediante Algoritmos y Estructuras de Datos: Esta rama estudia algoritmos
especficos y las estructuras de datos asociadas para solucionar problemas
especficos. La parte de esto implica anlisis matemtico para analizar la eficacia
del algoritmo en el uso de tiempo y memoria. Teora de la Computacin: En esta
rama se categorizan los problemas segn la naturaleza de los algoritmos para
resolverlos, algunos problemas tienen algoritmos rpidos, alguno solamente tienen
algoritmos muy lentos (tales problemas se consideran a veces difcilmente
insuperables), algunos no tienen ningn algoritmo. [Mndez, 2000]. Minera de
datos es el conjunto de tcnicas y tecnologas que permiten explorar grandes
bases de datos, de manera automtica o semiautomtica, con el objetivo de
encontrar patrones repetitivos, tendencias o reglas que expliquen el
comportamiento de los datos en un determinado contexto[Casas ,2013].
La minera de datos es el proceso de detectar la informacin accinales de

grandes conjuntos de datos.
Utiliza el anlisis matemtico para deducir los patrones y tendencias que
existen en los datos. Normalmente, estos patrones no se pueden detectar
mediante la exploracin tradicional de los datos porque las relaciones son
demasiado complejas o porque hay demasiado datos [IBM, 2014].Es un campo de
las ciencias de la computacin referido al proceso que intenta descubrir patrones
en grandes volmenes de conjuntos de datos [Maimn, 2010 ].Extraccin de
conocimientos lineales, de patrones no implcitos previamente desconocidos y
[potencialmente tiles que trabaja en arqueologa de datos e inteligencia de
negocios [Han, 2012]. Es la rama de la ciencia que se encarga del estudio de la
inteligencia en elementos artificiales y, desde el punto de vista de la ingeniera,
propone la creacin de elementos que posean un comportamiento inteligente
[Romero, 2007].La inteligencia artificial (IA) es una disciplina acadmica
relacionada con la teora de la computacin cuyo objetivo es emular algunas de
las facultades intelectuales humanas en sistemas artificiales. Con inteligencia
humana nos referimos tpicamente a procesos de percepcin sensorial (visin,
audicin, etc.) y a sus consiguientes procesos de reconocimiento de patrones, por
lo que las aplicaciones ms habituales de la IA son el tratamiento de datos y la
identificacin de sistemas [Bentez, 2006].En este sentido, se podra considerar a
la IA como un dialecto simblico constituido por cadenas de caracteres que
representan conceptos del mundo real. De hecho, los procesos simblicos son
una caracterstica esencial de la IA. A partir de lo expuesto es posible formular una
definicin ms aproximada de nuestro objeto de estudio: la IA es una rama de las
ciencias computacionales que se ocupa de los smbolos y mtodos no
algortmicos para la resolucin de problemas [Ponce, 2010].Es un campo de la
ciencia y la ingeniera que se ocupa de la comprensin desde el punto de vista
informtico, de lo que denomina comnmente comportamiento inteligente.
Tambin se ocupa de la creacin de artefactos que exhiben este comportamiento
[Pino, 2008]. Se considera que el origen de la IA se remonta a los intentos del
hombre desde la antigedad por incrementar sus potencialidades fsicas e
intelectuales, creando artefactos con automatismos y simulando la forma y las
habilidades de los seres humanos. La primera referencia escrita a un sistema
artificial inteligente ocurre en la mitologa griega [Romero, 2007].Se podra
considerar que unos de los primeros pasos hacia la IA fueron dados hace mucho
tiempo por Aristteles (384-322 a.C.), cuando se dispuso a explicar y codificar
ciertos estilos de razonamiento deductivo que l llam silogismos. Otro intento
sera el de Ramn Llull (d.C. 1235-1316), mstico y poeta cataln, quien construy
un conjunto de ruedas llamado Ars Magna, el cual se supona iba a ser una
mquina capaz de responder todas las preguntas [Ponce, 2010].El nacimiento de
la IA como disciplina de investigacin se remonta a 1956, durante una conferencia
sobre informtica terica que tuvo lugar en el Dart-mouth College (Estados
Unidos). A esa conferencia asistieron algunos de los cientficos que posteriormente
se encargaron de desarrollar la disciplina en diferentes mbitos y de dotarla de
una estructura terica y computacin apropiada.
Entre los asistentes estaban John McCarthy, Marvin Minsky, Allen Newell y
Herbert Simn [Bentez,].El nacimiento de la IAes unido al del ordenador.
En efecto el matemtico Alan Turn propuso un test que pudiera decidir si
una maquina era inteligente o no [Bourcier, 2003]. Como todo sistema de
informacin, los agentes inteligentes nos proveen de informacin para ayudarnos
a tomar las decisiones ms acertadas.
En este caso, el agente inteligente goza de cierta autonoma y realiza
acciones en nuestro nombre. Un agente robotizado, digamos, podra enviar
correos electrnicos, felicitar un cumpleaos o buscar artculos ms baratos en
Internet. Un agente inteligente puede leer tambin titulares de un peridico o de
una revista, con determinados parmetros de busca, y presentrnoslos. Como
decamos, otro tipo de agente inteligente conocido como Shop bots puede buscar
en Internet el artculo que nos ofrezca ms ventajas [Cancelo, 2003].
Un agente es algo capaz de percibir y actuar. De acuerdo con este enfoque,
se considera la IA como el estudio y construccin de agentes racionales. En el
caso del enfoque de la IA segn las leyes del pensamiento, todo el nfasis se
pona en hacer inferencias correctas. La obtencin de estas inferencias a veces
forma parte de lo que se considera un agente racional, puesto que una manera de
actuar racionalmente es el razonamiento lgico que asegure la obtencin de un
resultado determinado, con lo que se actuar de conformidad con tal razonamiento
[Ponce, 2010].Existe una poblacin de agentes simples que producen en su
conjunto un comportamiento global ms complejo. Simulan el comportamiento de
las hormigas, las cuales se unen para conseguir objetivos que no podran lograr
de forma individual. Las hormigas dejan un rastro de feromonas por donde
pasan. Esto les permite por ejemplo encontrar el camino ms corto hasta una
fuente de comida. Cuando una hormiga encuentra una fuente de comida, coge la
que puede, la lleva al hormiguero y vuelve a por ms. La hormiga que encuentra el
camino ms corto puede hacer ms viajes, lo cual incrementa el nivel de
feromona de ese camino en particular [Romero, 2006].Un agente inteligente es un
programa especialmente concebido para realizar ciertas tareas de manera
autnoma en una red por encargo de un usuario. Esta herramienta permite ganar
tiempo en la vigilancia y la colecta de informacin de inters para la empresa. El
usuario define los parmetros de la tarea que realizar de manera autnoma el
agente, luego el agente informa de los resultados al usuario [Rusell, 2004]. El
campo de la IA se compone de varias reas de estudio, las ms comunes e
importantes son: bsqueda de soluciones, sistemas expertos, procesamiento del
lenguaje natural, reconocimiento de modelos, robtica, aprendizaje de las
mquinas ,lgica ,incertidumbre y lgica difusa [Ponce,2010].Aqu se presentan
unas cuantas aplicaciones; Planificacin autnoma, juegos, control, diagnosis,
robtica, procesamiento de lenguaje y resolucin de problemas [Vindel, 2003].Las
aplicaciones ms frecuentes de la inteligencia artificial incluyen campos como la
robtica ,el anlisis de imgenes o el tratamiento automtico de textos, sistemas
expertos , anlisis de texto y estos pueden aplicarse en la medicina , economa
,ingeniera ,biologa ,etc. [Bentez,2006].
Dentro de las aplicaciones ms importantes en la historia de la inteligencia

se encuentra la lgica formal, psicologa cognitiva, desarrollo de ordenadores,
compartimiento administrativo ciberntica y sistemas expertos [Hand, 2001].
La bsqueda en la IA se puede realizar t local en espacios continuos
agentes de bsqueda online y ambientes conocidos, Problemas de bsqueda en
lnea bsqueda local en lnea .Aprendizaje en la bsqueda en lnea y mediante
Bsqueda entre adversarios [Russell, 2004].La decisin de que algoritmo elegir
para la bsqueda de soluciones mediante los siguientes tipos: bsqueda a ciegas,
bsqueda sistemtica, bsqueda heurstica, rboles de decisin de juego y la
planificacin [lvarez, 1998].La bsqueda heurstica es uno de los temas
principales de este libro ya que existen varios algoritmos como algoritmos sobre
grafos, admisibilidad, variantes de A*; juegos bsqueda mxima y grafos de
restricciones [Escolano, 2003].La decisin de que algoritmo elegir para la
bsqueda de soluciones mediante los siguientes tipos: bsqueda a ciegas,
bsqueda sistemtica, bsqueda heurstica, arboles de decisin de juego y la
planificacin [Bourcier, 2003].
Para la toma de decisiones en IA lo hace por medio de la lgica difusa la
cual sienta las bases de una nueva forma de lgica. El ser humano muestra
dificultad para tomar decisiones cuando se tiene informacin imprecisa. La lgica
difusa fue creada para emular la lgica humana y tomar decisiones acertadas a
pesar de la informacin [Ponce, 2010].
La teora de la decisin, que combina la teora de la probabilidad con la
teora de la utilidad, proporciona un marco completo y formal para la toma de
decisiones (eco- nmicas o de otra ndole) realizadas bajo incertidumbre, esto es,
en casos en los que las descripciones probabilsticas capturan adecuadamente la
forma con la que se toman las decisiones en el entorno; lo cual es adecuado para
grandes economas en las que cada agente no necesita prestar atencin a las
acciones que lleven a cabo el resto de los agentes individualmente. Cuando se
trata de pequeos economas, la situacin se asemeja ms a la de un juego: las
acciones de un jugador pueden afectar significativamente a la utilidad de otro
(tanto positiva como negativamente) [Russell ,2004].Nosotros nos centramos en
problemas de toma de decisiones en condiciones de incertidumbre .el marco que
adoptamos para la modelacin y resolucin de estos problemas es el anlisis de
decisiones con base en sistemas expertos [Gmez ,1998].La mayor parte de los
trabajos sobre inteligencia artificial tratan de las decisiones automatizables .
Nuestro objetivo ha sido incluir unas decisiones que a priori parecan estar
excluidas de este proceso o aquellas partes del procesos que se pueden
automatizar para entender como la informacin puede plantear problemas tcnicos
[Bourcier ,2003].
En efecto, es cierto que tener ms datos, especialmente los datos
histricos, a menudo le ayudar a las predicciones del modelo sean ms precisos.
El uso de otras fuentes de datos, como las redes sociales, ayudar a las
organizaciones a tomar mejores predicciones acerca de las opciones y
preferencias de los clientes, porque todos estn influenciados en cierta medida por
los que estn en nuestra red social, ya sea fsico o el virtual. Considere una
situacin en la que tengo una experiencia de usuario pobre con mi proveedor de
cable; tan pobre que puedo cancelar todos mis servicios y buscar otro proveedor
[Dean, 2006].
Para pre-procesamiento de datos que tenga xito, es esencial disponer de
una
visin
global
de
los
datos.
Descriptivedatasummarizationtechniquescanbeusedtoidentifythetypicalpropertiesof
yourdataandhighlightwhichdatavaluesshouldbetreatedasnoiseoroutliers. Por lo
tanto, primero introducimos los conceptos bsicos de resumen de datos
descriptivos en el funcionamiento concreto de las tcnicas de pre-procesamiento
de datos. Para muchas tareas de pre-procesamiento de datos, los usuarios les
gustaran aprender sobre caractersticas de los datos con respecto tanto la
tendencia central y la dispersin de los datos. Medidas de tendencia central
incluyen media, la mediana, la moda y de gama media, mientras que las medidas
de dispersin de los datos incluyen los cuartiles, rango (IQR), y la varianza. Estas
estadsticas descriptivas son de gran ayuda en la comprensin de la distribucin
de los datos. Estas medidas se han estudiado ampliamente en la literatura
estadstica. Desde el punto de vista de la minera de datos, es necesario examinar
cmo se pueden calcular en grandes bases de datos. En particular, es necesario
introducir las nociones de medida distributiva, medida algebraica, y la medida
holstica. Saber qu tipo de medida que nos ocupa puede ayudarnos a elegir una
implementacin e fi cliente para ellos [Hand, 2001].
Es probable que su tarea de anlisis de datos implicar la integracin de
datos, que combina datos de mltiples fuentes en un almacn de datos coherente,
como en el almacenamiento de datos. Estas fuentes pueden incluir mltiples
bases de datos, cubos de datos, o FL en los archivos. Hay una serie de cuestiones
a considerar durante la integracin de datos. La integracin de esquemas y la
coincidencia de objeto puede ser complicado [Tuya, 2007].Desde el punto de vista
de la minera de datos, es necesario examinar cmo se pueden calcular eficiente
en grandes bases de datos. En particular, es necesario introducir las nociones de
medida distributiva, medida algebraica, y la medida holstica. Saber qu tipo de
medida que nos ocupa puede ayudarnos a elegir una implementacin e fi cliente
para ellos [Maimon, 2010].
12.-Anexo 2
Estado del Arte
Minera de datos es el conjunto de tcnicas y tecnologas que permiten
explorar grandes bases de datos, de manera automtica o semiautomtica, con el
objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el
comportamiento de los datos en un determinado contexto[Casas ,2013].
La minera de datos es el proceso de detectar la informacin accinales de
grandes conjuntos de datos. Utiliza el anlisis matemtico para deducir los
patrones y tendencias que existen en los datos. Normalmente, estos patrones no
se pueden detectar mediante la exploracin tradicional de los datos porque las
relaciones son demasiado complejas o porque hay demasiado datos [Vindel,
2014].
Es un campo de las ciencias de la computacin referido al proceso que
intenta descubrir patrones en grandes volmenes de conjuntos de datos [Maimn,
2010].Extraccin de conocimientos lineales, de patrones no implcitos previamente
desconocidos y [potencialmente tiles que trabaja en arqueologa de datos e
inteligencia de negocios [Hand, 2012].Tiene por objeto organizar todos los
mtodos desarrollados significativo en el campo en un catlogo coherente y
unificado; presenta enfoques y tcnicas de evaluacin de desempeo; y explica
con casos y herramientas de software, el uso de los diferentes mtodos. Los
objetivos de este captulo introductorio son para explicar el proceso KDD, y
posicionarse dentro de la DM [Hand, 2001].La minera de datos ha atrado una
gran cantidad de atencin en la industria de la informacin y en la sociedad en su
conjunto en los ltimos aos, debido a la amplia disponibilidad de grandes
cantidades de datos y la necesidad inminente para convertir esos datos en
informacin y conocimiento til [Maimn, 2010].La razn principal por la que
estamos viendo cambios dramticos en la minera de datos est relacionado con
los cambios en las tecnologas de almacenamiento, as como capacidades
computacionales. Sin embargo, todos los paquetes de software no pueden tomar
ventaja de la capacidad del hardware actual. Esto es especialmente cierto en el
modelo de computacin distribuido. Una evaluacin cuidadosa se debe hacer para
asegurar que los algoritmos son distribuidos y el aprovechamiento eficaz de toda
la potencia de clculo disponible para usted [Dean, 2006].
La minera de datos permite a las personas a encontrar e interpretar esos
patrones, lo que ayuda a tomar decisiones ms informadas y servir mejor a sus
clientes. Dicho esto, tambin hay preocupacin por la prctica de la minera de
datos. Privacidad grupos de vigilancia, en particular, son vocales sobre las

organizaciones que acumulan grandes cantidades de datos, algunos de los cuales
pueden ser de naturaleza muy personal [Matthew, 2012].
Sobre la base de este punto de vista, la arquitectura de un sistema de
minera de datos tpico puede tener base de datos, almacenamiento de datos,
Word Wilde Web, u otra informacin de depsito: Se trata de bases de datos
oraste, almacenes de datos, hojas de clculo, bases de limpieza de datos y
tcnicas de integracin de datos se pueden realizar en los datos.
Base de datos o servidor de almacn de datos: la base de datos o almacn
de datos del servidor se encarga de ir a buscar los datos pertinentes, actuando a
peticin de minera de datos del usuario [Hand,2001].La minera de datos es una
disciplina compuesta que se solapa con otras ramas de la ciencia; entre las que se
encuentran Statistics ,data Science,databases ,KDD,AI, Machine Learning
,ComputacionalNeurociencia, podemos ver las contribuciones de muchos campos
diferentes en el desarrollo de la ciencia de la minera de datos.
Debido a las contribuciones de muchas disciplinas, mantenerse al corriente
de los progresos realizados en la minera de datos o F de campo es un reto
educativo continuo [Dean, 2006].Aunque la minera de datos es la fusin de la
estadstica aplicada, la lgica, la inteligencia artificial, aprendizaje automtico y
sistemas de gestin de datos, no est obligado a tener una slida formacin en
estos campos para utilizar este libro [Metthew, 2012].
Clasificacin de los sistemas de minera de datos minera de datos es un
campo interdisciplinario, la confluencia de un conjunto de disciplinas, incluyendo
los sistemas de bases de datos, estadsticas, aprendizaje automtico,
visualizacin. Ms encima, dependiendo del enfoque de minera de datos
utilizados, las tcnicas de otras disciplinas tal vez aplicadas, como el redes
neuronales, teora de conjuntos difusos y / o rugosa, la representacin del
conocimiento, la programacin lgica inductiva, rendimiento informtica [Vindel,
2003].
En este captulo hay seis secciones, seguido de una breve discusin de los
cambios en la segunda edicin. 1. El proceso de KDD 2. Taxonoma de los
mtodos de minera de datos 3. Minera de datos en el Sistema de Soporte a la
Decisin completa 4. KDD y DM oportunidades de investigacin y desafos 5. KDD
y DM Tendencias 6. La Organizacin del Manual 7. Nuevo en esta edicin los
aspectos recientes de disponibilidad de datos especiales que promueven el rpido
desarrollo de KDD y DM son la disposicin por va electrnica de los datos
(aunque de diferentes tipos y fiabilidad) [Maimn,2010].
Ms encima, espacial clasificacin puede llevarse a cabo para la

construccin de modelos de prediccin basado en el conjunto relevante de las
caractersticas ,cubos de datos espaciales" se pueden construir para organizar los
datos en estructuras multidimensionales y jerarquas, en el que las operaciones
OLAP (como taladro -abajo y roll-up) se puede realizar. Una base de datos
espaciales que almacena objetos espaciales que cambian con el tiempo se llama
una base de datos espacio-temporal, que puede facilitar informacin interesante
puede ser extrado. Por ejemplo, podemos ser capaces de agrupar las tendencias
de objetos en movimiento e identificar algunos vehculos en movimiento extrao, o
distinguir un ataque bioterrorista de un brote normal de la gripe basa en la
extensin geogrfica de una enfermedad con el tiempo [Hand, 2001].
Algunos clasificadores pueden entrenar los modelos de mltiples pliegues

de validacin cruzada de forma simultnea, y la implementacin del servidor Weka
permite ejecutar tareas de minera de datos al mismo tiempo en una misma
mquina o en un clster. Rutinas weka tambin proporcionan componentes de
anlisis avanzado de dos ambientes Los anlisis de datos basados en Java:
Pentaho y MOA (Anlisis masivo en lnea)[Dean,2006].Un modelo, en la minera
de datos, al menos, es una representacin informatizada de observaciones del
mundo real. Los modelos son la aplicacin de algoritmos para buscar, identificar y
mostrar cualquier patrn o mensajes en los datos. Hay dos tipos bsicos o tipos de
modelos de minera de datos: los que clasifican y los que predicen. En 1999,
varias compaas importantes incluyendo fabricante de automviles Daimler-Benz,
proveedor de seguros OHRA, fabricante de hardware y software NCR Corp. y el
fabricante de software estadstico SPSS, Inc. comenzaron a trabajar juntos para
normalizar y estandarizar un mtodo para la extraccin de datos. El resultado de
su trabajo fue CRISP-DM, el proceso estndar entre la industria de la minera de
datos[Metthew,2012].
La informacin y los conocimientos adquiridos pueden ser utilizados para
aplicaciones que van desde el anlisis de mercado, deteccin de fraudes, y la
retencin de clientes, con el control de la produccin y exploracin de la ciencia.
La minera de datos puede ser visto como un resultado de la evolucin natural de
la tecnologa de la informacin.La industria de los sistemas de base de datos ha
sido testigo de un camino evolutivo en el desarrollo de las siguientes
funcionalidades recopilacin de datos y la creacin de bases de datos, gestin de
datos (incluido el almacenamiento y recuperacin de datos y base de datos [Hand,
2001].La minera de datos puede revelar patrones que describen las
caractersticas de las casas situadas tipo de ubicacin, como un parque, por
ejemplo. Otros patrones pueden describir el clima de las zonas montaosas
situadas a diferentes alturas, o describir el cambio en la tendencia de las tasas de
pobreza en base a distancias metropolitanas de la ciudad desde las principales
vas altas [Hernandez, 2004].
Muchos entornos de aplicaciones, soporte inherente para las

comunicaciones de concurrencia y de la red, y una base de cdigo fuente abierto
preexistente para la funcionalidad de minera de datos, tales como las bibliotecas
Mahout y Weka. Aunque en algn costo para el rendimiento, las ventajas de
desarrollo resultan asimismo de la plataforma de JVM. Adems de la portabilidad,
la JVM ofrece la gestin de memoria, la memoria Profi ling, y el manejo
automatizado de excepcin. Scala y Clojure son nuevos lenguajes que tambin se
ejecutan en la JVM y se utilizan para aplicaciones de minera de datos. Scala es
un lenguaje de cdigo abierto desarrollado en Suiza en la Escuela Politcnica de
Lausanne Fddale [Witten, 2005].La minera de datos aporta mtodos
estadsticos y lgicos de anlisis de grandes conjuntos de datos en el marco de la
descripcin de ellos y utilizarlos para crear modelos predictivos. Bases de datos,
almacenes de datos y conjuntos de datos son todas las clases nicas de los
sistemas de mantenimiento de registros digitales, sin embargo, comparten muchas
similitudes.
La minera de datos es generalmente ms eficaz ejecutado en conjuntos de
datos extrados de los datos, OLAP, en lugar de los sistemas OLTP. Tanto los
datos operativos y datos organizativos proporcionan buenos puntos de partida
para las actividades de minera de datos, sin embargo, ambos vienen con sus
propios problemas que pueden inhibir las actividades de minera de datos de
calidad. Estos deben ser mitigados antes de comenzar a extraer los datos. Por
ltimo, cuando la minera de datos, es importante recordar el factor humano detrs
de la manipulacin de nmeros y cifras.
Los analistas de datos tienen la responsabilidad tica de los individuos
cuyas vidas pueden verse afectados por las decisiones que se toman como
resultado de las actividades de minera de datos [Mathew, 2012].Es un anlisis
exploratorio automtica y el modelado de grandes depsitos de datos. KDD es el
proceso organizado de determinacin vlidos, nuevos, tiles y comprensibles los
patrones de grandes y complejos conjuntos de datos [Maimn, 2010].Un
descubrimiento de conocimiento en bases de datos (KDD) Archive, un repositorio
en lnea de grandes conjuntos de datos que abarca una amplia variedad de tipos
de datos, tareas de anlisis, y reas de aplicacin [Han, 2001].Se refiere al
proceso no-trivial de descubrir conocimiento e informacin potencialmente til
dentro de los datos contenidos en algn repositorio de informacin [1]. No es un
proceso automtico, es un proceso iterativo que exhaustivamente explora
volmenes muy grandes de datos para determinar relaciones [Dean, 2006].Es el
proceso de representar los datos descritos potencialmente til dentro de los datos
contenidos en algn repositorio de informacin [1]. No es un proceso automtico,
es un proceso iterativo que exhaustivamente explora volmenes muy grandes de
datos para determinar relaciones [Tuya, 2007].
La informacin y los conocimientos adquiridos pueden ser utilizados para
aplicaciones que van desde el anlisis de mercado, deteccin de fraudes, y la
retencin de clientes, con el control de la produccin y exploracin de la ciencia.
La minera de datos puede ser visto como un resultado de la evolucin natural de
la tecnologa de la informacin.La industria de los sistemas de base de datos ha
sido testigo de un camino evolutivo en el desarrollo de las siguientes

funcionalidades (Figura 1.1): recopilacin de datos y la creacin de bases de
datos, gestin de datos (incluido el almacenamiento y recuperacin de datos y
base de datos [Hand, 2001].La minera de datos puede revelar patrones que
describen las caractersticas de las casas situadas nearaspeci fi cada tipo de
ubicacin, como un parque, por ejemplo. Otros patrones pueden describir el clima
de las zonas montaosas situadas a diferentes alturas, o describir el cambio en la
tendencia de las tasas de pobreza en base a distancias metropolitanas de la
ciudad desde las principales vas altas [Vindel, 2003].Muchos entornos de
aplicaciones, soporte inherente para las comunicaciones de concurrencia y de la
red, y una base de cdigo fuente abierto preexistente para la funcionalidad de
minera de datos, tales como las bibliotecas Mahout y Weka. Aunque en algn
costo para el rendimiento, las ventajas de desarrollo resultan asimismo de la
plataforma de JVM. Adems de la portabilidad, la JVM ofrece la gestin de
memoria, la memoria, y el manejo automatizado de excepcin.
Scala y Clojure son nuevos lenguajes que tambin se ejecutan en la JVM y
se utilizan para aplicaciones de minera de datos. Scala es un lenguaje de cdigo
abierto desarrollado en Suiza en la Escuela Politcnica de Lausanne Fddale
[Dean, 2006].La minera de datos aporta mtodos estadsticos y lgicos de anlisis
de grandes conjuntos de datos en el marco de la descripcin de ellos y utilizarlos
para crear modelos predictivos. Bases de datos, almacenes de datos y conjuntos
de datos son todas las clases nicas de los sistemas de mantenimiento de
registros digitales, sin embargo, comparten muchas similitudes. La minera de
datos es generalmente ms eficaz ejecutado en conjuntos de datos extrados de
los datos, OLAP, en lugar de los sistemas OLTP. Tanto los datos operativos y datos
organizativos proporcionan buenos puntos de partida para las actividades de
minera de datos, sin embargo, ambos vienen con sus propios problemas que
pueden inhibir las actividades de minera de datos de calidad. Estos deben ser
mitigados antes de comenzar a extraer los datos. Por ltimo, cuando la minera de
datos, es importante recordar el factor humano detrs de la manipulacin de
nmeros y cifras. Los analistas de datos tienen la responsabilidad tica de los
individuos cuyas vidas pueden verse afectados por las decisiones que se toman
como resultado de las actividades de minera de datos [Metthew, 2012].
Dentro de las tcnicas de limpieza y transformacin de datos Clemenine
dispone de dos grupos con funcionalidades exploratorias. El primer grupo se
encuentra en la paleta de operaciones con registro y el segundo grupose
encuentra en la paleta de operaciones con campos.Los nodonos de operaciones
con campos permiten preparar los datos para modelado y otras tcnicas
posteriores de minera de datos [Maimon, 2010].Los pasos 1 a 4 son diferentes
formas de pre-procesamiento de datos, donde los datos se preparan para la
minera. El paso de la minera de datos puede interactuar con el usuario o una
base de conocimientos. Los patrones interesantes se presentan al usuario y
pueden ser almacenados como nuevos conocimientos en el conocimiento base.
Descubrimiento de conocimiento como un proceso se representa en la

figura 1.4 y se compone de una secuencia iterativa de los pasos siguientes:1. Los
datos de limpieza (para eliminar el ruido y los datos inconsistentes) 2. Integracin
de datos (donde mltiples fuentes de datos pueden ser combinados) 1 3.Selection
(donde los datos relevantes para el anlisis de recuperado de la base de datos)
4.Transformacion para la minera por la realizacin de operaciones de resumen o
de agregacin, por ejemplo) 2 5.La minera de datos (un proceso esencial en el
que se aplican mtodos inteligentes con el fin de extraer patrones de datos) 6.
Evaluacin del patrn (para identificar los patrones de enorme inters que
representan el conocimiento sobre la base de algunas medidas; Seccin 1.5) 7.
Presentacin del conocimiento (donde se utilizan tcnicas de visualizacin y la
representacin de conocimiento para presentar el conocimiento extrado para el
usuario) [Hand, 2001].Esta segunda parte de los turnos de libros desde el
almacenamiento de datos, preparacin de datos, consideraciones de hardware,
software y las herramientas necesarias para llevar a cabo la extraccin de datos a
la metodologa, algoritmos y mtodos que se pueden aplicar a sus actividades de
minera de datos. Esto incluye un mtodo probado para la minera de datos
efectiva en el enfoque SEMMA, discusin acerca de los diferentes tipos de
modelos predictivos objetivo de modelado, y la comprensin qu mtodos y
tcnicas necesarios para manejar los datos con eficacia. Desde mi experiencia, la
mayora de los entornos de negocios utilizan varias personas para llevar a cabo
cada una de las tareas. En las grandes organizaciones, las tareas pueden ser
divididos en muchos grupos y slo se renen organizacional a nivel ejecutivo de la
organizacin [Dean, 2006].
Los datos vienen en muchas formas y formatos. Algunos datos son
numricos, algunos estn en prrafos de texto, y otros estn en la forma de
imagen, tales como tablas, grficos y mapas. Algunos datos son anecdticos o
narrativa, tales como comentarios sobre una encuesta de satisfaccin del cliente o
la transcripcin del testimonio de un testigo. Los datos que no estn en filas o
columnas de nmeros no debe descartarse aunque-formatos de datos a veces no
tradicionales pueden ser los ms ricos en informacin. Vamos a hablar en este
libro sobre enfoques para el formateo de datos, comenzando en el captulo 2. A
pesar de filas y columnas sern uno de nuestros diseos ms comunes, tambin a
entrar en la minera de texto, donde los prrafos se pueden introducir en
RapidMiner y se analizaron los patrones tambin. Preparacin de datos implica
una serie de actividades. Estos pueden incluir la unin de dos o ms conjuntos de
datos en conjunto, la reduccin de conjuntos de datos que slo aquellas variables
que son interesantes en un ejercicio de minera de datos dada, depuracin de
datos limpia de anomalas tales como observaciones atpicas o datos faltantes o
datos de formato de presentacin para fines de consistencia. Por ejemplo, es
posible que haya visto una hoja de clculo o base de datos que contena los
nmeros de telfono en muchos formatos diferentes [Metthew, 2012].
En efecto, es cierto que tener ms datos, especialmente los datos
histricos, a menudo le ayudar a las predicciones del modelo sean ms precisos.
El uso de otras fuentes de datos, como las redes sociales, ayudar a las
organizaciones a tomar mejores predicciones acerca de las opciones y

preferencias de los clientes, porque todos estn influenciados en cierta medida por
los que estn en nuestra red social, ya sea fsico o el virtual. Considere una
situacin en la que tengo una experiencia de usuario pobre con mi proveedor de
cable; tan pobre que puedo cancelar todos mis servicios y buscar otro proveedor
[Den, 2006].Para pre-procesamiento de datos que tenga xito, es esencial
disponer
de
una
visin
global
de
los
datos.
Descriptivedatasummarizationtechniquescanbeusedtoidentifythetypicalpropertiesof
yourdataandhighlightwhichdatavaluesshouldbetreatedasnoiseoroutliers. Por lo
tanto, primero introducimos los conceptos bsicos de resumen de datos
descriptivos en el funcionamiento concreto de las tcnicas de pre-procesamiento
de datos. Para muchas tareas de pre-procesamiento de datos, los usuarios les
gustaran aprender sobre caractersticas de los datos con respecto tanto la
tendencia central y la dispersin de los datos. Medidas de tendencia central
incluyen media, la mediana, la moda y de gama media, mientras que las medidas
de dispersin de los datos incluyen los cuartiles,(IQR), y la varianza. Estas
estadsticas descriptivas son de gran ayuda en la comprensin de la distribucin
de los datos.
Estas medidas se han estudiado ampliamente en la literatura estadstica.
Desde el punto de vista de la minera de datos, es necesario examinar cmo se
pueden calcular eficiente en grandes bases de datos. En particular, es necesario
introducir las nociones de medida distributiva, medida algebraica, y la medida
holstica. Saber qu tipo de medida que nos ocupa puede ayudarnos a elegir una
implementacin e fi cliente para ellos [Hand, 2001].Es probable que su tarea de
anlisis de datos implicar la integracin de datos, que combina datos de mltiples
fuentes en un almacn de datos coherente, como en el almacenamiento de datos.
Estas fuentes pueden incluir mltiples bases de datos, cubos de datos, o FL en los
archivos. Hay una serie de cuestiones a considerar durante la integracin de
datos. La integracin de esquemas y la coincidencia de objeto puede ser
complicado [Tuya, 2007].
Desde el punto de vista de la minera de datos, es necesario examinar
cmo se pueden calcular eficiente en grandes bases de datos. En particular, es
necesario introducir las nociones de medida distributiva, medida algebraica, y la
medida holstica. Saber qu tipo de medida que nos ocupa puede ayudarnos a
elegir una implementacin e fi cliente para ellos [Maimn, 2010].
13. Anexo 3
Marco metodolgico
La metodologa CRISP-DM (Cross Industry Standard Process for Data
Mining) CRISPDM [CRISP-DM, 2000], es la gua de referencia ms ampliamente
utilizada en el desarrollo de proyectos de Data Mining, como se puede constatar
en la grfica presentada en la figura 2.3. Esta grfica, publicada el ao 2007 por
kdnuggets.com, representa el resultado obtenido en sucesivas encuestas
efectuadas durante los ltimos aos, respecto del grado de utilizacin de las
principales guas de desarrollo de proyectos de Data Mining. En ella se puede
observar, que a pesar de que el uso de aun frente a otras, la gua de referencia
ms ampliamente utilizada [Chapman, 2004].
Est dividida en 4 niveles de abstraccin organizados de forma jerrquica en
tareas que van desde el nivel ms general, hasta los casos ms especficos y
organiza el desarrollo de un proyecto de Data Mining, en una serie de seis fases
([CRISP-DM, 2000]).
A continuacin se describen cada una de las fases en que se divide [Clinton,
2006].
1. Fase de comprensin del negocio o problema La primera fase de la gua de
referencia CRISP-DM, denominada fase de comprensin del negocio o
problema: es probablemente la ms importante y aglutina las tareas de
comprensin de los objetivos y requisitos del proyecto desde una
perspectiva empresarial o institucional, con el fin de convertirlos en
objetivos tcnicos y en un plan de proyecto. Esta tarea tiene como objetivo
representar los objetivos del negocio en trminos de las metas del proyecto
de DM, como por ejemplo, si el objetivo del negocio es el desarrollo de una
campaa publicitaria para incrementar la asignacin de crditos
hipotecarios, la meta de DM ser por ejemplo, determinar el perfil de los
clientes respecto de su capacidad de endeudamiento.
Produccin de un plan del proyecto. Finalmente esta ltima tarea de la primera
fase de CRISP-DM, tiene como meta desarrollar un plan para el proyecto, que
describa los pasos a seguir y las tcnicas a emplear en cada paso.
2. Fase de comprensin de los datos La segunda fase (figura 2.7), fase de
comprensin de los datos, comprende la recoleccin inicial de datos, con el
objetivo de establecer un primer contacto con el problema, familiarizndose con
ellos, identificar su calidad y establecer las relaciones ms evidentes que permitan
definir las primeras hiptesis. En esta tarea, se efectan verificaciones sobre los
datos, para determinar la consistencia de los valores individuales de los campos,
la cantidad y distribucin de los valores nulos, y para encontrar valores fuera de
rango, los cuales pueden constituirse en ruido para el proceso. La idea en este
punto, es asegurar la completitud y correccin de los datos.
3. Fase de preparacin de los datos En esta fase y una vez efectuada la
recoleccin inicial de datos, se procede a su preparacin para adaptarlos a las
tcnicas de Data Mining que se utilicen posteriormente, tales como tcnicas de
visualizacin de datos, de bsqueda de relaciones entre variables u otras medidas
para exploracin de los datos. Limpieza de los datos. Esta tarea complementa a la
anterior, y es una de las que ms tiempo y esfuerzo consume, debido a la
diversidad de tcnicas que pueden aplicarse para optimizar la calidad de los datos
a objeto de prepararlos para la fase de modelacin. Estructuracin de los datos.
Esta tarea consiste principalmente, en la realizacin de transformaciones
sintcticas de los datos sin modificar su significado, esto, con la idea de permitir o
facilitar el empleo de alguna tcnica de DM en particular, como por ejemplo la
reordenacin de los campos y/o registros de la tabla o el ajuste de los valores de
los campos a las limitaciones de las herramientas de modelacin (eliminar comas,
tabuladores, caracteres especiales, mximos y mnimos para las cadenas de
caracteres, etc.).
4. Fase de modelado En esta fase de CRISP-DM, se seleccionan las tcnicas
de modelado ms apropiadas para el proyecto de Data Mining especfico. Las
tcnicas a utilizar en esta fase se eligen en funcin de los siguientes criterios: o
Ser apropiada al problema.Disponer de datos adecuados. Despus de
seleccionada la tcnica, se ejecuta sobre los datos previamente preparados para
generar uno o ms modelos. Todas las tcnicas de modelado tienen un conjunto
de parmetros que determinan las caractersticas del modelo a generar.
La seleccin de los mejores parmetros es un proceso iterativo y se basa
exclusivamente en los resultados generados. Estos deben ser interpretados y su
rendimiento justificado. Evaluacin del modelo. En esta tarea, los ingenieros de
DM interpretan los modelos de acuerdo al conocimiento preexistente del dominio y
los criterios de xito preestablecidos. Expertos en el dominio del problema juzgan
los modelos dentro del contexto del dominio y expertos en Data Mining aplican sus
propios criterios (seguridad del conjunto de prueba, prdida o ganancia de tablas.
5. Fase de evaluacin En esta fase se evala el modelo, teniendo en cuenta el
cumplimiento de los criterios de xito del problema. Debe considerarse adems,
que la fiabilidad calculada para el modelo se aplica solamente para los datos sobre
los que se realiz el anlisis. Es preciso revisar el proceso, teniendo en cuenta los
resultados obtenidos, para poder repetir algn paso anterior, en el que se haya
posiblemente cometido algn error. Fase de evaluacin ([CRISP-DM, 2000]).
Determinacin de futuras fases. Si se ha determinado que las fases hasta este
momento han generado resultados satisfactorios, podra pasarse a la fase
siguiente, en caso contrario podra decidirse por otra iteracin desde la fase de
preparacin de datos o de modelacin con otros parmetros. Podra ser incluso

que en esta fase se decida partir desde cero con un nuevo proyecto de DM.
6. Fase de implementacin Fase de implementacin ([CRISP-DM, 2000]).
Informe Final. Es la conclusin del proyecto de DM realizado. Dependiendo del
plan de implementacin, este informe puede ser slo un resumen de los puntos
importantes del proyecto y la experiencia lograda o puede ser una presentacin
final que incluya y explique los resultados logrados con el proyecto. Revisin del
proyecto: En este punto se evala qu fue lo correcto y qu lo incorrecto, qu es lo
que se hizo bien y qu es lo que se requiere mejorar.
Por otra parte se presenta el software con el cual estar trabajando mediante
esta metodologa weka es una herramienta de minera de datos WEKA. WEKA,
acrnimo de Waikato Environment for Knowledge Analysis, es un entorno para
aprendizaje automtico, sobre cualquier conjunto de datos del usuario. Para ello
nicamente se requiere que los datos a analizar se almacenen con un cierto
formato, conocido como ARFF (Attribute-Relation File Format). WEKA se
distribuye como software de libre distribucin desarrollado en Java. Est
constituido por una serie de paquetes de cdigo abierto con diferentes tcnicas de
preprocesado, clasificacin, agrupamiento, asociacin, y visualizacin, as como
facilidades para su aplicacin y anlisis de prestaciones cuando son aplicadas a
los datos de entrada seleccionados [Lpez, 2006].
Estos paquetes pueden ser integrados en cualquier proyecto de anlisis de datos,
e incluso pueden extenderse con contribuciones de los usuarios que desarrollen
nuevos algoritmos.
Con objeto de facilitar su uso por un mayor nmero de usuarios, WEKA
adems incluye una interfaz grfica de usuario para acceder y configurar las
diferentes herramientas integradas.
Para seleccionar algunas de las tcnicas disponibles para aplicarlas a
ejemplos concretos, siguiendo el acceso desde la herramienta al resto de tcnicas
implementadas, una mecnica totalmente anloga a la presentada a modo
ilustrativo.
Para reforzar el carcter prctico de este captulo, adems se adoptar un formato
de tipo tutorial, con un conjunto de datos disponibles sobre el que se irn
aplicando las diferentes facilidades de WEKA. Se sugiere que el lector aplique los
pasos indicados y realice los anlisis sugeridos para cada tcnica con objeto de
familiarizarse y mejorar su comprensin. Los ejemplos seleccionados son
contienen datos provenientes del campo de la enseanza, correspondientes a
alumnos que realizaron las pruebas de selectividad en los aos 1993-2003
procedentes de diferentes centros de enseanza secundaria de la comunidad de
Madrid. Por tanto, esta gua ilustra la aplicacin y anlisis de tcnicas de

extraccin de conocimiento sobre datos del campo de la enseanza, aunque sera
directa su traslacin a cualquier otra disciplina [Steinach, 2006]
La minera de datos consiste en la extraccin no trivial de informacin que reside
de manera implcita en los datos. Dicha informacin era previamente desconocida
y podr resultar til para algn proceso. En resumen, la minera de datos prepara,
sondea y explora los datos para sacar la informacin oculta en ellos.Minera de
datos abarca todo un conjunto de tcnicas enfocadas en la extraccin de
conocimiento implcito en las bases de datos. Las bases de la minera de datos se
encuentran en la inteligencia artificial y en el anlisis estadstico. Mediante los
modelos extrados utilizando tcnicas de minera de datos se aborda la solucin a
problemas de prediccin, clasificacin y segmentacin [Zamorano, 2006].
Un proceso tpico de minera de datos consta de los siguientes pasos generales:
Seleccin del conjunto de datos: tanto en lo que se refiere a las variables
dependientes, como a las variables objetivo, como posiblemente al muestreo de
los registros disponibles. Anlisis de las propiedades de los datos: en especial los
histogramas, diagramas de dispersin, presencia de valores atpicos y ausencia
de datos (valores nulos). Transformacin del conjunto de datos de entrada: en
esta etapa se realizar un conjunto de operaciones con la finalidad de preparar los
datos de anlisis, con el objetivo de adaptarlos para aplicar la tcnica de minera
de datos que mejor se adapte al problema. Seleccionar y aplicar la tcnica de
minera de datos: La eleccin de la tcnica depender de la naturaleza del
problema a resolver. Para poder implementar la tcnica seleccionada, se debe
proceder a elegir algn software que facilite el trabajo de aprendizaje automtico
[Sierra, 2006].
Si el modelo obtenido no superara esta evaluacin el proceso se podra
repetir desde el principio o, si se considera oportuno, a partir de cualquiera de los
pasos anteriores. Como ya se ha comentado, las tcnicas de la minera de datos
provienen de la Inteligencia artificial y de la estadstica, dichas tcnicas, no son
ms que algoritmos, ms o menos sofisticados que se aplican. Sobr un conjunto
de datos para obtener resultados. En la fase de minera de datos, se decide cul
es la tarea a realizar (clasificar, agrupar etc.) y se elige la tcnica descriptiva o
predictiva que se va a utilizar [Prez, 2007].
A continuacin se muestra en un grfico con las principales tcnicas de minera de
datos:
Figura 2. Tcnicas de minera de datos.
Weka dispone de una gran variedad de algoritmos para clasificar. En

funcin del tipo de datos de entrada podemos utilizar: - Algoritmos para datos
nominales o rboles de decisin de un nivel (decisin stump) o Clasificador 1R
(OneR) o Tabla de decisin o ID3 o C4.5 o PART - Algoritmos para datos
numricos o rboles de decisin de un nivel o Tabla de decisin o Regresin lineal
o M5 Aplicaremos los siguientes algoritmos a los datos sobre los que vamos a
trabajar: - datos nominales o rboles de decisin de un nivel o clasificador 1R o
C4.5 - datos numricos o rboles de decisin de un nivel o tabla de decisin Se
han elegido estos algoritmos por ser quiz los ms representativos. Hemos
sometido a estudio los datos con todos los algoritmos inicialmente propuestos y,
como veremos, algunos consiguen excelentes soluciones mientras que otros
(como los rboles de decisin) dan peores aproximaciones a priori.
Sin embargo presentan la gran ventaja de que se pueden usar para
cualquier tipo de datos, de ah su utilizacin aqu. En cuanto a los otros algoritmos,
veremos que se basan en principios parecidos. De hecho aqu estudiaremos el
ID3 aunque por el tipo de datos disponibles deberemos usar su evolucin, el C4.5,
en la prctica[Wirth, 2006].
Es uno de los algoritmos ms utilizados en la prctica, y por ello resulta
interesante su estudio aqu. A continuacin desarrollaremos cada uno de los
posibles algoritmos a utilizar. Eso nos dar ms informacin para decidirnos
posteriormente por uno u otro. - rboles de decisin Se pueden aplicar a casi todo.
Los sistemas de aprendizaje basados en rboles de decisin son quizs el mtodo
ms fcil de utilizar y de entender. Un rbol de decisin es un conjunto de

condiciones organizadas en una estructura jerrquica, de tal manera que la
decisin final a tomar se puede determinar siguiendo las condiciones que se
cumplen desde la raz del rbol hasta alguna de sus hojas. Los rboles de
decisin se Pgina 4 de 34 utilizan desde hace siglos, y son especialmente
apropiados para expresar procedimientos mdicos, legales, comerciales,
estratgicos, matemticos, lgicos, etc. Una de las grandes ventajas de los
rboles de decisin es que, en su forma ms general, las opciones posibles a
partir de una determinada condicin son excluyentes. Esto permite analizar una
situacin y, siguiendo el rbol de decisin apropiadamente, llegar a una sola
accin o decisin a tomar. Estos algoritmos se llaman algoritmos de particin o
algoritmos de divide y vencers. Otra caracterstica importante de los primeros
algoritmos de aprendizaje de rboles de decisin es que una vez elegida la
particin dicha particin no se poda cambiar, aunque ms tarde se pensara que
haba sido una mala eleccin. Por tanto, uno de los aspectos ms importantes en
los sistemas de aprendizaje de rboles de decisin es el denominado criterio de
particin, ya que una mala eleccin de la particin (especialmente en las partes
superiores del rbol) generar un peor rbol. ID3 y J48 son algoritmos de
clasificacin, que podemos ejecutar con la herramienta Experimenter: esta opcin
permite definir experimentos ms complejos, con objeto de ejecutar uno o varios
algoritmos sobre uno o varios conjuntos de datos de entrada, y comparar
estadsticamente los resultados [Witten, 2000].
El Reconocimiento de Patrones es el estudio de cmo las mquinas pueden
observar el ambiente o entorno, aprender a distinguir patrones de inters a partir
de la experiencia, y tomar decisiones razonables con respecto a las categoras a
las que pertenecen dichos patrones. El mejor reconocedor de patrones conocido
hasta ahora es el ser humano, no sabindose a ciencia cierta cul es el proceso
mediante el cual los humanos realizamos esta tarea [Ceijas, 2011].
14.- Cronograma.
15.- Referencias Bibliogrficas.

[Abril, 2003]
[Adams, 2013]
[Aldana, 2009]
[Arenas, 2008]
[Anguiano, 2009]
[Baeza, 1999]
[Ballard, 1998]
Abril Gonzlez, L. Modelos de Clasificacin

basados en Mquinas de Soporte Vectorial.
Universidad de Sevilla, Espaa 2003.
http://www.asepelt.org/ficheros/File/Anales/20
03%20-%20Almeria/asepeltPDF/55.pdf
Adams, R.L. Search Engine Optimization
Libro Negro. Ed. R.L. Adams, 2013.
http://uploaded.net/file/w0ivebv6
Aldana, Luis. Data Mining Principios y
Aplicaciones. Ed. LafaBooks, 2009. Biblioteca
Personal.
Arenas, Marcelo. Cmo Funciona la Web. Ed.
Grafica
LOM,
Chile,
2008.
http://www.ciw.cl/libroWeb-NV.pdf
Anguiano-Hernndez,
Emmanuel. Naive
Bayes Multinomial para Clasificacin de Texto
usando un Esquema de Pesado por Clases.
Artculo publicado el 29 de abril del 2009.
http://ccc.inaoep.mx/~esucar/Clasesmgp/Proyectos/MGP_RepProy_Abr_29.pdf
Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier.
Modern Information Retrieval. Ed. Addison
Wesley, Inglaterra 1999. Biblioteca Personal.
Ballard, Chuck; Herreman, Dirk; Schau, Don;
Bell, Rhonda; Kim, Eunsaeng; Valencic, Ann.
Data Modeling Techniques for Data
Warehousing. Ed. International Business
Machine Corporation, California 1998.
http://www.redbooks.ibm.com/redbooks/pdfs/
[Britos, 2005]
[Cabrera, 2011]
[Cao, 2009]
[Chakrabarti, 2003]
[Chapman, 1999]
[Cichosz, 2015]
[Cios, 2007]
[Dean, 2014]
[Enge, 2010]
[Google, 2011]
sg242238.pdf
Britos, Paola; Hossian, Alejandro; Garca,
Ramn; Sierra, Enrique. Minera de Datos
Basado en Sistemas Inteligentes. Ed. Nueva
Librera, Buenos Aires 2005 1 edicin.
Biblioteca Facultad de Ingeniera UAEMEX.
Cabrera Jimnez, Juan. Clasificacin de
Documentos
usando
Naive
Bayes
Multinomial
y
Representaciones
Distribucionales.
Instituto
Nacional
de
Astrofsica ptica y Electrnica. Puebla,
Mxico
2011.
http://ccc.inaoep.mx/~esucar/Clasesmgp/Proyectos/2011/Reporte_Proyecto_Clasi
ficacion_de_Documentos.pdf
Cao, Longbing. Data Mining for Business
Applications. Ed. Springer, USA 2009.
Biblioteca Personal.
Chakrabarti, Soumen. Mining the Web
Discovering Knowledge from Hypertext Data.
Ed. Elsevier, USA 2003. Biblioteca Personal.
Chapman, Pete. CRISP-DM 1.0. SPSS Inc.
USA 1999. Biblioteca Personal.
Cichosz, Pawet. Data Mining Algorithms
Explained Using R. Ed. John Wiley and Sons
Inc,
USA
2015.
http://cdn4.filepi.com/g/J5L9l29/1425615453/
b6cfec867389e54d0c9ae11de916f009
Cios, Krzysztof; Pedrycz, Witold; Swiniarski,
Roman; Kurgan, Lukasz. Data Mining a
Knowledge
Discovery
Approach.
Ed.
Springer, USA 2007. Biblioteca Facultad de
Ingeniera UAEMEX.
Dean, Jared. Big Data, Data Mining and
Machine Learning. Ed. John Wiley and Sons
Inc,
USA
2014.
http://cdn3.filepi.com/g/kU0oOR9/142561541
1/65c6565c2fe9193ee893c6e518a15f8c
Enge, Eric; Spencer, Stephan; Fishkin, Rand.
The Art of SEO Mastering Search Engine
Optimization. Ed. Orilley Media, USA, 2010.
http://it-ebooks.info/book/96/
Google Inc. Guia para principiantes sobre
optimizacin
para
motores
de
[Han, 2006]
[Hand, 2001]
[Hammergren, 2009]
[Hernndez, 2004]
[Imhoff, 2003]
[Jerkovic, 2010]
[Kimball, 2002]
bsqueda.Google
Inc,
2011.
https://static.googleusercontent.com/media/w
ww.google.com/es//intl/es/webmasters/docs/g
uia_optimizacion_motores_busqueda.pdf
Han, Jiawei; Kamber, Micheline. Data Mining
Concepts and Techniques. Ed. Elsevier, USA
2006
2a
edicin.
http://www.mis.boun.edu.tr/gulser/index_files/
DM%20Concepts%20%26%20Techniques
%20_%20Han%26Kamber.pdf
Hand, David; Mannila, Heikki; Smyth,
Padhraic. Principles of Data Mining. Ed.
Massachusetts Institute of Technology, USA
2001.
Biblioteca
Facultad
de
IngenieraUAEMEX.
Hammergren, Thomas; Simon, Alan. Data
Warehousing for Dummies. Ed. Wiley
Publishing Inc. USA 2009, 2a edicin.
http://dspace.utamu.ac.ug:8080/xmlui/bitstrea
m/handle/123456789/87/%5BThomas_C._Ha
mmergren
%5D_Data_Warehousing_For_Dummie
%28BookFi.org%29.pdf?
sequence=1&isAllowed=y
Hernndez Orallo, Jos; Ferri Ramrez,
Cesar; Ramrez, Ma. Jos. Introduccin a la
Minera de Datos. Ed. Pearson, Madrid 2004.
Biblioteca Unidad Acadmica Tianguistenco
UAEMEX.
Imhoff, Claudia; Galemmo, Nicholas; Geiger,
Jonathan. Mastering Data Warehouse
Design. Ed. Wiley Publishing Inc. USA 2003.
http://artemisa.unicauca.edu.co/~ecaldon/doc
s/bd/mastering.pdf
Jerkovic, John. SEO Warrior. Ed. Orilley
Media,
USA,
2010.
http://itebooks.info/book/173/
Kimball, Ralph; Ross, Margy. The Data
Warehouse Toolkit. Ed. John Wiley and Sons
Inc.
2a
edicin,
USA
2002.
http://home.elka.pw.edu.pl/~rbzoma/The
%20Data%20Warehouse%20Toolkit%20%20The%20Complete%20Guide%20to
%20Dimensional%20Modeling%20(2nd
[Lane,2007]
[Lara, 2014]
[Ledford, 2008]
[Manning, 2009]
[Maimon, 2010]
[Mitchell, 1997]
[Molina, 2006]
[Murphy, 2012]
[North, 2012]
%20Ed%202002%20Wiley)%20-%20Kimball
%20&%20Ross.pdf
Lane,
Paul.
Oracle
Database
Data
Warehousing Guide. Ed. Oracle, USA 2007.
http://docs.oracle.com/cd/B28359_01/server.1
11/b28313.pdf
Lara, Pablo; Martnez, Jos ngel. Agentes
Inteligentes en la bsqueda y recuperacin
de informacin. Ed. Planeta UOC, Barcelona,
2014.
http://eprints.ucm.es/5840/1/2004-LibAgentes.pdf
Ledford,
Jerri.
SEO
Search
Engine
Optimization. Ed. Wiley Publishing, USA,
2008. http://it-ebooks.info/book/1879/
Manning,
Christopher.
Introduction
to
Information
Retrieval.
Ed.
Cambridge
University Press, Inglaterra 2009. Biblioteca
Personal.
Maimon, Oded; Rokach, Lior. Data Mining
and knowledge Discovery Handbook. Ed.
Springer,
USA
2010,
2a
edicin.
http://www.cs.bme.hu/nagyadat/Data_Mining_
and_Knowledge_Discovery.pdf
Mitchell, Tom. Machine Learning. Ed.
McGraw-Hill
1997.
http://personal.disco.unimib.it/Vanneschi/McG
rawHill_-_Machine_Learning_Tom_Mitchell.pdf
Molina, Jos. Tcnicas de Anlisis de Datos
Aplicaciones prcticas utilizando Microsoft
Excel y Weka. Ed. Universidad Carlos III,
Madrid
2006.
http://www.giaa.inf.uc3m.es/docencia/II/ADato
s/apuntesAD.pdf
Murphy, Kevin. Machine Learning a
Probalistic Perspective. Ed. Massachusetts
Institute
of
Technology,
USA
2012.
http://www.cs.ubc.ca/~murphyk/MLbook/pmlintro-22may12.pdf
North, Matthew. Data Mining for the Masses.
Ed.
Creative
Commons
2012.
https://rapidminer.com/wpcontent/uploads/2013/10/DataMiningForTheM
[Pacheco, 2005]
[Prez, 2006]
[Pyle, 1999]
[Salton, 1988]
[Tan, 2006]
[Ullman, 2010]
[Varguez, 2012]
[Witten, 2011]
[Zaki, 2014]
asses.pdf
Pacheco Leal, Samuel. El clasificador Naive
Bayes en la Extraccin de Conocimiento de
Bases de Datos. Universidad Autnoma del
Estado de Nuevo Len. Mxico 2005.
Prez, Cesar; Santn, Daniel. Data Mining
Soluciones con Enterprise Miner. Ed.
Alfaomega, Madrid 2006 1 edicin.
Biblioteca Facultad de Ingeniera UAEMEX.
Pyle, Dorian. Data Preparation for Data
Mining. Ed. Morgan Kaufmann Publishers,
USA
1999.
http://www.temida.si/~bojan/MPS/materials/D
ata_preparation_for_data_mining.pdf
Salton, Gerard; Buckley, Christopher. TermWeighting Approaches In Automatic Text
Retrieval. Ed. Pergarson Press, Gran
Bretaa, 1988. Biblioteca Personal.
Tan, Pang-Ning; Steinbach, Michael; Kumar,
Vipin. Introduction to Data Mining. Ed.
Pearson Education, Boston 2006. Biblioteca
Facultad de Ingeniera UAEMEX.
Ullman, Jeffrey; Leskovec, Jure; Rajaraman,
Anand. Mining of Massive Datasets. Stanford
University,
USA
2010.
https://rapidminer.com/wpcontent/uploads/2013/10/DataMiningForTheM
asses.pdf
Varguez Moo, Martha. Clasificacin de
Documentos usando Maquinas de Vectores
de Apoyo. Facultad de Matemticas,
Universidad Autnoma de Yucatn, Mxico
2012. Biblioteca Personal.
Witten, Ian; Frank, Eibe; Hall, Mark. Data
Mining Practical Machine Learning Tools and
Techniques. Ed. Elsevier, USA 2011.
Zaki, Mohammed; Meira, Wagner. Data
Mining and Analysis Fundamental Concepts
and algorithms. Ed. Cambridge University
Press,
USA
2014.
http://www.cs.rpi.edu/~zaki/PaperDir/DMABO
OK.pdf

GarciaPro7 Dotx

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

GarciaPro7 Dotx

Încărcat de

Drepturi de autor:

Formate disponibile

Implementacin del algoritmo Id3 y J48 de weka

para procesamiento de datos meteorolgicos de

Este proceso consiste en una serie de pasos de transformacin, que

Integracin y recopilacin de datos

Seleccin, limpieza y transformacin

Para poder implementar la tcnica seleccionada, se debe proceder a elegir algn

ID3 y J48 son algoritmos de clasificacin, que podemos ejecutar con la

Un proceso tpico de minera de datos consta de los siguientes pasos generales:

3.- Planteamiento del Problema.

4.- Objetivo General.

Se ha realizado una Investigacin y anlisis de la informacin

2) Integracin y recopilacin de datos

Recolectar los datos que sern puestos a estudio, para poder

3) Seleccin, limpieza y transformacin

Seleccionar los datos meteorolgicos de Toluca correspondientes

Ajustar los datos meteorolgicos de Toluca para que puedan se

Aplicar los cambios correspondientes a los datos meteorolgicos de

Se ha realizado una Investigacin y anlisis de la informacin

6) Integracin y recopilacin de datos

Recolectar los datos que sern puestos a estudio, para poder

7) Seleccin, limpieza y transformacin

Seleccionar los datos meteorolgicos de Toluca correspondientes

Ajustar los datos meteorolgicos de Toluca para que puedan ser

Aplicar los cambios correspondientes a los datos meteorolgicos de

Aplicar las tcnicas de evaluacin para el algoritmo J48.

Aplicar las tcnicas de evaluacin para el algoritmo ID3..

10) Despliegue de los Resultados.

Se obtienen los resultados y se compara cul de los

8.- Marco Terico.

del [Hernndez, 2004], [Witten, 2011; ],

[Hernndez, 2004], [ Zaki, 2014],

Tcnicas de Minera de datos

[Hernndez, 2004], [Zaki, 2014], [Cao,

[Hernndez, 2004], [Witten, 2011],

del [Hernndez, 2004], [Witten, 2011],

Tcnicas de Minera de datos

[Hernndez, 2004], [Zaki, 2014], [Cao,

[Hernndez, 2004], [Zaki, 2014],

[Hernndez, 2004], [Witten, 2011],

9.- Estado del Arte

Agentes Inteligentes: el siguiente paso en la [Julin,200],[Botti,2000]

(IA: Inteligencia Artificial)

Pronstico de las tasas de cambio. una aplicacin [Duque, 2006],[Villada, 2006].

La minera de datos: anlisis de bases de datos en [CARIDAD Jos MI,2002]

[Riquelme Jos C.,2006].

ADVANCED STRING PATTERNSAn Empirical [Ouzhan,2007],

A Faster Quick Search Algorithm

10.- Marco Metodolgico.

[Chapman, 1999] [Cios, 2007]

Comprensin del negocio

[Chapman, 1999] [ Cios, 2007]

Comprensin de los datos

[Chapman, 1999] [Cios, 2007]

Preparacin de los datos

[Chapman, 1999] [Cios, 2007]

[Chapman, 1999] [Cios, 2007]

Despliegue de los Resultados

[Chapman, 1999] [ Cios, 2007]

WEKA - Aprendizaje automtico para [Chapman, 1999] [ Cios, 2007]

La interfaz de flujo del conocimiento

Tutorial de ejercicios para el explorador [Witten, 2011].

Implementacin de las tcnicas de [Molina, 2006]

Nosotros nos centramos en problemas de toma de decisiones en