Documente Academic
Documente Profesional
Documente Cultură
MODELO
DOCENTE
ALEXANDRA SORAYA BELTRN CASTRO
CONTENIDO
INTRODUCCIN ............................................................................................................. 4
1.1.
1.2.
2.1.
Definicin ............................................................................................................ 6
2.2.
2.3.
Caractersticas .................................................................................................... 7
2.4.
Usos .................................................................................................................... 8
2.5.
3.1.
4.1.
4.2.
EVALUACIN ................................................................................................... 14
5.1.
5.2.
EVALUACION ................................................................................................... 21
INTRODUCCIN
Teniendo en cuenta el gran avance en los sistemas de minera de datos desde el ltimo
siglo, las entidades han buscado maneras de explotar al mximo la informacin
existente en sus sistemas de informacin, esto basndose en tcnicas y software
especializados que permiten interpretacin fcil y real de los resultados.
Es as como para dar apoyo en la toma de decisiones a niveles administrativos o
gerenciales, se crean metodologas especializadas y tcnicas de extraccin adecuada
de la informacin, haciendo que el usuario final pueda ver los resultados en un solo clic
o con pocos pasos, por tanto y teniendo en cuenta lo anterior, se crea el presente
manual de usuario basado en la tecnologa de informacin y software especializado
WEKA (Waikato Environment for Knowledge Analysis) de la universidad de Waikato en
Nueva Zelanda, este utiliza tcnicas de minera de datos basndose en diferentes
reglas y tipos de clasificacin de informacin tales como rboles de decisin, reglas de
clasificacin, agrupamiento, etc.
Al contar con informacin al alcance de nuestra mano, podemos tomar mejor decisiones
en todos los procesos de una empresa u organizacin. Sin embargo a medida que va
aumentando la cantidad de informacin se hace ms tedioso el proceso de anlisis de
dichos datos almacenados por lo tanto se hace necesario usar herramientas o modelos
que permitan extraer informacin til de dicho conjunto de datos y as poder tomas
decisiones. Es en este momento que se hace uso de la Minera de datos (Data Mining)
la cual busca ayudar a procesar y analizar gran cantidades de datos con el fin de
aprovechar todo el conocimiento til que se encuentra en dichos datos.
La minera de datos es un proceso que nace de la necesidad de dar respuesta a una
pregunta o solucionar un problema por medio del anlisis de datos. Aunque el anlisis
de los datos es el ncleo de la minera de datos, tambin es de gran importancia la
ejecucin de otras etapas como la seleccin, preprocesado, seleccin de
caractersticas, extraccin del conocimiento y evaluacin.
Integrando las diferentes definiciones de la minera de datos se puede decir que esta
implica fundamentalmente el descubrimiento de nuevo conocimiento a partir de grandes
cantidades de datos almacenados, para as alcanzar una mejor comprensin y
entendimiento de los mismos con el fin de predecir su futuro comportamiento.
1. OBJETIVOS
1.1.
Objetivo General
Objetivos Especficos
2. HERRAMIENTA WEKA
2.1.
Definicin
WEKA (Gallirallus Australis) es una especie de ave gruiforme, del tamao de una
gallina, originaria de Nueva Zelanda. Fue utilizada como smbolo para el logotipo de la
herramienta de aprendizaje WEKA (Waikato Environment for Knowledge Analysis
Entorno para Anlisis del Conocimiento de Waikato), no solo por la coincidencia del
nombre sino por el origen comn, Nueva Zelanda, donde se encuentra la universidad
de Waikato. Es un software que ha sido desarrollado bajo licencia GPL4 lo cual ha
impulsado que sea una de las suites ms utilizadas en el rea en los ltimos aos; as
mismo es un software para el aprendizaje automtico o minera de datos
WEKA es una herramienta que permite la experimentacin de anlisis de datos
mediante la aplicacin, anlisis y evaluacin de las tcnicas ms relevantes de anlisis
de datos, principalmente las provenientes del aprendizaje automtico, sobre cualquier
conjunto de datos del usuario.
WEKA apoya muchas tareas de minera de datos, como el reprocesamiento de datos,
la clasificacin, clustering, regresin y funcin de seleccin entre otros. WEKA es un
entorno de trabajo que contiene una coleccin de herramientas de visualizacin y
algoritmos para el anlisis de datos y modelado predictivo, junto con las interfaces
grficas de usuario para facilitar el acceso a esta funcionalidad.
2.2.
Resea Histrica
2.3.
Caractersticas
Esta es una herramienta muy verstil que soporta muchas tareas estndar de la minera
de datos en especial tareas de procesamiento de datos, regresin, clasificacin,
clustering entre otras, as mismo permite la visualizacin y la seleccin de los datos.
2.3.2. Clasificacin
Tambin conocida como arboles de clasificacin o rboles de decisin, es
un algoritmo que crea una gua paso a paso sobre como determinar la
salida de una instancia de datos nuevas. El rbol que crea es
exactamente eso: un rbol donde cada nodo representa un lugar donde se
debe tomar una decisin en base a la entada y pasar al siguiente nodo y
el siguiente hasta llegar a una hoja que indica la salida predecible. Se
utiliza tambin un conjunto de entrenamiento para producir el modelo.
2.3.3. Clustering
Permite a un usuario hacer grupos de datos para determinar los patrones.
Tiene sus ventajas cuando el conjunto de datos est definido y un patrn
general tiene que ser determinado a partir de esos datos. Usted puede
crear un nmero determinado de grupos en funcin de las necesidades
del negocio.
Un beneficio del clustering sobre la clasificacin es que cada atributo en el
conjunto de datos se puede utilizar para analizar los datos. Una importante
desventaja es que se requiere que el usuario conozca de antemano el
nmero de grupos que quiere crear.
2.4.
Usos
WEKA posee un grupo de tcnicas que se pueden aplicar con xito a mltiples capos,
tales como el Marketing, manufactura, salud, energa, finanzas, medicina, entre otros,
para su aplicacin se debe de tener en cuenta el tipo de tarea que se desea realizar.
Con base a la tarea se puede implementar en para dar la solucin necesaria en cada
uno de estos campos, a continuacin se muestran una serie de tareas incluidas en
WEKA.
2.5.
Agrupamiento Numrico
Agrupamiento Simblico
2.5.5. Clasificacin
El problema de la clasificacin es el ms frecuente en la prctica. Una vez
aplicados los algoritmos no supervisados de agrupamiento y asociacin se
aplicara la clasificacin como un refinamiento en el anlisis. De esta
forma, construiremos un modelo que permita predecir la categora de las
instancias en funcin de una serie de atributos de entrada. La clase se
convertir en la variable objetivo a predecir.
Descripcin de atributos
DESCRIPCIN
Student's school ('GP' = Gabriel Pereira or 'MS' = Mousinho da
Silveira)
Student's sex ('F' = female or 'M' = male)
Student's age (from 15 to 22)
Student's home address type (Urban or Rural)
Family size ('LE3' = less or equal to 3 or 'GT3' = greater than 3)
Parent's cohabitation status
Weekly study time
Family educational support
Extra curricular activities (yes or no)
Internet access at home (yes or no)
With a romantic relationship (yes or no)
Quality of family relationships
Free time after school
Going out with friends
Workday alcohol consumption
Weekend alcohol consumption
Current health status
Final grade (from 0 to 20, output target)
4.2.
EVALUACIN
Figura 1
Figura 2
El
nmero
total
de
instancias
clasificadas
es
de
158.
Seguidamente se muestra el valor del ndice Kappa (-0.0348). Est ndice es una
medida de concordancia entre las categoras pronosticadas por el clasificador y las
categoras observadas, que tiene en cuenta las posibles concordancias debidas al
azar. Dnde:
o Si el valor es 1: Concordancia perfecta.
o Si el valor es 0: Concordancia debida al azar.
o Si el valor es negativo: Concordancia menor que la que cabra esperar
por azar.
Por lo tanto, en nuestro caso, tenemos un grado menor de concordancia.
Training Set
Test Split
5.2.
EVALUACION
Instancias: 158
Numero de Clusters: 3
6. ANALISIS DE RESULTADOS
7. CONCLUSIONES
8. BIBLIOGRAFIA