Sunteți pe pagina 1din 38

UNIVERSIDAD TECNICA ESTATAL DE QUEVEDO

FACULTAD DE CIENCIAS DE LA INGENIERIA

CARRERA DE INGENIERIA EN SISTEMA

PROYECTO 10

TAREA #2

TEMA MINERIA DE DATOS

ALUMNO: EDGAR TOALOMBO

PARALELO: U

TUTOR: Ing. RICARDO AGUIRRE

AO LECTIVO: 2016
Temas de minera de datos

Definicin de minera de datos

Es un mecanismo de explotacin, consistente en la bsqueda de informacin valiosa en


grandes volmenes de datos es el anlisis de archivos y bitcoras de transacciones, trabaja
a nivel del conocimiento con el fin de descubrir patrones, relaciones, reglas, asociaciones
o incluso excepciones tiles para la toma de decisiones (Jos C. Riquelme, Roberto Ruiz,
Karina Gilbert, 2006, pg. 11) afirma Hoy en da, los datos no estn restringidos a
tuplas representadas nicamente con nmeros o caracteres. El avance de la tecnologa para
la gestin de bases de datos hacedatos posiblehace integrarposible diferentesintegrar
tiposdiferentes detipos de datos, tales como imagen, video, texto, y otros datos numricos,
en una base de datos sencilla, facilitando el procesamientoel multimediaprocesamiento
multimedia

Como podemos investigar el tema de la minera de datos de cmo se


produce gran cantidad de informacin, y de cmo se podra automatizar
el almacenamiento de gran cantidad de informacin la minera de datos
se aplica segn la revista (Jos C. Riquelme, Roberto Ruiz, Karina
Gilbert, 2006, pg. 14) afirma en

Aspectos climatolgicos: prediccin de tormentas, etc.

medicina: encontrar la probabilidad de una respuesta satisfactoria a un


tratamiento mdico.

mercadotecnia: identificar clientes susceptibles de responder a


ofertas de productos y servicios por correo, fidelidad de clientes,
afinidad de productos, etc.

inversin en casas de bolsa y banca: anlisis de clientes, aprobacin de


prstamos, determinacin de montos de crdito, etc.
Deteccin de fraudes y comportamientos inusuales: telefnicos,
seguros, en tarjetas de crdito, de evasin fiscal, electricidad, etc.

Anlisis de canastas de mercado: para mejorar la organizacin de


tiendas, segmentacin de mercado (clustering).

Determinacin de niveles de audiencia: de programas televisivos.

Industria y manufactura: diagnstico de fallas.

Definicin de Bodega de datos

Una Bodega de Datos es una base de datos que organiza y


almacena una coleccin de informacin derivada directamente
de los sistemas operacionales y de algunos datos externos es un
recurso muy importantes en cada organizacin como nos cita
(Dr.JosTorresJimnez, Octubre 2011, pg. 11) Bodega de Datos
es un recurso integrado de datos que est basado en un modelo
de datos que permita aglutinar informacin histrica
proveniente de sistemas de procesamiento de transacciones en
lnea (OLTP) y cuyo objetivo es proporcionar informacin
pertinente para el proceso de toma de decisiones en las
empresas.

Para la identificacin origen y alimentacin y suministro de


bodega de datos muchas organizaciones tienen sistemas para su
debido almacenamiento. Cada organizacin deber ofrecer la
informacin necesaria sobre los distintos sistemas de
almacenamiento que hacen uso concerniente de las operaciones
primordiales de sus procesos el cual este articulo nos cita tres
fuentes de datos (Sarmiento, 2011, pg. 71)

Access

Programa, utilizado en los sistemas operativos Microsoft


Windows, para la gestin de bases de datos creado y modificado
por Microsoft y orientado a ser usado en entornos personales o
en pequeas organizaciones

PostgreSQL

Es un sistema de gestin de bases de datos que trabaja bajo


elbajo paradigmael Objetoparadigma Objeto-Relacional (Relacional
(ORDBMS) basado en el proyecto POSTGRES, de la universidad
de Berkeley

MySQL

Es un sistema de gestin de bases de datos relacional,


licenciado bajo la GPL de la GNU. Su diseo multihilo le permite
soportar una gran carga de forma muy eficiente

Una Bodega de Datos debe entregar la informacin correcta a la


gente indicada en el momento adecuado en el formato correcto
(Dr.JosTorresJimnez, Octubre 2011, pg. 12)
Unas de las maneras podramos decir clsicas de
almacenamiento de informacin en el mtodo de modelo
dimensional el cual consiste en guardar la informacin usando
un paradigma de cubos usando hipervnculos modelado
dimensional se maneja el concepto de reportes bajo demanda,
es decir el usuario dinmicamente decide cmo quiere ver los
datos y el sistema construye dicho reporte

el modelado multidimensional de una bodega de datos, donde el


objetivo ltimo es presentar los datos para facilitar su anlisis y
el proceso de toma de decisiones, en el modelado de bases de
datos relacionales se busca el tener un modelo con el mnimo de
redundancia para economizar el espacio ocupado por los datos y
de ser posible eficiente el acceso.

Describir el proceso KDD

Acorde a lo entendido el proceso KDD No es un proceso


automtico, es un proceso iterativo que exhaustivamente
explora volmenes muy grandes de datos Para ello hay que
imaginar qu datos se necesitan, dnde se pueden
encontrar y cmo conseguirlos. para determinar relaciones.
Una vezUna sevez se tienen lostienen datoslos adecuadosdatos
seadecuados procedese procede a la minera de datos, proceso
en el que se seleccionarn las herramientas y tcnicas
adecuadas para lograr los objetivos pretendidos para ms
entendimiento este articulo nos muestra una imagen de cmo es
el proceso de KDD (Jess Garca Herrero, 2012)

El proceso KDD es un numero de pasos elpasos el cual incluye


muchas decisiones que debe tomar el usuario a continuacin
noscontinuacin nos cita ciertos pasos sobre el proceso KDD
(Varela, 2006, pg. 7)
Comprensin del dominio de la aplicacin, del
conocimiento relevante y de los objetivos del usuario final.

Creacin del conjunto de datos: consiste en la seleccin del


conjunto de datos, odatos, delo subconjuntodel
desubconjunto variablesde ovariables muestrao demuestra
datosde , sobredatos, lossobre los cuales se va a realizar el
descubrimiento.

Limpieza y pre procesamiento de los datos: Se


compone de las operaciones, tales como: recoleccin de
la informacin necesaria sobre la cual se va a realizar el
proceso, decidir las estrategias sobre la forma en queen
seque vanse avan manejara losmanejar camposlos
decampos losde datoslos nodatos disponiblesno disponibles,
estimacin del tiempo de la informacin y sus posibles
cambios.

Reduccin de losde datoslos ydatos proyecciny proyeccin:


Encontrar lasEncontrar caractersticaslas mscaractersticas
ms significativas parasignificativas representarpara
losrepresentar datoslos , dependiendodatos, dependiendo del
objetivo del proceso. En esteEn pasoeste sepaso
puedense utilizarpueden mtodosutilizar demtodos
transformacinde transformacin para reducirpara elreducir
nmeroel efectivonmero deefectivo variablesde avariables
sera consideradasser consideradas o para encontrar otras
representaciones de los datos.

Elegir la tarea de Minera de Datos: Decidir si el objetivo


del proceso de KDD es: Regresin, Clasificacin,
Agrupamiento, etc.
Eleccin del algoritmo(s) de Minera de Datos: Seleccin
del mtodo(s) a ser utilizadoser parautilizado buscarpara
losbuscar patroneslos enpatrones losen datoslos datos.
Incluye ademsIncluye laadems la decisin sobre que
modelos y parmetros pueden ser los ms
apropiados.

Minera de Datos: Consiste en la bsqueda de los patrones


de inters en una determinadauna formadeterminada
deforma representacinde orepresentacin sobreo unsobre
conjuntoun deconjunto de representaciones, utilizando para
ello mtodos de clasificacin, reglas o rboles, regresin,
agrupacin, etc.

Interpretacin de los patrones encontrados.


Dependiendo de los resultados, aresultados, vecesa
seveces hacese necesariohace regresarnecesario aregresar
unoa deuno losde pasoslos pasos anteriores.

Consolidacin del conocimiento descubierto:


consiste en la incorporacin deincorporacin estede
conocimientoeste alconocimiento funcionamientoal
delfuncionamiento sistemadel , osistema, o simplemente
documentacin e informacin a las partes interesadas
Minera de datos versus la estadstica

Entendemos por estadstica generalmente analiza muestras de


datos para luego hacer inferencia a toda la poblacin, mientras
que la minera de datos pretende buscar informacin til usando
toda la base de datos.

La estadstica en la mayora de los casos supone que los datos


se comportan de acuerdo a ciertas distribuciones de
probabilidad (normal, binomial, geomtrica, etc.), mientras que
en la minera de datos se usan tcnicas mucho ms
exploratorias que vienen de la inteligencia artificial.

Pero lo quelo seque pretendese pretende en este punto es


explicar las diferencias entre minera de datos y estadstica,
desde una perspectiva constructiva en el uso de ambas
herramientas analticas y bajo un contexto empresarial como
explica en este prrafo (Lopez, 2015, pg. 1) Las tcnicas
estadsticas se centran generalmente en tcnicas
confirmatorias, mientras que las tcnicas de data mining
son generalmente exploratorias. As, cuandoAs, elcuando el
problema alproblema queal pretendemosque darpretendemos
respuestadar esrespuesta refutares orefutar confirmaro
unaconfirmar hiptesisuna hiptesis, podremos utilizar ambas
ciencias (diferentes conclusiones y ms robusta la estadstica).
Sin embargo, cuandoembargo, cuando el objetivo es
meramente exploratorio ( (para concretar un problema o
definir cules son las variables ms interesantes en un
sistema de informacin) surgeinformacin) lasurge necesidadla
denecesidad delegarde delegar parte del conocimiento analtico
de la empresa en tcnicas de aprendizaje (inteligencia
artificial), utilizando data mining

Las tcnicasLas detcnicas datade data mining sonminino


menosson restrictivasmenos querestrictivas lasque estadistaslas
estadistas. Una vezUna vez encontrado unencontrado puntoun
depunto partidade interesantepartida yinteresante dispuestosy
adispuestos utilizara algnutilizar algn anlisis estadstico en
particular (por ejemplo, discriminante para diferenciar
segmentos de mercado), puede suceder que los datos no
satisfagan los requerimientos del anlisis estadstico.
Entonces, lasEntonces, las variables debern ser examinadas
para determinar qu tratamiento permite adecuarlas al
anlisis, no siendo posible o conveniente en todos los casos.
Aqu tambinAqu destacatambin ladestaca datala miningdata ,
puestomining, quepuesto esque menoses restrictivomenos
querestrictivo laque la estadstica y permite ser utilizado
con los mnimos supuesto posibles ( (permite escuchar a
los datos).

Se han detallado en los textos citados algunos argumentos


acerca de cundo es conveniente utilizar minera de datos o
estadstica. Llegado a este punto deseamospunto
destacardeseamos quedestacar ambasque ambas son
indispensables y que no son excluyentes una de la otra. En este
sentido, la metodologa de un proyecto de minera de datos ha
de contener referencias a la estadstica en dos partes
destacables del proceso:
Preparacin de los datos (datos (tratamiento detratamiento
valoresde errneosvalores , valoreserrneos, omitidos,...valores
omitidos) y,) y aproximacin a las variables de estudio.

Despliegue del proyecto y posible generacin de


hiptesis a refutar con una metodologa y tcnica
estadstica.

As pues, lapues, la minera de datos ydatos estadsticay


sonestadstica tcnicasson complementariastcnicas
quecomplementarias permitenque obtenerpermiten obtener
conocimiento inditoconocimiento enindito nuestrosen nuestros
almacenes de datos o dar respuestas a cuestiones concretas
de negocio.

Describir que es el Analyse des Donnes y su diferencia con las


minerala minera de datos

Esta nueva manera de analizar los datos con un objetivo decisional


usa mucho ms la informtica y los mtodos analticos (el anlisis
de factorial, la clasificacin automtica, la discriminacin, etc.)
que los mtodos estadsticos clsicos, las pruebas de hiptesis,
que parten de supuestos matemticos muy difciles de verificar
en la prctica. (Ej. no se supone que los datos siguen cierta
distribucin de probabilidad los datos se muestran por si
mismos).
A diferencia de la minera de datos, el anlisis de datos usualmente
no es automatizado, ni trata con volmenes de datos tan
grandes

Descripcin de Datamining

El proceso ms importante es el de Minera de Datos o DM (Data


Mining). Una definicin formal de la DM sera: La minera de
datos es el proceso automtico para el descubrimiento de
informacin til en grandes cantidades de datos. Este proceso
es un campo multidisciplinario, en el que se pretende predecir
resultados y/o descubrir relaciones entre los diferentes datos.
Las diferentes tareas que puede realizar la expuesto este
articulo (CLAUDIO PALMA, 2014)

Clasificacin:

Mediante la clasificacin se busca encontrar un modelo


que pueda predecir el comportamiento de una variable a
partir de sus caractersticas.

Anlisis de Asociaciones:

Estas tcnicas pretenden sacar patrones de las relaciones


que hay entre diferentes rasgos de los datos.

Deteccin de Anomalas:
El objetivo de la deteccin de anomalas es encontrar
aquellos elementos o caractersticas que son
significativamente diferentes del resto de los datos.

Dentro de la clasificacin, quiz la tarea ms extendida,


tenemos varios algoritmos que se

pueden utilizar

rboles de decisin

Basados en reglas

Redes neuronales

Basados en Clusters

Redes Bayesianas

Descripcin de Web miningminera web

Lo entendido se conoce como el uso de tcnicas de minera de


datos para descubrir y extraer informacin automticamente
desde la Word Wide Web utilizando para ello herramientas de
minera web que analizan y procesan los datos de la web con el
fin de producir informacin significativa. Debido a que los
contenidos de Internet se componen de varios tipos de datos,
como el texto, imagen, vdeo, metadatos o los enlaces,
investigaciones Los accesos totales por dominio, horarios de
accesos ms frecuentes y visitas por da, entre otros datos, son
registrados por herramientas estadsticas que complementan
todo el proceso de anlisis de la minera de datos. Para lograrlo
la minera web se descompone en las siguientes tareas:
recientes usan el trmino Minera de Datos Multimedia
descripcin de Web mining (Varela, Forinf@ Online, 2006)
expone Los accesos totales por dominio, horarios de accesos
ms frecuentes y visitas por da, entre otros datos, son
registrados por herramientas estadsticas que complementan
todo el proceso de anlisis de la minera de datos

a) Descubrimiento de recursos: localizacin de documentos


relevantes o no de la red. sta es la funcin de los ndices
buscadores (que extraen contenido basndose en palabras,
zonas del documento, idioma) y de los ndices temticos (que
clasifican los documentos).

b) Extraccin de informacin: extraccin de determinada


informacin a partir de un documento, independientemente de
su formato (HTML, XML, texto, etc.).

c) Generalizacin: descubrimiento de patrones generales a


partir de sitios web individuales (agrupamiento de documentos
o clustering, asociaciones entre documentos).

d) Anlisis, validacin e interpretacin de los patrones

Por lo tanto, segn lo citado en los textos la minera web utiliza las
tcnicas de la minera de datos para descubrir automticamente los
documentos y servicios de la web y extraer informacin de ellos
informacin que implica distintos tipos de datos: texto, semi-
estructurado, imgenes, audio, entre otros. As el mbito de accin
intenta involucra problemas que permitan entender mejor la Web, el
cmo aprovechar la informacin que contiene y facilitar el acceso a ella

Descripcin de Cubos OLAP

Un cubo OLAP es una estructura de datos que supera las limitaciones de


las bases de datos relacionales y proporciona un anlisis rpido de
datos. Los cubos pueden mostrar y sumar grandes cantidades de datos,
a la vez que proporcionan a los usuarios acceso mediante bsqueda a
los puntos de datos. De este modo, los datos se pueden resumir o
reorganizar segn sea necesario, para procesar la variedad ms amplia
de preguntas pertinentes al rea de inters de un usuario. (Ibarra,
2006) modelo de datos OLAP, la informacin es vista como cubos los
cuales consisten de categoras descriptivas dimensionales y valore
cuantitativos. el modelo de datos multidimensionales simplifica a los
usuarios formular consultas complejas arreglar datos en un reporte,
cambiar de datos resumidos a datos detallados y filtrar o rebanar los
datos en subconjuntos significativos

OLAP comprende varias operaciones analticas bsicas, incluidas la


consolidacin, drill-Down y living and dicen

Consolidacin esta comprende el conjunto de datos esto puede


involucrar a acumulaciones simples o agrupaciones complejas que
incluyen datos interrelacionados

Drill-Down OLAP puede moverse en la direccin contraria y presentar


automticamente datos detallados que abarcan datos consolidados

Living and dicen se refiere a la capacidad de visualizar las bases de


datos desde diferentes puntos de vista
Las utilidades que presentan a las aplicaciones OLAP, tienen acceso a
grandes cantidades de datos ejemplo varios aos de datos de ventas en
una bodega

Analizan las relaciones entre muchos tipos de elementos empresariales


como ventas, productos, regiones y canales

Descripcin de Machine learning laringe

A grandes rasgos podramos decir que el Machine Liaoning o


aprendizaje automtico es un tipo de Inteligencia Artificial
dirigido al desarrollo de tcnicas para que las mquinas puedan
aprender y tomar decisiones por s mismas.

Este aprendizaje es posible gracias a la deteccin de patrones


dentro de un conjunto de datos de manera que es el propio
programa el que predice qu situaciones podran darse o no.
Estos clculos son los que les permiten aprender para,
finalmente, generar decisiones y resultados fiables.

En pocas palabras, podra afirmarse que su impacto est siendo


y ser enorme. A corto plazo lo ms probable es que el Machine
Liaoning se siga empleando como una solucin adquirida. Sin
embargo, a largo plazo ser muy posible encontrar mtodos de
Machine Liaoning diseados a medida segn las necesidades de
cada empresa. (Gonzales, 2014)

El aprendizaje automtico prcticamente cuenta con tantas


aplicaciones como imaginemos, pudindose adaptar a tantas
situaciones como datos con los que contemos.

Motores de bsqueda, diagnsticos mdicos, reconocimiento del


habla y del lenguaje, robtica Entre otras, stas son algunas
de las actividades de nuestro da a da que se ven impulsadas
por el machine laringe:

Deteccin de rostro. Podemos verlo en nuestras cmaras


mviles.

Reconocimiento facial, de voz o de objetos.

Buscadores. Para mejorar los resultados y sugerencias de


bsqueda.

Anti-spam. Mediante el uso de etiquetas.

Anti-virus. Para la deteccin de software malicioso.


Gentica. Por ejemplo, en la clasificacin de secuencias
de ADN.

Prediccin y pronsticos. De clima, trfico o para evitar


fallos tecnolgicos en equipos.

Comprensin de textos. Se aplica a resmenes


estructurados de noticias o comentarios sobre un tema
especfico.

Vehculos autnomos y robots.

Mtodos de optimizacin ms rpidos y flexibles. Se


evala qu momento es el adecuado para una tarea
concreta.

Anlisis de imgenes de alta calidad.

Anlisis de datos econmicos. Para operar en el mercado


de valores o evitar el fraude en transacciones.

Anlisis de comportamiento de consumo y productividad.


Para la identificacin de clientes potenciales, prever qu
empleados pueden ser ms rentables, adaptar servicios a
las necesidades del usuario

El Machine Liaoning resulta especialmente efectivo en


problemas de naturaleza compleja en los que la aplicacin de
algoritmos ayuda a la obtencin de soluciones precisas y, claro
est, con el consecuente ahorro de tiempo que este mtodo
implica
Aplicaciones de la minera de datos

Cuando se habla de minera de datos, aplicaciones,


herramientas y soluciones trabajan de forma conjunta para
lograr un objetivo comn: garantizar la calidad de los datos. Se
busca llegar a un nivel que aporte fiabilidad a la toma de
decisiones, asegurando que con ellos se crea un conocimiento
slido, ntegro y completo. (Marqus, 2014)

Clasificacin [predictivo]

Clustering[descriptivo]

Descubrimiento Regla Asociacin [descriptivo]

Anlisis de dependencia de datos

correlacin y causalidad

Descubrimiento Patrones Secuenciales [descriptivo]

Anlisis de series de tiempo, asociaciones secuenciales

Regresin [predictivo]

Tendencia y Desviacin de deteccin [predictivo]

Filtros Colaborativos [predictivo]

Resumir

Descripcin de Conceptos

Descripcin de caractersticas
descripcin discriminante

Minera de datos descriptivas (patrones)

Los Mtodos Descriptivos o aprendizaje no supervisado


permiten formar grupos de datos rpidamente, tambin son
conocidos como mtodos simtricos, no supervisados o
indirectos (Jess Garca Herrero, 2012) Las observaciones son
generalmente clasificadas en grupos que no son conocidos con
anterioridad, los elementos de las variables pueden estar
conectados entre s de acuerdo a vnculos desconocidos de
antemano, de esta manera, todas las variables disponibles son
tratados en el mismo nivel y no hay hiptesis de causalidad.

Las Tcnicas Descriptivas estn orientadas a describir un


conjunto de datos.

Como mtodos de clasificacin supervisada (prediccin de


variables cualitativas), algunas tcnicas son

Clasificacin basada en rboles de decisin

Modelo de clasificacin en forma de rbol de decisin

Procesando tanto variables cuantitativas como cualitativas

Tcnicas de podado, que proporciona rboles de menor tamao

Son escalables, pudiendo procesar conjuntos con independencia


del nmero de clases, atributos y registros

CLASIFICACIN NEURONAL
Basada en redes neuronales de propagacin hacia atrs

Detecta de forma automtica la topologa ms adecuada para


cada problema, aunque permite especificar una concreta

Realiza un anlisis de sensibilidad para detectar las variables


ms significativas para cada topologa

ANLISIS DE ASOCIACIONES

Los anlisis de asociaciones y patrones secuenciales permiten


extraer informacin desconocida de los hbitos de compra:

Anlisis de asociaciones

Detecta elementos en una transaccin que implican la presencia


de otros elementos en sta misma

Expresa las afinidades entre elementos en forma de reglas de


asociacin

Informacin segura y confiable.

Se usa como alternativa para la toma de decisiones en una


organizacin.

Permite tener de una manera ms organizada los datos con


el fin de poder extraer informes especficos en
determinados ciclos de tiempo.

Brinda una estructura robusta en el almacenamiento de


datos.
Minera de datos predictivas

Los Mtodos predictivos o de Aprendizaje supervisado se basan


en entrenar a un modelo o mtodo por medio de diferentes
datos para poder predecir una variable partiendo de estos
mismos datos (Jess Garca Herrero, 2012) es describir una o
ms de las variables en relacin con todas las dems, son
conocidos como mtodos asimtricos, supervisados o directos.
Se llevan a cabo mediante la bsqueda de normas de
clasificacin o de prediccin basada en los datos, estas normas
nos ayudan a predecir o clasificar el resultado futuro de una o
ms variables de respuesta o de destino en relacin a lo que
ocurre en la prctica con los motivos que la causan o bien en
relacin con las variables de entrada. Los principales mtodos
de este tipo son los desarrollados en el mbito de la mquina de
aprendizaje, tales como las redes neuronales (perceptrn de
multicapa y rboles de decisin), como tambin lo son modelos
estadsticos clsicos, como los modelos de regresin lineal y
logstica.

Las Tcnicas Predictivas estn orientadas a la prediccin de


valores de salida

Para la estimacin de variables cuantitativas, los mtodos ms


empleados son

Funciones de base radial

Pueden procesar variables cuantitativas y cualitativas a la vez.


Detecta el nmero de centroides ptimo, predefiniendo el
nmero mximo de stos y el nmero mnimo de registros
asignados a cada centro.

Funciona especialmente bien cuando la estructura de los datos


tiende a agruparse en conjuntos, ya que implementa cierto tipo
de segmentacin.

PREDICCIN NEURONAL

Basada en redes neuronales de propagacin hacia atrs.

Detecta de forma automtica la topologa ms adecuada para


cada problema, aunque permite especificar una concreta.

Permite predecir datos en forma de series temporales

Permite implementar regresin logstica.

Tipos de datos que se trabaja la minera de datos

Cuando cree un modelo o una estructura de minera en Microsoft


SQL Server Anlisis Cervices, deber definir los tipos de datos
de cada una de las columnas de la estructura. Los tipos de datos
indican al motor de anlisis si los datos del origen de datos son
numricos o de texto y cmo deben procesarse los datos
(Vallejos, 2006) Anlisis Cervices admite los tipos de datos
siguientes para las columnas de estructura de minera:

Tipo de datos Tipos de contenido admitidos


Texto Cyclical, Discrete, Discretized,
Key Sequence, Ordered,
Sequence
Long Continuous, Cyclical, Discrete,
Discretized, Key, Key
Sequence, Key Time, Ordered,
Sequence, Time

Classified
Boolean Cyclical, Discrete, Ordered
Double Continuous, Cyclical, Discrete,
Discretized, Key, Key
Sequence, Key Time, Ordered,
Sequence, Time

Classified
Date Continuous, Cyclical, Discrete,
Discretized, Key, Key
Sequence, Key Time, Ordered
Si crea el modelo de minera directamente con Extensiones de
minera de datos (DMX), puede definir el tipo de datos de cada
columna cuando defina el modelo y Anlisis Cervices crear la
estructura de minera correspondiente con los tipos de datos
especificados al mismo tiempo. Si crea el modelo o la estructura
de minera con un asistente, Anlisis Services le sugerir un tipo
de datos o podr elegir uno de una lista.

Describa datawarehouse y uso en la actualidad

Es unaEs coleccinuna decoleccin datosde datos orientada


aorientada una determinadoun mbitodeterminado (mbito
(empresa, organizacin, etc.), integrado, no voltil y variable
en el tiempo, que ayuda a la toma de decisiones en la entidad en
la que se utiliza (Jess Garca Herrero, 2012)

Extrae la informacin operacional.

Transforma la operacin a formatos consistentes.

Automatiza las tareaslas detareas lade informacinla


parainformacin prepararlapara aprepararla una anlisisun anlisis
eficiente.

Manejo de relaciones de marketing.

Anlisis de rentabilidad.

Reduccin de costos.

Descripcin de Data martmart y un ejemplo

Un DatamartData mart es una base de datos departamental,


especializada en el almacenamiento de los datos de un rea de
negocio especfica. Se caracteriza por disponer la estructura
ptima de datos para analizar la informacin al detalle desde
todas las perspectivas que afecten a los procesos de dicho
departamento

Un Data Mart es una versionversin especial almacn de datos


(data warehouse).

La diferencia principal es que la creacin de un datauna data mart


es especificaespecfica para una necesidad de datos
seleccionados, enfatizando el fcil acceso a una informacin
relevante.

Los productos Data Warehouse han nacido para resolver


problemas de anlisis de grandes masas de informacin.

simplifica el desarrollo de todo el mecanismo de su base de


datos y con ello baja substancialmente todo el coste del
proyecto, as como su duracin. Normalmente, Data Martmart
resuelve aplicaciones a nivel departamental. (Barragan, 2012)

Fcil acceso a los datos que se necesitan frecuentemente.

Crea vista colectiva para grupo de usuarios.

Mejora el tiempo de respuesta del usuario final.

Facilidad de creacin.

Costo inferior al de la aplicacin de un completo almacn de datos.

Los usuarios potenciales son ms claramente identificables que en un


almacn de datos completo...

Dar a los usuarios acceso a los datos que ellos necesitan para
analizarlos masms a menudo

Pueden fcilmente extenderse a la toma de decisiones estratgicas, que


pueden brindar beneficios grandes y tangibles

Permite entender y administrar simultneamente macro y micro


perspectivas del rea de comercio exterior, lo que puede ahorrar
incontables horas de trabajo y ayudar a evitar errores que pueden ser el
resultado de suposiciones que se hicieron con base en datos
incompletos o incorrectos.

La diferencia principal es que la creacin de un datauna data mart es


especificaespecfica para una necesidad de datos seleccionados,
enfatizando el fcil acceso a una informacin relevante.

Los productos Data Warehouse han nacido para resolver problemas de


anlisis de grandes masas de informacin.

Ciclo de un proyecto de minera de datos

Los pasos a seguir para la realizacin de un proyecto de minera de


datos son siempre los mismos, independientemente de la tcnica
especfica de extraccin de conocimiento. A la hora de implantar la
tcnica de minera de datos en un determinado proyecto, hay seguir el
siguiente ciclo:

(Jos Manuel Molina Lpez, 2012)

Entendimiento del negocio: Formulacin del problema de


negocio (uno de los ya antes mencionados: previsin, gestin de
riesgos, segmentacin de clientes).

2. Entendimiento de los datos: Recoleccin de datos.

3. Preparacin de los datos:


- Transformacin de datos: Generalmente, el formato de los
datos contenidos en las fuentes de datos no es el idneo, y la
mayora de las veces no es posible aplicar algn algoritmo de
minera sobre los datos iniciales sin que requieran algn cambio
(Por ejemplo, transformaciones numricas).

- Limpieza o filtrado de datos: En esta fase filtran los datos con


el objetivo de eliminar valores errneos o desconocidos, segn
las necesidades y el algoritmo a utilizar.

- Pre procesado: Se analizan las propiedades de los datos, en


especial los histogramas, diagramas de dispersin, presencia de
valores atpicos y ausencia de datos (valores nulos) y se
obtienen muestras de los datos en busca de mayor velocidad y
eficiencia de los algoritmos o se reduce el nmero de valores
posibles, mediante tareas como:

- Redondeo

- Agrupacin

- Agregacin

4. Modelado: Creacin del modelo.

- Seleccin de variables: Despus de haber sido pre procesados


y realizar la limpieza de datos, se sigue teniendo una cantidad
enorme de variables o atributos. La seleccin de caractersticas
reduce el tamao de los datos, eligiendo las variables ms
influyentes del problema, sin apenas sacrificar la calidad del
modelo de conocimiento obtenido del proceso de minera. Los
mtodos para la seleccin de los atributos que ms influencia
tienen en el problema son bsicamente dos:

Aquellos basados en la eleccin de los mejores atributos


del problema.

Aquellos que buscan variables independientes mediante


test de sensibilidad, algoritmos de distancia o
heursticos.

- Extraccin de Conocimiento: La extraccin del conocimiento es


la esencia de la Minera de Datos donde mediante una tcnica,
se obtiene un modelo de conocimiento, que representa patrones
de comportamiento observados en los valores de las variables
del problema o relaciones de asociacin entre dichas variables.
Los modelos que se generan son expresados de diversas formas:

- Reglas

- rboles

- Redes neuronales

Tambin pueden usarse varias tcnicas a la vez para generar


distintos modelos, aunque generalmente cada tcnica obliga a
un pre procesado diferente de los datos. Normalmente se suele
seguir el procedimiento de prueba y error.

5. Evaluacin: Evaluacin de la integridad del modelo en el


negocio. Una vez obtenido el modelo, se procede a su
validacin; comprobando que las

conclusiones obtenidas son vlidas y satisfactorias. En el caso


de haber obtenido varios modelos mediante el uso de distintas
tcnicas, se deben comparar los modelos para buscar el que
mejor se ajuste al problema.

Si ninguno de los modelos alcanza los resultados esperados,


debe modificarse alguna de las fases anteriores para generar
nuevos modelos. Esta retroalimentacin se podr repetir
cuantas veces se considere necesario hasta obtener un modelo
vlido.

Una vez validado el modelo, si resulta ser aceptable


(proporciona salidas adecuadas y/o con mrgenes de error
admisibles) ste ya est listo para su explotacin e
implantacin.

6. Implantacin: Integracin en aplicaciones para solucionar el


problema de negocio expuesto

Como ya se ha comentado, las tcnicas de la minera de datos


provienen de la Inteligencia artificial y de la estadstica, dichas
tcnicas, no son ms que algoritmos, ms o menos sofisticados
que se aplican sobre un conjunto de datos para obtener unos
resultados.

Modelos de minera de datos


un modelo de minera de datos se crea mediante la aplicacin de
un algoritmo a los datos, pero es algo ms que un algoritmo o
un contenedor de metadatos: es un conjunto de datos,
estadsticas y patrones que se pueden aplicar a los nuevos
datos para generar predicciones y deducir relaciones (Marqus,
2014)

Arquitectura del modelo de minera de datos

La estructura de minera de datos almacena la informacin que


define el origen de datos. Un modelo de minera de datos
almacena la informacin derivada del procesamiento estadstico
de los datos, como los patrones encontrados como resultado del
anlisis.

Definir modelos de minera de datos

Para crear un modelo de minera de datos, siga estos pasos


generales:

Cree la estructura de minera de datos subyacente e incluya las


columnas de datos que sean necesarias.
Seleccione el algoritmo ms adecuado para la tarea analtica.

Elija las columnas de la estructura que se incluirn en el modelo


y especifique cmo se deben usar, es decir, qu columna
contiene el resultado que desea predecir, qu columnas son
nicamente para la entrada, etc.

Opcionalmente, puede establecer los parmetros para ajustar el


procesamiento del algoritmo.

Rellene el modelo con datos procesando la estructura y el


modelo.

Propiedades del modelo de minera de datos

Cada modelo de minera de datos tambin tiene propiedades


que se derivan de la estructura de minera de datos y que
describen las columnas de datos que usa. Si alguna de las
columnas que usa el modelo es una tabla anidada, tambin se le
puede aplicar un filtro independiente.

la propiedad Algoritmo se aplica al modelo de minera de datos y


puede establecerse solo una vez para cada modelo. Puede
cambiar el algoritmo ms tarde, pero algunas columnas del
modelo de minera de datos podran dejar de ser vlidas si el
algoritmo elegido no las admite. Siempre debe volver a procesar
el modelo despus de modificar esta propiedad.

La propiedad Usage define cmo usa el modelo cada columna.


Puede definir el uso de la columna como Input, Predict, Predict
Onlyo Key. La propiedad Usage se aplica a las columnas de
modelo de minera de datos individuales y debe establecerse
individualmente para cada columna que se incluye en un modelo
Columnas del modelo de minera de datos

Como parte del proceso de generacin del modelo, tambin


debe definir el uso que va a dar el modelo a la columna. Eso
incluye informacin que indique si la columna es una clave, si se
usa para la prediccin o si puede omitirla el algoritmo.

Procesar modelos de minera de datos

Al procesar un modelo, los datos que la estructura almacena en


memoria cach se pasanlas estructuras almacenas en memoria cach se
pasan a travs de un filtro, si se ha definido alguno en el modelo,
y el algoritmo los analiza. El algoritmo calcula un conjunto de
estadsticas de resumen que describen los datos, identifica las
reglas y los patrones en los datos, y despus usa dichas reglas y
patrones para rellenar el modelo

Ver y consultar modelos de minera de datos

Despus de haber procesado un modelo, puede explorarlo


usando los visores personalizados que se proporcionan en SQL
Server Data Tools (SSDT) y SQL Server Management Studio. Para

Tambin puede crear consultas en el modelo de minera de datos


para realizar predicciones o recuperar los metadatos del modelo
o los patrones que este crea. Las consultas se crean con
Extensiones de minera de datos (DMX).
Metodologa para desarrollopara desarrollo de minera de datos
CRISP-DM

incluye un modelo y una gua, estructurados en seis fases,


algunas de estas fases son bidireccionales, lo que significa que
algunas fases permitirn revisar parcial o totalmente las fases
anteriores. (Microsoft Corporation., 2012)

Comprensin del negocio (Objetivos y requerimientos desde una


perspectiva no tcnica)

Establecimiento de los objetivos del negocio (Contexto inicial,


objetivos, criterios de xito)

Evaluacin de la situacin (Inventario de recursos,


requerimientos, supuestos, terminologas propias del negocio,
negocio,)

Establecimiento de los objetivos de la minera de datos


(objetivos y criterios de xito)

Generacin del plan del proyecto (plan, herramientas, equipo y


tcnicas)

Comprensin de los datos (Familiarizarse con los datos teniendo


presente los objetivos del negocio)

Recopilacin inicial de datos

Descripcin de los datos


Exploracin de los datos

Verificacin de calidad de datos

Preparacin de los datos (Obtener la vista minable o dataset)

Seleccin de los datos

Limpieza de datos

Construccin de datos

Integracin de datos

Formateo de datos

Modelado (Aplicar las tcnicas de minera de datos a los


dataset)

Seleccin de la tcnica de modelado

Diseo de la evaluacin

Construccin del modelo

Evaluacin del modelo

Evaluacin (De los modelos de la fase anteriores para


determinar si son tiles a las necesidades del negocio)
Evaluacin de resultados

Revisar el proceso

Establecimiento de los siguientes pasos o acciones

Despliegue (Explotar utilidad de los modelos, integrndolos en


las tareas de toma de decisiones de la organizacin)

Planificacin de despliegue

Planificacin de la monitorizacin y del mantenimiento

Generacin de informe final

Revisin del proyecto

Entendemos que esta metodologa para proyectos de minera de


datos no es la ms actual o la mejor, pero es muy til para
comprender esta tecnologa o extraer ideas para disear o
revisar mtodos de trabajo para proyectos de similares
caractersticas.

Que no es minera de datos

Bsqueda de un nmero de telfono en el directorio

telefnico

Usar un motor de bsqueda en Internet para obtener


informacin acerca de "AmazonAmazon

La fuerza bruta crujido de datos a granel

La presentacin de los datos de diferentes maneras

Una tarea intensiva de base de datos

BIBLIOGRAFIA

http://polar.lsi.uned.es/revista/index.php/ia/article/viewFile/479/
463

http://www.tamps.cinvestav.mx/~jtj/courses/dbs/slides/Bodegas
%20de%20datos.pdf

http://repositorio.uac.edu.co/jspui/bitstream/11619/1298/1/Const
rucci%C3%B3n%20y%20poblamiento%20de%20un
%20datawarehouse%20basado%20en%20el.pdf

http://bibliotecarios.cl/conferencia_2006/C2006_019.pdf

http://www.rclibros.es/pdf/capitulo_mineria.pdf

http://exa.unne.edu.ar/informatica/SO/MineriaDatosLezcano.pdf

https://jpgarcia.cl/2008/07/25/metodologia-para-proyectos-de-
mineria-de-datos/

http://www.it.uc3m.es/jvillena/irc/practicas/10-11/15mem.pdf

S-ar putea să vă placă și