Sunteți pe pagina 1din 30

UNIVERSIDAD NACIONAL

“SANTIAGO ANTÚNEZ DE MAYOLO”

FACULTAD DE CIENCIAS

ESCUELA ACADÉMICO-PROFESIONAL
INGENIERÍA DE SISTEMAS E INFORMÁTICA

ADMINISTRACION DE BASE DE DATOS

“MINERÍA DE DATOS”

AUTORES

ASESOR:

Ing. Miguel Ángel Silva Zapata

HUARAZ – PERU

2015

INTRODUCIÓN
Los métodos de tratamiento de la información en la empresa se iniciaron hace
muchos años con la automatización de los procesos repetitivos y administrativos.
Los sistemas informáticos centralizados se difundieron en las décadas de los
sesenta y setenta en las grandes corporaciones. La aparición de los mini-
ordenadores permitió la incorporación en medianas empresas de procesos
automatizados, y finalmente la difusión masiva de los ordenadores personales
en los ochenta y de las redes de comunicación generalizaron el uso de los
procesos informáticos y obligaron a cambiar las estructuras centralizadas de los
centros de proceso de datos. Las tecnologías de la información están orientadas
hoy día, no sólo a los procesos de tratamiento administrativo, sino también hacia
la gestión de datos y el soporte en los procesos de toma de decisiones. La
difusión de redes de ordenadores, incluyendo los equipos personales, origina
una descentralización de la información que dificulta la integración en su uso en
la gestión de la empresa. Por otra parte la aparición de nuevas herramientas está
facilitando esta integración y uso más eficiente a través de dos tipos de
desarrollos tecnológicos: los denominados Data Warehouse (DW) o almacén de
datos, y Data Mining (DM) o minería de datos. Varios factores han permitido
estos desarrollos: la reducción continua de los costes de almacenamiento y
proceso de la información, el incremento de la potencia de cálculo a través de
varias tecnologías (SMP o Symmetric Multi Processing, en el que en un solo
sistema varios procesadores se reparten en el trabajo, SMC, cluster o conjunto
de ordenadores que comparten los mismos sistemas de almacenamiento de
datos, o los MPP o multiprocesadores masivamente paralelos interconectados
por canales muy rápidos que permiten considerarlos como un único sistema), y
las necesidades derivadas del incremento de productividad y de tratamiento
individualizado del cliente.

El presente trabajo de investigación consiste en brindar información acerca del


tema de minería de datos, que es muy importante en el uso de un administrador
de base de datos, veremos en el trabajo de investigación acerca de la definición,
historia, ventajas, desventajas, tipos, etapas, campos de acción y entre otras
disciplinas de la minería de datos.

ÍNDICE
INTRODUCIÓN........................................................................................................................... 1
1. MINERÍA DE DATOS ........................................................................................................ 5
1.1. DEFINICIÓN ................................................................................................................ 5
1.2. HISTORIA .................................................................................................................... 6
1.3. VENTAJAS Y DESVENTAJAS ............................................................................... 7
1.3.1. Ventajas .............................................................................................................. 7
1.3.2. Desventajas........................................................................................................ 8
3. TIPOS DE MINERÍA DE DATOS .................................................................................. 13
3.1. MINERÍA DE DATOS ESPACIALES .................................................................... 13
3.2. BASES DE DATOS GEOGRÁFICAS................................................................... 13
3.3. DATOS GEOGRÁFICOS ........................................................................................ 13
4. ETAPAS O FASE DE UN PROYECTO DE MINERÍA DE DATOS ......................... 14
4.1. CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING ................ 14
4.2. PRINCIPALES FASES............................................................................................ 15
4.2.1. Entendimiento de negocios ......................................................................... 15
4.2.2. Comprensión de Datos ................................................................................. 16
4.2.3. Preparación de datos .................................................................................... 16
4.2.4. Modelado .......................................................................................................... 16
4.2.5. Evaluación ........................................................................................................ 17
4.2.6. Despliegue........................................................................................................ 17
5. CAMPOS DE ACCIÓN DE LA MINERÍA DE DATOS ............................................... 18
5.1. GOBIERNOS ............................................................................................................ 19
5.2. UNIVERSIDAD ......................................................................................................... 20
5.3. INVESTIGACION ESPACIAL ................................................................................ 21
5.4. INTERNET ................................................................................................................. 21
5.5. NEGOCIOS ............................................................................................................... 22
5.5.1. Hábitos de compra en supermercados .................................................... 22
5.5.2. Patrones de fuga ............................................................................................ 23
5.5.3. Fraudes ............................................................................................................. 23
5.5.4. Recursos humanos ........................................................................................ 24
5.6. TERRORISMO .......................................................................................................... 24
5.7. JUEGOS .................................................................................................................... 24
5.8. CIENCIA E INGENIERÍA ........................................................................................ 25
5.9. GENÉTICA ................................................................................................................ 25
5.10. INGENIERÍA ELÉCTRICA.................................................................................. 25
6. MINERÍA DE DATOS Y OTRAS DISCIPLINAS ANÁLOGAS ................................. 26
6.1. DE LA ESTADÍSTICA ............................................................................................. 26
6.2. LA INFORMÁTICA .................................................................................................. 27
1. MINERÍA DE DATOS

1.1. DEFINICIÓN

La minería de datos o exploración de datos (es la etapa de análisis


de "Knowledge Discovery in Databases" o KDD) es un campo de
las ciencias de la computación referido al proceso que intenta
descubrir patrones en grandes volúmenes de conjuntos de
datos, Utiliza los métodos de la inteligencia artificial, aprendizaje
automático, estadística y sistemas de bases de datos. El objetivo
general del proceso de minería de datos consiste en extraer
información de un conjunto de datos y transformarla en una
estructura comprensible para su uso posterior.
El término es una palabra de moda, y es frecuentemente mal
utilizado para referirse a cualquier forma de datos a gran escala o
procesamiento de la información (recolección, extracción,
almacenamiento, análisis y estadísticas), pero también se ha
generalizado a cualquier tipo de sistema de apoyo informático
decisión, incluyendo la inteligencia artificial, aprendizaje automático
y la inteligencia empresarial. En el uso de la palabra, el término clave
es el descubrimiento, comúnmente se define como "la detección de
algo nuevo". Incluso el popular libro "La minería de datos: sistema
de prácticas herramientas de aprendizaje y técnicas con Java" (que
cubre todo el material de aprendizaje automático) originalmente iba
a ser llamado simplemente "la máquina de aprendizaje práctico", y
el término "minería de datos" se añadió por razones de marketing.
La tarea de minería de datos real es el análisis automático o semi
automático de grandes cantidades de datos para extraer patrones
interesantes hasta ahora desconocidos, como los grupos de
registros de datos (análisis clúster), registros poco usuales (la
detección de anomalías) y dependencias (minería por reglas de
asociación). Esto generalmente implica el uso de técnicas de bases
de datos como los índices espaciales. Estos patrones pueden
entonces ser vistos como una especie de resumen de los datos de
entrada, y pueden ser utilizados en el análisis adicional o, por
ejemplo, en la máquina de aprendizaje y análisis predictivo. Por
ejemplo, el paso de minería de datos podría identificar varios grupos
en los datos, que luego pueden ser utilizados para obtener
resultados más precisos de predicción por un sistema de soporte de
decisiones. Ni la recolección de datos, preparación de datos, ni la

5
interpretación de los resultados y la información son parte de la etapa
de minería de datos, pero que pertenecen a todo el proceso KDD
como pasos adicionales.

1.2. HISTORIA
Aunque desde un punto de vista académico el término data mining
es una etapa dentro de un proceso mayor llamado extracción de
conocimiento en bases de datos (Knowledge Discovery in
Databases o KDD) en el entorno comercial, ambos términos se usan
de manera indistinta. Lo que en verdad hace el data mining es reunir
las ventajas de varias áreas como la Estadística, la Inteligencia
Artificial, la Computación Gráfica, las Bases de Datos y el
Procesamiento Masivo, principalmente usando como materia prima
las bases de datos. Una definición tradicional es la siguiente: "Un
proceso no trivial de identificación válida, novedosa, potencialmente
útil y entendible de patrones comprensibles que se encuentran
ocultos en los datos". Desde otro punto de vista se define como "la
integración de un conjunto de áreas que tienen como propósito la
identificación de un conocimiento obtenido a partir de las bases de
datos que aporten un sesgo hacia la toma de decisión”. La idea de
data mining no es nueva. Ya desde los años sesenta los estadísticos
manejaban términos como data fishing, data mining o data

6
archaeology con la idea de encontrar correlaciones sin una hipótesis
previa en bases de datos con ruido. A principios de los años ochenta,
Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-
Shapiro, entre otros, empezaron a consolidar los términos de data
mining y KDD. A finales de los años ochenta sólo existían un par de
empresas dedicadas a esta tecnología; y en 2002 existían más de
100 empresas en el mundo que ofrecían alrededor de 300
soluciones. Las listas de discusión sobre este tema las forman
investigadores de más de ochenta países. Esta tecnología ha sido
un buen punto de encuentro entre personas pertenecientes al ámbito
académico y al de los negocios. El data mining es una tecnología
compuesta por etapas que integra varias áreas y que no se debe
confundir con un gran software. Durante el desarrollo de un proyecto
de este tipo se usan diferentes aplicaciones software en cada etapa
que pueden ser estadísticas, de visualización de datos o de
inteligencia artificial, principalmente. Actualmente existen
aplicaciones o herramientas comerciales de data mining muy
poderosas que facilitan el desarrollo de un proyecto. Sin embargo,
casi siempre acaban complementándose con otra herramienta.

1.3. VENTAJAS Y DESVENTAJAS

1.3.1. Ventajas
Enormes bases de datos pueden ser analizadas.
Enormes bases de datos pueden ser analizadas mediante la
tecnología del Data Mining. Estas Bases de datos pueden ser
enormes tanto en largo como en ancho. Por ejemplo, para
cada cliente se puede tener cientos de atributos que
contienen información detallada; y además tener miles de
registros de clientes.

El Data Mining descubre información que no se esperaba


obtener.

7
Como muchos modelos diferentes son validados, algunos
resultados inesperados tienden a aparecer. En muchos
estudios, se ha descubierto que combinaciones particulares
de factores entregan efectos inesperados que entregan valor
a la compañía. (Pañales y cerveza).

Los Modelos Son Confiables


El modelo es probado y comprobado usando técnicas
estadísticas antes de ser usado, luego las predicciones que
se obtienen por el modelo son válidas y confiables.
Los modelos se construyen de manera rápida
La minería de datos permite construir y generar modelos en
sólo uno minutos u horas. El modelado se torna mucho más
fácil puesto que muchos algoritmos son probados y sólo el
mejor modelo es entregado al usuario.

La Minería de Datos es una herramienta eficaz para dar


respuestas a preguntas complejas de Inteligencia de
Negocios.
Las herramientas disponibles permiten automatizar gran
parte de la tarea de encontrar los patrones de
comportamiento ocultos en los datos.
Es una buena manera de convertir datos en información,
y esta a su vez en conocimiento, para la correcta toma
de decisiones.

1.3.2. Desventajas
Dificultad de recopilación de los datos
Dependiendo del tipo de datos que se quieran recopilar puede
conllevar mucho trabajo o la necesidad de tecnología de
elevado coste.

8
El pre procesamiento de datos puede llevar demasiado
tiempo
No está asegurada la obtención de un modelo válido

Que los productos a comercializar son


significativamente costosos.
Que se requiera de experiencia para utilizar
herramientas de tecnología.
Que sea fácil de hallar patrones equívocos triviales o no
interesantes.
La Privacidad.

2. PROTOCOLOS DE UN PROYECTO DE MINERÍA DE DATOS

Un proyecto de minería de datos tiene varias fases necesarias que son,


esencialmente:
Comprensión: del negocio y del problema que se quiere resolver.
Determinación, obtención y limpieza: de los datos necesarios.
Creación de modelos matemáticos.
Validación, comunicación: de los resultados obtenidos.
Integración: si procede, de los resultados en un sistema
transaccional o similar.
La relación entre todas estas fases sólo es lineal sobre el papel. En
realidad, es mucho más compleja y esconde toda una jerarquía de
subfases. A través de la experiencia acumulada en proyectos de minería
de datos se han ido desarrollando metodologías que permiten gestionar
esta complejidad de una manera más o menos uniforme.

Técnicas de minería de datos


Las técnicas de la minería de datos provienen de la Inteligencia artificial y
de la estadística. Dichas técnicas, no son más que algoritmos, más o
menos sofisticados que se aplican sobre un conjunto de datos para
obtener unos resultados.

9
El hecho es, que en la práctica la totalidad de los modelos y algoritmos de
uso general en minería de datos Redes neuronales, decisión, regresión y
clasificación, modelos logísticos, análisis de componentes principales, etc.
gozan de una tradición relativamente larga en otros campos.
Las técnicas más representativas de la estadística y la informática
son:

Redes neuronales
Son un paradigma de aprendizaje y procesamiento automático inspirado
en la forma en que funciona el sistema nervioso de los animales. Se trata
de un sistema de interconexión de neuronas en una red que colabora para
producir un estímulo de salida. Genéricamente, son métodos de proceso
numérico en paralelo, en el que las variables interactúan mediante
transformaciones lineales o no lineales, hasta obtener unas salidas. Estas
salidas se contrastan con los que tenían que haber salido, basándose en
unos datos de prueba, dando lugar a un proceso de retroalimentación
mediante el cual la red se reconfigura, hasta obtener un modelo
adecuado.

Regresión lineal
Es la más utilizada para formar relaciones entre datos. Es rápida y eficaz,
pero insuficiente en espacios multidimensionales donde puedan
relacionarse más de 2 variables. Define la relación entre una o más
variables y un conjunto de variables predictores de las primeras.

Árboles de decisión
Es un modelo de predicción utilizado en el ámbito de la inteligencia
artificial. Dada una base de datos se construyen estos diagramas de
construcciones lógicas, muy similares a los sistemas de predicción
basados en reglas, que sirven para representar y categorizar una serie de
condiciones que suceden de forma sucesiva, para la resolución de un
problema.

10
Modelos estadísticos
Es una expresión simbólica en forma de igualdad o ecuación que se
emplea en todos los diseños experimentales y en la regresión para indicar
los diferentes factores que modifican la variable de respuesta.

Agrupamiento o Clustering
Es un procedimiento de agrupación de una serie de vectores según
criterios habitualmente de distancia. Permite la clasificación de una
población de individuos caracterizados por múltiples atributos (binarios,
cualitativos o cuantitativos) en un número determinado de grupos, con
base en las semejanzas o diferencias de los individuos. Se tratará de
disponer los vectores de entrada de forma que estén más cercanos
aquellos que tengan características comunes.

Análisis de varianza
Evalúa la existencia de diferencias significativas entre las medias de una
o más variables continúas en poblaciones distintos.

Prueba chi-cuadrado
Por medio de la cual se realiza el contraste la hipótesis de dependencia
entre variables.

Análisis discriminante
Permite la clasificación de individuos en grupos que previamente se han
establecido. También posibilita encontrar la regla de clasificación de los
elementos de estos grupos, y por tanto una mejor identificación de cuáles
son las variables que definan la pertenencia al grupo.

Series de tiempo
Permite el estudio de la evolución de una variable a través del tiempo,
para poder realizar predicciones, a partir de ese conocimiento y bajo el
supuesto de que no van a producirse cambios estructurales.

11
Algoritmos genéticos
Son métodos numéricos de optimización, en los que aquella variable o
variables que se pretenden optimizar junto con las variables de estudio
constituyen un segmento de información. Aquellas configuraciones de las
variables de análisis que obtengan mejores valores para la variable de
respuesta, corresponderán a segmentos con mayor capacidad
reproductiva. A través de la reproducción, los mejores segmentos
perduran y su proporción crece de generación en generación. Se puede
además introducir elementos aleatorios para la modificación de las
variables (mutaciones). Al cabo de cierto número de iteraciones, la
población estará constituida por buenas soluciones al problema de
optimización, pues las malas soluciones han ido descartándose, iteración
tras iteración.

Inteligencia artificial
Mediante un sistema informático que simula un sistema inteligente, se
procede al análisis de los datos disponibles. Entre los sistemas de
Inteligencia Artificial se encuadrarían los Sistemas Expertos y las Redes
Neuronales.

Sistemas Expertos
Son sistemas que han sido creados a partir de reglas prácticas extraídas
del conocimiento de expertos. Principalmente a base de inferencias o de
causa-efecto.

Sistemas Inteligentes
Son similares a los sistemas expertos, pero con mayor ventaja ante
nuevas situaciones desconocidas para el experto.

12
3. TIPOS DE MINERÍA DE DATOS

3.1. MINERÍA DE DATOS ESPACIALES


Este término se refiere a la extracción de conocimiento, relaciones
espaciales, u otros patrones interesantes que no se ven de forma
explícita en una base de datos geográfica [Data Mining]. Este tipo de
minería puede usarse para para un mejor entendimiento de datos
espaciales, para descubrir relaciones entre datos espaciales o entre
datos espaciales con no espaciales, etc. Estos datos pueden ser
usados en cualquier campo que requiera información geográfica,
como navegación, astronomía, control de tráfico, expansión de
ciudades, etc.

3.2. BASES DE DATOS GEOGRÁFICAS

Una base de datos geográfica o espacial contiene una gran cantidad


de (obviamente) datos geográficos, como mapas, imágenes
médicas, etc.
Básicamente, una base de datos geográfica es una base de datos
que contiene información geográfica acerca de un área y materia en
particular [Geo Inf Sys &Sci].
Una base de datos geográfica se organiza en capas (o clases de
objetos), que es una colección de datos sobre un tema en específico.
Por ejemplo, puede existir una capa de las tuberías de agua, otra
que contenga los polígonos del relieve del lecho de un río, otra con
valores de altitud, etc [ ]. Cada una de estas capas está almacenada
en una tabla de la base de datos. Obviamente, una base de datos
geográfica es usada por un Sistema de Información Geográfica (GIS,
por sus siglas en inglés).

3.3. DATOS GEOGRÁFICOS

Un dato geográfico, también llamado dato espacial, tiene la


característica de ocupar un lugar (real o virtual) en el espacio. Este
lugar en el espacio puede ser un río, una montaña, otro planeta o

13
incluso un órgano humano dentro de un mapa de imágenes médicas.
Básicamente, un dato geográfico representa información topológica
de algún tipo.
Existen varios tipos de datos geográficos, desde los más simples
que podrían ser un punto y una línea, hasta tipos complejos que
representen toda la información de una región: su forma; regiones
vecinas; temperatura promedio; número de habitantes; relieve
topográfico; etc.

4. ETAPAS O FASE DE UN PROYECTO DE MINERÍA DE DATOS

4.1. CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING

Proceso Cruz estándar de la industria para la minería de datos,


conocido comúnmente por sus siglas en CRISP-DM, fue una minería
de datos modelo de proceso que describe los enfoques de uso
común que expertos en minería de datos utilizan para hacer frente a
los problemas. Encuestas realizadas en un mismo sitio web
(KDNuggests) en 2002, 2004, 2007 y 2014 muestran que fue la
metodología que conduce utilizado por los mineros de datos de la
industria que decidió responder a la encuesta. La única otra norma
de minería de datos denominado en estas encuestas fue SEMMA.
Sin embargo, 3-4 veces más personas reportaron el uso de CRISP-
DM. Una revisión y crítica de los modelos de procesos de minería de
datos en 2009 llamado el CRISP-DM el "estándar de facto para el
desarrollo de proyectos de descubrimiento de conocimiento y
minería de datos." [6] Otras críticas de los modelos de procesos de
minería de datos CRISP-DM e incluyen Kurgan y Musilek de 2006
revisión, y Azevedo y Santos 2008 comparación de CRISP-DM y
SEMMA. Los esfuerzos para actualizar la Metodología se inició en
2006, pero que tienen Al 30 de junio de 2015 no condujo a una nueva
versión, y el "Interés Especial Grupo "(SIG), responsable junto con
el sitio web ha desaparecido larga (ver Historia de CRISP-DM).

14
4.2. PRINCIPALES FASES

CRISP-DM rompe el proceso de minería de datos en seis fases


principales.1

La secuencia de las fases no es estricta y moviéndose hacia atrás y


adelante entre las diferentes fases siempre se requiere. Las flechas
en el diagrama de proceso indican las dependencias más
importantes y frecuentes entre fases. El círculo exterior en el
diagrama simboliza la naturaleza cíclica de la minería de datos en
sí. Un proceso de minería de datos continúa después de una
solución se ha desplegado. Las lecciones aprendidas durante el
proceso pueden desencadenar nuevas cuestiones de negocios a
menudo más centradas y procesos de minería de datos posteriores
se beneficiarán de las experiencias de los anteriores.

Diagrama de proceso que muestra la relación entre las diferentes


fases de CRISP-DM

4.2.1. Entendimiento de negocios


Esta fase inicial se centra en la comprensión de los objetivos
y requisitos del proyecto desde una perspectiva empresarial,

1 Harper, Gavin; Stephen D. Pickett (agosto de 2006). "Los métodos para datos HTS mineras". Drug
Discovery Today 11 (15-16): 694-699. Doi: 10.1016 / j.drudis.2006.06.006. PMID16846796

15
y luego convertir este conocimiento en una definición del
problema de minería de datos, y un plan preliminar diseñado
para alcanzar los objetivos. Un modelo
de decisión, especialmente una construida utilizando
el Modelo de Decisión y notación estándar se puede utilizar.
4.2.2. Comprensión de Datos
La fase de comprensión de datos comienza con una colección
de datos inicial y continúa con las actividades con el fin de
familiarizarse con los datos, para identificar los problemas de
calidad de datos, para descubrir las primeras ideas sobre los
datos, o para detectar subconjuntos interesantes para formar
hipótesis de información oculta.

4.2.3. Preparación de datos


La fase de preparación de datos abarca todas las actividades
para construir el último conjunto de datos (datos que se
introduce en la herramienta (s) de modelado) de los datos en
bruto inicial. Tareas de preparación de datos son susceptibles
de ser realizado múltiples veces, y no en cualquier orden
prescrito. Las tareas incluyen tabla, registro, y la selección de
atributos, así como la transformación y la limpieza de datos
de herramientas de modelado.

4.2.4. Modelado
En esta fase, se seleccionan varias técnicas de modelado y
se aplican, y sus parámetros están calibrados para valores
óptimos. Típicamente, existen varias técnicas para el mismo
tipo de problema de minería de datos. Algunas técnicas tienen
requerimientos específicos en forma de datos. Por lo tanto,
dar un paso atrás a la fase de preparación de datos es a
menudo necesaria.

16
4.2.5. Evaluación
En esta etapa en el proyecto que ha construido un modelo (o
modelos) que parece tener gran calidad, desde una
perspectiva de análisis de datos. Antes de proceder a la
implementación final del modelo, es importante para evaluar
más a fondo el modelo, y revisar los pasos ejecutados para
construir el modelo, para estar seguro de que logra
adecuadamente los objetivos de negocio. Un objetivo clave es
determinar si hay algún problema de negocios importante que
no se ha considerado suficientemente. Al final de esta fase,
se debe alcanzar una decisión sobre el uso de los resultados
de minería de datos.

4.2.6. Despliegue
Creación del modelo generalmente no es el final del
proyecto. Aunque el propósito del modelo es aumentar el
conocimiento de los datos, tendrá que ser organizada y
presentada de una manera que sea útil para el cliente los
conocimientos adquiridos. Dependiendo de los requisitos, la
fase de despliegue puede ser tan simple como la generación
de un informe o tan complejo como la implementación de una
puntuación repetible de datos (por ejemplo, la asignación de
segmento) o el proceso de minería de datos. En muchos
casos, será el cliente, no el analista de datos, que llevará a
cabo los pasos de implementación. Incluso si el analista
despliega el modelo es importante para el cliente para
entender por adelantado las acciones que deberán llevarse a
cabo con el fin de hacer realidad el uso de los modelos
creados.

17
5. CAMPOS DE ACCIÓN DE LA MINERÍA DE DATOS
El data mining surge como una tecnología que intenta ayudar a comprender
el contenido de una base de datos. De forma general, los datos son la
materia prima bruta. En el momento que el usuario les atribuye algún
significado especial pasan a convertirse en información. Cuando los
especialistas elaboran o encuentran un modelo, haciendo que la
interpretación conjunta entre la información y ese modelo represente un
valor agregado, entonces nos referimos al conocimiento. En la figura 1 se
ilustra la jerarquía que existe en una base de datos entre dato, información
y conocimiento. Se observa igualmente el volumen que presenta en cada
nivel y el valor que los responsables de las decisiones le dan en esa
jerarquía. El área interna dentro del triángulo representa los objetivos que
se han propuesto. La separación del triángulo representa la estrecha unión
entre dato e información, no así entre la información y el conocimiento. El
data mining trabaja en el nivel superior buscando patrones,
comportamientos, agrupaciones, secuencias, tendencias o asociaciones
que puedan generar algún modelo que nos permita comprender mejor el
dominio para ayudar en una posible toma de decisión.
Sistemas parcialmente desconocidos: Si el modelo del sistema que
produce los datos es bien conocido, entonces no necesitamos de la minería
de datos ya que todas las variables son de alguna manera predecibles. Este
no es el caso del comercio electrónico, debido a los efectos del
comportamiento humano, el clima y de decisiones políticas entre otros. En
estos casos habrá una parte del sistema que es conocida y habrá una parte
aparentemente de naturaleza aleatoria. Bajo ciertas circunstancias, a partir
de una gran cantidad de datos asociada con el sistema, existe la posibilidad
de encontrar nuevos aspectos previamente desconocidos del modelo.
Enorme cantidad de datos: Al contar con mucha información en algunas
bases de datos es importante para una empresa encontrar la forma de
analizar "montañas" de información (lo que para un humano sería
imposible) y que ello le produzca algún tipo de beneficio.
Potente hardware y software: Muchas de las herramientas presentes en
la minería de datos están basadas en el uso intensivo de la computación,
en consecuencia, un equipo conveniente y un software eficiente, con el cual

18
cuente una compañía, aumentará el desempeño del proceso de buscar y
analizar información, el cual a veces debe vérselas con producciones de
datos del orden de los Gbytes/hora ( repetimos, algo humanamente
imposible). El uso del data mining puede ser provechoso en el caso de
poseer datos sobre sus procesos productivos, datos de seguimiento de
clientes, datos externos de mercado, datos sobre la actividad de
competidores, etc.
Entre las aplicaciones de la minería de datos tenemos:

5.1. GOBIERNOS
El FBI analizará las bases de datos comerciales para detectar
terroristas. A principios del mes de julio de 2002, el director del FBI
en Estados Unidos, John Aschcroft, anunció que el Departamento
de Justicia comenzaría a introducirse en la enorme cantidad de
datos comerciales en los que se revelan hábitos y costumbres de la
población, con el fin de poder identificar a potenciales terroristas con
antelación a que puedan cometer un atentado. Algunos expertos
aseguran que, con esta información, el FBI unirá todas las bases de
datos mediante el número de la Seguridad Social y permitirá saber
si una persona fuma, qué talla y tipo de ropa usa, si ha sido arrestado
y cuantas veces, el barrio donde vive, si en este se cometen más o
menos delitos, su salario, las revistas a las que está suscrito, su
altura y peso, sus contribuciones a la Iglesia, grupos políticos u
organizaciones no gubernamentales, sus enfermedades crónicas,
los libros que lee, los productos de supermercado que compra, si
tomó clases de vuelo o si tiene cuentas de banco abiertas, entre
otros. La inversión inicial ronda los 70 millones de $ estadounidenses
para consolidar los almacenes de datos, desarrollar redes de
seguridad que sean capaces de compartir la información e
implementar nuevo software analítico y de visualización. Con este
tipo de aplicaciones sale de nuevo el tema ético de la privacidad y
libertad de los individuos. En el fondo la aplicación es un gran

19
hermano que observa cualquier movimiento que se haga, pudiendo
estos ser utilizados para otros fines distintos a los que fue diseñado.

5.2. UNIVERSIDAD
Se realizó un estudio sobre los recién titulados de la carrera de
Ingeniería en Sistemas Computacionales del Instituto Tecnológico
de Chihuahua II en Méjico. Se quería observar si los recién titulados
se insertaban en actividades profesionales relacionadas con sus
estudios y, en caso negativo, se buscaba saber el perfil que
caracterizó a los ex-alumnos durante su estancia en la universidad.
Se deseaba concluir si con los planes de estudio de la universidad y
el rendimiento del alumno se hacía una buena inserción laboral o si
existían otras variables que participaban en el proceso. Dentro de la
información considerada estaba el sexo, la edad, la escuela de
procedencia, el desempeño académico, la zona económica donde
tenía su vivienda y la actividad profesional, entre otras variables.
Mediante la aplicación de conjuntos aproximados se descubrió que
existían cuatro variables que determinaban la adecuada inserción
laboral, que son citadas de acuerdo con su importancia:

Zona económica donde habitaba el estudiante


Colegio de dónde provenía
Nota al ingresar
Promedio final al salir de la carrera

A partir de estos resultados, la universidad obtuvo como resultado


que las tres características más importantes no tenían relación con
la universidad, y si de la economía de la zona donde provenía el
estudiante. Por lo que podía plantearse nuevas soluciones de tipo
socioeconómico, como becas en empresas u otras.

20
5.3. INVESTIGACION ESPACIAL
Durante seis años, el Second Palomar Observatory Sky Survey
(POSS-II) coleccionó tres terabytes de imágenes que contenían
aproximadamente dos millones de objetos en el cielo. Tres mil
fotografías fueron digitalizadas a una resolución de 16 bits por píxel
con 23040 x 23040 píxeles por imagen. El objetivo era formar un
catálogo de todos esos objetos. El sistema Sky Image Cataloguing
and Analysis Tool (SKYCAT) se basa en técnicas de agrupación
(clustering) y árboles de decisión para poder clasificar los objetos en
estrellas, planetas, sistemas, galaxias, etc. con una alta
confiabilidad. Los resultados han ayudado a los astrónomos a
descubrir dieciséis nuevos quásares (señales radiales lejanas) con
corrimiento hacia el rojo que los incluye entre los objetos más lejanos
del universo y, por consiguiente, más antiguos. Los quásares son
fuentes de Rayos X, radiación ultravioleta, luz visible y también
infrarroja; en otras palabras, la emisión de radiación de los quásares
resulta intensa en todo el espectro electromagnético. Estos
quásares son difíciles de encontrar y permiten saber más acerca de
los orígenes del universo.

5.4. INTERNET
Una de las aplicaciones de la minería de datos consiste en aplicar
sus técnicas a documentos y servicios Web, lo que se denomina
comúnmente con el término inglés web mining (minería de Web).
Cada vez que un usuario visita un sitio Web va dejando todo tipo de
“huellas” Web (direcciones de IP, navegador, galletas, etc.) que los
servidores automáticamente almacenan en una base de datos (log).
Las herramientas de web mining analizan y procesan esta
abundante cantidad de datos para producir información significativa,
por ejemplo, cómo es la navegación de un cliente antes de hacer
una compra en línea. Debido a que los contenidos de Internet
consisten en varios tipos de datos, como texto, imagen, vídeo,
metadatos o hiperligas, investigaciones recientes usan el término
multimedia data mining (minería de datos multimedia) como una

21
instancia del web mining para tratar ese tipo de datos. Los accesos
totales por dominio, horarios de accesos más frecuentes y visitas por
día, entre otros datos, son registrados por herramientas estadísticas
que complementan todo el proceso de análisis del web mining.
También es un área en boga el del análisis del comportamiento de
los visitantes sobre todo, cuando son clientes potenciales en una
página de internet. O la utilización de la información obtenida por
medios más o menos legítimos sobre ellos para ofrecerles
propaganda adaptada específicamente a su perfil. O para, una vez
que adquieren un determinado producto, saber inmediatamente qué
otro ofrecerle teniendo en cuenta la información histórica disponible
acerca de los clientes que han comprado el primero.

5.5. NEGOCIOS
La minería de datos puede contribuir significativamente en las
aplicaciones de administración empresarial basada en la relación
con el cliente. En lugar de contactar con el cliente de forma
indiscriminada a través de un centro de llamadas o enviando cartas,
sólo se contactará con aquellos que se perciba que tienen una mayor
probabilidad de responder positivamente a una determinada oferta o
promoción. Por lo general, las empresas que emplean minería de
datos ven rápidamente el retorno de la inversión, pero también
reconocen que el número de modelos predictivos desarrollados
puede crecer muy rápidamente.
En lugar de crear modelos para predecir qué clientes pueden
cambiar, la empresa podría construir modelos separados para cada
región y/o para cada tipo de cliente. También puede querer
determinar que clientes van a ser rentables durante una ventana de
tiempo (una quincena, un mes,...) y sólo enviar las ofertas a las
personas que es probable que sean rentables. Para mantener esta
cantidad de modelos, es necesario gestionar las versiones de cada
modelo y pasar a una minería de datos lo más automatizada posible.
5.5.1. Hábitos de compra en supermercados

22
El ejemplo clásico de aplicación de la minería de datos tiene
que ver con la detección de hábitos de compra en
supermercados. Un estudio muy citado detectó que los
viernes había una cantidad inusualmente elevada de clientes
que adquirían a la vez pañales y cerveza. Se detectó que se
debía a que dicho día solían acudir al supermercado padres
jóvenes cuya perspectiva para el fin de semana consistía en
quedarse en casa cuidando de su hijo y viendo la televisión
con una cerveza en la mano. El supermercado pudo
incrementar sus ventas de cerveza colocándolas próximas a
los pañales para fomentar las ventas compulsivas.

5.5.2. Patrones de fuga


Un ejemplo más habitual es el de la detección de patrones de
fuga. En muchas industrias como la banca, las
telecomunicaciones, etc. existe un comprensible interés en
detectar cuanto antes aquellos clientes que puedan estar
pensando en rescindir sus contratos para, posiblemente,
pasarse a la competencia. A estos clientes y en función de su
valor se les podrían hacer ofertas personalizadas, ofrecer
promociones especiales, etc., con el objetivo último de
retenerlos. La minería de datos ayuda a determinar qué
clientes son los más proclives a darse de baja estudiando sus
patrones de comportamiento y comparándolos con muestras
de clientes que, efectivamente, se dieron de baja en el
pasado.

5.5.3. Fraudes
Un caso análogo es el de la detección de transacciones de
blanqueo de dinero o de fraude en el uso de tarjetas de crédito
o de servicios de telefonía móvil e, incluso, en la relación de
los contribuyentes con el fisco. Generalmente, estas
operaciones fraudulentas o ilegales suelen seguir patrones
característicos que permiten, con cierto grado de

23
probabilidad, distinguirlas de las legítimas y desarrollar así
mecanismos para tomar medidas rápidas frente a ellas.

5.5.4. Recursos humanos


La minería de datos también puede ser útil para los
departamentos de recursos humanos en la identificación de
las características de sus empleados de mayor éxito. La
información obtenida puede ayudar a la contratación de
personal, centrándose en los esfuerzos de sus empleados y
los resultados obtenidos por éstos. además, la ayuda ofrecida
por las aplicaciones para dirección estratégica en una
empresa se traducen en la obtención de ventajas a nivel
corporativo, tales como mejorar el margen de beneficios o
compartir objetivos; y en la mejora de las decisiones
operativas, tales como desarrollo de planes de producción o
gestión de mano de obra.

5.6. TERRORISMO
La minería de datos ha sido citada como el método por el cual la
unidad able danger del ejército de los EE.UU. había identificado al
líder de los atentados del 11 de septiembre de 2001, mohammed
atta, y a otros tres secuestradores del "11-s" como posibles
miembros de una célula de al ALQEDA que operan en los EE.UU.
más de un año antes del ataque. Se ha sugerido que tanto la agencia
central de inteligencia y sus homóloga canadiense, servicio de
inteligencia y seguridad canadiense, también han empleado este
método.

5.7. JUEGOS
Desde comienzos de la década de 1960, con la disponibilidad de
oráculos para determinados juegos combi nacionales, también
llamados finales de juego de tablero (por ejemplo, para las tres en
raya o en finales de ajedrez) con cualquier configuración de inicio,
se ha abierto una nueva área en la minería de datos que consiste en

24
la extracción de estrategias utilizadas por personas para estos
oráculos. Los planteamientos actuales sobre reconocimiento de
patrones, no parecen poder aplicarse con éxito al funcionamiento de
estos oráculos. En su lugar, la producción de patrones perspicaces
se basa en una amplia experimentación con bases de datos sobre
esos finales de juego, combinado con un estudio intensivo de los
propios finales de juego en problemas bien diseñados y con
conocimiento de la técnica (datos previos sobre el final del juego).
Ejemplos notables de investigadores que trabajan en este campo
son berlekamp en el juego de puntos y cajas (o timbiriche) y john
nunn en finales de ajedrez.

5.8. CIENCIA E INGENIERÍA


En los últimos años la minería de datos se está utilizando
ampliamente en diversas áreas relacionadas con la ciencia y la
ingeniería. Algunos ejemplos de aplicación en estos campos son:

5.9. GENÉTICA
En el estudio de la genética humana, el objetivo principal es entender
la relación cartografía entre las partes y la variación individual en las
secuencias del humano y la variabilidad en la susceptibilidad a las
enfermedades. En términos más llanos, se trata de saber cómo los
cambios en la secuencia de un individuo afectan al riesgo de
desarrollar enfermedades comunes (como por ejemplo el cáncer).
Esto es muy importante para ayudar a mejorar el diagnóstico,
prevención y tratamiento de las enfermedades. La técnica de minería
de datos que se utiliza para realizar esta tarea se conoce como
"reducción de dimensional dad multifactorial".

5.10. INGENIERÍA ELÉCTRICA


En el ámbito de la ingeniería eléctrica, las técnicas minería de datos
han sido ampliamente utilizadas para monitorizar las condiciones de las
instalaciones de alta tensión. La finalidad de esta monitorización es
obtener información valiosa sobre el estado del aislamiento de los

25
equipos. Para la vigilancia de las vibraciones o el análisis de los
cambios de carga en transformadores se utilizan ciertas técnicas para
agrupación de datos tales como los mapas auto-organizativos. Estos
mapas sirven para detectar condiciones anormales y para estimar la
naturaleza de dichas anomalías.

6. MINERÍA DE DATOS Y OTRAS DISCIPLINAS ANÁLOGAS


Suscita cierta polémica el definir las fronteras existentes entre la minería de
datos y disciplinas análogas, como pueden serlo la estadística, la
inteligencia artificial, etc. Hay quienes sostienen que la minería de datos no
es sino estadística envuelta en una jerga de negocios que la conviertan en
un producto vendible. Otros, en cambio, encuentran en ella una serie de
problemas y métodos específicos que la hacen distinta de otras disciplinas.
El hecho es, que en la práctica la totalidad de los modelos y algoritmos de
uso general en minería de datos —redes neuronales, árboles de regresión
y clasificación, modelos logísticos, análisis de componentes principales,
etc.— gozan de una tradición relativamente larga en otros campos.

6.1. DE LA ESTADÍSTICA
Ciertamente, la minería de datos bebe de la estadística, de la que toma
las siguientes técnicas:

Análisis de varianza, mediante el cual se evalúa la existencia de


diferencias significativas entre las medias de una o más variables
continúas en poblaciones distintas.

Regresión: define la relación entre una o más variables y un conjunto


de variables predictoras de las primeras.
Prueba chi-cuadrado: por medio de la cual se realiza el contraste la
hipótesis de dependencia entre variables.

Análisis de agrupamiento o clustering: permite la clasificación de


una población de individuos caracterizados por múltiples atributos

26
(binarios, cualitativos o cuantitativos) en un número determinado de
grupos, con base en las semejanzas o diferencias de los individuos.

Análisis discriminante: permite la clasificación de individuos en


grupos que previamente se han establecido, permite encontrar la regla
de clasificación de los elementos de estos grupos, y por tanto una mejor
identificación de cuáles son las variables que definan la pertenencia al
grupo.

Series de tiempo: permite el estudio de la evolución de una variable a


través del tiempo para poder realizar predicciones, a partir de ese
conocimiento y bajo el supuesto de que no van a producirse cambios
estructurales.

6.2. LA INFORMÁTICA
De la informática toma las siguientes técnicas:

Algoritmos genéticos: Son métodos numéricos de optimización, en


los que aquella variable o variables que se pretenden optimizar junto
con las variables de estudio constituyen un segmento de información.
Aquellas configuraciones de las variables de análisis que obtengan
mejores valores para la variable de respuesta, corresponderán a
segmentos con mayor capacidad reproductiva. A través de la
reproducción, los mejores segmentos perduran y su proporción crece
de generación en generación. Se puede además introducir elementos
aleatorios para la modificación de las variables (mutaciones). Al cabo
de cierto número de iteraciones, la población estará constituida por
buenas soluciones al problema de optimización, pues las malas
soluciones han ido descartándose, iteración tras iteración.
Inteligencia Artificial: Mediante un sistema informático que simula
un sistema inteligente, se procede al análisis de los datos disponibles.
Entre los sistemas de Inteligencia Artificial se encuadrarían los
Sistemas Expertos y las Redes Neuronales.

27
Sistemas Expertos: Son sistemas que han sido creados a partir de
reglas prácticas extraídas del conocimiento de expertos.
Principalmente a base de inferencias o de causa-efecto.

Sistemas Inteligentes: Son similares a los sistemas expertos, pero


con mayor ventaja ante nuevas situaciones desconocidas para el
experto.

Redes neuronales: Genéricamente, son métodos de proceso


numérico en paralelo, en el que las variables interactúan mediante
transformaciones lineales o no lineales, hasta obtener unas salidas.
Estas salidas se contrastan con los que tenían que haber salido,
basándose en unos datos de prueba, dando lugar a un proceso de
retroalimentación mediante el cual la red se reconfigura, hasta obtener
un modelo adecuado.
Ejemplo
El ejemplo clásico —aparte de algo rancio y, posiblemente, apócrifo—
de aplicación de la minería de datos tiene que ver con la detección de
hábitos de compra en supermercados. Un estudio muy citado detectó
que los viernes había una cantidad inusualmente elevada de clientes
que adquirían a la vez pañales y cerveza. Se detectó que se debía a
que dicho día solían acudir al supermercado padres jóvenes cuya
perspectiva para el fin de semana consistía en quedarse en casa
cuidando de su hijo y viendo la televisión con una cerveza en la mano.
El supermercado pudo incrementar sus ventas de cerveza
colocándolas próximas a los pañales para fomentar las ventas
compulsivas.
Un ejemplo más habitual es el de la detección de patrones de fuga.
En muchas industrias —como la banca, las telecomunicaciones, etc.
— existe un comprensible interés en detectar cuanto antes aquellos
clientes que puedan estar pensando en rescindir sus contratos para,
posiblemente, pasarse a la competencia. A estos clientes —y en
función de su valor— se les podrían hacer ofertas personalizadas,
ofrecer promociones especiales, etc., con el objetivo último de

28
retenerlos. La minería de datos ayuda a determinar qué clientes son
los más proclives a darse de baja estudiando sus patrones de
comportamiento y comparándolos con muestras de clientes que,
efectivamente, se dieron de baja en el pasado.
Un caso análogo es el de la detección de transacciones de blanqueo
de dinero o de fraude en el uso de tarjetas de crédito o de servicios
de telefonía móvil e, incluso, en la relación de los contribuyentes con
el fisco. Generalmente, estas operaciones fraudulentas o ilegales
suelen seguir patrones característicos que permiten, con cierto grado
de probabilidad, distinguirlas de las legítimas y desarrollar así
mecanismos para tomar medidas rápidas frente a ellas.
También es un área en boga el del análisis del comportamiento de los
visitantes —sobre todo, cuando son clientes potenciales— en una
página de internet. O la utilización de la información —obtenida por
medios más o menos legítimos— sobre ellos para ofrecerles
propaganda adaptada específicamente a su perfil. O para, una vez
que adquieren un determinado producto, saber inmediatamente qué
otro ofrecerle teniendo en cuenta la información histórica disponible
acerca de los clientes que han comprado el primero

29
BIBLIOGRAFIA

[1] Jhon Wiley Alan Simon and Sons. Data Warehouse, Data Mining and OLAP.
USA, 1997.

[2] Mc Graw Hill Alex Berson, Stephen J. Smith. Data Warehouse, Data Mining
and OLAP. USA, 1997.

[3] María José Ramírez Quintana José Hernández Orallo. Extracción Automática
de Conocimiento en Bases de Datos e Ingeniería del Software. España, 2003.

FUENTES

1. MINERIA DE DATOS [Consultado 13 de diciembre del 2015]


http://helvia.uco.es/xmlui/bitstream/handle/10396/6657/braco1
41_2001_8.pdf?sequence=1
http://exa.unne.edu.ar/informatica/SO/IM_2006.pdf
http://www.it.uc3m.es/jvillena/irc/practicas/06-07/22.pdf

2. MINERIA DE DATOS Y OTRAS DISCIPLINAS (Consultados 13


diciembre 2015)

https://marquina88.wordpress.com/2012/06/06/mineria-de-datos

http://wiki.abogadourbanista.com/index.php?title=Data_mining

30

S-ar putea să vă placă și