Documente Academic
Documente Profesional
Documente Cultură
FACULTAD DE CIENCIAS
ESCUELA ACADÉMICO-PROFESIONAL
INGENIERÍA DE SISTEMAS E INFORMÁTICA
“MINERÍA DE DATOS”
AUTORES
ASESOR:
HUARAZ – PERU
2015
INTRODUCIÓN
Los métodos de tratamiento de la información en la empresa se iniciaron hace
muchos años con la automatización de los procesos repetitivos y administrativos.
Los sistemas informáticos centralizados se difundieron en las décadas de los
sesenta y setenta en las grandes corporaciones. La aparición de los mini-
ordenadores permitió la incorporación en medianas empresas de procesos
automatizados, y finalmente la difusión masiva de los ordenadores personales
en los ochenta y de las redes de comunicación generalizaron el uso de los
procesos informáticos y obligaron a cambiar las estructuras centralizadas de los
centros de proceso de datos. Las tecnologías de la información están orientadas
hoy día, no sólo a los procesos de tratamiento administrativo, sino también hacia
la gestión de datos y el soporte en los procesos de toma de decisiones. La
difusión de redes de ordenadores, incluyendo los equipos personales, origina
una descentralización de la información que dificulta la integración en su uso en
la gestión de la empresa. Por otra parte la aparición de nuevas herramientas está
facilitando esta integración y uso más eficiente a través de dos tipos de
desarrollos tecnológicos: los denominados Data Warehouse (DW) o almacén de
datos, y Data Mining (DM) o minería de datos. Varios factores han permitido
estos desarrollos: la reducción continua de los costes de almacenamiento y
proceso de la información, el incremento de la potencia de cálculo a través de
varias tecnologías (SMP o Symmetric Multi Processing, en el que en un solo
sistema varios procesadores se reparten en el trabajo, SMC, cluster o conjunto
de ordenadores que comparten los mismos sistemas de almacenamiento de
datos, o los MPP o multiprocesadores masivamente paralelos interconectados
por canales muy rápidos que permiten considerarlos como un único sistema), y
las necesidades derivadas del incremento de productividad y de tratamiento
individualizado del cliente.
ÍNDICE
INTRODUCIÓN........................................................................................................................... 1
1. MINERÍA DE DATOS ........................................................................................................ 5
1.1. DEFINICIÓN ................................................................................................................ 5
1.2. HISTORIA .................................................................................................................... 6
1.3. VENTAJAS Y DESVENTAJAS ............................................................................... 7
1.3.1. Ventajas .............................................................................................................. 7
1.3.2. Desventajas........................................................................................................ 8
3. TIPOS DE MINERÍA DE DATOS .................................................................................. 13
3.1. MINERÍA DE DATOS ESPACIALES .................................................................... 13
3.2. BASES DE DATOS GEOGRÁFICAS................................................................... 13
3.3. DATOS GEOGRÁFICOS ........................................................................................ 13
4. ETAPAS O FASE DE UN PROYECTO DE MINERÍA DE DATOS ......................... 14
4.1. CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING ................ 14
4.2. PRINCIPALES FASES............................................................................................ 15
4.2.1. Entendimiento de negocios ......................................................................... 15
4.2.2. Comprensión de Datos ................................................................................. 16
4.2.3. Preparación de datos .................................................................................... 16
4.2.4. Modelado .......................................................................................................... 16
4.2.5. Evaluación ........................................................................................................ 17
4.2.6. Despliegue........................................................................................................ 17
5. CAMPOS DE ACCIÓN DE LA MINERÍA DE DATOS ............................................... 18
5.1. GOBIERNOS ............................................................................................................ 19
5.2. UNIVERSIDAD ......................................................................................................... 20
5.3. INVESTIGACION ESPACIAL ................................................................................ 21
5.4. INTERNET ................................................................................................................. 21
5.5. NEGOCIOS ............................................................................................................... 22
5.5.1. Hábitos de compra en supermercados .................................................... 22
5.5.2. Patrones de fuga ............................................................................................ 23
5.5.3. Fraudes ............................................................................................................. 23
5.5.4. Recursos humanos ........................................................................................ 24
5.6. TERRORISMO .......................................................................................................... 24
5.7. JUEGOS .................................................................................................................... 24
5.8. CIENCIA E INGENIERÍA ........................................................................................ 25
5.9. GENÉTICA ................................................................................................................ 25
5.10. INGENIERÍA ELÉCTRICA.................................................................................. 25
6. MINERÍA DE DATOS Y OTRAS DISCIPLINAS ANÁLOGAS ................................. 26
6.1. DE LA ESTADÍSTICA ............................................................................................. 26
6.2. LA INFORMÁTICA .................................................................................................. 27
1. MINERÍA DE DATOS
1.1. DEFINICIÓN
5
interpretación de los resultados y la información son parte de la etapa
de minería de datos, pero que pertenecen a todo el proceso KDD
como pasos adicionales.
1.2. HISTORIA
Aunque desde un punto de vista académico el término data mining
es una etapa dentro de un proceso mayor llamado extracción de
conocimiento en bases de datos (Knowledge Discovery in
Databases o KDD) en el entorno comercial, ambos términos se usan
de manera indistinta. Lo que en verdad hace el data mining es reunir
las ventajas de varias áreas como la Estadística, la Inteligencia
Artificial, la Computación Gráfica, las Bases de Datos y el
Procesamiento Masivo, principalmente usando como materia prima
las bases de datos. Una definición tradicional es la siguiente: "Un
proceso no trivial de identificación válida, novedosa, potencialmente
útil y entendible de patrones comprensibles que se encuentran
ocultos en los datos". Desde otro punto de vista se define como "la
integración de un conjunto de áreas que tienen como propósito la
identificación de un conocimiento obtenido a partir de las bases de
datos que aporten un sesgo hacia la toma de decisión”. La idea de
data mining no es nueva. Ya desde los años sesenta los estadísticos
manejaban términos como data fishing, data mining o data
6
archaeology con la idea de encontrar correlaciones sin una hipótesis
previa en bases de datos con ruido. A principios de los años ochenta,
Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-
Shapiro, entre otros, empezaron a consolidar los términos de data
mining y KDD. A finales de los años ochenta sólo existían un par de
empresas dedicadas a esta tecnología; y en 2002 existían más de
100 empresas en el mundo que ofrecían alrededor de 300
soluciones. Las listas de discusión sobre este tema las forman
investigadores de más de ochenta países. Esta tecnología ha sido
un buen punto de encuentro entre personas pertenecientes al ámbito
académico y al de los negocios. El data mining es una tecnología
compuesta por etapas que integra varias áreas y que no se debe
confundir con un gran software. Durante el desarrollo de un proyecto
de este tipo se usan diferentes aplicaciones software en cada etapa
que pueden ser estadísticas, de visualización de datos o de
inteligencia artificial, principalmente. Actualmente existen
aplicaciones o herramientas comerciales de data mining muy
poderosas que facilitan el desarrollo de un proyecto. Sin embargo,
casi siempre acaban complementándose con otra herramienta.
1.3.1. Ventajas
Enormes bases de datos pueden ser analizadas.
Enormes bases de datos pueden ser analizadas mediante la
tecnología del Data Mining. Estas Bases de datos pueden ser
enormes tanto en largo como en ancho. Por ejemplo, para
cada cliente se puede tener cientos de atributos que
contienen información detallada; y además tener miles de
registros de clientes.
7
Como muchos modelos diferentes son validados, algunos
resultados inesperados tienden a aparecer. En muchos
estudios, se ha descubierto que combinaciones particulares
de factores entregan efectos inesperados que entregan valor
a la compañía. (Pañales y cerveza).
1.3.2. Desventajas
Dificultad de recopilación de los datos
Dependiendo del tipo de datos que se quieran recopilar puede
conllevar mucho trabajo o la necesidad de tecnología de
elevado coste.
8
El pre procesamiento de datos puede llevar demasiado
tiempo
No está asegurada la obtención de un modelo válido
9
El hecho es, que en la práctica la totalidad de los modelos y algoritmos de
uso general en minería de datos Redes neuronales, decisión, regresión y
clasificación, modelos logísticos, análisis de componentes principales, etc.
gozan de una tradición relativamente larga en otros campos.
Las técnicas más representativas de la estadística y la informática
son:
Redes neuronales
Son un paradigma de aprendizaje y procesamiento automático inspirado
en la forma en que funciona el sistema nervioso de los animales. Se trata
de un sistema de interconexión de neuronas en una red que colabora para
producir un estímulo de salida. Genéricamente, son métodos de proceso
numérico en paralelo, en el que las variables interactúan mediante
transformaciones lineales o no lineales, hasta obtener unas salidas. Estas
salidas se contrastan con los que tenían que haber salido, basándose en
unos datos de prueba, dando lugar a un proceso de retroalimentación
mediante el cual la red se reconfigura, hasta obtener un modelo
adecuado.
Regresión lineal
Es la más utilizada para formar relaciones entre datos. Es rápida y eficaz,
pero insuficiente en espacios multidimensionales donde puedan
relacionarse más de 2 variables. Define la relación entre una o más
variables y un conjunto de variables predictores de las primeras.
Árboles de decisión
Es un modelo de predicción utilizado en el ámbito de la inteligencia
artificial. Dada una base de datos se construyen estos diagramas de
construcciones lógicas, muy similares a los sistemas de predicción
basados en reglas, que sirven para representar y categorizar una serie de
condiciones que suceden de forma sucesiva, para la resolución de un
problema.
10
Modelos estadísticos
Es una expresión simbólica en forma de igualdad o ecuación que se
emplea en todos los diseños experimentales y en la regresión para indicar
los diferentes factores que modifican la variable de respuesta.
Agrupamiento o Clustering
Es un procedimiento de agrupación de una serie de vectores según
criterios habitualmente de distancia. Permite la clasificación de una
población de individuos caracterizados por múltiples atributos (binarios,
cualitativos o cuantitativos) en un número determinado de grupos, con
base en las semejanzas o diferencias de los individuos. Se tratará de
disponer los vectores de entrada de forma que estén más cercanos
aquellos que tengan características comunes.
Análisis de varianza
Evalúa la existencia de diferencias significativas entre las medias de una
o más variables continúas en poblaciones distintos.
Prueba chi-cuadrado
Por medio de la cual se realiza el contraste la hipótesis de dependencia
entre variables.
Análisis discriminante
Permite la clasificación de individuos en grupos que previamente se han
establecido. También posibilita encontrar la regla de clasificación de los
elementos de estos grupos, y por tanto una mejor identificación de cuáles
son las variables que definan la pertenencia al grupo.
Series de tiempo
Permite el estudio de la evolución de una variable a través del tiempo,
para poder realizar predicciones, a partir de ese conocimiento y bajo el
supuesto de que no van a producirse cambios estructurales.
11
Algoritmos genéticos
Son métodos numéricos de optimización, en los que aquella variable o
variables que se pretenden optimizar junto con las variables de estudio
constituyen un segmento de información. Aquellas configuraciones de las
variables de análisis que obtengan mejores valores para la variable de
respuesta, corresponderán a segmentos con mayor capacidad
reproductiva. A través de la reproducción, los mejores segmentos
perduran y su proporción crece de generación en generación. Se puede
además introducir elementos aleatorios para la modificación de las
variables (mutaciones). Al cabo de cierto número de iteraciones, la
población estará constituida por buenas soluciones al problema de
optimización, pues las malas soluciones han ido descartándose, iteración
tras iteración.
Inteligencia artificial
Mediante un sistema informático que simula un sistema inteligente, se
procede al análisis de los datos disponibles. Entre los sistemas de
Inteligencia Artificial se encuadrarían los Sistemas Expertos y las Redes
Neuronales.
Sistemas Expertos
Son sistemas que han sido creados a partir de reglas prácticas extraídas
del conocimiento de expertos. Principalmente a base de inferencias o de
causa-efecto.
Sistemas Inteligentes
Son similares a los sistemas expertos, pero con mayor ventaja ante
nuevas situaciones desconocidas para el experto.
12
3. TIPOS DE MINERÍA DE DATOS
13
incluso un órgano humano dentro de un mapa de imágenes médicas.
Básicamente, un dato geográfico representa información topológica
de algún tipo.
Existen varios tipos de datos geográficos, desde los más simples
que podrían ser un punto y una línea, hasta tipos complejos que
representen toda la información de una región: su forma; regiones
vecinas; temperatura promedio; número de habitantes; relieve
topográfico; etc.
14
4.2. PRINCIPALES FASES
1 Harper, Gavin; Stephen D. Pickett (agosto de 2006). "Los métodos para datos HTS mineras". Drug
Discovery Today 11 (15-16): 694-699. Doi: 10.1016 / j.drudis.2006.06.006. PMID16846796
15
y luego convertir este conocimiento en una definición del
problema de minería de datos, y un plan preliminar diseñado
para alcanzar los objetivos. Un modelo
de decisión, especialmente una construida utilizando
el Modelo de Decisión y notación estándar se puede utilizar.
4.2.2. Comprensión de Datos
La fase de comprensión de datos comienza con una colección
de datos inicial y continúa con las actividades con el fin de
familiarizarse con los datos, para identificar los problemas de
calidad de datos, para descubrir las primeras ideas sobre los
datos, o para detectar subconjuntos interesantes para formar
hipótesis de información oculta.
4.2.4. Modelado
En esta fase, se seleccionan varias técnicas de modelado y
se aplican, y sus parámetros están calibrados para valores
óptimos. Típicamente, existen varias técnicas para el mismo
tipo de problema de minería de datos. Algunas técnicas tienen
requerimientos específicos en forma de datos. Por lo tanto,
dar un paso atrás a la fase de preparación de datos es a
menudo necesaria.
16
4.2.5. Evaluación
En esta etapa en el proyecto que ha construido un modelo (o
modelos) que parece tener gran calidad, desde una
perspectiva de análisis de datos. Antes de proceder a la
implementación final del modelo, es importante para evaluar
más a fondo el modelo, y revisar los pasos ejecutados para
construir el modelo, para estar seguro de que logra
adecuadamente los objetivos de negocio. Un objetivo clave es
determinar si hay algún problema de negocios importante que
no se ha considerado suficientemente. Al final de esta fase,
se debe alcanzar una decisión sobre el uso de los resultados
de minería de datos.
4.2.6. Despliegue
Creación del modelo generalmente no es el final del
proyecto. Aunque el propósito del modelo es aumentar el
conocimiento de los datos, tendrá que ser organizada y
presentada de una manera que sea útil para el cliente los
conocimientos adquiridos. Dependiendo de los requisitos, la
fase de despliegue puede ser tan simple como la generación
de un informe o tan complejo como la implementación de una
puntuación repetible de datos (por ejemplo, la asignación de
segmento) o el proceso de minería de datos. En muchos
casos, será el cliente, no el analista de datos, que llevará a
cabo los pasos de implementación. Incluso si el analista
despliega el modelo es importante para el cliente para
entender por adelantado las acciones que deberán llevarse a
cabo con el fin de hacer realidad el uso de los modelos
creados.
17
5. CAMPOS DE ACCIÓN DE LA MINERÍA DE DATOS
El data mining surge como una tecnología que intenta ayudar a comprender
el contenido de una base de datos. De forma general, los datos son la
materia prima bruta. En el momento que el usuario les atribuye algún
significado especial pasan a convertirse en información. Cuando los
especialistas elaboran o encuentran un modelo, haciendo que la
interpretación conjunta entre la información y ese modelo represente un
valor agregado, entonces nos referimos al conocimiento. En la figura 1 se
ilustra la jerarquía que existe en una base de datos entre dato, información
y conocimiento. Se observa igualmente el volumen que presenta en cada
nivel y el valor que los responsables de las decisiones le dan en esa
jerarquía. El área interna dentro del triángulo representa los objetivos que
se han propuesto. La separación del triángulo representa la estrecha unión
entre dato e información, no así entre la información y el conocimiento. El
data mining trabaja en el nivel superior buscando patrones,
comportamientos, agrupaciones, secuencias, tendencias o asociaciones
que puedan generar algún modelo que nos permita comprender mejor el
dominio para ayudar en una posible toma de decisión.
Sistemas parcialmente desconocidos: Si el modelo del sistema que
produce los datos es bien conocido, entonces no necesitamos de la minería
de datos ya que todas las variables son de alguna manera predecibles. Este
no es el caso del comercio electrónico, debido a los efectos del
comportamiento humano, el clima y de decisiones políticas entre otros. En
estos casos habrá una parte del sistema que es conocida y habrá una parte
aparentemente de naturaleza aleatoria. Bajo ciertas circunstancias, a partir
de una gran cantidad de datos asociada con el sistema, existe la posibilidad
de encontrar nuevos aspectos previamente desconocidos del modelo.
Enorme cantidad de datos: Al contar con mucha información en algunas
bases de datos es importante para una empresa encontrar la forma de
analizar "montañas" de información (lo que para un humano sería
imposible) y que ello le produzca algún tipo de beneficio.
Potente hardware y software: Muchas de las herramientas presentes en
la minería de datos están basadas en el uso intensivo de la computación,
en consecuencia, un equipo conveniente y un software eficiente, con el cual
18
cuente una compañía, aumentará el desempeño del proceso de buscar y
analizar información, el cual a veces debe vérselas con producciones de
datos del orden de los Gbytes/hora ( repetimos, algo humanamente
imposible). El uso del data mining puede ser provechoso en el caso de
poseer datos sobre sus procesos productivos, datos de seguimiento de
clientes, datos externos de mercado, datos sobre la actividad de
competidores, etc.
Entre las aplicaciones de la minería de datos tenemos:
5.1. GOBIERNOS
El FBI analizará las bases de datos comerciales para detectar
terroristas. A principios del mes de julio de 2002, el director del FBI
en Estados Unidos, John Aschcroft, anunció que el Departamento
de Justicia comenzaría a introducirse en la enorme cantidad de
datos comerciales en los que se revelan hábitos y costumbres de la
población, con el fin de poder identificar a potenciales terroristas con
antelación a que puedan cometer un atentado. Algunos expertos
aseguran que, con esta información, el FBI unirá todas las bases de
datos mediante el número de la Seguridad Social y permitirá saber
si una persona fuma, qué talla y tipo de ropa usa, si ha sido arrestado
y cuantas veces, el barrio donde vive, si en este se cometen más o
menos delitos, su salario, las revistas a las que está suscrito, su
altura y peso, sus contribuciones a la Iglesia, grupos políticos u
organizaciones no gubernamentales, sus enfermedades crónicas,
los libros que lee, los productos de supermercado que compra, si
tomó clases de vuelo o si tiene cuentas de banco abiertas, entre
otros. La inversión inicial ronda los 70 millones de $ estadounidenses
para consolidar los almacenes de datos, desarrollar redes de
seguridad que sean capaces de compartir la información e
implementar nuevo software analítico y de visualización. Con este
tipo de aplicaciones sale de nuevo el tema ético de la privacidad y
libertad de los individuos. En el fondo la aplicación es un gran
19
hermano que observa cualquier movimiento que se haga, pudiendo
estos ser utilizados para otros fines distintos a los que fue diseñado.
5.2. UNIVERSIDAD
Se realizó un estudio sobre los recién titulados de la carrera de
Ingeniería en Sistemas Computacionales del Instituto Tecnológico
de Chihuahua II en Méjico. Se quería observar si los recién titulados
se insertaban en actividades profesionales relacionadas con sus
estudios y, en caso negativo, se buscaba saber el perfil que
caracterizó a los ex-alumnos durante su estancia en la universidad.
Se deseaba concluir si con los planes de estudio de la universidad y
el rendimiento del alumno se hacía una buena inserción laboral o si
existían otras variables que participaban en el proceso. Dentro de la
información considerada estaba el sexo, la edad, la escuela de
procedencia, el desempeño académico, la zona económica donde
tenía su vivienda y la actividad profesional, entre otras variables.
Mediante la aplicación de conjuntos aproximados se descubrió que
existían cuatro variables que determinaban la adecuada inserción
laboral, que son citadas de acuerdo con su importancia:
20
5.3. INVESTIGACION ESPACIAL
Durante seis años, el Second Palomar Observatory Sky Survey
(POSS-II) coleccionó tres terabytes de imágenes que contenían
aproximadamente dos millones de objetos en el cielo. Tres mil
fotografías fueron digitalizadas a una resolución de 16 bits por píxel
con 23040 x 23040 píxeles por imagen. El objetivo era formar un
catálogo de todos esos objetos. El sistema Sky Image Cataloguing
and Analysis Tool (SKYCAT) se basa en técnicas de agrupación
(clustering) y árboles de decisión para poder clasificar los objetos en
estrellas, planetas, sistemas, galaxias, etc. con una alta
confiabilidad. Los resultados han ayudado a los astrónomos a
descubrir dieciséis nuevos quásares (señales radiales lejanas) con
corrimiento hacia el rojo que los incluye entre los objetos más lejanos
del universo y, por consiguiente, más antiguos. Los quásares son
fuentes de Rayos X, radiación ultravioleta, luz visible y también
infrarroja; en otras palabras, la emisión de radiación de los quásares
resulta intensa en todo el espectro electromagnético. Estos
quásares son difíciles de encontrar y permiten saber más acerca de
los orígenes del universo.
5.4. INTERNET
Una de las aplicaciones de la minería de datos consiste en aplicar
sus técnicas a documentos y servicios Web, lo que se denomina
comúnmente con el término inglés web mining (minería de Web).
Cada vez que un usuario visita un sitio Web va dejando todo tipo de
“huellas” Web (direcciones de IP, navegador, galletas, etc.) que los
servidores automáticamente almacenan en una base de datos (log).
Las herramientas de web mining analizan y procesan esta
abundante cantidad de datos para producir información significativa,
por ejemplo, cómo es la navegación de un cliente antes de hacer
una compra en línea. Debido a que los contenidos de Internet
consisten en varios tipos de datos, como texto, imagen, vídeo,
metadatos o hiperligas, investigaciones recientes usan el término
multimedia data mining (minería de datos multimedia) como una
21
instancia del web mining para tratar ese tipo de datos. Los accesos
totales por dominio, horarios de accesos más frecuentes y visitas por
día, entre otros datos, son registrados por herramientas estadísticas
que complementan todo el proceso de análisis del web mining.
También es un área en boga el del análisis del comportamiento de
los visitantes sobre todo, cuando son clientes potenciales en una
página de internet. O la utilización de la información obtenida por
medios más o menos legítimos sobre ellos para ofrecerles
propaganda adaptada específicamente a su perfil. O para, una vez
que adquieren un determinado producto, saber inmediatamente qué
otro ofrecerle teniendo en cuenta la información histórica disponible
acerca de los clientes que han comprado el primero.
5.5. NEGOCIOS
La minería de datos puede contribuir significativamente en las
aplicaciones de administración empresarial basada en la relación
con el cliente. En lugar de contactar con el cliente de forma
indiscriminada a través de un centro de llamadas o enviando cartas,
sólo se contactará con aquellos que se perciba que tienen una mayor
probabilidad de responder positivamente a una determinada oferta o
promoción. Por lo general, las empresas que emplean minería de
datos ven rápidamente el retorno de la inversión, pero también
reconocen que el número de modelos predictivos desarrollados
puede crecer muy rápidamente.
En lugar de crear modelos para predecir qué clientes pueden
cambiar, la empresa podría construir modelos separados para cada
región y/o para cada tipo de cliente. También puede querer
determinar que clientes van a ser rentables durante una ventana de
tiempo (una quincena, un mes,...) y sólo enviar las ofertas a las
personas que es probable que sean rentables. Para mantener esta
cantidad de modelos, es necesario gestionar las versiones de cada
modelo y pasar a una minería de datos lo más automatizada posible.
5.5.1. Hábitos de compra en supermercados
22
El ejemplo clásico de aplicación de la minería de datos tiene
que ver con la detección de hábitos de compra en
supermercados. Un estudio muy citado detectó que los
viernes había una cantidad inusualmente elevada de clientes
que adquirían a la vez pañales y cerveza. Se detectó que se
debía a que dicho día solían acudir al supermercado padres
jóvenes cuya perspectiva para el fin de semana consistía en
quedarse en casa cuidando de su hijo y viendo la televisión
con una cerveza en la mano. El supermercado pudo
incrementar sus ventas de cerveza colocándolas próximas a
los pañales para fomentar las ventas compulsivas.
5.5.3. Fraudes
Un caso análogo es el de la detección de transacciones de
blanqueo de dinero o de fraude en el uso de tarjetas de crédito
o de servicios de telefonía móvil e, incluso, en la relación de
los contribuyentes con el fisco. Generalmente, estas
operaciones fraudulentas o ilegales suelen seguir patrones
característicos que permiten, con cierto grado de
23
probabilidad, distinguirlas de las legítimas y desarrollar así
mecanismos para tomar medidas rápidas frente a ellas.
5.6. TERRORISMO
La minería de datos ha sido citada como el método por el cual la
unidad able danger del ejército de los EE.UU. había identificado al
líder de los atentados del 11 de septiembre de 2001, mohammed
atta, y a otros tres secuestradores del "11-s" como posibles
miembros de una célula de al ALQEDA que operan en los EE.UU.
más de un año antes del ataque. Se ha sugerido que tanto la agencia
central de inteligencia y sus homóloga canadiense, servicio de
inteligencia y seguridad canadiense, también han empleado este
método.
5.7. JUEGOS
Desde comienzos de la década de 1960, con la disponibilidad de
oráculos para determinados juegos combi nacionales, también
llamados finales de juego de tablero (por ejemplo, para las tres en
raya o en finales de ajedrez) con cualquier configuración de inicio,
se ha abierto una nueva área en la minería de datos que consiste en
24
la extracción de estrategias utilizadas por personas para estos
oráculos. Los planteamientos actuales sobre reconocimiento de
patrones, no parecen poder aplicarse con éxito al funcionamiento de
estos oráculos. En su lugar, la producción de patrones perspicaces
se basa en una amplia experimentación con bases de datos sobre
esos finales de juego, combinado con un estudio intensivo de los
propios finales de juego en problemas bien diseñados y con
conocimiento de la técnica (datos previos sobre el final del juego).
Ejemplos notables de investigadores que trabajan en este campo
son berlekamp en el juego de puntos y cajas (o timbiriche) y john
nunn en finales de ajedrez.
5.9. GENÉTICA
En el estudio de la genética humana, el objetivo principal es entender
la relación cartografía entre las partes y la variación individual en las
secuencias del humano y la variabilidad en la susceptibilidad a las
enfermedades. En términos más llanos, se trata de saber cómo los
cambios en la secuencia de un individuo afectan al riesgo de
desarrollar enfermedades comunes (como por ejemplo el cáncer).
Esto es muy importante para ayudar a mejorar el diagnóstico,
prevención y tratamiento de las enfermedades. La técnica de minería
de datos que se utiliza para realizar esta tarea se conoce como
"reducción de dimensional dad multifactorial".
25
equipos. Para la vigilancia de las vibraciones o el análisis de los
cambios de carga en transformadores se utilizan ciertas técnicas para
agrupación de datos tales como los mapas auto-organizativos. Estos
mapas sirven para detectar condiciones anormales y para estimar la
naturaleza de dichas anomalías.
6.1. DE LA ESTADÍSTICA
Ciertamente, la minería de datos bebe de la estadística, de la que toma
las siguientes técnicas:
26
(binarios, cualitativos o cuantitativos) en un número determinado de
grupos, con base en las semejanzas o diferencias de los individuos.
6.2. LA INFORMÁTICA
De la informática toma las siguientes técnicas:
27
Sistemas Expertos: Son sistemas que han sido creados a partir de
reglas prácticas extraídas del conocimiento de expertos.
Principalmente a base de inferencias o de causa-efecto.
28
retenerlos. La minería de datos ayuda a determinar qué clientes son
los más proclives a darse de baja estudiando sus patrones de
comportamiento y comparándolos con muestras de clientes que,
efectivamente, se dieron de baja en el pasado.
Un caso análogo es el de la detección de transacciones de blanqueo
de dinero o de fraude en el uso de tarjetas de crédito o de servicios
de telefonía móvil e, incluso, en la relación de los contribuyentes con
el fisco. Generalmente, estas operaciones fraudulentas o ilegales
suelen seguir patrones característicos que permiten, con cierto grado
de probabilidad, distinguirlas de las legítimas y desarrollar así
mecanismos para tomar medidas rápidas frente a ellas.
También es un área en boga el del análisis del comportamiento de los
visitantes —sobre todo, cuando son clientes potenciales— en una
página de internet. O la utilización de la información —obtenida por
medios más o menos legítimos— sobre ellos para ofrecerles
propaganda adaptada específicamente a su perfil. O para, una vez
que adquieren un determinado producto, saber inmediatamente qué
otro ofrecerle teniendo en cuenta la información histórica disponible
acerca de los clientes que han comprado el primero
29
BIBLIOGRAFIA
[1] Jhon Wiley Alan Simon and Sons. Data Warehouse, Data Mining and OLAP.
USA, 1997.
[2] Mc Graw Hill Alex Berson, Stephen J. Smith. Data Warehouse, Data Mining
and OLAP. USA, 1997.
[3] María José Ramírez Quintana José Hernández Orallo. Extracción Automática
de Conocimiento en Bases de Datos e Ingeniería del Software. España, 2003.
FUENTES
https://marquina88.wordpress.com/2012/06/06/mineria-de-datos
http://wiki.abogadourbanista.com/index.php?title=Data_mining
30