Documente Academic
Documente Profesional
Documente Cultură
�ndice
1 Proceso
2 Protocolo de un proyecto de miner�a de datos
3 T�cnicas de miner�a de datos
4 Ejemplos de uso de la miner�a de datos
4.1 Negocios
4.1.1 An�lisis de la cesta de la compra
4.1.2 Patrones de fuga
4.1.3 Fraudes
4.1.4 Recursos humanos
4.2 Comportamiento en Internet
4.3 Terrorismo
4.4 Juegos
4.5 Videojuegos
4.6 Ciencia e Ingenier�a
4.6.1 Gen�tica
4.6.2 Ingenier�a el�ctrica
4.6.3 An�lisis de gases
5 Miner�a de datos y otras disciplinas an�logas
5.1 De la estad�stica
5.2 De la inform�tica
6 Miner�a de datos basada en teor�a de la informaci�n
7 Tendencias
8 Herramientas de software
9 V�ase tambi�n
10 Referencias
11 Enlaces externos
Proceso
Un proceso t�pico de miner�a de datos consta de los siguientes pasos generales:
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas
y/o con m�rgenes de error admisibles) �ste ya est� listo para su explotaci�n. Los
modelos obtenidos por t�cnicas de miner�a de datos se aplican incorpor�ndolos en
los sistemas de an�lisis de informaci�n de las organizaciones, e incluso, en los
sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data
Mining Group, que est� estandarizando el lenguaje PMML (Predictive Model Markup
Language), de manera que los modelos de miner�a de datos sean interoperables en
distintas plataformas, con independencia del sistema con el que han sido
construidos. Los principales fabricantes de sistemas de bases de datos y programas
de an�lisis de la informaci�n hacen uso de este est�ndar.
Patrones de fuga
Un ejemplo m�s habitual es el de la detecci�n de patrones de fuga. En muchas
industrias �como la banca, las telecomunicaciones, etc.� existe un comprensible
inter�s en detectar cuanto antes aquellos clientes que puedan estar pensando en
rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos
clientes �y en funci�n de su valor� se les podr�an hacer ofertas personalizadas,
ofrecer promociones especiales, etc., con el objetivo �ltimo de retenerlos. La
miner�a de datos ayuda a determinar qu� clientes son los m�s proclives a darse de
baja estudiando sus patrones de comportamiento y compar�ndolos con muestras de
clientes que, efectivamente, se dieron de baja en el pasado.
Fraudes
Un caso an�logo es el de la detecci�n de transacciones de lavado de dinero o de
fraude en el uso de tarjetas de cr�dito o de servicios de telefon�a m�vil e,
incluso, en la relaci�n de los contribuyentes con el fisco. Generalmente, estas
operaciones fraudulentas o ilegales suelen seguir patrones caracter�sticos que
permiten, con cierto grado de probabilidad, distinguirlas de las leg�timas y
desarrollar as� mecanismos para tomar medidas r�pidas frente a ellas.
Recursos humanos
La miner�a de datos tambi�n puede ser �til para los departamentos de recursos
humanos en la identificaci�n de las caracter�sticas de sus empleados de mayor
�xito. La informaci�n obtenida puede ayudar a la contrataci�n de personal,
centr�ndose en los esfuerzos de sus empleados y los resultados obtenidos por estos.
Adem�s, la ayuda ofrecida por las aplicaciones para Direcci�n estrat�gica en una
empresa se traducen en la obtenci�n de ventajas a nivel corporativo, tales como
mejorar el margen de beneficios o compartir objetivos; y en la mejora de las
decisiones operativas, tales como desarrollo de planes de producci�n o gesti�n de
mano de obra.
Comportamiento en Internet
Tambi�n es un �rea en boga el del an�lisis del comportamiento de los visitantes
�sobre todo, cuando son clientes potenciales� en una p�gina de Internet. O la
utilizaci�n de la informaci�n �obtenida por medios m�s o menos leg�timos� sobre
ellos para ofrecerles propaganda adaptada espec�ficamente a su perfil. O para, una
vez que adquieren un determinado producto, saber inmediatamente qu� otro ofrecerle
teniendo en cuenta la informaci�n hist�rica disponible acerca de los clientes que
han comprado el primero.
Terrorismo
La miner�a de datos ha sido citada como el m�todo por el cual la unidad Able Danger
del Ej�rcito de los EE.UU. hab�a identificado al l�der de los atentados del 11 de
septiembre de 2001, Mohammed Atta, y a otros tres secuestradores del "11-S" como
posibles miembros de una c�lula de Al Qaeda que operan en los EE. UU. m�s de un a�o
antes del ataque. Se ha sugerido que tanto la Agencia Central de Inteligencia y su
hom�loga canadiense, Servicio de Inteligencia y Seguridad Canadiense, tambi�n han
empleado este m�todo.7?
Juegos
Desde comienzos de la d�cada de 1960, con la disponibilidad de or�culos para
determinados juegos combinacionales, tambi�n llamados finales de juego de tablero
(por ejemplo, para las tres en raya o en finales de ajedrez) con cualquier
configuraci�n de inicio, se ha abierto una nueva �rea en la miner�a de datos que
consiste en la extracci�n de estrategias utilizadas por personas para estos
or�culos. Los planteamientos actuales sobre reconocimiento de patrones, no parecen
poder aplicarse con �xito al funcionamiento de estos or�culos. En su lugar, la
producci�n de patrones perspicaces se basa en una amplia experimentaci�n con bases
de datos sobre esos finales de juego, combinado con un estudio intensivo de los
propios finales de juego en problemas bien dise�ados y con conocimiento de la
t�cnica (datos previos sobre el final del juego). Ejemplos notables de
investigadores que trabajan en este campo son Berlekamp en el juego de puntos-y-
cajas (o Timbiriche) y John Nunn en finales de ajedrez.
Videojuegos
En el transcurrir de los a�os las tecnolog�as y los avances con relaci�n a la
miner�a de datos se vieron involucrados en diferentes procesos de negocios y la
industria de los videojuegos no se qued� atr�s en este campo, la necesidad por
conocer a sus consumidores y el gusto de estos es parte fundamental para sobrevivir
en un ambiente tan competitivo como lo es este, se necesitan de diferentes datos
para antes de siquiera comenzar la idea de proyecto en un nuevo videojuego. Grandes
compa��as desarrolladoras han ca�do bajo el manto de cancelaciones, p�rdidas,
fracasos y en casos hasta la misma quiebra por el mal manejo de la informaci�n. En
los �ltimos a�os estas empresas desarrolladoras de videojuegos entendieron la gran
importancia del contenido que se maneja y como lo ve el consumidor por eso se
enfocaron en la contrataci�n de servicios de empresas especializadas en este sector
de miner�a de datos para poder presentar productos de calidad y que realmente
gusten al p�blico bas�ndose en el an�lisis de la informaci�n obtenida en el
transcurrir de los a�os �videojugabilisticos� de su p�blico objetivo.
Ciencia e Ingenier�a
En los �ltimos a�os la miner�a de datos se est� utilizando ampliamente en diversas
�reas relacionadas con la ciencia y la ingenier�a. Algunos ejemplos de aplicaci�n
en estos campos son:
Gen�tica
En el estudio de la gen�tica humana, el objetivo principal es entender la relaci�n
cartogr�fica entre las partes y la variaci�n individual en las secuencias del ADN
humano y la variabilidad en la susceptibilidad a las enfermedades. En t�rminos m�s
llanos, se trata de saber c�mo los cambios en la secuencia de ADN de un individuo
afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el c�ncer).
Esto es muy importante para ayudar a mejorar el diagn�stico, prevenci�n y
tratamiento de las enfermedades. La t�cnica de miner�a de datos que se utiliza para
realizar esta tarea se conoce como "reducci�n de dimensionalidad multifactorial".8?
Ingenier�a el�ctrica
En el �mbito de la ingenier�a el�ctrica, las t�cnicas de miner�a de datos han sido
ampliamente utilizadas para monitorizar las condiciones de las instalaciones de
alta tensi�n. La finalidad de esta monitorizaci�n es obtener informaci�n valiosa
sobre el estado del aislamiento de los equipos. Para la vigilancia de las
vibraciones o el an�lisis de los cambios de carga en transformadores se utilizan
ciertas t�cnicas para agrupaci�n de datos (clustering) tales como los mapas auto-
organizativos (SOM: Self-organizing map). Estos mapas sirven para detectar
condiciones anormales y para estimar la naturaleza de dichas anomal�as.9?
An�lisis de gases
Tambi�n se han aplicado t�cnicas de miner�a de datos para el an�lisis de gases
disueltos (DGA: Dissolved gas analysis) en transformadores el�ctricos. El an�lisis
de gases disueltos se conoce desde hace mucho tiempo como la herramienta para
diagnosticar transformadores. Los mapas auto-organizativos (SOM) se utilizan para
analizar datos y determinar tendencias que podr�an pasarse por alto utilizando las
t�cnicas cl�sicas (DGA).
En 1999 Dorian Pyle public� un libro llamado �Data Preparation for Data Mining� en
el que propone una manera de usar la Teor�a de la Informaci�n para analizar datos.
En este nuevo enfoque, una base de datos es un canal que transmite informaci�n. Por
un lado est� el mundo real que captura datos generados por el negocio. Por el otro
est�n todas las situaciones y problemas importantes del negocio. Y la informaci�n
fluye desde el mundo real y a trav�s de los datos, hasta la problem�tica del
negocio.
Al analizar los datos desde esta nueva perspectiva se genera un mapa de informaci�n
que hace innecesario la preparaci�n previa de los datos, una tarea absolutamente
imprescindible si se desea buenos resultados, pero que lleva enorme cantidad de
tiempo.
Una vez que las variables son procesadas con el fin de crear el mapa de informaci�n
y luego seleccionadas aquellas que aportan la mayor informaci�n, la elecci�n de la
herramienta que se usar� para crear el modelo deja de tener importancia, ya que el
mayor trabajo fue realizado en los pasos previos.
Tendencias
La Miner�a de Datos ha sufrido transformaciones en los �ltimos a�os de acuerdo con
cambios tecnol�gicos, de estrategias de marketing, la extensi�n de los modelos de
compra en l�nea, etc. Los m�s importantes de ellos son:
RapidMiner
KXEN
KNIME
Neural Designer
OpenNN
Orange
Powerhouse
Quiterian
R
XLMiner
SPSS Modeler
SAS Enterprise Miner
STATISTICA Data Miner
Weka
KEEL
[1]