Documente Academic
Documente Profesional
Documente Cultură
el Data Mining
Por Toms Aluja
Dept. de Estadstica e Investigacin Operativa. Universitat Politcnica de Catalunya.
La estadstica surgi en el siglo XX como respuesta a problemas planteados por la sociedad, cmo
encontrar el fertilizante que maximiza una produccin agrcola?, cmo utilizar componentes ms
baratos sin que se resienta el rendimiento del producto?, cmo determinar si un medicamento es
efectivo?, etc. Las innovaciones siempre han ido parejas de los problemas planteados. Sin embargo,
debemos reconocer que la ciencia estadstica ha estado manipulando datos durante partes del siglo sin
disponer de verdaderas herramientas de clculo. Ello, junto a un determinado estilo de enseanza de la
estadstica, le ha hecho aparecer como una ciencia esencialmente terica. En los ltimos aos, el
desarrollo del hardware est proporcionando nuevos e interesantes problemas a los cuales la estadstica
debe afrontar. Uno de estos problemas principales es el de hacer emerger la informacin contenida en los
datos, guardados de forma rutinaria por los sistemas de informacin puestos en marcha por las empresas
en los ltimos 20 aos, dando lugar a lo que ha venido en denominarse Data Mining (Minera de Datos).
Ya no se trata de analizar pequeos conjuntos de datos, sino de gigas o terabytes con un objetivo muy
preciso, la toma de una decisin empresarial. Ahora esto es concebible y obliga a repensar la Estadstica y
a establecer puentes con los jvenes y dinmicos competidores de la Inteligencia Artificial, aprovechando
las sinergias de la colaboracin y los puntos fuertes de ambas disciplinas.
Palabras clave: Estadstica, Inteligencia Artificial, Data warehouse, KDD, modelizacin.
Statistics had risen in the begining of XX century as a response to problems of society. Problems like
defining a optimum fertilizer, the optimal conditions of production in an industry or assessing the effect
of a drug, etc. Innovation always occured due to stated problems. Anyway, we shall agree that statistics
has been manipulating data for a most part of XX century without having a real computer device. Also a
certain style of statistics installed in academia favoured a theoretical concept of the discipline. Nowadays,
development in hardware have contributed to new and interestings sorts of data to analyse, which
statistics should face. One of this problem is to come into knowledge the information hidden in the stored
data by the information systems put in work for companies in the last two decades, coming up what is
called the field of data mining. It is no question to analyse small data files, but gigas or terabytes of
data, with a precise goal, to take a managerial decision. Nowadays, this is conceivable and push to think
again statistics and to establish bridges of cooperation with our competitors of Artificial Intelligence,
taking advantage of the strongness of both disciplines.
Key words: Statistics, Artifical Intelligence, Data warehouse, KDD, modelling.
34
Investigacin y Marketing
Nm. 68
Investigacin y Marketing
Nm. 68
35
36
son preguntas que se pueden formular una empresa. Para contestar deberemos construir un modelo. Para
ello necesitaremos disponer de datos
histricos con una serie de variables
explicativas y la variable de respuesta que queremos predecir. Si la variable de respuesta es de tipo continua
(p.e. la rentabilidad de un cliente)
diremos que se trata de un problema
de regresin, mientras que si la variable de respuesta es categrica (p.e.
la compra o no compra de un producto) diremos que se trata de un
problema de clasificacin.
LAS TCNICAS
Cualquiera que sea el problema a tratar, no existe una nica tcnica para
solucionarlo, sino que puede ser abordado utilizando distintas aproximaciones. Por otro lado, conviene tener claro de que no existe la tcnica ms
inteligente, sino formas inteligentes
de utilizar una tcnica. El nmero de
tcnicas es muy grande y seguir creciendo en el futuro, dado que en realidad todo tratamiento cuantitativo de
datos histricos, lo ms automtico
posible y hecho con un enfoque de
aprender de los datos y orientado a
la toma de decisiones empresarial, es
una tcnica de data mining. Tambin
aqu, sin pretender ser exhaustivos y
sabiendo que dejamos tcnicas sin
mencionar, presentamos una lista de
tcnicas con una breve resea.
Anlisis Factoriales Descriptivos. Permiten hacer visualizaciones de realidades multivariantes complejas y por
tanto poner de relieve las regularidades estadsticas, as como eventuales
discrepancias con esta regularidad y
sugerir hiptesis de explicacin.
Market Basket Analysis o anlisis de
la cesta de la compra. Permite detectar qu productos se adquieren conjuntamente, permite incorporar variables tcnicas que ayudan en la
interpretacin, como da de la semana, localizacin, forma de pago. Tambin puede aplicarse en contextos di-
Investigacin y Marketing
Nm. 68
tablecer unas relaciones con los clientes beneficiosas para ambos. No se trata de obtener beneficios de forma inmediata, sino de establecer relaciones
duraderas con los clientes basadas en
la confianza mutua.
Para las personas interesadas en ampliar el tema y estar el da, existe una
web con una revista informtica gratuita en http://www.kdnuggets.com.
BIBLIOGRAFA
Algoritmos genticos. Tambin aqu se
simula el modelo biolgico de la evolucin de las especies, slo que a una
velocidad infinitamente mayor. Es una
de las tcnicas ms prometedoras. En
principio cualquier problema que se
pueda plantear como la optimizacin
de una cierta combinacin entre distintos componentes, estando estas
combinaciones sujetas a restricciones,
puede resolverse mediante algoritmos
genticos.
En el futuro, que ya se est haciendo
presente, el campo de actuacin del
data mining se ampliar, no slo al
anlisis de datos histricos sino tambin a los datos almacenados recibidos on line, tal como son los datos
recogidos por internet, dando lugar al
web mining, en donde las tcnicas de
data mining son utilizadas para
optimizar las interacciones a travs de
la web, a fin de hacer que un potencial cliente vuelva a conectarse. A su
vez los datos objeto del anlisis tambin pueden ser textos, dando lugar
al text mining. La utilizacin de las
frases realmente escritas por los clientes supone un enriquecimiento de los
anlisis usuales realizados con informacin numrica. Ms a largo plazo
podr utilizarse la voz o las imgenes.
Por ltimo, dado el potencial de conocimiento de los consumidores que
las tcnicas de data mining suponen,
queremos soslayar el carcter tico que
debe presidir las relaciones entre las
empresas y los consumidores. Las tcnicas de data mining deben ser utilizadas por la empresa de forma de es-
38
Investigacin y Marketing
Nm. 68