Sunteți pe pagina 1din 4

Los nuevos retos de la estadstica,

el Data Mining
Por Toms Aluja
Dept. de Estadstica e Investigacin Operativa. Universitat Politcnica de Catalunya.

La estadstica surgi en el siglo XX como respuesta a problemas planteados por la sociedad, cmo
encontrar el fertilizante que maximiza una produccin agrcola?, cmo utilizar componentes ms
baratos sin que se resienta el rendimiento del producto?, cmo determinar si un medicamento es
efectivo?, etc. Las innovaciones siempre han ido parejas de los problemas planteados. Sin embargo,
debemos reconocer que la ciencia estadstica ha estado manipulando datos durante partes del siglo sin
disponer de verdaderas herramientas de clculo. Ello, junto a un determinado estilo de enseanza de la
estadstica, le ha hecho aparecer como una ciencia esencialmente terica. En los ltimos aos, el
desarrollo del hardware est proporcionando nuevos e interesantes problemas a los cuales la estadstica
debe afrontar. Uno de estos problemas principales es el de hacer emerger la informacin contenida en los
datos, guardados de forma rutinaria por los sistemas de informacin puestos en marcha por las empresas
en los ltimos 20 aos, dando lugar a lo que ha venido en denominarse Data Mining (Minera de Datos).
Ya no se trata de analizar pequeos conjuntos de datos, sino de gigas o terabytes con un objetivo muy
preciso, la toma de una decisin empresarial. Ahora esto es concebible y obliga a repensar la Estadstica y
a establecer puentes con los jvenes y dinmicos competidores de la Inteligencia Artificial, aprovechando
las sinergias de la colaboracin y los puntos fuertes de ambas disciplinas.
Palabras clave: Estadstica, Inteligencia Artificial, Data warehouse, KDD, modelizacin.
Statistics had risen in the begining of XX century as a response to problems of society. Problems like
defining a optimum fertilizer, the optimal conditions of production in an industry or assessing the effect
of a drug, etc. Innovation always occured due to stated problems. Anyway, we shall agree that statistics
has been manipulating data for a most part of XX century without having a real computer device. Also a
certain style of statistics installed in academia favoured a theoretical concept of the discipline. Nowadays,
development in hardware have contributed to new and interestings sorts of data to analyse, which
statistics should face. One of this problem is to come into knowledge the information hidden in the stored
data by the information systems put in work for companies in the last two decades, coming up what is
called the field of data mining. It is no question to analyse small data files, but gigas or terabytes of
data, with a precise goal, to take a managerial decision. Nowadays, this is conceivable and push to think
again statistics and to establish bridges of cooperation with our competitors of Artificial Intelligence,
taking advantage of the strongness of both disciplines.
Key words: Statistics, Artifical Intelligence, Data warehouse, KDD, modelling.

LA NUEVA FUERZA MOTRIZ

ells no se haba decidido todo


lo rpido que debiera. Fortuny
se le haba adelantado y haba
cerrado el pacto por el que adquira
la finca de Sala. Esta finca tena la gra-

cia que por ella el ro se estrechaba y


haca un desnivel, por el que el agua
corra ms rpidamente. Ahora Fortuny
podra instalar all ms telares y tener
ms fuerza motriz con la que moverlos y a la larga tener ventaja competitiva sobre Sells. A principios del si-

Los nuevos retos de la estadstica,


el Data Mining

34

glo XIX, el movimiento del agua era


la fuerza motriz que mova toda la industria textil.
Este relato puede parecer ahora desfasado, pero no lo es. Ahora igual que
antes, las empresas deben obtener su

Investigacin y Marketing

Nm. 68

fuerza motriz con la que mover la


empresa, slo que en el nuevo siglo
que ahora empezamos, no son las
fuentes de energa las que provocan
diferencias significativas entre las empresas, sino que ahora la fuerza motriz son los DATOS. Tener datos histricos almacenados sobre los procesos
y las interacciones con los clientes son
un tesoro para la empresa. El hecho
de disponer de datos de calidad almacenados y sistemas rpidos de extraccin de la informacin contenida en
los mismos significa poder tomar decisiones ms rpidamente que la competencia, ms acertadas y obtener as,
ventaja competitiva respecto los competidores.
Pero no basta con tener los datos almacenados en un sistema de fcil acceso y consulta (esto es, en un data
warehouse). El almacn de datos es
importante puesto que nos permite
record a r c m o h a n s i d o l a s
interacciones de nuestra empresa con
nuestros clientes. El data warehouse
es la memoria de la empresa, pero
con tener memoria no es suficiente.
Hay que hacer un salto adelante, hay
que ser capaces de APRENDER de los
datos, es decir, hay que pasar al tratamiento inteligente de los datos. Este
es el objetivo del DATA MINING. Hay
que aprender de las interacciones pasadas con nuestros clientes, para saber cules son sus preferencias, sus
hbitos, su ciclo de compra, su especificidad, de forma de poderle aconsejar cuales son los productos ms interesantes para l (o ella), llegando a
una complicidad como la que antao
tenamos con los tenderos del barrio.
Para ello la produccin de informacin relevante se ha convertido en un
factor de supervivencia para las empresas. La capacidad de la empresa,
de su sistema de toma de decisiones
para aprender de los datos histricos
almacenados, mejora su adaptacin
al entorno y le hace adquirir ventaja
competitiva.
Entre el pblico especializado se distingue entre el llamado Knowledge
Discovery in Data Bases (KDD) y

Investigacin y Marketing

Data Mining, reservndose este ltimo para la fase propiamente


algortmica de tratamiento de la informacin, mientras el KDD abarca
todas las fases, desde la preparacin
de los datos hasta la presentacin de
resultados, pero en la prctica, esta
distincin es muy sutil. Nosotros entenderemos por data mining la exploracin y anlisis, de forma cuanto ms automtica posible, de
grandes cantidades de datos para
descubrir patrones y reglas de comp o r t a m i e n t o . Ta m b i n p u e d e
definirse el data mining como el proceso de conversin de datos en informacin til para la toma de decisiones.

ES EL DATA MINING UNA MODA?


Por qu ahora todas las empresas de
un cierto tamao estn poniendo en
marcha, o considerando la posibilidad de poner en marcha, una unidad
de Data Mining.? Es una moda?. Mi
opinin es que no. Ahora se dan todas las condiciones para que cada vez
ms las unidades de data mining
crezcan y se consoliden como centros tcnicos de soporte, estrechamente conectados con la direccin. Nunca como hasta ahora se poda pensar
en un almacenamiento masivo de los
datos histricos, nunca como hasta
ahora se poda pensar en tener unas
herramientas informticas para la gestin y anlisis de estos datos como
de las que ya ahora se dispone, nunca como hasta ahora haba habido la
potencia de clculo suficiente para
prescindir de las muestras (aunque
sean aleatorias) y poder trabajar con
todos los datos almacenados, nunca
como hasta ahora haba habido un
nivel de competencia tan global entre las empresas, nunca como hasta
ahora haba habido la necesidad de
ofrecer productos adaptados a las
necesidades del cliente. Y todos
estos factores irn in crescendo
en el nuevo siglo. En este sentido,
nuestra opinin es que el data
mining no es una opcin sino una
necesidad.

Nm. 68

35

QU EMPRESAS PUEDEN UTILIZAR EL


DATA MINING?
La respuesta es que todas, y tambin
las instituciones pblicas. La nica
condicin es tener datos histricos fiables sobre sus transacciones o procesos. No hace falta que estn almacenados en una base de datos o en un
sistema de data warehouse, un simple fichero Dbase, Access o texto, basta. Es a efectos de tener guardados los
datos de forma estructurada y sin duplicidades que es bueno para la empresa tenerlos en una base de datos,
pero para aplicar una tcnica de Data
Mining, basta tenerlos en un fichero.
Ciertamente, por ahora las empresas
de servicios, banca, aseguradoras,
hipermercados, venta directa, etc. son
las pioneras en la utilizacin Data
Mining. Pero todas las empresas, cuyos procesos den lugar a grandes cantidades de datos almacenados, son
susceptibles de ganar utilizando las
herramientas del Data Mining. En Espaa se constata que en este momento la demanda de sistemas de data
mining est en fase de crecimiento
exponencial.

EL DATA MINING ES ESTADSTICA O


INTELIGENCIA ARTIFICIAL?
Pero, cules son las tcnicas de Data
Mining? Son tcnicas propias, o por
el contrario, las toma de prestado de
otras disciplinas?. Las caractersticas comunes a todas las tcnicas de data
mining son que deben ser capaces de
tratar grandes volmenes de datos y
capaces de extraer conocimiento sobre subconjuntos de ellos. Encontrar
el filn que nos lleva hacia la informacin preciosa para la empresa.
Las tcnicas, sin embargo, no son propias sino que provienen de la Estadstica y de la Informtica, concretamente de la Inteligencia Artificial. Estas dos
disciplinas, como a menudo sucede en
el entorno acadmico, se han desarrollado independientes la una de la
otra, cuando en realidad el problema
que abordan es el mismo, o cuando

Los nuevos retos de la estadstica,


el Data Mining

menos muy parecido, aportando cada


una los puntos fuertes que le son propios. Resumiendo mucho, podemos
decir que la Inteligencia Artificial ha
estado ms centrada en ofrecer soluciones algortmicas con un costo
computacional aceptable, mientras que
la Estadstica est ms preocupada por
el poder de generalizacin de los resultados obtenidos, esto es, poder inferir los resultados a situaciones ms
generales que la estudiada. Como mera
ilustracin de las aportaciones de ambas disciplinas al problema de la prediccin, sealemos los hitos histricos
de la regresin para la prediccin de
una variable continua (GALTON, 1890),
el anlisis discriminante para la prediccin de una variable nominal
(FISHER, 1937), el AID para la construccin de rboles de decisin (SONQUIST
y MORGAN, 1964), MARS (Multivariate
Adaptative Regression Splines,
Friedman, 1991) ... en Estadstica,
mientras que en el campo de la Inteligencia Artificial podemos citar el
perceptrn, antecedente de las modernas redes neuronales (Rosemblat,
1958), los sistemas expertos, secuencias de reglas if - then - else, para la
toma de decisiones en los aos setenta, los algoritmos genticos (HOLLAND,
1970), tambin los rboles de decisin
(QUINLAN, 1986) ...

descripciones y ms fcil ser detectar lo inesperado, es decir, aquello que


no tenamos previsto y que resulta
valioso para entender mejor el comportamiento de algn grupo de individuos. Lo cual tambin se ver favorecido por el hecho de trabajar con
todos los datos. Las muestras aleatorias
son suficientes para describir la regularidad estadstica global, pero no para
detectar el comportamiento de
subgrupos particulares.

QU PROBLEMAS ABORDA EL DATA


MINING?
Muchos, cualquier problema empresarial para el que existan datos histricos almacenados es susceptible de
ser un problema de Data Mining. Sin
pretender ser exhaustivo, la siguiente
es una lista ilustrativa:

Deteccin de ciclos temporales. Todo


consumidor sigue un ciclo de necesidades que ocasionan actos de compra
distintos a lo largo de su vida. Detectar los distintos tipos de ciclos y la fase
en que se encuentra cada consumidor
ayudar a crear complicidades y adecuar la oferta de productos a las necesidades y crear fidelizacin.

Bsqueda de lo inesperado por descripcin de la realidad multivariante. Un


principio clsico de la Estadstica, el
principio de la parsimonia, esto es, trabajar con pocas variables, ahora ya no
es vlido (aunque siempre es deseable llegar a formular modelos simples).
Para describir la realidad cuantas ms
variables tengamos mejor, ms ricas,
ms globales, ms coherentes sern las

Prediccin. A menudo la empresa requerir hacer predicciones respecto


el comportamiento futuro de un consumidor. Qu probabilidad tiene un
cliente de darse de baja en los prximos tres meses? Cul ser la rentabilidad de un producto especfico entre mi clientela? Qu riesgo tengo de
que no me paguen un producto adquirido a crdito?. stas y muchas ms,

Bsqueda de asociaciones. Un cierto


acto de compra, va asociado a otro
acto? Podemos inferir que determinados actos de compra suceden conjuntamente ms de lo que sera esperable
si fuesen independientes? Puedo sugerir un cierto producto, sabiendo que
otro ha sido comprado?
Definicin de tipologas. Las poblaciones de consumidores son a efectos prcticos infinitas, pero los tipos
de consumidores son un nmero
mucho ms limitado. Detectar estos
distintos tipos de consumidores, su
perfil de compra y proyectar estos tipos en toda la poblacin de consumidores, es una herramienta imprescindible para programar una poltica
de marketing. Por otro lado, las
tipologas pueden ser de consumo,
de opinin, de valores, etc.

Los nuevos retos de la estadstica,


el Data Mining

36

son preguntas que se pueden formular una empresa. Para contestar deberemos construir un modelo. Para
ello necesitaremos disponer de datos
histricos con una serie de variables
explicativas y la variable de respuesta que queremos predecir. Si la variable de respuesta es de tipo continua
(p.e. la rentabilidad de un cliente)
diremos que se trata de un problema
de regresin, mientras que si la variable de respuesta es categrica (p.e.
la compra o no compra de un producto) diremos que se trata de un
problema de clasificacin.

LAS TCNICAS
Cualquiera que sea el problema a tratar, no existe una nica tcnica para
solucionarlo, sino que puede ser abordado utilizando distintas aproximaciones. Por otro lado, conviene tener claro de que no existe la tcnica ms
inteligente, sino formas inteligentes
de utilizar una tcnica. El nmero de
tcnicas es muy grande y seguir creciendo en el futuro, dado que en realidad todo tratamiento cuantitativo de
datos histricos, lo ms automtico
posible y hecho con un enfoque de
aprender de los datos y orientado a
la toma de decisiones empresarial, es
una tcnica de data mining. Tambin
aqu, sin pretender ser exhaustivos y
sabiendo que dejamos tcnicas sin
mencionar, presentamos una lista de
tcnicas con una breve resea.
Anlisis Factoriales Descriptivos. Permiten hacer visualizaciones de realidades multivariantes complejas y por
tanto poner de relieve las regularidades estadsticas, as como eventuales
discrepancias con esta regularidad y
sugerir hiptesis de explicacin.
Market Basket Analysis o anlisis de
la cesta de la compra. Permite detectar qu productos se adquieren conjuntamente, permite incorporar variables tcnicas que ayudan en la
interpretacin, como da de la semana, localizacin, forma de pago. Tambin puede aplicarse en contextos di-

Investigacin y Marketing

Nm. 68

ferentes al de las grandes superficies


e incorporar el factor temporal.
Tcnicas de clustering. Son tcnicas
que parten de establecer una medida
de proximidad entre individuos y a
partir de ah, buscar los grupos de individuos ms parecidos entre s.
Series Temporales. A partir de la serie
de comportamiento histrica, permite
modelizar las componentes bsicas de
la serie, tendencia, ciclo y
estacionalidad y as poder hacer predicciones para el futuro, tales como
cifra de ventas, consumo de un producto, etc.
Redes bayesianas. Consiste en representar todos los posibles acontecimientos en los que estamos interesados
mediante un grafo con las probabilidades condicionales de transicin entre acontecimientos. Puede codificarse a partir del conocimiento de un
experto o ser inferido a partir de los
datos. Permite establecer relaciones
causales y proporcionar predicciones.
Modelos Lineales Generalizados. Son
modelos ms generales que la simple
regresin que permiten tratar diferentes tipos de variables de respuesta,
como por ejemplo la preferencia entre productos concurrentes en el mercado o bien variables de respuesta
reflejando la probabilidad de compra
de un cierto producto. A su vez, cada
vez existen modelos ms flexibles que
permiten hacer predicciones fiables en
problemas ms complejos (MARS).
Previsin Local. La idea de base es que
individuos parecidos tendrn comportamientos parecidos respecto de una
cierta variable de respuesta. La tcnica consiste en situar los individuos en
un espacio eucldeo y hacer predicciones de su comportamiento a partir
del comportamiento observado en los
vecinos.
Redes neuronales. Inspiradas en el
modelo biolgico. Son generalizaciones de los modelos estadsticos clsicos, su novedad estriba en el apren-

dizaje secuencial y sobre todo en la


no linealidad. Permite aprender en
contextos difciles, sin precisar, en
general, de un tratamiento previo de
los datos. Su principal inconveniente es que para el usuario son una
caja negra.
rboles de decisin. Permiten obtener
de forma visual las reglas de decisin
bajo las que operan los consumidores, a partir de unos datos histricos
almacenados. Su principal ventaja es
la facilidad de interpretacin.

tablecer unas relaciones con los clientes beneficiosas para ambos. No se trata de obtener beneficios de forma inmediata, sino de establecer relaciones
duraderas con los clientes basadas en
la confianza mutua.
Para las personas interesadas en ampliar el tema y estar el da, existe una
web con una revista informtica gratuita en http://www.kdnuggets.com.

BIBLIOGRAFA
Algoritmos genticos. Tambin aqu se
simula el modelo biolgico de la evolucin de las especies, slo que a una
velocidad infinitamente mayor. Es una
de las tcnicas ms prometedoras. En
principio cualquier problema que se
pueda plantear como la optimizacin
de una cierta combinacin entre distintos componentes, estando estas
combinaciones sujetas a restricciones,
puede resolverse mediante algoritmos
genticos.
En el futuro, que ya se est haciendo
presente, el campo de actuacin del
data mining se ampliar, no slo al
anlisis de datos histricos sino tambin a los datos almacenados recibidos on line, tal como son los datos
recogidos por internet, dando lugar al
web mining, en donde las tcnicas de
data mining son utilizadas para
optimizar las interacciones a travs de
la web, a fin de hacer que un potencial cliente vuelva a conectarse. A su
vez los datos objeto del anlisis tambin pueden ser textos, dando lugar
al text mining. La utilizacin de las
frases realmente escritas por los clientes supone un enriquecimiento de los
anlisis usuales realizados con informacin numrica. Ms a largo plazo
podr utilizarse la voz o las imgenes.
Por ltimo, dado el potencial de conocimiento de los consumidores que
las tcnicas de data mining suponen,
queremos soslayar el carcter tico que
debe presidir las relaciones entre las
empresas y los consumidores. Las tcnicas de data mining deben ser utilizadas por la empresa de forma de es-

Los nuevos retos de la estadstica,


el Data Mining

38

ADRIAANS P., ZANTIGE D. (1996) - Data mining.


Addison-Wesley.
ALUJA T., MORINEAU A. (1999) - Aprender de los
datos: el anlisis de componentes principales,
una aproximacin desde el data mining. EUB.
Barcelona.
BERRY M. J. A., LINOFF G. (1997) - Data mining
techniques for marketing, sales and customer
support. J. Wiley.
BISHOP, C. M. (1995). - Neural Networks for
Pattern Recognition, Oxford: Oxford University
Press.
LEFBURE R., VENTURI G., (1998) - Le data mining.
Eyrolles.
LEBART L., SALEM A., BERRY E. (1998) - Exploring
Textual Data, Kluwer, Boston.

Investigacin y Marketing

Nm. 68

S-ar putea să vă placă și