Documente Academic
Documente Profesional
Documente Cultură
1
• Escenarios donde el proyecto comienza estableció las etapas principales de un
con un conjunto de datos y el objetivo es proyecto de explotación de información.
explorarlos para encontrar relaciones Formalmente el modelo establece que la
interesantes que puedan ser útiles en el minería de datos es la etapa dentro del
dominio de aplicación. En estos casos, proceso en la cual se realiza la extracción
algunos autores como Pyle[1], no de patrones a partir de los datos. Sin
recomiendan trabajar directamente con embargo actualmente, en la comunidad
los datos sin establecer de antemano la científica y en la literatura, el término KDD
problemática que se aborda, el personal y minería de datos se utilizan
involucrado y las expectativas y indistintamente para hacer referencia al
necesidades de los usuarios. Este punto proceso completo de descubrimiento de
resulta de gran importancia para justificar conocimiento.
la realización del proyecto, ya que A partir del año 2000, con el gran
ninguna organización adquirirá una crecimiento que surgió en el área de la
herramienta si no sabe la función que minería de datos, surgen tres nuevos
cumplirá. modelos que plantean un enfoque
Los esfuerzos en el área de la minería de sistemático para llevar a cabo el proceso [3]:
datos se han centrado en su gran mayoría en SEMMA, Catalyst (conocida como P3TQ)
la investigación de técnicas para la y CRISP-DM. Como se puede observar en
explotación de información y extracción de la Figura 1, CRISP-DM se ha convertido en
patrones (tales como árboles de decisión, la metodología más utilizada, según un
análisis de conglomerados y reglas de estudio publicado en el año 2007 por la
asociación). Sin embargo, se ha comunidad KDnuggets (Data Mining
profundizado en menor medida el hecho de Community's Top Resource).
cómo ejecutar este proceso hasta obtener el
“nuevo conocimiento”, es decir, en las ¿Qué metodología utiliza para minería de datos?
KDnuggets, año 2007
metodologías. Las metodologías permiten
CRISP-DM 42%
llevar a cabo el proceso de minería de datos
en forma sistemática y no trivial. Ayudan a Propia 19%
Específica del
5%
Algunos modelos conocidos como dominio
organizadas para llevar a cabo un trabajo. 0% 10% 20% 30% 40% 50%
La diferencia fundamental entre
Fig. 1. Encuesta realizada por la KDnuggets en el año 2007
metodología y modelo de proceso radica en
que el modelo de proceso establece qué Algunos modelos profundizan en mayor
hacer, y la metodología especifica cómo detalle sobre las tareas y actividades a
hacerlo. Una metodología no solo define las ejecutar en cada etapa del proceso de
fases de un proceso sino también las tareas minería de datos (como CRISP-DM),
que deberían realizarse y cómo llevar a mientras que otros proveen sólo una guía
cabo las mismas. general del trabajo a realizar en cada fase
(como el proceso KDD o SEMMA).
En los inicios del año 1996, el modelo
KDD (Knowledge Discovery in SEMMA, creada por el SAS Institute, se
Databases)[2] constituyó el primer modelo define como “el proceso de selección,
aceptado en la comunidad científica que exploración y modelado de grandes
2
volúmenes de datos para descubrir patrones construcción y ejecución de modelos de
de negocio desconocidos” [4]. El nombre de minería de datos a partir del Modelo de
esta terminología es el acrónimo Negocio (MII).
correspondiente a las cinco fases básicas El foco que la metodología Catalyst
del proceso: Sample (Muestreo), Explore propone en su Modelo de Negocio sobre la
(Exploración), Modify (Modificación), cadena de valor organizacional, hizo que
Model (Modelado), Assess (Valoración). sea difundida en la comunidad científica
La metodología SEMMA se encuentra como metodología “P3TQ”, aunque ésta no
enfocada especialmente en aspectos sea su denominación original.
técnicos, excluyendo actividades de análisis
La metodología Catalyst, en sus dos
y comprensión del problema que se está modelos, está compuesta por una serie de
abordando. Fue propuesta especialmente pasos llamados “boxes”. El concepto es que
para trabajar con el software de minería de luego de llevar a cabo una acción, se deben
datos de la compañía SAS. Este producto evaluar los resultados y determinar cuál es
organiza sus herramientas (llamadas el próximo paso (box) a seguir. La
“nodos”) en base a las distintas fases que secuencia y la interacción entre los distintos
componen la metodología. Es decir, el pasos permiten una flexibilidad muy
software proporciona un conjunto de grande, y una amplia variedad de caminos
herramientas especiales para la etapa de posibles.
muestreo, otras para la etapa de
exploración, y así sucesivamente. Sin CRISP–DM, creada por el grupo de
embargo, el usuario podría hacer uso del empresas SPSS, NCR y Daimer Chrysler en
mismo siguiendo cualquier otra el año 2000, es actualmente la guía de
metodología de minería de datos (como referencia más utilizada en el desarrollo
CRISP-DM por ejemplo). de proyectos de Data Mining. Estructura el
La metodología Catalyst [1], conocida como proceso en seis fases: Comprensión del
P3TQ (Product, Place, Price, Time, negocio, Comprensión de los datos,
Quantity), fue propuesta por Dorian Pyle en Preparación de los datos, Modelado,
el año 2003. Esta metodología plantea la Evaluación e Implantación [5]. La sucesión
formulación de dos modelos: el Modelo de de fases, no es necesariamente rígida. Cada
Negocio y el Modelo de Explotación de fase es descompuesta en varias tareas
Información. generales de segundo nivel. Las tareas
generales se proyectan a tareas específicas,
El Modelo de Negocio (MII), proporciona
pero en ningún momento se propone como
una guía de pasos para identificar un
realizarlas. Es decir, CRISP-DM establece
problema de negocio (o la oportunidad del
un conjunto de tareas y actividades para
mismo) y los requerimientos reales de la
organización. Contempla diferentes ámbitos cada fase del proyecto pero no especifica
para el proyecto de minería de datos, cómo llevarlas a cabo.
explicitando acciones específicas según el
escenario desde el cual se parte. Para Líneas de investigación/desarrollo
proyectos donde el problema u oportunidad En el marco de este proyecto se investigará:
de negocio no está definido, se recomienda
• Las distintas metodologías y modelos de
comenzar analizando las relaciones P3TQ
proceso vigentes para proyectos de
que existen en la cadena de valor
minería de datos.
organizacional, es decir, aquellas relaciones
precio/lugar/producto/tiempo/cantidad que • Las similitudes y diferencias entre cada
son importantes para la empresa. modelo. Se tendrán en cuenta no sólo las
etapas que los componen, sino también
El Modelo de Explotación de Información
aspectos clave para la gestión de
(MIII), proporciona una guía pasos para la
3
proyectos, como gestión del tiempo, Maestría en Ingeniería de Software en la
gestión del riesgo y costos. Universidad Nacional de La Plata, por
medio del Programa de Becas de Posgrado
• Ventajas y desventajas de cada
de la Universidad Tecnológica Nacional.
metodología en un escenario de
aplicación. El caso particular que se
estudiará será aquel donde se comienza Referencias
con un problema de negocio a partir del 1. Pyle, Dorian (2003). “Business Modeling and
cual el proyecto de minería de datos tiene Data Mining”. Morgan Kaufmann Publishers.
el objetivo de encontrar patrones y 2. Fayyad, Usama (1996). “Advances in
relaciones que aporten nuevo Knowledge Discovery and Data Mining”. MIT
conocimiento para la solución del mismo. Press.
3. Britos Paola (2008). “Procesos de explotación
Resultados y Objetivos de información basados en sistemas
inteligentes”. Universidad Nacional de La Plata,
En la actualidad, son escasos y poco Argentina.
difundidos los estudios que comparan los 4. SAS Institute. “Data Mining and the Case for
modelos mencionados, enfocados en Sampling”
aspectos principalmente descriptivos (www.sasenterpriseminer.com/documents
(comparación de las fases que los /SAS-SEMMA.pdf). Último acceso Julio 2010.
componen) y no en un estudio 5. Chapman, P., Clinton, J., Keber y otros (2000).
comprensivo-comparativo, que contemple “CRISP-DM 1.0 Step by step guide”. SPSS
(www.crisp-dm.org/CRISPWP-0800.pdf).
aspectos tales como:
Último acceso Julio 2010.
• Grado en el que se incorporan actividades 6. Fayyad, Usama y otros, (1996). “The KDD
para la gestión del proyecto (como process for extracting useful knowledge from
gestión del riesgo, de costos, de Recursos volumes of data”. ACM vol. 39 (11).
Humanos). 7. Azevedo Ana (2008). "KDD, SEMMA AND
CRISP-DM: a parallel overview". AIDIS 2008.
• Nivel de detalle de las tareas que
componen cada fase, abriendo una 8. Pollo-Cattaneo F. y otros (2010). “Ingeniería de
Proyectos de explotación de información”.
discusión sobre qué modelos pueden ser WICC 2010. ISBN 978-950-34-0652-6
realmente considerados una metodología.
9. Mariscal Gonzalo y otros (2010). “A survey of
• Viabilidad de cada modelo para la data mining and knowledge discovery process
aplicación en diferentes escenarios (ya models and methodologies”. The Knowledge
sea partiendo de un conjunto de datos o Engineering Review, Vol. 25:2, 137–166.
abordando una situación o problema
organizacional).
Como objetivo de este trabajo se pretende
la construcción de un marco comparativo
que permita confrontar los distintos
modelos, y evaluar la adecuación de los
mismos en escenarios donde el proyecto de
minería de datos tiene por objetivo
colaborar en la solución de un problema
organizacional.