Sunteți pe pagina 1din 9

Metodologia CRISP-DM

( Cross Industry Standard Process for Data


Mining)
La metodologa CRISP es una de las principales metodologas por seguir por
los analistas en la inteligencia de negocios, donde se puede rescatar
primordialmente data Warehouse y Data Mining.
La metodologia CRISP esta sustentada en estndares internacionales que
reflejan la robustez de sus procesos y que facilitan la unificacin de sus fases
en una estructura confiable y amigable para el usuario.
Ademas de ello, eta tecnologa interrelaciona las diferentes fases del proceso
entre si, de tal manera que se consolida un proceso iterativo y recirpoco.
Otro aspecto fundamental de esta tecnologa es que es planteada como una
metodologia imparcial o neutra respeto a la herramienta que se utilice para
el desarrollo del proyecto de Data Warehouse o Data Mining siendo su
distribucin libre y gratuita
Ciclo de vida del proyecto segn la metodologia CRISP

El ciclo de vida del proyecto segn la metodologia CRISP esta basado en seis
fases cambiantes entre si y nunca terminantes, lo cual lo postula como un
ciclo en constante movimiento.
Comprensin del negocio
Se trata de entender claramente los requerimientos y objetivos del proyecto
siempre desde una visin de negocio. Esta fase se subdivide a su vez en las
siguientes categoras:

Definicin de los objetivos de negocio (inicial, objetivos de negocio y


criterios de xito del negocio).
Evaluacion de la situacin (inventario de recursos, requisitos supuestos
y requerimientos, riesgos y contingencias, terminologa y costes y
beneficios).
Definicion de los objetivos del Data Warehouse (objetivos y criterios de
exito).
Realizacin del plan del proyecto (plan de proyecto y valoracin inical
de herramientas y tcnicas).
Comprensin de los datos
Es conseguir y habituarse con los datos, reconocer las dificultades en la
calidad de los datos y reconocer tambin las fortalezas de estos mismos que
pueden servir en el proceso de anlisis. Sus subdivisiones son:

Recoleccin inicial de datos (informe de recoleccion).


Descubrimiento de los datos (informe descriptivo de los datos).
Exploracin de los datos(informe de exploracin de los datos).
Verificacin de calidad de los datos (informe de calidad).
Preparacin de los datos
Es analizar los datos realmente importantes en el proceso de seleccin,
depuracin y transformacin. Sus subdivisiones son:

Seleccin de los datos (motivos para incluirlos o excluirlos).


Depuracin de los datos (reporte de depuracion).
Estructuracion de los datos (generacin de atributos y registros).
Integracion de los datos (agrupar los datos).
Formateo de datos (informe de la calidad de datos formateados).
Modelado
Es la aplicacin de tcnicas de modelado o de Data Warehouse. Sus
subdivisiones son:
Seleccin de la tcnica de modelado (tcnica y sus supuestos).
Generar el plan de pruebas (plan de pruebas).
Construccin del modelo (parmetros escogidos, modelos, descripcin
de los modelos).
Evaluacin del modelo (evaluar el modelo, revisin de los parmetro
elegidos).
Evaluacin
Esta fase es muy importante y decisiva, pues corresponde a la evaluacin
de la escogencia de los modelos anteriores y la toma de decisin respecto a
si realmente son tiles en el proceso. Sus subdivisiones son:

Evaluar resultados (valoracin de los resultados respecto al xito del


negocio, modelos aprobados).
Proceso de revisin (revisar el proceso).
Determinacin de los pasos siguientes (listado de posibles acciones,
tcnica modelada).
Despliegue o divulgacin
Es la fase de implementacin o de divulgacin de los modelos anteriormente
escogidos y evaluados. Sus subdivisiones son:
Plan de divulgacin o implementacin (plan de implementacin).
Plan de monitoreo y mantenimiento (plan de monitoreo y
mantenimiento).
Presentacin del informe final (informe final, presentacin final).
Revisin del proyecto (documentacin de la experiencia).
METODOLOGA HEFESTO
Introduccin
En esta seccin se presentar la metodologa HEFESTO, que permitir la
construccin de Data Warehouse de forma sencilla, ordenada e intuitiva. Su
nombre fue inspirado en el dios griego de la construccin y el fuego, y su
logotipo es el siguiente:

HEFESTO es una metodologa propia, cuya propuesta est fundamentada en


una muy amplia investigacin, comparacin de metodologas existentes,
experiencias propias en procesos de confeccin de almacenes de datos.
Cabe destacar que HEFESTO est en continua evolucin, y se han tenido en
cuenta, como gran valor agregado, todos los feedbacks que han aportado
quienes han utilizado esta metodologa en diversos pases y con diversos
fines.
La idea principal, es comprender cada paso que se realizar, para no caer en
el tedio de tener que seguir un mtodo al pie de la letra sin saber
exactamente qu se est haciendo, ni por qu.
Descripcin
La metodologa HEFESTO puede resumirse a travs del siguiente grfico
Como se puede apreciar, se comienza recolectando las necesidades de
informacin de l@s usuari@s y se obtienen las preguntas claves del negocio.
Luego, se deben identificar los indicadores resultantes de los interrogativos y
sus respectivas perspectivas de anlisis, mediante las cuales se construir el
modelo conceptual de datos del DW.
Despus, se analizarn los OLTP para determinar cmo se construirn los
indicadores, sealar las correspondencias con los datos fuentes y para
seleccionar los campos de estudio de cada perspectiva.
Una vez hecho esto, se pasar a la construccin del modelo lgico del
depsito, en donde se definir cul ser el tipo de esquema que se
implementar. Seguidamente, se confeccionarn las tablas de dimensiones y
las tablas de hechos, para luego efectuar sus respectivas uniones.
Por ltimo, utilizando tcnicas de limpieza y calidad de datos, procesos ETL,
etc, se definirn polticas y estrategias para la Carga Inicial del DW y su
respectiva actualizacin
Caractersticas
Esta metodologa cuenta con las siguientes caractersticas:
Los objetivos y resultados esperados en cada fase se distinguen
fcilmente y son sencillos de comprender.
Se basa en los requerimientos de l@s usuari@s, por lo cual su
estructura es capaz de adaptarse con facilidad y rapidez ante los
cambios en el negocio.
Reduce la resistencia al cambio, ya que involucra a l@s usuari@s
finales en cada etapa para que tome decisiones respecto al
comportamiento y funciones del DW.
Utiliza modelos conceptuales y lgicos, los cuales son sencillos de
interpretar y analizar.
Es independiente del tipo de ciclo de vida que se emplee para
contener la metodologa.
Es independiente de las herramientas que se utilicen para su
implementacin.
Es independiente de las estructuras fsicas que contengan el DW y de
su respectiva distribucin.
Cuando se culmina con una fase, los resultados obtenidos se
convierten en el punto de partida para llevar a cabo el paso siguiente.
Se aplica tanto para Data Warehouse como para Data Mart.

S-ar putea să vă placă și