Sunteți pe pagina 1din 22

Captulo 1

Introduccin a la minera de datos y CRISP-DM

Introduccin
La minera de datos es algo a lo que estamos expuestos a diario, y muchas
veces sin darnos cuenta.
Por ejemplo cuando vamos al supermercado, cuando compramos usando
tarjeta de crdito, o cuando navegamos por internet, estamos creando de una
u otra manera, muchos datos, los cuales son almacenados en computadoras de
las compaas con las que solemos interactuar o lidiar.
La minera de datos ayuda a las personas a poder encontrar tendencias, a
tomar mejores y ms informadas decisiones, a poder servir mejor a sus
clientes, etc. Tambin hay muchos asuntos que tratar acerca de la minera de
datos, especialmente algunos referentes a la privacidad y el manejo tico de
stos.

Acerca de las herramientas

Existen muchas herramientas destinadas a la minera de datos como tal.


La mayora suelen ser complicadas, caras, difciles de instalar y
configurar. Debido a su complejidad podemos decir que utilizar ese tipo
de herramientas no sera lo ideal para aprender a minar datos. Para fines
de aprendizaje, podemos utilizar aplicaciones como OpenOffice Base y
OpenOffice Calc, combinado con otra herramienta de cdigo abierto
(open source) llamada RapidMiner, desarrollada por Rapid-I y GmbH de
Dortmund, Alemania.

Dado que OpenOffice est disponible mundialmente y es muy intuitivo,


Es lgico que fuera una de las herramientas a utilizar para empezar a
ensear conceptos introductorios a la minera de datos. Aun as, carece
de herramientas que a los profesionales les gusta utilizar para el minado
de datos. RapidMiner es un complemento ideal para OpenOffice.

Acerca de las herramientas


Entre algunas ventajas de RapidMiner y OpenOffice tenemos:
RapidMiner provee funciones como la de formar rboles de decisiones, y
asociarlos a reglas, que son algunas cosas que aprenderemos ms adelante.
RapidMiner es fcil de instalar y puede funcionar en casi cualquier
computadora.
El marcador de RapidMiner provee una Community Edition (o edicin
comunitaria), que lo hace fcil de obtener y usar para nosotros.
RapidMiner y OpenOffice proveen interfaces grficas de usuario intuitivas que
hacen fcil para los usuarios de computadora experimentar el poder del
minado de datos.

Acerca de las herramientas

Es recomendable que usted instale los dos paquetes de software antes


mencionados, as podr hacer los ejercicios o ejecutar los ejemplos que
vayamos viendo a medida vayamos avanzando.
OpenOffice puede descargarse de: http://www.OpenOffice.org
RapidMiner Community Edition se puede descargar de:
http://rapidminer.com/products-2/rapidminer-studio/#community

El proceso para minar datos


En sus inicios en los aos 80s y durante los aos 90s, la minera de datos
fue una disciplina que se mantuvo en desarrollo. Fue un campo que se
mantuvo constantemente re definindose.
Fue hasta en 1999 que un grupo de grandes compaas decidieron crear un
estndar para el minado de datos.
El resultado de su trabajo fue el llamado CRISP-DM, siglas para CRossIndustry Standard Process for Data Mining.
CRISP-DM fue escrito de manera conceptual, de modo que pudiera utilizarse
independientemente del tipo de hardware o software, y su proceso consiste
en seis fases, que veremos a continuacin.

Fases del proceso de minar datos


1. Comprensin del negocio o comprensin organizacional.
2. Comprensin de los datos.
3. Preparacin de los datos.
4. Modelado.
5. Evaluacin.
6. Implementacin.
Desde el inicio del proceso de minar datos, debemos tener claro nuestro
objetivo. Qu es lo que queremos encontrar al final del proceso. Puede
tratarse de responder una pregunta. Qu mejoras queremos hacer a
nuestro negocio? Cuales son las principales razones por las que nuestros
clientes se quejan? Cmo puedo mejorar mis ganancias? Cmo podemos
evitar errores en el envo de nuestros productos?

CRISP-DM Fase 1:
Comprensin del negocio.
Este paso es crucial para poder obtener buenos resultados al final. Como
mencionado antes, al empezar nuestra tarea de minar datos, debemos
tener muy claro a dnde queremos llegar. De lo contrario, podemos llegar a
terminar sacando grandes cantidades de datos sin sentido. Antes de hacer
el diseo de una mquina, debemos saber cul ser su propsito, como por
ejemplo, de un automvil. En el minado de datos, pasa algo similar .
Para empezar, podemos hacernos preguntas generales y luego ir sacando
preguntas ms especficas de lo que queremos. Podemos empezar con
cosas como qu est haciendo que nuestros clientes se quejen tanto? Y
trabajar a partir de all.

CRISP-DM Fase 2:
Comprensin de los datos.
Existen varias maneras de manejar los datos que obtenemos. En captulos
siguientes veremos trminos como almacn de datos, base de datos, y
conjunto de datos. Son distintas formas de trabajar con los datos que
hemos recolectado. Nuestra misin en esta fase es haber recolectado,
identificado y entendido nuestros grupos de datos. Hoy en da , gracias a
los avances tecnolgicos, podemos tener datos ms accesibles, mejor
ordenados y mejor identificados. Es menos probable que pase el caso de
que hayan secciones en la empresa que posean datos valiosos para otras
secciones de la misma sin que ellos lo sepan y no los compartan.
En la actualidad, an teniendo los datos accesibles y mejor ordenados, hay
ms asuntos que tratar, como por ejemplo la veracidad de estos datos. Es
importante mencionar que en la minera de datos, decir esto es mejor que
nada no aplica, porque tener datos falsos, es peor que tener nada: puede
llevar al final a tomar decisiones equivocadas.

CRISP-DM Fase 3:
Preparacin de los datos.
Los datos vienen en muchas formas y formatos . Pueden ser numricos, o
pueden ser prrafos de texto, o pueden estar en forma de imgenes, como
por ejemplo grficos estadsticos, o pueden ser testimonios de una
encuesta de satisfaccin de los clientes.
Aunque muchas veces podramos acostumbrarnos a manejar datos en
forma de filas y columnas, es importante que sepamos que datos en otros
formatos como por ejemplo, los testimoniales, no pueden ser dejados de
lados.
Ms adelante podremos ver cmo podemos poner cantidades de texto en
RapidMiner para posiblemente encontrar patrones en ellos.

CRISP-DM Fase 3:
Preparacin de los datos.
Esta fase incluye una serie de actividades, como por ejemplo, unir dos grupos
de datos que son similares, reducir grupos de datos quitando los que son poco
interesantes para nuestros fines, depurar datos de anomalas o encontrar datos
faltantes.
Una de las cosas importantes en esta fase es poder poner nuestros en la
medida de lo posible, en un mismo formato. Por ejemplo:
(555) 555 5555
555 555 5555
5555555555
555/555 5555
Las anteriores son distintos formatos para almacenar nmeros telefnicos. Una
buena tarea de minera de datos conlleva a elegir un estndar o un formato
igual o similar para datos iguales o similares.

CRISP-DM Fase 4:
Modelado
Un modelo, en el minado de datos, es una representacin computarizada de
lo observado en el mundo real.
Los modelos son la aplicacin de algoritmos para buscar, identificar y mostrar
cualquier patrn o mensaje en nuestros datos.
Hay dos tipos de modelos en la minera de datos: los que se usan para
clasificar y los que se usan para predecir.
Pero a medida que avancemos podremos ver que hay ciertas caractersticas
en comn entre los modelos para clasificar y los modelos para predecir. Por
ejemplo, veremos los rboles de decisin, los cuales nos servirn para
poder hacer predicciones en base a nuestros datos, pero tambin sern tiles
para poder hacer clasificacin de los datos.

CRISP-DM Fase 4:
Modelado.
Los modelos pueden llegar a ser simples o complejos. Pueden contener un
solo proceso, o pueden contener subprocesos. Independientemente de su
diseo, esta fase es el momento en el que el proceso de minar datos
cambia de la preparacin y entendimiento de datos, a su desarrollo e
interpretacin.

CRISP-DM Fase 5:
Evaluacin.
Todos los anlisis en la minera de datos tienen el potencial de dar como
resultado falsos positivos. Y an si un modelo no conlleva a falsos positivos,
podra no encontrar patrones interesantes. Esto porque el modelo que
usamos no est hecho para encontrar esos patrones, que se est usando
una tcnica inadecuada o simplemente que no haya nada interesante que el
modelo pueda encontrar.
La fase de evaluacin del modelo CRISP- DM est para poder entender qu
tan valioso es nuestro modelo, y qu querras llegar a hacer con l.
La evaluacin puede hacerse llevando a cabo ciertas tcnicas, de naturaleza
matemtica o lgica. La evaluacin incluye adems, un componente
humano. A medida que se gana experiencia tendr la habilidad de hacer
tareas que no pueden ser medidas en un sentido matemtico.

CRISP-DM Fase 6:Implementacin.


Si has identificado tus dudas exitosamente, preparado los datos que
podran responder a esas dudas, y creado un modelo que podra ser til e
interesante; entonces has llegado al punto de usar esos resultados. Esa es
la fase de implementacin, y es un momento de mucha labor y tambin de
felicidad para un profesional del minado de datos.
Las actividades de esta fase incluyen comenzar a automatizar el modelo
que utilizamos, reuniones con clientes de esos resultados que provee el
modelo, integracin de esos resultados con otros sistemas, comenzar a
mejorar la eficiencia y desempeo de nuestro modelo, y monitorear y
medir los resultados de nuestro modelo.

CRISP-DM Fase 6:Implementacin.


En esta fase hay que estar preparado para algo de desconfianza sobre
nuestro modelo al principio.
Usted podra incluso enfrentar rechazo por parte de grupos que sienten que
su trabajo se ve amenazado por estas nuevas herramientas, o que no creen
en la fiabilidad o precisin de nuestros resultados.
Por ejemplo, podemos recordar en la historia, cmo hubieron grupos de
personas, como la CBS, que no creyeron en los resultados dados por la
UNIVAC, uno de los primeros sistemas de computacin comerciales, cuando
se us para predecir los eventuales resultados dela noche de eleccin
presidencial de 1952. Con solo el 5% de los votos contados, UNIVAC predijo
la aplastante victoria de Dwight D. Einsenhower sobre Adlai Stevenson.

CRISP-DM Fase 6:Implementacin.


Cuando muchos expertos esperaban que el contrincante de Eisenhower
ganara, fue hasta esa noche, que personas terminaron la cuenta de votos y
confirmaron que Eisenhower haba ganado las elecciones.
Fue entonces que la CBS confirm a la poblacin que Eisenhower haba
logrado la victoria electoral , y que UNIVAC, horas antes, haba logrado
predecir los resultados electorales, a lo cual hasta entonces los medios se
haban rehusado a creer.
Las nuevas tecnologas muchas veces son inquietantes para la gente, y es
difcil creer los resultados que las computadoras nos dan, usted debe ser
paciente y especifico al explicar como un nuevo modelo de minado de
datos trabaja, qu significan los resultados que nos da, y cmo pueden ser
usados.

CRISP-DM Fase 6:Implementacin.


Mientras que el ejemplo de UNIVAC ilustra el poder y utilidad de los
modelos computacionales, a pesar de su inherente desconfianza, de igual
forma esto no debe ser una razn para confiar ciegamente en ellos.
En los tiempos de la UNIVAC, el mayor problema era lo novedosa que era
esta tecnologa. La UNIVAC haca algo que poca gente poda explicar o
entender, y debido a que era un reducido nmero de gente que la
entenda, era difcil de creer en ella .
Hoy en da enfrentamos un problema distinto pero igualmente complicado:
hoy en da, las computadoras se han vuelto omnipresentes, y muchas
veces, no cuestionamos si sus resultados son o no precisos o significativos.
Para que los modelos de minera de datos sean efectivamente ejecutados,
nos debemos apegar a un balance.

CRISP-DM Fase 6:Implementacin.


Debemos explicar muy bien a las partes interesadas la funcin y utilidad de
nuestros modelos de minera de datos, probar exhaustivamente dicho
modelo, y luego planear y monitorear su implementacin.
As podremos introducir efectivamente estos modelos de minado de datos
al flujo organizacional de la entidad o empresa.
Por otro lado, fracasar en su efectivo desarrollo y gestin puede hundir
hasta al modelo ms efectivo.

La minera de datos y t.
Ya que la minera de datos puede ser implementada en una vasta variedad
de campos profesionales , explicaremos este tema en un lenguaje
entendible, usando herramientas que estn fcilmente accesibles para
todos y que son intuitivas en su uso. Usted puede no haber estudiado
algoritmos, estructura de datos o programacin, pero tiene dudas que
pueden ser respondidas a travs de la minera de datos.
Esperamos que escribiendo en un tono informal, e ilustrando los conceptos
del minado de datos de forma accesible, con ejemplos lgicos, el minado
de datos puede convertirse en una herramienta lgica sin importar su nivel
previo en cuanto a anlisis de datos, o experiencia en computacin.

Preguntas
1. En qu casos de nuestra vida diaria las compaas recurren al uso de
bases de datos?(mencione dos ejemplos)
2. Para qu nos sirve la minera de datos?
3. Cules son las dos herramientas que utilizaremos para llevar a cabo
nuestro aprendizaje sobre minera de datos?
4. Mencione dos ventajas de RapidMiner para el aprendizaje de minera de
datos.
5. Por qu CRISP-DM fue escrito de manera conceptual?
6. Mencione las fases en las que consiste CRISP-DM.

Preguntas
7. Por qu es importante saber desde el inicio lo que queremos lograr con
el minado de datos?
8. Qu actividades incluye la fase de preparacin de los datos? (mencione
algunos ejemplos)
9. Qu es un modelo de minera de datos?
10. Cuales son los tipos de modelos de minera de datos?
11. En qu consiste la fase de evaluacin del modelo CRISP-DM?
12. Cuales son los retos a enfrentar durante la fase de implementacin de
CRISP-DM?