Documente Academic
Documente Profesional
Documente Cultură
Introduccin
La minera de datos es algo a lo que estamos expuestos a diario, y muchas
veces sin darnos cuenta.
Por ejemplo cuando vamos al supermercado, cuando compramos usando
tarjeta de crdito, o cuando navegamos por internet, estamos creando de una
u otra manera, muchos datos, los cuales son almacenados en computadoras de
las compaas con las que solemos interactuar o lidiar.
La minera de datos ayuda a las personas a poder encontrar tendencias, a
tomar mejores y ms informadas decisiones, a poder servir mejor a sus
clientes, etc. Tambin hay muchos asuntos que tratar acerca de la minera de
datos, especialmente algunos referentes a la privacidad y el manejo tico de
stos.
CRISP-DM Fase 1:
Comprensin del negocio.
Este paso es crucial para poder obtener buenos resultados al final. Como
mencionado antes, al empezar nuestra tarea de minar datos, debemos
tener muy claro a dnde queremos llegar. De lo contrario, podemos llegar a
terminar sacando grandes cantidades de datos sin sentido. Antes de hacer
el diseo de una mquina, debemos saber cul ser su propsito, como por
ejemplo, de un automvil. En el minado de datos, pasa algo similar .
Para empezar, podemos hacernos preguntas generales y luego ir sacando
preguntas ms especficas de lo que queremos. Podemos empezar con
cosas como qu est haciendo que nuestros clientes se quejen tanto? Y
trabajar a partir de all.
CRISP-DM Fase 2:
Comprensin de los datos.
Existen varias maneras de manejar los datos que obtenemos. En captulos
siguientes veremos trminos como almacn de datos, base de datos, y
conjunto de datos. Son distintas formas de trabajar con los datos que
hemos recolectado. Nuestra misin en esta fase es haber recolectado,
identificado y entendido nuestros grupos de datos. Hoy en da , gracias a
los avances tecnolgicos, podemos tener datos ms accesibles, mejor
ordenados y mejor identificados. Es menos probable que pase el caso de
que hayan secciones en la empresa que posean datos valiosos para otras
secciones de la misma sin que ellos lo sepan y no los compartan.
En la actualidad, an teniendo los datos accesibles y mejor ordenados, hay
ms asuntos que tratar, como por ejemplo la veracidad de estos datos. Es
importante mencionar que en la minera de datos, decir esto es mejor que
nada no aplica, porque tener datos falsos, es peor que tener nada: puede
llevar al final a tomar decisiones equivocadas.
CRISP-DM Fase 3:
Preparacin de los datos.
Los datos vienen en muchas formas y formatos . Pueden ser numricos, o
pueden ser prrafos de texto, o pueden estar en forma de imgenes, como
por ejemplo grficos estadsticos, o pueden ser testimonios de una
encuesta de satisfaccin de los clientes.
Aunque muchas veces podramos acostumbrarnos a manejar datos en
forma de filas y columnas, es importante que sepamos que datos en otros
formatos como por ejemplo, los testimoniales, no pueden ser dejados de
lados.
Ms adelante podremos ver cmo podemos poner cantidades de texto en
RapidMiner para posiblemente encontrar patrones en ellos.
CRISP-DM Fase 3:
Preparacin de los datos.
Esta fase incluye una serie de actividades, como por ejemplo, unir dos grupos
de datos que son similares, reducir grupos de datos quitando los que son poco
interesantes para nuestros fines, depurar datos de anomalas o encontrar datos
faltantes.
Una de las cosas importantes en esta fase es poder poner nuestros en la
medida de lo posible, en un mismo formato. Por ejemplo:
(555) 555 5555
555 555 5555
5555555555
555/555 5555
Las anteriores son distintos formatos para almacenar nmeros telefnicos. Una
buena tarea de minera de datos conlleva a elegir un estndar o un formato
igual o similar para datos iguales o similares.
CRISP-DM Fase 4:
Modelado
Un modelo, en el minado de datos, es una representacin computarizada de
lo observado en el mundo real.
Los modelos son la aplicacin de algoritmos para buscar, identificar y mostrar
cualquier patrn o mensaje en nuestros datos.
Hay dos tipos de modelos en la minera de datos: los que se usan para
clasificar y los que se usan para predecir.
Pero a medida que avancemos podremos ver que hay ciertas caractersticas
en comn entre los modelos para clasificar y los modelos para predecir. Por
ejemplo, veremos los rboles de decisin, los cuales nos servirn para
poder hacer predicciones en base a nuestros datos, pero tambin sern tiles
para poder hacer clasificacin de los datos.
CRISP-DM Fase 4:
Modelado.
Los modelos pueden llegar a ser simples o complejos. Pueden contener un
solo proceso, o pueden contener subprocesos. Independientemente de su
diseo, esta fase es el momento en el que el proceso de minar datos
cambia de la preparacin y entendimiento de datos, a su desarrollo e
interpretacin.
CRISP-DM Fase 5:
Evaluacin.
Todos los anlisis en la minera de datos tienen el potencial de dar como
resultado falsos positivos. Y an si un modelo no conlleva a falsos positivos,
podra no encontrar patrones interesantes. Esto porque el modelo que
usamos no est hecho para encontrar esos patrones, que se est usando
una tcnica inadecuada o simplemente que no haya nada interesante que el
modelo pueda encontrar.
La fase de evaluacin del modelo CRISP- DM est para poder entender qu
tan valioso es nuestro modelo, y qu querras llegar a hacer con l.
La evaluacin puede hacerse llevando a cabo ciertas tcnicas, de naturaleza
matemtica o lgica. La evaluacin incluye adems, un componente
humano. A medida que se gana experiencia tendr la habilidad de hacer
tareas que no pueden ser medidas en un sentido matemtico.
La minera de datos y t.
Ya que la minera de datos puede ser implementada en una vasta variedad
de campos profesionales , explicaremos este tema en un lenguaje
entendible, usando herramientas que estn fcilmente accesibles para
todos y que son intuitivas en su uso. Usted puede no haber estudiado
algoritmos, estructura de datos o programacin, pero tiene dudas que
pueden ser respondidas a travs de la minera de datos.
Esperamos que escribiendo en un tono informal, e ilustrando los conceptos
del minado de datos de forma accesible, con ejemplos lgicos, el minado
de datos puede convertirse en una herramienta lgica sin importar su nivel
previo en cuanto a anlisis de datos, o experiencia en computacin.
Preguntas
1. En qu casos de nuestra vida diaria las compaas recurren al uso de
bases de datos?(mencione dos ejemplos)
2. Para qu nos sirve la minera de datos?
3. Cules son las dos herramientas que utilizaremos para llevar a cabo
nuestro aprendizaje sobre minera de datos?
4. Mencione dos ventajas de RapidMiner para el aprendizaje de minera de
datos.
5. Por qu CRISP-DM fue escrito de manera conceptual?
6. Mencione las fases en las que consiste CRISP-DM.
Preguntas
7. Por qu es importante saber desde el inicio lo que queremos lograr con
el minado de datos?
8. Qu actividades incluye la fase de preparacin de los datos? (mencione
algunos ejemplos)
9. Qu es un modelo de minera de datos?
10. Cuales son los tipos de modelos de minera de datos?
11. En qu consiste la fase de evaluacin del modelo CRISP-DM?
12. Cuales son los retos a enfrentar durante la fase de implementacin de
CRISP-DM?