Sunteți pe pagina 1din 28

Capitulo 2

Comprensin organizacional y comprensin de datos.

Contexto y perspectiva

Considere algunas de las actividades en las que ha estado involucrado en los


ltimos tres o cuatro das. Ha comprado verduras o gasolina? Ha ido a un
concierto, a ver una pelcula, o a un evento pblico? O quizs fue a comer a
algn restaurante, pas por la oficina de correos, hizo una compra por internet,
o hizo una llamada a alguna empresa. Cada da, nuestras vidas estn llenas de
interacciones: encuentros con empresas, otros individuos, el gobierno, u otras
organizaciones.
En nuestras sociedades actuales, manejadas por la tecnologa, muchos de estos
encuentros involucran la transferencia de informacin electrnica. Esa
informacin es guardada y compartida a travs de redes para poder completar
transacciones financieras, reasignar propiedades o responsabilidades, y permitir
la entrega de bienes y servicios. Slo piense en las enormes cantidades de
datos recolectados cada vez que una de estas actividades ocurre.

Contexto y perspectiva

Tomemos por ejemplo la tienda de verduras. Si usted toma mercadera del


estante, esa mercadera tendr que ser repuesta para futuros compradores,
o quiz incluso para usted mismo, dado que en el futuro tendr que volver a
hacer comprar similares, por ejemplo, tendr que regresar por una nueva
caja de cereal cuando la que compr se acabe dentro de algunas semanas.
La tienda tendr que reponer su inventario constantemente, poniendo a
disponibilidad de la gente los productos que ellos constantemente buscan
mientras mantienen la frescura en sus productos. Entonces tiene sentido
que una enorme base de datos est funcionando tras bastidores, guardado
datos acerca de lo que uno compra y en qu cantidades cuando uno pasa
por caja a pagar por dichos productos. Todos esos datos deben ser
guardados y vistos por la persona encargada de mantener el inventario.

Contexto y perspectiva

Sin embargo, si hablamos de minera de datos, lo anteriormente


mencionado es solo el comienzo. O acaso su supermercado posee servicio
de tarjeta de cliente frecuente, o algo similar, que al escanearlo o
presentarlo al momento de pagar, le de los mejores precios en sus
productos? Si esto es as, entonces en el supermercado no solo estn
llevando cuenta de los productos que se venden, sino que adems llevan
registros de las tendencias de compra individuales de cada cliente. El
supermercado ahora podra ofrecerle cupones o promociones en productos
que usted suele comprar, de forma ms personalizada.
Pero, llevemos todo esto un paso ms adelante: recuerda qu datos le dio
al supermercado cuando llen el formulario para recibir la tarjeta de cliente
frecuente?

Contexto y perspectiva

Es probable que usted haya escrito su direccin, su fecha de nacimiento (o por


lo menos el ao), su gnero (hombre o mujer), cuantos miembros hay en su
familia, rango de ingresos familiares por ao, o alguna informacin como esa.
Slo piense en todas las posibilidades ahora abiertas al supermercado con la
vasta cantidad de datos que recolectan cada da en la caja registradora:
Usando las direcciones de los clientes ahora podra localizar las reas de mayor
densidad de clientes, y eso puede contribuir en la decisin de dnde construir
un nuevo local.
Usando informacin sobre el gnero de los clientes, el supermercado puede
apuntar mejor su publicidad hacia la clientela de gnero femenino o masculino.

Contexto y perspectiva

Con informacin sobre la edad, el supermercado puede evitar enviar


cupones o promociones sobre productos para bebs a clientes de edad
avanzada, o productos de higiene femenina a casas de clientes con un solo
ocupante masculino.
Los anteriores son solo algunos ejemplos del uso que se le puede dar a los
resultados de la minera de datos. Incluso, a medida avancemos en ello,se
nos podran ocurrirotros usos para estos resultados.

Propsitos y limitaciones
de la minera de datos
La minera de datos, como se ha explicado antes, aplica mtodos
estadsticos y matemticos a enormes cantidades de datos. stos mtodos
pueden ser usados para organizar los datos, o para crear modelos
predictivos. La organizacin de grandes cantidades de datos puede incluir
por ejemplo agrupar personas con caractersticas similares en los mismos
grupos o encontrar caractersticas similares entre unos grupos y otros a
travs de cierto nmero de observaciones.
Sin embargo, los modelos predictivos transforman estas caractersticas en
expectativas en las que podemos basar nuestras futuras decisiones.
Por ejemplo, la duea de una venta de libros en la web podra usar estos
mtodos para saber qu tan frecuentemente debera reabastecer su
inventario con cierto ttulo que posee a la venta.

Propsitos y limitaciones
de la minera de datos
Es importante mencionar que el minado de datos no puede proveer
respuestas a todas y cada una de nuestras dudas. No podemos siempre
esperar que los modelos predictivos den resultados totalmente iguales a la
realidad.
La minera de datos est limitada por los datos que se hayan recolectado. Y
esas limitaciones pueden resultar ser demasiadas. Debemos recordar que
esos datos recolectados no siempre podran ser aplicables a los individuos
de los cuales los hemos recolectado.
Los datos pudieron haber sido recolectados de forma incorrecta o estar
desactualizados.

Propsitos y limitaciones
de la minera de datos
Existe una expresin en la minera de datos que dice "basura que entra,
basura que sale".
La calidad de los datos obtenidos de la minera de datos depender de la
calidad de los datos que se hayan recolectado y de su forma de
organizarlos. Incluso despus de haber hecho nuestro mejor esfuerzo en
llevar a cabo una recoleccin de datos de alta calidad, debemos recordar
basar las decisiones que tomemos no solo en los resultados que
obtengamos del minado, sino tambin en fuentes disponibles, la toma
aceptable de riesgos y sentido comn.

Base de datos, almacenamiento de


datos, mercado de datos, conjunto de
datos...
Para poder entender el minado de datos, es importante entender la
naturaleza de las bases de datos, de la recoleccin de datos, y de la
organizacin de datos. Esto es fundamental para la disciplina de la Minera
de Datos, e impactar directamente la calidad y credibilidad de todas las
actividades relativas a la minera de datos.
En esta seccin, examinaremos las diferencias entre bases de datos,
almacenes de datos (conocidos como data warehouses), y conjuntos de
datos (conocidos como data sets).
Tambin examinaremos algunas de las terminologas para describir los
atributos de los datos.

Base de datos, almacenamiento de


datos, mercado de datos, conjunto de
datos...

Antes de comenzar a explicar lo que son los data warehouses, bases de


datos y data sets, vamos a explicar lo que stos tienen en comn.
En la siguiente imagen vemos una tabla de datos, en la cual se encuentran
organizados en filas y columnas.

Base de datos, almacenamiento de


datos, mercado de datos, conjunto de
datos...
En distintos ambientes, a esas filas y columnas se les suele llamar de
distinta forma.
En bases de datos, a las filas se les llama tuplas o registros, mientras
que a las columnas se les podra llamar campos.
En data warehouses y data sets, a las filas se les llama observaciones,
ejemplos, o casos, y a las columnas se les suele llamar variableso
atributos. Pero para propsitos de consistencia, usaremos el trmino
observacionespara las filas, y atributospara las columnas. Es
importante fijarse que RapidMiner usar el trmino ejemplos para filas de
datos, as que hay que tener eso en mente.

Base de datos, almacenamiento de


datos, mercado de datos, conjunto de
datos...
Una base de datoses un grupo de informacin organizada en una
estructura especfica. A los contenedores de bases de datos en un
ambiente de base de datos se les llama tablas.
Muchas de las bases de datos actuales son en realidad bases de datos
relacionales. Estn hechas para relacionarse las unas con las otras de
forma lgica.
La bases de datos relacionales generalmente contienen docenas o hasta
cientos de tablas, dependiendo del tamao de la organizacin.

Base de datos, almacenamiento de


datos, mercado de datos, conjunto de
datos...
En esta imagen se muestra un ambiente de
base de datos relacional con dos tablas.
La primera tabla contiene informacin sobre
los dueos de mascotas, y la segunda, sobre
mascotas. stas tablas estn relacionadas
por la nica columna que tiene en comn:
Owner_ID.
De esta manera podemos reducir
redundancia de datos, mejorando
desempeo de nuestra base de datos.

la
el

Base de datos, almacenamiento de


datos, mercado de datos, conjunto de
datos...
Al proceso de separar las tablas y reducir la redundancia de datos se le
llama normalizacin.
La mayora de bases de datos relacionales estn hechas para manejar un
enorme nmero de vistas y escrituras (de actualizaciones y de
recuperacin de informacin), a estas bases de datos de les suele llamar
como sistemasOLTP (del ingls: Online Transaction Process).
Los sistemas OLTP suelen ser eficientes para registrar grandes volmenes
de actividades, como en los cajeros, en donde muchos productos son
escaneado por su cdigo de barras en cortos perodos de tiempo.

Base de datos, almacenamiento de


datos, mercado de datos, conjunto de
datos...
An as, usar OLTP para llevar a cabo anlisis generalmente no es algo
eficiente, ya que para recuperar datos de mltiples tablas a la misma vez un
"query" que contenga las respectivas uniones debe ser escrito. Un queryes
sencillamente un mtodo para recuperar datos de bases de datos para poder
verlos. Los query son escritos generalmente en un lenguaje llamado SQL
(Structure Query Language, pronunciado siquel). Ya que no es muy til
solicitar solo nombres de mascotas o slo nombres de dueos de mascotas,
debemos unir ambas tablas para poder obtener los nombres de las mascotas
y de sus dueos a la vez.
Para poder llevar a cabo la unin que necesitamos hacer se requiere que la
computadora identifique la columna Owner_ID en la tabla Owners, y la
columna Owner_ID en la tabla Pets y las empareje .

Base de datos, almacenamiento de


datos, mercado de datos, conjunto de
datos...
Cuando las tablas contienen cientos o hasta millones de filas de datos, este
proceso de emparejamiento puede consumir mucho tiempo incluso hasta en
las computaras ms robustas.
Para poder mantener nuestras bases de datos funcionando rpido y
eficientemente, quiz queramos crear un data warehouse. Un data
warehouse es un tipo de base de datos que ha sido desnormalizada y
archivada.
La desnormalizacin es el proceso de combinar intencionalmente algunas
tablas en una sola an sabiendo que eso podra duplicar datos en algunas
columnas.

Base de datos, almacenamiento de


datos, mercado de datos, conjunto de
datos...

En esta imagen podemos ver cmo quedaran nuestros datos en un data


warehouse.
Cuando diseamos bases de datos de esta manera, reducimos el
nmero de uniones que haya que hacer, acelerando el tiempo para
analizar nuestros datos.
Las bases de datos diseadas de esta manera
sistemasOLAP (Online Analytical Processing).

son

llamadas

Base de datos, almacenamiento de


datos, mercado de datos, conjunto de
datos...
Los sistemas transaccionales y los sistemas analticos han tenido
conflictos en cuanto a temas de velocidad y rendimiento. Por esta
razn, es difcil disear un sistema que sirva para ambos propsitos.
Por eso es que los datawarehouse generalmente contienen datos ya
archivados. La desnormalizacin generalmente se lleva a cabo cuando los
datos han sido copiados del sistema transaccional. Es importante tener en
cuenta que si una copia de un dato ha sido hecha en un data warehouse,
ese dato puede estar desincronizado. Eso sucede cuando un dato ha
sido copiado de una base de datos, pero luego se ha actualizado (o hecho
una observacin) la base de datos original donde se ha obtenido dicho
dato.

Base de datos, almacenamiento de


datos, mercado de datos, conjunto de
datos...
Un mtodo alternativo para archivar sera sacar los datos del sistema
transaccional. Eso asegura que los datos no estn desincronizados aunque
eso hace que los datos no estn disponibles si un usuario del sistema
transaccional quiere verlos o actualizarlos .
Un data set (o conjunto de datos) es un subgrupo dentro de una base
de datos o de un data warehouse. Usualmente ste se encuentra
desnormalizado, de modo que solo usa una tabla. La creacin de un data
set puede conllevar varios pasos, incluyendo anexar o combinar varias
tablas desde otras beses de datos, o simplificar algunas expresiones de
algunos datos.

Tipos de datos

En esencia, se pueden minar dos tipos de datos:


Operacionales y Organizacionales.
Los datos ms elementales, los operacionales, vienen de sistemas
transaccionales, que son los que graban las actividades de todos los das.
Encuentros sencillos como comprar gasolina, hacer una compra en lnea o
adquirir un vuelo en el aeropuerto dan como resultado datos operacionales.
Las fechas, precios y descripciones de los bienes y servicios que compramos
son grabados. Esta informacin puede ser combinada en un datawarehouse
(almacn de datos) o puede ser extrado directamente en un data set desde
el sistema OLTP.

Tipos de datos

Muchas veces, los datos transaccionales son demasiado como para llegar a ser
tiles, o los detalles podra comprometer la privacidad de los individuos. En
muchas instancias, el gobierno, las universidades, u organizaciones sin fines de
lucro pueden crear data sets y ponerlos a disponibilidad del pblico.
Por ejemplo, si queremos identificar regiones de los Estados Unidos que han
estado histricamente en alto riesgo de influenza, podra ser difcil obtener
permisos para acceder a los registros mdicos en todo el pas y compilar esta
informacin en un data set significativo. Sin embargo, el Centro de Control y
Prevencin de enfermedades de los Estados Unidos hace exactamente eso cada
ao. Las agencias de informacin generalmente no hacen esta informacin
disponible al pblico, pero an as se puede solicitar.

Tipos de datos

Un supermercado, por ejemplo, no querra analizar las cantidades


individuales de verduras vendidas, pero s podran estar interesados en poder
observar tendencias del da a da, o de forma semanal, o mensual.
Los datos organizacionales pueden ayudar a proteger la privacidad de la
gente, mientras que pueden al mismo tiempo ayudar a reportar tendencias
de inters a los minadores de datos, como por ejemplo algunas tendencias en
una poblacin dada.
Otros tipos de datos involucrados en las organizaciones es algo llamado data
mart (mercado de datos). Un data mart es una tienda organizativa de datos.

Tipos de datos

Un data mart es similar a un datawarehouse, pero en el que se ha tenido


en mente las necesidades de un sector de la empresa a la hora de crearlo,
como por ejemplo, de la seccin de Mercadeo o de Servicio al Cliente, para
propsitos de administracin o para presentar informes.
Los data mart generalmente son creados por empresas para ser
una "ventanilla nica" para empleados de organizaciones que
podran estar buscando ciertos datos en especfico. Los data marts
podran contener datos muy tiles, principalmente para llevar a cabo
minera de datos, pero estos datos deben estar actualizados y ser precisos
para que nos sean tiles. Adems se les tiene que dar un buen manejo en
trminos de privacidad y seguridad.

Tipos de datos
Todos estos tipos de datos cargan con ellos algunas preocupaciones. Ya que
estos datos son secundarios, han derivado de otras fuentes primarias y
podra hacerles falta documentacin adecuada, y el rigor con que han sido
creados podra ser muy variable.
Incluso algunos de estos datos podran no estar destinados a ser
distribuidos abiertamente y sera mejor asegurarse de obtener los permisos
adecuados antes de comenzar algn minado de datos o a usar algn data
set.
Hay que recordar que solo por que los datos han sido obtenidos en
internet, eso no significa que son de dominio pblico, y solo porque en una
organizacin haya un data set disponible, no significa que se pueda
libremente hacer minera de datos de ste.
Obtener permisos de los administradores, autores y de las partes
interesadas es crtico antes de empezar a hacer minera de datos.

Sobre privacidad y seguridad

Siempre debemos recordar que detrs de todos los datos que obtenemos en
nuestro trabajo de minera, hay gente real involucrada.
Y estas personas tienen ciertos derechos sobre la proteccin de su privacidad
y de crmenes como el robo de identidad. Como minadores de datos tenemos
la obligacin tica de proteger esos derechos individuales. Esto requiere
mucho cuidado en trminos de seguridad de la informacin. El simple hecho
de que un representante del gobierno o un contratista los solicite no significa
que debamos drselos.
Los objetivos esperados de la minera de datos nunca deben justificar el uso
de medios poco ticos. La minera de datos puede ser una poderosa
herramienta para la administracin de relaciones con clientes, mercadeo,
administracin de operaciones, y produccin; pero en todos los casos el
elemento humano debe estar siempre en la mira.

Preguntas

1. Cul es la diferencia entre una base de datos, un data warehouse, y un


data set?
2. Cules son las limitaciones de la minera de datos?
3. Cul es la diferencia entre los datos operacionales y los organizacionales?
4. Cuales son los problemas ticos de la minera de datos?
5. Cmo podemos tratar esos asuntos ticos?

Preguntas

6. Qu significa que un dato est desincronizado?


7. Qu es la normalizacin?
8. Qu tipos de datos podra obtener un supermercado de sus clientes
frecuentes?
9. Qu es la desnormalizacin?
10. Cmo se le llama tambin a las columnas en bases de datos?

S-ar putea să vă placă și