Documente Academic
Documente Profesional
Documente Cultură
POR ANDRS GONZLEZEL 1 JULIO 2014 EN BIG DATA, DATA PREDICTION, MACHINE LEARNING
Esa cantidad ingente de datos son imposibles de analizar por una persona para
sacar conclusiones y menos todava para hacer predicciones. Los algoritmos en
cambio s pueden detectar patrones de comportamiento contando con las
variables que le proporcionamos y descubrir cules son las que han llevado, en
este caso, a darse de baja como cliente. La siguiente imagen es un ejemplo de una
prediccin simplificada basada en datos de una compaa de telefona ficticia,
pero usando una herramienta de Machine Learning real:
La visualizacin en rbol (en esta imagen est simplificado, la prediccin real tiene
muchos ms nodos) permite ver los patrones que han seguido ciertos clientes que
se han dado de baja. En este caso est resaltada una de las ramas centrales, que
indican un patrn en el que el cliente:
Prediccin en 3 pasos
En el anterior artculo hacamos una pequea introduccin al Machine Learning.
En este vamos a ver un ejemplo prctico, paso a paso, de cmo explotar datos
que tenemos en la empresa para tomar decisiones, en este caso para evitar que
un cliente se d de baja de nuestros servicios (y que probablemente se vaya a la
competencia).
Tipos de caractersticas
Cada lnea corresponde a un abonado, con sus caractersticas y con una ltima
columna que indica si ese abonado se dio de baja o no (columna churn). Hemos
dividido el fichero original en dos, uno con el 80% de los datos y otro con el 20%.
Para entrenar al sistema (crear un modelo) usaremos el fichero con el 80%. Para
verificar si el modelo hace buenas predicciones usaremos el 20% restante.
Manos a la obra. Ahora toca subir los datos al sistema. Si no lo has hecho ya, crea
una cuenta en BigML (es gratis). En el panel de control (Dashboard), pulsa en el
icono de la carpeta y selecciona el fichero con el 80% de los datos en tu ordenador
o simplemente arrstralo desde el escritorio al espacio de trabajo (drag&drop).
Una vez subidos los datos vamos a crear un Dataset, es decir, transformar el CSV
en un formato que BigML puede tratar y en el que podremos hacer un anlisis
previo de los datos.
Tambin hay que destacar que la primera fila State tiene una admiracin con la
leyenda This field is not preferred. El sistema ha detectado que este campo no es
significativo para hacer predicciones de bajas, ya que tal y como se ve en el
histograma, es un dato que se puede considerar aleatorio. Es un dato que
pensbamos que sera interesante para hacer la prediccin, pero BigML lo
descarta por no aportar valor y porque puede introducir ruido en las predicciones
(aunque podramos usarlo si consideramos que BigML se ha equivocado en su
valoracin).
Automticamente aparece una pantalla para poner un valor a cada una de las
caractersticas:
Selecciona los valores que desees y pulsa en el botn verde inferior Predict.
Qu valores has puesto?Qu predice el modelo para este abonado?
Una prediccin uno a uno no es prctica en muchos escenarios. Para
predicciones masivas podemos usar un fichero de entrada con los datos de
todos los usuarios de los que queremos hacer predicciones. Se hacen desde la
opcin BATCH PREDICTION que habrs visto al pulsar la ltima vez en el icono de
la nube representado con el rayo.
Esta opcin, adems de servir para hacer predicciones masivas, sirve para verificar
si el modelo est funcionando correctamente. Te acuerdas del fichero con el 20%
de los datos? Es hora de usarlo. Hay que subirlo, crear un Dataset y hacer
predicciones Batch Prediction.
Conclusiones
El mensaje que nos queda es que no es necesario nada ms que un servicio
como BigML para hacer predicciones, sin olvidar que los datos hay
que recogerlos, limpiarlos, transformarlos La calidad de una prediccin no
depende tanto del algoritmo que usemos como de la calidad de los datos. Por
otro lado, de la misma forma que hemos visto cmo predecir bajas, por qu no
predecir cul es el plan ms adecuado para cada cliente? Los datos estn ah. Es
hora de empezar a explotarlos para ayudar a la evolucin de tu empresa. Ya no es
necesario instalar infraestructuras dedicadas con grandes costes de
implementacin y gestin. Te animas?
Sistemas de recomendacin de contenido con Machine
Learning
POR ANDRS GONZLEZEL 19 SEPTIEMBRE 2014EN BIG DATA, MACHINE LEARNING, TECNOLOGA
Qu es un sistema de recomendacin?
Un recomendador es un sistema que selecciona un producto que, si se compra,
maximiza el valor tanto para el comprador como para el vendedor en un
determinado momento del tiempo. Para hacer las recomendaciones, el sistema
analiza y procesa informacin histrica de los usuarios (edad, compras previas,
calificaciones), de los productos o de los contenidos (marcas, modelos, precios,
contenidos similares) y la transforma en conocimiento accionable, es
decir, predice qu producto puede ser interesante para el usuario y para la
empresa. Los recomendadores, adems, tienen cierto nivel de autonoma a la
hora de presentar las recomendaciones al usuario final.
Veamos un ejemplo de filtro basado en contenido que usa Machine Learning para
hacer las recomendaciones. Pensemos en un sistema de recomendaciones de un
servicio de msica en streaming. El producto en este caso seran las canciones.
Los datos de los que disponemos para cada cancin son por ejemplo el grupo, el
cantante, la discogrfica y el gnero (pop, rock, clsica, banda sonora). Para
enriquecer ms al sistema, tambin vamos a valorar las calificaciones que el
usuario ha hecho sobre los temas calificaciones explcitas, como las
puntuaciones con estrellas, o implcitas, como las veces que ha escuchado el tema
, as como las caractersticas propias del usuario (edad, sexo y pas).
Estos datos, centrados en el producto y aliados con datos del usuario, sern la
materia prima de este sistema de recomendacin. Veamos cmo se hace la
prediccin. El Machine Learning es una disciplina que hace predicciones en
base a preguntas a los datos. La pregunta que debe responder en este caso es:
este usuario al que tengo que hacer una recomendacin y que tiene estas
caractersticas, este comportamiento y que ha calificado previamente estas
canciones, qu calificacin le dara a esta cancin, que es del grupo X, de la
discogrfica Y y de gnero Rock? La respuesta del filtro (que hemos entrenado
con los datos de cientos de miles de usuarios del sistema) nos dara un nmero
entre 0 y 10, basado en las calificaciones que les han dado otros usuarios que se
parecen a l. La pregunta se debe repetir con todas las canciones que se incluyan
en el catlogo de recomendaciones y se obtendr la prediccin de las
calificaciones de todas ellas. De todas las respuestas, las canciones que obtengan
mejor nota sern las que se presenten al usuario.
Conclusiones
Un sistema de recomendaciones es mucho ms que un algoritmo o un filtro
que selecciona productos con ms o menos acierto. Podemos dividir un
recomendador en 4 partes: la base de conocimiento (la informacin, los datos), el
procesamiento de la base de conocimientos (tecnologa, algoritmos, filtros), la
analtica y control de negocio (medir todo, estrategia de negocio) y finalmente el
interface del usuario.
No creo que haya una posicin comn y nica en el mundillo de los datos sobre la
diferencia entre uno y otro. Aqu simplemente daremos nuestro punto de vista
basado en nuestra experiencia, que seguro que se puede complementar y
enriquecer con el de otros profesionales y especialistas del sector.
En un principio podra parecer que poca, ya que el Machine Learning tambin usa
los datos para trabajar, utiliza herramientas de ETL para acceder a ellos y su
propsito principal es mejorar los objetivos de negocio de las compaas.
Un ejemplo
1. Los datos a usar seran los detalles de las compras de todos los clientes, sus
datos personales (edad, sexo, antigedad), los datos de los productos (base
de datos SKU, categorizaciones, precios), datos de promociones, de campaas
de marketing junto con un campo final que indicara, para cada cliente, si se
ha dado de baja.
2. Frente al anlisis de tendencias y global del Business Intelligence, el Machine
Learning hace predicciones cliente a cliente. En este ejemplo, un sistema de BI
nos dira qu porcentaje de clientes se van a dar de baja. Uno de Machine
Learning nos lo dira individualmente, para cada cliente. Basado en esta
informacin, el negocio puede hacer acciones personalizadas para evitar la
fuga de clientes.
3. Con Machine Learning se puede crear aplicaciones en tiempo real que se
integren en el sistema de reservas para proporcionar informacin sobre la
probabilidad de que el cliente se vaya a ir. Adems, se puede crear un sistema
automtico que enve por ejemplo campaas de email con ofertas
personalizadas a aquellos clientes que estn en riesgo.
Conclusiones
Hacer aplicaciones predictivas nunca ha sido tan fcil y barato como ahora.
Aunque no nos demos cuenta, las aplicaciones con capacidad predictiva conviven
con nosotros desde hace tiempo: detectores de spam (predicen si un correo
nuevo lo mandan a la carpeta spam en funcin de ciertos patrones),
las recomendaciones de perfiles en Twitter (predice qu usuarios nos pueden
interesar basndose en patrones de otros usuarios que se parecen a nosotros),
los anuncios de Google (predicen qu anuncios tienen mayor probabilidad de
que hagamos clic), o tu compaa de telfono (predice si te vas a dar de baja en
funcin de tus patrones de consumo).
Las grandes compaas tienen sus propios centros de datos, analistas, cientficos,
matemticos, programadores y sobre todo presupuesto para poder abordar este
tipo de proyectos. Pero desde hace unos aos estn apareciendo en el mercado
servicios en la nube que acercan las tecnologas predictivas a las empresas de
cualquier tamao. Es el Machine Learning low-cost.
Apenas hace dos meses Microsoft haca el anuncio oficial de su propio Machine
Learning, un entorno que corre sobre la infraestructura Azure.
Se trata de entornos en la nube, flexibles y baratos. Estamos seguros de que en tu
empresa tienes muchos datos. Sabemos que siempre los has usado. Pero has
pensando en incluir los nuevos tipos de datos que se generan en el entorno
digital? Correos electrnicos con tus clientes, recorridos de las visitas en la web,
solicitudes de informacin en formularios, descargas de documentacin,
interacciones en las redes sociales, datos de compras con tarjetas de crdito,
llamadas telefnicas Ese es tu Big Data. Si quieres sacarle partido y sumar
ventajas competitivas, es el momento de usar las mismas herramientas que los
grandes. Nosotros te podemos acompaar en el camino. Te lo vas a perder?
Big Data y Turismo. Este es el tema de moda que lleva dando vueltas un tiempo
en el sector y en las consultoras de negocio. El mar de fondo que hay en esos dos
conceptos es: muy bien, es cierto que hay muchos datos pero, cmo se les mete
mano para sacarles partido en el mundo del turismo? Alguien puede ofrecer algo
ya?. Una bsqueda en Internet arroja alguna pista de lo que se est cociendo en
el mundillo. Busco Big Data y Turismo en Google. Las sugerencias de bsquedas
ya dicen algo:
Indicadores, retos, oportunidades. Los ttulos de los resultados de bsqueda
van un poco ms de lo mismo: estudios del Big Data en el sector del turismo,
informes de big data y turismo. Todos ellos de recomendada lectura. Pero yo
sigo en las mas cmo usar el Big Data para mejorar los objetivos de
negocio en turismo? Calco directamente esa pregunta en Google y vuelven de
nuevo los retos, oportunidades, cmo el Big Data revolucionar la gestin del
turismo (en futuro):
Buffff. Yo quiero algo para ahora y Google no parece ayudar. El objetivo de este
artculo es dar una respuesta clara. En realidad, el ttulo debera haber sido:
Si vamos a casos concretos (en este blog ya hemos explicado un caso prctico:
la prediccin de la nacionalidad de los turistas y las mejoras de negocio que lleva
asociada), aqu tenemos algunos mbitos de negocio en los que puede ayudar:
Por qu es importante
Actualmente muchas empresas estn enfocadas en estrategias para almacenar
todos los datos que pueden (en una especie de sndrome de Digenes de datos),
sin advertir que los datos que tienen actualmente ya son tiles para mejorar los
objetivos de negocio.
Qu es el Association Discovery
El Association Discovery trata de descubrir patrones de compra en grandes
volmenes de datos. A diferencia de otras tcnicas de Machine Learning,
encuentra asociaciones entre valores, no slo entre variables.
Visto en Kdnuggets
En el caso que nos ocupa hemos encontrado ms de 500 asociaciones de compra
que indican que la compra de un producto est conectada con la compra
simultnea de otro. Cada asociacin corresponde a un emparejamiento de
patrones de compra de dos o ms productos. Por ejemplo, una asociacin nos
podra decir que la compra de atn en lata est fuertemente relacionada con la
compra de salsa de mayonesa. Evidentemente eso no quiere decir que siempre
que se compra atn tambin se compra mayonesa, pero s nos indica que el atn
y la mayonesa se compran juntos de una forma ms frecuente que otros
productos. Seran dos productos que estn, de alguna forma, conectados.
Este tipo de informacin basada en datos puede ser utilizada por parte de las
unidades de negocio para maximizar los objetivos de negocio. Veamos cmo.
Otros factores que influyen en las asociaciones son la poca del ao (en navidad
se compran productos distintos que en verano), las tiendas que tiene la
competencia en los alrededores, el tipo de barrio en el que est situada la tienda
(barrio comercial, turstico, de negocios) o las ofertas disponibles en el periodo
de anlisis.
Conclusiones
El anlisis de la cesta de la compra basado en datos permite optimizar las
estrategias enfocadas en maximizar las ventas en el sector del retail. El Machine
Learning puede ayudar en tareas como posicionar los artculos en las tiendas,
seleccionar el surtido en las tiendas o en preparar recomendaciones como
recurso de venta de ltimo producto en caja. En definitiva, ayuda a mejorar la
eficiencia en la toma de decisiones, a aumentar las ventajas competitivas y a
optimizar los esfuerzos a la hora de conseguir los objetivos de negocio.