Documente Academic
Documente Profesional
Documente Cultură
32
Data mining might not solve all the world's problems, but here is a real-world look at how Microsoft SQL Server data mining technologies can provide actionable information and answers to common business questions.
a minera tiene la connotacin de que se anda en busca de algo valioso, con la minera recordamos imgenes del trabajo de un minero desempeando esta actividad. Para m, el termino minera de datos mantiene una nocin romntica de un minero de datos, buscando descubrir patrones ocultos, con la ayuda de una computadora como compaero de equipo. Microsoft ha definido tres roles de trabajo para las personas que pudieran estar interesadas en la minera de datos (Microsoft 2008b). Estos roles estn organizados por funcin, y una persona especifica o equipo puede interesarse en realizar diferentes tareas y abarcar ms de un grupo: Analista Entiende los datos y es capaz de traducir los resultados de la minera de datos en informacin til para el negocio. Desarrollador Integra soluciones de minera de datos dentro de aplicaciones personalizadas. Arquitecto Responde a las necesidades de analistas y desarrolladores, y tiene un fuerte inters en las tecnologas de integracin de datos e informes.
Qu es la minera de datos?
De acuerdo a Minera de datos con Microsoft SQL Server 2008 (Data Mining with Microsoft SQL Server 2008, MacLennan, Tang, & Crivat, 2009), minera de datos es el proceso de analizar datos para encontrar patrones ocultos utilizando metodologas automticas (MacLennan, et al., 2009, p. 1). Primero, la minera de datos se refiere a una actividad, lo que significa que es algo que se hace. En tecno-
logas de Microsoft, la minera de datos se realiza a travs de los Analysis Services de SQL Server y requiere de una licencia de SQL Server. Al mover la actividad (por lo general) a un servidor, Microsoft est permitiendo que estos procesos intensivos de datos se ejecuten donde la eficiencia del procesamiento y la conectividad a los sistemas de la empresa puedan llevarse a cabo. SQL Server puede ejecutarse en una computadora de escritorio, y de forma personal, lo tengo instalado en Windows Vista para hacer demostraciones del producto. Sin embargo la minera de datos trabaja mejor en un ambiente de servidor. En otras implementaciones puedes saber de personas que han creado aplicaciones de minera de datos tanto para computadoras de escritorio como para servidores. Segundo, la minera de datos significa anlisis. La funcin del trabajo de analista describe a la persona que ms interesada esta en hacer minera de datos. Microsoft ha hecho de libre disposicin un plug-in para Excel 2007 el cual permite a los analistas conectar Microsoft Office con una implementacin de minera de datos en SQL Server. El plug-in de Excel permite a los analistas realizar minera de datos sobre los datos de Excel (los datos son analizados en el servidor y los resultados son devueltos a Excel). An sin este plug-in, un analista bien entrenado puede analizar los datos haciendo uso gratuito del Business Intelligence Development Studio (BIDS), el cual viene incluido con SQL Server. El BIDS viene incluido con SQL Server 2005 o 2008, y utilizando la estructura de Visual Studio, un analista puede crear un proyecto o solucin (coleccin de proyectos), cualquiera de los cuales puede incluir minera de datos de Microsoft. El punto importante
33
es que la minera de datos es otra herramienta importante que el analista puede y debe usar. Tercero, la minera de datos revela patrones ocultos. El adjetivo oculto puede ser contra intuitivo, porque alguien puede decir que ya se tienen y ya se han visto todos los datos. De hecho, la minera de datos asume datos empricos solamente y sus resultados provienen de la informacin presentada. Un patrn puede ser considerado un modelo o una explicacin de un conjunto de datos empricos. Encontrar patrones es una actividad humana normal y los analistas pueden realizar visualmente comparacin de patrones y el reconocimiento de conjuntos de datos pequeos. El trmino oculto significa que no hemos podido descubrir todos los patrones an en un pequeo conjunto de datos (por lo tanto, mi definicin de minera de datos incluye todos los tamaos). Minera de datos en general (y Minera de datos de Microsoft en particular) crea conclusiones basadas en tcnicas matemticas generalmente aceptadas para la comparacin de patrones. Por lo general estas tcnicas avanzadas provienen de matemticos con un alto nivel acadmico y la minera de datos en s misma es un rea activa de la investigacin universitaria. Podemos utilizar software de minera de datos para aplicar matemticas sofisticadas y descubrir patrones ocultos, para nuestro uso. Finalmente, la minera de datos es una actividad automtica. He visto algunas definiciones que incluyen los trminos semiautomtico y automtico, aunque creo que la distincin entre estos trminos es discutible. Desde la perspectiva del desarrollador de software, podramos preguntarnos si colocar una funcin en un ciclo de control vuelve un proceso semiautomtico en uno automtico? Los desarrolladores de software son una audiencia importante para la tecnologa de minera de datos de Microsoft. Microsoft no solamente ha previsto herramientas de usuario como el BIDS y el plug-in de Excel 2007, sino tambin las extensiones de lenguaje de minera de datos (DMX Data Mining Extensions) y la estructura .Net para adaptar soluciones o aplicaciones. La programabilidad extiende esta actividad ms all de solamente el anlisis a la medida y permite a los analistas proyectar sus hallazgos en soluciones completas de nivel empresarial. La minera de datos de Microsoft trabaja de manera automtica por diseo, y el potencial para adaptar el desarrollo extiende las posibilidades para la automatizacin de la empresa.
34
En el caso de la minera de datos de Microsoft, es importante para los mineros de datos profesionales dedicar tiempo a comprender qu modelos son posibles y qu es lo que pueden entregar. Microsoft ha proporcionado mucha informacin gratuita en lnea y yo tengo enlaces a muchos recursos importantes disponibles en marktab.net (MarkTab Consulting, 2009). Adems de la informacin de libre acceso, las grandes empresas deberan a provechar a los consultores de minera de datos y la capacitacin en minera de datos para acelerar ya sea su comienzo o bien su actualizacin en minera de datos.
Figura 1: Arquitectura del modelo de minera puede que no haya una ecuacin especfica (o grupo de ecuaciones) que describan completamente el modelo entero. Los resultados de la minera de datos son dependientes de los datos (y por lo tanto metadatos) que se usaron para crear el modelo. En muchos entornos de negocios empresariales, el propsito es resolver algn objetivo de negocio. Incluso en lugares en donde la estadstica y los analistas estadsticos han proporcionado soluciones, el resultado actual ha sido informacin que conlleva a tomar algn tipo de accin. Los tomadores de decisiones quieren conocer a fondo cmo tomar decisiones. Si estos resultados provienen de la estadstica o de la minera de datos (o de ambas), lo que cuenta es traducir los resultados matemticos al lenguaje de negocios. La traduccin requiere de alguien que conozca los objetivos especficos de la industria y la tecnologa de minera de datos. La minera de datos no es independiente de un analista profesional que pueda interpretar y aplicar los resultados a una pregunta de negocios. Por lo tanto es preciso decir que la minera de datos no puede resolver los problemas del mundo. Incluso podra ser correcto decir que la minera de datos no resuelve problema alguno directamente, pero en su lugar es el minero de datos (el profesional capacitado) quien llena el vaco entre un modelo de minera de datos y un problema de negocio. Las organizaciones que toman en serio las tecnologas de minera de datos, deberan incluir la formacin continua y el desarrollo de sus analistas, no solamente en los objetivos esenciales especficos de la industria, sino tambin en las herramientas tecnolgicas que desarrollen soluciones.
35
nalizados en lnea, pero las organizaciones generalmente siempre quieren saber cmo dirigir sus comunicaciones basados en lo que saben de su clientela. Pronstico Los anlisis de series de tiempo toman datos del pasado y ofrecen una mirada hacia el futuro, incluso cuando hay aumentos o disminuciones estacionales. En presentaciones pasadas he sealado numerosos ejemplos del valor de la minera de datos en las noticias. Demos una mirada a algunas historias de msn.com (Microsoft 2009b) y veamos qu preguntas pueden ser abordadas por la minera de datos: Noticias en EE.UU. La historia nos reporta que la economa de los EE.UU. se contrae a un ritmo muy acelerado desde 1982. Las series de tiempo son las herramientas de que dispone la minera de datos, las cuales ayudan a proporcionar informacin comparable incluso cuando las tendencias estacionales podran influir en los datos. En los EE.UU., muchos minoristas experimentan incrementos en sus ventas durante la temporada navidea entre noviembre y enero. Los minoristas experimentados saben ajustar comparativamente su anlisis para contabilizar lo que es una temporada diferente comparada a las otras temporadas. Noticias Mundiales Un artculo sobre el calor abrasador que se registr al sur de Australia trae a la mente la forma en que ms datos sobre el clima pueden proporcionar las variables asociativas para ayudar a entender por qu las temperaturas aumentan. La sabidura estadstica clsica establece que la correlacin no prueba la causalidad, es decir que slo porque un par de indicadores podran subir y bajar juntos no quiere decir que uno cause el otro. La causalidad es un tema complicado (y ms all del alcance de este artculo), pero es importante no precipitarse a concluir una causa y efecto fuera de un experimento cuidadosamente controlado. Negocios - Una historia que dice que los consumidores estn ms al da en enero me lleva a pensar cmo la minera de datos pueden aportar una importante contribucin al monitoreo (la colecta y anlisis de las encuestas). Tal vez hayas sido entrevistado para algn estudio, y sabemos de los
encuestadores entrevistan a los votantes justo antes y despus de las elecciones. La mayora de las encuestas se realizan con una muestra de la poblacin total, por lo que el anlisis requiere la aplicacin de pesos a los resultados para que la muestra se asemeje ms a la poblacin. La minera de datos puede dar una idea de cmo proporcionar pesos porque muchos de los algoritmos de minera de datos de Microsoft ponderan. Deportes Una historia acerca de los Acereros de Pittsburgh se preguntaba si el equipo de la NFL tena la mejor lnea defensiva de todos los tiempos. Los deportes son tema de actualidad en todo el mundo. La gente quiere saber qu equipos y que jugadores son los mejores, ya sea en el ao actual o a travs de la historia. Toda la historia que tenemos son indicadores de rendimiento para un equipo en particular, pero podemos crear un modelo computarizado (minera de datos aplicada) para ayudarnos a descubrir patrones y proporcionar puntos de vista acerca de los deportes de equipo o los jugadores considerados los mejores del mundo o de la historia. Salud El brote de salmonella en la industria de los cacahuates en EE.UU. (ahora se cree que se trata de una sola planta procesadora) es un ejemplo del tipo de investigacin para la cual la minera de datos puede ser muy valiosa. En cualquier investigacin (de salud o criminal), el investigador tiene que clasificar por completo mltiples eventos y factores, y decidir cules tienen una relacin causal probable en un resultado especfico. Ya advert anteriormente acerca de las conclusiones de causalidad cuando slo existe evidencia asociativa (culpa por asociacin), pero en algunas situaciones, podra haber mltiples causas posibles. La salmonella es una bacteria muy comn, tan comn que cada planta de procesamiento de cacahuates necesita tomar muchas precauciones contra los agentes causales conocidos. En esta historia la clasificacin entre los candidatos conocidos para determinar a los actuales culpables requiere reunir datos, y cuando esta coleccin implica complejas relaciones multivalentes, la minera de datos puede proporcionar pistas sobre la respuesta. Microsoft cuenta con casos de estudio en lnea describiendo implementaciones especficas de negocio de
36
minera de datos SQL Server (Microsoft 2009a). Pero el punto ms importante es aprender acerca de los algoritmos y de lo que hacen, para que cuando nos enfrentemos con un problema, podamos considerar la minera de datos como parte de la solucin.
37
Extensibilidad. Es posible extender la minera de datos de Microsoft para implementar algoritmos que no vienen incluidos en el producto. Por ejemplo hay algunos que han escrito un algoritmo de mquina de vectores de apoyo (Support Vector Machine - SVM) y el cdigo se encuentra disponible en Codeplex (CodePlex Open Source Community, 2009). Tambin utilizando el sistema .NET un desarrollador de software puede integrar otras soluciones de minera de datos independientes dentro de la solucin Microsoft (el nivel de integracin depende de cmo es de abierta la otra solucin de minera de datos). Microsoft ha proporcionado algunos consejos y tcnicas para la extensibilidad en el sitio web respaldado por el equipo de minera de datos de Microsoft (SQL Server Data Mining Team, 2009). Aplicaciones prcticas en Excel a travs de los complementos de minera de datos. Se puede empezar a utilizar la minera de datos mediante el uso del complemento de Excel de 32 bits. Entre la comunidad de minera de datos el trmino Anlisis Visual (Visual Analytics) incluye la habilidad de realizar anlisis a travs de interfaces visuales y los complementos proporcionan una buena manera de aprovechar la bien conocida interfaz visual de Excel la cual proporciona la fachada principal (front-end)
para todos los algoritmos de minera de datos de Microsoft. Se pueden ver algunas demostraciones y ejemplos de los complementos en mi sitio web (www.marktab.net). Espero que esta breve introduccin a la minera de datos haya proporcionado una mirada al mundo real sobre algunos problemas de negocio que pueden ser resueltos con la minera de datos. Microsoft tambin proporciona mucha informacin gratuita en lnea y tutoriales sobre su software, y se pueden encontrar enlaces a muchos recursos que personalmente he encontrado tiles en mi portal de minera de datos www.marktab.net.
References
Association for Computing Machinery. (2008). Welcome Page. Retrieved January 15, 2009, from http://www.acm.org/. Berry, M. J. A., & Linoff, G. (1997). Data Mining Techniques. New York, NY: John Wiley & Sons, Inc. Berry, M. J. A., & Linoff, G. (2000). Mastering Data Mining. New York, NY: John Wiley & Sons. Inc. Bigus, J. P. (1996). Data Mining with Neural Networks. New York, NY: McGraw-Hill Companies, Inc. Cerrito, P. B. (2006). Introduction to Data Mining Using SAS Enterprise Miner. Cary, NC: SAS Institute, Inc. CodePlex Open Source Community. (2009). Support Vector Machine plug-in in Analysis Services. Retrieved January 15, 2009, from http://svmplugin.codeplex.com/. Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques (Second ed.). San Francisco, CA: Elsevier, Inc. Hastie, T., Tibshirani, R., & Friedman, J. (2001). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. New York, NY: Springer Science & Business Media, LLC. MacLennan, J., Tang, Z., & Crivat, B. (2009). Data Mining with SQL Server 2008. Indianapolis, IN: Wiley Publishing, Inc. MarkTab Consulting. (2009). MarkTab.net Data Mining Portal. Retrieved January 15, 2009, from http://www.marktab.net. Microsoft. (2008a). Mining Models (Analysis Services - Data Mining). Retrieved January 15, 2009, from mshelp://MS.SQLCC.v10/MS.SQLSVR.v10.en/s10dm_0evalplan/html/cd4df273-0c6a-4b3e-9572-8a7e313111e8.htm. Microsoft. (2008b). SQL Server 2008 Books Online -- How Do I Browse by Job Role (Analysis Services - Data Mining). Retrieved August 15, 2008, from http://msdn.microsoft.com/en-us/library/bb510519.aspx. Microsoft. (2009a). Microsoft SQL Server 2008 Product Information - Case Studies. Retrieved January 15, 2009, from http://www.microsoft.com/sqlserver/2008/en/us/case-studies.aspx Microsoft. (2009b). MSN Web Portal. Retrieved January 15, 2009, from http://www.msn.com. SQL Server Data Mining Team. (2009). SQLServerDataMining.com Home Page. Retrieved January 15, 2009, from http://www.sqlserverdatamining.com/ssdm/. Tan, P.-N., Steinbach, M., & Kuman, V. (2006). Introduction to Data Mining. Boston, MA: Pearson Education, Inc. Tang, Z., & MacLennan, J. (2005). Data Mining with SQL Server 2005. Indianapolis, IN: Wiley Publishing, Inc. Witten, I. H., & Frank, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques (Second ed.). San Francisco, CA: Elsevier, Inc.