Sunteți pe pagina 1din 6

thesolidqjournal business intelligence

Por Mark Tabladillo

32

Por qu utilizar minera de datos?


[Nota del editor: Este artculo es un extracto del aparecido en la comunidad MSDN SQL Server Why Use Microsoft Data Mining?]

Data mining might not solve all the world's problems, but here is a real-world look at how Microsoft SQL Server data mining technologies can provide actionable information and answers to common business questions.

a minera tiene la connotacin de que se anda en busca de algo valioso, con la minera recordamos imgenes del trabajo de un minero desempeando esta actividad. Para m, el termino minera de datos mantiene una nocin romntica de un minero de datos, buscando descubrir patrones ocultos, con la ayuda de una computadora como compaero de equipo. Microsoft ha definido tres roles de trabajo para las personas que pudieran estar interesadas en la minera de datos (Microsoft 2008b). Estos roles estn organizados por funcin, y una persona especifica o equipo puede interesarse en realizar diferentes tareas y abarcar ms de un grupo: Analista Entiende los datos y es capaz de traducir los resultados de la minera de datos en informacin til para el negocio. Desarrollador Integra soluciones de minera de datos dentro de aplicaciones personalizadas. Arquitecto Responde a las necesidades de analistas y desarrolladores, y tiene un fuerte inters en las tecnologas de integracin de datos e informes.

Qu es la minera de datos?
De acuerdo a Minera de datos con Microsoft SQL Server 2008 (Data Mining with Microsoft SQL Server 2008, MacLennan, Tang, & Crivat, 2009), minera de datos es el proceso de analizar datos para encontrar patrones ocultos utilizando metodologas automticas (MacLennan, et al., 2009, p. 1). Primero, la minera de datos se refiere a una actividad, lo que significa que es algo que se hace. En tecno-

logas de Microsoft, la minera de datos se realiza a travs de los Analysis Services de SQL Server y requiere de una licencia de SQL Server. Al mover la actividad (por lo general) a un servidor, Microsoft est permitiendo que estos procesos intensivos de datos se ejecuten donde la eficiencia del procesamiento y la conectividad a los sistemas de la empresa puedan llevarse a cabo. SQL Server puede ejecutarse en una computadora de escritorio, y de forma personal, lo tengo instalado en Windows Vista para hacer demostraciones del producto. Sin embargo la minera de datos trabaja mejor en un ambiente de servidor. En otras implementaciones puedes saber de personas que han creado aplicaciones de minera de datos tanto para computadoras de escritorio como para servidores. Segundo, la minera de datos significa anlisis. La funcin del trabajo de analista describe a la persona que ms interesada esta en hacer minera de datos. Microsoft ha hecho de libre disposicin un plug-in para Excel 2007 el cual permite a los analistas conectar Microsoft Office con una implementacin de minera de datos en SQL Server. El plug-in de Excel permite a los analistas realizar minera de datos sobre los datos de Excel (los datos son analizados en el servidor y los resultados son devueltos a Excel). An sin este plug-in, un analista bien entrenado puede analizar los datos haciendo uso gratuito del Business Intelligence Development Studio (BIDS), el cual viene incluido con SQL Server. El BIDS viene incluido con SQL Server 2005 o 2008, y utilizando la estructura de Visual Studio, un analista puede crear un proyecto o solucin (coleccin de proyectos), cualquiera de los cuales puede incluir minera de datos de Microsoft. El punto importante

The SolidQ Journal, Julio 2010 www.solidq.com/sqj

33

es que la minera de datos es otra herramienta importante que el analista puede y debe usar. Tercero, la minera de datos revela patrones ocultos. El adjetivo oculto puede ser contra intuitivo, porque alguien puede decir que ya se tienen y ya se han visto todos los datos. De hecho, la minera de datos asume datos empricos solamente y sus resultados provienen de la informacin presentada. Un patrn puede ser considerado un modelo o una explicacin de un conjunto de datos empricos. Encontrar patrones es una actividad humana normal y los analistas pueden realizar visualmente comparacin de patrones y el reconocimiento de conjuntos de datos pequeos. El trmino oculto significa que no hemos podido descubrir todos los patrones an en un pequeo conjunto de datos (por lo tanto, mi definicin de minera de datos incluye todos los tamaos). Minera de datos en general (y Minera de datos de Microsoft en particular) crea conclusiones basadas en tcnicas matemticas generalmente aceptadas para la comparacin de patrones. Por lo general estas tcnicas avanzadas provienen de matemticos con un alto nivel acadmico y la minera de datos en s misma es un rea activa de la investigacin universitaria. Podemos utilizar software de minera de datos para aplicar matemticas sofisticadas y descubrir patrones ocultos, para nuestro uso. Finalmente, la minera de datos es una actividad automtica. He visto algunas definiciones que incluyen los trminos semiautomtico y automtico, aunque creo que la distincin entre estos trminos es discutible. Desde la perspectiva del desarrollador de software, podramos preguntarnos si colocar una funcin en un ciclo de control vuelve un proceso semiautomtico en uno automtico? Los desarrolladores de software son una audiencia importante para la tecnologa de minera de datos de Microsoft. Microsoft no solamente ha previsto herramientas de usuario como el BIDS y el plug-in de Excel 2007, sino tambin las extensiones de lenguaje de minera de datos (DMX Data Mining Extensions) y la estructura .Net para adaptar soluciones o aplicaciones. La programabilidad extiende esta actividad ms all de solamente el anlisis a la medida y permite a los analistas proyectar sus hallazgos en soluciones completas de nivel empresarial. La minera de datos de Microsoft trabaja de manera automtica por diseo, y el potencial para adaptar el desarrollo extiende las posibilidades para la automatizacin de la empresa.

Qu obtenemos de la minera de datos?


Me encantara decir que la minera de datos puede resolver todos los problemas del mundo. Si hemos hablado con algunos vendedores de minera de datos o consultores, ellos pudieron haberlo hecho o dejaron implcito esto en su respuesta. Siendo realistas, todos tenemos que leer ms all de la promesa de la publicidad, incluso para los productos que nos gusta usar. Regresando a la definicin central, la minera de datos revela patrones ocultos, y llegamos a ver esos patrones como modelos. Sera apropiado decir modelos estadsticos, porque estos modelos nos dan informacin estadstica, tanto descriptiva como predictiva. La estadstica es importante para los analistas, pero es realmente importante para todos aquellos que trabajan con sistemas de Inteligencia de Negocios, incluso sin minera de datos. Este artculo no habla en detalle de estadstica, pero un buen libro de minera de datos incluir informacin acerca de esta materia que se necesitar para conocer las aplicaciones de minera de datos. Qu es un modelo? He tenido diversin interactiva haciendo esta pregunta cuando presento este tema. El trmino tiene una connotacin que puede incluir una modelo o tal vez un modelo de automvil o un hogar modelo. Un modelo generalmente es una descripcin de algo ms, y en minera de datos, un modelo describe un patrn oculto en los datos. La minera de datos de Microsoft produce modelos, algunos de los cuales son expresados como ecuaciones, pero ms tpicamente, la tecnologa muestra resultados que muestran relaciones basadas en datos. El diagrama de la arquitectura del modelo de minera en la Figura 1, proviene de los libros en lnea de SQL Server (SQL Server Books Online). El modelo de minera de Microsoft incluye metadatos (informacin acerca de los datos), patrones (los cuales pueden ser patrones o reglas o formulas) y enlaces (el significado de los enlaces de datos con la estructura de minera, el lugar donde los datos son definidos para la minera de datos). Es importante que la minera de datos no resulte solamente en una ecuacin. Sealar esta diferencia fue importante para m, viniendo de una formacin en estadstica aplicada, porque en mucho de ese trabajo, el resultado es una ecuacin con variables y pesos. La minera de datos puede y en algunos casos debe presentar ecuaciones, pero como regla general,

The SolidQ Journal, Julio 2010 www.solidq.com/sqj

thesolidqjournal business intelligence

34

En el caso de la minera de datos de Microsoft, es importante para los mineros de datos profesionales dedicar tiempo a comprender qu modelos son posibles y qu es lo que pueden entregar. Microsoft ha proporcionado mucha informacin gratuita en lnea y yo tengo enlaces a muchos recursos importantes disponibles en marktab.net (MarkTab Consulting, 2009). Adems de la informacin de libre acceso, las grandes empresas deberan a provechar a los consultores de minera de datos y la capacitacin en minera de datos para acelerar ya sea su comienzo o bien su actualizacin en minera de datos.

Figura 1: Arquitectura del modelo de minera puede que no haya una ecuacin especfica (o grupo de ecuaciones) que describan completamente el modelo entero. Los resultados de la minera de datos son dependientes de los datos (y por lo tanto metadatos) que se usaron para crear el modelo. En muchos entornos de negocios empresariales, el propsito es resolver algn objetivo de negocio. Incluso en lugares en donde la estadstica y los analistas estadsticos han proporcionado soluciones, el resultado actual ha sido informacin que conlleva a tomar algn tipo de accin. Los tomadores de decisiones quieren conocer a fondo cmo tomar decisiones. Si estos resultados provienen de la estadstica o de la minera de datos (o de ambas), lo que cuenta es traducir los resultados matemticos al lenguaje de negocios. La traduccin requiere de alguien que conozca los objetivos especficos de la industria y la tecnologa de minera de datos. La minera de datos no es independiente de un analista profesional que pueda interpretar y aplicar los resultados a una pregunta de negocios. Por lo tanto es preciso decir que la minera de datos no puede resolver los problemas del mundo. Incluso podra ser correcto decir que la minera de datos no resuelve problema alguno directamente, pero en su lugar es el minero de datos (el profesional capacitado) quien llena el vaco entre un modelo de minera de datos y un problema de negocio. Las organizaciones que toman en serio las tecnologas de minera de datos, deberan incluir la formacin continua y el desarrollo de sus analistas, no solamente en los objetivos esenciales especficos de la industria, sino tambin en las herramientas tecnolgicas que desarrollen soluciones.

Qu problemas resuelve la minera de datos?


Algunos problemas tpicos que la minera de datos puede ayudar a resolver son categorizados en el libro SQL Server 2008 Data Mining (MacLennan et al., 2009, pp. 4-5); esta lista incluye: Generacin de recomendaciones despus de que el cliente seleccion uno o ms productos, la minera de datos sugiere otro producto. Deteccin de anomalas Comnmente, fraudes en la industria financiera en donde se busca una transaccin o un cliente entre miles, que pudieran estar cometiendo fraude. Generalmente la minera de datos puede localizar una sola observacin, entre incluso millones que pueden ser diferentes. Anlisis de separacin (Churn Analysis) el trmino separacin (Churn) se refiere a perder un cliente cautivo, y conocer tempranamente que indicadores pueden mostrar que alguien est listo a cambiar, puede ser importante. Administracin de riesgos Las calificaciones crediticias frecuentemente se basan en frmulas multivalentes que ayudan a predecir niveles de riesgo. Segmentacin de clientes Agrupar clientes, incluso por sus propias caractersticas determinadas, puede permitir a grandes organizaciones a administrar sus campaas de marketing u organizar sus servicios profesionales alrededor de grupos similares. Publicidad dirigida la gente de marketing utiliza la minera de datos para entregar anuncios perso-

The SolidQ Journal, Julio 2010 www.solidq.com/sqj

35

nalizados en lnea, pero las organizaciones generalmente siempre quieren saber cmo dirigir sus comunicaciones basados en lo que saben de su clientela. Pronstico Los anlisis de series de tiempo toman datos del pasado y ofrecen una mirada hacia el futuro, incluso cuando hay aumentos o disminuciones estacionales. En presentaciones pasadas he sealado numerosos ejemplos del valor de la minera de datos en las noticias. Demos una mirada a algunas historias de msn.com (Microsoft 2009b) y veamos qu preguntas pueden ser abordadas por la minera de datos: Noticias en EE.UU. La historia nos reporta que la economa de los EE.UU. se contrae a un ritmo muy acelerado desde 1982. Las series de tiempo son las herramientas de que dispone la minera de datos, las cuales ayudan a proporcionar informacin comparable incluso cuando las tendencias estacionales podran influir en los datos. En los EE.UU., muchos minoristas experimentan incrementos en sus ventas durante la temporada navidea entre noviembre y enero. Los minoristas experimentados saben ajustar comparativamente su anlisis para contabilizar lo que es una temporada diferente comparada a las otras temporadas. Noticias Mundiales Un artculo sobre el calor abrasador que se registr al sur de Australia trae a la mente la forma en que ms datos sobre el clima pueden proporcionar las variables asociativas para ayudar a entender por qu las temperaturas aumentan. La sabidura estadstica clsica establece que la correlacin no prueba la causalidad, es decir que slo porque un par de indicadores podran subir y bajar juntos no quiere decir que uno cause el otro. La causalidad es un tema complicado (y ms all del alcance de este artculo), pero es importante no precipitarse a concluir una causa y efecto fuera de un experimento cuidadosamente controlado. Negocios - Una historia que dice que los consumidores estn ms al da en enero me lleva a pensar cmo la minera de datos pueden aportar una importante contribucin al monitoreo (la colecta y anlisis de las encuestas). Tal vez hayas sido entrevistado para algn estudio, y sabemos de los

encuestadores entrevistan a los votantes justo antes y despus de las elecciones. La mayora de las encuestas se realizan con una muestra de la poblacin total, por lo que el anlisis requiere la aplicacin de pesos a los resultados para que la muestra se asemeje ms a la poblacin. La minera de datos puede dar una idea de cmo proporcionar pesos porque muchos de los algoritmos de minera de datos de Microsoft ponderan. Deportes Una historia acerca de los Acereros de Pittsburgh se preguntaba si el equipo de la NFL tena la mejor lnea defensiva de todos los tiempos. Los deportes son tema de actualidad en todo el mundo. La gente quiere saber qu equipos y que jugadores son los mejores, ya sea en el ao actual o a travs de la historia. Toda la historia que tenemos son indicadores de rendimiento para un equipo en particular, pero podemos crear un modelo computarizado (minera de datos aplicada) para ayudarnos a descubrir patrones y proporcionar puntos de vista acerca de los deportes de equipo o los jugadores considerados los mejores del mundo o de la historia. Salud El brote de salmonella en la industria de los cacahuates en EE.UU. (ahora se cree que se trata de una sola planta procesadora) es un ejemplo del tipo de investigacin para la cual la minera de datos puede ser muy valiosa. En cualquier investigacin (de salud o criminal), el investigador tiene que clasificar por completo mltiples eventos y factores, y decidir cules tienen una relacin causal probable en un resultado especfico. Ya advert anteriormente acerca de las conclusiones de causalidad cuando slo existe evidencia asociativa (culpa por asociacin), pero en algunas situaciones, podra haber mltiples causas posibles. La salmonella es una bacteria muy comn, tan comn que cada planta de procesamiento de cacahuates necesita tomar muchas precauciones contra los agentes causales conocidos. En esta historia la clasificacin entre los candidatos conocidos para determinar a los actuales culpables requiere reunir datos, y cuando esta coleccin implica complejas relaciones multivalentes, la minera de datos puede proporcionar pistas sobre la respuesta. Microsoft cuenta con casos de estudio en lnea describiendo implementaciones especficas de negocio de

The SolidQ Journal, Julio 2010 www.solidq.com/sqj

thesolidqjournal business intelligence

36

minera de datos SQL Server (Microsoft 2009a). Pero el punto ms importante es aprender acerca de los algoritmos y de lo que hacen, para que cuando nos enfrentemos con un problema, podamos considerar la minera de datos como parte de la solucin.

Ventajas de la minera de datos de Microsoft


Hay muchos productos de software de minera de datos disponibles (libres o no). Algunas ventajas importantes de las herramientas de minera de datos de Microsoft, incluyen: Integracin estrecha con la plataforma de base de datos de clase mundial SQL Server. Esto significa que la minera de datos aprovecha el desempeo, la seguridad y las caractersticas de optimizacin de SQL Server. Adems de que muchas organizaciones ya poseen la licencia de minera de datos a travs de SQL Server 2008 o 2005. Esta tecnologa puede acceder datos en otras plataformas (a travs de los proveedores ADO .NET, incluyendo Oracle, Teradata, DB2, y SAS). Algunos productos de minera de datos para computadoras de escritorio por si solas no otorgan la escalabilidad o la seguridad y las caractersticas de acceso a los datos de SQL Server. Aplicaciones para produccin - nivel inteligencia de negocios. Un equipo de desarrolladores puede integrar la minera de datos dentro de las soluciones actuales de Inteligencia de Negocios. La integracin funciona mejor con Windows, pero debido a que se puede utilizar una interfaz web, no necesita ser una solucin de Inteligencia de Negocios basada en Windows para integrar estas herramientas. Esta caracterstica es importante porque Microsoft crea y da soporte a lenguajes. Produccin calidad en el uso y resultados. El modelado de datos conlleva una norma cultural que nos muestra a individuos fuertes guiando el camino (podemos pensar en John Wayne o en nuestro superhroe favorito de historietas). Pero a medida que avanzamos, la tecnologa Microsoft implica a equipos de trabajo para que tomen bajo su tutela ms proyectos de minera de datos y podemos esperar que en futuras iteraciones nos ayude a habilitar el trabajo de diferentes equipos en la minera de datos de forma conjunta. Estas nuevas normas culturales provienen de la cultura de Inteligencia de Negocios y SQL Server, y creo que es una aadidura bienvenida en la forma que han venido trabajando los analistas estadsticos tradicionalmente. Necesitamos hroes pero tambin necesitamos equipos.

Qu costos tiene la minera de datos?


Algunos costos que considerar rpidamente en la implementacin de la minera de datos: Licenciamiento o tarifa de compra los costos del software varan, y aunque algunos paquetes de software son gratuitos, otros tienen precio de licenciamiento. SQL Server proporciona formas de monitorear el uso. Hardware y mantenimiento ya sean las computadoras de escritorio o los servidores, todo el hardware tiene costos de mantenimiento asociados, y los respaldos de los datos estn incluidos en el costo. Adquisicin de datos Algunas veces los datos no estn disponibles para resolver un problema en particular, y otras veces, slo parte de los datos se encuentra disponible. Adquirir los datos puede ser parte de la solucin o puede ser que requieras de una nueva estrategia para reunir datos. Preparacin de datos Preparar datos para la minera no significa slo tenerlos, sino tambin limpiarlos y, posiblemente, transformarlos para darles un uso apropiado. Alguien necesita hacerse cargo de esta preparacin de los datos para el anlisis (y dichas tareas son frecuentes en la mayora de los sistemas de inteligencia de negocios). Desarrollo del personal La minera de datos no simplemente funciona una vez que se han cargado los datos en la computadora. Un analista entrenado en minera de datos se compromete no solamente a aprender la tecnologa, sino en la medida de lo posible, hasta efectuar desarrollos a la medida. Las grandes organizaciones deben incluir intencionalmente los costos de la minera de datos dentro de sus procesos normales de presupuesto, donde estos costos pueden ser evaluados y ajustados de manera apropiada.

The SolidQ Journal, Julio 2010 www.solidq.com/sqj

37

Extensibilidad. Es posible extender la minera de datos de Microsoft para implementar algoritmos que no vienen incluidos en el producto. Por ejemplo hay algunos que han escrito un algoritmo de mquina de vectores de apoyo (Support Vector Machine - SVM) y el cdigo se encuentra disponible en Codeplex (CodePlex Open Source Community, 2009). Tambin utilizando el sistema .NET un desarrollador de software puede integrar otras soluciones de minera de datos independientes dentro de la solucin Microsoft (el nivel de integracin depende de cmo es de abierta la otra solucin de minera de datos). Microsoft ha proporcionado algunos consejos y tcnicas para la extensibilidad en el sitio web respaldado por el equipo de minera de datos de Microsoft (SQL Server Data Mining Team, 2009). Aplicaciones prcticas en Excel a travs de los complementos de minera de datos. Se puede empezar a utilizar la minera de datos mediante el uso del complemento de Excel de 32 bits. Entre la comunidad de minera de datos el trmino Anlisis Visual (Visual Analytics) incluye la habilidad de realizar anlisis a travs de interfaces visuales y los complementos proporcionan una buena manera de aprovechar la bien conocida interfaz visual de Excel la cual proporciona la fachada principal (front-end)

para todos los algoritmos de minera de datos de Microsoft. Se pueden ver algunas demostraciones y ejemplos de los complementos en mi sitio web (www.marktab.net). Espero que esta breve introduccin a la minera de datos haya proporcionado una mirada al mundo real sobre algunos problemas de negocio que pueden ser resueltos con la minera de datos. Microsoft tambin proporciona mucha informacin gratuita en lnea y tutoriales sobre su software, y se pueden encontrar enlaces a muchos recursos que personalmente he encontrado tiles en mi portal de minera de datos www.marktab.net.

Sobre del Autor


Mark Tabladillo, Ph.D., es mentor de Solid Quality Mentors especializado en minera de datos y tecnologas de inteligencia de negocios. Es propietario de MarkTab, Inc., y miembro asociado facultado en la universidad de Phoenix. Su sitio web, www.marktab.net, es un portal dedicado a la minera de datos con SQL Server. Pueden seguir a Mark a travs de Twitter en: @MarkTabNet.

References
Association for Computing Machinery. (2008). Welcome Page. Retrieved January 15, 2009, from http://www.acm.org/. Berry, M. J. A., & Linoff, G. (1997). Data Mining Techniques. New York, NY: John Wiley & Sons, Inc. Berry, M. J. A., & Linoff, G. (2000). Mastering Data Mining. New York, NY: John Wiley & Sons. Inc. Bigus, J. P. (1996). Data Mining with Neural Networks. New York, NY: McGraw-Hill Companies, Inc. Cerrito, P. B. (2006). Introduction to Data Mining Using SAS Enterprise Miner. Cary, NC: SAS Institute, Inc. CodePlex Open Source Community. (2009). Support Vector Machine plug-in in Analysis Services. Retrieved January 15, 2009, from http://svmplugin.codeplex.com/. Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques (Second ed.). San Francisco, CA: Elsevier, Inc. Hastie, T., Tibshirani, R., & Friedman, J. (2001). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. New York, NY: Springer Science & Business Media, LLC. MacLennan, J., Tang, Z., & Crivat, B. (2009). Data Mining with SQL Server 2008. Indianapolis, IN: Wiley Publishing, Inc. MarkTab Consulting. (2009). MarkTab.net Data Mining Portal. Retrieved January 15, 2009, from http://www.marktab.net. Microsoft. (2008a). Mining Models (Analysis Services - Data Mining). Retrieved January 15, 2009, from mshelp://MS.SQLCC.v10/MS.SQLSVR.v10.en/s10dm_0evalplan/html/cd4df273-0c6a-4b3e-9572-8a7e313111e8.htm. Microsoft. (2008b). SQL Server 2008 Books Online -- How Do I Browse by Job Role (Analysis Services - Data Mining). Retrieved August 15, 2008, from http://msdn.microsoft.com/en-us/library/bb510519.aspx. Microsoft. (2009a). Microsoft SQL Server 2008 Product Information - Case Studies. Retrieved January 15, 2009, from http://www.microsoft.com/sqlserver/2008/en/us/case-studies.aspx Microsoft. (2009b). MSN Web Portal. Retrieved January 15, 2009, from http://www.msn.com. SQL Server Data Mining Team. (2009). SQLServerDataMining.com Home Page. Retrieved January 15, 2009, from http://www.sqlserverdatamining.com/ssdm/. Tan, P.-N., Steinbach, M., & Kuman, V. (2006). Introduction to Data Mining. Boston, MA: Pearson Education, Inc. Tang, Z., & MacLennan, J. (2005). Data Mining with SQL Server 2005. Indianapolis, IN: Wiley Publishing, Inc. Witten, I. H., & Frank, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques (Second ed.). San Francisco, CA: Elsevier, Inc.

The SolidQ Journal, Julio 2010 www.solidq.com/sqj

S-ar putea să vă placă și