Sunteți pe pagina 1din 3

Anlisis de tcnicas de minera de datos.

Segn un estudio realizado (Shu-Hsien,Pei-hui Chu y Pei-Yuan Hsiao,2012) ha existido una evolucin continua en el uso de las tcnicas de minera de datos, segn su investigacin que comprendio un anlisis exhaustivo del uso y aplicacin de tcnicas de minera de datos desde el ao 2000 hasta el ao 2011 existe una serie de tcnicas entre las cuales podemos encontrar el clustering(agrupar), algoritmos de regresin, redes neuronales, reglas de asociacin, algoritmos genticos y por ltimo el mtodo del vecino ms cercano. Segn (Shu-Hsien,Pei-hui Chu y Pei-Yuan Hsiao,2012) su estudio se concluye el uso de cada algoritmo los cuales son detallados a continuacin. Clustering: Se define como la identificacin de atributos similares de objetos. Mediante el uso de tcnicas de agrupe podemos identificar regiones ms densas y dispersas de objetos en el espacio y pueden descubrir patrn de distribucin general y las correlaciones entre los atributos de los datos por lo agrupamiento se puede utilizar como enfoque de preprocesamiento para la seleccin de subconjuntos de atributos y clasificacin. Algoritmo de regresin: El anlisis de regresin puede ser utilizado para modelar la relacin entre una o ms variables independientes y dependientes. En minera de datos variables independientes son atributos ya se conocen y las variables de respuesta son lo que queremos predecir. Desafortunadamente, muchos de los problemas del mundo real no son simplemente prediccin. Por lo tanto, las tcnicas ms complejas (por ejemplo, regresin logstica, rboles de decisin, o redes neuronales) pueden estar necesarias para predecir valores futuros. Redes neuronales: Se define como un conjunto de datos conectados entre la entrada y salida, cada conexin tiene un peso asignado segn su importancia. Las redes neuronales tienen la notable capacidad para entender el significado a partir de datos complicados o imprecisos y se puede utilizar para extraer patrones y detectar tendencias que son demasiado complejas para ser vistos por los seres humanos u otras tcnicas informticas. Estas son adecuadas para las entradas y salidas que poseen valor continuo. Las redes neuronales son los mejores en la identificacin de patrones o tendencias de los datos por lo que es muy adecuado para las necesidades de prediccin o pronstico. rboles de decisin: rbol de decisin son las estructuras en forma de rbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Mtodos especficos de rboles de decisin incluyen Los rboles de clasificacin y regresin (CART) y Chi cuadrado deteccin automtica de Interaccin (CHAID). Mtodo vecino ms cercano: Una tcnica que clasifica cada registro en un conjunto de datos basado en una combinacin de las clases del registro k (s) ms similar a ella en un conjunto de datos histricos (donde k es mayor que o igual a 1).A veces se llama la tcnica de k-vecino ms cercano.

Regla Asociacin: La asociacin y correlacin suele encontrar como elemento frecuente para establecer conclusiones entre grandes conjuntos de datos. Este tipo de bsqueda ayuda las empresas toman ciertas decisiones, tales como diseo de catlogos, cruce de marketing y anlisis del comportamiento de compra del cliente. Los algoritmos de regla de asociacin deben ser capaces de generar reglas con valores de confianza menor que uno.

La minera de texto y descubrimiento del conocimiento una mirada diferente. En cualquier entorno comercial o industrial informacin corporativa puede estar disponible en varios formatos diferentes, alrededor del 80% de los cuales se encuentra en los documentos de texto (Yu,Wang, y Lai, 2005). Segn Kornfein y Goldfrab( 2007). En esta misma lnea kornfein especifica que esta informacin existe en forma de formatos de datos descriptivos que incluyen informes de los servicios de informacin sobre la reparacin, fabricacin de documentacin de calidad y ayuda al cliente (notas de escritorio).Se necesitan enormes esfuerzos tcnicos y humanos para manejar estas fuentes de informacin, para descubrir los patrones y descubrir conocimiento til escondido dentro de estos recursos. Para Ur-Ramhan y J.A Harding (2011) Los tomadores de decisiones pueden ser asistidos para mejorar la toma de decisiones del negocio a travs del descubrimiento de los patrones de conocimientos tiles. Los conocimientos identificados tambin pueden ser transferidos de un proyecto a otro. En ltima instancia, ayudar para reducir los gastos generales de producto o servicio de la mejora de calidad y gestin de proyectos La tecnologa de minera de datos proporciona flexibilidad para explotar la informacin de mltiples formatos o bases de datos tales datos diferentes como bases de datos relacionales, almacenes de datos y bases de datos transaccionales, etc las bases de datos basados en texto pueden contener informacin forma de documentos, informes, pginas web, mensajes, notas, etc que puede ser no estructurada, semi-estructurada o estructurada (HanY Kamber, 2000). La minera de textos puede ser definido como descubrimiento de conocimiento en bases de datos de texto. Aunque el proceso de minera de texto se basa en gran medida de las aplicaciones tcnicas de minera datos para descubrir conocimiento til, va mas alla y tambin se centra en el manejo de los formatos de datos ms estructurados que plantean ms desafos para el descubrimiento de patrones de formatos de datos numricos (Tan, 1999). En consecuencia, puede aadir valor a un negocio facilitando el proceso de toma de decisiones a un costo menor que otras tcnicas de procesamiento de textos (Spinakis y Chatzimakri, 2005).Para obtener ms ventajas competitivas y explotar las mltiples fuentes de informacin, tcnicas de descubrimiento de conocimiento deben ser considerados. Por lo tanto, ms atencin debe prestarse a la minera de texto tcnicas en soluciones de Business Intelligence (Gao et al, 2005.;Nasukawa y Nagano, 2001). A contuniacion se muestra el modelo propuesto por Ur-Rahman y J.A Harding (2012) para el desarrollo de un sistema experto para el descubrimiento del conocimiento a partir de tcnicas de minera de texto.

Tcnicas de minera de datos

Anlisis y procesamiento de datos

Descubrimiento de patrones y necesidades del negocio

Consolidacin de los datos

Mtodos de minera de texto

Datos en texto sin procesar

Descubrimiento del conocimiento

Base del conocimiento

Soluciones al negocio

Finalmente Ur-Rahman y J.A Harding (2012) realizan un anlisis de su modelo propuesto demostrando mediante aplicaciones reales la efectividad de su tcnica propuesta mediante la base de la media de F-medida que se define como la media armnica de precisin. La razn detrs de la seleccin de la F-medida es que ambas relaciones de precisin y recuperacin son considerado en ella (Miao et al., 2009) obteniendo buenos resultados del uso de esta metodologa al implantarse en una organizacin.

S-ar putea să vă placă și