Sunteți pe pagina 1din 7

LA MINERÍA DE DATOS Y SU RELACIÓN A OTRAS CIENCIAS DEL

CONOCIMIENTO

DATA MINING AND ITS RELATIONSHIP WITH OTHER KNOWLEDGE


SCIENCES

Cesar Cuñishpuma Lema1

RESUMEN
En la actualidad se están desarrollando diferentes maneras de educación tanto en la enseñanza como en
el aprendizaje en disciplinas que por lo general se consideran conocimientos fuertes como lo son las
Matemáticas, Física y Química; de la misma manera, pero en una cantidad menor, no dejando de ser
importante se han implementado estrategias de aprendizaje en Ingeniería y Ciencias o Sistemas
Computacionales. Hoy en día el concepto de minería de datos está haciéndose eco en todas partes y lo
que se pretende en este trabajo es llevar información real y precisa a todos los que carecen de este
conocimiento muy importante. Sin embargo, todo señala a que menos de lo esperado la minería de datos
será utilizada por la sociedad, al menos con el mismo peso que actualmente tiene la Estadística. Así, en
este artículo se intentara aclarar algunas dudas como por ejemplo ¿Cuáles son las técnicas que se usan
en la minería de datos? ¿Con que otras ciencias se relacionan la minería de datos? ¿Cuál es el ciclo de
la minería de datos? mediante una introducción a la minería de datos: definición, técnicas, ejemplos,
etc.

Palabras clave: minería de datos, clustering, base de datos, estadísticas.

ABSTRACT
Different ways of education are being developed in both teaching and learning in disciplines
that are generally considered to be strong knowledge such as Mathematics, Physics and
Chemistry; In the same way, but in a smaller amount, while not being important have been
implemented learning strategies in Engineering and Science or Computer Systems. Today the
concept of data mining is echoing everywhere and what is intended in this work is to bring
real and accurate information to all who lack this very important knowledge. However,
everything indicates that less than expected data mining will be used by society, at least with
the same weight as currently has the Statistics. Thus, in this article we try to clarify some
doubts such as: What are the techniques used in data mining? What other sciences are related
to data mining? What is the cycle of data mining? Through an introduction to data mining:
definition, techniques, examples, etc.
Keywords: data mining, clustering, database, statistics.

1
Universidad de Guayaquil, Facultad de Ciencias Matemáticas y Física; Guayaquil, Ecuador, cesar.cunishpumal@ug.edu.ec
INTRODUCCION MINERÍA DE DATOS

Con la llegada de la era de la computación, el "Minería de datos se define como el proceso de


mundo como se conoce ha experimentado un extraer conocimiento útil y comprensible, desde
crecimiento exponencial en la cantidad de grandes cantidades de datos almacenados por
información disponible sin precedentes en la medios automáticos o semi-automáticos. Este
historia. Una base de datos como la base de proceso incluye no sólo el análisis inteligente de
suficiencia que anualmente procesa el Ministerio los datos con técnicas de minería de datos, sino
de Salud y del Trabajo tiene una aproximación de también los pasos previos, como el filtrado y
270 millones de registros. El reto de la minería de preprocesado de los datos, y los posteriores, como
datos es desarrollar una forma teórica de pensar y la interpretación y validación del conocimiento
usar técnicas computacionales que permitan extraído". (Hernández, 2004).
procesar y aprender de esta información
La minería de datos es el proceso mediante el cual
En definitiva, la minería de datos es almacenamos información de todo tipo de
una tecnología usada para descubrir información conocimiento en grandes bases de datos. Dicho
oculta y desconocida, pero potencialmente útil, a proceso consta en identificar relaciones o
partir de las fuentes de información de la patrones, tendencias y clasificaciones que se
propia empresa. Obtiene un conocimiento de un encuentran registrados en grandes repositorios de
negocio, utilizando técnicas de clustering, redes información.
neuronales, árboles de decisión y reglas de
asociación etc. Los algoritmos automáticos El ciclo de la minería de datos se inicia con el
pueden procesar cantidades de datos muy grandes entendimiento de un problema práctico que puede
y detectar patrones y tendencias que, de lo surgir a través de las actividades que se realizan a
contrario, estarían ocultos. La minería de datos diario en las organizaciones y que normalmente
distribuida es una disciplina de alto interés de los están vinculados a determinadas técnicas y
investigadores debido a las limitaciones que modelos teóricos del análisis de datos[1].
ofrecen las centralizadas a las realidades En la figura 1 se representa el ciclo de la minería
organizacionales actuales. La data mining o de datos.
minería de datos es una de las
principales herramientas que se utilizan dentro de
los programas de gestión del conocimiento como
soporte a la toma de decisiones.

En la medicina, se puede identificar las relaciones


que existen entre los suministros de un
medicamento sobre otro medicamento, en la
tecnología, es utilizado para dar prioridad en la
velocidad de entrenamiento de los datos que han
sido recogidos por el gran volumen de datos que
invaden las redes móviles, en ciencias sociales, se
aplica minería de datos como un instrumento
Figura 1: Ciclo de minería de datos.
eficaz para soportar las mediciones de los
patrones socioeconómico. El objetivo
fundamental esa provechar el valor de la
información localizada y usar los patrones
preestablecidos para que los directivos tengan un
mejor conocimiento de su negocio y puedan tomar
decisiones más confiables.

1
Universidad de Guayaquil, Facultad de Ciencias Matemáticas y Física; Guayaquil, Ecuador, cesar.cunishpumal@ug.edu.ec
En este documento, se describen algunas de las En el campo de la tecnología, es utilizado para dar
aplicaciones que la minería de datos tiene como prioridad en la velocidad de entrenamiento de los
en la educación, para el agrupamiento de las datos que han sido recogidos por el gran volumen
páginas visitadas y las actividades que realizan los de datos que invaden las redes móviles, gracias a
estudiantes en sus cursos [2]. los algoritmos de la técnica del clasificador
integrado esto es posible usarlo partiendo del
Aplicaciones de la minería de datos en concepto de la clasificación Bayesiana logra al
diferentes ciencias mismo tiempo clasificar los datos y entrenarlos. A
En la educación, mediante el uso del algoritmo de partir de conceptos estadísticos se puede usar el
clustering, para agrupar las páginas por su muestreo aleatorio simple, muestreo
contenido, acceso, tipo, obteniendo un sistema de estratificado, y muestreo poblacional (similar al
personalización, recomendadores, de muestreo estratificado, pero, inicia a sub dividir
modificación, de irregularidades, regularidades, según la secuencia de los datos) [7].
de los contenidos, descubrimiento de relaciones En las ciencias sociales, se aplica minería de datos
entre actividades, clasificaciones y diagnóstico como un instrumento eficaz para soportar las
incremental de estudiantes, con lo que la mediciones de los patrones socioeconómico que
universidad tiene un perfil de ellos, para hacer una permite evaluar al mismo tiempo muchas
construcción adaptativa de los planes de preguntas, probar varias hipótesis o poder
enseñanza según las capacidades de los comparar diferentes puntos de estimación, de
estudiantes, ofreciéndoles a estos diferentes políticas gubernamentales, el comportamiento de
materiales o ayudas didácticas, permitiéndole a la los indicadores sociales alcanzados en las
universidad planificar de acuerdo la necesidad de escuelas, estados o países. Dando un tratamiento
los estudiantes de tener a su disposición los adecuado a cada grupo de la población para lograr
medios educativos [3]. En publicaciones previas el desarrollo de la comunidad o de la sociedad.
han demostrado que la minería de datos se puede Utilizando el algoritmo de la regresión logística a
utilizar para detectar alumnos en riesgo de cada nodo se le da la clase del nodo vecino con lo
deserción. [4] aplicó de manera exitosa técnicas que se logra caracterizar al nodo, empleando
de minería de datos para pronosticar qué grupos etiquetas independientes y dependientes para
de estudiantes podrían dejar a un lado sus determinar la probabilidad de cada clase [8].
estudios. En un trabajo relacionado, el autor Lin
[5] utilizó técnicas de minería de datos para En la multimedia, se utiliza para la recuperación
minimizar los esfuerzos para retener estudiantes. de información que se hace por contenidos, a
Para ello se generaron modelos predictivos través de la igualdad de objetos, en una función
basados en datos de los estudiantes, que distante, elaborada por la agrupacion de puntos en
permitieron detectar con gran precisión aquellos un espacio vectorial lográndose la caracterización
alumnos que debían recibir ayuda de los sistemas de interés en unos valores numéricos de los
de retención de alumnos. objetos. Esto funciona por medio de soluciones
algorítmicas que diseñan e implementan nuevas
En la medicina, se puede identificar las relaciones estructuras de datos que incluyen, la creación y
que existen entre los suministros de un recorrido de índices [9].
medicamento sobre otro medicamento,
centrándose en lo que podría ocasionar: En el sector agropecuario, aplicamos la minería de
metabolismo, reacción de un fármaco sobre otro. datos haciendo reconocimiento de patrones,
Empleando el algoritmo de reglas lógicas, producto de las tecnologías ya usadas como la red
almacenando las sentencias de información de sensores, los sistemas de ubicaciones
sintáctica y semántica en una base de datos, para geográficas, procesamiento de imágenes híper
posteriormente, mediante el uso de instrucciones espectral que producen los archivos de los datos
de SQL, encontrar las relaciones de los fármacos de malezas, plagas, mercadeo y de producción que
[6]. ayuden asegurar la sostenibilidad alimenticia del
mundo, asi también los ingresos monetarios de sus  Comercio y banca: Segmentación de
agricultores. Para lo que se necesita estabilizar el clientes, previsión de ventas, análisis de
acceso a los datos desde una variedad de riesgo.
dispositivos móviles, para que su acceso tenga la  Medicina y Farmacia: Diagnóstico de
accesibilidad en el sitio de cultivo. El uso de enfermedades y la efectividad de los
algoritmos de inteligencia artificial, permite el tratamientos.
reconocimiento de patrones con los que se ha  Seguridad y detección de fraude:
originado al máximo aprovechamiento de la Reconocimiento facial, identificaciones
tierra, el manejo sostenible de los recursos del biométricas, accesos a redes no
agua y la ejecución de políticas para la permitidos.
explotación de cultivos [10].  Recuperación de información no
numérica: Minería de texto, minería
En el comercio y sector financiero, con el uso de
web, búsqueda e identificación de
la minería de datos aplicamos el algoritmo del
imagen, video, voz y texto de bases de
método de análisis discriminante lineal se puede
datos multimedia. • Astronomía:
crear dos grupos de variables. Con lo anterior se
identificación de nuevas estrellas y
evalúa el comportamiento de los clientes en una
galaxias.
empresa o sector financiero, determinando según
criterios, si son buenos o malos clientes y sus  Geología, minería, agricultura y pesca:
preferencias de compras, de acuerdo a los identificación de áreas de uso para
registros de información de ellos [11]. distintos cultivos o de pesca o de
explotación minera en bases de datos de
Con todo lo mencionado anteriormente se puede imágenes de satélites.
verificar que la minería de datos ha sido aplicada  Ciencias Ambientales: Identificación de
en distintos campos de la ciencia del modelos de funcionamiento de
conocimiento como la educación, multimedia, ecosistemas naturales y/o artificiales
comercio y sector financiero, medicina, (plantas depuradoras de aguas
actividades agropecuarias, ciencias sociales, residuales) para mejorar su observación,
tecnología y aún más importante en la medicina. gestión y/o control.
 Ciencias Sociales: Estudio de los flujos
Minería de datos distribuida
de la opinión pública. Planificación de
Al igual que en el concepto anterior de minería de ciudades: identificar barrios con
datos se hacen uso de las mismas técnicas para la conflicto en función de valores
identificación de relaciones, patrones, sociodemográficos.
asociaciones, segmentos, clasificaciones y
Minería de datos aplicadas en estadística
tendencias, a diferencia de lo anterior esto se
aplica para entornos distribuidos. Una de las alternativas en el tratamiento
estadístico de este tipo de estudio forma parte de
La Minería de datos distribuida es el proceso de
la Minería de Datos Textuales (Text mining), cuya
descubrimiento de conocimiento en arquitecturas
finalidad radica en descubrir conocimientos que
de datos que son totalmente diferentes al enfoque
no existían de manera implícita en un conjunto de
centralizado. Esto comprende las fuentes de datos
textos, sino que se generan al relacionar el
distribuidas, el cómputo distribuido y las
contenido de algunos de ellos [13].
comunicaciones [1].
Los autores que han realizado las mayores
Existen numerosas áreas donde la minería de
contribuciones de la estadística aplicada en la
datos se puede aplicar, prácticamente en todas las
minería de datos textuales llaman a esta
actividades humanas que generen datos [12]:
alternativa de diferentes formas:
 Análisis Estadístico de Datos Textuales
[14].
 Lexicometría, Estadística textual [15].
 Análisis estadístico de textos [16].

Métodos y técnicas de la minería de datos


educativa

Los clasificadores, agrupamiento y reglas de


asociación son componentes de software
fundamentales para la operación de la EDM, estos
permiten identificar la información oculta para los Figura 2: Proceso Minería de Datos [21].
diferentes actores dentro de las instituciones
educativas. En esta sección se presenta una
descripción general de los principales métodos y CONCLUSIONES
técnicas que son utilizados en la EDM, se
describirá tanto el análisis, su construcción y el En conclusión, la minería de datos es un área de
método para la generación de un modelo disciplinas múltiples en la cual existen distintos
predictivo [17]. Entre los métodos que se puede paradigmas de computación como son el
aplicar en esta temática son: desarrollo o construcción de algoritmos para la
resolución de problemas.
 Clasificadores para minería de datos
educativa. La minería de datos es aplicable para cualquier
otra ciencia del conocimiento, además de la
 Clustering para la minería de datos
medicina, computación, economía, multimedia,
educativa.
ciencias sociales, sector agropecuario, etc.
La minería de datos es un proceso que tiene como
La creación de un modelo de minería de datos es
propósito descubrir, extraer y almacenar
un proceso iterativo y dinámico, una vez que se ha
información relevante de amplias bases de datos,
revisado los datos, puede ser que no resultan
a través de programas de búsqueda e
suficientes para crear los modelos de minería de
identificación de patrones y relaciones globales,
datos específicos y que, por tanto, debe recopilar
tendencias, desviaciones y otros indicadores
más datos. Sin embargo, queda aún mucho por
aparentemente caóticos que tienen una
conocer acerca de este tema y en un futuro con el
explicación que pueden descubrirse mediante
gracias al avance tecnológico se podrá entender de
diversas técnicas de esta herramienta [18].
mejor manera.
El objetivo fundamental esa provechar el valor de
Este artículo ha facilitado una introducción al
la información localizada y usar los patrones
descubrimiento de conocimiento y a la minería de
preestablecidos para que los directivos tengan un
datos y se han elaborado las principales
mejor conocimiento de su negocio y puedan tomar
aplicaciones que la minería de datos proporciona
decisiones más confiables [19][20].
en otras ciencias del conocimiento.
En la figura 2 se puede visualizar a cada uno de
los pasos del proceso, el cual es cíclico, lo que
significa que la creación de un modelo de DM es AGRADECIMIENTO
un proceso dinámico e iterativo [21].
Cesar Cuñishpuma, estudiante universitario,
agradece primeramente a Dios por darme la
oportunidad de seguir adquiriendo conocimientos
y segundo a mis padres por apoyarme siempre en
esta etapa universitaria, agradecer a la Carrera de
Ingeniería en Sistemas Computacionales de la networks: An empirical study,” Adv. Soc.
Universidad de Guayaquil por impartir sus Netw. Min., 2010.
conocimientos y sus debidos recursos dándose la
[9] J. Fernández, G. G. Costa, and V.
oportunidad de elaborar un artículo, también
Ludueña, “Indexación y recuperación de
agradecer de manera gentil al Ing. Gary Reyes ya información multimedia,” XIII Work.,
que bajo su tutoría se ha podido realizar este 2011.
trabajo además de brindarnos su tiempo y
dedicación para que esto saliera de manera [10] C. Bauckhage and K. Kersting, “Data
exitosa. mining and pattern recognition in
agriculture,” KI-Künstliche Intelligenz,
2013.

REFERENCIAS [11] J. Mylonakis and G. Diacogiannis,


“Evaluating the likelihood of using linear
F. Hurtado Leguia, «Minería de datos: discriminant analysis as a commercial
Segmentación de clientes usando el algoritmo de bank card owners credit scoring model,”
clustering K-Mean,» 2005. Int. Bus. Res., 2010.

[1] Z. M. Rodríguez, “Aplicación de la [12] J. C. Riquelme, R. Ruiz, and K. Gilbert,


minería de datos distribuida usando “ARTÍCULO Minería de Datos:
algoritmo de clustering k-means para Conceptos y Tendencias,” Intel. Artif.
mejorar la calidad de servicios de las Rev. Iberoam. Intel. Artif. No, vol. 29,
organizaciones modernas caso:,” 2015. pp. 11–18, 2006.

[2] A. Peña-Ayala, “Educational data [13] M. Martı́n-Bautista and D. Sánchez,


mining: A survey and a data mining- “Mining web documents to find
based analysis of recent works,” Expert additional query terms using fuzzy
Syst. Appl., 2014. association rules,” Fuzzy Sets, 2004.

[3] F. Rojas and C. Santamaría, [14] M. Bécue, L. Lebart, and N. Rajadell,


“Funcionalidades de la minería de datos “El analisis estadistico de datos
Features of data mining,” 2015. textuales. La lectura según 10s escolares
de enseñanza primaria,” Anu. Psicol.,
[4] J. Luan, “Data mining and its 1992.
applications in higher education,” New
Dir. institutional Res., 2002. [15] L. Lebart and A. Salem, “Statistique
textuelle,” Paris: Dunod,| c1994, 1994.
[5] S. Lin, “Data mining for student
retention management,” J. Comput. Sci. [16] L. Lebart, A. Salem, and M. Bécue-
Coll., 2012. Bertaut, “Análisis estadístico de textos,”
2000.
[6] L. Tari, S. Anwar, S. Liang, J. Cai, and
C. Baral, “Discovering drug–drug [17] A. B. Román and D. Sánchez-Guzmán,
interactions: a text-mining and reasoning “Minería de datos educativa: Una
approach based on properties of drug herramienta para la investigación de
metabolism,” Bioinformatics, 2010. patroness de aprendizaje sobre un
contexto educativo.,” Latin-American J.,
[7] G. JianPing, “The research on model of 2013.
group behavior based on mobile network
mining and high-speed data streams,” [18] U. Fayyad, G. Piatetsky-Shapiro, and P.
Emerg. Comput. Inf. Technol., 2012. Smyth, “Advances in knowledge
discovery and data mining,” 1996.
[8] B. Gallagher and T. Eliassi-Rad,
“Leveraging label-independent features [19] H. Gill and P. Rao, “The Official
for classification in sparsely labeled Client/Server Computing Guide to Data
Warehousing: The How-To Guide for integración de datos académicos y
Implementing Your Own Data socioeconómicos,” Campus, 2016.
Warehouse,” 1996.
[21] Microsoft, “Conceptos de minería de
[20] D. Martínez, M. Karanik, and M. datos,” 2016. [Online]. Available:
Giovannini, “Descubrimiento de perfiles https://msdn.microsoft.com/es-
de rendimiento estudiantil: un modelo de ES/library/ms174949(v=sql.120).aspx.

S-ar putea să vă placă și