Documente Academic
Documente Profesional
Documente Cultură
1. INTRODUCCIN
En la actualidad, nuestra sociedad es considerada la
sociedad de la informacin, donde las tecnologas que
ayudan a la creacin, distribucin y manipulacin de
informacin, facilitan las actividades sociales,
culturales y econmicas.
Alrededor del ao 1999 se inici un cambio en las
sociedades en cuanto a la manera de generar la
riqueza, que se fue trasladando de los sectores
industriales a los sectores de servicios. La mayor
parte de los empleos estarn asociados a la
generacin, almacenamiento y procesamiento de todo
tipo de informacin. Los sectores relacionados con
las tecnologas de la informacin y la comunicacin
(TIC) desempean un papel particularmente
importante dentro de esta sociedad.
Algunos sistemas que son slo parcialmente
conocidos, producen una cantidad inmensa de datos,
datos que con frecuencia contienen informacin
valiosa que puede resultar muy til a ejecutivos de
una empresa, a la hora de la toma de decisiones y de
resolver problemas de negocio como:
2. DEFINICIN
La minera de datos se encarga de preparar, sondear y
explorar los datos para sacar la informacin oculta y
til en ellos. Si los datos son ledos y analizados,
pueden proporcionar, en conjunto, un verdadero
conocimiento (futuras tendencias y comportamientos)
que ayude en la toma de decisiones, ya que para el
responsable de un sistema, los datos en s no son lo
ms relevante, sino la informacin que se encierra en
sus relaciones, fluctuaciones y dependencias.
-
3. TAREAS DE MINERA DE
DATOS
La principal fase del proceso de la minera de datos
es el descubrimiento de reglas, las cuales mostrarn
nuevas relaciones entre las variables o excepciones
segn el negocio que utilice este proceso. Puede
ocurrir que algunas de las reglas descubiertas no
puedan ser cambiadas, pero si modificadas para
mejorar su desempeo.
Una vez descubiertas reglas importantes, pueden ser
utilizadas para estimar algunas variables de salida. En
esta tcnica se complementan las tcnicas estadsticas
tradicionales con aquellas provenientes de la
inteligencia artificial.
Tareas descriptivas:
Orientadas a describir un conjunto de datos.
Clasificacin:
-Anlisis de desviaciones:
Busca datos distintos, raros, diferentes en
comparacin con el resto de los datos
obtenidos.
Segmentacin (agrupacin):
4. CICLO DE UN PROYECTO DE
MINERA DE DATOS
Los pasos a seguir para la realizacin de un proyecto
de minera de datos son siempre los mismos,
independientemente de la tcnica especfica de
extraccin de conocimiento.
A la hora de implantar la tcnica de minera de datos
en un determinado proyecto, hay seguir el siguiente
ciclo:
Asociacin:
Tareas Predictivas:
1.
Orientadas a estimar valores de salida.
-Previsin:
A partir de la entrada, conjunto de valores
obtenidos a lo largo de un tiempo
determinado de los que se extrae un
comportamiento futuro. Para la estimacin
de variables cuantitativas, los mtodos ms
usados son:
-Funciones de base radial: Tienen la
capacidad de poder procesar variables
cualitativas y cuantitativas a la vez.
-Prediccin neuronal.
-Anlisis de secuencia:
Se encarga de la bsqueda de patrones en
una serie de eventos denominados
secuencias o transacciones, lo que permite
optimizar las ventas a lo largo del tiempo
2.
3.
- Redondeo
- Agrupacin
- Agregacin
4.
Modelado:
Creacin del modelo.
- Seleccin de variables: Despus de haber
sido preprocesados y realizar la limpieza de
datos, se sigue teniendo una cantidad
enorme de variables o atributos.
La seleccin de caractersticas reduce el
tamao de los datos, eligiendo las variables
ms influyentes del problema, sin apenas
sacrificar la calidad del modelo de
conocimiento obtenido del proceso de
minera.
Los mtodos para la seleccin de los
atributos que ms influencia tienen en el
problema son bsicamente dos:
5. TCNICAS
Como ya se ha comentado, las tcnicas de la minera
de datos provienen de la Inteligencia artificial y de la
estadstica, dichas tcnicas, no son ms que
algoritmos, ms o menos sofisticados que se aplican
sobre un conjunto de datos para obtener unos
resultados.
Segn el objetivo del anlisis de los datos, los
algoritmos utilizados se clasifican en:
- Extraccin de Conocimiento: La
extraccin del conocimiento es la esencia
de la Minera de Datos donde mediante una
tcnica, se obtiene un modelo de
conocimiento, que representa patrones de
comportamiento observados en los valores
de las variables del problema o relaciones
de asociacin entre dichas variables. Los
modelos que se generan son expresados de
diversas formas:
Evaluacin:
Evaluacin de la integridad del modelo en
el negocio.
Una vez obtenido el modelo, se procede a
su validacin; comprobando que las
conclusiones obtenidas son vlidas y
Supervisados (o predictivos):
Predicen un dato (o un conjunto de
ellos) desconocido a priori, a partir de
otros conocidos.
No
supervisados
(o
del
descubrimiento del conocimiento):
Se descubren patrones y tendencias en
los datos.
5.
Forecasting (Prediccin) :
Dada una tendencia de los datos se
busca cul ser su previsin.
- Reglas
- rboles
- Redes neuronales
Tambin pueden usarse varias tcnicas a la
vez para generar distintos modelos, aunque
generalmente cada tcnica obliga a un preprocesado diferente de los datos.
Normalmente
se
suele
seguir
el
procedimiento de prueba y error.
Implantacin:
Redes neuronales:
Son un paradigma de aprendizaje y
procesamiento automtico inspirado en la
forma en que funciona el sistema nervioso
de los animales, es decir, un sistema de
interconexin de neuronas en una red que
colabora para producir un estmulo de
salida.
-El Perceptrn.
1.
2.
3.
Modelos estadsticos:
Agrupamiento o Clustering :
Consiste en un procedimiento de
agrupacin de una serie de vectores segn
criterios habitualmente de distancia; se
tratar de disponer los vectores de entrada
de forma que estn ms cercanos aquellos
que tengan caractersticas comunes.
Capa de entrada
Capa(s) oculta(s)
Capa de salida
rboles de decisin:
Ejemplos:
-Algoritmo K-medoids.
Algoritmos genticos :
Los Algoritmos Genticos, ni inductivos ni
deductivos, en general, los mtodos
basados en la evolucin nos suministran
nuevas maneras de trabajar con cierto tipo
de problemas. Estos se inspiran en las leyes
sobre la evolucin de Darwin y en los
conceptos bsicos de la biologa gentica.
No es necesario conocer el comportamiento
interno del sistema con el que se va a
6. APLICACIONES
Gentica:
En este apartado se
describirn diferentes
aplicaciones de la minera de datos que facilitan los
problemas de negocio y la toma de decisiones:
Deteccin de fraudes:
Deteccin de transacciones de blanqueo de dinero o
de fraude en el uso de tarjetas de crdito o de
servicios de telefona mvil, donde estas operaciones
fraudulentas o ilegales suelen seguir patrones
caractersticos que permiten, con cierto grado de
probabilidad, distinguirlas de las legtimas y
desarrollar as mecanismos para tomar medidas
rpidas frente a ellas. Por todo ello, el algoritmo,
puede ser considerado como una tcnica de
clasificacin, que analiza una gran cantidad de
transacciones, tratando de categorizar aquellas que
sean ilegtimas mediante la identificacin de ciertas
caractersticas que estas ltimas tengan en comn.
Recursos humanos:
La minera de datos tambin puede ser de gran
utilidad en los departamentos de recursos humanos de
cualquier empresa, en la identificacin de las
caractersticas y capacidades de sus mejores
empleados.
La informacin obtenida mediante estas tcnicas
puede ayudar al personal de recursos humanos a la
hora de la contratacin de personal, centrndose en
los esfuerzos de sus empleados y los resultados
obtenidos por stos. Adems dicha ayuda ofrecida
Previsiones de fuga:
En muchas industrias (banca, telecomunicaciones,)
existe un inters comprensible en detectar e
identificar cuanto antes a aquellos clientes que
puedan estar pensando en rescindir sus contratos,
para muy probablemente pasarse a la competencia.
Con la ayuda de la minera de datos identificaramos
qu clientes son los ms proclives a darse de baja
estudiando sus patrones de comportamiento y
comparndolos con clientes que ya han rescindido su
contrato con la empresa, de esta forma se podra
actuar realizando ofertas personalizadas y ofreciendo
promociones con el objetivo de retener a dichos
clientes.
Deteccin de hbitos de compra en supermercados
Un ejemplo clsico de aplicacin de minera de datos,
es la deteccin de hbitos de los clientes, a la hora de
comprar en los supermercados. Un estudio muy
conocido detect que los viernes se compraban una
cantidad inusual de paales y cerveza, debido
principalmente a que los viernes solan acudir a
comparar padres jvenes cuya perspectiva para el fin
de semana era quedarse en casa cuidando de los nios
y viendo la televisin tomndose una cerveza. Con
este tipo de informacin, muy valiosa para el
supermercado, se pudieron poner en prctica tcticas
para incrementar por ejemplo la ventas de las
cervezas colocndolas cercanas a los paales y as
fomentar las ventas compulsivas. O para, una vez que
adquieren un determinado producto, saber
inmediatamente qu otro ofrecerle teniendo en
cuntala informacin histrica disponible acerca de
los clientes que han comprado primero.
Bioinformtica
La bioinformtica se encuentra en la interseccin
entre las ciencias de la vida y de la informacin,
proporciona las herramientas y recursos necesarios
para favorecer la investigacin biomdica. Como
campo interdisciplinario, comprende la investigacin
y el desarrollo de sistemas tiles para entender el
flujo de informacin desde los genes a las estructuras
moleculares, su funcin bioqumica, su conducta
biolgica y, finalmente, su influencia en las
enfermedades y en la salud.
Los principales estmulos para su desarrollo son:
El descubrimiento de conocimiento
La extraccin de informacin
5. CONCLUSIONES
Generalmente, el conocimiento se ha venido
obteniendo por el clsico mtodo hipotticodeductivo de la ciencia. En l es fundamental el paso
inductivo inicial: a partir de un conjunto de
observaciones y de unos conocimientos previos, la
intuicin conduce a formular la hiptesis.
Las tcnicas de anlisis estadstico, permiten obtener
ciertas informaciones tiles, pero no inducir
relaciones cualitativas generales, o leyes, previamente
desconocidas; para esto se requieren otras tcnicas de
anlisis inteligente que estn enfocadas a la induccin
de conocimiento en bases de datos: la Minera de
Datos (data mining), que pone al alcance del
individuo lo que necesita en el momento preciso para
que su actividad se haga efectiva.
Tradicionalmente, las tcnicas de minera de datos se
aplicaban sobre informacin contenida en almacenes
de datos. De hecho, muchas grandes empresas e
instituciones han creado bases de datos especialmente
diseadas para proyectos de minera de datos en las
que centralizan informacin potencialmente til de
todas sus reas de negocio. No obstante, actualmente
est cobrando una importancia cada vez mayor la
minera de datos desestructurados como informacin
6. REFERENCIAS
[1] "INTRODUCCIN A LA MINERA DE
DATOS"
Jos Hernndez Orallo, M.Jos Ramrez Quintana,
Csar Ferri Ramrez.
Editorial Pearson, 2004. ISBN: 84 205 4091
[2] Artculo: Data mining: torturando a los datos
hasta que confiesen.
Luis Carlos Molina Felix.
Universitat Politcnica de Catalunya.
[3] Artculo: Web Mining: Fundamentos Bsicos
Francisco Manuel De Gyves Camacho
Doctorado en informtica y automtica
Universidad de Salamanca