Sunteți pe pagina 1din 8

MINERA DE DATOS

Yolanda Belinchn Monjas


Ingeniera de Telecomunicacin
Universidad Carlos III de Madrid
Madrid, Espaa
100060624@alumnos.uc3m.es

1. INTRODUCCIN
En la actualidad, nuestra sociedad es considerada la
sociedad de la informacin, donde las tecnologas que
ayudan a la creacin, distribucin y manipulacin de
informacin, facilitan las actividades sociales,
culturales y econmicas.
Alrededor del ao 1999 se inici un cambio en las
sociedades en cuanto a la manera de generar la
riqueza, que se fue trasladando de los sectores
industriales a los sectores de servicios. La mayor
parte de los empleos estarn asociados a la
generacin, almacenamiento y procesamiento de todo
tipo de informacin. Los sectores relacionados con
las tecnologas de la informacin y la comunicacin
(TIC) desempean un papel particularmente
importante dentro de esta sociedad.
Algunos sistemas que son slo parcialmente
conocidos, producen una cantidad inmensa de datos,
datos que con frecuencia contienen informacin
valiosa que puede resultar muy til a ejecutivos de
una empresa, a la hora de la toma de decisiones y de
resolver problemas de negocio como:

humano su anlisis y la extraccin de alguna


informacin importante. An con el uso de
herramientas estadsticas clsicas esta tarea es casi
imposible.
El descubrimiento de conocimiento en base de datos
(KDD), que se esplli9car con mayor exactitud en el
siguiente punto, combina las tcnicas tradicionales
con numerosos recursos desarrollados en el rea de la
inteligencia artificial.
En estos casos habr una parte del sistema que es
conocida y habr una parte aparentemente de
naturaleza aleatoria. Bajo ciertas circunstancias, a
partir de una gran cantidad de datos asociada con el
sistema, existe la posibilidad de encontrar nuevos
aspectos previamente desconocidos del modelo.
Por todo ello, en sistemas donde una parte es
conocida y otra de naturaleza aleatoria con el fin de
extraer conocimiento
til y comprensible,
previamente desconocido, de grandes cantidades de
datos almacenados en distintos formatos, aparece lo
que conocemos como la Minera de Datos (DM, Data
Mining).

2. DEFINICIN
La minera de datos se encarga de preparar, sondear y
explorar los datos para sacar la informacin oculta y
til en ellos. Si los datos son ledos y analizados,
pueden proporcionar, en conjunto, un verdadero
conocimiento (futuras tendencias y comportamientos)
que ayude en la toma de decisiones, ya que para el
responsable de un sistema, los datos en s no son lo
ms relevante, sino la informacin que se encierra en
sus relaciones, fluctuaciones y dependencias.
-

Generacin de recomendaciones (Qu


servicios se deberan ofrecer a los clientes?)
Deteccin de anomalas (fraudes)
Gestin de riesgos
Segmentacin de clientes
Personalizacin de la publicidad
Previsin

Las dimensiones de las bases de datos grandes y sus


velocidades de crecimiento, hacen muy difcil al ser

Se conoce como minera de datos a todo un conjunto


de tcnicas encargas de la extraccin de conocimiento
procesable, implcito en las bases de datos (ayuda a
comprender su contenido). Est fuertemente ligada
con la supervisin de procesos industriales, pues
resulta muy til para aprovechar los datos
almacenados en las bases de datos.
Las bases de la minera de datos se encuentran en la
inteligencia artificial, el anlisis estadstico, la
Computacin Grfica, las Bases de Datos y el
Procesamiento Masivo. Mediante la utilizacin de

tcnicas de minera de datos se puede dar solucin a


problemas
de
prediccin,
clasificacin
y
segmentacin.

Como puede observarse la minera de datos es una de


las fases del proceso de KDD, como ya se ha
comentado.

Los datos son la materia prima bruta y en el momento


en el que el ser humano les atribuye un significado
pasan a convertirse en informacin y cuando se
encuentra un modelo que interpretando la
informacin represente un valor agregado, se
denomina conocimiento. En la siguiente figura se
muestra la jerarqua que sigue una base de datos,
entre datos y conocimiento:

Algunas de las tareas ms frecuentes en procesos de


KDD son la clasificacin y clustering, el
reconocimiento de patrones, las predicciones y la
deteccin de dependencias o relaciones entre los
datos.

3. TAREAS DE MINERA DE
DATOS
La principal fase del proceso de la minera de datos
es el descubrimiento de reglas, las cuales mostrarn
nuevas relaciones entre las variables o excepciones
segn el negocio que utilice este proceso. Puede
ocurrir que algunas de las reglas descubiertas no
puedan ser cambiadas, pero si modificadas para
mejorar su desempeo.
Una vez descubiertas reglas importantes, pueden ser
utilizadas para estimar algunas variables de salida. En
esta tcnica se complementan las tcnicas estadsticas
tradicionales con aquellas provenientes de la
inteligencia artificial.

Como podemos observar a medida que subimos de


nivel el volumen de datos disminuye, puesto que
cuanto ms alto estemos en la pirmide,
necesitaremos informacin ms especfica y
procesada. El data mining trabaja en los niveles
superiores buscando patrones, comportamientos,
secuencias, tendencias o asociaciones que puedan
generar algn modelo que nos permita comprender
mejor el negocio, a travs de una combinacin de
tareas como: Extraccin de datos, limpieza de datos,
seleccin de caractersticas, anlisis de resultados,...
El trmino data mining se considera una etapa dentro
de un proceso mayor llamado extraccin o
descubrimiento de conocimiento en bases de datos
(Knowledge Discovery in Databases o KDD).
Aunque algunos autores usan los trminos Minera de
Datos y KDD indistintamente, como sinnimos,
existen claras diferencias entre los dos. KDD como se
ha comentado es un proceso que consta de un
conjunto de fases, una de las cuales es la minera de
datos, por lo tanto se denomina KDD al proceso
completo que incluye pre-procesamiento, minera y
post-procesamiento de los datos.
La siguiente figura muestra las fases del proceso de
KDD:

Conceptos adaptativos como los algoritmos


genticos y las redes neuronales, permiten realizar
predicciones ms acertadas, especialmente en casos
de gran complejidad.

Entre las principales tareas de la minera de datos se


encuentran:
1.

Tareas descriptivas:
Orientadas a describir un conjunto de datos.

Clasificacin:

Se asigna una categora a cada caso. Cada


caso tiene un conjunto de atributos, donde
uno de ellos es el atributo clase.
Se busca un modelo que describa el atributo
clase como una funcin de los atributos de

salida. Existen principalmente dos tipos de


clasificacin:

-Anlisis de desviaciones:
Busca datos distintos, raros, diferentes en
comparacin con el resto de los datos
obtenidos.

- Clasificacin basada en rboles de


decisin.
- Clasificacin neuronal.
-

Segmentacin (agrupacin):

Esta tarea tambin es conocida como


segmentacin, y se encarga de identificar
grupos naturales basndose en un conjunto
de atributos. Existen diversas tcnicas:
-Clustering: El nmero de segmentos se
determina durante la ejecucin del
algoritmo. Procesa bien tanto las variables
cualitativas como las cuantitativas.
-Segmentacin neuronal: Es necesario
definir antes de la ejecucin del algoritmo
el nmero de segmentos y su distribucin
bidimensional. Procesa mejor las variables
cuantitativas que las cualitativas
-

-Anlisis de similitud en series


temporales:
Detecta todas las ocurrencias de secuencias
similares en una coleccin de series
temporales.

4. CICLO DE UN PROYECTO DE
MINERA DE DATOS
Los pasos a seguir para la realizacin de un proyecto
de minera de datos son siempre los mismos,
independientemente de la tcnica especfica de
extraccin de conocimiento.
A la hora de implantar la tcnica de minera de datos
en un determinado proyecto, hay seguir el siguiente
ciclo:

Asociacin:

Organizar segn relaciones entre atributos


(Anlisis de la cesta de la compra).
Expresa las afinidades entre elementos
siguiendo el modelo de las reglas de
asociacin XY, facilitando una serie de
mtricas como el soporte y confianza.
-Regresin:
Tarea muy similar a la de clasificacin pero
con el objetivo de buscar patrones para
determinar su valor nico.
2.

Tareas Predictivas:
1.
Orientadas a estimar valores de salida.

Formulacin del problema de negocio (uno


de los ya antes mencionados: previsin,
gestin de riesgos, segmentacin de
clientes,).

-Previsin:
A partir de la entrada, conjunto de valores
obtenidos a lo largo de un tiempo
determinado de los que se extrae un
comportamiento futuro. Para la estimacin
de variables cuantitativas, los mtodos ms
usados son:
-Funciones de base radial: Tienen la
capacidad de poder procesar variables
cualitativas y cuantitativas a la vez.
-Prediccin neuronal.
-Anlisis de secuencia:
Se encarga de la bsqueda de patrones en
una serie de eventos denominados
secuencias o transacciones, lo que permite
optimizar las ventas a lo largo del tiempo

Entendimiento del negocio:

2.

Entendimiento de los datos:


Recoleccin de datos.

3.

Preparacin de los datos:


- Transformacin de datos: Generalmente,
el formato de los datos contenidos en las
fuentes de datos no es el idneo, y la
mayora de las veces no es posible aplicar
algn algoritmo de minera sobre los datos
iniciales sin que requieran algn cambio
(Por ejemplo, transformaciones numricas).
- Limpieza o filtrado de datos: En esta fase
se filtran los datos con el objetivo de
eliminar valores errneos o desconocidos,
segn las necesidades y el algoritmo a
utilizar.
- Preprocesado: Se analizan las propiedades
de los datos, en especial los histogramas,

diagramas de dispersin, presencia de


valores atpicos y ausencia de datos (valores
nulos) y se obtienen muestras de los datos
en busca de mayor velocidad y eficiencia de
los algoritmos o se reduce el nmero de
valores posibles, mediante tareas como:

satisfactorias. En el caso de haber obtenido


varios modelos mediante el uso de distintas
tcnicas, se deben comparar los modelos
para buscar el que mejor se ajuste al
problema.
Si ninguno de los modelos alcanza los
resultados esperados, debe modificarse
alguna de las fases anteriores para generar
nuevos modelos. Esta retroalimentacin se
podr repetir cuantas veces se considere
necesario hasta obtener un modelo vlido.

- Redondeo
- Agrupacin
- Agregacin
4.

Modelado:
Creacin del modelo.
- Seleccin de variables: Despus de haber
sido preprocesados y realizar la limpieza de
datos, se sigue teniendo una cantidad
enorme de variables o atributos.
La seleccin de caractersticas reduce el
tamao de los datos, eligiendo las variables
ms influyentes del problema, sin apenas
sacrificar la calidad del modelo de
conocimiento obtenido del proceso de
minera.
Los mtodos para la seleccin de los
atributos que ms influencia tienen en el
problema son bsicamente dos:

Aquellos basados en la eleccin de los


mejores atributos del problema.

Aquellos que buscan variables


independientes mediante test de
sensibilidad, algoritmos de distancia o
heursticos.

Una vez validado el modelo, si resulta ser


aceptable (proporciona salidas adecuadas
y/o con mrgenes de error admisibles) ste
ya est listo para su explotacin e
implantacin.
6.

Integracin en aplicaciones para solucionar


el problema de negocio expuesto.

5. TCNICAS
Como ya se ha comentado, las tcnicas de la minera
de datos provienen de la Inteligencia artificial y de la
estadstica, dichas tcnicas, no son ms que
algoritmos, ms o menos sofisticados que se aplican
sobre un conjunto de datos para obtener unos
resultados.
Segn el objetivo del anlisis de los datos, los
algoritmos utilizados se clasifican en:

- Extraccin de Conocimiento: La
extraccin del conocimiento es la esencia
de la Minera de Datos donde mediante una
tcnica, se obtiene un modelo de
conocimiento, que representa patrones de
comportamiento observados en los valores
de las variables del problema o relaciones
de asociacin entre dichas variables. Los
modelos que se generan son expresados de
diversas formas:

Evaluacin:
Evaluacin de la integridad del modelo en
el negocio.
Una vez obtenido el modelo, se procede a
su validacin; comprobando que las
conclusiones obtenidas son vlidas y

Supervisados (o predictivos):
Predicen un dato (o un conjunto de
ellos) desconocido a priori, a partir de
otros conocidos.

No
supervisados
(o
del
descubrimiento del conocimiento):
Se descubren patrones y tendencias en
los datos.

Las tcnicas ms representativas son:

5.

Forecasting (Prediccin) :
Dada una tendencia de los datos se
busca cul ser su previsin.

- Reglas
- rboles
- Redes neuronales
Tambin pueden usarse varias tcnicas a la
vez para generar distintos modelos, aunque
generalmente cada tcnica obliga a un preprocesado diferente de los datos.
Normalmente
se
suele
seguir
el
procedimiento de prueba y error.

Implantacin:

Redes neuronales:
Son un paradigma de aprendizaje y
procesamiento automtico inspirado en la
forma en que funciona el sistema nervioso
de los animales, es decir, un sistema de
interconexin de neuronas en una red que
colabora para producir un estmulo de
salida.

Esta tecnologa puede ser desarrollada tanto


en software como en hardware y con ella se
pueden construir sistemas capaces de
aprender, de adaptarse a condiciones
variantes, o inclusive si se dispone de una
coleccin suficiente grande de datos,
predecir el estado futuro de algunos
modelos. Estas tcnicas son adecuadas para
enfrentar problemas que hasta ahora eran
resueltos slo por el cerebro humano y
resultaban difciles o imposibles para las
mquinas
lgicas
secuenciales.
Un
procesamiento paralelo realizado por un
gran nmero de elementos altamente
interconectados, es la clave de su
funcionamiento.
Algunos ejemplos de red neuronal son:

presentados, las ramas representan valores


de dichos atributos y los nodos finales son
los valores de la clase.
Para elegir qu atributos y en qu orden
aparecen en el rbol, se utiliza una funcin
de evaluacin: ganancia de informacin.
Ejemplos:
-Algoritmo ID3 (Inicialmente slo datos
nominales).
-Algoritmo C4.5 (Funciona con datos
numricos).

-El Perceptrn.

Es una expresin simblica en forma de


igualdad o ecuacin que se emplea en todos
los diseos experimentales y en la regresin
para indicar los diferentes factores que
modifican la variable de respuesta.

-El Perceptrn multicapa:

Este tipo de red neuronal se organiza


generalmente en capas, como puede
observarse en la siguiente figura:

Se trata de un algoritmo no supervisado,


cuyo objetivo es detectar agrupamientos o
estructuras intrnsecas en el conjunto de
datos, identificando grupos homogneos de
individuos parecidos.

-Los Mapas Auto-organizados, tambin


conocidos como redes de Kohonen.

1.
2.
3.

Modelos estadsticos:

Agrupamiento o Clustering :

Consiste en un procedimiento de
agrupacin de una serie de vectores segn
criterios habitualmente de distancia; se
tratar de disponer los vectores de entrada
de forma que estn ms cercanos aquellos
que tengan caractersticas comunes.

Capa de entrada
Capa(s) oculta(s)
Capa de salida

rboles de decisin:

Ejemplos:

Algoritmo de aprendizaje por induccin


supervisada que pretende modelar los datos
de ejemplo mediante un rbol.

-Algoritmo K-means (Distancia Eucldea).

Un rbol de decisin se describe como un


modelo de prediccin utilizado en el mbito
de la inteligencia artificial, ya que dada una
base de datos se construyen diagramas de
construcciones lgicas, muy similares a los
sistemas de prediccin basados en reglas,
que sirven para representar y categorizar
una serie de condiciones que suceden de
forma sucesiva, para la resolucin de un
problema.
En este tipo de rbol, los nodos intermedios
son los atributos de entrada de los ejemplos

-Algoritmo K-medoids.

Algoritmos genticos :
Los Algoritmos Genticos, ni inductivos ni
deductivos, en general, los mtodos
basados en la evolucin nos suministran
nuevas maneras de trabajar con cierto tipo
de problemas. Estos se inspiran en las leyes
sobre la evolucin de Darwin y en los
conceptos bsicos de la biologa gentica.
No es necesario conocer el comportamiento
interno del sistema con el que se va a

trabajar. Sin embargo, se debe poseer el


conocimiento suficiente de las salidas del
sistema y sus efectos en el medio
circundante de manera que se puedan
evaluar las posibles soluciones.
El conjunto de reglas se considera como
una poblacin de pseudo-organismos, los
cuales al igual que los biolgicos, pueden:
-Cruzarse unos con otros (operadores de
cruce sexuales).
-Mutar aleatoriamente (operadores de
mutacin).
A partir de estos procedimientos se crean
nuevos individuos de la poblacin y se
produce la seleccin natural: slo
sobreviven los mejores individuos
(operadores de seleccin).
En este tipo de algoritmos existe una
funcin de evaluacin de la poblacin, de
tal forma que el proceso se congela si se
alcanza el objetivo y se llega a la solucin.

por la minera de dato (conocimiento), se traduce en


la obtencin de ventajas a nivel corporativo, como
mejoras en las decisiones corporativas: desarrollo de
planes de produccin o gestin de mano de obra
Terrorismo:
La minera de datos es la tcnica por la cual la unidad
de Able Danger del ejrcito de los EE.UU. haba
identificado al lder de la banda terrorista autora de
los atentados del 11 de septiembre de 2001,
Mohammed Atta, y a otros tres secuestradores, como
posibles miembros de una clula de Al Qaeda que
operaba en los EE.UU. un ao antes del ataque.
Juegos:
A comienzos de la dcada de 1960, se dispona de
orculos para determinados juegos combinacionales,
se ha abierto un nuevo camino en la minera de datos
que consiste en la extraccin de estrategias utilizadas
por personas para la implantacin en dichos orculos.
Los planteamientos actuales sobre reconocimiento de
patrones, no parecen poder aplicarse con xito al
funcionamiento de estos orculos.

6. APLICACIONES
Gentica:
En este apartado se
describirn diferentes
aplicaciones de la minera de datos que facilitan los
problemas de negocio y la toma de decisiones:
Deteccin de fraudes:
Deteccin de transacciones de blanqueo de dinero o
de fraude en el uso de tarjetas de crdito o de
servicios de telefona mvil, donde estas operaciones
fraudulentas o ilegales suelen seguir patrones
caractersticos que permiten, con cierto grado de
probabilidad, distinguirlas de las legtimas y
desarrollar as mecanismos para tomar medidas
rpidas frente a ellas. Por todo ello, el algoritmo,
puede ser considerado como una tcnica de
clasificacin, que analiza una gran cantidad de
transacciones, tratando de categorizar aquellas que
sean ilegtimas mediante la identificacin de ciertas
caractersticas que estas ltimas tengan en comn.

En el estudio de la gentica humana, el objetivo


principal es entender la relacin cartogrfica entre las
partes y la variacin individual en las secuencias del
ADN del ser humano y los cambios que puedan
producirse en la susceptibilidad a las enfermedades.
Es decir, como los cambios en la secuencia del ADN
de un individuo afectan al riesgo de desarrollar
enfermedades comunes
(como por ejemplo el
cncer).
La minera de datos puede ayudar a mejor de esta
forma el diagnstico, prevencin y tratamiento de
enfermedades. Generalmente la tcnica de minera de
datos que se utiliza en este tipo de aplicaciones se
conoce como reduccin de dimensionalidad
multifactorial.
Ingeniera elctrica:

Recursos humanos:
La minera de datos tambin puede ser de gran
utilidad en los departamentos de recursos humanos de
cualquier empresa, en la identificacin de las
caractersticas y capacidades de sus mejores
empleados.
La informacin obtenida mediante estas tcnicas
puede ayudar al personal de recursos humanos a la
hora de la contratacin de personal, centrndose en
los esfuerzos de sus empleados y los resultados
obtenidos por stos. Adems dicha ayuda ofrecida

Las tcnicas de minera de datos en este mbito han


sido utilizadas principalmente para monitorizar las
condiciones de las instalaciones de alta tensin.
La finalidad de esta aplicacin es obtener
informacin valiosa sobre el estado de aislamiento de
los equipos, vigilar las vibraciones producidas o por
ejemplo para analizar los cambios de carga en los
transformadores. Generalmente se usan tcnicas
encargadas de detectar condiciones anormales
(Anlisis de anomalas).

Previsiones de fuga:
En muchas industrias (banca, telecomunicaciones,)
existe un inters comprensible en detectar e
identificar cuanto antes a aquellos clientes que
puedan estar pensando en rescindir sus contratos,
para muy probablemente pasarse a la competencia.
Con la ayuda de la minera de datos identificaramos
qu clientes son los ms proclives a darse de baja
estudiando sus patrones de comportamiento y
comparndolos con clientes que ya han rescindido su
contrato con la empresa, de esta forma se podra
actuar realizando ofertas personalizadas y ofreciendo
promociones con el objetivo de retener a dichos
clientes.
Deteccin de hbitos de compra en supermercados
Un ejemplo clsico de aplicacin de minera de datos,
es la deteccin de hbitos de los clientes, a la hora de
comprar en los supermercados. Un estudio muy
conocido detect que los viernes se compraban una
cantidad inusual de paales y cerveza, debido
principalmente a que los viernes solan acudir a
comparar padres jvenes cuya perspectiva para el fin
de semana era quedarse en casa cuidando de los nios
y viendo la televisin tomndose una cerveza. Con
este tipo de informacin, muy valiosa para el
supermercado, se pudieron poner en prctica tcticas
para incrementar por ejemplo la ventas de las
cervezas colocndolas cercanas a los paales y as
fomentar las ventas compulsivas. O para, una vez que
adquieren un determinado producto, saber
inmediatamente qu otro ofrecerle teniendo en
cuntala informacin histrica disponible acerca de
los clientes que han comprado primero.
Bioinformtica
La bioinformtica se encuentra en la interseccin
entre las ciencias de la vida y de la informacin,
proporciona las herramientas y recursos necesarios
para favorecer la investigacin biomdica. Como
campo interdisciplinario, comprende la investigacin
y el desarrollo de sistemas tiles para entender el
flujo de informacin desde los genes a las estructuras
moleculares, su funcin bioqumica, su conducta
biolgica y, finalmente, su influencia en las
enfermedades y en la salud.
Los principales estmulos para su desarrollo son:

El enorme volumen de datos generados por


los distintos proyectos denominados
genoma (humano y de otros organismos).
Los nuevos enfoques experimentales, que
permiten obtener datos genticos a gran
velocidad, bien de genomas individuales
(mutaciones, polimorfismos) de enfoques
celulares (expresin gnica).

Uno de los retos de la bioinformtica es el desarrollo


de mtodos que permitan integrar los datos
genmicos para explicar el comportamiento global de
la clula viva, minimizando la intervencin humana.
Dicha integracin, sin embargo, no puede producirse
sin considerar el conocimiento acumulado durante
aos, producto de la investigacin de miles de
cientficos.
La bioinformtica es un rea del espacio que
representa la biologa molecular computacional, que
incluye la aplicacin de las computadoras y de las
ciencias de la informacin en reas como la
geonmica, el mapeo, la secuencia y determinacin
de las secuencias y estructuras por mtodos clsicos.
Las metas fundamentales de la bioinformtica son la
prediccin de la estructura tridimensional de las
protenas a partir de su secuencia, la prediccin de las
funciones biolgicas y biofsicas a partir de la
secuencia o la estructura, as como simular el
metabolismo y otros procesos biolgicos basados en
esas funciones.
Web Mining:
Una aplicacin especial de la minera de datos es la
minera web (o minera de uso de la web, web
mining) que consiste en extraer informacin y
conocimiento til especficamente de la actividad de
un sitio web: anlisis de trfico (visitas y visitantes),
contenidos ms accedidos, procedencia, tipo de
usuarios, navegadores y sistemas operativos, reglas
de asociacin entre pginas (tasa de conversin)...
El Web mining se considera una metodologa de
recuperacin de la informacin que usa herramientas
de la minera de datos para extraer informacin tanto
del contenido de las pginas, de su estructura de
relaciones (enlaces) y de los registro de navegacin
de los usuarios.
En este sentido podemos definir tres variantes del el
Web mining:
Mineracin del contenido de la Web, o Web
Content Mining;
Mineracin de la estructura de la Web, o Web
Structure Mining;
Mineracin de los registro de navegacin en la
Web, o Web Usage Mining.
Text Mining:
La minera de textos (text mining) es una disciplina
englobada dentro de las tcnicas de acceso,
recuperacin y organizacin de informacin y
consiste en un conjunto de tcnicas que nos permiten
extraer informacin relevante y desconocida de
manera automtica dentro de grandes volmenes de
informacin textual, normalmente en lenguaje natural
y generalmente no estructurada.

La minera de textos permite el descubrimiento de


patrones interesantes y nuevos conocimientos en un
conjunto de textos, es decir, su objetivo consiste en
descubrir tendencias, desviaciones y asociaciones
entre una gran cantidad de informacin textual. Esto
nos permite encontrar conocimiento significativo a
partir de datos textuales sin estructurar.
La minera de textos extrae informacin nueva por lo
que es algo totalmente distinto a la bsqueda web, en
la cual se busca informacin ya conocida, no se
extrae informacin nueva.
Una de las principales caractersticas de la minera de
textos consiste en que la informacin no est
estructurada, al contrario de lo que ocurre en la
minera de datos en la que la informacin suele
extraerse de una base de datos, por lo que s est
estructurada. Esto hace que la extraccin de
informacin de una base de datos sea ms sencilla, ya
que las bases de datos estn diseadas para que sea
posible el tratamiento automtico de la informacin.
Las principales reas de aplicacin de las tecnologas
de minera de textos cubren dos aspectos:

El descubrimiento de conocimiento
La extraccin de informacin

La minera de textos constituye una herramienta de


gran utilidad ya que alrededor de un 80% de la
informacin de las organizaciones est almacenada
en forma de texto no estructurado.

5. CONCLUSIONES
Generalmente, el conocimiento se ha venido
obteniendo por el clsico mtodo hipotticodeductivo de la ciencia. En l es fundamental el paso
inductivo inicial: a partir de un conjunto de
observaciones y de unos conocimientos previos, la
intuicin conduce a formular la hiptesis.
Las tcnicas de anlisis estadstico, permiten obtener
ciertas informaciones tiles, pero no inducir
relaciones cualitativas generales, o leyes, previamente
desconocidas; para esto se requieren otras tcnicas de
anlisis inteligente que estn enfocadas a la induccin
de conocimiento en bases de datos: la Minera de
Datos (data mining), que pone al alcance del
individuo lo que necesita en el momento preciso para
que su actividad se haga efectiva.
Tradicionalmente, las tcnicas de minera de datos se
aplicaban sobre informacin contenida en almacenes
de datos. De hecho, muchas grandes empresas e
instituciones han creado bases de datos especialmente
diseadas para proyectos de minera de datos en las
que centralizan informacin potencialmente til de
todas sus reas de negocio. No obstante, actualmente
est cobrando una importancia cada vez mayor la
minera de datos desestructurados como informacin

contenida en ficheros de texto, en Internet,, ya que


gran parte de la informacin es desestructurada.
Por tanto, la Minera de Datos surge a partir de
sistemas de aprendizaje inductivo en ordenadores, al
ser aplicados a bases de datos, y su importancia crece
de forma masiva.
Los modelos obtenidos por tcnicas de minera de
datos se aplican incorporndolos en los sistemas de
anlisis de informacin de las organizaciones, e
incluso, en los sistemas transaccionales. En este
sentido cabe destacar los esfuerzos del Data Mining
Group, que est estandarizando el lenguaje PMML
(Predictive Model Markup Language), de manera que
los modelos de minera de datos sean interoperables
en distintas plataformas, con independencia del
sistema con el que han sido construidos. Los
principales fabricantes de sistemas de bases de datos
y programas de anlisis de la informacin hacen uso
de este estndar.

6. REFERENCIAS
[1] "INTRODUCCIN A LA MINERA DE
DATOS"
Jos Hernndez Orallo, M.Jos Ramrez Quintana,
Csar Ferri Ramrez.
Editorial Pearson, 2004. ISBN: 84 205 4091
[2] Artculo: Data mining: torturando a los datos
hasta que confiesen.
Luis Carlos Molina Felix.
Universitat Politcnica de Catalunya.
[3] Artculo: Web Mining: Fundamentos Bsicos
Francisco Manuel De Gyves Camacho
Doctorado en informtica y automtica
Universidad de Salamanca

S-ar putea să vă placă și