Sunteți pe pagina 1din 14

Sistemas Expertos

INTEGRANTES
Muoz Cisneros Luis
Tijero Urbano Luis Erick
Pea Jacobo Fabian
Chauca Marcos Yerson
Dominguez Mendoza Delfor
Tipacti Cornejo Pedro

FACULTDAD DE INGENIERIA DE SISTEMAS


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA DE ICA

MINERA DE DATOS

Contenido
1.

MINERIA DE DATOS .................................................................................................................... 2

2.

TECNICAS DE MINERIA DE DATOS: ............................................................................................. 2

3.

4.

2.1.

REDES NEURONALES:.......................................................................................................... 3

2.2.

REGRESION LINEAL: ............................................................................................................ 3

2.3.

ARBOLES DE DECISION: ...................................................................................................... 3

2.4.

MODELOS ESTADISTICOS: .................................................................................................. 3

2.5.

AGRUPAMIENTO O CLUSTERING: ...................................................................................... 3

2.6.

REGLAS DE ASOCIACION:.................................................................................................... 4

EJEMPLOS DE MINERIA DE DATOS ............................................................................................. 4


3.1.

Reglas de asociacin (modelo descriptivo)........................................................................ 4

3.2.

Clustering (modelo descriptivo) ......................................................................................... 4

3.3.

Clasificacin (modelo predictivo):...................................................................................... 5

APLICACIONES............................................................................................................................. 5

5. DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS (KDD : Knowledge Discovery


in Databases) ...................................................................................................................................... 6
5.1.

El proceso de extraccin de conocimiento ......................................................................... 6

6.

SISTEMAS DE MINERIA DE DATOS ............................................................................................. 7

7.

SOFTWARE APLICADA A LA MINERIA DE DATOS ....................................................................... 8


7.1.

RAPIDMINER ....................................................................................................................... 8

7.2.

La herramienta cuenta con dos componentes: .................................................................. 9

7.3.

Ejemplo: rbol de Decisin. ................................................................................................ 9

FACULTDAD DE INGENIERIA DE SISTEMAS

MINERA DE DATOS

MINERIA DE DATOS

1. MINERIA DE DATOS
Extraccin de conocimiento en grandes bases de datos.
La minera de datos o exploracin de datos es un campo de la estadstica y
las ciencias de la computacin referido al proceso que intenta descubrir patrones
en grandes volmenes de conjuntos de datos. El objetivo general del proceso de
minera de datos consiste en extraer informacin de un conjunto de datos y
transformarla en una estructura comprensible para su uso posterior. Adems de
la etapa de anlisis en bruto, que involucra aspectos de bases de datos y
de gestin de datos, de procesamiento de datos, del modelo y de las
consideraciones de inferencia, de mtricas de Intereses, de consideraciones de
la Teora de la complejidad computacional, de post-procesamiento de las
estructuras descubiertas, de la visualizacin y de la actualizacin en lnea.
La tarea de minera de datos real es el anlisis automtico o semi-automtico de
grandes cantidades de datos para extraer patrones interesantes hasta ahora
desconocidos, como los grupos de registros de datos (anlisis clster), registros
poco usuales (la deteccin de anomalas) y dependencias (minera por reglas de
asociacin). Esto generalmente implica el uso de tcnicas de bases de datos
como los ndices espaciales.

2. TECNICAS DE MINERIA DE DATOS:


Como ya se ha comentado, las tcnicas de la minera de datos provienen de
la inteligencia artificial y de la estadstica, dichas tcnicas, no son ms
que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de
datos para obtener unos resultados.
FACULTDAD DE INGENIERIA DE SISTEMAS

MINERA DE DATOS

2.1.

REDES NEURONALES:

Son un paradigma de aprendizaje y procesamiento automtico inspirado en


la forma en que funciona el sistema nervioso de los animales. Se trata de un
sistema de interconexin de neuronas en una red que colabora para producir
un estmulo de salida. Algunos ejemplos de red neuronal son:
2.1.1. El perceptrn.
2.1.2. El perceptrn multicapa.
2.1.3. Los mapas autoorganizados, tambin conocidos como redes
de Kohonen.

2.2.

REGRESION LINEAL:

Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero


insuficiente en espacios multidimensionales donde puedan relacionarse ms
de 2 variables.

2.3.

ARBOLES DE DECISION:

Un rbol de decisin es un modelo de prediccin utilizado en el mbito de


la inteligencia artificial y el anlisis predictivo, dada una base de datos se
construyen estos diagramas de construcciones lgicas, muy similares a los
sistemas de prediccin basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de forma sucesiva, para
la resolucin de un problema. Ejemplos:
2.3.1. Algoritmo ID3.
2.3.2. Algoritmo C4.5.

2.4.

MODELOS ESTADISTICOS:

Es una expresin simblica en forma de igualdad o ecuacin que se emplea


en todos los diseos experimentales y en la regresin para indicar los
diferentes factores que modifican la variable de respuesta.

2.5.

AGRUPAMIENTO O CLUSTERING:

Es un procedimiento de agrupacin de una serie de vectores segn criterios


habitualmente de distancia; se tratar de disponer los vectores de entrada de
FACULTDAD DE INGENIERIA DE SISTEMAS

MINERA DE DATOS

forma que estn ms cercanos aquellos que tengan caractersticas comunes.


Ejemplos:
2.5.1. Algoritmo K-means.
2.5.2. Algoritmo K-medoids.

2.6.

REGLAS DE ASOCIACION:

Se utilizan para descubrir hechos que ocurren en comn dentro de un


determinado conjunto de datos.
Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican
en supervisados y no supervisados.

Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto


de ellos) desconocido a priori, a partir de otros conocidos.
Algoritmos no supervisados (o del descubrimiento del conocimiento): se
descubren patrones y tendencias en los datos.

3. EJEMPLOS DE MINERIA DE DATOS


3.1.

Reglas de asociacin (modelo descriptivo)

El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la


deteccin de hbitos de compra en supermercados. Un estudio muy citado
detect que los viernes haba una cantidad inusualmente elevada de clientes
que adquiran a la vez paales y cerveza. Se detect que se deba a que
dicho da solan acudir al supermercado padres jvenes cuya perspectiva
para el fin de semana consista en quedarse en casa cuidando de su hijo y
viendo la televisin con una cerveza en la mano. El supermercado pudo
incrementar sus ventas de cerveza colocndolas prximas a los paales para
fomentar las ventas compulsivas.

3.2.

Clustering (modelo descriptivo)


Segmentacin de los clientes de un hipermercado:

Clientes ocasionales que gastan mucho.


Clientes habituales con presupuesto limitado.
FACULTDAD DE INGENIERIA DE SISTEMAS

MINERA DE DATOS

3.3.

Clientes ocasionales con presupuesto limitado.

Clasificacin (modelo predictivo):

Datagramas que corresponden a intentos de intrusin.


Perfil de un cliente de alto riesgo para prstamos bancarios.

4. APLICACIONES

Market basket analysis analysis (compras)


Perfiles de usuario en la Web
Segmentacin de clientes
Deteccin de fraudes / intrusos

FACULTDAD DE INGENIERIA DE SISTEMAS

MINERA DE DATOS

5. DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS


(KDD : Knowledge Discovery in Databases)

Extraccin de conocimiento en bases de datos

5.1.

El proceso de extraccin de conocimiento

Limpieza de datos (eliminacin de ruido e inconsistencias).


Integracin de datos (combinacin de mltiples fuentes de datos).
Reduccin/Seleccin de datos (identificacin de datos relevantes para el
problema).
Transformacin de datos (preparacin de los datos para su anlisis).
Minera de datos (tcnicas de extraccin de patrones y medidas de
inters).
Presentacin de resultados (tcnicas de visualizacin y de representacin
del conocimiento)

FACULTDAD DE INGENIERIA DE SISTEMAS

MINERA DE DATOS

6. SISTEMAS DE MINERIA DE DATOS

Descripcin de una tarea de minera de datos:

Datos relevantes (lo que hay que analizar).


Tipo de conocimiento (lo que se desea obtener).
Conocimiento previo (background knowledge, para guiar el proceso).
Medidas de inters (para evaluar los resultados obtenidos).
Tcnicas de representacin (para representar los resultados obtenidos).

FACULTDAD DE INGENIERIA DE SISTEMAS

MINERA DE DATOS

7. SOFTWARE APLICADA A LA MINERIA DE DATOS


7.1.

RAPIDMINER

RapidMiner es una herramienta de Minera de Datos ampliamente usada y probada a nivel


internacional en aplicaciones empresariales, de gobierno y academia. Implementa ms de 500
tcnicas de pre-procesamiento de datos, modelacin predictiva y descriptiva, mtodos de
prueba de modelos, visualizacin de datos, etc.

RapidMiner est escrito en el lenguaje de programacin Java, proporciona una interfaz


grfica para disear y ejecutar flujos de trabajo de anlisis. Esos flujos de trabajo se llaman
"Proceso" y stos consisten en mltiples "Operadores".

Rapid Miner proporciona esquemas y modelos y algoritmos de aprendizaje Weka y R scripts


que se pueden utilizar a travs de extensiones. Se puede ampliar con plugins adicionales. El
mercado Extensiones proporciona una plataforma para los desarrolladores para crear
algoritmos de anlisis de datos y publicarlos en la comunidad. RapidMiner ha sido utilizada
en ms de cuarenta pases y en compaas como Ford, Honda, E.ON, Nokia, IBM, Cisco, Hewlett
Packard, Elexso, Akzo Nobel, PharmaDM, Bank of America, Merrill Lynch, entre muchas otras.

En la encuesta anual (2015) del prestigioso portal internacional de Minera de Datos KDnuggets
(www.KDnuggets.com), RapidMiner obtuvo el segundo lugar (despes de R) como la
herramienta de Data Mining ms utilizada por expertos en DataMining.

FACULTDAD DE INGENIERIA DE SISTEMAS

MINERA DE DATOS

7.2.

La herramienta cuenta con dos componentes:

RapidMiner Studio: Versin stand-alone para analistas. Implementa todos los operadores de data
mining, modelos predictivos, modelos descriptivos, transformacin de datos, series de tiempo, etc.
RapidMiner Server: Versin Servidor de RapidMiner. Permite trabajo colaborativo, escalable y
concurrente mltiples usuarios, capacidad de delegar en bases de datos (In-Database Mining) y
otras mejoras de funcionalidad como: plataforma Web de publicacin de reportes, implementacin
de sistemas de scoring, diseo y navegacin Web de de Reportes, Single-sign on, integracin va
Servicios Web, entre otras.

7.3.

Ejemplo: rbol de Decisin.

Este proceso comienza con la carga de datos. Despus de finalizar el operador de entrada se realiza
un tpicopaso de aprendizaje. Aqu se utiliza una implementacin de un aprendiz de rbol de decisin
que tambinpuede manejar valores numricos (similar al muy conocido algoritmo C4.5).
Cada operador puede requerir algunas entradas y entrega algunas salidas. Estos tipos de entrada y
salida sepasan entre los operadores. En este ejemplo el primer operador "Input" no requiere ninguna
entrada yentrega un conjunto de ejemplos como salida. Este conjunto de ejemplos es tomado por el
aprendiz, el cualentrega la salida final: el modelo aprendido.
Debido a que este flujo de datos es lineal, el diseo del proceso se denomina cadena de
operadores. Msadelante veremos procesos ms sofisticados en la forma de rbol de operadores.
1. En el panel izquierdo seleccionar la pestaa Operators. Luego seleccionar el
operador RepositoryAccess Retrieve y arrastrarlo a la zona de trabajo.
2. En la pestaa Parameters del panel derecho, utilizar el navegador a la derecha del parmetro
repository entry para localizar el archivo //Samples/data/Golf.

FACULTDAD DE INGENIERIA DE SISTEMAS

MINERA DE DATOS

En esta imagen se muestran algunas de las vistas disponibles en RapidMiner. Para


habilitar/deshabilitar las vistas, utilizar la entrada del men View Show View y para restaurar la
perspectiva por defecto,seleccionar View Restore Default Perpective.
3. En el panel izquierdo seleccionar el operador Modeling Classification and Regression
TreeInduction Decision Tree y arrastrarlo a la zona de trabajo.

4. Conectar la salida del operador Retrieve a la entrada del operador Decision Tree, haciendo clic
izquierdoen el conector out (output, salida) del primero y luego otro clic en el conector tra (training
set, conjunto deentrenamiento) del segundo.

5. De la misma forma, conectar la salida mod (model, modelo) del operador Decision Tree al
puerto res dela zona de trabajo.

FACULTDAD DE INGENIERIA DE SISTEMAS

10

MINERA DE DATOS

6. Presionar el icono ejecutar


en la barra de iconos de la parte superior del marco. El proceso
debera comenzar y luego de un corto tiempo el visor de mensajes de la parte inferior del marco
muestra el mensajede que el proceso finaliz correctamente. El marco principal cambia a la vista de
"Resultados", que muestrael rbol de decisin aprendido (una hiptesis que en RapidMiner se
denomina Modelo).
7. Volver al modo edicin ya sea por medio de la entrada del men View Perspectives Design,
el icono

de la barra de iconos, o presionando la tecla de funcin <F8>.

FACULTDAD DE INGENIERIA DE SISTEMAS

11

MINERA DE DATOS
En este ejemplo se construy un Modelo Predictivo para saber si se debera jugar o no al tenis, en
base a los datos recogidos de experiencias anteriores. Para ver estos datos hacer doble clic sobre
la tabla Golf de lapestaa Repositories de la derecha. Aparece otra pestaa entre las pestaas
Result Overview y Tree(Decision Tree) de la vista de resultados, denominada ExampleSet
(//Samples/data/Golf). Seleccionar laopcin Data View.

La primera columna es el Identificador de Casos, la segunda es el Atributo Objetivo y las restantes


son los Atributos Predictores.
Ahora se puede utilizar este modelo para predecir si se debera jugar o no al tenis. Por ej., para la
instancia:(Cielo = Soleado, Temperatura = 82, Humedad = 90, Ventoso = Verdadero) la respuesta
es NO.
8. Reemplazar el aprendiz por otro esquema de aprendizaje para tareas de clasificacin. Hacer clic
derechosobre el operador Decision Tree y seleccionar Replace Operator Modeling
Classification andRegression Rule Induction Rule Induction. Despus de ejecutar el
proceso cambiado con esteejemplo, se presenta el Nuevo modelo:
IF Cielo = Cubierto THEN S
IF Temperatura 77.500 AND Ventoso = Falso AND Cielo = Lluvioso THEN S
IF Cielo = Lluvioso THEN No
IF Humedad > 77.500 THEN No ELSE S

FACULTDAD DE INGENIERIA DE SISTEMAS

12

MINERA DE DATOS

FACULTDAD DE INGENIERIA DE SISTEMAS

13

S-ar putea să vă placă și