Documente Academic
Documente Profesional
Documente Cultură
BD Escenario Algortimos
Analysis de Minería
SQL Server Management Studio. Services de Datos
Herramienta principal para administrar Database
Engine (Motor de base de datos) y escribir código de
Transact-SQL.
1
Laboratorio 05. Sesión 1 1. Crear un proyecto de Analysis Services
PREPARA LA BD DEL ANALYSIS SERVICES
PARA EL PROCESO DE MINERÍA DE DATOS. Un proyecto de SSAS permite definir un esquema
que contiene los objetos de una BD del Analysis
Este laboratorio se desarrollará usando el Business Services, estos es modelos de minería de datos y
Intelligence Development Studio. objetos complementarios.
Este laboratorio tiene por objetivo crear una vista de Para crear un proyecto de Analysis Services
origen de datos para trabajar con los modelos y a. Abra el Business Intelligence Development
algortimos de minería de datos. Studio.
2
2. Crear un origen de datos
3
10. En la página Información de suplantación, 3. Crear una vista de origen de datos
seleccione Utilizar la cuenta de servicio, haga
clic en Siguiente. Luego presione finalizar. Una vista de origen de datos es una abstracción del
origen de datos, permite modificar la estructura de
los datos (sin modificar los objetos de la base de
datos original) para que sean más significativos en el
contexto del proyecto. Se puede seleccionar tablas,
establecer relaciones entre ellas, adicionar columnas
calculadas y vistas con nombre.
4
5. En la página Seleccionar tablas y vistas,
seleccione las siguientes tablas y vistas, use la 4. Modificar una vista de origen de datos.
flecha derecha para incluirlas:
dbo.ProspectiveBuyer Puede utilizar el Diseñador de vistas de origen de
dbo.vAssocSeqLineItems datos para: cambiar la forma de ver los datos en un
dbo.vAssocSeqOrders origen de datos, cambiar el nombre de cualquier
dbo.vTargetMail objeto por uno que sea más significativo para el
dbo.vTimeSeries proyecto, sin modificar en el origen de datos original,
pero puede referirse al objeto dentro del proyecto
utilizando este nombre más descriptivo.
presione Siguiente.
5
Laboratorio 05. Sesión 2 Requisitos previos
CREAR UN ESCENARIO DE CORREO DIRECTO Antes de desarrollar este laboratorio debe de leer el
tutorial de árboles de decisión. Para confirmar que
Planteamiento del problema ha leído y entendido el tutorial diga el significado de
El departamento de marketing de Adventure Works los siguientes términos:
desea aumentar las ventas dirigiendo una campaña
de correo directo a clientes específicos. Predicción.
Clasificación
Mediante el análisis de los atributos de clientes Regresión
conocidos, la empresa espera determinar los Atributo
patrones de comportamiento que posteriormente se Clase
aplicarán a clientes potenciales. Nodo
Hoja
La empresa pretende utilizar los patrones hallados
Regla de decisión
para predecir qué clientes potenciales tienen más
Error del clasificador
probabilidades de comprar un producto.
Tipos de atributos.
Otros conceptos importantes
Atributos continuos. Son aquellos atributos por
Escenario de correo electrónico. Corresponde a
lo general numéricos, tales como 23.45, 23.4555,
un problema que puede ser abordado con las
87. Por ejemplo una columna puede contener
técnicas de la minería de datos, generalmente
información salarial como valores de sueldo
corresponde a problemas de clasificación o
actuales, que son continuos
predicción.
Atributo discreto. Son aquellos datos
Asistente de minería de datos. Herramienta del
categóricos tales como alto, bajo, varon o mujer.
SSAS para facilitar la creación de modelos de
Generalmente se afirma que un atributo es
mienería de datos.
discreto cuando tiene una cantidad de posible de
valores diferentes que se pueden contar. Por Estructura de minería de datos. Objetos (tablas,
ejemplo una columna puede contener vistas), algoritmos necesarios para implementar
información salarial en rangos de sueldo la solución a un problema de minería de datos.
codificados, como 1 = < $25.000; 2 = de $25.000
a $50.000, que son discretos. Para el desarrollo de este laboratorio se
desarrollaran los siguientes tereas:
Modelo de árboles de decisión.
1. Crear una estructura del modelo de minería de
El algoritmo de árboles de decisión es un algoritmo datos Targeted Mailing.
de clasificación y regresión para modelar la 2. Modificar el modelo Targeted Mailing.
predicción de atributos (clase) discretos o continuos: 3. Explorar los modelos Targeted Mailing
4. Comprobar la precisión de los modelos de
minería de datos
Para los atributos discretos, el algoritmo hace
5. Crear predicciones
predicciones basándose en las relaciones entre
las columnas de entrada de un conjunto de
datos. Utiliza los valores, conocidos como
estados, de estas columnas para predecir los
estados de una columna que se designa como
elemento de predicción (generalmente se le
llama la clase), el algoritmo identifica las
columnas de entrada que se correlacionan con la
columna de predicción.
6
1. Crear una estructura del modelo de minería 4. En la página Seleccionar la técnica de
de datos Targeted Mailing minería de datos, en ¿Qué técnica de minería
de datos desea utilizar?, seleccione Árboles
El primer paso para crear un escenario de correo de decisión de Microsoft.
directo consiste en utilizar el Asistente para minería
de datos para crear la estructura de minería de
datos y luego un modelo de minería de datos de
árboles de decisión.
7
7. En la página Especificar los datos de Para este laboratorio, omita las sugerencias
entrenamiento, seleccione las siguiente haciendo clic en Cancelar.
columnas:
Columna
Predicti
Input
Key
on
CustomerKey X
BikeBuyer X X
Age X
CommuteDistance X
CustomerKey X
EnglishEducation X
EnglishOccupation X
FirstName X
Gender X
GeographyKey X
HouseOwnerFlag X
LastName X
MaritalStatus X
NumberCarsOwned X
NumberChildrenAtHome X
Region X 9. En la página Especificar el contenido y
TotalChildren X el tipo de datos de las columnas, haga clic en
YearlyIncome X Detectar. Un algoritmo usará los datos de la
vista y determinará si las columnas numéricas
Un atributo puede ser marcado como: contienen valores continuos o discretos.
Key. El asistente elegirá esa columna como
clave para el modelo.
Input (Columna de entrada). Este atributo se
usará como variable predictora.
Prediction. (Columna de salida). Es la clase
o el atributo a predecir.
8
10. Después de hacer clic en Detectar,
compruebe que las entradas de las columnas
Tipo de contenido y Tipo de datos tengan la
configuración especificada en la siguiente tabla.
9
2. Modificar el modelo Targeted Mailing 3. Se abrirá el cuadro de diálogo Nuevo
modelo de minería de datos.
En esta tarea se definirá dos modelos de minería En Nombre del modelo, escriba
(estructuras) de adicionales al algoritmo de árboles TM_Clustering.
de decisión mediante la ficha Modelos de minería En Nombre del algoritmo, seleccione
de datos del Diseñador de minería de datos. En esta Clústeres de Microsoft.
tarea, definirá un modelo Naive Bayes y un modelo
Clustering.
10
b. Crear un modelo Microsoft Naive Bayes c. Procesar los modelos de minería de datos
Para crear un modelo Naive Bayes: Ahora que la estructura y los parámetros para los
1. En la ficha Modelos de minería de modelos de minería de datos se han completado,
datos del Diseñador de minería de datos, haga puede implementar y procesar cada uno de los
clic con el botón secundario en la columna modelos:
Estructura y seleccione Nuevo modelo de
minería de datos. Implementación de la BD Analysis Services
1. En el menú Depurar, seleccione Iniciar
2. Se abrirá el cuadro de diálogo Nuevo depuración. O, puede presionar F5.
modelo de minería de datos.
Esto permitirá que la base de datos Analysis
En Nombre del modelo, escriba Services se implemente en el equipo servidor y
TM_NaiveBayes. los modelos de minería de datos se procesen.
En Nombre del algoritmo, seleccione
Bayes naive de Microsoft..
11
Procesamiento de la BD Analysis Services
Si la base de datos ya se ha implementado en el 3. Haga clic en Ejecutar.
equipo servidor, puede procesar sólo los modelos de Se abre el cuadro de diálogo Progreso del
minería de datos mediante el proceso siguiente. proceso para mostrar información acerca del
procesamiento del modelo. El procesamiento del
1. En el menú Modelo de minería de modelo puede llevar algún tiempo, dependiendo
datos de BI Development Studio, haga clic en del equipo.
Procesar estructura de minería de datos y
todos los modelos.
12
3. Explorar los modelos Targeted Mailing Ficha Árbol de decisión
Fondo = todos
13
Obteniendo el siguiente detalle:
Fondo = 1
Fondo = 0
14
4. Crear predicciones 2. Desplácese por el árbol hasta la
estructura Targeted Mailing, expándala,
Puede crear consultas de predicción (DMX) por seleccione TM_Decision_Tree y, a continuación,
medio del Generador de consultas de predicción en haga clic en Aceptar.
la ficha Predicción de modelo de minería de datos
del Diseñador de minería de datos.
a. Crear la consulta.
1. Seleccionar una modelo de minería de
datos y una tabla de entrada.
En la ficha Predicción de modelo de minería
de datos del Diseñador de minería de datos, en
el cuadro Modelo de minería de datos, haga
clic en Seleccionar modelo.
15
4. Después de seleccionar la tabla de 3. Proporcionan información acerca de
entrada, el Generador de consultas de predicción cómo realiza las predicciones el modelo
crea una asignación predeterminada entre el mediante las funciones de predicción. La función
modelo de minería de datos y la tabla de PredictProbability proporciona información
entrada, en función de los nombres de las acerca de la corrección de la probabilidad de
columnas. predicción. En la columna Criterios o argumento,
puede especificar parámetros para la función de
predicción.
16
3. Al hacer clic en Diseño de consulta para volver
b. Ver los resultados a la cuadrícula y cambiar la consulta.
SELECT
t.[ProspectAlternateKey],
[TM_Decision_Tree].[Bike Buyer],
PredictProbability([TM_Decision_Tree].[Bike Buyer])
From
[TM_Decision_Tree]
PREDICTION JOIN
OPENQUERY([Adventure Works DW],
'SELECT
[ProspectAlternateKey],
[FirstName],
[LastName],
[MaritalStatus],
[Gender],
[YearlyIncome],
[TotalChildren],
[NumberChildrenAtHome],
[HouseOwnerFlag],
[NumberCarsOwned]
FROM
[dbo].[ProspectiveBuyer]
') AS t
ON
[TM_Decision_Tree].[First Name] = t.[FirstName] AND
[TM_Decision_Tree].[Last Name] = t.[LastName] AND
[TM_Decision_Tree].[Marital Status] = t.[MaritalStatus] AND
[TM_Decision_Tree].[Gender] = t.[Gender] AND
[TM_Decision_Tree].[Yearly Income] = t.[YearlyIncome] AND
[TM_Decision_Tree].[Total Children] = t.[TotalChildren] AND
[TM_Decision_Tree].[Number Children At Home] = t.[NumberChildrenAtHome] AND
[TM_Decision_Tree].[House Owner Flag] = t.[HouseOwnerFlag] AND
[TM_Decision_Tree].[Number Cars Owned] = t.[NumberCarsOwned]
17