Sunteți pe pagina 1din 50

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE INGENIERIA INDUSTRIAL


ESCUELA PROFESIONAL DE INGENIERIA INFORMTICA

MDULO
ALGORITMOS DE MINERIA DE DATOS CON MICROSOFT SQL
SERVER

AUTOR
MBA. PERSI WILLIANSH CABRERA ANTN ING.

PIURA - PER
ABRIL - 2013

INDICE
PG.
INTRODUCCIN

04

I.

ASPECTOS GENERALES

06

1.1. Herramientas para la Toma de Decisiones

06

1.2. Caractersticas de las Herramientas OLAP

08

1.3. Modelo Multidimensional

09

1.4. Componentes del Modelo Multidimensional

10

1.5. Operaciones en Modelos Multidimensionales

14

1.6. Descripcin de los Procesos de Anlisis en Lnea

16

1.7. Definicin de Almacn de Datos (Data Warehouse)

19

1.8. Objetivos del Data Warehouse

20

1.9. Caractersticas del Data Warehouse

20

1.10. Problemas y Ventajas de los Almacenes de Datos en las


Organizaciones

II.

24

1.11. Arquitectura de un Almacn de Datos

24

1.12. Sistemas dorsales (back end) y frontales (front end)

25

ELABORACION DE UN DATA WAREHOUSE

27

2.1. Marco de Trabajo para Crear un Almacn de Datos

27

2.2. Procedimiento para la Construccin de un Almacn de Datos

29

2.3. Descripcin del Almacn de Datos

30

2.4. Caso Prctico: Estructuras de Datos para un Data Warehouse


Financiero

III.

32

2.5. Diagrama del Data Warehouse elaborado

39

USO DE LA HERRAMIENTA INTEGRATION SERVICE

40

3.1. Servicio de Transformacin de Datos (DTS)

40

3.2. Creacin de un paquete

42

3.3. Uso del Contenedor de Bucles Foreach

44

3.4. Herramienta para ejecucin de paquetes

46

IV.

USO DE LA HERRAMIENTA ANALISYS SERVICE Y EXCEL

47

4.1. Caso Prctico: Diseo de los Datamarts

47

4.2. Diseo de las Jerarquas de las Dimensiones

48

4.3. Caso Prctico Creacin de cubos

53

4.4. Caso Prctico: Extraccin de cubos a Excel

56

4.5. Caso Prctico: Interpretacin en forma general de los cubos creados.58

V.

VI.

USO DE LA HERRAMIENTA REPORTING SERVICE

67

5.1. Modelos de Reportes

67

BIBLIOGRAFIA

71

INTRODUCCIN

Las empresas actualmente poseen grandes volmenes de datos, obtenidos a


travs de sus sistemas de informacin, la cantidad de datos que ha sido
almacenada en las bases de datos de dichas empresas excede nuestra habilidad
para reducir y analizar los datos sin el uso de tcnicas de anlisis automatizadas.
La Minera de Datos es actualmente una de las tcnicas de la Inteligencia de
Negocios, que se encarga de buscar a travs de la implementacin y uso de
algoritmos matemticos y estadsticos automatizados, relaciones o patrones de
comportamiento vlidos, potencialmente tiles, y comprensibles en los datos
entrenados o procesados, para ayudar a la toma de decisiones.

En la parte I se resume una serie de aspectos generales relacionados con el tema,


como: Definiciones acerca del modelo multidimensional, sus componentes,
operaciones, funcionamiento, tambin se estudia el concepto de Data Warehouse,
objetivos, caractersticas, problemas y ventajas, finalmente se comenta sobre los
sistemas dorsales y frontales en una aplicacin OLAP.
La parte II explica cmo se elabora un Data Warehouse, describiendo en qu
consiste y detallando cul es el marco de trabajo, adems del procedimiento que
se debe seguir, todo ello a travs de un caso prctico referente a entidades
microfinancieras.
La parte III explica el uso de la herramienta Integration Service, para la
transformacin de los datos a travs de la creacin y ejecucin de paquetes, los
cuales hacen uso de las herramientas de control y flujos de datos, que vienen
implementados en el software.
La parte IV explica con casos prcticos el uso de la herramienta Analysis Services,
a travs de la creacin los datamarts, jerarquas, conexin de Analysis Service a
Microsoft Excel para la presentacin de los cubos creados. Finalmente la

interpretacin de los mismos por parte de los usuarios finales de la informacin


obtenida.
La parte V explica el uso del Servicio de Reportes para la presentacin de los
datos convertidos en informacin a los usuarios finales de la misma.

I.

ASPECTOS GENERALES

1.1. Tipos de Contenidos


El tipo de datos determina el modo en que los algoritmos procesan los
datos de esas columnas cuando se crean modelos de minera. Cada
tipo de datos de Analysis Services admite uno o varios tipos de
contenido para la minera de datos.

El tipo de contenido describe el comportamiento del contenido incluido


en la columna. Por ejemplo, si el contenido de una columna se repite en
un intervalo concreto, como el estado civil de las personas, puede
especificar el tipo de contenido de esa columna como cclico.

Algunos algoritmos requieren tipos de datos y de contenido especficos


para que funcionen correctamente. Por ejemplo, el algoritmo Regresin
Lineal de Microsoft no puede utilizar columnas discretas como entrada
ni predecir valores discretos.

A continuacin se describen los tipos de contenido que se usan en la


minera de datos y se identifican los tipos de datos que admiten cada
tipo.

Discreto
El tipo de contenido discreto indica que la columna contiene un nmero
finito de valores no continuos. Por ejemplo, una columna de estado civil
es una columna de atributos discreta muy habitual, en la que los datos
representan un nmero especfico de categoras.
Los valores de una columna de atributos discreta no pueden implicar la
ordenacin, aun cuando los valores sean numricos. Adems, aunque
los valores utilizados para la columna discreta sean numricos, no se

pueden calcular valores fraccionarios. Los cdigos telefnicos de cada


zona son un buen ejemplo de datos numricos discretos.

El tipo de contenido Discrete es compatible con todos los tipos de


datos de minera de datos.

Continuo
Continuo indica que la columna contiene valores que representan datos
numricos en una escala que permite valores intermedios. A diferencia
de una columna discreta, que representa datos numerables y finitos,
una columna continua representa medidas escalables; adems, es
posible que los datos contengan un nmero infinito de valores
fraccionarios. Una columna de precios de artculos es un ejemplo de
una columna de atributos continua.

El tipo de contenido Continuous es compatible con los siguientes tipos


de datos: Date, Double y Long

Discretized
La discretizacin es el proceso mediante el cual los valores de un
conjunto de datos continuo se incluyen en grupos o depsitos para que
haya un nmero limitado de valores posibles. Solo se pueden
discretizar los datos numricos.
Por tanto, el tipo de contenido discretized indica que la columna
contiene valores que representan grupos o depsitos de valores que se
derivan de una columna continua. Los depsitos se tratan como si
fueran valores ordenados y discretos.
Se pueden discretizar los datos manualmente, para asegurarse de que
se obtienen los depsitos deseados, o se pueden utilizar los mtodos
de

discretizacin

proporcionados

en

SQL

Server

Analysis

Services. Algunos

algoritmos

realizan

la

discretizacin

automticamente.

El tipo de contenido Discretized es compatible con los siguientes tipos


de datos: Date, Double, Long y Text.

Clave
El tipo de contenido clave indica que la columna identifica una fila de
forma inequvoca. Normalmente, en una tabla de casos, la columna de
clave es un identificador numrico o de texto. Establezca el tipo de
contenido en key para indicar que la columna no debe utilizarse para el
anlisis, sino para realizar el seguimiento de los registros.
Las tablas anidadas tambin tienen claves, pero el uso de la clave de
tabla anidada es ligeramente diferente. En una tabla anidada debe
establecer el tipo de contenido en key si la columna es el atributo que
desea analizar. Los valores de la clave de tabla anidada deben ser
nicos para cada caso, pero puede haber duplicados en todo el
conjunto de casos.
Por ejemplo, si est analizando los productos que compran los clientes,
debe

establecer

el

tipo

de

contenido

en

Key

para

la

columna IdCliente de la tabla de casos, y tambin debe establecer el


tipo de contenido en Key para la columna ProductosComprados de la
tabla anidada.

Secuencia de Claves
El tipo de contenido secuencia de claves solamente se puede utilizar en
modelos de agrupacin en clsteres de secuencia. Cuando se
establece el tipo de contenido en key sequence, se indica que la
columna

contiene

valores

que

representan

una

secuencia de

eventos. Los valores estn ordenados y no tienen que estar separados


por una distancia equivalente.

Este tipo de contenido es compatible con los siguientes tipos de


datos: Double, Long, Text y Date.

Clave Temporal
El tipo de contenido clave temporal solamente se puede utilizar en
modelos de serie temporal. Cuando se establece el tipo de contenido
en key time, se indica que los valores estn ordenados y que
representan una escala de tiempo.

Este tipo de contenido es compatible con los siguientes tipos de


datos: Double, Long y Date.

Tabla
El tipo de contenido tabla indica que la columna contiene otra tabla de
datos, con una o ms columnas y una o ms filas. Para cualquier fila
concreta de la tabla de casos, esta columna puede contener varios
valores, todos ellos relacionados con el registro del caso primario. Por
ejemplo, si la tabla de casos principal contiene una lista de clientes,
podra tener varias columnas con tablas anidadas, como una
columna ProductosComprados, donde la tabla anidada muestre una
lista de los productos que este cliente ha comprado en el pasado, y una
columna Aficiones que muestre las aficiones del cliente.

El tipo de datos de esta columna siempre es Table.

Cclico
El tipo de contenido cclico indica que la columna contiene valores que
representan un conjunto ordenado cclico. Por ejemplo, los meses
numerados del ao es un conjunto ordenado cclico, ya que el mes
nmero uno sigue al mes nmero doce.

Las columnas cclicas se consideran ordenadas y discretas en trminos


de tipo de contenido.
Este tipo de contenido es compatible con todos los tipos de datos de
minera de datos de Analysis Services. Sin embargo, la mayora de los
algoritmos tratan los valores cclicos como valores discretos y no
realizan ningn procesamiento especial.

Ordenado
El tipo de contenido ordenado indica tambin que la columna contiene
valores que definen una secuencia u orden. Sin embargo, en este tipo
de contenido los valores utilizados para la ordenacin no implican
ninguna relacin de distancia o magnitud entre los valores del
conjunto. Por ejemplo, si una columna de atributos ordenados contiene
informacin acerca de una lista de niveles de especializacin que vayan
del uno al cinco, no existe informacin implcita entre los niveles de
especializacin; un nivel cinco de especializacin no es necesariamente
cinco veces mejor que un nivel uno de especializacin.

Las columnas de atributos ordenados se consideran discretas en


trminos de tipo de contenido.
Este tipo de contenido es compatible con todos los tipos de datos de
minera de datos de Analysis Services. Sin embargo, la mayora de los
algoritmos tratan los valores ordenados como valores discretos y no
realizan ningn procesamiento especial.

1.2. Lista de Funciones de Prediccin

Todos los algoritmos de Microsoft son compatibles con un conjunto


comn de funciones. No obstante, el algoritmo de regresin lineal de
Microsoft admite las funciones adicionales que se enumeran en la
siguiente tabla.

Funcin de
prediccin
IsDescendant (DMX)
IsInNode (DMX)
PredictHistogram
(DMX)
PredictNodeId (DMX)
PredictStdev (DMX)
PredictSupport (DMX)
PredictVariance (DMX)

Uso
Determina si un nodo es un elemento secundario de otro nodo
del modelo.
Indica si el nodo especificado contiene el caso actual.
Devuelve un valor o un conjunto de valores predichos para una
columna especificada.
Devuelve el Node_ID de cada caso.
Devuelve la desviacin estndar del valor predicho.
Devuelve el valor de soporte de un estado especificado.
Devuelve la varianza de una columna especificada.

el algoritmo Bayes naive de Microsoft admite las funciones adicionales


que se enumeran en la siguiente tabla.

Predict (DMX)
PredictAssociation (DMX)
PredictHistogram (DMX)
PredictAdjustedProbability
(DMX)
II.

IsDescendant (DMX)
PredictProbability (DMX)
PredictNodeId (DMX)
PredictSupport (DMX)

ALGORITMO DE REGRESIN LINEAL DE MICROSOFT

El algoritmo de regresin lineal de Microsoft es una variacin del algoritmo de


rboles de decisin de Microsoft que ayuda a calcular una relacin lineal
entre una variable independiente y otra dependiente y, a continuacin, utilizar
esa relacin para la prediccin.
La relacin toma la forma de una ecuacin para la lnea que mejor
represente una serie de datos. Por ejemplo, la lnea del siguiente diagrama
muestra la mejor representacin lineal de los datos.

Grfico 01
Grfico del Modelo de Minera de Datos - Regresin Lineal

Cada punto de datos del diagrama tiene un error asociado con su


distancia con respecto a la lnea de regresin. Los coeficientes a y b de
la ecuacin de regresin ajustan el ngulo y la ubicacin de la recta de
regresin. Puede

obtener

la

ecuacin

de

regresin

ajustando a y b hasta que la suma de los errores asociados a todos los


puntos alcance su valor mnimo.

2.1. Cmo Funciona el Algoritmo

En un modelo de regresin lineal, el conjunto de datos completo se


utiliza para calcular las relaciones en el paso inicial, mientras que en un
modelo de rboles de decisin estndar los datos se dividen
repetidamente en rboles o subconjuntos ms pequeos.

2.2. Datos requeridos para los Modelos de Regresin Lineal

Cuando se preparan datos para utilizarse en un modelo de regresin


lineal, se deben entender los requisitos del algoritmo determinado. Esto
incluye saber cuntos datos se necesitan y cmo se utilizan. Los
requisitos para este tipo de modelo son los siguientes:

Una columna key: cada modelo debe contener una columna


numrica o de texto que identifique cada registro de manera
nica. No estn permitidas las claves compuestas.

Una columna de prediccin: Se requiere al menos una columna


de prediccin. Se pueden incluir varios atributos de prediccin en
un

modelo,

pero

deben

ser

tipos

de

datos

numricos

continuos. No se puede utilizar un tipo de datos de fecha y hora


como atributo de prediccin aunque el almacenamiento nativo
para los datos sea numrico.

Columnas

de

entrada: Deben

contener

datos

numricos

continuos y se les debe asignarse el tipo de datos adecuado.

Un modelo de regresin lineal debe contener una columna de clave,


columnas de entrada y al menos una columna de prediccin.

Columnas de entrada y de prediccin


El algoritmo de regresin lineal de Microsoft admite las columnas de
entrada y de prediccin especficas que se incluyen en la tabla
siguiente.
Columna

Tipos de contenido

Atributo de entrada

Continuo, cclico, clave, tabla y ordenado

Atributo de prediccin

Continuo, cclico y ordenado

Al crear un modelo utilizando el algoritmo de regresin lineal de


Microsoft, el motor de minera de datos crea una instancia especial de
un modelo de rboles de decisin y proporciona los parmetros que
restringen el rbol para contener todos los datos de entrenamiento en
un nico nodo. Todas las entradas continuas se marcan y evalan
como regresores potenciales, pero nicamente los que se ajusten a los
datos se conservan como regresores en el modelo final. El anlisis
genera una nica frmula de regresin o ninguna frmula para cada
regresor.
Puede ver la frmula de regresin completa en la Leyenda de minera
de datos, haciendo clic en el nodo (Todos) en el Visor de rboles de
Microsoft.

Grfico 02
Modelo de Regresin Lineal - Nodo - Frmula de Regresin

Nodo All

Visor de rboles
de Micorsoft

Frmula de
Regresin Lineal

2.3. Caso Prctico

Puede utilizar la regresin lineal para determinar una relacin entre dos
columnas continuas. Por ejemplo, puede utilizar la regresin lineal para
calcular una lnea de tendencias en los datos de Crditos de Consumo
en Moneda Nacional en funcin al Nmero de Deudores que tienen un
Crdito. Tambin podra utilizar la regresin lineal como precursor para

el desarrollo de modelos de minera de datos ms complejos, con el fin


de evaluar las relaciones entre las columnas de datos.
Aunque hay muchas maneras de calcular la regresin lineal que no
requieren herramientas de minera de datos, la ventaja de utilizar el
algoritmo de regresin lineal de Microsoft para esta tarea es que se
calculan y se prueban automticamente todas las posibles relaciones
entre las variables. No tiene que seleccionar un mtodo de clculo,
como por ejemplo para resolver los mnimos cuadrados. Sin embargo,
la regresin lineal podra simplificar en exceso las relaciones en
escenarios en los que varios factores afectan al resultado.

2.4. Implementacin del Algoritmo de Regresin Lineal

El algoritmo de rboles de decisin de Microsoft se puede utilizar para


muchas tareas: regresin lineal, clasificacin o anlisis de la
asociacin. Para implementar este algoritmo con el propsito de la
regresin lineal, los parmetros del algoritmo se controlan para
restringir el crecimiento del rbol y mantener todos los datos en el
modelo en un nodo nico. En otras palabras, aunque la regresin lineal
est basada en un rbol de decisin, el rbol nicamente contiene una
raz y ninguna bifurcacin: todos los datos residen en el nodo raz.

Para lograr esto, el parmetro MINIMUM_LEAF_CASES del algoritmo


se establece para ser mayor o igual que el nmero total de casos que el
algoritmo utiliza para entrenar el modelo de minera de datos. Con el
parmetro as establecido, el algoritmo no crea nunca una divisin y,
por tanto, lleva a cabo una regresin lineal.

La ecuacin que representa la recta de regresin toma la forma


general de y = ax + b y se conoce como ecuacin de regresin. La
variable Y representa la variable de salida, X representa la variable de

entrada

y a y b son

coeficientes

ajustables. Puede

recuperar

los

coeficientes, intersecciones y otra informacin sobre la frmula de


regresin consultando el modelo de minera de datos completado.

2.5. Contenido del modelo de minera de datos

MODEL_CATALOG: Nombre de la base de datos en la que se


almacena el modelo.

MODEL_NAME: Nombre del modelo.

ATTRIBUTE_NAME
Nodo raz: en blanco
Nodo de regresin: el nombre del atributo de prediccin.

NODE_NAME: Siempre igual que NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME: Identificador nico para el nodo dentro del


modelo. Este valor no puede modificarse.

NODE_TYPE: Un modelo de regresin lineal genera los tipos de nodos


siguientes:

Identificador del

Tipo

Descripcin

Raz del rbol

Contiene la frmula que describe la

de regresin

relacin entre la variable de entrada

tipo de nodo
25

y la de salida.

NODE_CAPTION: Etiqueta o ttulo asociado al nodo. Esta propiedad se


usa principalmente para la presentacin.

Nodo raz: en blanco


Nodo de regresin: todos.

CHILDREN_CARDINALITY: Clculo

del

nmero

de

elementos

secundarios que tiene el nodo.


Nodo raz: indica el nmero de nodos de regresin. Se crea un nodo
de regresin para cada atributo de prediccin del modelo.
Nodo de regresin: siempre es 0.

PARENT_UNIQUE_NAME: Nombre nico del nodo primario del


nodo. Se devuelve NULL para todos los nodos del nivel raz.
NODE_DESCRIPTION: Descripcin del nodo.
Nodo raz: en blanco
Nodo de regresin: todos.

NODE_RULE: No se utiliza para los modelos de regresin lineal.

MARGINAL_RULE: No se utiliza para los modelos de regresin lineal.

NODE_PROBABILITY: Probabilidad asociada a este nodo.


Nodo raz: 0
Nodo de regresin: 1

MARGINAL_PROBABILITY: Probabilidad de alcanzar el nodo desde el


nodo primario.
Nodo raz: 0
Nodo de regresin: 1

NODE_DISTRIBUTION: Tabla anidada que proporciona estadsticas


sobre los valores del nodo.
Nodo raz: 0

Nodo de regresin: tabla que contiene los elementos que se usan


para generar la frmula de regresin. Un nodo de regresin contiene
los tipos de valores siguientes:

VALUETYPE
1 (ausente)
3 (continuo)
7 (coeficiente)
8 (ganancia de puntuacin)
9 (estadsticas)
11 (interseccin)

NODE_SUPPORT: Nmero de los casos que admiten este nodo.


Nodo raz: 0
Nodo de regresin: recuento de casos de entrenamiento.

MSOLAP_MODEL_COLUMN: Nombre del atributo de prediccin.

MSOLAP_NODE_SCORE: Igual que NODE_PROBABILITY

MSOLAP_NODE_SHORT_CAPTION: Etiqueta que se utiliza para la


visualizacin.

2.6. Distribucin de Nodos para los Atributos Continuos

La mayora de la informacin importante en un nodo de regresin est


incluida en la tabla NODE_DISTRIBUTION. En el ejemplo siguiente se
muestra el diseo de la tabla NODE_DISTRIBUTION. En este ejemplo,
la estructura de minera de datos de RL_CreditosConsumoMN_ND se
ha utilizado para crear un modelo de regresin lineal que predice el
monto de los crditos de consumo en moneda nacional segn el

nmero de deudores que tienen un crdito con la institucin financiera


analizada. Se ha utilizado datos extrados de las estadsticas publicadas
en formato Excel en la pgina web de la SBS.

La tabla NODE_DISTRIBUTION contiene varias filas, cada una


agrupada por una variable. Las primeras dos filas siempre son de los
tipos de valores 1 y 3, y describen el atributo de destino. Las filas
siguientes

proporcionan

los

detalles

sobre

la

frmula

para

un regresor determinado. Un regresor es una variable de entrada que


tiene una relacin lineal con la variable de salida. Puede haber varios
regresores y cada uno tendr una fila independiente para el coeficiente
(VALUETYPE = 7), la ganancia de puntuacin (VALUETYPE = 8) y las
estadsticas (VALUETYPE = 9). Finalmente, la tabla incluye una fila que
contiene la interseccin de la ecuacin (VALUETYPE = 11).

Para obtener la tabla NODE_DISTRIBUTION de la frmula resultante


del ejemplo, se escribe la siguiente consulta DMX, utilizando la
herramienta consulta DMX de Analysis Services ubicada en
Microsoft Sql Server Management studio.

Grfico 03
Tabla del Nodo de Distribucin

2.7. Elementos de la frmula de regresin

La tabla NODE_DISTRIBUTION anidada contiene cada elemento de la


frmula de regresin en una fila independiente. Las dos primeras filas
de datos en los resultados del ejemplo contienen informacin sobre el
atributo de prediccin, Crditos en Moneda Nacional, que modela la
variable dependiente. La columna SUPPORT muestra el recuento de
casos de compatibilidad de los dos estados de este atributo: o bien hay
disponible un valor Crditos en Moneda Nacional o el valor Crditos
en Moneda Nacional no est.
La columna VARIANCE indica la varianza calculada del atributo de
prediccin. La varianza es una medida de la dispersin de los valores
de un ejemplo, dada una distribucin esperada. La varianza aqu se
calcula tomando el promedio de la desviacin cuadrada de la media. La
raz cuadrada de la varianza tambin se conoce como desviacin
estndar. Analysis Services no proporciona la desviacin estndar pero
se puede calcular fcilmente.
Para cada regresor se generan tres filas. Contienen el coeficiente, la
ganancia de puntuacin y estadsticas de regresores.
Finalmente, la tabla contiene una fila que proporciona la interseccin de
la ecuacin.

Coeficiente
Para cada regresor se calcula un coeficiente (VALUETYPE = 7). El
propio coeficiente aparece en la columna ATTRIBUTE_VALUE,
mientras que la columna VARIANCE indica la varianza para el
coeficiente. Los coeficientes se calculan con una linealidad mxima.

Ganancia de puntuacin
La ganancia de puntuacin (VALUETYPE = 8) de cada regresor
representa la puntuacin de grado de inters del atributo. Puede utilizar
este valor para calcular la utilidad de varios regresores.

Estadsticas
La estadstica de regresores (VALUETYPE = 9) es la media del atributo
para los casos que tienen un valor. La columna ATTRIBUTE_VALUE
contiene la propia media, mientras que la columna VARIANCE contiene
la suma de desviaciones de la media.

Interseccin
Normalmente, la interseccin (VALUETYPE = 11) o valor residual en
una ecuacin de regresin indica el valor del atributo de prediccin, en
el punto del atributo de entrada, es 0. En muchos casos, esto podra no
suceder y se podran producir resultados poco intuitivos.
Por ejemplo, en el modelo que prediga el monto de los Crditos de
Consumo en Moneda Nacional segn el Nmero de Deudores, es intil
obtener informacin sobre los montos con 0 Deudores. En la vida real,
suele ser ms til saber el comportamiento en el margen con respecto a
los valores medios. Por consiguiente, SQL Server Analysis Services
modifica la interseccin para expresar cada regresor en una relacin
con la media.
Este ajuste es difcil de ver en el contenido del modelo de minera de
datos, pero es obvio si se ve la ecuacin completada en la Leyenda de
minera de datos del Visor de rboles de Microsoft. La frmula de
regresin se desva del punto 0 al punto que representa la media. Esto
presenta una vista que es ms intuitiva dados los datos actuales.
Por consiguiente, suponiendo que el Nmero de Deudores medios est
alrededor de 373125.45 deudores de un crdito, la interseccin

(VALUETYPE = 11) para la frmula de regresin indica el monto del


crdito de consumo en moneda nacional medio.

2.8. Ejemplos de consultas de modelos de regresin lineal

Cuando se crea una consulta en un modelo de minera de datos, puede


tratarse de una consulta de contenido, que proporciona detalles de los
patrones detectados durante el anlisis, o de una consulta de
prediccin, que utiliza

los

patrones del modelo para

realizar

predicciones de los nuevos datos. Por ejemplo, una consulta de


contenido podra proporcionar detalles adicionales sobre la frmula de
regresin, mientras que una consulta de prediccin podra indicar si un
nuevo punto de datos se ajusta al modelo. Tambin se pueden
recuperar metadatos sobre el modelo mediante una consulta.

Consultas de Contenido a partir de un Modelo de Regresin Lineal

Consulta de ejemplo 1: recuperar la frmula de regresin del


modelo
La consulta siguiente devuelve el contenido del modelo de minera de
datos

del

modelo

de

regresin

lineal

RL_CREDITOSCONSUMOMN_ND que se gener utilizando el origen


de datos OD_DWFINANCIERO (Permite conectarse al Data Warehouse
DWFINANCIERO). Este modelo predice Monto del Crdito en Moneda
Nacional en funcin del Nmero de Personas que tienen un crdito con
alguna Caja Municipal.
La consulta devuelve el contenido del nodo que contiene la frmula de
regresin

(Ver

almacenados

Grfico
en

una

03). Cada
fila

variable

independiente

coeficiente
de

la

estn
tabla

NODE_DISTRIBUTION anidada. Si desea ver la frmula de regresin

completa, utilice el Visor de rboles de Microsoft, haga clic en el


nodo(Todos) y abra la Leyenda de minera de datos (Ver Grfico 02).

Consulta de ejemplo 2: devolver solo el coeficiente para el modelo


Utilizando la enumeracin VALUETYPE, puede devolver solo el
coeficiente para la ecuacin de regresin, como se muestra en la
consulta siguiente:

Grfico 04
Consulta - Devolver el Coeficiente del Modelo

Consultas de Predicciones a partir de un modelo de Regresin


Lineal

Consulta de ejemplo 3: predecir los montos de Crditos de


Consumo en Moneda Nacional de las Cajas Municipales utilizando
una consulta singleton
La manera ms fcil de crear una sola consulta en un modelo de
regresin es generar la consulta DMX siguiente: Predecir Monto del
Crdito de Consumo en Moneda Nacional en las Cajas Municipales,
para una cantidad de 343088 Deudores.

Grfico 05
Consulta DMX y su Resultado

Si comparamos el monto predicho (s/. 1485161.90996223 - Grfico 05)


con la cantidad real (s/. 1485707.497 - Grfico 06) de acuerdo al dato
almacenado en el Data Warehouse, observamos que la desviacin es
de apenas s/. 545.58703777, teniendo en cuenta que la desviacin
estndar es de s/. 18217.3781091002 (Ver Grfico 07).
Grfico 06
Montos Reales de los Crditos de Consumo en Moneda Nacional

Consulta de ejemplo 4: usar funciones de prediccin con un


modelo de regresin
Puede utilizar muchas de las funciones de prediccin estndar con
modelos de regresin lineal. En el ejemplo siguiente se muestra cmo
agregar algunas estadsticas descriptivas a los resultados de las
consultas de prediccin. A partir de estos resultados, puede que haya
una desviacin considerable de la media para este modelo.

Grfico 07
Consulta DMX - Funcin para Predecir la Desviacin Estndar

Consulta de ejemplo 5: usar funciones de prediccin con un


modelo de regresin
El ejemplo siguiente devuelve el estado predicho de la columna
Crditos en Moneda Nacional y devuelve en una tabla la cantidad de
casos entrenados, la probabilidad, la varianza, la desviacin estndar.

Grfico 08
Consulta DMX - Funcin Histograma

III.

Algoritmo de Bayes Naive de Microsoft

Es un algoritmo de clasificacin basado en el Teoremas de Bayes y que


Microsoft SQL Server Analysis Services proporciona para el modelado de
prediccin. El algoritmo utiliza tcnicas Bayesianas pero no tiene en cuenta
las dependencias que puedan existir.
Desde el punto de vista computacional, el algoritmo es menos complejo que
otros algoritmos de Microsoft y, por tanto, resulta til para generar
rpidamente modelos de minera de datos para descubrir relaciones entre
columnas de entrada y columnas de prediccin. Puede utilizar este algoritmo
para realizar la exploracin inicial de los datos y, ms adelante, aplicar los
resultados para crear modelos de minera de datos adicionales con otros
algoritmos ms complejos y precisos desde el punto de vista computacional.

Realizar Predicciones
Una vez entrenado el modelo, los resultados se almacenan como un
conjunto de patrones que se puede explorar o utilizar para realizar
predicciones.

Puede crear consultas para devolver las predicciones sobre cmo se


relacionan los nuevos datos con el atributo de prediccin, o puede recuperar
estadsticas que describan las correlaciones que ha hallado el modelo.

3.1. Funcionamiento del Algoritmo

El algoritmo de Bayes Naive de Microsoft calcula la probabilidad de


cada estado de cada columna de entrada, dado cada posible estado de
la columna de prediccin.

Para comprender cmo funciona, utilice el visor de Bayes Naive de


Microsoft (como se muestra en el siguiente grfico Grfico 09) para
consultar una representacin visual del modo en que el algoritmo
distribuye los estados.

Grfico 09
Visor Bayes Naive - Distribucin de los Estados Entrada y Prediccin

Columna s
de Entrada

Estados de las
Columnas de
Entrada

Estados de la Columna de Prediccin

Aqu, el Visor Bayes naive de Microsoft muestra cada columna de


entrada del conjunto de datos e indica cmo se distribuyen los estados
de cada columna, dado cada estado de la columna de prediccin.
Esta vista del modelo se utilizara para identificar las columnas de
entrada que son importantes para diferenciar los distintos estados de la
columna de prediccin.
Por ejemplo, en la fila Descripcin Tipo Trabajador que se muestra
aqu, la distribucin de valores de entrada es visiblemente diferente
para el centro de costo Proceso de Cobranza - Paita y el Centro de
Costo Pozo Pachitea - Piura. Esto indica que la entrada, Descripcin
Tipo Trabajador = empleados estables o practicantes operativos, es un
factor de prediccin potencial.
El visor tambin proporciona valores para las distribuciones, de modo
que se pueda ver la probabilidad de los trabajadores se desempeen en
un determinado centro de costo de la empresa de acuerdo a su estado
civil, la probabilidad de que un trabajador soltero se desempee en el
centro de costo Pozo Pachitea - Piura es de 0,500, y la probabilidad que
se desempee en el centro de costo Proceso de Cobranza Paita es de
0,300. En este modelo.

Asimismo, podemos visualizar la red de dependencias entre las


columnas de entrada y las columnas de prediccin (Grfico 10)

Grfico 10
Visor Bayes Naive - Red de Dependencias

En el Grfico 10, el nodo seleccionado Centro de Costo (de un


trabajador) puede ser predecido por los nodos Sexo, Estado Civil, Tipo
de Trabajador, la zona donde funciona la empresa y la Unidad
Organizativa.

3.2. Datos requeridos para los modelos Bayes Naive

Al preparar los datos para su uso en un modelo de entrenamiento


Bayes naive, conviene comprender qu requisitos son imprescindibles
para el algoritmo, incluidos el volumen de datos necesario y la forma en
que estos datos se utilizan.
Los requisitos para un modelo Bayes naive son los siguientes:

Una columna de una sola clave: cada modelo debe contener


una columna numrica o de texto que identifique cada registro de
manera nica. No estn permitidas las claves compuestas.

Columnas de entrada: en un modelo Bayes naive, todas las


columnas deben ser discretas o discretizadas.
En un modelo Bayes naive, tambin es importante asegurarse de
que los atributos de entrada sean independientes unos de
otros. Esto es particularmente importante al utilizar el modelo para
la prediccin.

El motivo es que, si utiliza dos columnas de datos que ya estn


estrechamente

relacionadas,

el

efecto

sera

multiplicar

la

influencia de esas columnas, lo que puede ocultar otros factores


que influyen en el resultado.

Al contrario, la capacidad del algoritmo de identificar las


correlaciones entre las variables es til cuando est explorando un
modelo o conjunto de datos, para identificar las relaciones entre
las entradas.

Al menos una columna de prediccin: el atributo de prediccin


debe contener valores discretos o discretizados.
Los valores de la columna predecible se pueden tratar como
entradas. Este ejercicio puede ser til si explora un nuevo conjunto
de datos, para encontrar relaciones entre las columnas.

3.3. Estructura de un modelo Bayes naive

Un modelo Bayes naive tiene un nodo primario nico que representa el


modelo y sus metadatos, y debajo de dicho nodo, varios rboles
independientes

que

representan

los

atributos

de

prediccin

seleccionados. Adems de los rboles para los atributos, cada modelo


contiene un nodo de estadsticas marginales (NODE_TYPE = 26) que

proporciona estadsticas descriptivas sobre el conjunto de casos de


entrenamiento.

Para cada atributo de prediccin y valor, el modelo genera un rbol que


contiene informacin que describe cmo afectaron las columnas de
entrada al resultado de ese atributo de prediccin concreto. Cada rbol
contiene el atributo de prediccin y su valor (NODE_TYPE = 9) y, a
continuacin, una serie de nodos que representan los atributos de
entrada (NODE_TYPE = 10). Dado que los atributos de entrada
normalmente tienen varios valores, cada uno de dichos atributos
(NODE_TYPE

10)

puede

tener

varios

nodos

secundarios

(NODE_TYPE = 11), uno para cada estado especfico del atributo.

Nota: Dado que un modelo Bayes naive no admite tipos de datos


continuos, todos los valores de las columnas de entrada se tratan como
discretos o discretizados. Si lo desea, puede especificar cmo se
discretiza un valor.

Grfico 11
Estructura de un Modelo Bayes Naive

3.4. Contenido del Modelo para un Modelo Bayes naive

A continuacin se describen las columnas del contenido del modelo de


minera de datos que tiene una relevancia especial para los modelos
Bayes naive.

MODEL_CATALOG: Nombre de la base de datos en la que se


almacena el modelo.

MODEL_NAME: Nombre del modelo.

ATTRIBUTE_NAME: Nombres de los atributos que corresponden a este


nodo.
Raz del modelo: nombre del atributo de prediccin.
Estadsticas marginales: no aplicable.
Atributo de prediccin: nombre del atributo de prediccin.
Atributo de entrada: nombre del atributo de entrada.
Estado de atributo de entrada: solo el nombre del atributo de
entrada. Para

obtener

el

estado,

use

MSOLAP_NODE_SHORT_CAPTION.

NODE_NAME: Nombre del nodo. Esta columna contiene el mismo valor


que NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME: Nombre nico del nodo. Los nombres nicos


se asignan segn una convencin que proporciona informacin sobre
las relaciones entre los nodos.

NODE_TYPE: Un modelo Bayes naive genera los tipos de nodos


siguientes:

Identificador del tipo de nodo


26 (NaiveBayesMarginalStatNode)

9 (atributo de prediccin)
10 (atributo de entrada)

11 (estado de atributo de entrada)

Descripcin
Contiene estadsticas que describen el
conjunto completo de casos de
entrenamiento para el modelo.
Contiene el nombre del atributo de
prediccin.
Contiene el nombre de una columna de
atributos de entrada, as como nodos
secundarios que contienen los valores
para el atributo.
Contiene los valores o los valores de
datos discretos de todos los atributos de
entrada que se emparejaron con un
atributo de salida determinado.

NODE_CAPTION: Etiqueta o ttulo asociado al nodo. Esta propiedad se


usa principalmente para la presentacin.
Raz del modelo: en blanco.
Estadsticas marginales: en blanco.
Atributo de prediccin: nombre del atributo de prediccin.
Atributo de entrada: nombre del atributo de prediccin y del atributo de
entrada actual. Ej.:
Centro de Costo -> Descripcin Tipo Trabajador

Estado de atributo de entrada: nombre del atributo de prediccin y del


atributo de entrada actual, ms el valor de la entrada. Ej.:
Centro de Costo -> Descripcin Tipo Trabajador = Practicantes
Operativos

CHILDREN_CARDINALITY: Nmero de elementos secundarios que


tiene el nodo.
Raz del modelo: recuento de los atributos de prediccin del modelo,
ms 1 para el nodo de estadsticas marginales.
Estadsticas
secundarios.

marginales:

por

definicin,

no

tiene

elementos

Atributo de prediccin: recuento de los atributos de entrada que


estaban relacionados con el atributo de prediccin actual.
Atributo de entrada: recuento de los valores discretos o discretizados
para el atributo de entrada actual.
Estado de atributo de entrada: siempre es 0.

PARENT_UNIQUE_NAME: Nombre nico del nodo primario.

NODE_DESCRIPTION: Coincide con el ttulo del nodo.

NODE_RULE: Representacin XML del ttulo del nodo.

MARGINAL_RULE: Coincide con la regla del nodo.

NODE_PROBABILITY: Probabilidad asociada a este nodo.


Raz del modelo: siempre es 0.
Estadsticas marginales: siempre es 0.
Atributo de prediccin: siempre es 1.
Atributo de entrada: siempre es 1.
Estado de atributo de entrada: nmero decimal que representa la
probabilidad del valor actual. Los valores de todos los estados de los
atributos de entrada bajo el nodo de atributo de entrada primario suman
1.

MARGINAL_PROBABILITY: Coincide con la probabilidad del nodo.

NODE_DISTRIBUTION:

Tabla

que

contiene

el

histograma

probabilidad del nodo.

NODE_SUPPORT: Nmero de casos que admiten este nodo.

de

Raz del modelo: recuento de todos los casos de los datos de


entrenamiento.
Estadsticas marginales: siempre es 0.
Atributo de prediccin: recuento de todos los casos de los datos de
entrenamiento.
Atributo de entrada: recuento de todos los casos de los datos de
entrenamiento.
Estado de atributo de entrada: recuento de los casos de los datos de
entrenamiento que solo contienen este valor concreto.

MSOLAP_MODEL_COLUMN:

Etiqueta

que

se

usa

para

la

visualizacin. Normalmente, coincide con ATTRIBUTE_NAME.

MSOLAP_NODE_SCORE: Representa la importancia del atributo o


valor dentro del modelo.
Raz del modelo: siempre es 0.
Estadsticas marginales: siempre es 0.
Atributo de prediccin: siempre es 0.
Atributo de entrada: Puntuacin interestingness para el atributo de
entrada actual en relacin con el atributo de prediccin actual.
Estado de atributo de entrada: siempre es 0.

MSOLAP_NODE_SHORT_CAPTION: Cadena de texto que representa


el nombre o el valor de una columna.
Raz del modelo: en blanco.
Estadsticas marginales: en blanco.
Atributo de prediccin: nombre del atributo de prediccin.
Atributo de entrada: nombre del atributo de entrada.
Estado de atributo de entrada: valor o valor de datos discretos del
atributo de entrada.

3.5. Usar nombres de nodo e identificadores

La denominacin de los nodos en un modelo Bayes naive proporciona


informacin adicional sobre el tipo de nodo, lo que facilita la
comprensin de las relaciones entre los tipos de informacin del
modelo. En la tabla siguiente se muestra la convencin para los
identificadores asignados a los distintos tipos de nodos.

Tipo de nodo
Raz del modelo (1)

Convencin para el identificador de nodo


Siempre equivale a 0.

Nodo de estadsticas Un valor de identificador arbitrario.


marginales (26)
Atributo de prediccin Nmero hexadecimal a partir de 10000000.
(9)
Ejemplo: 100000001, 10000000b
Atributo de entrada Un nmero hexadecimal de dos partes en el que la
(10)
primera siempre es 20000000, y la segunda comienza
con el identificador hexadecimal del atributo de
prediccin relacionado.
Ejemplo: 20000000b00000000
En este caso, el atributo de prediccin relacionado es
10000000b.
Estado de atributo de Un nmero hexadecimal de tres partes en el que la
entrada (11)
primera siempre es 30000000, la segunda comienza
con el identificador hexadecimal del atributo de
prediccin relacionado y la tercera representa el
identificador del valor.
Ejemplo: 30000000b00000000200000000
En este caso, el atributo de prediccin relacionado es
10000000b.

Puede usar los identificadores para relacionar los atributos de entrada y


sus estados con un atributo de prediccin. Por ejemplo, la consulta
siguiente devuelve los nombres y los ttulos de los nodos que

representan las posibles combinaciones de atributos de entrada y de


prediccin para el M_BAYESNAIVE.
Grfico 12
Atributos de Prediccin con Atributos de Entrada

A continuacin, puede usar los identificadores de los nodos primarios


para recuperar los nodos secundarios. La consulta siguiente recupera
los nodos que contienen valores para el atributo Descripcin Tipo
Trabajador, junto con la probabilidad de cada nodo.

Grfico 13
Estados de los Atributos de Entrada

3.6. Tabla NODE_DISTRIBUTION


La columna de tabla anidada, NODE_DISTRIBUTION, normalmente
contiene estadsticas sobre la distribucin de los valores en el nodo. En
un modelo Bayes naive, esta tabla se rellena solo para los nodos
siguientes:

Tipo de nodo

Contenido de la tabla anidada

Raz del modelo (1)

En blanco.

Nodo de estadsticas
marginales (24)

Contiene informacin de resumen para todos los atributos de


prediccin y de entrada, para el conjunto completo de datos
de entrenamiento.

Atributo de prediccin (9) En blanco.

Atributo de entrada (10)

En blanco.

Estado de atributo de
entrada (11)

Contiene estadsticas que describen la distribucin de los


valores de los datos de entrenamiento para esta combinacin
concreta de un valor de prediccin y un valor de atributo de
entrada.

Puede usar los identificadores de nodo o los ttulos de nodo para


recuperar un mayor nivel de detalle. Por ejemplo, la consulta siguiente
recupera columnas concretas de la tabla NODE_DISTRIBUTION solo
para aquellos nodos de atributo de entrada que estn relacionados con
el valor 'Desc Tipo Trab = PRACTICANTES OPERATIVOS'.

Grfico 14

En estos resultados, el valor de la columna SUPPORT le indica el


recuento de Trabajadores que son del tipo de trabajador especificado
(PRACTICANTES OPERATIVOS). La columna PROBABILITY contiene
la probabilidad de cada valor de atributo, calculada solo para este nodo.

Informacin en el nodo de estadsticas marginales

En un modelo Bayes naive, la tabla anidada para el nodo de


estadsticas marginales contiene la distribucin de los valores para el
conjunto completo de datos de entrenamiento. Por ejemplo, la
CONSULTA DMX siguiente devuelve una lista parcial de las
estadsticas de la tabla anidada NODE_DISTRIBUTION para el
modelo M_BAYESNAIVE:

SELECT FLATTENED
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT],
[PROBABILITY], VALUETYPE FROM NODE_DISTRIBUTION) as t
FROM M_BAYESNAIVE.content
WHERE NODE_TYPE = 11

En un modelo Bayes naive, no puede haber atributos continuos; por lo


tanto, todos los datos numricos se representan como discretos
(VALUE_TYPE = 4) o discretizados (VALUE_TYPE = 5).
Se agrega un valor Missing (VALUE_TYPE = 1) a cada atributo de
entrada y de salida para representar valores potenciales que no
estaban presentes en los datos de entrenamiento. Debe tener cuidado
de

distinguir

entre

"missing"

como

cadena

el

valor Missing predeterminado.

3.7. Consultar un Modelo de Bayes Naive


Ejemplo de consulta 1: obtener metadatos del modelo usando DMX
Al consultar el conjunto de filas de esquema de minera de datos, puede
buscar los metadatos del modelo. Esto podra incluir cundo se cre,
cundo se proces en ltimo lugar, el nombre de la estructura de
minera de datos en la que se basa el modelo y el nombre de las
columnas que se usan como atributos de prediccin. Tambin se
pueden devolver los parmetros que se utilizaron cuando se cre el
modelo.

Grfico 15
Metadatos del Modelo usando DMX

Ejemplo de consulta 2: recuperar un resumen de los datos de


entrenamiento
En un modelo Bayes naive, el nodo de estadsticas marginal almacena
informacin agregada sobre la distribucin de los valores de los datos
de entrenamiento. Este resumen es cmodo y le evita tener que crear
consultas SQL con los datos de entrenamiento para encontrar la misma
informacin.
En el ejemplo siguiente se utiliza una consulta de contenido DMX para
recuperar los datos del nodo (NODE_TYPE = 24). Dado que las
estadsticas estn almacenadas en una tabla anidada, la palabra clave
FLATTENED se utiliza para facilitar la visualizacin de los resultados, si
la retiramos se visualiza la consulta como una tabla.

Por ejemplo, estos resultados le indican el nmero de casos de


entrenamiento para cada valor discreto (VALUETYPE = 4), junto con la
probabilidad

calculada,

(VALUETYPE = 1).

ajustados

para

los

valores

que

faltan

Grfico 16
Consulta Resumen de los Datos de Entrenamiento - Usando DMX

Ejemplo de consulta 3: buscar ms informacin sobre atributos


Dado que un modelo Bayes naive a menudo contiene informacin
compleja sobre las relaciones entre atributos diferentes, la manera ms
fcil de ver estas relaciones es utilizar el Visor Bayes naive de
Microsoft. Sin embargo, puede crear consultas DMX para devolver los
datos.
En el ejemplo siguiente se muestra cmo devolver informacin del
modelo sobre un atributo determinado, Desc Tipo Trab (Descripcin .del
Tipo de Trabajador - Grfico 17)
Esta consulta devuelve dos tipos de nodos: el nodo que representa el
atributo de entrada (NODE_TYPE = 10) y nodos para cada valor del
atributo (NODE_TYPE = 11). El ttulo del nodo se utiliza para

identificarlo, en lugar del nombre, porque el ttulo muestra tanto el


nombre como el valor del atributo.

Grfico 17
Informacin del Atributo de Entrada Desc Tipo Trab - Usando DMX

Algunas de las columnas almacenadas en los nodos son las mismas


que se pueden obtener de los nodos de estadsticas marginales, como
los valores de compatibilidad de los nodos y de puntuacin de la
probabilidad de los nodos. Sin embargo, MSOLAP_NODE_SCORE es
un valor especial que solamente se proporciona para los nodos de
atributos de entrada e indica la importancia relativa de este atributo en
el modelo. Puede ver casi toda esa misma informacin en el panel Red
de dependencia del visor; sin embargo, el visor no proporciona
puntuaciones.
La consulta siguiente devuelve las puntuaciones de importancia de
todos los atributos del modelo:

Grfico 18
Puntuaciones de Importancia de los Atributos del Modelo

Ejemplo de consulta 4: usar procedimientos almacenados del


sistema
Para explorar los resultados, puede utilizar algunos procedimientos
almacenados de sistema de Analysis Services adems de escribir sus
propias consultas de contenido. Para utilizar un procedimiento
almacenado de sistema, anteponga al nombre del procedimiento
almacenado la palabra clave CALL.

GetPredictableAttributes devuelve la lista de atributos de prediccin de


un modelo que se especifica junto con el NODE_UNIQUE_NAME para
cada atributo.
Grfico 18
Procedimiento Almacenado - Lista Atributos de Prediccin

Una vez que tenga la lista de atributos, puede llamar al procedimiento


almacenado GetAttributeCharacteristics para devolver una tabla que
describe las caractersticas de un valor de un atributo. Esta funcin
toma el NODE_UNIQUE_NAME del atributo de prediccin que es de
inters, el tipo de contenido, un valor tipo bandera, y un valor de umbral,
junto con el nombre del modelo y devuelve una lista ordenada de
atributos y los valores que se correlacionan con el valor del atributo de
prediccin seleccionado, junto con la frecuencia de la correlacin. El
valor tipo bandera indica a la funcin si el valor est especificando un
valor del modelo o el valor intrnseco "perdido". El tipo de valor a 0
indica que el valor de los intereses es un estado conocido del atributo por ejemplo, Masculino o Femenino. Si se establece en 1 indica que el
valor es el valor intrnseco "perdido", que se produce cuando el atributo
no aparece en un caso, cuando es NULL, o cuando el valor especfico
se elimina a partir del modelo de seleccin de caractersticas. El umbral
indica la resistencia mnima a la correlacin devuelto por la funcin y se
usa para limitar el nmero de filas devueltas.

Grfico 19
Procedimiento Almacenado - Caractersticas del Atributo de
Prediccin Centro de Costo

El procedimiento almacenado GetAttributeHistogram('M_BayesNaive',


'100000000') (Grfico 20) devuelve el histograma del atributo de
prediccin que es de inters (estados del atributo y frecuencia), como
parmetros

utiliza

el

NODE_UNIQUE_NAME.

nombre

del

modelo

creado

el

Grfico 20
Histograma - Estados y Soporte por Estado para el Atributo de
Prediccin Centro de Costo

El

procedimiento

almacenado

GetAttributeDiscrimination('M_BayesNaive',
PROCESO

LOGISTICO',1,'GASTOS

CALL

'100000000',

PROCESO

'GASTOS

CONTABLE',1,

0.0005) devuelve la calificacin despus de discriminar dos estados de


un atributo de prediccin (En el ejemplo los estados son: 'GASTOS
PROCESO LOGISTICO' contra 'GASTOS PROCESO CONTABLE') los
dos valores 1 al costado de cada estado indica que ambos son un

estado real. 0 indica el estado desaparecido y 2 indica el resto de los


estados. El umbral de probabilidad 0.0005 se usa para filtrar los
resultados. El resultado contiene factores de influencia y sus puntajes
de discriminacin. El signo de la puntuacin de la discriminacin indica
si la combinacin de la columna valor favorece el estado 1(positivo) o el
estado 2(negativo).

Grfico 21
Discriminacin de dos Estados del Atributo Prediccin Centro de
Costo

3.8. Realizar predicciones utilizando el modelo

Consulta de ejemplo 5:
La consulta siguiente utiliza una consulta singleton para proporcionar un
nuevo valor y predecir, segn el modelo, donde es probable que un
nuevo trabajador con las caractersticas de estado civil casado y tipo de
trabajador obrero estable sea ubicado en un centro de costo de la
empresa de la empresa.
La

respuesta

sta

consulta

Electromecnico Piura - Castilla

es:

Mantenimiento

Equipo

Grfico 22
Consulta de Prediccin DMX

Ejemplo de consulta 6: devolver predicciones con probabilidad y


compatibilidad
Adems de predecir un resultado, a menudo se desea conocer la
precisin de la prediccin. La consulta siguiente utiliza la misma
consulta singleton que el ejemplo anterior, pero agrega la funcin de
prediccin PredictHistogram (DMX) para devolver una tabla anidada
que contiene las estadsticas de la compatibilidad de la prediccin.
Grfico 23
Consulta de Prediccin DMX

La fila inicial en la tabla muestra los ajustes para la compatibilidad y la


probabilidad del valor que falta. Los valores de la desviacin estndar y
la varianza siempre son 0, porque los modelos Bayes naive no pueden
modelar valores continuos.

IV.

BIBLIOGRAFIA
6.1 Csar Prez Lpez, Daniel Santn Gonzlez. Minera de Datos:
Tcnicas y Herramientas. Paraninfo. 1 Edicin. 2008.
6.2 Jos Hernndez Orallo. Departamento de Sistemas Informticos y
Computacin. Universidad Politcnica de Valencia.
6.3 Tutorial de SQL Server Analysis Services
http://msdn.microsoft.com/es-es/library/ms170208(v=sql.100).aspx
6.4 Tutoriales para disear e implementar paquetes
http://msdn.microsoft.com/library/ms167031(v=sql.105)
6.5 SQL Server 2008: Reporting Services
http://msdn.microsoft.com/es-es/sqlserver/cc511478.aspx