Módulo Mineria de Datos

UNIVERSIDAD NACIONAL DE PIURA
FACULTAD DE INGENIERIA INDUSTRIAL

ESCUELA PROFESIONAL DE INGENIERIA INFORMTICA
MDULO
ALGORITMOS DE MINERIA DE DATOS CON MICROSOFT SQL
SERVER
AUTOR
MBA. PERSI WILLIANSH CABRERA ANTN ING.
PIURA - PER
ABRIL - 2013
INDICE
PG.
INTRODUCCIN
04
I.
ASPECTOS GENERALES
06
1.1. Herramientas para la Toma de Decisiones
06
1.2. Caractersticas de las Herramientas OLAP
08
1.3. Modelo Multidimensional
09
1.4. Componentes del Modelo Multidimensional
10
1.5. Operaciones en Modelos Multidimensionales
14
1.6. Descripcin de los Procesos de Anlisis en Lnea
16
1.7. Definicin de Almacn de Datos (Data Warehouse)
19
1.8. Objetivos del Data Warehouse
20
1.9. Caractersticas del Data Warehouse
20
1.10. Problemas y Ventajas de los Almacenes de Datos en las

Organizaciones
II.
24
1.11. Arquitectura de un Almacn de Datos
24
1.12. Sistemas dorsales (back end) y frontales (front end)
25
ELABORACION DE UN DATA WAREHOUSE
27
2.1. Marco de Trabajo para Crear un Almacn de Datos
27
2.2. Procedimiento para la Construccin de un Almacn de Datos
29
2.3. Descripcin del Almacn de Datos
30
2.4. Caso Prctico: Estructuras de Datos para un Data Warehouse

Financiero
III.
32
2.5. Diagrama del Data Warehouse elaborado
39
USO DE LA HERRAMIENTA INTEGRATION SERVICE
40
3.1. Servicio de Transformacin de Datos (DTS)
40
3.2. Creacin de un paquete
42
3.3. Uso del Contenedor de Bucles Foreach
44
3.4. Herramienta para ejecucin de paquetes
46
IV.
USO DE LA HERRAMIENTA ANALISYS SERVICE Y EXCEL
47
4.1. Caso Prctico: Diseo de los Datamarts
47
4.2. Diseo de las Jerarquas de las Dimensiones
48
4.3. Caso Prctico Creacin de cubos
53
4.4. Caso Prctico: Extraccin de cubos a Excel
56
4.5. Caso Prctico: Interpretacin en forma general de los cubos creados.58
V.
VI.
USO DE LA HERRAMIENTA REPORTING SERVICE
67
5.1. Modelos de Reportes
67
BIBLIOGRAFIA
71
INTRODUCCIN
Las empresas actualmente poseen grandes volmenes de datos, obtenidos a

travs de sus sistemas de informacin, la cantidad de datos que ha sido
almacenada en las bases de datos de dichas empresas excede nuestra habilidad
para reducir y analizar los datos sin el uso de tcnicas de anlisis automatizadas.
La Minera de Datos es actualmente una de las tcnicas de la Inteligencia de
Negocios, que se encarga de buscar a travs de la implementacin y uso de
algoritmos matemticos y estadsticos automatizados, relaciones o patrones de
comportamiento vlidos, potencialmente tiles, y comprensibles en los datos
entrenados o procesados, para ayudar a la toma de decisiones.
En la parte I se resume una serie de aspectos generales relacionados con el tema,

como: Definiciones acerca del modelo multidimensional, sus componentes,
operaciones, funcionamiento, tambin se estudia el concepto de Data Warehouse,
objetivos, caractersticas, problemas y ventajas, finalmente se comenta sobre los
sistemas dorsales y frontales en una aplicacin OLAP.
La parte II explica cmo se elabora un Data Warehouse, describiendo en qu
consiste y detallando cul es el marco de trabajo, adems del procedimiento que
se debe seguir, todo ello a travs de un caso prctico referente a entidades
microfinancieras.
La parte III explica el uso de la herramienta Integration Service, para la
transformacin de los datos a travs de la creacin y ejecucin de paquetes, los
cuales hacen uso de las herramientas de control y flujos de datos, que vienen
implementados en el software.
La parte IV explica con casos prcticos el uso de la herramienta Analysis Services,
a travs de la creacin los datamarts, jerarquas, conexin de Analysis Service a
Microsoft Excel para la presentacin de los cubos creados. Finalmente la
interpretacin de los mismos por parte de los usuarios finales de la informacin

obtenida.
La parte V explica el uso del Servicio de Reportes para la presentacin de los
datos convertidos en informacin a los usuarios finales de la misma.
I.
ASPECTOS GENERALES
1.1. Tipos de Contenidos

El tipo de datos determina el modo en que los algoritmos procesan los
datos de esas columnas cuando se crean modelos de minera. Cada
tipo de datos de Analysis Services admite uno o varios tipos de
contenido para la minera de datos.
El tipo de contenido describe el comportamiento del contenido incluido

en la columna. Por ejemplo, si el contenido de una columna se repite en
un intervalo concreto, como el estado civil de las personas, puede
especificar el tipo de contenido de esa columna como cclico.
Algunos algoritmos requieren tipos de datos y de contenido especficos

para que funcionen correctamente. Por ejemplo, el algoritmo Regresin
Lineal de Microsoft no puede utilizar columnas discretas como entrada
ni predecir valores discretos.
A continuacin se describen los tipos de contenido que se usan en la

minera de datos y se identifican los tipos de datos que admiten cada
tipo.
Discreto
El tipo de contenido discreto indica que la columna contiene un nmero
finito de valores no continuos. Por ejemplo, una columna de estado civil
es una columna de atributos discreta muy habitual, en la que los datos
representan un nmero especfico de categoras.
Los valores de una columna de atributos discreta no pueden implicar la
ordenacin, aun cuando los valores sean numricos. Adems, aunque
los valores utilizados para la columna discreta sean numricos, no se
pueden calcular valores fraccionarios. Los cdigos telefnicos de cada

zona son un buen ejemplo de datos numricos discretos.
El tipo de contenido Discrete es compatible con todos los tipos de

datos de minera de datos.
Continuo
Continuo indica que la columna contiene valores que representan datos
numricos en una escala que permite valores intermedios. A diferencia
de una columna discreta, que representa datos numerables y finitos,
una columna continua representa medidas escalables; adems, es
posible que los datos contengan un nmero infinito de valores
fraccionarios. Una columna de precios de artculos es un ejemplo de
una columna de atributos continua.
El tipo de contenido Continuous es compatible con los siguientes tipos

de datos: Date, Double y Long
Discretized
La discretizacin es el proceso mediante el cual los valores de un
conjunto de datos continuo se incluyen en grupos o depsitos para que
haya un nmero limitado de valores posibles. Solo se pueden
discretizar los datos numricos.
Por tanto, el tipo de contenido discretized indica que la columna
contiene valores que representan grupos o depsitos de valores que se
derivan de una columna continua. Los depsitos se tratan como si
fueran valores ordenados y discretos.
Se pueden discretizar los datos manualmente, para asegurarse de que
se obtienen los depsitos deseados, o se pueden utilizar los mtodos
de
discretizacin
proporcionados
en
SQL
Server
Analysis
Services. Algunos
algoritmos
realizan
la
discretizacin
automticamente.
El tipo de contenido Discretized es compatible con los siguientes tipos

de datos: Date, Double, Long y Text.
Clave
El tipo de contenido clave indica que la columna identifica una fila de
forma inequvoca. Normalmente, en una tabla de casos, la columna de
clave es un identificador numrico o de texto. Establezca el tipo de
contenido en key para indicar que la columna no debe utilizarse para el
anlisis, sino para realizar el seguimiento de los registros.
Las tablas anidadas tambin tienen claves, pero el uso de la clave de
tabla anidada es ligeramente diferente. En una tabla anidada debe
establecer el tipo de contenido en key si la columna es el atributo que
desea analizar. Los valores de la clave de tabla anidada deben ser
nicos para cada caso, pero puede haber duplicados en todo el
conjunto de casos.
Por ejemplo, si est analizando los productos que compran los clientes,
debe
establecer
el
tipo
de
contenido
en
Key
para
la
columna IdCliente de la tabla de casos, y tambin debe establecer el

tipo de contenido en Key para la columna ProductosComprados de la
tabla anidada.
Secuencia de Claves
El tipo de contenido secuencia de claves solamente se puede utilizar en
modelos de agrupacin en clsteres de secuencia. Cuando se
establece el tipo de contenido en key sequence, se indica que la
columna
contiene
valores
que
representan
una
secuencia de
eventos. Los valores estn ordenados y no tienen que estar separados

por una distancia equivalente.
Este tipo de contenido es compatible con los siguientes tipos de

datos: Double, Long, Text y Date.
Clave Temporal
El tipo de contenido clave temporal solamente se puede utilizar en
modelos de serie temporal. Cuando se establece el tipo de contenido
en key time, se indica que los valores estn ordenados y que
representan una escala de tiempo.
Este tipo de contenido es compatible con los siguientes tipos de

datos: Double, Long y Date.
Tabla
El tipo de contenido tabla indica que la columna contiene otra tabla de
datos, con una o ms columnas y una o ms filas. Para cualquier fila
concreta de la tabla de casos, esta columna puede contener varios
valores, todos ellos relacionados con el registro del caso primario. Por
ejemplo, si la tabla de casos principal contiene una lista de clientes,
podra tener varias columnas con tablas anidadas, como una
columna ProductosComprados, donde la tabla anidada muestre una
lista de los productos que este cliente ha comprado en el pasado, y una
columna Aficiones que muestre las aficiones del cliente.
El tipo de datos de esta columna siempre es Table.
Cclico
El tipo de contenido cclico indica que la columna contiene valores que
representan un conjunto ordenado cclico. Por ejemplo, los meses
numerados del ao es un conjunto ordenado cclico, ya que el mes
nmero uno sigue al mes nmero doce.
Las columnas cclicas se consideran ordenadas y discretas en trminos

de tipo de contenido.
Este tipo de contenido es compatible con todos los tipos de datos de
minera de datos de Analysis Services. Sin embargo, la mayora de los
algoritmos tratan los valores cclicos como valores discretos y no
realizan ningn procesamiento especial.
Ordenado
El tipo de contenido ordenado indica tambin que la columna contiene
valores que definen una secuencia u orden. Sin embargo, en este tipo
de contenido los valores utilizados para la ordenacin no implican
ninguna relacin de distancia o magnitud entre los valores del
conjunto. Por ejemplo, si una columna de atributos ordenados contiene
informacin acerca de una lista de niveles de especializacin que vayan
del uno al cinco, no existe informacin implcita entre los niveles de
especializacin; un nivel cinco de especializacin no es necesariamente
cinco veces mejor que un nivel uno de especializacin.
Las columnas de atributos ordenados se consideran discretas en

trminos de tipo de contenido.
Este tipo de contenido es compatible con todos los tipos de datos de
minera de datos de Analysis Services. Sin embargo, la mayora de los
algoritmos tratan los valores ordenados como valores discretos y no
realizan ningn procesamiento especial.
1.2. Lista de Funciones de Prediccin
Todos los algoritmos de Microsoft son compatibles con un conjunto

comn de funciones. No obstante, el algoritmo de regresin lineal de
Microsoft admite las funciones adicionales que se enumeran en la
siguiente tabla.
Funcin de
prediccin
IsDescendant (DMX)
IsInNode (DMX)
PredictHistogram
(DMX)
PredictNodeId (DMX)
PredictStdev (DMX)
PredictSupport (DMX)
PredictVariance (DMX)
Uso
Determina si un nodo es un elemento secundario de otro nodo
del modelo.
Indica si el nodo especificado contiene el caso actual.
Devuelve un valor o un conjunto de valores predichos para una
columna especificada.
Devuelve el Node_ID de cada caso.
Devuelve la desviacin estndar del valor predicho.
Devuelve el valor de soporte de un estado especificado.
Devuelve la varianza de una columna especificada.
el algoritmo Bayes naive de Microsoft admite las funciones adicionales

que se enumeran en la siguiente tabla.
Predict (DMX)
PredictAssociation (DMX)
PredictHistogram (DMX)
PredictAdjustedProbability
(DMX)
II.
IsDescendant (DMX)
PredictProbability (DMX)
PredictNodeId (DMX)
PredictSupport (DMX)
ALGORITMO DE REGRESIN LINEAL DE MICROSOFT
El algoritmo de regresin lineal de Microsoft es una variacin del algoritmo de

rboles de decisin de Microsoft que ayuda a calcular una relacin lineal
entre una variable independiente y otra dependiente y, a continuacin, utilizar
esa relacin para la prediccin.
La relacin toma la forma de una ecuacin para la lnea que mejor
represente una serie de datos. Por ejemplo, la lnea del siguiente diagrama
muestra la mejor representacin lineal de los datos.
Grfico 01
Grfico del Modelo de Minera de Datos - Regresin Lineal
Cada punto de datos del diagrama tiene un error asociado con su

distancia con respecto a la lnea de regresin. Los coeficientes a y b de
la ecuacin de regresin ajustan el ngulo y la ubicacin de la recta de
regresin. Puede
obtener
la
ecuacin
de
regresin
ajustando a y b hasta que la suma de los errores asociados a todos los

puntos alcance su valor mnimo.
2.1. Cmo Funciona el Algoritmo
En un modelo de regresin lineal, el conjunto de datos completo se

utiliza para calcular las relaciones en el paso inicial, mientras que en un
modelo de rboles de decisin estndar los datos se dividen
repetidamente en rboles o subconjuntos ms pequeos.
2.2. Datos requeridos para los Modelos de Regresin Lineal
Cuando se preparan datos para utilizarse en un modelo de regresin

lineal, se deben entender los requisitos del algoritmo determinado. Esto
incluye saber cuntos datos se necesitan y cmo se utilizan. Los
requisitos para este tipo de modelo son los siguientes:
Una columna key: cada modelo debe contener una columna

numrica o de texto que identifique cada registro de manera
nica. No estn permitidas las claves compuestas.
Una columna de prediccin: Se requiere al menos una columna

de prediccin. Se pueden incluir varios atributos de prediccin en
un
modelo,
pero
deben
ser
tipos
de
datos
numricos
continuos. No se puede utilizar un tipo de datos de fecha y hora

como atributo de prediccin aunque el almacenamiento nativo
para los datos sea numrico.
Columnas
de
entrada: Deben
contener
datos
numricos
continuos y se les debe asignarse el tipo de datos adecuado.
Un modelo de regresin lineal debe contener una columna de clave,

columnas de entrada y al menos una columna de prediccin.
Columnas de entrada y de prediccin

El algoritmo de regresin lineal de Microsoft admite las columnas de
entrada y de prediccin especficas que se incluyen en la tabla
siguiente.
Columna
Tipos de contenido
Atributo de entrada
Continuo, cclico, clave, tabla y ordenado
Atributo de prediccin
Continuo, cclico y ordenado
Al crear un modelo utilizando el algoritmo de regresin lineal de

Microsoft, el motor de minera de datos crea una instancia especial de
un modelo de rboles de decisin y proporciona los parmetros que
restringen el rbol para contener todos los datos de entrenamiento en
un nico nodo. Todas las entradas continuas se marcan y evalan
como regresores potenciales, pero nicamente los que se ajusten a los
datos se conservan como regresores en el modelo final. El anlisis
genera una nica frmula de regresin o ninguna frmula para cada
regresor.
Puede ver la frmula de regresin completa en la Leyenda de minera
de datos, haciendo clic en el nodo (Todos) en el Visor de rboles de
Microsoft.
Grfico 02
Modelo de Regresin Lineal - Nodo - Frmula de Regresin
Nodo All
Visor de rboles
de Micorsoft
Frmula de
Regresin Lineal
2.3. Caso Prctico
Puede utilizar la regresin lineal para determinar una relacin entre dos
columnas continuas. Por ejemplo, puede utilizar la regresin lineal para
calcular una lnea de tendencias en los datos de Crditos de Consumo
en Moneda Nacional en funcin al Nmero de Deudores que tienen un
Crdito. Tambin podra utilizar la regresin lineal como precursor para
el desarrollo de modelos de minera de datos ms complejos, con el fin

de evaluar las relaciones entre las columnas de datos.
Aunque hay muchas maneras de calcular la regresin lineal que no
requieren herramientas de minera de datos, la ventaja de utilizar el
algoritmo de regresin lineal de Microsoft para esta tarea es que se
calculan y se prueban automticamente todas las posibles relaciones
entre las variables. No tiene que seleccionar un mtodo de clculo,
como por ejemplo para resolver los mnimos cuadrados. Sin embargo,
la regresin lineal podra simplificar en exceso las relaciones en
escenarios en los que varios factores afectan al resultado.
2.4. Implementacin del Algoritmo de Regresin Lineal
El algoritmo de rboles de decisin de Microsoft se puede utilizar para

muchas tareas: regresin lineal, clasificacin o anlisis de la
asociacin. Para implementar este algoritmo con el propsito de la
regresin lineal, los parmetros del algoritmo se controlan para
restringir el crecimiento del rbol y mantener todos los datos en el
modelo en un nodo nico. En otras palabras, aunque la regresin lineal
est basada en un rbol de decisin, el rbol nicamente contiene una
raz y ninguna bifurcacin: todos los datos residen en el nodo raz.
Para lograr esto, el parmetro MINIMUM_LEAF_CASES del algoritmo

se establece para ser mayor o igual que el nmero total de casos que el
algoritmo utiliza para entrenar el modelo de minera de datos. Con el
parmetro as establecido, el algoritmo no crea nunca una divisin y,
por tanto, lleva a cabo una regresin lineal.
La ecuacin que representa la recta de regresin toma la forma

general de y = ax + b y se conoce como ecuacin de regresin. La
variable Y representa la variable de salida, X representa la variable de
entrada
y a y b son
coeficientes
ajustables. Puede
recuperar
los
coeficientes, intersecciones y otra informacin sobre la frmula de

regresin consultando el modelo de minera de datos completado.
2.5. Contenido del modelo de minera de datos
MODEL_CATALOG: Nombre de la base de datos en la que se

almacena el modelo.
MODEL_NAME: Nombre del modelo.
ATTRIBUTE_NAME
Nodo raz: en blanco
Nodo de regresin: el nombre del atributo de prediccin.
NODE_NAME: Siempre igual que NODE_UNIQUE_NAME.
NODE_UNIQUE_NAME: Identificador nico para el nodo dentro del

modelo. Este valor no puede modificarse.
NODE_TYPE: Un modelo de regresin lineal genera los tipos de nodos

siguientes:
Identificador del
Tipo
Descripcin
Raz del rbol
Contiene la frmula que describe la
de regresin
relacin entre la variable de entrada
tipo de nodo
25
y la de salida.
NODE_CAPTION: Etiqueta o ttulo asociado al nodo. Esta propiedad se

usa principalmente para la presentacin.
Nodo raz: en blanco

Nodo de regresin: todos.
CHILDREN_CARDINALITY: Clculo
del
nmero
de
elementos
secundarios que tiene el nodo.

Nodo raz: indica el nmero de nodos de regresin. Se crea un nodo
de regresin para cada atributo de prediccin del modelo.
Nodo de regresin: siempre es 0.
PARENT_UNIQUE_NAME: Nombre nico del nodo primario del

nodo. Se devuelve NULL para todos los nodos del nivel raz.
NODE_DESCRIPTION: Descripcin del nodo.
Nodo raz: en blanco
Nodo de regresin: todos.
NODE_RULE: No se utiliza para los modelos de regresin lineal.
MARGINAL_RULE: No se utiliza para los modelos de regresin lineal.
NODE_PROBABILITY: Probabilidad asociada a este nodo.

Nodo raz: 0
Nodo de regresin: 1
MARGINAL_PROBABILITY: Probabilidad de alcanzar el nodo desde el

nodo primario.
Nodo raz: 0
Nodo de regresin: 1
NODE_DISTRIBUTION: Tabla anidada que proporciona estadsticas

sobre los valores del nodo.
Nodo raz: 0
Nodo de regresin: tabla que contiene los elementos que se usan

para generar la frmula de regresin. Un nodo de regresin contiene
los tipos de valores siguientes:
VALUETYPE
1 (ausente)
3 (continuo)
7 (coeficiente)
8 (ganancia de puntuacin)
9 (estadsticas)
11 (interseccin)
NODE_SUPPORT: Nmero de los casos que admiten este nodo.

Nodo raz: 0
Nodo de regresin: recuento de casos de entrenamiento.
MSOLAP_MODEL_COLUMN: Nombre del atributo de prediccin.
MSOLAP_NODE_SCORE: Igual que NODE_PROBABILITY
MSOLAP_NODE_SHORT_CAPTION: Etiqueta que se utiliza para la

visualizacin.
2.6. Distribucin de Nodos para los Atributos Continuos
La mayora de la informacin importante en un nodo de regresin est

incluida en la tabla NODE_DISTRIBUTION. En el ejemplo siguiente se
muestra el diseo de la tabla NODE_DISTRIBUTION. En este ejemplo,
la estructura de minera de datos de RL_CreditosConsumoMN_ND se
ha utilizado para crear un modelo de regresin lineal que predice el
monto de los crditos de consumo en moneda nacional segn el
nmero de deudores que tienen un crdito con la institucin financiera

analizada. Se ha utilizado datos extrados de las estadsticas publicadas
en formato Excel en la pgina web de la SBS.
La tabla NODE_DISTRIBUTION contiene varias filas, cada una

agrupada por una variable. Las primeras dos filas siempre son de los
tipos de valores 1 y 3, y describen el atributo de destino. Las filas
siguientes
proporcionan
los
detalles
sobre
la
frmula
para
un regresor determinado. Un regresor es una variable de entrada que

tiene una relacin lineal con la variable de salida. Puede haber varios
regresores y cada uno tendr una fila independiente para el coeficiente
(VALUETYPE = 7), la ganancia de puntuacin (VALUETYPE = 8) y las
estadsticas (VALUETYPE = 9). Finalmente, la tabla incluye una fila que
contiene la interseccin de la ecuacin (VALUETYPE = 11).
Para obtener la tabla NODE_DISTRIBUTION de la frmula resultante

del ejemplo, se escribe la siguiente consulta DMX, utilizando la
herramienta consulta DMX de Analysis Services ubicada en
Microsoft Sql Server Management studio.
Grfico 03
Tabla del Nodo de Distribucin
2.7. Elementos de la frmula de regresin
La tabla NODE_DISTRIBUTION anidada contiene cada elemento de la

frmula de regresin en una fila independiente. Las dos primeras filas
de datos en los resultados del ejemplo contienen informacin sobre el
atributo de prediccin, Crditos en Moneda Nacional, que modela la
variable dependiente. La columna SUPPORT muestra el recuento de
casos de compatibilidad de los dos estados de este atributo: o bien hay
disponible un valor Crditos en Moneda Nacional o el valor Crditos
en Moneda Nacional no est.
La columna VARIANCE indica la varianza calculada del atributo de
prediccin. La varianza es una medida de la dispersin de los valores
de un ejemplo, dada una distribucin esperada. La varianza aqu se
calcula tomando el promedio de la desviacin cuadrada de la media. La
raz cuadrada de la varianza tambin se conoce como desviacin
estndar. Analysis Services no proporciona la desviacin estndar pero
se puede calcular fcilmente.
Para cada regresor se generan tres filas. Contienen el coeficiente, la
ganancia de puntuacin y estadsticas de regresores.
Finalmente, la tabla contiene una fila que proporciona la interseccin de
la ecuacin.
Coeficiente
Para cada regresor se calcula un coeficiente (VALUETYPE = 7). El
propio coeficiente aparece en la columna ATTRIBUTE_VALUE,
mientras que la columna VARIANCE indica la varianza para el
coeficiente. Los coeficientes se calculan con una linealidad mxima.
Ganancia de puntuacin
La ganancia de puntuacin (VALUETYPE = 8) de cada regresor
representa la puntuacin de grado de inters del atributo. Puede utilizar
este valor para calcular la utilidad de varios regresores.
Estadsticas
La estadstica de regresores (VALUETYPE = 9) es la media del atributo
para los casos que tienen un valor. La columna ATTRIBUTE_VALUE
contiene la propia media, mientras que la columna VARIANCE contiene
la suma de desviaciones de la media.
Interseccin
Normalmente, la interseccin (VALUETYPE = 11) o valor residual en
una ecuacin de regresin indica el valor del atributo de prediccin, en
el punto del atributo de entrada, es 0. En muchos casos, esto podra no
suceder y se podran producir resultados poco intuitivos.
Por ejemplo, en el modelo que prediga el monto de los Crditos de
Consumo en Moneda Nacional segn el Nmero de Deudores, es intil
obtener informacin sobre los montos con 0 Deudores. En la vida real,
suele ser ms til saber el comportamiento en el margen con respecto a
los valores medios. Por consiguiente, SQL Server Analysis Services
modifica la interseccin para expresar cada regresor en una relacin
con la media.
Este ajuste es difcil de ver en el contenido del modelo de minera de
datos, pero es obvio si se ve la ecuacin completada en la Leyenda de
minera de datos del Visor de rboles de Microsoft. La frmula de
regresin se desva del punto 0 al punto que representa la media. Esto
presenta una vista que es ms intuitiva dados los datos actuales.
Por consiguiente, suponiendo que el Nmero de Deudores medios est
alrededor de 373125.45 deudores de un crdito, la interseccin
(VALUETYPE = 11) para la frmula de regresin indica el monto del

crdito de consumo en moneda nacional medio.
2.8. Ejemplos de consultas de modelos de regresin lineal
Cuando se crea una consulta en un modelo de minera de datos, puede

tratarse de una consulta de contenido, que proporciona detalles de los
patrones detectados durante el anlisis, o de una consulta de
prediccin, que utiliza
los
patrones del modelo para
realizar
predicciones de los nuevos datos. Por ejemplo, una consulta de

contenido podra proporcionar detalles adicionales sobre la frmula de
regresin, mientras que una consulta de prediccin podra indicar si un
nuevo punto de datos se ajusta al modelo. Tambin se pueden
recuperar metadatos sobre el modelo mediante una consulta.
Consultas de Contenido a partir de un Modelo de Regresin Lineal
Consulta de ejemplo 1: recuperar la frmula de regresin del

modelo
La consulta siguiente devuelve el contenido del modelo de minera de
datos
del
modelo
de
regresin
lineal
RL_CREDITOSCONSUMOMN_ND que se gener utilizando el origen

de datos OD_DWFINANCIERO (Permite conectarse al Data Warehouse
DWFINANCIERO). Este modelo predice Monto del Crdito en Moneda
Nacional en funcin del Nmero de Personas que tienen un crdito con
alguna Caja Municipal.
La consulta devuelve el contenido del nodo que contiene la frmula de
regresin
(Ver
almacenados
Grfico
en
una
03). Cada
fila
variable
independiente
coeficiente
de
la
estn
tabla
NODE_DISTRIBUTION anidada. Si desea ver la frmula de regresin
completa, utilice el Visor de rboles de Microsoft, haga clic en el

nodo(Todos) y abra la Leyenda de minera de datos (Ver Grfico 02).
Consulta de ejemplo 2: devolver solo el coeficiente para el modelo

Utilizando la enumeracin VALUETYPE, puede devolver solo el
coeficiente para la ecuacin de regresin, como se muestra en la
consulta siguiente:
Grfico 04
Consulta - Devolver el Coeficiente del Modelo
Consultas de Predicciones a partir de un modelo de Regresin

Lineal
Consulta de ejemplo 3: predecir los montos de Crditos de

Consumo en Moneda Nacional de las Cajas Municipales utilizando
una consulta singleton
La manera ms fcil de crear una sola consulta en un modelo de
regresin es generar la consulta DMX siguiente: Predecir Monto del
Crdito de Consumo en Moneda Nacional en las Cajas Municipales,
para una cantidad de 343088 Deudores.
Grfico 05
Consulta DMX y su Resultado
Si comparamos el monto predicho (s/. 1485161.90996223 - Grfico 05)

con la cantidad real (s/. 1485707.497 - Grfico 06) de acuerdo al dato
almacenado en el Data Warehouse, observamos que la desviacin es
de apenas s/. 545.58703777, teniendo en cuenta que la desviacin
estndar es de s/. 18217.3781091002 (Ver Grfico 07).
Grfico 06
Montos Reales de los Crditos de Consumo en Moneda Nacional
Consulta de ejemplo 4: usar funciones de prediccin con un

modelo de regresin
Puede utilizar muchas de las funciones de prediccin estndar con
modelos de regresin lineal. En el ejemplo siguiente se muestra cmo
agregar algunas estadsticas descriptivas a los resultados de las
consultas de prediccin. A partir de estos resultados, puede que haya
una desviacin considerable de la media para este modelo.
Grfico 07
Consulta DMX - Funcin para Predecir la Desviacin Estndar
Consulta de ejemplo 5: usar funciones de prediccin con un

modelo de regresin
El ejemplo siguiente devuelve el estado predicho de la columna
Crditos en Moneda Nacional y devuelve en una tabla la cantidad de
casos entrenados, la probabilidad, la varianza, la desviacin estndar.
Grfico 08
Consulta DMX - Funcin Histograma
III.
Algoritmo de Bayes Naive de Microsoft
Es un algoritmo de clasificacin basado en el Teoremas de Bayes y que

Microsoft SQL Server Analysis Services proporciona para el modelado de
prediccin. El algoritmo utiliza tcnicas Bayesianas pero no tiene en cuenta
las dependencias que puedan existir.
Desde el punto de vista computacional, el algoritmo es menos complejo que
otros algoritmos de Microsoft y, por tanto, resulta til para generar
rpidamente modelos de minera de datos para descubrir relaciones entre
columnas de entrada y columnas de prediccin. Puede utilizar este algoritmo
para realizar la exploracin inicial de los datos y, ms adelante, aplicar los
resultados para crear modelos de minera de datos adicionales con otros
algoritmos ms complejos y precisos desde el punto de vista computacional.
Realizar Predicciones
Una vez entrenado el modelo, los resultados se almacenan como un
conjunto de patrones que se puede explorar o utilizar para realizar
predicciones.
Puede crear consultas para devolver las predicciones sobre cmo se

relacionan los nuevos datos con el atributo de prediccin, o puede recuperar
estadsticas que describan las correlaciones que ha hallado el modelo.
3.1. Funcionamiento del Algoritmo
El algoritmo de Bayes Naive de Microsoft calcula la probabilidad de

cada estado de cada columna de entrada, dado cada posible estado de
la columna de prediccin.
Para comprender cmo funciona, utilice el visor de Bayes Naive de

Microsoft (como se muestra en el siguiente grfico Grfico 09) para
consultar una representacin visual del modo en que el algoritmo
distribuye los estados.
Grfico 09
Visor Bayes Naive - Distribucin de los Estados Entrada y Prediccin
Columna s
de Entrada
Estados de las
Columnas de
Entrada
Estados de la Columna de Prediccin
Aqu, el Visor Bayes naive de Microsoft muestra cada columna de

entrada del conjunto de datos e indica cmo se distribuyen los estados
de cada columna, dado cada estado de la columna de prediccin.
Esta vista del modelo se utilizara para identificar las columnas de
entrada que son importantes para diferenciar los distintos estados de la
columna de prediccin.
Por ejemplo, en la fila Descripcin Tipo Trabajador que se muestra
aqu, la distribucin de valores de entrada es visiblemente diferente
para el centro de costo Proceso de Cobranza - Paita y el Centro de
Costo Pozo Pachitea - Piura. Esto indica que la entrada, Descripcin
Tipo Trabajador = empleados estables o practicantes operativos, es un
factor de prediccin potencial.
El visor tambin proporciona valores para las distribuciones, de modo
que se pueda ver la probabilidad de los trabajadores se desempeen en
un determinado centro de costo de la empresa de acuerdo a su estado
civil, la probabilidad de que un trabajador soltero se desempee en el
centro de costo Pozo Pachitea - Piura es de 0,500, y la probabilidad que
se desempee en el centro de costo Proceso de Cobranza Paita es de
0,300. En este modelo.
Asimismo, podemos visualizar la red de dependencias entre las

columnas de entrada y las columnas de prediccin (Grfico 10)
Grfico 10
Visor Bayes Naive - Red de Dependencias
En el Grfico 10, el nodo seleccionado Centro de Costo (de un

trabajador) puede ser predecido por los nodos Sexo, Estado Civil, Tipo
de Trabajador, la zona donde funciona la empresa y la Unidad
Organizativa.
3.2. Datos requeridos para los modelos Bayes Naive
Al preparar los datos para su uso en un modelo de entrenamiento

Bayes naive, conviene comprender qu requisitos son imprescindibles
para el algoritmo, incluidos el volumen de datos necesario y la forma en
que estos datos se utilizan.
Los requisitos para un modelo Bayes naive son los siguientes:
Una columna de una sola clave: cada modelo debe contener

una columna numrica o de texto que identifique cada registro de
manera nica. No estn permitidas las claves compuestas.
Columnas de entrada: en un modelo Bayes naive, todas las

columnas deben ser discretas o discretizadas.
En un modelo Bayes naive, tambin es importante asegurarse de
que los atributos de entrada sean independientes unos de
otros. Esto es particularmente importante al utilizar el modelo para
la prediccin.
El motivo es que, si utiliza dos columnas de datos que ya estn

estrechamente
relacionadas,
el
efecto
sera
multiplicar
la
influencia de esas columnas, lo que puede ocultar otros factores

que influyen en el resultado.
Al contrario, la capacidad del algoritmo de identificar las

correlaciones entre las variables es til cuando est explorando un
modelo o conjunto de datos, para identificar las relaciones entre
las entradas.
Al menos una columna de prediccin: el atributo de prediccin

debe contener valores discretos o discretizados.
Los valores de la columna predecible se pueden tratar como
entradas. Este ejercicio puede ser til si explora un nuevo conjunto
de datos, para encontrar relaciones entre las columnas.
3.3. Estructura de un modelo Bayes naive
Un modelo Bayes naive tiene un nodo primario nico que representa el

modelo y sus metadatos, y debajo de dicho nodo, varios rboles
independientes
que
representan
los
atributos
de
prediccin
seleccionados. Adems de los rboles para los atributos, cada modelo

contiene un nodo de estadsticas marginales (NODE_TYPE = 26) que
proporciona estadsticas descriptivas sobre el conjunto de casos de

entrenamiento.
Para cada atributo de prediccin y valor, el modelo genera un rbol que

contiene informacin que describe cmo afectaron las columnas de
entrada al resultado de ese atributo de prediccin concreto. Cada rbol
contiene el atributo de prediccin y su valor (NODE_TYPE = 9) y, a
continuacin, una serie de nodos que representan los atributos de
entrada (NODE_TYPE = 10). Dado que los atributos de entrada
normalmente tienen varios valores, cada uno de dichos atributos
(NODE_TYPE
10)
puede
tener
varios
nodos
secundarios
(NODE_TYPE = 11), uno para cada estado especfico del atributo.
Nota: Dado que un modelo Bayes naive no admite tipos de datos

continuos, todos los valores de las columnas de entrada se tratan como
discretos o discretizados. Si lo desea, puede especificar cmo se
discretiza un valor.
Grfico 11
Estructura de un Modelo Bayes Naive
3.4. Contenido del Modelo para un Modelo Bayes naive
A continuacin se describen las columnas del contenido del modelo de

minera de datos que tiene una relevancia especial para los modelos
Bayes naive.
MODEL_CATALOG: Nombre de la base de datos en la que se

almacena el modelo.
MODEL_NAME: Nombre del modelo.
ATTRIBUTE_NAME: Nombres de los atributos que corresponden a este

nodo.
Raz del modelo: nombre del atributo de prediccin.
Estadsticas marginales: no aplicable.
Atributo de prediccin: nombre del atributo de prediccin.
Atributo de entrada: nombre del atributo de entrada.
Estado de atributo de entrada: solo el nombre del atributo de
entrada. Para
obtener
el
estado,
use
MSOLAP_NODE_SHORT_CAPTION.
NODE_NAME: Nombre del nodo. Esta columna contiene el mismo valor

que NODE_UNIQUE_NAME.
NODE_UNIQUE_NAME: Nombre nico del nodo. Los nombres nicos

se asignan segn una convencin que proporciona informacin sobre
las relaciones entre los nodos.
NODE_TYPE: Un modelo Bayes naive genera los tipos de nodos

siguientes:
Identificador del tipo de nodo

26 (NaiveBayesMarginalStatNode)
9 (atributo de prediccin)
10 (atributo de entrada)
11 (estado de atributo de entrada)
Descripcin
Contiene estadsticas que describen el
conjunto completo de casos de
entrenamiento para el modelo.
Contiene el nombre del atributo de
prediccin.
Contiene el nombre de una columna de
atributos de entrada, as como nodos
secundarios que contienen los valores
para el atributo.
Contiene los valores o los valores de
datos discretos de todos los atributos de
entrada que se emparejaron con un
atributo de salida determinado.
NODE_CAPTION: Etiqueta o ttulo asociado al nodo. Esta propiedad se

usa principalmente para la presentacin.
Raz del modelo: en blanco.
Estadsticas marginales: en blanco.
Atributo de entrada: nombre del atributo de prediccin y del atributo de
entrada actual. Ej.:
Centro de Costo -> Descripcin Tipo Trabajador
Estado de atributo de entrada: nombre del atributo de prediccin y del

atributo de entrada actual, ms el valor de la entrada. Ej.:
Centro de Costo -> Descripcin Tipo Trabajador = Practicantes
Operativos
CHILDREN_CARDINALITY: Nmero de elementos secundarios que

tiene el nodo.
Raz del modelo: recuento de los atributos de prediccin del modelo,
ms 1 para el nodo de estadsticas marginales.
Estadsticas
secundarios.
marginales:
por
definicin,
no
tiene
elementos
Atributo de prediccin: recuento de los atributos de entrada que

estaban relacionados con el atributo de prediccin actual.
Atributo de entrada: recuento de los valores discretos o discretizados
para el atributo de entrada actual.
Estado de atributo de entrada: siempre es 0.
PARENT_UNIQUE_NAME: Nombre nico del nodo primario.
NODE_DESCRIPTION: Coincide con el ttulo del nodo.
NODE_RULE: Representacin XML del ttulo del nodo.
MARGINAL_RULE: Coincide con la regla del nodo.
NODE_PROBABILITY: Probabilidad asociada a este nodo.

Raz del modelo: siempre es 0.
Estadsticas marginales: siempre es 0.
Atributo de prediccin: siempre es 1.
Atributo de entrada: siempre es 1.
Estado de atributo de entrada: nmero decimal que representa la
probabilidad del valor actual. Los valores de todos los estados de los
atributos de entrada bajo el nodo de atributo de entrada primario suman
1.
MARGINAL_PROBABILITY: Coincide con la probabilidad del nodo.
NODE_DISTRIBUTION:
Tabla
que
contiene
el
histograma
probabilidad del nodo.
NODE_SUPPORT: Nmero de casos que admiten este nodo.
de
Raz del modelo: recuento de todos los casos de los datos de

entrenamiento.
Atributo de prediccin: recuento de todos los casos de los datos de
entrenamiento.
Atributo de entrada: recuento de todos los casos de los datos de
entrenamiento.
Estado de atributo de entrada: recuento de los casos de los datos de
entrenamiento que solo contienen este valor concreto.
MSOLAP_MODEL_COLUMN:
Etiqueta
que
se
usa
para
la
visualizacin. Normalmente, coincide con ATTRIBUTE_NAME.
MSOLAP_NODE_SCORE: Representa la importancia del atributo o

valor dentro del modelo.
Raz del modelo: siempre es 0.
Atributo de prediccin: siempre es 0.
Atributo de entrada: Puntuacin interestingness para el atributo de
entrada actual en relacin con el atributo de prediccin actual.
Estado de atributo de entrada: siempre es 0.
MSOLAP_NODE_SHORT_CAPTION: Cadena de texto que representa

el nombre o el valor de una columna.
Raz del modelo: en blanco.
Estadsticas marginales: en blanco.
Atributo de entrada: nombre del atributo de entrada.
Estado de atributo de entrada: valor o valor de datos discretos del
atributo de entrada.
3.5. Usar nombres de nodo e identificadores
La denominacin de los nodos en un modelo Bayes naive proporciona

informacin adicional sobre el tipo de nodo, lo que facilita la
comprensin de las relaciones entre los tipos de informacin del
modelo. En la tabla siguiente se muestra la convencin para los
identificadores asignados a los distintos tipos de nodos.
Tipo de nodo
Raz del modelo (1)
Convencin para el identificador de nodo

Siempre equivale a 0.
Nodo de estadsticas Un valor de identificador arbitrario.

marginales (26)
Atributo de prediccin Nmero hexadecimal a partir de 10000000.
(9)
Ejemplo: 100000001, 10000000b
Atributo de entrada Un nmero hexadecimal de dos partes en el que la
(10)
primera siempre es 20000000, y la segunda comienza
con el identificador hexadecimal del atributo de
prediccin relacionado.
Ejemplo: 20000000b00000000
En este caso, el atributo de prediccin relacionado es
10000000b.
Estado de atributo de Un nmero hexadecimal de tres partes en el que la
entrada (11)
primera siempre es 30000000, la segunda comienza
con el identificador hexadecimal del atributo de
prediccin relacionado y la tercera representa el
identificador del valor.
Ejemplo: 30000000b00000000200000000
En este caso, el atributo de prediccin relacionado es
10000000b.
Puede usar los identificadores para relacionar los atributos de entrada y

sus estados con un atributo de prediccin. Por ejemplo, la consulta
siguiente devuelve los nombres y los ttulos de los nodos que
representan las posibles combinaciones de atributos de entrada y de

prediccin para el M_BAYESNAIVE.
Grfico 12
Atributos de Prediccin con Atributos de Entrada
A continuacin, puede usar los identificadores de los nodos primarios

para recuperar los nodos secundarios. La consulta siguiente recupera
los nodos que contienen valores para el atributo Descripcin Tipo
Trabajador, junto con la probabilidad de cada nodo.
Grfico 13
Estados de los Atributos de Entrada
3.6. Tabla NODE_DISTRIBUTION

La columna de tabla anidada, NODE_DISTRIBUTION, normalmente
contiene estadsticas sobre la distribucin de los valores en el nodo. En
un modelo Bayes naive, esta tabla se rellena solo para los nodos
siguientes:
Tipo de nodo
Contenido de la tabla anidada
Raz del modelo (1)
En blanco.
Nodo de estadsticas
marginales (24)
Contiene informacin de resumen para todos los atributos de

prediccin y de entrada, para el conjunto completo de datos
de entrenamiento.
Atributo de prediccin (9) En blanco.
Atributo de entrada (10)
En blanco.
Estado de atributo de
entrada (11)
Contiene estadsticas que describen la distribucin de los

valores de los datos de entrenamiento para esta combinacin
concreta de un valor de prediccin y un valor de atributo de
entrada.
Puede usar los identificadores de nodo o los ttulos de nodo para

recuperar un mayor nivel de detalle. Por ejemplo, la consulta siguiente
recupera columnas concretas de la tabla NODE_DISTRIBUTION solo
para aquellos nodos de atributo de entrada que estn relacionados con
el valor 'Desc Tipo Trab = PRACTICANTES OPERATIVOS'.
Grfico 14
En estos resultados, el valor de la columna SUPPORT le indica el

recuento de Trabajadores que son del tipo de trabajador especificado
(PRACTICANTES OPERATIVOS). La columna PROBABILITY contiene
la probabilidad de cada valor de atributo, calculada solo para este nodo.
Informacin en el nodo de estadsticas marginales
En un modelo Bayes naive, la tabla anidada para el nodo de

estadsticas marginales contiene la distribucin de los valores para el
conjunto completo de datos de entrenamiento. Por ejemplo, la
CONSULTA DMX siguiente devuelve una lista parcial de las
estadsticas de la tabla anidada NODE_DISTRIBUTION para el
modelo M_BAYESNAIVE:
SELECT FLATTENED
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT],
[PROBABILITY], VALUETYPE FROM NODE_DISTRIBUTION) as t
FROM M_BAYESNAIVE.content
WHERE NODE_TYPE = 11
En un modelo Bayes naive, no puede haber atributos continuos; por lo

tanto, todos los datos numricos se representan como discretos
(VALUE_TYPE = 4) o discretizados (VALUE_TYPE = 5).
Se agrega un valor Missing (VALUE_TYPE = 1) a cada atributo de
entrada y de salida para representar valores potenciales que no
estaban presentes en los datos de entrenamiento. Debe tener cuidado
de
distinguir
entre
"missing"
como
cadena
el
valor Missing predeterminado.
3.7. Consultar un Modelo de Bayes Naive

Ejemplo de consulta 1: obtener metadatos del modelo usando DMX
Al consultar el conjunto de filas de esquema de minera de datos, puede
buscar los metadatos del modelo. Esto podra incluir cundo se cre,
cundo se proces en ltimo lugar, el nombre de la estructura de
minera de datos en la que se basa el modelo y el nombre de las
columnas que se usan como atributos de prediccin. Tambin se
pueden devolver los parmetros que se utilizaron cuando se cre el
modelo.
Grfico 15
Metadatos del Modelo usando DMX
Ejemplo de consulta 2: recuperar un resumen de los datos de

entrenamiento
En un modelo Bayes naive, el nodo de estadsticas marginal almacena
informacin agregada sobre la distribucin de los valores de los datos
de entrenamiento. Este resumen es cmodo y le evita tener que crear
consultas SQL con los datos de entrenamiento para encontrar la misma
informacin.
En el ejemplo siguiente se utiliza una consulta de contenido DMX para
recuperar los datos del nodo (NODE_TYPE = 24). Dado que las
estadsticas estn almacenadas en una tabla anidada, la palabra clave
FLATTENED se utiliza para facilitar la visualizacin de los resultados, si
la retiramos se visualiza la consulta como una tabla.
Por ejemplo, estos resultados le indican el nmero de casos de

entrenamiento para cada valor discreto (VALUETYPE = 4), junto con la
probabilidad
calculada,
(VALUETYPE = 1).
ajustados
para
los
valores
que
faltan
Grfico 16
Consulta Resumen de los Datos de Entrenamiento - Usando DMX
Ejemplo de consulta 3: buscar ms informacin sobre atributos

Dado que un modelo Bayes naive a menudo contiene informacin
compleja sobre las relaciones entre atributos diferentes, la manera ms
fcil de ver estas relaciones es utilizar el Visor Bayes naive de
Microsoft. Sin embargo, puede crear consultas DMX para devolver los
datos.
En el ejemplo siguiente se muestra cmo devolver informacin del
modelo sobre un atributo determinado, Desc Tipo Trab (Descripcin .del
Tipo de Trabajador - Grfico 17)
Esta consulta devuelve dos tipos de nodos: el nodo que representa el
atributo de entrada (NODE_TYPE = 10) y nodos para cada valor del
atributo (NODE_TYPE = 11). El ttulo del nodo se utiliza para
identificarlo, en lugar del nombre, porque el ttulo muestra tanto el

nombre como el valor del atributo.
Grfico 17
Informacin del Atributo de Entrada Desc Tipo Trab - Usando DMX
Algunas de las columnas almacenadas en los nodos son las mismas

que se pueden obtener de los nodos de estadsticas marginales, como
los valores de compatibilidad de los nodos y de puntuacin de la
probabilidad de los nodos. Sin embargo, MSOLAP_NODE_SCORE es
un valor especial que solamente se proporciona para los nodos de
atributos de entrada e indica la importancia relativa de este atributo en
el modelo. Puede ver casi toda esa misma informacin en el panel Red
de dependencia del visor; sin embargo, el visor no proporciona
puntuaciones.
La consulta siguiente devuelve las puntuaciones de importancia de
todos los atributos del modelo:
Grfico 18
Puntuaciones de Importancia de los Atributos del Modelo
Ejemplo de consulta 4: usar procedimientos almacenados del

sistema
Para explorar los resultados, puede utilizar algunos procedimientos
almacenados de sistema de Analysis Services adems de escribir sus
propias consultas de contenido. Para utilizar un procedimiento
almacenado de sistema, anteponga al nombre del procedimiento
almacenado la palabra clave CALL.
GetPredictableAttributes devuelve la lista de atributos de prediccin de

un modelo que se especifica junto con el NODE_UNIQUE_NAME para
cada atributo.
Grfico 18
Procedimiento Almacenado - Lista Atributos de Prediccin
Una vez que tenga la lista de atributos, puede llamar al procedimiento

almacenado GetAttributeCharacteristics para devolver una tabla que
describe las caractersticas de un valor de un atributo. Esta funcin
toma el NODE_UNIQUE_NAME del atributo de prediccin que es de
inters, el tipo de contenido, un valor tipo bandera, y un valor de umbral,
junto con el nombre del modelo y devuelve una lista ordenada de
atributos y los valores que se correlacionan con el valor del atributo de
prediccin seleccionado, junto con la frecuencia de la correlacin. El
valor tipo bandera indica a la funcin si el valor est especificando un
valor del modelo o el valor intrnseco "perdido". El tipo de valor a 0
indica que el valor de los intereses es un estado conocido del atributo por ejemplo, Masculino o Femenino. Si se establece en 1 indica que el
valor es el valor intrnseco "perdido", que se produce cuando el atributo
no aparece en un caso, cuando es NULL, o cuando el valor especfico
se elimina a partir del modelo de seleccin de caractersticas. El umbral
indica la resistencia mnima a la correlacin devuelto por la funcin y se
usa para limitar el nmero de filas devueltas.
Grfico 19
Procedimiento Almacenado - Caractersticas del Atributo de
Prediccin Centro de Costo
El procedimiento almacenado GetAttributeHistogram('M_BayesNaive',

'100000000') (Grfico 20) devuelve el histograma del atributo de
prediccin que es de inters (estados del atributo y frecuencia), como
parmetros
utiliza
el
NODE_UNIQUE_NAME.
nombre
del
modelo
creado
el
Grfico 20
Histograma - Estados y Soporte por Estado para el Atributo de
Prediccin Centro de Costo
El
procedimiento
almacenado
GetAttributeDiscrimination('M_BayesNaive',
PROCESO
LOGISTICO',1,'GASTOS
CALL
'100000000',
PROCESO
'GASTOS
CONTABLE',1,
0.0005) devuelve la calificacin despus de discriminar dos estados de

un atributo de prediccin (En el ejemplo los estados son: 'GASTOS
PROCESO LOGISTICO' contra 'GASTOS PROCESO CONTABLE') los
dos valores 1 al costado de cada estado indica que ambos son un
estado real. 0 indica el estado desaparecido y 2 indica el resto de los

estados. El umbral de probabilidad 0.0005 se usa para filtrar los
resultados. El resultado contiene factores de influencia y sus puntajes
de discriminacin. El signo de la puntuacin de la discriminacin indica
si la combinacin de la columna valor favorece el estado 1(positivo) o el
estado 2(negativo).
Grfico 21
Discriminacin de dos Estados del Atributo Prediccin Centro de
Costo
3.8. Realizar predicciones utilizando el modelo
Consulta de ejemplo 5:
La consulta siguiente utiliza una consulta singleton para proporcionar un
nuevo valor y predecir, segn el modelo, donde es probable que un
nuevo trabajador con las caractersticas de estado civil casado y tipo de
trabajador obrero estable sea ubicado en un centro de costo de la
empresa de la empresa.
La
respuesta
sta
consulta
Electromecnico Piura - Castilla
es:
Mantenimiento
Equipo
Grfico 22
Consulta de Prediccin DMX
Ejemplo de consulta 6: devolver predicciones con probabilidad y

compatibilidad
Adems de predecir un resultado, a menudo se desea conocer la
precisin de la prediccin. La consulta siguiente utiliza la misma
consulta singleton que el ejemplo anterior, pero agrega la funcin de
prediccin PredictHistogram (DMX) para devolver una tabla anidada
que contiene las estadsticas de la compatibilidad de la prediccin.
Grfico 23
Consulta de Prediccin DMX
La fila inicial en la tabla muestra los ajustes para la compatibilidad y la

probabilidad del valor que falta. Los valores de la desviacin estndar y
la varianza siempre son 0, porque los modelos Bayes naive no pueden
modelar valores continuos.
IV.
BIBLIOGRAFIA
6.1 Csar Prez Lpez, Daniel Santn Gonzlez. Minera de Datos:
Tcnicas y Herramientas. Paraninfo. 1 Edicin. 2008.
6.2 Jos Hernndez Orallo. Departamento de Sistemas Informticos y
Computacin. Universidad Politcnica de Valencia.
6.3 Tutorial de SQL Server Analysis Services
http://msdn.microsoft.com/es-es/library/ms170208(v=sql.100).aspx
6.4 Tutoriales para disear e implementar paquetes
http://msdn.microsoft.com/library/ms167031(v=sql.105)
6.5 SQL Server 2008: Reporting Services
http://msdn.microsoft.com/es-es/sqlserver/cc511478.aspx

Módulo Mineria de Datos

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Módulo Mineria de Datos

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE INGENIERIA INDUSTRIAL

1.1. Herramientas para la Toma de Decisiones

1.2. Caractersticas de las Herramientas OLAP

1.3. Modelo Multidimensional

1.4. Componentes del Modelo Multidimensional

1.5. Operaciones en Modelos Multidimensionales

1.6. Descripcin de los Procesos de Anlisis en Lnea

1.7. Definicin de Almacn de Datos (Data Warehouse)

1.8. Objetivos del Data Warehouse

1.9. Caractersticas del Data Warehouse

1.10. Problemas y Ventajas de los Almacenes de Datos en las

1.11. Arquitectura de un Almacn de Datos

1.12. Sistemas dorsales (back end) y frontales (front end)

ELABORACION DE UN DATA WAREHOUSE

2.1. Marco de Trabajo para Crear un Almacn de Datos

2.2. Procedimiento para la Construccin de un Almacn de Datos

2.3. Descripcin del Almacn de Datos

2.4. Caso Prctico: Estructuras de Datos para un Data Warehouse

2.5. Diagrama del Data Warehouse elaborado

USO DE LA HERRAMIENTA INTEGRATION SERVICE

3.1. Servicio de Transformacin de Datos (DTS)

3.2. Creacin de un paquete

3.3. Uso del Contenedor de Bucles Foreach

3.4. Herramienta para ejecucin de paquetes

USO DE LA HERRAMIENTA ANALISYS SERVICE Y EXCEL

4.1. Caso Prctico: Diseo de los Datamarts

4.2. Diseo de las Jerarquas de las Dimensiones

4.3. Caso Prctico Creacin de cubos

4.4. Caso Prctico: Extraccin de cubos a Excel

4.5. Caso Prctico: Interpretacin en forma general de los cubos creados.58

USO DE LA HERRAMIENTA REPORTING SERVICE

5.1. Modelos de Reportes

Las empresas actualmente poseen grandes volmenes de datos, obtenidos a

En la parte I se resume una serie de aspectos generales relacionados con el tema,

interpretacin de los mismos por parte de los usuarios finales de la informacin

1.1. Tipos de Contenidos

El tipo de contenido describe el comportamiento del contenido incluido

Algunos algoritmos requieren tipos de datos y de contenido especficos

A continuacin se describen los tipos de contenido que se usan en la

pueden calcular valores fraccionarios. Los cdigos telefnicos de cada

El tipo de contenido Discrete es compatible con todos los tipos de

El tipo de contenido Continuous es compatible con los siguientes tipos

El tipo de contenido Discretized es compatible con los siguientes tipos

columna IdCliente de la tabla de casos, y tambin debe establecer el

eventos. Los valores estn ordenados y no tienen que estar separados

Este tipo de contenido es compatible con los siguientes tipos de

Este tipo de contenido es compatible con los siguientes tipos de

El tipo de datos de esta columna siempre es Table.

Las columnas cclicas se consideran ordenadas y discretas en trminos

Las columnas de atributos ordenados se consideran discretas en

1.2. Lista de Funciones de Prediccin

Todos los algoritmos de Microsoft son compatibles con un conjunto

el algoritmo Bayes naive de Microsoft admite las funciones adicionales

ALGORITMO DE REGRESIN LINEAL DE MICROSOFT

El algoritmo de regresin lineal de Microsoft es una variacin del algoritmo de

Cada punto de datos del diagrama tiene un error asociado con su

ajustando a y b hasta que la suma de los errores asociados a todos los

2.1. Cmo Funciona el Algoritmo

En un modelo de regresin lineal, el conjunto de datos completo se

2.2. Datos requeridos para los Modelos de Regresin Lineal

Cuando se preparan datos para utilizarse en un modelo de regresin

Una columna key: cada modelo debe contener una columna

Una columna de prediccin: Se requiere al menos una columna