Sunteți pe pagina 1din 52

i

IBM SPSS Bootstrapping 19


Note: Before using this information and the product it supports, read the general information
under Notices el p. 41.
This document contains proprietary information of SPSS Inc, an IBM Company. It is provided
under a license agreement and is protected by copyright law. The information contained in this
publication does not include any product warranties, and any statements provided in this manual
should not be interpreted as such.
When you send information to IBM or SPSS, you grant IBM and SPSS a nonexclusive right
to use or distribute the information in any way it believes appropriate without incurring any
obligation to you.

Copyright SPSS Inc. 1989, 2010.


Prefacio

IBM SPSS Statistics es un sistema global para el anlisis de datos. El mdulo adicional
opcional Muestreo autodocimante proporciona las tcnicas de anlisis adicionales que se describen
en este manual. El mdulo adicional Muestreo autodocimante se debe utilizar con el sistema
bsico de SPSS Statistics y est completamente integrado en dicho sistema.

Acerca de SPSS Inc., an IBM Company


SPSS Inc., an IBM Company, es uno de los principales proveedores globales de software y
soluciones de anlisis predictivo. La gama completa de productos de la empresa (recopilacin
de datos, anlisis estadstico, modelado y distribucin) capta las actitudes y opiniones de las
personas, predice los resultados de las interacciones futuras con los clientes y, a continuacin,
acta basndose en esta informacin incorporando el anlisis en los procesos comerciales. Las
soluciones de SPSS Inc. tratan los objetivos comerciales interconectados en toda una organizacin
centrndose en la convergencia del anlisis, la arquitectura de TI y los procesos comerciales. Los
clientes comerciales, gubernamentales y acadmicos de todo el mundo confan en la tecnologa
de SPSS Inc. como ventaja ante la competencia para atraer, retener y hacer crecer los clientes,
reduciendo al mismo tiempo el fraude y mitigando los riesgos. SPSS Inc. fue adquirida por IBM
en octubre de 2009. Para obtener ms informacin, visite http://www.spss.com.

Asistencia tcnica
El servicio de asistencia tcnica est a disposicin de todos los clientes de mantenimiento. Los
clientes podrn ponerse en contacto con este servicio de asistencia tcnica si desean recibir ayuda
sobre la utilizacin de los productos de SPSS Inc. o sobre la instalacin en alguno de los entornos
de hardware admitidos. Para ponerse en contacto con el servicio de asistencia tcnica, consulte el
sitio web de SPSS Inc. en http://support.spss.com o encuentre a su representante local a travs
del sitio web http://support.spss.com/default.asp?refpage=contactus.asp. Tenga a mano su
identificacin, la de su organizacin y su contrato de asistencia cuando solicite ayuda.

Servicio de atencin al cliente


Si tiene cualquier duda referente a la forma de envo o pago, pngase en contacto con su oficina
local, que encontrar en el sitio Web en http://www.spss.com/worldwide. Recuerde tener preparado
su nmero de serie para identificarse.

Copyright SPSS Inc. 1989, 2010 iii


Cursos de preparacin
SPSS Inc. ofrece cursos de preparacin, tanto pblicos como in situ. Todos los cursos incluyen
talleres prcticos. Los cursos tendrn lugar peridicamente en las principales ciudades. Si
desea obtener ms informacin sobre estos cursos, pngase en contacto con su oficina local que
encontrar en el sitio Web en http://www.spss.com/worldwide.

Publicaciones adicionales
Los documentos SPSS Statistics: Guide to Data Analysis, SPSS Statistics: Statistical Procedures
Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija
Noruis y publicados por Prentice Hall, estn disponibles y se recomiendan como material
adicional. Estas publicaciones cubren los procedimientos estadsticos del mdulo SPSS Statistics
Base, el mdulo Advanced Statistics y el mdulo Regression. Tanto si da sus primeros pasos en el
anlisis de datos como si ya est preparado para las aplicaciones ms avanzadas, estos libros le
ayudarn a aprovechar al mximo las funciones ofrecidas por IBM SPSS Statistics. Si desea
informacin adicional sobre el contenido de la publicacin o muestras de captulos, consulte el
sitio web de la autora: http://www.norusis.com

iv
Contenido

Parte I: Manual del usuario

1 Introduccin al muestreo autodocimante 1

2 Muestreo autodocimante 3

Procedimientos que admiten el muestreo autodocimante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5


Funciones adicionales del comando BOOTSTRAP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Parte II: Ejemplos

3 Muestreo autodocimante 10

Uso de muestreo autodocimante para obtener intervalos de confianza para proporciones . . . . . . 10


Preparacin de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Especificaciones de Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Estadsticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Tabla de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Uso de muestreo autodocimante para obtener intervalos de confianza de medianas . . . . . . . . . . 16
Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Descriptivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Uso de muestreo autodocimante para seleccionar mejores predictores . . . . . . . . . . . . . . . . . . . . 20
Preparacin de datos . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 20
Ejecucin del anlisis . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 21
Estimaciones de los parmetros . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 29
Lecturas recomendadas . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 30

v
Apndices

A Archivos muestrales 31

B Notices 41

Bibliografa 43

ndice 44

vi
Parte I:
Manual del usuario
Captulo

1
Introduccin al muestreo
autodocimante

Cuando recopila datos suele estar interesado en las propiedades de la poblacin de la que ha
tomado la muestra. Hace inferencias acerca de los parmetros de la poblacin con estimaciones
calculadas de la muestra. Por ejemplo, si el conjunto de datos Employee data.sav que se incluye
con el producto es una muestra aleatoria de una poblacin mayor de empleados, la media de la
muestra de 34.419,57 dlares como Salario actual es una estimacin de la media del salario actual
de la poblacin de los empleados. Adems, esta estimacin tiene un error tpico de 784,311
dlares para una muestra de un tamao de 474; y un intervalo de confianza del 95% para la media
del salario actual de la poblacin de los empleados es de 32.878,40 dlares a 35.960,73 dlares.
Pero, cul es el nivel de fiabilidad de estos estimadores? Para algunas poblaciones conocidas y
parmetros de buen comportamiento, sabemos algo acerca de las propiedades de las estimaciones
de la muestra y podemos confiar en estos resultados. El muestreo autodocimante busca ms
informacin acerca de las propiedades de los estimadores de poblaciones desconocidas y
parmetros de mal comportamiento.
Figura 1-1
Realizacin de inferencias paramtricas acerca de la media de la poblacin

Funcionamiento del muestreo autodocimante

En su forma ms simple, para un conjunto de datos con un tamao de muestra de N, tomar B


muestras autodocimantes de un tamao N sustituyendo del conjunto de datos original y calcular
el estimador de cada uno de estas B muestras autodocimantes. Estas B estimaciones de muestras
autodocimantes son una muestra de un tamao B de la que podr realizar inferencias acerca del
estimador. Por ejemplo, si toma 1.000 muestras autodocimantes del conjunto de datos Employee
data.sav , el error tpico de muestras autodocimantes estimado de 776,91 dlares para la media de
la muestra de Salario actual es una alternativa a la estimacin de 784,311 dlares.

Adems, el muestreo autodocimante proporciona un error estndar y un intervalo de confianza


para la mediana, cuyas estimaciones paramtricas no estn disponibles.

Copyright SPSS Inc. 1989, 2010 1


2

Captulo 1

Figura 1-2
Realizacin de inferencias autodocimantes acerca de la media de muestra

Compatibilidad del muestreo autodocimante en el producto

El muestreo autodocimante se incorpora como un cuadro de dilogo subordinado en


procedimientos que admiten el muestreo autodocimante. Consulte Procedimientos que admiten el
muestreo autodocimante si desea obtener informacin acerca de los procedimientos que admiten
el muestreo autodocimante.

Si se requiere muestreo autodocimante en los cuadros de dilogo, se pega un nuevo comando


BOOTSTRAP independiente, adems de la sintaxis normal que genera el cuadro de dilogo. El
comando BOOTSTRAP crea las muestras autodocimantes en funcin de sus especificaciones.
Internamente, el producto trata estas muestras autodocimantes como segmentaciones, incluso si
no se muestran de forma explcita en el Editor de datos. Significa que, de forma interna, son
efectivamente B*N casos, de forma que el recuento de casos en la barra de estado contar desde 1
a B*N cuando se procesen los datos durante el muestreo autodocimante. El Sistema de gestin
de resultados (OMS) se utiliza para recopilar los resultados de la ejecucin del anlisis en cada
segmentacin autodocimante. Estos resultados se combinan y los resultados autodocimantes
combinados se muestran en el Visor con el resto del resultado normal que genera el procedimiento.
En algunos casos, podr ver una referencia a segmentacin autodocimante 0; es el conjunto de
datos original.
Captulo

2
Muestreo autodocimante

Bootstrapping es un mtodo para derivar estimaciones robustas de errores tpicos e intervalos


de confianza para estimaciones como la media, mediana, proporcin, razn de las ventajas,
coeficientes de correlacin o coeficientes de regresin. Tambin se puede utilizar para crear
pruebas hipotticas. Bootstrapping es ms til como alternativa a estimaciones paramtricas en
caso de que los supuestos de esos mtodos sean dudosos (como en el caso de modelos de regresin
con residuos heteroscedstico se ajusten a muestras pequeas), o si la inferencia paramtrica no es
posible o requiere frmulas muy complicadas para el clculo de errores tpicos (como en el caso
de clculo de intervalos de confianza de mediana, cuartiles y otros percentiles).
Ejemplos. Una empresa de telecomunicaciones pierde alrededor del 27% de sus clientes por
abandono cada mes. Para reducir el porcentaje de abandono, los directivos quieren saber
si este porcentaje vara en diferentes grupos de clientes predefinidos. Mediante el muestreo
autodocimante, puede determinar si un porcentaje concreto de abandonos describe de forma
adecuada los cuatro tipos principales de clientes. Si desea obtener ms informacin, consulte el
tema Uso de muestreo autodocimante para obtener intervalos de confianza para proporciones en
el captulo 3 en IBM SPSS Bootstrapping 19.

En una revisin de los registros de empleados, los directivos estn interesados en las experiencias
anteriores de los empleados. La experiencia laboral es asimtrica, lo que hace que la media sea
una estimacin menos deseable de la experiencia laboral habitual entre los empleados que la
mediana. Sin embargo, los intervalos de confianza no estn disponibles para la mediana en el
producto. Si desea obtener ms informacin, consulte el tema Uso de muestreo autodocimante
para obtener intervalos de confianza de medianas en el captulo 3 en IBM SPSS Bootstrapping 19.

Los directivos tambin estn interesados en determinar los factores que estn asociados con los
aumentos de salarios de los empleados mediante la definicin de un modelo lineal de la diferencia
entre el salario inicial y el actual. Al realizar un muestreo autodocimante de un modelo lineal,
puede utilizar mtodos de muestreado sucesivo especiales (muestreo autodocimante residual
y wild) para obtener resultados ms precisos. Si desea obtener ms informacin, consulte el
tema Uso de muestreo autodocimante para seleccionar mejores predictores en el captulo 3 en
IBM SPSS Bootstrapping 19.

Muchos procedimientos admiten el muestreo autodocimante y la combinacin de resultados


a partir del anlisis de muestras autodocimantes. Los controles para especificar anlisis
autodocimantes se integran directamente como un cuadro de dilogo subordinado comn en
procedimientos que admiten el muestreo autodocimante. La configuracin del cuadro de dilogo
de muestras autodocimantes permanece en los procedimientos de forma que, si ejecuta un anlisis
de frecuencias con muestreo autodocimante en los cuadros de dilogo, el muestreo autodocimante
se activar por defecto para otros procedimientos que lo admitan.
Copyright SPSS Inc. 1989, 2010 3
4

Captulo 2

Para obtener un anlisis autodocimante

E En los mens seleccione un procedimiento que admita el muestreo autodocimante y pulse en


Autodocimante.
Figura 2-1
Cuadro de dilogo Autodocimante

E Seleccione Ejecutar bootstrapping.

Tambin puede controlar las siguientes opciones:

Nmero de muestras. Para los intervalos de percentil y BCa producidos, se recomienda utilizar al
menos 1000 muestras autodocimantes. Especifique un nmero entero positivo.

Definir semilla para tornado de Mersenne. Si se establece una semilla es posible replicar anlisis.
El uso de este control es parecido a establecer el tornado de Mersenne como generador activo y
especificar un punto de inicio fijo en el cuadro de dilogo Generadores de nmeros aleatorios, con
la importante diferencia de que la definicin de la semilla de este cuadro de dilogo mantendr
el estado actual del generador de nmeros aleatorios y restaurar dicho estado cuando haya
terminado el anlisis.

Intervalos de confianza. Especifique un nivel de confianza mayor que 50 y menor que 100. Los
intervalos de percentiles slo utilizan los valores autodocimantes ordenados correspondientes a
los percentiles de intervalo de confianza deseados. Por ejemplo, un intervalo de confianza de
percentil del 95% utiliza los percentiles 2,5 y 97,5 de los valores autodocimantes como los lmites
inferior y superior del intervalo (interpolando los valores autodocimantes si es necesario). Los
5

Muestreo autodocimante

intervalos de sesgo corregidos y acelerados (BCa) son intervalos ajustados que son ms precisos,
pero necesitan ms tiempo de clculo.

Muestreo. El mtodo simple consiste en volver a muestrear los casos reemplazndolos del conjunto
de datos original. El mtodo estratificado consiste en volver a muestrear los casos sustituyendo el
conjunto de datos original, en los estratos definidos por las variables de estratos de clasificacin
cruzada. El muestreo autodocimante estratificado puede ser muy til si las unidades de los estratos
son relativamente homogneas aunque las unidades para todos los estratos son muy diferentes.

Procedimientos que admiten el muestreo autodocimante


Los siguientes procedimientos admiten el muestreo autodocimante.

Nota:
El muestreo autodocimante no funciona con conjuntos de datos de imputacin mltiple. Si
hay una variable Imputation_ en el conjunto de datos, el cuadro de dilogo Autodocimante se
desactiva.
El muestreo autodocimante utiliza eliminacin por lista para determinar los casos; es decir, los
casos con valores perdidos en cualquiera de las variables de anlisis se eliminan del anlisis,
de forma que, cuando el muestreo autodocimante est en efecto, eliminacin por lista se activa
incluso si el procedimiento de anlisis especifica otra forma de gestin de valores perdidos.

Opcin Estadsticas bsicas

Frecuencias
La tabla Estadsticos admite estimaciones autodocimantes de media, desviacin tpica,
varianza, mediana, asimetra, curtosis y percentiles.
La tabla Frecuencias admite estimaciones autodocimantes de porcentaje.

Descriptivos
La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media, desviacin
tpica, varianza, asimetra y curtosis.

Explorar
La tabla Descriptivos admite estimaciones autodocimantes de media, media recortada al 5%,
desviacin tpica, varianza, mediana, asimetra, curtosis y amplitud intercuartil.
La tabla Estimadores-M admite estimaciones autodocimantes de estimador-M de Huber,
estimador biponderado de Tukey, estimador-M de Hampel y onda de Andrews.
La tabla Percentiles admite estimaciones autodocimantes de percentiles.

Tablas de contingencia
La tabla Medidas direccionales admite estimaciones autodocimantes de Lambda, Goodman y
Kruskal Tau, coeficiente de incertidumbre y d de Somers.
6

Captulo 2

La tabla Medidas simtricas admite estimaciones autodocimantes de Phi, V de Cramer,


coeficiente de contingencia, tau-b de Kendall, tau-c de Kendall, Gamma, correlacin de
Spearman y r de Pearson.
La tabla Estimacin de riesgo admite estimaciones autodocimantes de la razn de las ventajas.
La tabla de razn de las ventajas comn de Mantel-Haenszel admite estimaciones
autodocimantes y pruebas de significacin de ln(Estimacin).

Medias
La tabla Informe admite estimaciones autodocimantes de media, mediana, mediana agrupada,
desviacin tpica, varianza, curtosis, asimetra, media armnica y media geomtrica.

Prueba T para una muestra


La tabla Estadsticos admite estimaciones autodocimantes de media y desviacin tpica.
La tabla Prueba admite estimaciones autodocimantes y pruebas de significacin de diferencia
de medias.

Prueba T para muestras independientes


La tabla Estadsticos de grupo admite estimaciones autodocimantes de media y desviacin
tpica.
La tabla Prueba admite estimaciones autodocimantes y pruebas de significacin de diferencia
de medias.

Prueba T para muestras relacionadas


La tabla Estadsticos admite estimaciones autodocimantes de media y desviacin tpica.
La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.
La tabla Prueba admite estimaciones autodocimantes de media.

ANOVA de un factor
La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin
tpica.
La tabla Comparaciones mltiples admite estimaciones autodocimantes de diferencia de
medias.
La tabla Pruebas de contraste admite estimaciones autodocimantes y pruebas de significacin
de valor de contraste.

MLG Univariante
La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin
tpica.
La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebas
de significacin de coeficiente B.
La tabla de resultados de contraste admite estimaciones autodocimantes y pruebas de
significacin de diferencia.
Medias marginales estimadas: La tabla Estimaciones admite estimaciones autodocimantes
de media.
7

Muestreo autodocimante

Medias marginales estimadas: La tabla Comparaciones por parejas admite estimaciones


autodocimantes de diferencia de medias.
Pruebas post hoc: La tabla Comparaciones mltiples admite estimaciones autodocimantes
de diferencia de medias.

Correlaciones bivariadas
La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin
tpica.
La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.

Nota: Si se requieren correlaciones no paramtricas (tau-b de Kendall o Spearman) adems de las


correlaciones de Pearson, el cuadro de dilogo pega los comandos CORRELATIONS y NONPAR
CORR con un comando BOOTSTRAP diferente para cada una. Se utilizarn las mismas muestras
autodocimantes para calcular todas las correlaciones.

Correlaciones parciales
La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin
tpica.
La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.

Regresin lineal
La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin
tpica.
La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.
La tabla Resumen de modelo admite estimaciones autodocimantes de Durbin-Watson.
La tabla Coeficientes admite estimaciones autodocimantes y pruebas de significacin de
coeficiente B.
La tabla Coeficientes de correlacin admite estimaciones autodocimantes de correlaciones.
La tabla Estadsticos residuales admite estimaciones autodocimantes de media y desviacin
tpica.

Regresin ordinal
La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebas
de significacin de coeficiente B.

Anlisis discriminante
La tabla Coeficientes de funciones discriminantes cannicas tipificados admite estimaciones
autodocimantes de coeficientes tipificados.
La tabla Coeficientes de funciones discriminantes cannicas admite estimaciones
autodocimantes de coeficientes no tipificados.
La tabla Coeficientes de funcin de clasificacin admite estimaciones autodocimantes de
coeficientes.
8

Captulo 2

Opcin Estadsticas avanzadas

MLG Multivariante
La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebas
de significacin de coeficiente B.

Modelos lineales mixtos


La tabla Estimaciones de efectos fijos admite estimaciones autodocimantes y pruebas de
significacin de estimacin.
La tabla Estimaciones de parmetros de covarianzas admite estimaciones autodocimantes
y pruebas de significacin de estimacin.

Modelos lineales generalizados


La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebas
de significacin de coeficiente B.

Regresin de Cox
La tabla Variables en la ecuacin admite estimaciones autodocimantes y pruebas de
significacin de coeficiente B.

Opcin Regresin

Regresin logstica binaria


La tabla Variables en la ecuacin admite estimaciones autodocimantes y pruebas de
significacin de coeficiente B.

Regresin logstica multinomial


La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebas
de significacin de coeficiente B.

Funciones adicionales del comando BOOTSTRAP


La sintaxis de comandos tambin le permite:
Realice muestreos autodocimantes residuales y wild (subcomando SAMPLING)
Consulte la Referencia de sintaxis de comandos para obtener informacin completa de la sintaxis.
Parte II:
Ejemplos
Captulo

3
Muestreo autodocimante

Bootstrapping es un mtodo para derivar estimaciones robustas de errores tpicos e intervalos


de confianza para estimaciones como la media, mediana, proporcin, razn de las ventajas,
coeficientes de correlacin o coeficientes de regresin. Tambin se puede utilizar para crear
pruebas hipotticas. Bootstrapping es ms til como alternativa a estimaciones paramtricas en
caso de que los supuestos de esos mtodos sean dudosos (como en el caso de modelos de regresin
con residuos heteroscedstico se ajusten a muestras pequeas), o si la inferencia paramtrica no es
posible o requiere frmulas muy complicadas para el clculo de errores tpicos (como en el caso
de clculo de intervalos de confianza de mediana, cuartiles y otros percentiles).

Uso de muestreo autodocimante para obtener intervalos de confianza


para proporciones
Una empresa de telecomunicaciones pierde alrededor del 27% de sus clientes por abandono cada
mes. Para reducir el porcentaje de abandono, los directivos quieren saber si este porcentaje vara
en diferentes grupos de clientes predefinidos.
Esta informacin se recoge en el archivo telco.sav. Si desea obtener ms informacin, consulte
el tema Archivos muestrales en el apndice A el p. 31. Utilice el muestreo autodocimante para
determinar si un porcentaje concreto de abandonos describe de forma adecuada los cuatro tipos
principales de clientes.

Nota: Este ejemplo utiliza el procedimiento de frecuencias y requiere la opcin Statistics Base.

Preparacin de datos
En primer lugar debe segmentar el archivo por Categora del cliente.

E Para segmentar el archivo, elija en los mens del Editor de datos:


Datos > Segmentar archivo...

Copyright SPSS Inc. 1989, 2010 10


11

Muestreo autodocimante

Figura 3-1
Cuadro de dilogo Segmentar archivo

E Seleccione Comparar los grupos.

E Seleccione Categora del cliente como la variable en la que se basan los grupos.

E Pulse en Aceptar.

Ejecucin del anlisis


E Para obtener intervalos de confianza autodocimantes para proporciones, seleccione en los mens:
Analizar > Estadsticos descriptivos > Frecuencias...

Figura 3-2
Cuadro de dilogo principal Frecuencias

E Seleccione Abandonaron durante el ltimo mes [abandono] como una variable en el anlisis.

E Pulse en Estadsticos.
12

Captulo 3

Figura 3-3
Cuadro de dilogo Estadsticos

E Seleccione Media en el grupo Tendencia central.

E Pulse en Continuar.

E Pulse en Autodocimante en el cuadro de dilogo Frecuencias.


13

Muestreo autodocimante

Figura 3-4
Cuadro de dilogo Autodocimante

E Seleccione Ejecutar bootstrapping.

E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla para
Tornado de Mersenne e introduzca 9191972 como semilla.

E Pulse en Continuar.

E Pulse en Aceptar en el cuadro de dilogo Frecuencias.

Estas selecciones generan la siguiente sintaxis de comandos:

SORT CASES BY custcat.


SPLIT FILE LAYERED BY custcat.
PRESERVE.
SET RNG=MT MTINDEX=9191972.
SHOW RNG.
BOOTSTRAP
/SAMPLING METHOD=SIMPLE
/VARIABLES INPUT=churn
/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
FREQUENCIES VARIABLES=churn
/STATISTICS=MEAN
/ORDER=ANALYSIS.
RESTORE.

Los comandos SORT CASES y SPLIT FILE dividen el archivo en la variable custcat.
14

Captulo 3

Los comandos PRESERVE y RESTORE recuerdan el estado actual del generador de nmeros
aleatorios y restaurar el sistema al estado posterior a la finalizacin del mtodo autodocimante.
El comando SET define el generador de nmeros aleatorios a Mersenne Twister y el ndice a
9191972, para que los resultados del muestreo autodocimante se puedan replicar exactamente.
El comando SHOW muestra el ndice en el resultado para futura referencia.
El comando BOOTSTRAP solicita 1.000 muestras autodocimantes mediante nuevas muestras
simples.
La variable churn se utiliza para determinar las muestras caso a caso. Los registros con
valores perdidos en esta variable se eliminan del anlisis.
El procedimiento FREQUENCIES posterior a BOOTSTRAP se ejecuta en cada una de las
muestras autodocimantes.
El subcomando STATISTICS produce la media de la variable churn en los datos originales.
Adems, las estadsticas combinadas se producen para la media y los porcentajes en la tabla
de frecuencias.

Especificaciones de Bootstrap
Figura 3-5
Especificaciones de muestreo autodocimante

La tabla de especificaciones de muestreo autodocimante contiene los ajustes utilizados durante las
nuevas muestras y es una referencia til para comprobar si se han completado los anlisis previstos.
15

Muestreo autodocimante

Estadsticas
Figura 3-6
Tabla de estadsticos con el intervalo de confianza autodocimante para la proporcin

La tabla de estadsticos muestra, para cada nivel de Categora del cliente, el valor de media de
Abandonaron durante el ltimo mes. Como Abandonaron durante el ltimo mes slo toma los
valores de 0 y 1, con 1 para un cliente que ha abandonado, la media es igual a la proporcin de los
usuarios que han abandonado. La columna Estadsticos muestra los valores que suele producir
Frecuencias, utilizando el conjunto de datos original. Las columnas Autodocimante se producen
por los algoritmos de muestreo autodocimante.
Bias es la diferencia entre el valor promedio de este estadstico entre las muestras
autodocimantes y el valor en la columna Estadstico. En este caso, el valor promedio de
Abandonaron durante el ltimo mes se calcula para las 1000 muestras autodocimantes y
posteriormente se calcula el promedio estas medias.
Desv. El error es el error tpico de Abandonaron durante el ltimo mes en las 1000 muestras
autodocimantes.
El lmite inferior del 95% del intervalo de confianza autodocimante es una interpolacin de los
valores 25 y 26 de Abandonaron durante el ltimo mes, si las 1000 muestras autodocimantes
se clasifican en orden ascendente. El lmite superior es una interpolacin de los valores
de las medias 975 y 976.

Los resultados de la tabla sugieren que el ndice de abandono es diferente entre tipos de clientes
diferentes. En concreto, el intervalo de confianza de los clientes de Servicio plus no se superpone
con ningn otro, lo que sugiere que de media es menos probable que estos clientes abandonen.

Si trabaja con variables categricas con slo dos valores, estos intervalos de confianza son
alternativas a los producidos por el procedimiento de Pruebas no paramtricas para una muestra o
Prueba T para una muestra.
16

Captulo 3

Tabla de frecuencia
Figura 3-7
Tabla de frecuencias con el intervalo de confianza autodocimante para la proporcin

La tabla de frecuencias muestra los intervalos de confianza de los porcentajes (proporcin 100%)
de cada categora y estn disponibles para todas las variables categricas. Otras caractersticas
del producto no tienen intervalos de confianza comparables.

Uso de muestreo autodocimante para obtener intervalos de confianza


de medianas
En una revisin de los registros de empleados, los directivos estn interesados en las experiencias
anteriores de los empleados. La experiencia laboral es asimtrica, lo que hace que la media sea
una estimacin menos deseable de la experiencia laboral habitual entre los empleados que la
mediana. Sin embargo, sin muestreo autodocimante, los intervalos de confianza de la mediana no
estn disponibles de forma general en procedimientos estadsticos del producto.
Esta informacin se recoge en el archivo Employee data.sav. Si desea obtener ms informacin,
consulte el tema Archivos muestrales en el apndice A el p. 31. Uso de muestreo autodocimante
para obtener intervalos de confianza de la media.

Nota: Este ejemplo utiliza el procedimiento Explorar y requiere la opcin Statistics Base.

Ejecucin del anlisis


E Para obtener intervalos de confianza autodocimantes de la mediana, seleccione en los mens:
Analizar > Estadsticos descriptivos > Explorar...
17

Muestreo autodocimante

Figura 3-8
Cuadro de dilogo principal Explorar

E Seleccione Experiencia anterior (meses) [prevexp] como variable dependiente.

E Seleccione Estadsticos en la seccin Mostrar.

E Pulse en Autodocimante.
18

Captulo 3

Figura 3-9
Cuadro de dilogo Autodocimante

E Seleccione Ejecutar bootstrapping.

E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla para
Tornado de Mersenne e introduzca 592004 como semilla.

E Para obtener resultados ms precisos (requiere ms tiempo de procesamiento), seleccione Bias


corregido acelerado (BCa).

E Pulse en Continuar.

E Pulse en Aceptar en el cuadro de dilogo Explorar.

Estas selecciones generan la siguiente sintaxis de comandos:


PRESERVE.
SET RNG=MT MTINDEX=592004.
SHOW RNG.
BOOTSTRAP
/SAMPLING METHOD=SIMPLE
/VARIABLES TARGET=prevexp
/CRITERIA CILEVEL=95 CITYPE=BCA NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
EXAMINE VARIABLES=prevexp
/PLOT NONE
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
19

Muestreo autodocimante

RESTORE.

Los comandos PRESERVE y RESTORE recuerdan el estado actual del generador de nmeros
aleatorios y restaurar el sistema al estado posterior a la finalizacin del mtodo bootstrap.
El comando SET define el generador de nmeros aleatorios a Mersenne Twister y el ndice a
592004, para que los resultados del muestreo bootstrap se puedan replicar exactamente. El
comando SHOW muestra el ndice en el resultado para futura referencia.
El comando BOOTSTRAP solicita 1000 muestras bootstrap mediante nuevas muestras simples.
El subcomando VARIABLES especifica que la variable prevexp se utiliza para determinar
las muestras caso a caso. Los registros con valores perdidos en esta variable se eliminan
del anlisis.
El subcomando CRITERIA , adems de requerir el nmero de muestras de bootstrap,
requiere intervalos de confianza de bootstrap de sesgo corregidos y acelerados en lugar de
los intervalos de percentiles predefinidos.
El procedimiento EXAMINE posterior a BOOTSTRAP se ejecuta en cada una de las muestras
bootstrap.
El subcomando PLOT desactiva el resultado de la representacin.
El resto de opciones estn establecidas en sus valores por defecto.

Descriptivos
Figura 3-10
Tabla Descriptivos con intervalos de confianza autodocimantes

La tabla descriptivos contiene un nmero de intervalos de confianza de estadsticos y


autodocimantes de esos estadsticos. El intervalo de confianza autodocimante de la media (86,39,
105,20) es similar al intervalo de confianza paramtrico (86,42, 105,30) y sugiere que el empleado
tpico tiene unos 7-9 aos de experiencia previa. Sin embargo, Experiencia anterior (meses)
tiene una distribucin asimtrica, que convierte a la media en un indicador menos deseable del
salario actual tpico que la mediana. El intervalo de confianza autodocimante de la mediana
(50,00, 60,00) es ms estrecho e inferior que el intervalo de confianza de la media y sugiere que el
20

Captulo 3

empleado tpico tiene unos 4-5 aos de experiencia previa. El uso de muestreo autodocimante ha
hecho posible obtener un intervalo de valores que representen mejor la experiencia tpica anterior.

Uso de muestreo autodocimante para seleccionar mejores predictores


Durante una revisin de los registros de los empleados, los directivos tambin estn interesados en
determinar los factores que estn asociados con los aumentos de salarios de los empleados, al
definir un modelo lineal de la diferencia entre el salario inicial y el actual. Al realizar un muestreo
autodocimante de un modelo lineal, puede utilizar mtodos de muestreado sucesivo especiales
(muestreo autodocimante residual y wild) para obtener resultados ms precisos.
Esta informacin se recoge en el archivo Employee data.sav. Si desea obtener ms informacin,
consulte el tema Archivos muestrales en el apndice A el p. 31.

Nota: Este ejemplo utiliza el procedimiento MLG Univariante y requiere la opcin Statistics Base.

Preparacin de datos
En primer lugar debe calcular la diferencia entre Salario actual y Salario inicial.

E Seleccione en los mens:


Transformar > Calcular variable...
21

Muestreo autodocimante

Figura 3-11
Cuadro de dilogo Calcular variable

E Escriba diff como variable de destino.

E Escriba salario-iniciosalario como expresin numrica.

E Pulse en Aceptar.

Ejecucin del anlisis


Para ejecutar MLG Univariante con muestreo autodocimante residual y wild, necesita crear
residuos.

E Seleccione en los mens:


Analizar > Modelo lineal general > Univariante...
22

Captulo 3

Figura 3-12
Cuadro de dilogo principal MLG Univariante

E Seleccione diff como la variable dependiente.

E Seleccione Gnero [gender], Categora laboral [gender] y Clasificacin tnica [minority]


como factores fijos.

E Seleccione Meses desde el contrato [jobtime] y Experiencia anterior (meses) [prevexp] como
covariables.

E Pulse en Modelo.
23

Muestreo autodocimante

Figura 3-13
Cuadro de dilogo Modelo

E Seleccione Personalizado y seleccione Efectos principales en la lista desplegable Construir trminos.

E Seleccione gender hasta prevexp como trminos de modelo.

E Pulse en Continuar.

E Pulse en Guardar en el cuadro de dilogo MLG Univariante.


24

Captulo 3

Figura 3-14
Cuadro de dilogo Guardar

E Seleccione No tipificados en el grupo Residuos.

E Pulse en Continuar.

E Pulse en Autodocimante en el cuadro de dilogo MLG Univariante.


25

Muestreo autodocimante

Figura 3-15
Cuadro de dilogo Autodocimante

La configuracin autodocimante se mantiene en los cuadros de dilogo que admiten el muestreo


autodocimante. Mientras el muestreo autodocimante est activado no se podrn guardar nuevas
variables en el conjunto de datos, as que deber asegurarse de que est desactivado.

E Si es necesario, elimine la seleccin de Ejecutar bootstrapping.

E Pulse en Aceptar en el cuadro de dilogo MLG Univariante. El conjunto de datos contiene ahora
una nueva variable, RES_1, que contiene los residuos no tipificados del modelo.

E Active el cuadro de dilogo MLG Univariante y pulse Guardar.


26

Captulo 3

E Cancele la seleccin de No tipificados y pulse Continuar y Opciones en el cuadro de dilogo MLG


Univariante.
Figura 3-16
Cuadro de dilogo Opciones

E Seleccione Estimaciones de los parmetros en la seccin Mostrar.

E Pulse en Continuar.

E Pulse en Autodocimante en el cuadro de dilogo MLG Univariante.


27

Muestreo autodocimante

Figura 3-17
Cuadro de dilogo Autodocimante

E Seleccione Ejecutar bootstrapping.

E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla para
Tornado de Mersenne e introduzca 9191972 como semilla.

E No hay opciones para ejecutar muestreo autodocimante wild en los cuadros de dilogo, por lo que
tendr que pulsar Continuar y, a continuacin, Pegar en el cuadro de dilogo MLG Univariante.

Estas selecciones generan la siguiente sintaxis de comandos:

PRESERVE.
SET RNG=MT MTINDEX=9191972.
SHOW RNG.
BOOTSTRAP
/SAMPLING METHOD=SIMPLE
/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp
/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PRINT=PARAMETER
/CRITERIA=ALPHA(.05)
/DESIGN=gender jobcat minority jobtime prevexp.
28

Captulo 3

RESTORE.

Para ejecutar muestreo autodocimante wild, edite la palabra clave METHOD del subcomando
SAMPLING a METHOD=WILD(RESIDUALS=RES_1).

El conjunto final de la sintaxis de comandos tendr la siguiente apariencia:

PRESERVE.
SET RNG=MT MTINDEX=9191972.
SHOW RNG.
BOOTSTRAP
/SAMPLING METHOD=WILD(RESIDUALS=RES_1)
/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp
/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PRINT=PARAMETER
/CRITERIA=ALPHA(.05)
/DESIGN=gender jobcat minority jobtime prevexp.
RESTORE.

Los comandos PRESERVE y RESTORE recuerdan el estado actual del generador de nmeros
aleatorios y restaurar el sistema al estado posterior a la finalizacin del mtodo bootstrap.
El comando SET define el generador de nmeros aleatorios a Mersenne Twister y el ndice a
9191972, para que los resultados del muestreo bootstrap se puedan replicar exactamente. El
comando SHOW muestra el ndice en el resultado para futura referencia.
El comando BOOTSTRAP requiere 1000 muestras de bootstrap con muestreo wild y RES_1
como la variable que contiene los residuos.
El subcomando VARIABLES especifica que diff es la variable objetivo del modelo lineal. Esta
variable y gender, jobcat, minority, jobtime y prevexp se utilizan para determinar las muestras
caso a caso. Los registros con valores perdidos en estas variables se eliminan del anlisis.
El subcomando CRITERIA , adems de requerir el nmero de muestras de bootstrap,
requiere intervalos de confianza de bootstrap de sesgo corregidos y acelerados en lugar de
los intervalos de percentiles predefinidos.
El procedimiento UNIANOVA posterior a BOOTSTRAP se ejecuta en cada muestra bootstrap y
produce estimaciones de los parmetros para los datos originales. Adems, los estadsticos
combinados se producen para los coeficientes del modelo.
29

Muestreo autodocimante

Estimaciones de los parmetros


Figura 3-18
Estimaciones de los parmetros

La tabla Estimaciones de los parmetros muestra las estimaciones normales sin muestreo
autodocimante de los parmetros de los trminos de modelo. El valor de significacin de 0,105
para [minority=0] es mayor que 0,05, lo que sugiere que Clasificacin tnica no tiene ningn
efecto en los aumentos de los salarios.

Figura 3-19
Estimaciones de parmetros autodocimantes

Ahora mire la tabla Estimaciones de parmetros autodocimantes. En la columna Error tpico, ver
que los errores tpicos paramtricos de algunos coeficientes, como interseccin, son demasiado
pequeos en comparacin con las estimaciones autodocimantes y los intervalos de confianza
son mayores. En algunos coeficientes, como [minority=0], los errores tpicos paramtricos
eran demasiado grandes y el valor de significacin de 0,006 en los resultados autodocimantes,
menor de 0,05, muestra que la diferencia observada en aumentos de salarios entre los empleados
30

Captulo 3

pertenecientes a minoras tnicas o no no obedecen a las posibilidades. Los directivos saben ahora
que merece la pena investigar ms a fondo esta diferencia para determinar sus posibles causas.

Lecturas recomendadas
Consulte los siguientes textos si desea obtener ms informacin acerca de muestreos
autodocimantes:

Davison, A. C., y D. V. Hinkley. 2006. Bootstrap Methods and their Application. : Cambridge
University Press.

Shao, J., y D. Tu. 1995. The Jackknife and Bootstrap. Nueva York: Springer.
Apndice

A
Archivos muestrales

Los archivos muestrales instalados con el producto se encuentran en el subdirectorio Samples del
directorio de instalacin. Hay una carpeta independiente dentro del subdirectorio Samples para
cada uno de los siguientes idiomas: Ingls, francs, alemn, italiano, japons, coreano, polaco,
ruso, chino simplificado, espaol y chino tradicional.

No todos los archivos muestrales estn disponibles en todos los idiomas. Si un archivo muestral
no est disponible en un idioma, esa carpeta de idioma contendr una versin en ingls del archivo
muestral.

Descripciones

A continuacin, se describen brevemente los archivos muestrales usados en varios ejemplos


que aparecen a lo largo de la documentacin.
accidents.sav.Archivo de datos hipotticos sobre una compaa de seguros que estudia los
factores de riesgo de edad y gnero que influyen en los accidentes de automviles de una
regin determinada. Cada caso corresponde a una clasificacin cruzada de categora de
edad y gnero.
adl.sav.Archivo de datos hipotticos relativo a los esfuerzos para determinar las ventajas de un
tipo propuesto de tratamiento para pacientes que han sufrido un derrame cerebral. Los mdicos
dividieron de manera aleatoria a pacientes (mujeres) que haban sufrido un derrame cerebral
en dos grupos. El primer grupo recibi el tratamiento fsico estndar y el segundo recibi un
tratamiento emocional adicional. Tres meses despus de los tratamientos, se puntuaron las
capacidades de cada paciente para realizar actividades cotidianas como variables ordinales.
advert.sav. Archivo de datos hipotticos sobre las iniciativas de un minorista para examinar
la relacin entre el dinero invertido en publicidad y las ventas resultantes. Para ello, se
recopilaron las cifras de ventas anteriores y los costes de publicidad asociados.
aflatoxin.sav. Archivo de datos hipotticos sobre las pruebas realizadas en las cosechas de
maz con relacin a la aflatoxina, un veneno cuya concentracin vara ampliamente en los
rendimientos de cultivo y entre los mismos. Un procesador de grano ha recibido 16 muestras
de cada uno de los 8 rendimientos de cultivo y ha medido los niveles de aflatoxinas en partes
por milln (PPM).
aflatoxin20.sav. Este archivo de datos contiene las medidas de aflatoxina de cada una de las 16
muestras de los rendimientos 4 y 8 procedentes del archivo de datos aflatoxin.sav.
anorectic.sav.Mientras trabajaban en una sintomatologa estandarizada del comportamiento
anorxico/bulmico, los investigadores (Van der Ham, Meulman, Van Strien, y Van Engeland,
1997) realizaron un estudio de 55 adolescentes con trastornos de la alimentacin conocidos.
Cada paciente fue examinado cuatro veces durante cuatro aos, lo que representa un total
Copyright SPSS Inc. 1989, 2010 31
32

Apndice A

de 220 observaciones. En cada observacin, se puntu a los pacientes por cada uno de los
16 sntomas. Faltan las puntuaciones de los sntomas para el paciente 71 en el tiempo 2, el
paciente 76 en el tiempo 2 y el paciente 47 en el tiempo 3, lo que nos deja 217 observaciones
vlidas.
autoaccidents.sav. Archivo de datos hipotticos sobre las iniciativas de un analista de seguros
para elaborar un modelo del nmero de accidentes de automvil por conductor teniendo en
cuenta la edad y el gnero del conductor. Cada caso representa un conductor diferente y
registra el sexo, la edad en aos y el nmero de accidentes de automvil del conductor en los
ltimos cinco aos.
band.sav Este archivo de datos contiene las cifras de ventas semanales hipotticas de CD de
msica de una banda. Tambin se incluyen datos para tres variables predictoras posibles.
bankloan.sav.Archivo de datos hipotticos sobre las iniciativas de un banco para reducir la
tasa de moras de crditos. El archivo contiene informacin financiera y demogrfica de
850 clientes anteriores y posibles clientes. Los primeros 700 casos son clientes a los que
anteriormente se les ha concedido un prstamo. Al menos 150 casos son posibles clientes
cuyos riesgos de crdito el banco necesita clasificar como positivos o negativos.
bankloan_binning.sav. Archivo de datos hipotticos que contiene informacin financiera y
demogrfica sobre 5.000 clientes anteriores.
behavior.sav. En un ejemplo clsico (Price y Bouffard, 1974), se pidi a 52 estudiantes
que valoraran las combinaciones de 15 situaciones y 15 comportamientos en una escala
de 10 puntos que oscilaba entre 0 =extremadamente apropiado y 9=extremadamente
inapropiado. Los valores promediados respecto a los individuos se toman como
disimilaridades.
behavior_ini.sav. Este archivo de datos contiene una configuracin inicial para una solucin
bidimensional de behavior.sav.
brakes.sav. Archivo de datos hipotticos sobre el control de calidad de una fbrica que
produce frenos de disco para automviles de alto rendimiento. El archivo de datos contiene
las medidas del dimetro de 16 discos de cada una de las 8 mquinas de produccin. El
dimetro objetivo para los frenos es de 322 milmetros.
breakfast.sav.En un estudio clsico (Green y Rao, 1972), se pidi a 21 estudiantes de
administracin de empresas de la Wharton School y sus cnyuges que ordenaran 15 elementos
de desayuno por orden de preferencia, de 1=ms preferido a 15=menos preferido. Sus
preferencias se registraron en seis escenarios distintos, de Preferencia global a Aperitivo,
con bebida slo.
breakfast-overall.sav. Este archivo de datos slo contiene las preferencias de elementos de
desayuno para el primer escenario, Preferencia global.
broadband_1.sav Archivo de datos hipotticos que contiene el nmero de suscriptores, por
regin, a un servicio de banda ancha nacional. El archivo de datos contiene nmeros de
suscriptores mensuales para 85 regiones durante un perodo de cuatro aos.
broadband_2.sav Este archivo de datos es idntico a broadband_1.sav pero contiene datos
para tres meses adicionales.
car_insurance_claims.sav. Un conjunto de datos presentados y analizados en otro lugar
(McCullagh y Nelder, 1989) estudia las reclamaciones por daos en vehculos. La cantidad de
reclamaciones media se puede modelar como si tuviera una distribucin Gamma, mediante
33

Archivos muestrales

una funcin de enlace inversa para relacionar la media de la variable dependiente con
una combinacin lineal de la edad del asegurado, el tipo de vehculo y la antigedad del
vehculo. El nmero de reclamaciones presentadas se puede utilizar como una ponderacin de
escalamiento.
car_sales.sav. Este archivo de datos contiene estimaciones de ventas, precios de lista y
especificaciones fsicas hipotticas de varias marcas y modelos de vehculos. Los precios de
lista y las especificaciones fsicas se han obtenido de edmunds.com y de sitios de fabricantes.
car_sales_uprepared.sav.sta es una versin modificada de car_sales.sav que no incluye
ninguna versin transformada de los campos.
carpet.sav En un ejemplo muy conocido (Green y Wind, 1973), una compaa interesada en
sacar al mercado un nuevo limpiador de alfombras desea examinar la influencia de cinco
factores sobre la preferencia del consumidor: diseo del producto, marca comercial, precio,
sello de buen producto para el hogar y garanta de devolucin del importe. Hay tres niveles
de factores para el diseo del producto, cada uno con una diferente colocacin del cepillo
del aplicador; tres nombres comerciales (K2R, Glory y Bissell); tres niveles de precios; y dos
niveles (no o s) para los dos ltimos factores. Diez consumidores clasificaron 22 perfiles
definidos por estos factores. La variable Preferencia contiene el rango de las clasificaciones
medias de cada perfil. Las clasificaciones inferiores corresponden a preferencias elevadas.
Esta variable refleja una medida global de la preferencia de cada perfil.
carpet_prefs.sav Este archivo de datos se basa en el mismo ejemplo que el descrito para
carpet.sav, pero contiene las clasificaciones reales recogidas de cada uno de los 10
consumidores. Se pidi a los consumidores que clasificaran los 22 perfiles de los productos
empezando por el menos preferido. Las variables desde PREF1 hasta PREF22 contienen los
ID de los perfiles asociados, como se definen en carpet_plan.sav.
catalog.savEste archivo de datos contiene cifras de ventas mensuales hipotticas de tres
productos vendidos por una compaa de venta por catlogo. Tambin se incluyen datos
para cinco variables predictoras posibles.
catalog_seasfac.savEste archivo de datos es igual que catalog.sav, con la excepcin de
que incluye un conjunto de factores estacionales calculados a partir del procedimiento
Descomposicin estacional junto con las variables de fecha que lo acompaan.
cellular.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa de telefona
mvil para reducir el abandono de clientes. Las puntuaciones de propensin al abandono de
clientes se aplican a las cuentas, oscilando de 0 a 100. Las cuentas con una puntuacin de 50
o superior pueden estar buscando otros proveedores.
ceramics.sav.Archivo de datos hipotticos sobre las iniciativas de un fabricante para
determinar si una nueva aleacin de calidad tiene una mayor resistencia al calor que una
aleacin estndar. Cada caso representa una prueba independiente de una de las aleaciones; la
temperatura a la que registr el fallo del rodamiento.
cereal.sav. Archivo de datos hipotticos sobre una encuesta realizada a 880 personas sobre
sus preferencias en el desayuno, teniendo tambin en cuenta su edad, sexo, estado civil y si
tienen un estilo de vida activo o no (en funcin de si practican ejercicio al menos dos veces a
la semana). Cada caso representa un encuestado diferente.
clothing_defects.sav. Archivo de datos hipotticos sobre el proceso de control de calidad en
una fbrica de prendas. Los inspectores toman una muestra de prendas de cada lote producido
en la fbrica, y cuentan el nmero de prendas que no son aceptables.
34

Apndice A

coffee.sav. Este archivo de datos pertenece a las imgenes percibidas de seis marcas de caf
helado (Kennedy, Riquier, y Sharp, 1996). Para cada uno de los 23 atributos de imagen de caf
helado, los encuestados seleccionaron todas las marcas que quedaban descritas por el atributo.
Las seis marcas se denotan AA, BB, CC, DD, EE y FF para mantener la confidencialidad.
contacts.sav.Archivo de datos hipotticos sobre las listas de contactos de un grupo de
representantes de ventas de ordenadores de empresa. Cada uno de los contactos est
categorizado por el departamento de la compaa en el que trabaja y su categora en la
compaa. Adems, tambin se registran los importes de la ltima venta realizada, el tiempo
transcurrido desde la ltima venta y el tamao de la compaa del contacto.
creditpromo.sav. Archivo de datos hipotticos sobre las iniciativas de unos almacenes
para evaluar la eficacia de una promocin de tarjetas de crdito reciente. Para este fin, se
seleccionaron aleatoriamente 500 titulares. La mitad recibieron un anuncio promocionando
una tasa de inters reducida sobre las ventas realizadas en los siguientes tres meses. La otra
mitad recibi un anuncio estacional estndar.
customer_dbase.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa para
usar la informacin de su almacn de datos para realizar ofertas especiales a los clientes
con ms probabilidades de responder. Se seleccion un subconjunto de la base de clientes
aleatoriamente a quienes se ofrecieron las ofertas especiales y sus respuestas se registraron.
customer_information.sav. Archivo de datos hipotticos que contiene la informacin de correo
del cliente, como el nombre y la direccin.
customer_subset.sav. Un subconjunto de 80 casos de customer_dbase.sav.
customers_model.sav. Este archivo contiene datos hipotticos sobre los individuos a los que
va dirigida una campaa de marketing. Estos datos incluyen informacin demogrfica, un
resumen del historial de compras y si cada individuo respondi a la campaa. Cada caso
representa un individuo diferente.
customers_new.sav. Este archivo contiene datos hipotticos sobre los individuos que son
candidatos potenciales para una campaa de marketing. Estos datos incluyen informacin
demogrfica y un resumen del historial de compras de cada individuo. Cada caso representa
un individuo diferente.
debate.sav. Archivos de datos hipotticos sobre las respuestas emparejadas de una encuesta
realizada a los asistentes a un debate poltico antes y despus del debate. Cada caso
corresponde a un encuestado diferente.
debate_aggregate.sav. Archivo de datos hipotticos que agrega las respuestas de debate.sav.
Cada caso corresponde a una clasificacin cruzada de preferencias antes y despus del debate.
demo.sav. Archivos de datos hipotticos sobre una base de datos de clientes adquirida con
el fin de enviar por correo ofertas mensuales. Se registra si el cliente respondi a la oferta,
junto con informacin demogrfica diversa.
demo_cs_1.sav.Archivo de datos hipotticos sobre el primer paso de las iniciativas de
una compaa para recopilar una base de datos de informacin de encuestas. Cada caso
corresponde a una ciudad diferente, y se registra la identificacin de la ciudad, la regin,
la provincia y el distrito.
demo_cs_2.sav.Archivo de datos hipotticos sobre el segundo paso de las iniciativas de
una compaa para recopilar una base de datos de informacin de encuestas. Cada caso
corresponde a una unidad familiar diferente de las ciudades seleccionadas en el primer paso, y
35

Archivos muestrales

se registra la identificacin de la unidad, la subdivisin, la ciudad, el distrito, la provincia y la


regin. Tambin se incluye la informacin de muestreo de las primeras dos etapas del diseo.
demo_cs.sav.Archivo de datos hipotticos que contiene informacin de encuestas recopilada
mediante un diseo de muestreo complejo. Cada caso corresponde a una unidad familiar
distinta, y se recopila informacin demogrfica y de muestreo diversa.
dmdata.sav. ste es un archivo de datos hipotticos que contiene informacin demogrfica
y de compras para una empresa de marketing directo. dmdata2.sav contiene informacin
para un subconjunto de contactos que recibi un envo de prueba, y dmdata3.sav contiene
informacin sobre el resto de contactos que no recibieron el envo de prueba.
dietstudy.sav.Este archivo de datos hipotticos contiene los resultados de un estudio sobre la
dieta Stillman (Rickman, Mitchell, Dingman, y Dalen, 1974). Cada caso corresponde
a un sujeto distinto y registra sus pesos antes y despus de la dieta en libras y niveles de
triglicridos en mg/100 ml.
dvdplayer.sav. Archivo de datos hipotticos sobre el desarrollo de un nuevo reproductor de
DVD. El equipo de marketing ha recopilado datos de grupo de enfoque mediante un prototipo.
Cada caso corresponde a un usuario encuestado diferente y registra informacin demogrfica
sobre los encuestados y sus respuestas a preguntas acerca del prototipo.
german_credit.sav.Este archivo de datos se toma del conjunto de datos German credit de
las Repository of Machine Learning Databases (Blake y Merz, 1998) de la Universidad
de California, Irvine.
grocery_1month.sav. Este archivo de datos hipotticos es el archivo de datos
grocery_coupons.sav con las compras semanales acumuladas para que cada caso
corresponda a un cliente diferente. Algunas de las variables que cambiaban semanalmente
desaparecen de los resultados, y la cantidad gastada registrada se convierte ahora en la suma
de las cantidades gastadas durante las cuatro semanas del estudio.
grocery_coupons.sav. Archivo de datos hipotticos que contiene datos de encuestas
recopilados por una cadena de tiendas de alimentacin interesada en los hbitos de compra
de sus clientes. Se sigue a cada cliente durante cuatro semanas, y cada caso corresponde a
un cliente-semana distinto y registra informacin sobre dnde y cmo compran los clientes,
incluida la cantidad que invierten en comestibles durante esa semana.
guttman.sav.Bell (Bell, 1961) present una tabla para ilustrar posibles grupos sociales.
Guttman (Guttman, 1968) utiliz parte de esta tabla, en la que se cruzaron cinco variables
que describan elementos como la interaccin social, sentimientos de pertenencia a un grupo,
proximidad fsica de los miembros y grado de formalizacin de la relacin con siete grupos
sociales tericos, incluidos multitudes (por ejemplo, las personas que acuden a un partido de
ftbol), espectadores (por ejemplo, las personas que acuden a un teatro o de una conferencia),
pblicos (por ejemplo, los lectores de peridicos o los espectadores de televisin),
muchedumbres (como una multitud pero con una interaccin mucho ms intensa), grupos
primarios (ntimos), grupos secundarios (voluntarios) y la comunidad moderna (confederacin
dbil que resulta de la proximidad cercana fsica y de la necesidad de servicios especializados).
health_funding.sav. Archivo de datos hipotticos que contiene datos sobre inversin en sanidad
(cantidad por 100 personas), tasas de enfermedad (ndice por 10.000 personas) y visitas a
centros de salud (ndice por 10.000 personas). Cada caso representa una ciudad diferente.
36

Apndice A

hivassay.sav. Archivo de datos hipotticos sobre las iniciativas de un laboratorio farmacutico


para desarrollar un ensayo rpido para detectar la infeccin por VIH. Los resultados del ensayo
son ocho tonos de rojo con diferentes intensidades, donde los tonos ms oscuros indican una
mayor probabilidad de infeccin. Se llev a cabo una prueba de laboratorio de 2.000 muestras
de sangre, de las cuales una mitad estaba infectada con el VIH y la otra estaba limpia.
hourlywagedata.sav. Archivo de datos hipotticos sobre los salarios por horas de enfermeras
de puestos de oficina y hospitales y con niveles distintos de experiencia.
insurance_claims.sav. ste es un archivo de datos hipotticos sobre una compaa de seguros
que desee generar un modelo para etiquetar las reclamaciones sospechosas y potencialmente
fraudulentas. Cada caso representa una reclamacin diferente.
insure.sav. Archivo de datos hipotticos sobre una compaa de seguros que estudia los
factores de riesgo que indican si un cliente tendr que hacer una reclamacin a lo largo de un
contrato de seguro de vida de 10 aos. Cada caso del archivo de datos representa un par de
contratos (de los que uno registr una reclamacin y el otro no), agrupados por edad y sexo.
judges.sav. Archivo de datos hipotticos sobre las puntuaciones concedidas por jueces
cualificados (y un aficionado) a 300 actuaciones gimnsticas. Cada fila representa una
actuacin diferente; los jueces vieron las mismas actuaciones.
kinship_dat.sav. Rosenberg y Kim (Rosenberg y Kim, 1975) comenzaron a analizar 15
trminos de parentesco [ta, hermano, primos, hija, padre, nieta, abuelo, abuela, nieto, madre,
sobrino, sobrina, hermana, hijo, to]. Le pidieron a cuatro grupos de estudiantes universitarios
(dos masculinos y dos femeninos) que ordenaran estos grupos segn las similitudes. A dos
grupos (uno masculino y otro femenino) se les pidi que realizaran la ordenacin dos veces,
pero que la segunda ordenacin la hicieran segn criterios distintos a los de la primera. As, se
obtuvo un total de seis fuentes. Cada fuente se corresponde con una matriz de proximidades
de cuyas casillas son iguales al nmero de personas de una fuente menos el nmero
de veces que se particionaron los objetos en esa fuente.
kinship_ini.sav. Este archivo de datos contiene una configuracin inicial para una solucin
tridimensional de kinship_dat.sav.
kinship_var.sav. Este archivo de datos contiene variables independientes sexo, gener(acin), y
grado (de separacin) que se pueden usar para interpretar las dimensiones de una solucin
para kinship_dat.sav. Concretamente, se pueden usar para restringir el espacio de la solucin
a una combinacin lineal de estas variables.
marketvalues.sav. Archivo de datos sobre las ventas de casas en una nueva urbanizacin de
Algonquin, Ill., durante los aos 1999 y 2000. Los datos de estas ventas son pblicos.
nhis2000_subset.sav. La National Health Interview Survey (NHIS, encuesta del Centro
Nacional de Estadsticas de Salud de EE.UU.) es una encuesta detallada realizada entre
la poblacin civil de Estados Unidos. Las encuestas se realizaron en persona a una
muestra representativa de las unidades familiares del pas. Se recogi tanto la informacin
demogrfica como las observaciones acerca del estado y los hbitos de salud de los
integrantes de cada unidad familiar. Este archivo de datos contiene un subconjunto de
informacin de la encuesta de 2000. National Center for Health Statistics. National
Health Interview Survey, 2000. Archivo de datos y documentacin de uso pblico.
ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Fecha de acceso: 2003.
37

Archivos muestrales

ozono.sav. Los datos incluyen 330 observaciones de seis variables meteorolgicas para
pronosticar la concentracin de ozono a partir del resto de variables. Los investigadores
anteriores(Breiman y Friedman, 1985), (Hastie y Tibshirani, 1990) han encontrado que no hay
linealidad entre estas variables, lo que dificulta los mtodos de regresin tpica.
pain_medication.sav. Este archivo de datos hipotticos contiene los resultados de una prueba
clnica sobre medicacin antiinflamatoria para tratar el dolor artrtico crnico. Resulta de
particular inters el tiempo que tarda el frmaco en hacer efecto y cmo se compara con
una medicacin existente.
patient_los.sav. Este archivo de datos hipotticos contiene los registros de tratamiento de
pacientes que fueron admitidos en el hospital ante la posibilidad de sufrir un infarto de
miocardio (IM o ataque al corazn). Cada caso corresponde a un paciente distinto y registra
diversas variables relacionadas con su estancia hospitalaria.
patlos_sample.sav. Este archivo de datos hipotticos contiene los registros de tratamiento de
una muestra de pacientes que recibieron trombolticos durante el tratamiento del infarto de
miocardio (IM o ataque al corazn). Cada caso corresponde a un paciente distinto y registra
diversas variables relacionadas con su estancia hospitalaria.
polishing.sav. Archivo de datos Nambeware Polishing Times (Tiempo de pulido de metal)
de la biblioteca de datos e historiales. Contiene datos sobre las iniciativas de un fabricante
de cuberteras de metal (Nambe Mills, Santa Fe, N. M.) para planificar su programa de
produccin. Cada caso representa un artculo distinto de la lnea de productos. Se registra el
dimetro, el tiempo de pulido, el precio y el tipo de producto de cada artculo.
poll_cs.sav. Archivo de datos hipotticos sobre las iniciativas de los encuestadores para
determinar el nivel de apoyo pblico a una ley antes de una asamblea legislativa. Los casos
corresponden a votantes registrados. Cada caso registra el condado, la poblacin y el
vecindario en el que vive el votante.
poll_cs_sample.sav. Este archivo de datos hipotticos contiene una muestra de los votantes
enumerados en poll_cs.sav. La muestra se tom segn el diseo especificado en el archivo
de plan poll.csplan y este archivo de datos registra las probabilidades de inclusin y las
ponderaciones muestrales. Sin embargo, tenga en cuenta que debido a que el plan muestral
hace uso de un mtodo de probabilidad proporcional al tamao (PPS), tambin existe un
archivo que contiene las probabilidades de seleccin conjunta (poll_jointprob.sav). Las
variables adicionales que corresponden a los datos demogrficos de los votantes y sus
opiniones sobre la propuesta de ley se recopilaron y aadieron al archivo de datos despus
de tomar la muestra.
property_assess.sav. Archivo de datos hipotticos sobre las iniciativas de un asesor del
condado para mantener actualizada la evaluacin de los valores de las propiedades utilizando
recursos limitados. Los casos corresponden a las propiedades vendidas en el condado el
ao anterior. Cada caso del archivo de datos registra la poblacin en que se encuentra la
propiedad, el ltimo asesor que visit la propiedad, el tiempo transcurrido desde la ltima
evaluacin, la valoracin realizada en ese momento y el valor de venta de la propiedad.
property_assess_cs.sav. Archivo de datos hipotticos sobre las iniciativas de un asesor de un
estado para mantener actualizada la evaluacin de los valores de las propiedades utilizando
recursos limitados. Los casos corresponden a propiedades del estado. Cada caso del archivo
de datos registra el condado, la poblacin y el vecindario en el que se encuentra la propiedad,
el tiempo transcurrido desde la ltima evaluacin y la valoracin realizada en ese momento.
38

Apndice A

property_assess_cs_sample.savEste archivo de datos hipotticos contiene una muestra de las


propiedades recogidas en property_assess_cs.sav. La muestra se tom en funcin del diseo
especificado en el archivo de plan property_assess.csplan, y este archivo de datos registra
las probabilidades de inclusin y las ponderaciones muestrales. La variable adicional Valor
actual se recopil y aadi al archivo de datos despus de tomar la muestra.
recidivism.sav. Archivo de datos hipotticos sobre las iniciativas de una agencia de orden
pblico para comprender los ndices de reincidencia en su rea de jurisdiccin. Cada caso
corresponde a un infractor anterior y registra su informacin demogrfica, algunos detalles de
su primer delito y, a continuacin, el tiempo transcurrido desde su segundo arresto, si ocurri
en los dos aos posteriores al primer arresto.
recidivism_cs_sample.sav. Archivo de datos hipotticos sobre las iniciativas de una agencia de
orden pblico para comprender los ndices de reincidencia en su rea de jurisdiccin. Cada
caso corresponde a un delincuente anterior, puesto en libertad tras su primer arresto durante el
mes de junio de 2003 y registra su informacin demogrfica, algunos detalles de su primer
delito y los datos de su segundo arresto, si se produjo antes de finales de junio de 2006. Los
delincuentes se seleccionaron de una muestra de departamentos segn el plan de muestreo
especificado en recidivism_cs.csplan. Como este plan utiliza un mtodo de probabilidad
proporcional al tamao (PPS), tambin existe un archivo que contiene las probabilidades de
seleccin conjunta (recidivism_cs_jointprob.sav).
rfm_transactions.sav. Archivo de datos hipotticos que contiene datos de transacciones de
compra, incluida la fecha de compra, los artculos adquiridos y el importe de cada transaccin.
salesperformance.sav. Archivo de datos hipotticos sobre la evaluacin de dos nuevos cursos
de formacin de ventas. Sesenta empleados, divididos en tres grupos, reciben formacin
estndar. Adems, el grupo 2 recibe formacin tcnica; el grupo 3, un tutorial prctico. Cada
empleado se someti a un examen al final del curso de formacin y se registr su puntuacin.
Cada caso del archivo de datos representa a un alumno distinto y registra el grupo al que fue
asignado y la puntuacin que obtuvo en el examen.
satisf.sav. Archivo de datos hipotticos sobre una encuesta de satisfaccin llevada a cabo por
una empresa minorista en cuatro tiendas. Se encuest a 582 clientes en total y cada caso
representa las respuestas de un nico cliente.
screws.sav Este archivo de datos contiene informacin acerca de las caractersticas de
tornillos, pernos, clavos y tacos (Hartigan, 1975).
shampoo_ph.sav.Archivo de datos hipotticos sobre el control de calidad en una fbrica de
productos para el cabello. Se midieron seis lotes de resultados distintos en intervalos regulares
y se registr su pH. El intervalo objetivo es de 4,5 a 5,5.
ships.sav. Un conjunto de datos presentados y analizados en otro lugar (McCullagh et al.,
1989) sobre los daos en los cargueros producidos por las olas. Los recuentos de incidentes
se pueden modelar como si ocurrieran con una tasa de Poisson dado el tipo de barco, el
perodo de construccin y el perodo de servicio. Los meses de servicio agregados para cada
casilla de la tabla formados por la clasificacin cruzada de factores proporcionan valores
para la exposicin al riesgo.
site.sav.Archivo de datos hipotticos sobre las iniciativas de una compaa para seleccionar
sitios nuevos para sus negocios en expansin. Se ha contratado a dos consultores para evaluar
los sitios de forma independiente, quienes, adems de un informe completo, han resumido
cada sitio como una posibilidad buena, media o baja.
39

Archivos muestrales

smokers.sav.Este archivo de datos es un resumen de la encuesta sobre toxicomana 1998


National Household Survey of Drug Abuse y es una muestra de probabilidad de unidades
familiares americanas. (http://dx.doi.org/10.3886/ICPSR02934) As, el primer paso de un
anlisis de este archivo de datos debe ser ponderar los datos para reflejar las tendencias
de poblacin.
stroke_clean.sav. Este archivo de datos hipotticos contiene el estado de una base de datos
mdica despus de haberla limpiado mediante los procedimientos de la opcin Preparacin
de datos.
stroke_invalid.sav. Este archivo de datos hipotticos contiene el estado inicial de una base de
datos mdica que incluye contiene varios errores de entrada de datos.
stroke_survival. Este archivo de datos hipotticos registra los tiempos de supervivencia de
los pacientes que finalizan un programa de rehabilitacin tras un ataque isqumico. Tras el
ataque, la ocurrencia de infarto de miocardio, ataque isqumico o ataque hemorrgico se
anotan junto con el momento en el que se produce el evento registrado. La muestra est
truncada a la izquierda ya que nicamente incluye a los pacientes que han sobrevivido al final
del programa de rehabilitacin administrado tras el ataque.
stroke_valid.sav. Este archivo de datos hipotticos contiene el estado de una base de datos
mdica despus de haber comprobado los valores mediante el procedimiento Validar datos.
Sigue conteniendo casos potencialmente anmalos.
survey_sample.sav. Este archivo de datos contiene datos de encuestas, incluyendo datos
demogrficos y diferentes medidas de actitud. Se basa en un subconjunto de variables de
NORC General Social Survey de 1998, aunque algunos valores de datos se han modificado y
que existen variables ficticias adicionales se han aadido para demostraciones.
telco.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa de
telecomunicaciones para reducir el abandono de clientes en su base de clientes. Cada caso
corresponde a un cliente distinto y registra diversa informacin demogrfica y de uso del
servicio.
telco_extra.sav. Este archivo de datos es similar al archivo de datos telco.sav, pero las variables
de meses con servicio y gasto de clientes transformadas logartmicamente se han eliminado y
sustituido por variables de gasto del cliente transformadas logartmicamente tipificadas.
telco_missing.sav. Este archivo de datos es un subconjunto del archivo de datos telco.sav, pero
algunos valores de datos demogrficos se han sustituido con valores perdidos.
testmarket.sav. Archivo de datos hipotticos sobre los planes de una cadena de comida rpida
para aadir un nuevo artculo a su men. Hay tres campaas posibles para promocionar
el nuevo producto, por lo que el artculo se presenta en ubicaciones de varios mercados
seleccionados aleatoriamente. Se utiliza una promocin diferente en cada ubicacin y se
registran las ventas semanales del nuevo artculo durante las primeras cuatro semanas. Cada
caso corresponde a una ubicacin semanal diferente.
testmarket_1month.sav. Este archivo de datos hipotticos es el archivo de datos testmarket.sav
con las ventas semanales acumuladas para que cada caso corresponda a una ubicacin
diferente. Como resultado, algunas de las variables que cambiaban semanalmente desaparecen
y las ventas registradas se convierten en la suma de las ventas realizadas durante las cuatro
semanas del estudio.
tree_car.sav. Archivo de datos hipotticos que contiene datos demogrficos y de precios
de compra de vehculos.
40

Apndice A

tree_credit.sav Archivo de datos hipotticos que contiene datos demogrficos y de historial de


crditos bancarios.
tree_missing_data.sav Archivo de datos hipotticos que contiene datos demogrficos y de
historial de crditos bancarios con un elevado nmero de valores perdidos.
tree_score_car.sav. Archivo de datos hipotticos que contiene datos demogrficos y de precios
de compra de vehculos.
tree_textdata.sav. Archivo de datos sencillos con dos variables diseadas principalmente para
mostrar el estado por defecto de las variables antes de realizar la asignacin de nivel de
medida y etiquetas de valor.
tv-survey.sav. Archivo de datos hipotticos sobre una encuesta dirigida por un estudio de
TV que est considerando la posibilidad de ampliar la emisin de un programa de xito.
Se pregunt a 906 encuestados si veran el programa en distintas condiciones. Cada fila
representa un encuestado diferente; cada columna es una condicin diferente.
ulcer_recurrence.sav. Este archivo contiene informacin parcial de un estudio diseado para
comparar la eficacia de dos tratamientos para prevenir la reaparicin de lceras. Constituye
un buen ejemplo de datos censurados por intervalos y se ha presentado y analizado en otro
lugar (Collett, 2003).
ulcer_recurrence_recoded.sav. Este archivo reorganiza la informacin de ulcer_recurrence.sav
para permitir modelar la probabilidad de eventos de cada intervalo del estudio en lugar de
slo la probabilidad de eventos al final del estudio. Se ha presentado y analizado en otro
lugar (Collett et al., 2003).
verd1985.sav. Archivo de datos sobre una encuesta (Verdegaal, 1985). Se han registrado las
respuestas de 15 sujetos a 8 variables. Se han dividido las variables de inters en tres grupos.
El conjunto 1 incluye edad y ecivil, el conjunto 2 incluye mascota y noticia, mientras que el
conjunto 3 incluye msica y vivir. Se escala mascota como nominal mltiple y edad como
ordinal; el resto de variables se escalan como nominal simple.
virus.sav.Archivo de datos hipotticos sobre las iniciativas de un proveedor de servicios de
Internet (ISP) para determinar los efectos de un virus en sus redes. Se ha realizado un
seguimiento (aproximado) del porcentaje de trfico de correos electrnicos infectados en sus
redes a lo largo del tiempo, desde el momento en que se descubre hasta que la amenaza se
contiene.
wheeze_steubenville.sav. Subconjunto de un estudio longitudinal de los efectos sobre la salud
de la polucin del aire en los nios (Ware, Dockery, Spiro III, Speizer, y Ferris Jr., 1984).
Los datos contienen medidas binarias repetidas del estado de las sibilancias en nios de
Steubenville, Ohio, con edades de 7, 8, 9 y 10 aos, junto con un registro fijo de si la madre
era fumadora durante el primer ao del estudio.
workprog.sav. Archivo de datos hipotticos sobre un programa de obras del gobierno que
intenta colocar a personas desfavorecidas en mejores trabajos. Se sigui una muestra de
participantes potenciales del programa, algunos de los cuales se seleccionaron aleatoriamente
para entrar en el programa, mientras que otros no siguieron esta seleccin aleatoria. Cada
caso representa un participante del programa diferente.
Apndice

B
Notices

Licensed Materials Property of SPSS Inc., an IBM Company. Copyright SPSS Inc. 1989,
2010.
Patent No. 7,023,453
The following paragraph does not apply to the United Kingdom or any other country where such
provisions are inconsistent with local law: SPSS INC., AN IBM COMPANY, PROVIDES THIS
PUBLICATION AS IS WITHOUT WARRANTY OF ANY KIND, EITHER EXPRESS
OR IMPLIED, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES
OF NON-INFRINGEMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR
PURPOSE. Some states do not allow disclaimer of express or implied warranties in certain
transactions, therefore, this statement may not apply to you.
This information could include technical inaccuracies or typographical errors. Changes are
periodically made to the information herein; these changes will be incorporated in new editions of
the publication. SPSS Inc. may make improvements and/or changes in the product(s) and/or the
program(s) described in this publication at any time without notice.
Any references in this information to non-SPSS and non-IBM Web sites are provided for
convenience only and do not in any manner serve as an endorsement of those Web sites. The
materials at those Web sites are not part of the materials for this SPSS Inc. product and use of
those Web sites is at your own risk.
When you send information to IBM or SPSS, you grant IBM and SPSS a nonexclusive right
to use or distribute the information in any way it believes appropriate without incurring any
obligation to you.
Information concerning non-SPSS products was obtained from the suppliers of those products,
their published announcements or other publicly available sources. SPSS has not tested those
products and cannot confirm the accuracy of performance, compatibility or any other claims
related to non-SPSS products. Questions on the capabilities of non-SPSS products should be
addressed to the suppliers of those products.
This information contains examples of data and reports used in daily business operations.
To illustrate them as completely as possible, the examples include the names of individuals,
companies, brands, and products. All of these names are fictitious and any similarity to the names
and addresses used by an actual business enterprise is entirely coincidental.

COPYRIGHT LICENSE:
This information contains sample application programs in source language, which illustrate
programming techniques on various operating platforms. You may copy, modify, and distribute
these sample programs in any form without payment to SPSS Inc., for the purposes of developing,
Copyright SPSS Inc. 1989, 2010 41
42

Apndice B

using, marketing or distributing application programs conforming to the application programming


interface for the operating platform for which the sample programs are written. These examples
have not been thoroughly tested under all conditions. SPSS Inc., therefore, cannot guarantee or
imply reliability, serviceability, or function of these programs. The sample programs are provided
AS IS, without warranty of any kind. SPSS Inc. shall not be liable for any damages arising out
of your use of the sample programs.

Trademarks
IBM, the IBM logo, and ibm.com are trademarks of IBM Corporation, registered in many
jurisdictions worldwide. A current list of IBM trademarks is available on the Web at
http://www.ibm.com/legal/copytrade.shmtl.
SPSS is a trademark of SPSS Inc., an IBM Company, registered in many jurisdictions worldwide.
Adobe, the Adobe logo, PostScript, and the PostScript logo are either registered trademarks or
trademarks of Adobe Systems Incorporated in the United States, and/or other countries.
Intel, Intel logo, Intel Inside, Intel Inside logo, Intel Centrino, Intel Centrino logo, Celeron, Intel
Xeon, Intel SpeedStep, Itanium, and Pentium are trademarks or registered trademarks of Intel
Corporation or its subsidiaries in the United States and other countries.
Linux is a registered trademark of Linus Torvalds in the United States, other countries, or both.
Microsoft, Windows, Windows NT, and the Windows logo are trademarks of Microsoft
Corporation in the United States, other countries, or both.
UNIX is a registered trademark of The Open Group in the United States and other countries.
Java and all Java-based trademarks and logos are trademarks of Sun Microsystems, Inc. in the
United States, other countries, or both.
This product uses WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting,
http://www.winwrap.com.
Other product and service names might be trademarks of IBM, SPSS, or other companies.
Adobe product screenshot(s) reprinted with permission from Adobe Systems Incorporated.
Microsoft product screenshot(s) reprinted with permission from Microsoft Corporation.
Bibliografa

Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology.
Nueva York: Harper & Row.
Blake, C. L., y C. J. Merz. 1998. "UCI Repository of machine learning databases." Available at
http://www.ics.uci.edu/~mlearn/MLRepository.html.
Breiman, L., y J. H. Friedman. 1985. Estimating optimal transformations for multiple regression
and correlation. Journal of the American Statistical Association, 80, .
Collett, D. 2003. Modelling survival data in medical research, 2 ed. Boca Raton: Chapman &
Hall/CRC.
Davison, A. C., y D. V. Hinkley. 2006. Bootstrap Methods and their Application. : Cambridge
University Press.
Green, P. E., y V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press.
Green, P. E., y Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach.
Hinsdale, Ill.: Dryden Press.
Guttman, L. 1968. A general nonmetric technique for finding the smallest coordinate space for
configurations of points. Psychometrika, 33, .
Hartigan, J. A. 1975. Clustering algorithms. Nueva York: John Wiley and Sons.
Hastie, T., y R. Tibshirani. 1990. Generalized additive models. Londres: Chapman and Hall.
Kennedy, R., C. Riquier, y B. Sharp. 1996. Practical applications of correspondence analysis
to categorical data in market research. Journal of Targeting, Measurement, and Analysis for
Marketing, 5, .
McCullagh, P., y J. A. Nelder. 1989. Modelos lineales generalizados, 2nd ed. Londres: Chapman
& Hall.
Price, R. H., y D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as
dimensions of social behavior. Journal of Personality and Social Psychology, 30, .
Rickman, R., N. Mitchell, J. Dingman, y J. E. Dalen. 1974. Changes in serum cholesterol during
the Stillman Diet. Journal of the American Medical Association, 228, .
Rosenberg, S., y M. P. Kim. 1975. The method of sorting as a data-gathering procedure in
multivariate research. Multivariate Behavioral Research, 10, .
Shao, J., y D. Tu. 1995. The Jackknife and Bootstrap. Nueva York: Springer.
Van der Ham, T., J. J. Meulman, D. C. Van Strien, y H. Van Engeland. 1997. Empirically based
subgrouping of eating disorders in adolescents: A longitudinal perspective. British Journal
of Psychiatry, 170, .
Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (en neerlands). Leiden:
Department of Data Theory, University of Leiden.
Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, y B. G. Ferris Jr.. 1984. Passive
smoking, gas cooking, and respiratory health of children living in six cities. American Review of
Respiratory Diseases, 129, .

Copyright SPSS Inc. 1989, 2010 43


ndice

archivos de ejemplo
posicin, 31

especificaciones de muestreo autodocimante


en muestreo autodocimante, 14
estimaciones de los parmetros
en muestreo autodocimante, 29

intervalo de confianza de mediana


en muestreo autodocimante, 19
intervalo de confianza de proporcin
en muestreo autodocimante, 1516

legal notices, 41

muestreo autodocimante, 3, 10
especificaciones de muestreo autodocimante, 14
estimaciones de los parmetros, 29
intervalo de confianza de mediana, 19
intervalo de confianza de proporcin, 1516
procedimientos admitidos, 5

trademarks, 42

44

S-ar putea să vă placă și