Documente Academic
Documente Profesional
Documente Cultură
IBM SPSS Statistics es un sistema global para el anlisis de datos. El mdulo adicional
opcional Muestreo autodocimante proporciona las tcnicas de anlisis adicionales que se describen
en este manual. El mdulo adicional Muestreo autodocimante se debe utilizar con el sistema
bsico de SPSS Statistics y est completamente integrado en dicho sistema.
Asistencia tcnica
El servicio de asistencia tcnica est a disposicin de todos los clientes de mantenimiento. Los
clientes podrn ponerse en contacto con este servicio de asistencia tcnica si desean recibir ayuda
sobre la utilizacin de los productos de SPSS Inc. o sobre la instalacin en alguno de los entornos
de hardware admitidos. Para ponerse en contacto con el servicio de asistencia tcnica, consulte el
sitio web de SPSS Inc. en http://support.spss.com o encuentre a su representante local a travs
del sitio web http://support.spss.com/default.asp?refpage=contactus.asp. Tenga a mano su
identificacin, la de su organizacin y su contrato de asistencia cuando solicite ayuda.
Publicaciones adicionales
Los documentos SPSS Statistics: Guide to Data Analysis, SPSS Statistics: Statistical Procedures
Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija
Noruis y publicados por Prentice Hall, estn disponibles y se recomiendan como material
adicional. Estas publicaciones cubren los procedimientos estadsticos del mdulo SPSS Statistics
Base, el mdulo Advanced Statistics y el mdulo Regression. Tanto si da sus primeros pasos en el
anlisis de datos como si ya est preparado para las aplicaciones ms avanzadas, estos libros le
ayudarn a aprovechar al mximo las funciones ofrecidas por IBM SPSS Statistics. Si desea
informacin adicional sobre el contenido de la publicacin o muestras de captulos, consulte el
sitio web de la autora: http://www.norusis.com
iv
Contenido
2 Muestreo autodocimante 3
3 Muestreo autodocimante 10
v
Apndices
A Archivos muestrales 31
B Notices 41
Bibliografa 43
ndice 44
vi
Parte I:
Manual del usuario
Captulo
1
Introduccin al muestreo
autodocimante
Cuando recopila datos suele estar interesado en las propiedades de la poblacin de la que ha
tomado la muestra. Hace inferencias acerca de los parmetros de la poblacin con estimaciones
calculadas de la muestra. Por ejemplo, si el conjunto de datos Employee data.sav que se incluye
con el producto es una muestra aleatoria de una poblacin mayor de empleados, la media de la
muestra de 34.419,57 dlares como Salario actual es una estimacin de la media del salario actual
de la poblacin de los empleados. Adems, esta estimacin tiene un error tpico de 784,311
dlares para una muestra de un tamao de 474; y un intervalo de confianza del 95% para la media
del salario actual de la poblacin de los empleados es de 32.878,40 dlares a 35.960,73 dlares.
Pero, cul es el nivel de fiabilidad de estos estimadores? Para algunas poblaciones conocidas y
parmetros de buen comportamiento, sabemos algo acerca de las propiedades de las estimaciones
de la muestra y podemos confiar en estos resultados. El muestreo autodocimante busca ms
informacin acerca de las propiedades de los estimadores de poblaciones desconocidas y
parmetros de mal comportamiento.
Figura 1-1
Realizacin de inferencias paramtricas acerca de la media de la poblacin
Captulo 1
Figura 1-2
Realizacin de inferencias autodocimantes acerca de la media de muestra
2
Muestreo autodocimante
En una revisin de los registros de empleados, los directivos estn interesados en las experiencias
anteriores de los empleados. La experiencia laboral es asimtrica, lo que hace que la media sea
una estimacin menos deseable de la experiencia laboral habitual entre los empleados que la
mediana. Sin embargo, los intervalos de confianza no estn disponibles para la mediana en el
producto. Si desea obtener ms informacin, consulte el tema Uso de muestreo autodocimante
para obtener intervalos de confianza de medianas en el captulo 3 en IBM SPSS Bootstrapping 19.
Los directivos tambin estn interesados en determinar los factores que estn asociados con los
aumentos de salarios de los empleados mediante la definicin de un modelo lineal de la diferencia
entre el salario inicial y el actual. Al realizar un muestreo autodocimante de un modelo lineal,
puede utilizar mtodos de muestreado sucesivo especiales (muestreo autodocimante residual
y wild) para obtener resultados ms precisos. Si desea obtener ms informacin, consulte el
tema Uso de muestreo autodocimante para seleccionar mejores predictores en el captulo 3 en
IBM SPSS Bootstrapping 19.
Captulo 2
Nmero de muestras. Para los intervalos de percentil y BCa producidos, se recomienda utilizar al
menos 1000 muestras autodocimantes. Especifique un nmero entero positivo.
Definir semilla para tornado de Mersenne. Si se establece una semilla es posible replicar anlisis.
El uso de este control es parecido a establecer el tornado de Mersenne como generador activo y
especificar un punto de inicio fijo en el cuadro de dilogo Generadores de nmeros aleatorios, con
la importante diferencia de que la definicin de la semilla de este cuadro de dilogo mantendr
el estado actual del generador de nmeros aleatorios y restaurar dicho estado cuando haya
terminado el anlisis.
Intervalos de confianza. Especifique un nivel de confianza mayor que 50 y menor que 100. Los
intervalos de percentiles slo utilizan los valores autodocimantes ordenados correspondientes a
los percentiles de intervalo de confianza deseados. Por ejemplo, un intervalo de confianza de
percentil del 95% utiliza los percentiles 2,5 y 97,5 de los valores autodocimantes como los lmites
inferior y superior del intervalo (interpolando los valores autodocimantes si es necesario). Los
5
Muestreo autodocimante
intervalos de sesgo corregidos y acelerados (BCa) son intervalos ajustados que son ms precisos,
pero necesitan ms tiempo de clculo.
Muestreo. El mtodo simple consiste en volver a muestrear los casos reemplazndolos del conjunto
de datos original. El mtodo estratificado consiste en volver a muestrear los casos sustituyendo el
conjunto de datos original, en los estratos definidos por las variables de estratos de clasificacin
cruzada. El muestreo autodocimante estratificado puede ser muy til si las unidades de los estratos
son relativamente homogneas aunque las unidades para todos los estratos son muy diferentes.
Nota:
El muestreo autodocimante no funciona con conjuntos de datos de imputacin mltiple. Si
hay una variable Imputation_ en el conjunto de datos, el cuadro de dilogo Autodocimante se
desactiva.
El muestreo autodocimante utiliza eliminacin por lista para determinar los casos; es decir, los
casos con valores perdidos en cualquiera de las variables de anlisis se eliminan del anlisis,
de forma que, cuando el muestreo autodocimante est en efecto, eliminacin por lista se activa
incluso si el procedimiento de anlisis especifica otra forma de gestin de valores perdidos.
Frecuencias
La tabla Estadsticos admite estimaciones autodocimantes de media, desviacin tpica,
varianza, mediana, asimetra, curtosis y percentiles.
La tabla Frecuencias admite estimaciones autodocimantes de porcentaje.
Descriptivos
La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media, desviacin
tpica, varianza, asimetra y curtosis.
Explorar
La tabla Descriptivos admite estimaciones autodocimantes de media, media recortada al 5%,
desviacin tpica, varianza, mediana, asimetra, curtosis y amplitud intercuartil.
La tabla Estimadores-M admite estimaciones autodocimantes de estimador-M de Huber,
estimador biponderado de Tukey, estimador-M de Hampel y onda de Andrews.
La tabla Percentiles admite estimaciones autodocimantes de percentiles.
Tablas de contingencia
La tabla Medidas direccionales admite estimaciones autodocimantes de Lambda, Goodman y
Kruskal Tau, coeficiente de incertidumbre y d de Somers.
6
Captulo 2
Medias
La tabla Informe admite estimaciones autodocimantes de media, mediana, mediana agrupada,
desviacin tpica, varianza, curtosis, asimetra, media armnica y media geomtrica.
ANOVA de un factor
La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin
tpica.
La tabla Comparaciones mltiples admite estimaciones autodocimantes de diferencia de
medias.
La tabla Pruebas de contraste admite estimaciones autodocimantes y pruebas de significacin
de valor de contraste.
MLG Univariante
La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin
tpica.
La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebas
de significacin de coeficiente B.
La tabla de resultados de contraste admite estimaciones autodocimantes y pruebas de
significacin de diferencia.
Medias marginales estimadas: La tabla Estimaciones admite estimaciones autodocimantes
de media.
7
Muestreo autodocimante
Correlaciones bivariadas
La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin
tpica.
La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.
Correlaciones parciales
La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin
tpica.
La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.
Regresin lineal
La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacin
tpica.
La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.
La tabla Resumen de modelo admite estimaciones autodocimantes de Durbin-Watson.
La tabla Coeficientes admite estimaciones autodocimantes y pruebas de significacin de
coeficiente B.
La tabla Coeficientes de correlacin admite estimaciones autodocimantes de correlaciones.
La tabla Estadsticos residuales admite estimaciones autodocimantes de media y desviacin
tpica.
Regresin ordinal
La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebas
de significacin de coeficiente B.
Anlisis discriminante
La tabla Coeficientes de funciones discriminantes cannicas tipificados admite estimaciones
autodocimantes de coeficientes tipificados.
La tabla Coeficientes de funciones discriminantes cannicas admite estimaciones
autodocimantes de coeficientes no tipificados.
La tabla Coeficientes de funcin de clasificacin admite estimaciones autodocimantes de
coeficientes.
8
Captulo 2
MLG Multivariante
La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebas
de significacin de coeficiente B.
Regresin de Cox
La tabla Variables en la ecuacin admite estimaciones autodocimantes y pruebas de
significacin de coeficiente B.
Opcin Regresin
3
Muestreo autodocimante
Nota: Este ejemplo utiliza el procedimiento de frecuencias y requiere la opcin Statistics Base.
Preparacin de datos
En primer lugar debe segmentar el archivo por Categora del cliente.
Muestreo autodocimante
Figura 3-1
Cuadro de dilogo Segmentar archivo
E Seleccione Categora del cliente como la variable en la que se basan los grupos.
E Pulse en Aceptar.
Figura 3-2
Cuadro de dilogo principal Frecuencias
E Seleccione Abandonaron durante el ltimo mes [abandono] como una variable en el anlisis.
E Pulse en Estadsticos.
12
Captulo 3
Figura 3-3
Cuadro de dilogo Estadsticos
E Pulse en Continuar.
Muestreo autodocimante
Figura 3-4
Cuadro de dilogo Autodocimante
E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla para
Tornado de Mersenne e introduzca 9191972 como semilla.
E Pulse en Continuar.
Los comandos SORT CASES y SPLIT FILE dividen el archivo en la variable custcat.
14
Captulo 3
Los comandos PRESERVE y RESTORE recuerdan el estado actual del generador de nmeros
aleatorios y restaurar el sistema al estado posterior a la finalizacin del mtodo autodocimante.
El comando SET define el generador de nmeros aleatorios a Mersenne Twister y el ndice a
9191972, para que los resultados del muestreo autodocimante se puedan replicar exactamente.
El comando SHOW muestra el ndice en el resultado para futura referencia.
El comando BOOTSTRAP solicita 1.000 muestras autodocimantes mediante nuevas muestras
simples.
La variable churn se utiliza para determinar las muestras caso a caso. Los registros con
valores perdidos en esta variable se eliminan del anlisis.
El procedimiento FREQUENCIES posterior a BOOTSTRAP se ejecuta en cada una de las
muestras autodocimantes.
El subcomando STATISTICS produce la media de la variable churn en los datos originales.
Adems, las estadsticas combinadas se producen para la media y los porcentajes en la tabla
de frecuencias.
Especificaciones de Bootstrap
Figura 3-5
Especificaciones de muestreo autodocimante
La tabla de especificaciones de muestreo autodocimante contiene los ajustes utilizados durante las
nuevas muestras y es una referencia til para comprobar si se han completado los anlisis previstos.
15
Muestreo autodocimante
Estadsticas
Figura 3-6
Tabla de estadsticos con el intervalo de confianza autodocimante para la proporcin
La tabla de estadsticos muestra, para cada nivel de Categora del cliente, el valor de media de
Abandonaron durante el ltimo mes. Como Abandonaron durante el ltimo mes slo toma los
valores de 0 y 1, con 1 para un cliente que ha abandonado, la media es igual a la proporcin de los
usuarios que han abandonado. La columna Estadsticos muestra los valores que suele producir
Frecuencias, utilizando el conjunto de datos original. Las columnas Autodocimante se producen
por los algoritmos de muestreo autodocimante.
Bias es la diferencia entre el valor promedio de este estadstico entre las muestras
autodocimantes y el valor en la columna Estadstico. En este caso, el valor promedio de
Abandonaron durante el ltimo mes se calcula para las 1000 muestras autodocimantes y
posteriormente se calcula el promedio estas medias.
Desv. El error es el error tpico de Abandonaron durante el ltimo mes en las 1000 muestras
autodocimantes.
El lmite inferior del 95% del intervalo de confianza autodocimante es una interpolacin de los
valores 25 y 26 de Abandonaron durante el ltimo mes, si las 1000 muestras autodocimantes
se clasifican en orden ascendente. El lmite superior es una interpolacin de los valores
de las medias 975 y 976.
Los resultados de la tabla sugieren que el ndice de abandono es diferente entre tipos de clientes
diferentes. En concreto, el intervalo de confianza de los clientes de Servicio plus no se superpone
con ningn otro, lo que sugiere que de media es menos probable que estos clientes abandonen.
Si trabaja con variables categricas con slo dos valores, estos intervalos de confianza son
alternativas a los producidos por el procedimiento de Pruebas no paramtricas para una muestra o
Prueba T para una muestra.
16
Captulo 3
Tabla de frecuencia
Figura 3-7
Tabla de frecuencias con el intervalo de confianza autodocimante para la proporcin
La tabla de frecuencias muestra los intervalos de confianza de los porcentajes (proporcin 100%)
de cada categora y estn disponibles para todas las variables categricas. Otras caractersticas
del producto no tienen intervalos de confianza comparables.
Nota: Este ejemplo utiliza el procedimiento Explorar y requiere la opcin Statistics Base.
Muestreo autodocimante
Figura 3-8
Cuadro de dilogo principal Explorar
E Pulse en Autodocimante.
18
Captulo 3
Figura 3-9
Cuadro de dilogo Autodocimante
E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla para
Tornado de Mersenne e introduzca 592004 como semilla.
E Pulse en Continuar.
Muestreo autodocimante
RESTORE.
Los comandos PRESERVE y RESTORE recuerdan el estado actual del generador de nmeros
aleatorios y restaurar el sistema al estado posterior a la finalizacin del mtodo bootstrap.
El comando SET define el generador de nmeros aleatorios a Mersenne Twister y el ndice a
592004, para que los resultados del muestreo bootstrap se puedan replicar exactamente. El
comando SHOW muestra el ndice en el resultado para futura referencia.
El comando BOOTSTRAP solicita 1000 muestras bootstrap mediante nuevas muestras simples.
El subcomando VARIABLES especifica que la variable prevexp se utiliza para determinar
las muestras caso a caso. Los registros con valores perdidos en esta variable se eliminan
del anlisis.
El subcomando CRITERIA , adems de requerir el nmero de muestras de bootstrap,
requiere intervalos de confianza de bootstrap de sesgo corregidos y acelerados en lugar de
los intervalos de percentiles predefinidos.
El procedimiento EXAMINE posterior a BOOTSTRAP se ejecuta en cada una de las muestras
bootstrap.
El subcomando PLOT desactiva el resultado de la representacin.
El resto de opciones estn establecidas en sus valores por defecto.
Descriptivos
Figura 3-10
Tabla Descriptivos con intervalos de confianza autodocimantes
Captulo 3
empleado tpico tiene unos 4-5 aos de experiencia previa. El uso de muestreo autodocimante ha
hecho posible obtener un intervalo de valores que representen mejor la experiencia tpica anterior.
Nota: Este ejemplo utiliza el procedimiento MLG Univariante y requiere la opcin Statistics Base.
Preparacin de datos
En primer lugar debe calcular la diferencia entre Salario actual y Salario inicial.
Muestreo autodocimante
Figura 3-11
Cuadro de dilogo Calcular variable
E Pulse en Aceptar.
Captulo 3
Figura 3-12
Cuadro de dilogo principal MLG Univariante
E Seleccione Meses desde el contrato [jobtime] y Experiencia anterior (meses) [prevexp] como
covariables.
E Pulse en Modelo.
23
Muestreo autodocimante
Figura 3-13
Cuadro de dilogo Modelo
E Pulse en Continuar.
Captulo 3
Figura 3-14
Cuadro de dilogo Guardar
E Pulse en Continuar.
Muestreo autodocimante
Figura 3-15
Cuadro de dilogo Autodocimante
E Pulse en Aceptar en el cuadro de dilogo MLG Univariante. El conjunto de datos contiene ahora
una nueva variable, RES_1, que contiene los residuos no tipificados del modelo.
Captulo 3
E Pulse en Continuar.
Muestreo autodocimante
Figura 3-17
Cuadro de dilogo Autodocimante
E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla para
Tornado de Mersenne e introduzca 9191972 como semilla.
E No hay opciones para ejecutar muestreo autodocimante wild en los cuadros de dilogo, por lo que
tendr que pulsar Continuar y, a continuacin, Pegar en el cuadro de dilogo MLG Univariante.
PRESERVE.
SET RNG=MT MTINDEX=9191972.
SHOW RNG.
BOOTSTRAP
/SAMPLING METHOD=SIMPLE
/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp
/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PRINT=PARAMETER
/CRITERIA=ALPHA(.05)
/DESIGN=gender jobcat minority jobtime prevexp.
28
Captulo 3
RESTORE.
Para ejecutar muestreo autodocimante wild, edite la palabra clave METHOD del subcomando
SAMPLING a METHOD=WILD(RESIDUALS=RES_1).
PRESERVE.
SET RNG=MT MTINDEX=9191972.
SHOW RNG.
BOOTSTRAP
/SAMPLING METHOD=WILD(RESIDUALS=RES_1)
/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp
/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PRINT=PARAMETER
/CRITERIA=ALPHA(.05)
/DESIGN=gender jobcat minority jobtime prevexp.
RESTORE.
Los comandos PRESERVE y RESTORE recuerdan el estado actual del generador de nmeros
aleatorios y restaurar el sistema al estado posterior a la finalizacin del mtodo bootstrap.
El comando SET define el generador de nmeros aleatorios a Mersenne Twister y el ndice a
9191972, para que los resultados del muestreo bootstrap se puedan replicar exactamente. El
comando SHOW muestra el ndice en el resultado para futura referencia.
El comando BOOTSTRAP requiere 1000 muestras de bootstrap con muestreo wild y RES_1
como la variable que contiene los residuos.
El subcomando VARIABLES especifica que diff es la variable objetivo del modelo lineal. Esta
variable y gender, jobcat, minority, jobtime y prevexp se utilizan para determinar las muestras
caso a caso. Los registros con valores perdidos en estas variables se eliminan del anlisis.
El subcomando CRITERIA , adems de requerir el nmero de muestras de bootstrap,
requiere intervalos de confianza de bootstrap de sesgo corregidos y acelerados en lugar de
los intervalos de percentiles predefinidos.
El procedimiento UNIANOVA posterior a BOOTSTRAP se ejecuta en cada muestra bootstrap y
produce estimaciones de los parmetros para los datos originales. Adems, los estadsticos
combinados se producen para los coeficientes del modelo.
29
Muestreo autodocimante
La tabla Estimaciones de los parmetros muestra las estimaciones normales sin muestreo
autodocimante de los parmetros de los trminos de modelo. El valor de significacin de 0,105
para [minority=0] es mayor que 0,05, lo que sugiere que Clasificacin tnica no tiene ningn
efecto en los aumentos de los salarios.
Figura 3-19
Estimaciones de parmetros autodocimantes
Ahora mire la tabla Estimaciones de parmetros autodocimantes. En la columna Error tpico, ver
que los errores tpicos paramtricos de algunos coeficientes, como interseccin, son demasiado
pequeos en comparacin con las estimaciones autodocimantes y los intervalos de confianza
son mayores. En algunos coeficientes, como [minority=0], los errores tpicos paramtricos
eran demasiado grandes y el valor de significacin de 0,006 en los resultados autodocimantes,
menor de 0,05, muestra que la diferencia observada en aumentos de salarios entre los empleados
30
Captulo 3
pertenecientes a minoras tnicas o no no obedecen a las posibilidades. Los directivos saben ahora
que merece la pena investigar ms a fondo esta diferencia para determinar sus posibles causas.
Lecturas recomendadas
Consulte los siguientes textos si desea obtener ms informacin acerca de muestreos
autodocimantes:
Davison, A. C., y D. V. Hinkley. 2006. Bootstrap Methods and their Application. : Cambridge
University Press.
Shao, J., y D. Tu. 1995. The Jackknife and Bootstrap. Nueva York: Springer.
Apndice
A
Archivos muestrales
Los archivos muestrales instalados con el producto se encuentran en el subdirectorio Samples del
directorio de instalacin. Hay una carpeta independiente dentro del subdirectorio Samples para
cada uno de los siguientes idiomas: Ingls, francs, alemn, italiano, japons, coreano, polaco,
ruso, chino simplificado, espaol y chino tradicional.
No todos los archivos muestrales estn disponibles en todos los idiomas. Si un archivo muestral
no est disponible en un idioma, esa carpeta de idioma contendr una versin en ingls del archivo
muestral.
Descripciones
Apndice A
de 220 observaciones. En cada observacin, se puntu a los pacientes por cada uno de los
16 sntomas. Faltan las puntuaciones de los sntomas para el paciente 71 en el tiempo 2, el
paciente 76 en el tiempo 2 y el paciente 47 en el tiempo 3, lo que nos deja 217 observaciones
vlidas.
autoaccidents.sav. Archivo de datos hipotticos sobre las iniciativas de un analista de seguros
para elaborar un modelo del nmero de accidentes de automvil por conductor teniendo en
cuenta la edad y el gnero del conductor. Cada caso representa un conductor diferente y
registra el sexo, la edad en aos y el nmero de accidentes de automvil del conductor en los
ltimos cinco aos.
band.sav Este archivo de datos contiene las cifras de ventas semanales hipotticas de CD de
msica de una banda. Tambin se incluyen datos para tres variables predictoras posibles.
bankloan.sav.Archivo de datos hipotticos sobre las iniciativas de un banco para reducir la
tasa de moras de crditos. El archivo contiene informacin financiera y demogrfica de
850 clientes anteriores y posibles clientes. Los primeros 700 casos son clientes a los que
anteriormente se les ha concedido un prstamo. Al menos 150 casos son posibles clientes
cuyos riesgos de crdito el banco necesita clasificar como positivos o negativos.
bankloan_binning.sav. Archivo de datos hipotticos que contiene informacin financiera y
demogrfica sobre 5.000 clientes anteriores.
behavior.sav. En un ejemplo clsico (Price y Bouffard, 1974), se pidi a 52 estudiantes
que valoraran las combinaciones de 15 situaciones y 15 comportamientos en una escala
de 10 puntos que oscilaba entre 0 =extremadamente apropiado y 9=extremadamente
inapropiado. Los valores promediados respecto a los individuos se toman como
disimilaridades.
behavior_ini.sav. Este archivo de datos contiene una configuracin inicial para una solucin
bidimensional de behavior.sav.
brakes.sav. Archivo de datos hipotticos sobre el control de calidad de una fbrica que
produce frenos de disco para automviles de alto rendimiento. El archivo de datos contiene
las medidas del dimetro de 16 discos de cada una de las 8 mquinas de produccin. El
dimetro objetivo para los frenos es de 322 milmetros.
breakfast.sav.En un estudio clsico (Green y Rao, 1972), se pidi a 21 estudiantes de
administracin de empresas de la Wharton School y sus cnyuges que ordenaran 15 elementos
de desayuno por orden de preferencia, de 1=ms preferido a 15=menos preferido. Sus
preferencias se registraron en seis escenarios distintos, de Preferencia global a Aperitivo,
con bebida slo.
breakfast-overall.sav. Este archivo de datos slo contiene las preferencias de elementos de
desayuno para el primer escenario, Preferencia global.
broadband_1.sav Archivo de datos hipotticos que contiene el nmero de suscriptores, por
regin, a un servicio de banda ancha nacional. El archivo de datos contiene nmeros de
suscriptores mensuales para 85 regiones durante un perodo de cuatro aos.
broadband_2.sav Este archivo de datos es idntico a broadband_1.sav pero contiene datos
para tres meses adicionales.
car_insurance_claims.sav. Un conjunto de datos presentados y analizados en otro lugar
(McCullagh y Nelder, 1989) estudia las reclamaciones por daos en vehculos. La cantidad de
reclamaciones media se puede modelar como si tuviera una distribucin Gamma, mediante
33
Archivos muestrales
una funcin de enlace inversa para relacionar la media de la variable dependiente con
una combinacin lineal de la edad del asegurado, el tipo de vehculo y la antigedad del
vehculo. El nmero de reclamaciones presentadas se puede utilizar como una ponderacin de
escalamiento.
car_sales.sav. Este archivo de datos contiene estimaciones de ventas, precios de lista y
especificaciones fsicas hipotticas de varias marcas y modelos de vehculos. Los precios de
lista y las especificaciones fsicas se han obtenido de edmunds.com y de sitios de fabricantes.
car_sales_uprepared.sav.sta es una versin modificada de car_sales.sav que no incluye
ninguna versin transformada de los campos.
carpet.sav En un ejemplo muy conocido (Green y Wind, 1973), una compaa interesada en
sacar al mercado un nuevo limpiador de alfombras desea examinar la influencia de cinco
factores sobre la preferencia del consumidor: diseo del producto, marca comercial, precio,
sello de buen producto para el hogar y garanta de devolucin del importe. Hay tres niveles
de factores para el diseo del producto, cada uno con una diferente colocacin del cepillo
del aplicador; tres nombres comerciales (K2R, Glory y Bissell); tres niveles de precios; y dos
niveles (no o s) para los dos ltimos factores. Diez consumidores clasificaron 22 perfiles
definidos por estos factores. La variable Preferencia contiene el rango de las clasificaciones
medias de cada perfil. Las clasificaciones inferiores corresponden a preferencias elevadas.
Esta variable refleja una medida global de la preferencia de cada perfil.
carpet_prefs.sav Este archivo de datos se basa en el mismo ejemplo que el descrito para
carpet.sav, pero contiene las clasificaciones reales recogidas de cada uno de los 10
consumidores. Se pidi a los consumidores que clasificaran los 22 perfiles de los productos
empezando por el menos preferido. Las variables desde PREF1 hasta PREF22 contienen los
ID de los perfiles asociados, como se definen en carpet_plan.sav.
catalog.savEste archivo de datos contiene cifras de ventas mensuales hipotticas de tres
productos vendidos por una compaa de venta por catlogo. Tambin se incluyen datos
para cinco variables predictoras posibles.
catalog_seasfac.savEste archivo de datos es igual que catalog.sav, con la excepcin de
que incluye un conjunto de factores estacionales calculados a partir del procedimiento
Descomposicin estacional junto con las variables de fecha que lo acompaan.
cellular.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa de telefona
mvil para reducir el abandono de clientes. Las puntuaciones de propensin al abandono de
clientes se aplican a las cuentas, oscilando de 0 a 100. Las cuentas con una puntuacin de 50
o superior pueden estar buscando otros proveedores.
ceramics.sav.Archivo de datos hipotticos sobre las iniciativas de un fabricante para
determinar si una nueva aleacin de calidad tiene una mayor resistencia al calor que una
aleacin estndar. Cada caso representa una prueba independiente de una de las aleaciones; la
temperatura a la que registr el fallo del rodamiento.
cereal.sav. Archivo de datos hipotticos sobre una encuesta realizada a 880 personas sobre
sus preferencias en el desayuno, teniendo tambin en cuenta su edad, sexo, estado civil y si
tienen un estilo de vida activo o no (en funcin de si practican ejercicio al menos dos veces a
la semana). Cada caso representa un encuestado diferente.
clothing_defects.sav. Archivo de datos hipotticos sobre el proceso de control de calidad en
una fbrica de prendas. Los inspectores toman una muestra de prendas de cada lote producido
en la fbrica, y cuentan el nmero de prendas que no son aceptables.
34
Apndice A
coffee.sav. Este archivo de datos pertenece a las imgenes percibidas de seis marcas de caf
helado (Kennedy, Riquier, y Sharp, 1996). Para cada uno de los 23 atributos de imagen de caf
helado, los encuestados seleccionaron todas las marcas que quedaban descritas por el atributo.
Las seis marcas se denotan AA, BB, CC, DD, EE y FF para mantener la confidencialidad.
contacts.sav.Archivo de datos hipotticos sobre las listas de contactos de un grupo de
representantes de ventas de ordenadores de empresa. Cada uno de los contactos est
categorizado por el departamento de la compaa en el que trabaja y su categora en la
compaa. Adems, tambin se registran los importes de la ltima venta realizada, el tiempo
transcurrido desde la ltima venta y el tamao de la compaa del contacto.
creditpromo.sav. Archivo de datos hipotticos sobre las iniciativas de unos almacenes
para evaluar la eficacia de una promocin de tarjetas de crdito reciente. Para este fin, se
seleccionaron aleatoriamente 500 titulares. La mitad recibieron un anuncio promocionando
una tasa de inters reducida sobre las ventas realizadas en los siguientes tres meses. La otra
mitad recibi un anuncio estacional estndar.
customer_dbase.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa para
usar la informacin de su almacn de datos para realizar ofertas especiales a los clientes
con ms probabilidades de responder. Se seleccion un subconjunto de la base de clientes
aleatoriamente a quienes se ofrecieron las ofertas especiales y sus respuestas se registraron.
customer_information.sav. Archivo de datos hipotticos que contiene la informacin de correo
del cliente, como el nombre y la direccin.
customer_subset.sav. Un subconjunto de 80 casos de customer_dbase.sav.
customers_model.sav. Este archivo contiene datos hipotticos sobre los individuos a los que
va dirigida una campaa de marketing. Estos datos incluyen informacin demogrfica, un
resumen del historial de compras y si cada individuo respondi a la campaa. Cada caso
representa un individuo diferente.
customers_new.sav. Este archivo contiene datos hipotticos sobre los individuos que son
candidatos potenciales para una campaa de marketing. Estos datos incluyen informacin
demogrfica y un resumen del historial de compras de cada individuo. Cada caso representa
un individuo diferente.
debate.sav. Archivos de datos hipotticos sobre las respuestas emparejadas de una encuesta
realizada a los asistentes a un debate poltico antes y despus del debate. Cada caso
corresponde a un encuestado diferente.
debate_aggregate.sav. Archivo de datos hipotticos que agrega las respuestas de debate.sav.
Cada caso corresponde a una clasificacin cruzada de preferencias antes y despus del debate.
demo.sav. Archivos de datos hipotticos sobre una base de datos de clientes adquirida con
el fin de enviar por correo ofertas mensuales. Se registra si el cliente respondi a la oferta,
junto con informacin demogrfica diversa.
demo_cs_1.sav.Archivo de datos hipotticos sobre el primer paso de las iniciativas de
una compaa para recopilar una base de datos de informacin de encuestas. Cada caso
corresponde a una ciudad diferente, y se registra la identificacin de la ciudad, la regin,
la provincia y el distrito.
demo_cs_2.sav.Archivo de datos hipotticos sobre el segundo paso de las iniciativas de
una compaa para recopilar una base de datos de informacin de encuestas. Cada caso
corresponde a una unidad familiar diferente de las ciudades seleccionadas en el primer paso, y
35
Archivos muestrales
Apndice A
Archivos muestrales
ozono.sav. Los datos incluyen 330 observaciones de seis variables meteorolgicas para
pronosticar la concentracin de ozono a partir del resto de variables. Los investigadores
anteriores(Breiman y Friedman, 1985), (Hastie y Tibshirani, 1990) han encontrado que no hay
linealidad entre estas variables, lo que dificulta los mtodos de regresin tpica.
pain_medication.sav. Este archivo de datos hipotticos contiene los resultados de una prueba
clnica sobre medicacin antiinflamatoria para tratar el dolor artrtico crnico. Resulta de
particular inters el tiempo que tarda el frmaco en hacer efecto y cmo se compara con
una medicacin existente.
patient_los.sav. Este archivo de datos hipotticos contiene los registros de tratamiento de
pacientes que fueron admitidos en el hospital ante la posibilidad de sufrir un infarto de
miocardio (IM o ataque al corazn). Cada caso corresponde a un paciente distinto y registra
diversas variables relacionadas con su estancia hospitalaria.
patlos_sample.sav. Este archivo de datos hipotticos contiene los registros de tratamiento de
una muestra de pacientes que recibieron trombolticos durante el tratamiento del infarto de
miocardio (IM o ataque al corazn). Cada caso corresponde a un paciente distinto y registra
diversas variables relacionadas con su estancia hospitalaria.
polishing.sav. Archivo de datos Nambeware Polishing Times (Tiempo de pulido de metal)
de la biblioteca de datos e historiales. Contiene datos sobre las iniciativas de un fabricante
de cuberteras de metal (Nambe Mills, Santa Fe, N. M.) para planificar su programa de
produccin. Cada caso representa un artculo distinto de la lnea de productos. Se registra el
dimetro, el tiempo de pulido, el precio y el tipo de producto de cada artculo.
poll_cs.sav. Archivo de datos hipotticos sobre las iniciativas de los encuestadores para
determinar el nivel de apoyo pblico a una ley antes de una asamblea legislativa. Los casos
corresponden a votantes registrados. Cada caso registra el condado, la poblacin y el
vecindario en el que vive el votante.
poll_cs_sample.sav. Este archivo de datos hipotticos contiene una muestra de los votantes
enumerados en poll_cs.sav. La muestra se tom segn el diseo especificado en el archivo
de plan poll.csplan y este archivo de datos registra las probabilidades de inclusin y las
ponderaciones muestrales. Sin embargo, tenga en cuenta que debido a que el plan muestral
hace uso de un mtodo de probabilidad proporcional al tamao (PPS), tambin existe un
archivo que contiene las probabilidades de seleccin conjunta (poll_jointprob.sav). Las
variables adicionales que corresponden a los datos demogrficos de los votantes y sus
opiniones sobre la propuesta de ley se recopilaron y aadieron al archivo de datos despus
de tomar la muestra.
property_assess.sav. Archivo de datos hipotticos sobre las iniciativas de un asesor del
condado para mantener actualizada la evaluacin de los valores de las propiedades utilizando
recursos limitados. Los casos corresponden a las propiedades vendidas en el condado el
ao anterior. Cada caso del archivo de datos registra la poblacin en que se encuentra la
propiedad, el ltimo asesor que visit la propiedad, el tiempo transcurrido desde la ltima
evaluacin, la valoracin realizada en ese momento y el valor de venta de la propiedad.
property_assess_cs.sav. Archivo de datos hipotticos sobre las iniciativas de un asesor de un
estado para mantener actualizada la evaluacin de los valores de las propiedades utilizando
recursos limitados. Los casos corresponden a propiedades del estado. Cada caso del archivo
de datos registra el condado, la poblacin y el vecindario en el que se encuentra la propiedad,
el tiempo transcurrido desde la ltima evaluacin y la valoracin realizada en ese momento.
38
Apndice A
Archivos muestrales
Apndice A
B
Notices
Licensed Materials Property of SPSS Inc., an IBM Company. Copyright SPSS Inc. 1989,
2010.
Patent No. 7,023,453
The following paragraph does not apply to the United Kingdom or any other country where such
provisions are inconsistent with local law: SPSS INC., AN IBM COMPANY, PROVIDES THIS
PUBLICATION AS IS WITHOUT WARRANTY OF ANY KIND, EITHER EXPRESS
OR IMPLIED, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES
OF NON-INFRINGEMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR
PURPOSE. Some states do not allow disclaimer of express or implied warranties in certain
transactions, therefore, this statement may not apply to you.
This information could include technical inaccuracies or typographical errors. Changes are
periodically made to the information herein; these changes will be incorporated in new editions of
the publication. SPSS Inc. may make improvements and/or changes in the product(s) and/or the
program(s) described in this publication at any time without notice.
Any references in this information to non-SPSS and non-IBM Web sites are provided for
convenience only and do not in any manner serve as an endorsement of those Web sites. The
materials at those Web sites are not part of the materials for this SPSS Inc. product and use of
those Web sites is at your own risk.
When you send information to IBM or SPSS, you grant IBM and SPSS a nonexclusive right
to use or distribute the information in any way it believes appropriate without incurring any
obligation to you.
Information concerning non-SPSS products was obtained from the suppliers of those products,
their published announcements or other publicly available sources. SPSS has not tested those
products and cannot confirm the accuracy of performance, compatibility or any other claims
related to non-SPSS products. Questions on the capabilities of non-SPSS products should be
addressed to the suppliers of those products.
This information contains examples of data and reports used in daily business operations.
To illustrate them as completely as possible, the examples include the names of individuals,
companies, brands, and products. All of these names are fictitious and any similarity to the names
and addresses used by an actual business enterprise is entirely coincidental.
COPYRIGHT LICENSE:
This information contains sample application programs in source language, which illustrate
programming techniques on various operating platforms. You may copy, modify, and distribute
these sample programs in any form without payment to SPSS Inc., for the purposes of developing,
Copyright SPSS Inc. 1989, 2010 41
42
Apndice B
Trademarks
IBM, the IBM logo, and ibm.com are trademarks of IBM Corporation, registered in many
jurisdictions worldwide. A current list of IBM trademarks is available on the Web at
http://www.ibm.com/legal/copytrade.shmtl.
SPSS is a trademark of SPSS Inc., an IBM Company, registered in many jurisdictions worldwide.
Adobe, the Adobe logo, PostScript, and the PostScript logo are either registered trademarks or
trademarks of Adobe Systems Incorporated in the United States, and/or other countries.
Intel, Intel logo, Intel Inside, Intel Inside logo, Intel Centrino, Intel Centrino logo, Celeron, Intel
Xeon, Intel SpeedStep, Itanium, and Pentium are trademarks or registered trademarks of Intel
Corporation or its subsidiaries in the United States and other countries.
Linux is a registered trademark of Linus Torvalds in the United States, other countries, or both.
Microsoft, Windows, Windows NT, and the Windows logo are trademarks of Microsoft
Corporation in the United States, other countries, or both.
UNIX is a registered trademark of The Open Group in the United States and other countries.
Java and all Java-based trademarks and logos are trademarks of Sun Microsystems, Inc. in the
United States, other countries, or both.
This product uses WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting,
http://www.winwrap.com.
Other product and service names might be trademarks of IBM, SPSS, or other companies.
Adobe product screenshot(s) reprinted with permission from Adobe Systems Incorporated.
Microsoft product screenshot(s) reprinted with permission from Microsoft Corporation.
Bibliografa
Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology.
Nueva York: Harper & Row.
Blake, C. L., y C. J. Merz. 1998. "UCI Repository of machine learning databases." Available at
http://www.ics.uci.edu/~mlearn/MLRepository.html.
Breiman, L., y J. H. Friedman. 1985. Estimating optimal transformations for multiple regression
and correlation. Journal of the American Statistical Association, 80, .
Collett, D. 2003. Modelling survival data in medical research, 2 ed. Boca Raton: Chapman &
Hall/CRC.
Davison, A. C., y D. V. Hinkley. 2006. Bootstrap Methods and their Application. : Cambridge
University Press.
Green, P. E., y V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press.
Green, P. E., y Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach.
Hinsdale, Ill.: Dryden Press.
Guttman, L. 1968. A general nonmetric technique for finding the smallest coordinate space for
configurations of points. Psychometrika, 33, .
Hartigan, J. A. 1975. Clustering algorithms. Nueva York: John Wiley and Sons.
Hastie, T., y R. Tibshirani. 1990. Generalized additive models. Londres: Chapman and Hall.
Kennedy, R., C. Riquier, y B. Sharp. 1996. Practical applications of correspondence analysis
to categorical data in market research. Journal of Targeting, Measurement, and Analysis for
Marketing, 5, .
McCullagh, P., y J. A. Nelder. 1989. Modelos lineales generalizados, 2nd ed. Londres: Chapman
& Hall.
Price, R. H., y D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as
dimensions of social behavior. Journal of Personality and Social Psychology, 30, .
Rickman, R., N. Mitchell, J. Dingman, y J. E. Dalen. 1974. Changes in serum cholesterol during
the Stillman Diet. Journal of the American Medical Association, 228, .
Rosenberg, S., y M. P. Kim. 1975. The method of sorting as a data-gathering procedure in
multivariate research. Multivariate Behavioral Research, 10, .
Shao, J., y D. Tu. 1995. The Jackknife and Bootstrap. Nueva York: Springer.
Van der Ham, T., J. J. Meulman, D. C. Van Strien, y H. Van Engeland. 1997. Empirically based
subgrouping of eating disorders in adolescents: A longitudinal perspective. British Journal
of Psychiatry, 170, .
Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (en neerlands). Leiden:
Department of Data Theory, University of Leiden.
Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, y B. G. Ferris Jr.. 1984. Passive
smoking, gas cooking, and respiratory health of children living in six cities. American Review of
Respiratory Diseases, 129, .
archivos de ejemplo
posicin, 31
legal notices, 41
muestreo autodocimante, 3, 10
especificaciones de muestreo autodocimante, 14
estimaciones de los parmetros, 29
intervalo de confianza de mediana, 19
intervalo de confianza de proporcin, 1516
procedimientos admitidos, 5
trademarks, 42
44