Documente Academic
Documente Profesional
Documente Cultură
Indice
Indice Introduccin 1. Primera aproximacin al SPSS 1.1. La ventana del editor de datos y sus componentes 1.2. La ventana de resultados 1.3. La ventana de resultados de borrador 1.4. La ventana de sintaxis 2. Cmo acceder a una base de datos en SPSS? 2.1. Importacin de bases de datos a SPSS 2 3 4 4 6 7 7 8 8
3. Cmo crear una matriz de datos nueva? 10 3.1. Adecuacin de la matriz de datos a la estructura del formulario o cuestionario 10 3.2. Definicin de variables 15 3.3. Introduccin de datos 21 4. Edicin de los datos 5. Modificacin de la base de datos 5.1. Seleccin de un subconjunto de casos 5.2. Segmentacin de archivos 5.3. Cmo ordenar la base de datos? 5.4. Ponderacin de casos 6. Modificacin de variables 6.1. Recodificacin de variables 7. Clculo de nuevas variables 8. Fusin de matrices de datos 8.1. Aadir casos 8.2. Aadir variables Cmo obtener datos agregados? 23 24 24 26 28 28 29 29 34 37 37 39 42 45
9.
Bibliografa
Introduccin
El SPSS (Statistical Package for Social Sciences) es un programa desarrollado para el procesamiento de datos y anlisis estadstico en las ciencias sociales. Es un programa ampliamente utilizado en el mbito de las ciencias sociales dado que no requiere de un conocimiento especializado en computacin. Desde los principios de los 90 se han desarrollado versiones para Windows. El uso de estas versiones es relativamente fcil ya que funcionan bajo la modalidad interactiva, lo cual elimina la necesidad de conocer las normas de sintaxis y programacin subyacentes al soft. El presente documento ofrece una introduccin al SPSS, encarada principalmente desde dos dimensiones de trabajo:
Preparacin de la base de datos para el anlisis estadstico Anlisis estadstico (univariado, bivariado y procedimientos bsicos de estadstica inferencial)
En el primer captulo se describir brevemente la estructura del programa y el funcionamiento del mismo. En los captulos 2 y 3 se presentarn las bases de datos en SPSS, su estructura, la construccin de una base de datos y la introduccin de datos (data-entry). En el captulo 4 se resumirn brevemente las operaciones de edicin de datos. En los captulos 5, 6 y 7 se describirn los principales procedimientos relacionados con la preparacin de una base de datos para el anlisis estadstico: seleccin de subconjuntos (filtros), recodificacin de variables y creacin de nuevas variables. En los captulos 8 y 9 se aborda la fusin de los archivos y el trabajo con datos agregados.
1.1.
Edicin (Edit): Contiene las tareas relacionadas con la edicin de datos: borrar, copiar, pegar, seleccionar, etc. Tambin permite la bsqueda de datos en una matriz. Ver (View): Permite, entre otras opciones, visualizar las distintas barras de herramientas y el tipo de fuente que se usa en la matriz de datos. Datos (Data): Permite realizar distintas operaciones con la matriz de datos: definir variables, insertar variables, seleccionar casos, ordenar casos, ponderar casos, as como unir diferentes matrices de datos Transformar (Transform): En este men se encuentran las opciones relacionadas con la modificacin y creacin de nuevas variables. Tambin permite crear series temporales y reemplazar los llamados valores perdidos. Analizar (Analyze): Contiene los procedimientos estadsticos que se pueden efectuar a partir de los datos disponibles. Esta versin permite efectuar anlisis univariado (distribuciones de frecuencias, medidas de tendencia central y dispersin), anlisis bivariado (asociaciones, correlaciones, regresiones), pruebas estadsticas inferenciales no paramtricas y paramtricas y distintos procedimientos del anlisis multivariado (anlisis de la varianza, anlisis factorial, regresin mltiple en todas sus variantes, anlisis de conglomerados, etc.) Tambin tiene una opcin para calcular coeficientes de confiabilidad de escalas. Grficos (Graphs): Permite la creacin de grficos, tanto usuales (de barra, de lnea, de sectores, etc.) como especiales (histogramas, grfico de dispersin, diagramas de caja, etc.). Utilidades (Utilites): Visualiza el listado de variables presentes en la matriz de datos y permite trabajar con conjuntos de variables. Ventana (Window): Contiene las funciones habituales en Windows para controlar las ventanas del programa. Ayuda (Help): Es el men de ayuda temtica. Tambin permite ingresar preguntas o buscar palabras o frases especficas. Contiene un asesor estadstico que gua al usuario en la eleccin de los distintos procedimientos estadsticos.
opciones presentes en los mens. Es personalizable (se pueden agregar o quitar botones segn los requerimientos del usuario).
Contiene informacin especfica, relacionada con las tareas que se efectan. Cuando no se realiza ninguna operacin, aparece el mensaje Procesador SPSS para Windows preparado (SPSS processor is ready) En caso contrario, aparece el nombre de la instruccin que se est ejecutando y la cantidad de casos procesados.
La matriz de datos
Recurdese que la matriz de datos es una estructura en la cual se vuelcan los datos obtenidos en la etapa de recoleccin de los datos. La matriz de datos permite visualizar los elementos de la estructura tripartita de los datos
5
cientficos: la unidad de anlisis, la variable y el valor o respuesta. La matriz tiene la forma de una tabla de dos entradas, en donde verticalmente, por columna, se ubican las variables; horizontalmente, por fila, se ubican las unidades de anlisis y en la interseccin de las variables con las unidades de anlisis se sitan los valores o respuestas (es decir, los valores que alcanzan las variables en las distintas unidades de anlisis). Var 1 R11 R21 R31 .......... Rn1 Var 2 R12 R22 R32 ............ Rn2 Var 3 R13 R23 R33 ............. Rn3 ............. ............. ............. ............. ............. ............. Var m R1m R2m R3m ............... Rnm
UA 1 UA 2 UA 3 ..... UA n
El cuadro representa una matriz de datos. Las variables (Var) se ubican por columna, m indicando la cantidad de variables que contiene el instrumento de recoleccin. Las unidades de anlisis (UA) se encuentran por fila, n indicando la cantidad de unidades de anlisis presentes en la poblacin o la muestra que se utiliz en la investigacin. En las celdas de la tabla se ubican los valores o las respuestas (R). La matriz de datos que se genera al abrirse el programa es una matriz vaca. En el margen horizontal superior (la fila gris) de la matriz aparece la palabra Var encabezando cada columna. Esto significa, que al estar la matriz vaca, todas las variables son variables potenciales. En el margen izquierdo de la matriz se puede notar una numeracin correlativa. Esta numeracin indica las unidades de anlisis potenciales. Esta configuracin se puede adaptar a cualquier tipo de formulario o cuestionario, mientras se respete la correspondencia entre las preguntas (tems) y las variables de la matriz (vese la seccin 3.1.) Los datos que se quieren procesar y analizar se introducen en esta ventana. En la seccin 3.4. se analizar el procedimiento de llenar la matriz (introducir o cargar datos). En SPSS (versiones para Windows) los datos de la base (matriz) se guardan en un archivo que tiene la extensin .sav. En el caso de la base de datos, los archivos creados en versiones ms nuevas son compatibles con versiones anteriores para Windows.
Las bases de datos creadas en dBASE (dbf) y FoxPro son compatibles con el SPSS. La conversin del archivo tipo dbf en archivo SPSS no modifica los nombres de los campos importados Si el archivo se cre en Excel, antes de que se abra el archivo aparece un cuadro de dilogo Abrir datos de Excel (Opening Excel Data Source). En este cuadro hay que activar la opcin Leer los nombres de variable (Read variables names from the first row of data). Al activar la opcin Leer los nombres de variables, la primera fila de la hoja de clculo (que generalmente contiene los nombres de las variables) se convierte automticamente en el encabezado de la matriz de SPSS. Si no se activa esta opcin, la primera fila de la hoja de clculo se transforma en la primera fila de la matriz de datos, es decir en un caso (registro) ms. Si no se quiere importar la planilla en toda su extensin, se puede efectuar un recorte especificando en la casilla Rango (Range) el rango de la hoja de clculo. Por ejemplo, al tipear A2:D6 en la casilla, en el SPSS la matriz contendr los datos ubicados entre la segunda y sexta fila y las columnas A-D de la hoja de clculo. 2.1.2. Abrir una base de datos desde la opcin Abrir bases de datos (Open Database) Esta opcin permite capturar una base de datos diferente a la matriz de datos SPSS con la ayuda de un asistente que ofrece una gua paso a paso en el proceso de importacin. La versin 13 ofrece la posibilidad de importar bases de datos provenientes de dBase, Foxpro, MS Access y planilla de clculo de Excel. Para comenzar con el proceso, se debe hacer clic en la opcin Nueva consulta (New Query). Luego en el cuadro de dilogo que se abre se selecciona el tipo de base de datos que se va a importar (dBase, Excel o Access) y seguidamente se debe indicar la localizacin del archivo en cuestin. El prximo paso consiste en seleccionar los campos que se quieren importar, arrastrando al cuadro ubicado en la derecha, ya sea la totalidad de los campos o alguna seleccin de los mismos. Luego, se puede agregar, mediante diferentes operaciones lgicas, aritmticas o el uso de funciones, algn tipo de restricciones a los casos que se desee importar, limitando mediante la especificacin de criterios el nmero de casos.
Desocupados Las razones por las que no encuentra trabajo son: (Mencione tres razones). Por la edad Por el nivel educativo requerido Por la experiencia laboral requerida Porque no hay trabajo en su especialidad Porque no hay trabajo en general Porque le faltan vinculaciones para conseguir empleo Porque los trabajos que hay estn mal pagos Se presenta en pocos lugares porque no le alcanza para viajar Otros (especifique) Ns/Nc 1 2 3 4 5 6 7 8 9 10
Al pedir a los encuestados que elijan tres razones, la pregunta se transforma en una de respuesta mltiple y por lo tanto no se puede cargar como si fuese una sola variable. Hay que construir tres variables, es decir, las tres respuestas dan lugar a tres variables. Luego, en el anlisis estadstico se obtendrn tres distribuciones de frecuencias (una distribucin para la primera opcin, otra para la segunda opcin y otra para la tercera opcin). Estas distribuciones se debern unificar para analizar el conjunto de respuestas a la pregunta. A continuacin se presenta la distribucin de frecuencias para las tres variables1.
Cuadro N 1
Por la edad Por el niv. educativo requerido Por la exp. laboral requerida Porque no hay trabajo en su especialidad Porque no hay trabajo en gral Porque le faltan vinculaciones Porque los trabajos que hay estn mal pagos Porque no le alcanza para viajar Ns/Nc Total
Cuadro N 2
Frecuencia 10 8 15 39 78 11 3 3 4 171
Porcentaje 5,8 4,7 8,8 22,8 45,6 6,4 1,8 1,8 2,3 100,0
1 El ejemplo proviene de la Encuesta Permanente de Hogares (onda octubre de 2002, Gran Mendoza) y los resultados han sido modificados para adaptarlos al ejercicio presentado.
11
Por la edad Por el niv. educativo requerido Por la exp. laboral requerida Porque no hay trabajo en su especialidad Porque no hay trabajo en gral Porque le faltan vinculaciones Porque los trabajos que hay estn mal pagos Porque no le alcanza para viajar Otras Ns/Nc Total
Cuadro N 3
Frecuencia 11 6 10 31 54 29 5 5 4 16 171
Porcentaje 6,4 3,5 5,8 18,1 31,6 17,0 2,9 2,9 2,3 9,4 100,0
Por la edad Por el niv. educativo requerido Por la exp. laboral requerida Porque no hay trabajo en su especialidad Porque no hay trabajo en gral Porque le faltan vinculaciones Porque los trabajos que hay estn mal pagos Porque no le alcanza para viajar Otras Ns/Nc Total
Frecuencia 18 6 9 8 11 34 14 15 8 48 171
Porcentaje 10,5 3,5 5,3 4,7 6,4 19,9 8,2 8,8 4,7 28,1 100,0
Para presentar los resultados, dado que en realidad se trata de una sola pregunta, los porcentajes obtenidos por cada categora en las tres respuestas se deben sumar. Por ejemplo, la categora Por la edad ha sido elegida por 39 personas, lo cual representa el 22,8% (5,8% + 6,4% + 10,5%) de la muestra. Tambin hay que recalcar que los porcentajes superan el 100% ya que cada persona puede contestar ms de una respuesta y los porcentajes se deben calcular sobre la base de la cantidad de personas y no del total de las respuestas. Esta situacin se tiene que aclarar al pie del cuadro. La opcin Ns/Nc se debe tratar con cuidado para no producir duplicaciones de la misma. En el caso de la segunda variable, se puede observar que el porcentaje de la categora Ns/Nc aument en comparacin con la primera variable (de 2,3% a 9,4%), alcanzando un 28,1% en el caso de la tercera variable. Esto ocurre por el hecho de que hay encuestados que eligieron solamente una o dos respuestas en vez de las tres que hubieran podido contestar. Sin embargo, esto no significa que estas personas no hayan contestado la pregunta. Por esta razn, para evitar la duplicacin de la categora Ns/Nc, se debe considerar solamente el porcentaje de Ns/Nc de la primera variable, sin sumar las respuestas Ns/Nc de la segunda y tercera variable.
Cuadro N 4
12
Razones por las que no encuentra trabajo Por la edad Por el niv. educativo requerido Por la exp. laboral requerida Porque no hay trabajo en su especialidad Porque no hay trabajo en gral Porque le faltan vinculaciones Porque los trabajos que hay estn mal pagos Porque no le alcanza para viajar Otras Ns/Nc Recuento 39 20 34 78 143 74 22 23 12 4 % columna 22,8 11,7 19,9 45,6 83,6 43,3 12,9 13,5 7,0 2,3
Los porcentajes no suman 100%, debido a que se trata de una pregunta de respuesta mltiple
Otra modalidad de solucionar la carga de este tipo de preguntas es transformar cada una de las categoras de respuesta en variables dicotmicas, con dos categoras de respuesta: S / No. En el caso del ejemplo presentado, se obtienen diez variables: Nombre de la variable Cdigos
1 - Por la edad 1 0 2 - Por el nivel educativo requerido 1 0 3 - Por la exp. laboral requerida 1 0 4 - Porque no hay trabajo en su especialidad 1 0 5 - Porque no hay trabajo en general 1 0 6 - Porque le faltan vinculaciones 1 0 7 - Porque los trabajos que hay estn mal pagos 1 0 8 - Porque no le alcanza para viajar 1 0 9 - Otros 1 0 10 - Ns/Nc 1 0 El cdigo 1 indica que el encuestado eligi la categora indicada, y el 0 que no la eligi. Para presentar los resultados, se indican solamente las respuestas que llevan el cdigo 1. A continuacin se presentan los cuadros correspondientes a cada variable dicotmica, y el cuadro resumen que coincide con el cuadro N 4 obtenido en la modalidad anterior.
Cuadro N 5
No encuentra No encuentra trabajo por el trabajo por la niv. educativo edad requerido No S 132 39 % 77,2% 22,8% 151 20 % 88,3% 11,7%
Ns/Nc
Cuadro N 6
13
Razones por las que no encuentra trabajo No encuentra trabajo por la edad No encuentra trabajo por el niv. educativo requerido No encuentra trabajo por la exp. laboral requerida No encuentra trabajo porque no hay en su espec. No encuentra porque no hay trabajo en gral No encuentra trabajo porque le faltan vinculaciones No encuentra porque los trabajos que hay estn mal pagos No encuentra porque no le alcanza para viajar No encuentra por otras razones Ns/Nc Recuento 39 20 34 78 143 74 22 23 12 4 % columna 22,8 11,7 19,9 45,6 83,6 43,3 12,9 13,5 7,0 2,3
Los porcentajes no suman 100%, debido a que se trata de una pregunta de respuesta mltiple
3.1.2. Preguntas presentadas en forma de tabla o grilla Las preguntas en forma de tabla o grilla son una modalidad especial de presentar aquellas preguntas de un cuestionario que tienen el mismo sistema de categoras y hacen referencia a una temtica comn. Se recurre a dicha presentacin para agilizar la aplicacin del cuestionario y en ltima instancia ahorrar espacio en el formulario. Ejemplo de pregunta presentada en forma de tabla Cmo evala el accionar de la Municipalidad en cada uno de los siguientes aspectos? Muy bueno 1 1 1 1 1 1 1 Bueno 2 2 2 2 2 2 2 Regular 3 3 3 3 3 3 3 Malo 4 4 4 4 4 4 4 Muy malo 5 5 5 5 5 5 5 NS/NC 9 9 9 9 9 9 9
1. 2. 3. 4. 5. 6. 7.
Recoleccin de basura Barrido y limpieza Alumbrado pblico Regado de calles Poda de rboles Pavimentacin de calles Programas de urbanizacin
En este caso, cada una de las filas de la tabla se debe considerar como una variable. Las respuestas se cargarn empleando 7 variables: recoleccin de basura, barrido y limpieza, alumbrado pblico, regado de calles, poda de rboles, pavimentacin de calles, programas de urbanizacin. 3.1.3 Preguntas filtro La pregunta filtro es aquella que dirige a un subconjunto de encuestados a contestar una serie de preguntas especficas segn su respuesta a la pregunta filtro. Ejemplo de pregunta filtro P1. Me podra decir si en los ltimos 6 meses Ud. o algn familiar ha sido vctima de algn delito? 1. S
Pasar a la pregunta 2
14
2. No 3. Ns/Nc
Pasar a la pregunta 5
P2 Me podra decir qu tipo de delitos ha sufrido? 1. 2. 3. 4. 5. 6. Robo domiciliario Robo en la calle Agresin fsica o asalto Robo de automotor Otros Ns/Nc
En este caso se puede observar que solamente aquellos que han contestado afirmativamente a la pregunta 1, tienen que contestar la pregunta 2. En los otros casos se debe saltear la pregunta 2 (y las siguientes preguntas, hasta la 5), cargndose en la matriz de datos en el campo correspondiente a la pregunta 2 (y las dems preguntas, hasta la 4) el cdigo 0 (no corresponde).
Nombre (Name) Tipo (Type)Ancho (Width) Decimales (Decimals) Etiquetas (Label) Valores (Value) Valores perdidos (Missing) Columnas (Columns) Alineacin (Align) Medida (Measure)
El listado tiene la forma de un cuadro de doble entrada, en donde por fila se ubican las variables y por columna las especificaciones arriba mencionadas.
Cabe aclarar que para las versiones anteriores a la versin 10, el procedimiento de definicin de variables difiere de la modalidad aqu presentada.
15
un nombre de identificacin de la variable. El nombre no puede tener ms de 64 caracteres. Sin embargo, se recomienda utilizar nombres cortos a efectos de facilita la visualizacin. El primer carcter del nombre debe ser una letra. Los restantes pueden ser letras, nmeros y otros signos; excepto ciertos signos especiales (puntos al final de la palabra, comas, signos de admiracin, de pregunta, +, =, -, parntesis etc.). El nombre no puede contener espacios blancos. Cada variable debe llevar un nombre nico, es decir, no se puede asignar el mismo nombre a dos variables en la misma matriz. En el caso en que no se introduce ningn nombre de identificacin, la computadora asigna por omisin el nombre var00001 a la primera variable de la matriz, numerando correlativamente todas las variables que se introducen.
El orden de las variables en la matriz debe corresponder con el orden de las variables en el instrumento de recoleccin de datos. Generalmente la primera variable que se carga es el nmero del cuestionario. Dicha variable sirve como enlace entre el registro y el formulario correspondiente al registro. El nombre de la variable se utiliza en todos los procedimientos de transformacin de la misma y en el anlisis estadstico.
programa SPSS diferencia entre variables numricas y alfanumricas. Esta clasificacin tiene que ver con la naturaleza del cdigo que se asigna al sistema de categoras de la variable. Si los cdigos son nmeros, la variable ser numrica. No hay que confundir el trmino numrico utilizado en este contexto con el trmino cuantitativo. El trmino numrico se refiere al tipo de cdigo empleado, y no a la naturaleza cuantitativa de la variable. Los
16
cdigos no deben ser necesariamente nmeros, pueden contener otros signos o letras. En este caso las variables se llaman alfanumricas. En esta categora, se destacan las variables cadena. Los cdigos de estas variables son letras o palabras. Esto significa que en la matriz se pueden cargar letras o palabras (por ejemplo, en el caso de una variable dicotmica, que tiene dos categoras S / No, es posible cargar las dos categoras usando las palabras S / NO). El SPSS diferencia entre variables de cadena corta (hasta 8 caracteres alfanumricas) y variables de cadena larga. En la mayora de los casos no es conveniente cargar letras o palabras, dado que para todo tipo de anlisis estadstico es imprescindible la conversin de las variables de cadena larga en nmeros. Las variables de cadena corta pueden ser procesadas por el SPSS, pero hay que tener en cuenta que la carga de letras o palabras siempre requiere ms tiempo que la carga de nmeros. No obstante, variables como el nombre o el domicilio se deben cargar como variable cadena. Para introducir el tipo de variable, se debe hacer clic en el casillero correspondiente. Seguidamente aparece un cuadro llamado Tipo de variable (Variable Type) en donde se pueden definir los siguientes tipos de variables: numricas, numricas en notacin cientfica, tipo fecha, con formato de dlar o moneda personalizada y variables alfanumricas (Cadena / String). El mismo cuadro, en la parte derecha, contiene dos opciones que permiten manejar el ancho de la columna en cantidad de caracteres (Ancho / Width) y la cantidad de decimales (Decimales /Decimal Places).
Tanto el ancho de la columna como la cantidad de decimales se pueden modificar, asimismo, desde el listado de variables haciendo clic en las pequeas flechas de los casilleros correspondientes a las columnas denominadas Width y Decimals. Por omisin, la computadora utiliza la siguiente tipologa predeterminada: variable numrica con 2 decimales. El ancho predeterminado de la columna es de 8 caracteres. Dado que en la mayora de los casos los cdigos empleados en la codificacin del sistema de categoras de las variables son numricos, no hace falta modificar los parmetros de esta tipologa.
ingresar una descripcin de la variable. Esto puede ser cualquier texto con una extensin mxima de 256 caracteres. Este procedimiento es opcional y se
17
requiere solamente en el caso en que el nombre de la variable no ofrece suficientes indicios acerca del significado de la misma.
debe conocer su significado. El SPSS ofrece la posibilidad de asignar etiquetas o denominaciones a los cdigos de cada variable. Si se hace clic en el casillero correspondiente a la columna Values, se genera un cuadro de dilogo denominado Etiqueta de valor (Value labels).
Para etiquetar los cdigos se debe proceder de la siguiente manera: primero se hace clic con el mouse en el interior de la casilla que lleva el nombre Valor (Value). En esta casilla se introduce el cdigo numrico. Abajo, en la casilla correspondiente a Etiqueta de valor (Value label), haciendo clic con el mouse en su interior, se introduce la categora que corresponde al cdigo asignado anteriormente. La categora puede ser cualquier texto con una extensin mxima de 60 caracteres. Una vez terminada la operacin, se hace clic en el botn Aadir (Add). Seguidamente el cdigo y la categora aparecern incorporados en la parte inferior del cuadro de dilogo, que contendr un listado de las categoras de la variable, con sus respectivos cdigos. Esta lista permite visualizar la correspondencia entre cdigo y categora. Para seguir introduciendo los cdigos y las categoras, despus de haber pulsado el botn Aadir (Add), se teclea el siguiente cdigo en la casilla Valor (Value) y la categora correspondiente en la casilla Etiqueta de valor (Value label). Esta operacin se repite hasta haber introducido todos los cdigos de la variable. Para borrar un tem del listado, se lo selecciona y posteriormente se elige la opcin Borrar (Remove). Para modificar algn tem del listado, se lo selecciona, se efectan las modificaciones pertinentes en las casillas correspondientes al valor y/o a la etiqueta del valor, y posteriormente se elige la opcin Cambiar (Change). Una vez etiquetados todos los cdigos de la variable, se acciona el botn OK. Ejemplo: Cmo crear etiquetas para una variable y sus cdigos? Indique el mximo nivel de estudios alcanzado por el jefe de hogar 1. Analfabeto 6. Terciario incompleto 2. Primario incompleto 7. Terciario completo 3. Primario completo 8. Universitario incompleto 4. Secundaria incompleto 9. Universitario completo 5. Secundario completo
18
En el caso de variables cuantitativas no hace falta establecer la correspondencia cdigo categora, dado que el nmero cargado tiene un significado que no es arbitrario, y por ende no hace falta explicitarlo. En el caso de este tipo de variables, es suficiente asignarles un nombre y una etiqueta (la descripcin de la variable). Sin embargo, si la variable cuantitativa se expresa en intervalos, hay que establecer un cdigo para cada intervalo.
la matriz de datos es no dejar ninguna celda vaca, es decir llenar toda la matriz. Sin embargo, esta exigencia es difcil de cumplir en la prctica y generalmente en la creacin de la matriz de datos surge el problema de ausencia de informacin.
El programa SPSS diferencia entre dos tipos de valores perdidos, o celdas vacas. En el primer caso se trata de situaciones en las cuales en el formulario no se cuenta con ninguna respuesta, debido a la omisin del encuestador u otras fallas en la recoleccin de datos. En esta situacin, al efectuar la carga no se puede introducir ningn valor en la celda correspondiente y la computadora asignar automticamente una coma a las celdas vacas en el caso de las variables numricas. En el caso de las variables cadena las celdas vacas quedan en blanco. Estos valores perdidos se llaman valores perdidos por el sistema (Systemmissing). Existe la posibilidad de designar ciertos valores del sistema de categoras de una variable como perdidos. Este tipo de valor perdido se llama valor perdido definido por el usuario (User-missing). Se recurre a este procedimiento para imputar3 generalmente las respuestas Ns/Nc segn la distribucin de frecuencias de los casos vlidos. Hay que remarcar que al definir determinadas categoras como valores perdidos, los cdigos numricos correspondientes se mantendrn en la matriz (no se sustituirn por comas), pero internamente el programa los tratar como valores perdidos. Para definir los valores perdidos, se hace clic en el casillero correspondiente a la columna Missing. Seguidamente se generar un cuadro denominado Missing Values que permite definir dichos valores.
3 Al encontrarse con informacin que falta, existen dos posibilidades: no se corrige la falta de informacin o se utiliza algn procedimiento de IMPUTACION para rellenar la informacin que falta. Existen varios procedimientos de imputacin, en este caso se tratar el ms sencillo: imputacin de los valores ausentes segn la distribucin de frecuencias de los casos que tienen informacin.
19
La primera opcin Sin valores perdidos (No missing values), predeterminada por el programa, indica la ausencia de valores perdidos. En las casillas correspondientes a Valores perdidos discretos (Discrete missing values) se pueden introducir hasta 3 cdigos diferentes para una sola variable. Estos cdigos sern considerados valores perdidos. Tambin existe la opcin de definir como valor perdido un rango de cdigos que, opcionalmente, se puede combinar con un solo valor (discreto) perdido en las casillas correspondientes a Rango de valores perdidos (Range plus one optional discrete missing value). En este caso, en la primera casilla se indica el valor ms bajo y en la segunda casilla, el valor ms alto del rango. Todos los valores pertenecientes al rango se considerarn valores perdidos. De requerirse, en el casillero Discrete value se coloca el valor puntual. Despus de haber definido los valores perdidos, se acciona el botn OK.
modificar el ancho visualizado de la columna de cada variable. Este ancho, por defecto, coincide con la cantidad de caracteres que lleva el nombre de la variable. Hay que recalcar que esta opcin modifica solamente el ancho que se visualiza en la matriz de datos, no as el ancho real, en cantidad de caracteres, de la variable. La columna Align indica la alineacin del valor en las celdas de cada columna. La alineacin predeterminada es a la derecha en el caso de las variables numricas, y a la izquierda en el caso de las variables alfanumricas (de texto).
establecer el nivel de medicin correspondiente a cada variable. El SPSS distingue entre los siguientes niveles de medicin: nominal, ordinal y escalar.
La versin 13 de SPSS ofrece un atajo para copiar definiciones de variables a otras variables del mismo archivo. Esta opcin se encuentra en el men Data: Copiar propiedades de datos (Copy Data Properties). Esta opcin es particularmente til en el caso de las preguntas presentadas en forma de grilla o tabla (ver apartado 3.1.2). Al hacer clic en esta opcin se activa un asistente para guiar el proceso. En el primer paso se establece si la definicin de las variables proviene del archivo de trabajo (The working data file) o de algn archivo externo (an external SPSS data file). En el siguiente paso se deben especificar, en el cuadro denominado Variables fuente (Source File Variables), las variables cuya definicin se
20
copiar. Estas variables se deben seleccionar, marcndolas, en la columna que se ubica en el lado izquierdo del cuadro de dilogo. En la columna ubicada a la derecha, denominada Variables del archivo de trabajo (Working File Variables), se visualizan las variables a las que se aplicar la definicin copiada. Para que aparezca este listado de variables se debe hacer clic primero en alguna variable del cuadro izquierdo. Tambin se marcarn todas aquellas variables, en el cuadro derecho, a las que se aplicar la definicin de variables que se quiere replicar. En el siguiente paso se puede seleccionar las especificaciones de las variables que se desean replicar, tildando las opciones disponibles (etiquetas de cdigos, valores perdidos, tipo de variable, formato de la columna).
Seguidamente se despliega un cuadro con el listado de variables de la matriz de datos donde se pueden tildar las variables que al final se guardarn. En el caso en que el archivo ya lleva un nombre, se guardan los cambios realizados utilizando la opcin Guardar (Save).
22
procede de la siguiente manera: se selecciona con el mouse la celda que contiene el valor errneo y se teclea directamente el valor correcto, apretando luego la tecla Enter o las flechas del teclado. Se notar que el valor correcto aparecer en la celda. De la misma manera se puede reemplazar una coma (un valor perdido) por un valor numrico.
Insertar variables. En el caso en que se quiere insertar una variable entre las
ya existentes, se ubica el cursor del mouse en el lugar donde se quiere insertar la nueva variable (seleccionando dicha ubicacin) y se elige la opcin Insertar Variable (Insert Variable) del men Datos (Data). Seguidamente se generar una nueva variable, con el nombre asignado automticamente por el programa (var00001), y con valores perdidos definidos por el sistema.
ofrece la posibilidad de cambiar de lugar la variable en la matriz de datos. Primero se selecciona la columna correspondiente que se desea mover y luego se arrastra con el mouse a la ubicacin elegida.
variables. Se ubica el cursor del mouse en el lugar donde se quiere insertar el nuevo caso (entre los casos ya existentes) y se elige la opcin Insertar Caso (Insert Cases) del men Datos (Data). Se generar un nuevo registro con valores perdidos definidos por el sistema.
Buscar casos (registros). Se activa la opcin Ir a caso (Go to case) del men
Data. En el cuadro de dilogo generado se indica el nmero del registro buscado y se acciona el botn OK. Esta opcin se utiliza en el caso en que la cantidad de registros es muy grande y la localizacin manual de registros lleva mucho tiempo.
determinada variable, se procede de la siguiente manera: se selecciona la variable (se hace un solo clic con el botn izquierdo del mouse en el nombre de la variable) y se elige la opcin Buscar (Find) del Men Edit. En la casilla del cuadro de dilogo se teclea el valor buscado y luego se acciona el botn Buscar siguiente (Find next).
23
Las instrucciones de seleccin se activan desde el men Datos (Data), en donde se elige la opcin Seleccionar casos (Select cases). El cuadro de dilogo correspondiente contiene varias opciones de seleccin. La primera opcin Todos los casos (All cases) significa que la seleccin no se encuentra activada, es decir, en el anlisis estadstico se utilizan todos los casos de la base de datos. Si se satisface la condicin (If condition is satisfied) permite seleccionar los casos en base a la especificacin de ciertas condiciones. Para activar esta opcin, se hace clic con el mouse en el botn Si (If). Seguidamente se genera un nuevo cuadro de dilogo que contiene los siguientes elementos: el listado de variables de la matriz, un cuadro de textos vaco donde se podrn especificar las condiciones que deben cumplir los casos para ser seleccionados, una calculadora y un listado de funciones (matemticas y estadsticas).
24
Las condiciones en el cuadro se pueden introducir directamente desde el teclado, una vez que se haya posicionado el cursor del mouse en el interior del cuadro (simplemente se hace clic con el botn izquierdo del mouse en el interior del cuadro). Una manera alternativa de introducir las condiciones en el cuadro de textos es recurriendo a los elementos del cuadro de dilogo. Primero se debe seleccionar la variable del listado, y despus se la debe pasar al cuadro haciendo clic en la flecha negra. Luego se especificar la condicin que deben cumplir los casos. Ejemplo En la base EPH2002 se seleccionan las personas pobres por ingreso mayores de 65 aos. Esto significa que se deben especificar dos condiciones que funcionan concomitantemente: la persona debe ser pobre (LIN_POB = 1) y debe tener ms de 65 aos (EDAD > 65).
En el ejemplo presentado se debe pasar la variable LIN_POB al cuadro de textos, y despus se debe especificar la condicin: LIN_POB = 1. Esto permitir seleccionar a las personas pobres. Dado que en el ejercicio se incluy otra condicin: mayores de 65 aos, la expresin se debe completar de la siguiente manera: LIN_POB = 1 & EDAD > 65
El operador & (Y) significa que los casos seleccionados deben cumplir simultneamente con las dos condiciones especificadas. Tambin se pueden emplear otros operadores lgicos: | (O): los casos seleccionados deben cumplir con, al menos, una de las condiciones especificadas. ~=(NO): negacin. Los casos no deben cumplir con la condicin especificada. El empleo de parntesis permite fijar el orden de las condiciones, en el caso en que se especifiquen condiciones mltiples. Una vez introducida la expresin condicional en el cuadro de texto, se hace clic en el botn Continuar (Continue) y se vuelve al cuadro inicial. Antes de aceptar la instruccin, hay que elegir entre la opcin Filtrados (Filtered) o Eliminados
25
(Deleted) en la parte inferior del cuadro. Estas opciones ofrecen dos posibilidades de tratamiento de los casos no seleccionados. La primera es filtrar dichos casos, y la segunda es directamente eliminarlas de la matriz de datos. Generalmente se recomienda filtrar los casos no seleccionados y no eliminarlos. La instruccin se acepta haciendo clic en el botn OK. El botn Restablecer (Reset) borra todas las instrucciones que se han especificado en el cuadro de dilogo. Una vez aceptada la instruccin, se notarn dos modificaciones en la matriz de datos. Primero, los casos no seleccionados aparecen tachados (en la columna gris a la izquierda de la matriz). Segundo, se genera automticamente una variable filtro con el nombre filter_$. Dicha variable asigna el cdigo 0 a los casos no seleccionados y 1 a los casos seleccionados. Al pedir una distribucin de frecuencias de la variable filter_$ (activando la opcin Todos los casos) se obtiene el siguiente cuadro:
Cuadro N 7
Vlidos
Perdidos Total
Es decir, del total de casos (3821) se han seleccionado 107 personas. Las personas que integran este subconjunto cumplen simultneamente con las dos condiciones: son pobres y mayores de 65 aos. Para anular la seleccin, se puede borrar la variable filtro de la matriz de datos, Casos (Select o en el cuadro de dilogo correspondiente a Seleccionar cases), se activa la opcin Todos los casos (All cases).
ejemplo, si se eligen las variables SEXO (masculino, femenino) Y LIN_POB (pobre, no pobre) como criterios de segmentacin, se obtendrn los siguientes subgrupos: Masculino, Masculino, Femenino, Femenino, pobre no pobre pobre no pobre
Para cada uno de estos subgrupos, el SPSS efectuar el anlisis estadstico requerido. Antes de elegir las variables del listado, hay que seleccionar Comparar los grupos (Compare groups). Por defecto, la opcin activada es Analizar todos los casos (Analyze all cases). Para poder efectuar la segmentacin del archivo, hay que hacer clic con el mouse en la opcin Comparar los grupos (Compare groups). Las variables se seleccionan y se pasan al cuadro Grupos basados en... (Groups based on) haciendo clic en la flecha que separa los dos cuadros. Se puede optar por ordenar los casos segn los valores de la variable de segmentacin: Ordenar archivo segn variables de agrupacin (Sort the file by the grouping variables). Esta opcin es la predeterminada. En el caso en que no se desea ordenar los casos, se puede elegir la otra opcin El archivo ya est ordenado (File is already sorted). Una vez completadas las instrucciones, se las acepta. Para cancelarlas, se usa el botn Cancelar (Cancel), y para borrarlas, el botn Reestablecer (Reset). Al ejecutar la instruccin, a la derecha de la barra de estado aparece la palabra Segmentado (Split File On), lo cual significa que la segmentacin del archivo est activada. Ejemplo Se segmenta el archivo EPH2002.sav utilizando como criterio de segmentacin la variable SEXO, generando dos grupos: varones y mujeres. Para cada subgrupo de la variable SEXO se obtiene la distribucin de frecuencias de la variable LIN_POB. De esta manera se puede apreciar la incidencia de la pobreza en los dos grupos obtenidos en base a la segmentacin de la variable SEXO.
Cuadro N 8
SEXO Varn
Mujer
27
CONDICION DE ACTIVIDAD
28
6. Modificacin de variables
6.1. Recodificacin de variables
Esta opcin permite modificar el sistema de cdigos de las variables, es decir cambiar la asignacin de cdigos correspondientes a las distintas categoras de las variables. Tambin permite cambiar la asignacin de valores perdidos. Asimismo, permite agrupar una variable cuantitativa en intervalos de clase. A partir de este procedimiento se pueden obtener tambin variables dicotmicas. El SPSS ofrece dos opciones para recodificar las variables. Una opcin consiste en efectuar la recodificacin en la misma variable. Esto significa perder la variable original, ya que los nuevos cdigos designados sustituyen definitivamente a los cdigos viejos. La otra opcin es generar una nueva variable recodificada, manteniendo en la matriz la variable original. Este ltimo procedimiento es ms seguro, por ende se recomienda su utilizacin. A continuacin se detallan los procedimientos a emplear. Para activar la instruccin que permite recodificar las variables, generando nuevas variables, cuyos valores son recodificaciones de los valores de las variables ya existentes, se elige en el men Transformar (Transform) la opcin Recodificar en distintas variables... (Recode into different variables)
En la parte izquierda del mismo se visualiza el listado de variables de la matriz. Para efectuar la recodificacin de alguna variable, hay que seleccionarla de este listado y pasarla al cuadro (haciendo clic con el mouse en la flechita negra) llamado Var. de entrada Var. de resultado (Input Variable Output Variable). La variable a recodificar ser la variable de entrada. Variable de resultado (Output variable). Se sita en la parte derecha del cuadro de dilogo y permite asignar un nombre y una etiqueta a la nueva variable cuyos valores sern los valores recodificados de la variable original (la variable de entrada). Si (If...) El botn SI permite realizar recodificaciones condicionales, es decir, las recodificaciones se efectuarn solamente para aquellos casos
29
Valores antiguos y nuevos (Old and new values....). Al activar este botn, se podr modificar el sistema de cdigos de la variable original, estableciendo las correspondencias entre los cdigos de la variable original y el nuevo sistema de cdigos de la variable que se genera en el proceso de recodificacin. Los botones OK, Reset, Cancel, Pegar (Paste) (permite visualizar la sintaxis de comando de la instruccin) y Help.
6.1.1. Cambio de los cdigos de las categoras de una variable A continuacin, se describirn los procedimientos a efectuar en el caso en que se quiere cambiar el sistema de cdigos de una variable. Este procedimiento se suele utilizar al detectar algn error sistemtico en la introduccin de datos (por ejemplo, en vez de teclear 1, se tecle equivocadamente 11 en muchos casos) o en el caso en que se quieren combinar distintas categoras de la variable en una sola. Ejemplo: Recurriendo a la base de datos EPH2002.sav se recodifica la variable TAMANO (tamao del establecimiento) estableciendo el siguiente sistema de categoras para la nueva variable: TAMAO DEL ESTABLECIMIENTO VARIABLE ORIGINAL 1 2 3 4 5 6 7 8 9 1 persona 2 a 5 personas 6 a 15 personas 16 a 25 personas 26 a 50 personas 51 a 100 personas 101 a 500 personas 501 o ms No sabe TAMAO DEL ESTABLECIMIENTO NUEVA VARIABLE RECODIFICADA 1 1 a 15 personas
2 3 4 5 6
En el primer cuadro de dilogo se elige la variable que se quiere recodificar y se la pasa al cuadro Var. de entrada Var. de salida (Input Variable Output Variable), en donde aparecer: tamano ? . Dado que la recodificacin se hace en una nueva variable, hay que especificar el nombre de la misma. En el cuadro correspondiente a Nombre (Name) se introduce el nombre de la variable (Por ejemplo: Tam_rec). Debajo, en la casilla Etiqueta (Label) se puede especificar la descripcin de la nueva variable. Despus de haber especificado el nombre y la etiqueta, se acciona el botn Cambiar (Change). Seguidamente el nombre aparecer en el cuadro Var. de entrada Var. de resultado (Input Variable Output Variable): tamano tam_rec. Despus se hace clic en el botn Valores antiguos y valores nuevos (Old and new values....). El cuadro de dilogo correspondiente tiene el siguiente formato:
30
En el caso del ejemplo, primero se introduce en el cuadro Valor antiguo (Old value), en la casilla Valor (Value), el cdigo de la primera categora de la variable tamano, es decir, 1. Esta categora no se cambia, por ende en la parte derecha del cuadro de dilogo (Valor nuevo New value), en la casilla Valor (Value), se introduce tambin 1. Despus, se hace clic en el botn Aadir (Add), y en la casilla Antiguo Nuevo (Old New) aparece la correspondencia establecida entre el cdigo de la variable vieja y la nueva. Este procedimiento se repite para los otros cdigos. Dado que algunos cdigos se combinan, los cdigos 2 y 3 de la vieja variable corresponden al cdigo 1 de la nueva variable. Los cdigos 4 y 5 de la vieja variable se transforman en el cdigo 2 de la nueva variable, etc.
En el caso en que la mayora de los cdigos de la nueva variable coinciden con los cdigos viejos (no es el caso del ejemplo presentado arriba), se puede recurrir a la opcin Todos los dems valores (All other values) situado abajo en la parte izquierda del cuadro de dilogo. Una vez activada esta opcin, en la parte derecha del cuadro se debe elegir la opcin Copiar valores antiguos (Copy old values). Esto significa que se copiarn automticamente los cdigos de la vieja variable, sin ningn tipo de modificacin, excepto aquellos que hayan sido explcitamente modificados.
31
En este caso hipottico, los nicos cdigos que se modifican son el 4 y el 5, que se combinan en el cdigo 4 en la nueva variable. En este caso, una vez que se ha especificado la modificacin de los cdigos 4 y 5, para los dems se puede utilizar la opcin Todos los dems valores ------ Copiar valores antiguos.
En el caso en que la variable antigua contiene valores perdidos por el sistema, dichos valores se pueden recodificar, asignndoles valores numricos. En este caso se elige la opcin Perdido por el sistema (System-missing), en la parte izquierda del cuadro, y en la parte derecha se teclea el cdigo que se quiere asignar a los valores perdidos (comas). 6.1.2. Obtencin de variables con intervalos de clase En el caso en que se quiere transformar una variable cuantitativa discreta o continua en una variable con intervalos de clase, se procede de la siguiente manera:
Se examina la distribucin de frecuencias y luego se establece la cantidad de intervalos que se construirn y la amplitud de los mismos. Ms all de recurrir a frmulas estadsticas en la construccin de los intervalos, es importante tener en cuenta la naturaleza de la variable, su distribucin de frecuencias y el tipo de anlisis que se realizar.
32
En la parte izquierda del cuadro se elige la opcin Rango (Range). En la primera casilla se teclea el lmite inferior del intervalo y en la segunda, el lmite superior. En la parte derecha del cuadro se asigna el cdigo a este intervalo. Se pueden utilizar tambin las opciones: Del menor hasta (Lowest through...) y ....hasta el mayor (through highest). En el primer caso, se debe especificar el lmite superior del intervalo. Todos los valores iguales o menores al lmite superior formarn parte del intervalo. En el segundo caso, se debe especificar el lmite inferior. El intervalo contendr todos los valores iguales o mayores al lmite inferior.
Observacin: en la recodificacin se debe trabajar con los llamados intervalos de trabajo. 6.1.3. Recodificacin automtica de las variables cadena Los procedimientos presentados anteriormente se numricas y de cadena corta (hasta 8 caracteres). larga que exceden 8 caracteres, hay que recurrir automtica (Automatic Recode). Esta opcin Transform. pueden aplicar a las variables Para las variables de cadena a la opcin Recodificacin se encuentra en el men
Primero se elige la variable cadena a recodificar y se la pasa a la casilla Variable Nuevo Nombre (Variable New Name). Despus se debe especificar el nombre de la nueva variable en la casilla Nombre Nuevo (New Name). Al aceptarse la instruccin, se genera una nueva variable en la matriz de datos. En el archivo de resultados se podrn ver los cdigos asignados a las palabras de la variable cadena.
33
En la parte izquierda superior del cuadro se observa una casilla que lleva el nombre Variable de destino (Target Variable). En esta casilla hay que introducir el nombre de la nueva variable que se quiere generar. El botn Tipo y etiqueta (Type & Label). Permite definir el tipo y la etiqueta de la nueva variable generada. Tambin en la parte izquierda se nota un listado de todas las variables de la matriz de datos. Para poder calcular la nueva variable, hay que seleccionar las variables que se utilizarn en su construccin. Un cuadro que lleva el ttulo Expresin numrica (Numeric Expression), en donde se define la expresin numrica utilizada en la construccin de la nueva variable. Esta expresin numrica contiene
34
nmeros,
operadores
aritmticos,
Una lista de funciones (aritmticas, estadsticas, funciones lgicas, etc.) El botn Si (If...). Permite aplicar la generacin condicional de una nueva variable, es decir, crea la nueva variable solamente para aquellos casos que cumplen con las condiciones establecidas en el cuadro correspondiente a esta instruccin. Los botones OK, Pegar (Paste), Reset, Cancel y Help.
Para proceder a la construccin de la nueva variable, primero se teclea el nombre en el cuadro Variable de destino (Target variable). Despus se hace clic con el mouse en el cuadro de la expresin numrica, en donde hay que especificar la expresin numrica o frmula que se emplea en la construccin de la nueva variable. Para escribirla, se puede optar entre teclearla directamente, o recurrir a los componentes del cuadro de dilogo descritos anteriormente: el listado de variables, la calculadora y el listado de funciones. Para elegir los elementos requeridos, solamente hay que seleccionarlos con el mouse (en el caso del listado de variables y funciones) y hacer clic en las pequeas flechas negras del cuadro de dilogo, que permiten pasar los elementos seleccionados al cuadro de la expresin numrica. En el caso de la calculadora, se apunta con la flecha del mouse al nmero u operador necesitado, se aprieta el botn izquierdo del mouse, y el elemento pasar automticamente al cuadro que contiene la expresin numrica. Ejemplo Clculo de la variable Hacinamiento, utilizando los datos de la base EPH2002.sav. La variable hacinamiento se calcula dividiendo la cantidad de miembros en el hogar (POB_TOT) a la cantidad de habitaciones de uso exclusivo del hogar (HABITACI).
35
En el caso en que se desea obtener directamente una variable dicotmica que marque un corte en la variable continua Hacinamiento en un punto especificado (por ejemplo, se quiere calcular el indicador de hacinamiento utilizado en la construccin del ndice de Necesidades Bsicas Insatisfechas: se consideran hacinados los hogares con ms de 3 personas por cuarto), se puede especificar dicho punto de corte directamente en la frmula de clculo. Para el ejemplo del indicador de hacinamiento, se puede escribir: POB_TOT / HABITACI 3 Este procedimiento permite obtener directamente una variable dicotmica, en donde el cdigo 0 significa hasta 3 personas por cuarto, y el cdigo 1, ms de 3 personas por cuarto.
36
Para acceder a este procedimiento, se debe elegir en el men Datos (Data) la opcin Fundir archivos (Merge Files).
2000).sav ; y los casos restantes los hemos guardado en el archivo EPH 2002 (2001-3821).sav. Adems, la variable civil mantiene el nombre en el archivo EPH 2002 (1-2000).sav pero ha cambiado a est_civil en el archivo EPH 2002 (20013821).sav. As pues, aunque ambos archivos contienen las mismas variables (si bien una de ellas con nombre diferente), contienen casos distintos. Para este ejemplo entonces abra el archivo EPH 2002 (1-2000).sav. Luego acceda a la opcin: DataMerge Files Add cases A continuacin aparece un cuadro de dilogo donde se muestran los archivos que potencialmente se pueden unir. En este cuadro se debe sealar el archivo que aportar casos al archivo SPSS ya abierto, o sea el archivo EPH 2002 (20003821).sav. Luego se hace clic en la opcin Abrir. Si hubiese ms de un archivo que se quisiera fusiona con el archivo ya abierto, habra que repetir el procedimiento por cada archivo. Luego de haber seleccionado el archivo, aparece otro cuadro de dilogo, con los siguientes elementos:
un listado en la parte derecha que indica las variables del nuevo archivo ya fusionado (Variables in new working data file) un listado a la izquierda que muestra las variables desemparejadas (Unpaired variables)
Si la estructura de las matrices es idntica (principalmente en cuanto a los nombres de las variables), el listado de las variables desemparejadas se encuentra vaco. Cuando hay variables que no coinciden en las dos matrices, el programa seala dichas variables asignando un signo (*) o un signo (+) segn la procedencia. Para incluirlas en la matriz fusionada, deben seleccionarse y luego pasarse al cuadro de la derecha haciendo clic en el botn que tiene una flechita. Ahora bien, estas variables desemparejadas traern los valores de su matriz de origen, mientras que para los casos de la otra matriz tendrn valores perdidos por el sistema. En el caso de que la misma informacin se encuentre expresada bajo variables de distinto nombre (por ejemplo, civil y est_civil) deben casarse seleccionndose ambas (para seleccionar dos variables no contiguas mantenga oprimida la tecla Ctrl-) y luego pulsando el botn Casar (Pair), las variables sern agregadas como una sola en el archivo de datos de trabajo.
38
Si se quiere distinguir el origen de los casos (de qu matriz provienen), se debe tildar la opcin Indicar origen del caso en la variable (Indicate case source as variable). En la matriz unificada se generar una variable llamada source01, en donde los casos tendrn valores 0 si provienen del archivo de trabajo o 1 si provienen del otro archivo que se pretende fusionar con el archivo de trabajo. Al aceptar este cuadro de dilogo, seguidamente se genera el nuevo archivo, es decir, la matriz de datos fusionada. Esta matriz debe contener la sumatoria de los casos de los dos archivos fusionados, y no lleva nombre, por lo tanto el nuevo archivo se debe guardar (conviene darle un nombre que no coincida con los nombres de las sub-matrices fusionadas).
Matrices con la misma cantidad de casos, pero con variables diferentes Por ejemplo, una matriz contiene las variables demogrficas de una poblacin, mientras que otra matriz trae las variables ocupacionales de la misma poblacin. Para poder realizar cruzamientos entre los dos grupos de variables, se debe trabajar sobre una sola matriz unificada. Otro ejemplo es un relevamiento realizado en dos momentos temporales diferentes sobre los mismos casos, en donde se quieren relacionar los resultados previos con los posteriores. Matrices que traen cantidades diferentes de casos, y variables diferentes. En este caso, es muy importante que las unidades de anlisis se relacionen: por ejemplo, una matriz debe contener unidades de anlisis que incluyan las unidades de la otra matriz (hogar individuos; barrios viviendas; empresas personal de las empresas; escuelas - alumnos)
Para aplicar este procedimiento es necesario contar con la variable clave (key variables) en las matrices que se quieren unificar. La variable clave es un campo que designa con un cdigo nico los casos en ambos archivos, es decir, los casos idnticos en las dos matrices deben llevar el mismo cdigo nico. Esta variable debe tener el mismo nombre en ambas matrices y adems, los archivos se deben ordenar de manera ascendente segn la variable clave. Si los archivos no estn ordenados, el programa va a sealar esta situacin y no va a realizar la fusin. En el caso de matrices con la misma cantidad de casos, pero variables diferentes, se debe proceder de la siguiente forma: Data Merge Files Add variables Seguidamente aparece un cuadro de dilogo que indica las matrices que se quieren fusionar con el archivo abierto. Una vez seleccionado el archivo (si se quieren fusionar ms de dos archivos, el procedimiento se debe repetir por cada
39
nuevo archivo), se puede observar un nuevo cuadro de dilogo que contiene los siguientes elementos:
En la parte izquierda aparece el listado de las variables excluidas (Excluded variables). Por defecto, estas son las variables duplicadas en ambas matrices. Las variables del archivo de trabajo se identifican mediante un asterisco (*); las del archivo externo presentan un signo ms (+). Si se desea incluir en el archivo fusionado una variable excluida con un nombre duplicado, se debe cambiar su nombre y luego aadirla a la lista de las variables del archivo de trabajo. A la derecha se observa el listado de variables del nuevo archivo que resulta de la fusin de las dos matrices (New working data file). Por defecto, se incluyen en la lista todos los nombres de variable nicos que existan en ambos archivos de datos. El cuadro correspondiente a la variable clave (Key variable). Opciones para indicar alguna de las situaciones sealadas anteriormente (matrices con la misma cantidad de casos, matrices cuyas unidades de anlisis se relacionan de alguna forma). Entonces, si algunos casos de un archivo no se emparejan con los del otro archivo (es decir, si faltan casos en un archivo), se deben utilizar las variables clave para identificar y emparejar correctamente los casos de ambos archivos. Tambin se pueden utilizar las variables clave segn tablas de claves. Las variables clave deben tener los mismos nombres en ambos archivos. Ambos archivos deben estar ordenados segn el orden ascendente de las variables clave, y el orden de las variables de la lista Variables clave debe ser igual a su secuencia de ordenacin. Los casos que no se emparejan con las variables clave se incluyen en el archivo fusionado, pero no se funden con los casos del otro archivo. Los casos no emparejados slo contienen
40
valores para las variables del archivo de procedencia; las variables del otro archivo contienen el valor perdido por el sistema. En el caso en que las dos matrices tienen los mismos casos, primero se debe llevar la variable clave al cuadro sealado como Variables clave (Key variable). Luego se tilda la opcin Emparejar los casos para las variables clave en los archivos ordenados (Match cases on key variables in the sorted files). Inmediatamente se activan las tres opciones en la parte inferior del cuadro. En esta primera situacin se debe elegir la opcin Ambos archivos facilitan casos (Both files provide cases). Esto significa que los casos son los mismos en los dos archivos, por lo tanto, lo nico que se hace es adjuntar variables distintas sobre casos idnticos. Una vez generada la matriz nueva, se debe guardar con un nombre distinto a las matrices ya existentes. Si las matrices contienen unidades de anlisis relacionadas y traen casos diferentes, hay que observar cul de las dos matrices es la llamada tabla de claves (keyed table). Una tabla de claves es una matriz con un cdigo nico que se puede aplicar para ms de un caso en la otra matriz, es decir, la tabla de claves es el archivo que contiene las variables de la supraunidad. Por ejemplo, si se quiere unir una matriz de hogares con la matriz que contiene los miembros de cada hogar, la tabla de claves es la matriz de hogares. Siempre el archivo identificado como tabla de claves contiene menos casos que el otro archivo que se fusiona, al basarse en una unidad de anlisis de un nivel superior que se puede descomponer en sus miembros (hogares, escuelas, empresas, barrios, etc.). La tabla de claves puede ser el archivo de trabajo (el archivo abierto en el momento de la fusin), o el archivo externo (el archivo que se eligi en el primer cuadro de dilogo, luego de haber iniciado el procedimiento). Segn el caso, se debe tildar una de las siguientes opciones: El archivo externo es una tabla de claves (External file is keyed table) o El archivo de trabajo es una tabla de claves (Working data file is keyed table). Una vez tildada la opcin correspondiente, se acepta el cuadro de dilogo y seguidamente se genera un nuevo archivo, cuya unidad de anlisis son los componentes de la supraunidad (si la tabla de claves es una matriz de hogares que se une con una matriz de miembros de estos hogares, la matriz fusionada va a tener como unidad de anlisis los miembros de estos hogares). En cuanto a los valores de las variables que contena la matriz de la supraunidad, stos se replican para cada componente de la supraunidad. Por ejemplo, si en la matriz de hogares aparecen variables como ingreso total familiar, ocupacin del jefe de hogar, cantidad de miembros del hogar, en la nueva matriz, para cada miembro del mismo hogar se van a replicar los valores correspondientes al ingreso total familiar, a la ocupacin del jefe de hogar y a la cantidad de miembros del hogar.
41
En la parte izquierda aparece el listado de todas las variables de la matriz. A la derecha se observa un cuadro que se llama Variables de segmentacin (Break Variable). En este cuadro se debe ubicar la
42
variable que identifica los miembros de la supraunidad o grupo. Por ejemplo, para el caso arriba sealado, esta variable es la que numera correlativamente los miembros de cada hogar. Cuando se genera la nueva matriz con las variables agregadas, por cada grupo identificado mediante la variable de segmentacin se va a generar un solo caso.
El cuadro Variables agregadas (Aggregated Variables) contiene aquellas variables que se pretenden agregar, mediante alguna operacin aritmtica (sumatoria, media, nmero de casos, valor mximo, valor mnimo).
Al abrirse este cuadro de dilogo, primero se selecciona la variable de segmentacin y luego las variables que se quieren agregar. Por defecto, la operacin aritmtica predeterminada es la media de los valores del grupo. Por ejemplo, si se quiere calcular el ingreso per cpita familiar, conociendo los ingresos individuales de cada miembro del hogar, basta con ubicar la variable correspondiente al ingreso total en el cuadro Agregar variables (Summaries of Variable). En el caso en que se quiere cambiar la funcin aritmtica, se hace clic con el mouse en el botn Funcin (Function).
En este nuevo cuadro de dilogo se puede optar por diferentes funciones de resumen, adems de la media, como por ejemplo, el primer valor o el ltimo valor del grupo, el nmero de casos, la desviacin tpica, el valor mximo o el valor mnimo, etc.
43
Si se acepta el cuadro de dilogo, por defecto las variables nuevas se agregan al archivo de trabajo. Tambin existe la opcin de generar un nuevo archivo que contendr solamente las variables agregadas. Por defecto este archivo se llamar Aggr.sav. Para esto se debe tildar la opcin Crear nuevo archivo de trabajo que contiene slo las variables agregadas (Create new working file containing aggregated variables only). Este archivo contiene un caso por cada supraunidad que es resultado de la operacin de agregacin de datos. En el ejemplo sealado, el archivo Aggr.sav va a contener un valor por cada hogar que es el ingreso per cpita familiar. Si luego se desea conservar el nuevo archivo creado, se debe cambiar el nombre Aggr.sav, dado que el programa por defecto reemplaza este archivo con cada nueva agregacin de datos.
44
Bibliografa
Briones, G. Mtodos y Tcnicas de Investigacin para las Ciencias Sociales. Mxico, Limusa, 1982. Carrin Snchez, Juan Javier Manual de anlisis de datos. Madrid, Alianza Editorial, 1995. Hernndez Sampieri R., Fernndez Collado C., Baptista Lucio P. Metodologa de la Investigacin. Colombia, McGrawHill, 1994. Galtung J Teora y Mtodos de Investigacin Social, tomo I y II. Buenos Aires, Eudeba, 1973.
45