Sunteți pe pagina 1din 39

Anlisis estadstico bsico

en investigaciones
observacionales
Aplicacin de programas
informticos

Diseo del plan de anlisis estadstico para


estudios epidemiolgicos observacionales y
aplicacin de programas informticos a su
resolucin.

Mgter. Viviana Lifschitz


Ao 2014
UNIDAD TEMTICA 1

Unidad temtica 1: Variables y organizacin de la base de datos


Concepto de variables, poblacin, muestra, parmetro, unidad de anlisis y estadgrafos.
Manejo, recoleccin y calidad de los datos: Introduccin al manejo de datos y tipos de
variables. Tipos de variables: Variables cuantitativas discretas. Variables cuantitativas
continuas. Variables cualitativas o categricas. Caracterizacin de la informacin segn el
nivel de medicin de las variables. Variables de respuestas mltiples. Concepto informtico
de Base de Datos. Matriz de datos. Datos perdidos: su manejo. Cmo organizar los datos
para su posterior procesamiento estadstico. Diseo de la base de datos con Epiinfo y SPSS.

ndice

Introduccin 2
El proceso de anlisis estadstico 3
Variables 4
La base de datos 7
Datos perdidos 10
Uso de softwares en estadstica 12
Creacin de una base de datos o cuestionario con EpiInfo 13
Creacin de una base de datos con SPSS 22
La base de datos en Excel 36

1
Iniciamos este mdulo con la definicin de algunos conceptos
elementales y bsicos, y sin embargo pilares, para una comprensin
intuitiva y real de lo que es la Bioestadstica. Pretendemos introducir al
estudiante en los primeros pasos sobre el uso y manejos de datos
numricos y su organizacin en base de datos en los formatos adecuados
para su posterior anlisis con los programas informticos disponibles
para la evaluacin estadstica.

Empecemos pues con los conceptos:

Estadstica: disciplina que se ocupa de los mtodos y procedimientos para recoger,


clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la
variabilidad e incertidumbre sea una causa intrnseca de los mismos; as como de realizar
inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso
formular predicciones.

Hiptesis estadstica: es una conjetura sobre una o ms poblaciones.

Prueba de hiptesis estadstica: cuantifica el proceso de toma de decisiones. Estas


pruebas estadsticas miden el acercamiento del valor de la muestra (como un promedio) a la
hiptesis nula.

Poblacin: conjunto de individuos o elementos que cumplen ciertas propiedades comunes.


o Poblacin finita: es el caso del nmero de personas que llegan al servicio de
urgencia de un hospital en un da;
o Poblacin infinita: si por ejemplo estudiamos el mecanismo aleatorio que describe
la secuencia de caras y cruces obtenida en el lanzamiento repetido de una moneda al
aire.

Muestra: subconjunto representativo de una poblacin.

Unidad de anlisis: elemento mnimo de una poblacin y de una muestra, en tanto se lo


considera como poseedor de ciertas propiedades, atributos o caractersticas denominadas
variables que contienen cierta informacin que se desea estudiar.

2
Unidad de relevamiento: es la unidad que aporta la informacin para la construccin del
dato estadstico. Muchas veces coincide con la unidad de anlisis, pero en otros casos no.
Por ejemplo, si estamos interesados en estudiar caractersticas de los hogares (por ejemplo:
los ingresos del hogar, el nmero de miembros que trabajan, etc.) nuestro relevamiento lo
haremos sobre los miembros del hogar (les preguntaremos por sus ingresos y su condicin
laboral). Pero cuando construyamos los datos, tomaremos esa informacin y
caracterizaremos con ella al hogar. En este caso, la unidad de relevamiento son los
miembros del hogar pero la unidad de anlisis (que es la que queremos estudiar) son
hogares.

Parmetro: funcin definida sobre los valores numricos de caractersticas medibles de


una poblacin. Es una cantidad numrica calculada sobre una poblacin que resume los
valores que toma un atributo para todos sus individuos.

Estadstico o estimador es una variable aleatoria con una determinada distribucin, que es
una pieza clave en la inferencia estadstica: estimacin de parmetros y contraste de
hiptesis o pruebas de hiptesis de la informacin obtenida. Tambin se la define como la
funcin definida sobre los valores numricos de una muestra. Es una cantidad numrica
calculada sobre una muestra que resume su informacin sobre algn aspecto.

Variables: propiedades, rasgos o cualidades de los elementos de la poblacin o realidad


que puede ser determinada por observacin y puede mostrar diferentes valores de una
unidad de observacin a otra. Estos caracteres pueden dividirse en cualitativos y
cuantitativos.

Modalidad o categora: diferentes situaciones posibles de una variable. Las modalidades o


categoras deben ser a la vez exhaustivas y mutuamente excluyentes -cada elemento posee
una y slo una de las modalidades posibles.

Clases: conjunto de una o ms modalidades en el que se verifica que cada modalidad


pertenece a una y slo una de las clases.

Marca de clase: punto medio de un intervalo de modalidades de una variable cuantitativa.

Dato: valor particular de una variable. Todo dato tiene una estructura compuesta por tres
elementos: unidades de anlisis, variables y valores.

El proceso de anlisis estadstico

El proceso de investigacin, por lo general, tiene las siguientes etapas:


Planteamiento del problema
Definicin de los objetivos
Planteo de la hiptesis
Definicin de los datos a recoger (individuos o unidades de observacin y variables)

3
Determinacin de la poblacin y la muestra (mtodos de
muestreo)
Recoleccin de los datos
Descripcin de las datos obtenidos (ordenacin,
tabulacin, clasificacin)
Inferencia sobre la poblacin
Cuantificar la confianza de la inferencia (intervalos de
confianza, valor p)

Extrado de Bueno, Concepcin y Escudero, Toms: Apuntes de Estadstica para profesores. Curso 2006/2007.Instituto de
Ciencias de la Educacin. Universidad de Zaragoza

Veamos ms en detalle a las variables, que sern nuestro insumo bsico de la investigacin.

Las variables pueden clasificarse segn varios criterios:


o Relacin causa-efecto
o Naturaleza
o Escala

En base a la relacin causa efecto las variables se clasifican en:


Independiente: causa
Dependiente: efecto
Interviniente: acta entre la causa y el efecto

4
Segn su naturaleza sern:
Cualitativas: son magnitudes cuyos posibles valores no pueden representarse
numricamente, pero se pueden diferenciar, por ejemplo el grado de afectacin de
un paciente puede ser leve, grave y muy grave. Sus escalas de medida pueden ser
nominales u ordinales.
Cuantitativas: son magnitudes cuya variabilidad puede ser representada
numricamente y esta representacin no es un mero simbolismo, sino que es
producto de una medida que cumple criterios de una mtrica. Las variables
cuantitativas discretas tienen variabilidad finita, las cuantitativas continuas tienen
variabilidad terica infinita. (Cuidado: hay nmeros que son etiquetas, por ejemplo
un cdigo postal o un nmero telefnico son nmeros pero deberemos considerarlos
como variables cualitativas por su significado).

Segn la escala de medida:


Nominales (slo distinguen una categora de otra, sin un orden particular). Este
nivel se utiliza para clasificar los objetos y numerar las modalidades. El valor
numrico de una modalidad no cuantifica nada sobre ella, es decir que el nmero
asignado a una categora sea mayor o menor que el de otra, no refleja nada sobre las
propiedades del objeto, sino simplemente el hecho de que son distintas. De acuerdo
con la zona en que viven, la poblacin de un pas puede dividirse en urbana,
suburbana y rural; las cuales podran llamarse clases 1,2 y 3.
La escala nominal establece una relacin de equivalencia y todos los eventos u
objetos que pertenecen a una categora tienen una caracterstica igual. El nmero de
eventos que pertenecen a una caracterstica se llama frecuencia.

Ordinales (se diferencian las categoras y tienen un orden). Cuando las propiedades
de los objetos pueden ser ordenadas segn algn criterio. Esta escala establece una
relacin de orden entre las variables. Los nmeros por su propiedad de orden nos
permite establecer relaciones tales como: mayor que; igual a; menor que; ms
importante; etc. El nivel ordinal da informacin acerca de la organizacin de las
categoras, pero no indica la magnitud de la diferencia entre los nmeros.
El valor numrico se usa para indicar en orden relativo el lugar que ocupa el
elemento. Por ejemplo, ordenar de la ms importante a la menos importante, cada
una de las necesidades de empleo, vivienda, salud, servicios pblicos y educacin
utilizando 1 para la ms importante y as sucesivamente en orden de importancia.

Intervalo (distincin + orden + distancia) En la escala de la variable de intervalo el


cero y la unidad de medicin son arbitrarios. En contraste con el nivel ordinal, la
medicin por intervalos indica el orden de las categoras y la diferencia entre ellas.
Emplean unidades de medicin tales como das, metros, horas.

Razn (distincin + orden + distancia) En la escala de la variable de razn el cero


indica ausencia real de la propiedad medida.

5
Estas clasificaciones definirn que tipo de estadsticos y pruebas podremos
utilizar para la inferencia estadstica.

Variables de la matriz de datos: son las columnas o tems en la base de datos.

Variables de la investigacin: son las propiedades medidas y que forman parte de la


hiptesis o que se pretenden describir. En ocasiones requieren un nico tem o indicador
para ser medidas, pero en otras se necesitan varios tems para tal finalidad (variable
compuesta).

El valor de las variables simples se obtiene por medida directa, por ejemplo la glucemia
basal, la tensin arterial sistlica, etc.; las variables complejas se suelen obtener a partir de
varias variables simples, como la calidad de vida, grado de invalidez, etc.

Cuando la variable es compuesta, los tems que la integran pueden estar dispuestos en la
matriz de datos en columnas continuas o no. Mediante los programas o software
estadsticos se pueden crear estas variables a travs de comandos como transformar y/o
calcular por ejemplo.

Operacionalizacin de variables: es el procedimiento por el cual se traduce del nivel


conceptual (abstracto) al nivel operativo (concreto), es decir, se establecen los mecanismos
de observacin y medicin. Se deben aclarar las dimensiones o categoras posibles de la
variable.

En algunos casos las variables tienen un significado muy concreto, utilizado a nivel
mundial, por lo que no requieren de mayores detalles, por ejemplo sexo, rganos del cuerpo
humano. En otros casos, variables con un significado aparentemente obvio, no lo son tanto.
Por ejemplo estado civil (lo podramos operacionalizar con las categoras soltero, casado y
divorciado, pero entonces en qu categora incluiramos a un individuo divorciado que se
ha vuelto a casar?, deberemos especificar las categoras y el momento en que las
consideraremos para que las modalidades sean mutuamente excluyentes) o estado de salud
de un paciente (un mismo paciente estudiado por varios mdicos seguramente obtendr
puntuaciones diferentes sobre su estado de salud).

Los valores de las variables tienen dos componentes, uno objetivo con poca variabilidad
intra e interobservador; y otro subjetivo, con mayor variabilidad interobservador. Por
ejemplo, para una variable como el grado de ansiedad de una persona el componente
subjetivo ser importante, por el contrario, la altura de una persona es una variable con un
componente subjetivo pequeo.

El xito de un estudio cientfico depende en gran parte de una adecuada eleccin de las
variables. Estas deben ser las mejores posibles para demostrar la hiptesis y lo ms
objetivas que se pueda, con variabilidades intra e interobservador mnimas.
6
Una vez recolectados los datos, estos deben codificarse en smbolos o nmeros para poder
analizarlos con el ordenador.

Codificar: significa asignar a los datos cualitativos un valor numrico o


smbolo que los represente para su ingreso a la base de datos en el
ordenador.

Cuando los individuos no responden a un itm, contestan incorrectamente (por ejemplo


marcan opciones mutuamente excluyentes) o no puede registrarse la informacin de una
medida, se crean una o varias categoras para identificar los valores perdidos y se les asigna
un cdigo.

Valores perdidos: son aquellos valores faltantes en la base de datos por no


haberse obtenido o por error en el registro.

Lo adecuado es que los valores perdidos no superen el 5% del total de datos posibles.

Asimismo, en ocasiones tendremos preguntas que no aplican a ciertos participantes, en


estas circunstancias deber crearse un cdigo para esta categora tambin.

En el trabajo de investigacin, sobre todo cuando se realiza en equipo, es importante definir


claramente las categoras y cdigos de cada variable para ingresarlos correctamente a la
base de datos y facilitar su anlisis posterior.

Variables de respuesta mltiple: son todas aquellas preguntas de un cuestionario en el


cual el encuestado puede elegir ms de una opcin de respuesta. En este caso, al disear la
base de datos, se tendrn que crear tantas variables o columnas como opciones de respuesta
tenga la pregunta. Adems su procesamiento con los programas informticos ser diferente
de las variables en que se puede optar por una sola opcin en la respuesta.

La base de datos

Una vez recopilados los datos por las tcnicas experimentales y/o instrumentos de medicin
diseados para este fin, los datos deben ser transferidos a una matriz y guardados en un
archivo, para poder proceder a su anlisis posterior. El procesamiento de datos se lleva a
cabo por computadoras, aplicando software estadsticos especficos.

Una base de datos es el conjunto de informaciones almacenadas en un soporte legible por


computadoras y organizadas internamente por registros (formado por todos los campos
referidos a una entidad o caso) y campos (cada uno de los elementos que componen un
registro).

7
En la matriz de datos se registran todos los valores observados, generalmente en un
programa como Excel que puede ser ledo por todos los softwares estadsticos, permitiendo
as su uso combinado:

En la matriz de datos, n es el nmero de registros o participantes, S (filas) corresponde a


cada caso o unidad de anlisis, V (columnas) a las variables y D (celdas) al dato o valor que
asume la variable de esa columna para la unidad de anlisis de esa fila. Esta es la forma en
que deben disponerse los datos para ser procesados con cualquiera de los softwares
estadsticos.

Por ejemplo, en una investigacin poblacional podramos construir la siguiente matriz de


datos con su referencia (cdigos asignados a cada categora de las variables):

8
La forma misma de la matriz y la definicin, conducen a los tres Principios de la
recoleccin de datos establecidos por Galtung, J.:

1) Principio de Comparabilidad: aqu se afirma que, cada combinacin de Unidad de


Anlisis/Variable debe tener sentido, esto es, debe ser verdadero o falso que dicha
combinacin brinde un determinado Valor. Por medio de este principio se hacen
comparables las variables, las unidades y los valores o respuestas. Por ejemplo, si las
unidades son personas y una variable es la tasa de analfabetismo, entonces cualquier
combinacin no ser ni verdadera ni falsa, simplemente no tiene sentido.

Por lo tanto, las variables han de ser de hecho, en la matriz, variables de las unidades
investigadas. Por otro lado, las unidades slo pueden ser comparadas con sentido respecto
de valores de concretizacin sobre la variable correspondiente. Afirmaciones como "la
unidad n1 es de sexo masculino, mientras que la unidad n2 tiene un alto grado de
participacin poltica no tienen de sentido."

2) Principio de clasificacin: implica que el sistema de categoras de una variable debe


cumplir con dos requisitos lgicos: debe ser exhaustivo y excluyente. Exhaustivo en el
sentido que ninguna unidad quede fuera del sistema de categoras y excluyente, de manera
que cada unidad asuma un valor y slo uno en cada variable. En este ltimo requisito puede

9
haber excepciones, por ejemplo, en el caso de una pregunta con respuesta de eleccin
mltiple, ya sea de nmero limitado o no limitado.

3) Principio de Integridad: mientras que los dos principios anteriores aluden a la lgica de
la matriz, este principio se refiere al trabajo emprico de llenar la matriz y dice simplemente
esto: no dejar ninguna celda vaca. Lo que antecede significa que hay que intentar que la
cantidad de celdas sin informacin, es decir, "No sabe"/"No contesta", se mantenga lo ms
baja posible. Sin embargo, en algunos casos, por ejemplo, en un estudio acerca del "Nivel
de informacin acerca de las formas de contagio del SIDA", las alternativas mencionadas
anteriormente resultan ser muy pertinentes, ya sea porque no hay conocimiento acerca del
tema, no se tiene una opinin formada, no se quiere contestar o porque simplemente hay
temas que no despiertan inters en la gente.

Una vez completa la matriz de datos se debe evaluar su calidad. Uno de los procedimientos
consiste en revisar la cantidad de datos faltantes por fila y/o columna. La recomendacin
general es que la falta de datos no supere el 5% de los datos posibles, pero esto depender
del instrumento utilizado en la recoleccin, por ejemplo, en los censos el margen de
tolerancia es mayor que en un muestreo, o en variables que corresponden a informacin
personal sensible tambin es ms elevado el nivel de prdida aceptado.

La calidad de los datos engloba bsicamente:


Precisin: definida como la diferencia entre el valor registrado y el valor verdadero.
Plenitud: se refiere al grado en que los datos estn presentes en la matriz.
Actualidad: los datos provenientes de estudios de sucesos dinmicos cambian con el
tiempo, provocando una disminucin de precisin.
Consistencia: significa que dos o ms cosas no entren en conflicto entre s.

Los problemas empiezan a aparecer cuando se olvida que un ordenador no


es ms que un tonto veloz Cobos 1995.

Con datos incompletos o perdidos hacemos referencia a la falta de informacin sobre los
sujetos que componen la muestra.
La inferencia estadstica con datos perdidos es un
problema muy importante de la investigacin aplicada
en general. Bsicamente son tres las dificultades
fundamentales en el uso de matrices con datos
perdidos. En primer lugar, si los casos con missing
son diferentes a los casos completos, las estrategias
comunes de tratamiento de este problema presentan
un importante sesgo. En segundo lugar, la existencia de datos perdidos generalmente
implica una importante prdida de informacin, por lo que las estimaciones de parmetros
pueden ser ineficientes. Finalmente, las tcnicas estadsticas disponibles estn diseadas
para datos completos, por lo que, la sola presencia de datos perdidos perjudica
notablemente el anlisis.
10
Los patrones de datos perdidos pueden ser:
Aleatorio (no son funcin de alguna variable)
Patrn dependiente de una variable (por ejemplo falta de respuesta total o parcial a
una variable en particular)

Ante los casos perdidos habr que establecer algunos supuestos sobre la ausencia de
informacin y decidir si se eliminan del anlisis o se reemplazan utilizando algn mtodo
tal como la interpolacin.

Algunas de las soluciones habitualmente utilizadas en la prctica ante una matriz de datos
con valores perdidos son:
Anlisis de casos completos: en esta situacin se descartan todos los casos que
tengan alguna variable sin valor. Segn la cantidad de datos faltantes y la relacin
entre casos completos e incompletos podra tener un sesgo importante y falta de
precisin de las estimaciones si los faltantes no son una muestra aleatoria de la
muestra completa. Su ventaja es la simplicidad y que todos los estadsticos se
calculan utilizando el mismo tamao muestral, lo que permite su comparacin.
Anlisis de casos disponibles: utiliza para cada clculo toda la informacin
disponible en la muestra. Implica en general trabajar con distintos tamaos
muestrales para cada variable.
Mtodos de imputacin simple: sustituyen los datos faltantes por valores estimados
a partir de la informacin suministrada por la muestra (por ejemplo imputacin
mediante la media o imputacin mediante regresin), pero tienden a subestimar la
variabilidad real de la muestra.
Mtodos basados en verosimilitudes: se basan en funciones de verosimilitud, son
por lo tanto mtodos bajo los que subyace un modelo probabilstico (por ejemplo
algoritmo EM y mtodo de imputacin mltiple).

Si la proporcin de datos faltantes es baja en cada variable del estudio y se asume que los
valores perdidos son aleatorios, esto no generar un problema importante en el anlisis
estadstico univariado, por el contrario, si se debe realizar un anlisis multivariado, esto
podra generar un grave problema (no podra incluirse
en el anlisis una gran proporcin de la muestra). Sin
importar cual sea el mtodo elegido para manejar los
valores perdidos, lo ideal es explicitarlo y tenerlo en
cuenta al momento de sacar conclusiones de los
anlisis llevados a cabo.

11
Uso de softwares en estadstica

Como obtener los programas


Epi Info es una serie de programas diseados por el CDC para uso por los profesionales de
salud pblica en la investigacin de brotes epidmicos, la vigilancia en salud pblica y
otras tareas. Incluye un gestor de bases de datos relacionales as como un programa para
realizar el anlisis estadstico epidemiolgico de los datos.
Se puede descargar en forma gratuita desde la pgina del CDC:
EpiInfo versin 3.5.4 http://wwwn.cdc.gov/epiinfo/html/prevVersion.htm
EpiInfo versin 7 http://wwwn.cdc.gov/epiinfo/7/index.htm.

Epidat es un programa de libre distribucin desarrollado por el Servizo de Epidemioloxa


de la Direccin Xeral de Innovacin e Xestin da Sade Pblica de la Consellera de
Sanidade (Xunta de Galicia) con el apoyo institucional de la Organizacin Panamericana
de la Salud (OPS-OMS). Por ser de libre distribucin no solo se permite, sino que se
agradece su difusin y cualquier tipo de crtica o comentario que ayude a mejorar futuras
versiones.
Se puede descargar de forma gratuita de:
Epidat 3: http://www.sergas.es/MostrarContidos_N3_T01.aspx?IdPaxina=62715
Epidat 4: http://www.sergas.es/MostrarContidos_N3_T01.aspx?IdPaxina=62714
La versin 4 an no cuenta con todos los mdulos de anlisis por lo que trabajaremos con
la versin 3 en la mayora de los mdulos.

SPSS es un programa estadstico desarrollado por IBM. Para adquirir el programa pueden
comunicarse con los representantes en Argentina a travs del siguiente enlace:
http://www.spss.com.ar/es/contacto/

En este curso utilizaremos los programas Epi Info versin 7, Epidat 3 y SPSS 20.

12
EL EDITOR DE DATOS (creacin del cuestionario o base de datos)

Mdulo MAKE VIEW o CREAR VISTA para el diseo de instrumentos de


recoleccin y creacin de base de datos en Epi Info.

El primer paso en el uso de Epi Info es el diseo del cuestionario para la recoleccin de
datos. Para ello, al abrir el programa, deberemos seleccionar la opcin crear formulario o
make view

Los formularios y cuestionarios de Epi Info se llaman vistas. Una o varias vistas
constituyen un Proyecto (las vistas corresponden a las hojas en Excel, y el Proyecto al
archivo de Excel). Al presionar el botn Make View (Crear formularios) se abrir la
siguiente ventana de trabajo

13
Para iniciar, en la opcin File o archivo habr que elegir New, o directamente en la
barra de herramientas seleccionar Proyecto nuevo. Se abrir la ventana Proyecto nuevo
en la cual deber ingresar el nombre del archivo:

*1

*2

*1

Introducir el nombre del proyecto y del formulario (*1). En el tem localizacin, haciendo
click en el botn a la derecha (*2), puede abrir el navegador y seleccionar en que carpeta se
guardar el archivo. (Si no selecciona una carpeta en particular el archivo se guardar en la
carpeta Projects dentro de la carpeta EpiInfo7 con la extensin prj.) Luego aceptar
para que queden grabadas estas opciones.

Tendremos entonces dos zonas de trabajo: a la izquierda el explorador del proyecto (*1)
(donde podemos seleccionar el tipo de variable a incorporar) y a la derecha el rea de
trabajo (*2) donde crearemos el cuestionario o base de datos.

14
*2

*1

1.- El panel Explorador del proyecto permite insertar pginas y variables en el


formulario.
Ahora, ya puede aadir las variables a su cuestionario haciendo doble click en el tipo de
variable que desea aadir, en explorador del proyecto.

O aadirla pulsando el botn derecho del ratn sobre el rea de la derecha de la pantalla.

Cada vez que haga esto aparecer una ventana de definicin de campo y al final se crear
un campo (correspondiente a la variable elegida) en la posicin donde hizo clic con el
botn derecho.

15
En la opcin Nuevo campo o Field Definition deber seleccionar el tipo de variable a
agregar (texto, nmero, fecha, lgicos Si/No, etc.).

*1

*2

Para cada campo escriba la Pregunta o texto (*1) (nombre con el cual aparecer en la vista
del cuestionario) y siga las instrucciones de los comentarios (si hay alguna). En nombre de
campo (*2) ingrese el nombre o abreviatura con que se identificar la variable al hacer las
tablas o grficos.

La opcin multilineal de tipo de variable permite ingresar grandes cantidades de texto. La


opcin cuadrcula o tabla es til para los casos en que se tendrn mediciones repetidas de
una variable. En la opcin checkbox, al analizar, los valores tildados se toman como (+)

16
y los no tildados como (-). El tipo de variable Option se utiliza cuando tenemos una
variable cualitativa con valores mutuamente excluyentes.

Con required se indica que el campo no puede saltearse y debe ingresarse siempre un
valor para poder continuar con el ingreso de datos.

Con una variable del tipo Date o fecha o Nmero, en la pestaa de Pattern (patrones)
deber seleccionar el formato de fecha con que se introducirn los datos. Para el caso de
variables numricas, tambin deber indicar cuantas cifras y decimales tendr.

17
Con valores legales puede programar las opciones de respuesta siguiendo los pasos que
detallamos a continuacin:
Elija la opcin Legal values en el explorador del proyecto

En la lnea de origen de datos haga click sobre el botn a la derecha

Seleccione Crear nuevo

18
Escriba los valores, uno por rengln (por ejemplo para Sexo: varn, mujer, no
especificado). Pulse enter despus de cada uno para que se habilite una nueva
lnea.

Aceptar u ok
Para finalizar cada campo pulse Aceptar u OK.

19
Para los valores legales puede utilizar plantillas ya hechas en el mismo archivo. Para ello
seleccione Use existing table y se abrir una nueva ventana con la lista de las opciones
disponibles:

Al finalizar con legal values la variable tendr una pestaa desplegable con las opciones
de valores permitidos para ingresar en la base de datos:

Una vez ingresadas todas las variables con las opciones de la pestaa Formato puede
modificar el aspecto del cuestionario:

Por ejemplo, con fondo puede seleccionar otro color o una imagen como fondo del
formulario:

20
Al finalizar el ingreso de todas las variables de la vista o cuestionario y modificar el
formato, quedar semejante a la siguiente imagen:

Por defecto todos los archivos de Epi Info se guardan en la carpeta EpiInfo 7 Projects
en la misma ubicacin en que se descarg el programa al instalarlo.

21
Manejo de SPSS

Apertura del programa

Con el programa SPSS es posible abrir un archivo de datos SPSS Statistics previamente
guardado, leer una hoja de clculo, una base de datos o un archivo de datos de texto, o
introducir los datos directamente en el Editor de datos.

El primer paso ser acceder al programa desde el men Inicio o desde el cono de acceso
directo, si lo tenemos en el escritorio.
Se abrir una ventana como la siguiente, en la que puede elegir un archivo preexistente o,
en el caso de crear un archivo nuevo deber simplemente seleccionar aceptar.

22
Ver entonces la ventana Abrir datos, en la que puede nuevamente seleccionar un archivo
ya existente con la extensin .sav correspondiente a los archivos en formato SPSS u otro
formato

23
Para crear el archivo nuevo, cierre la ventana Abrir datos para acceder a la siguiente
ventana:

Variable
s
Casos

24
Esta es la ventana del Editor de datos, con las Vista de datos y vista de
variables.
Cuando est activada la Vista de datos, las filas corresponden a los casos y las columnas
a las variables. En cambio, en la Vista de variables, las filas corresponden a las variables
y las columnas a sus caractersticas (nombre, clase, etc).

Caractersticas
de la Variable

Variable

Para abrir archivos de datos ya preparados, desde esta ventana, elija en los mens:
Archivo > Abrir > Datos...

25
En el cuadro de dilogo Abrir datos, seleccione el archivo que desea abrir. Pulse en Abrir.

El Editor de datos proporciona un mtodo prctico (al estilo de las hojas de clculo) para la
creacin y edicin de archivos de datos.
El Editor de datos proporciona, entonces, dos ventanas:
Vista de datos. Esta vista muestra los valores de datos reales o las etiquetas de valor
definidas.
En la pgina de visor de datos cada columna corresponde a una variable y las filas a los
casos.

26
Vista de variables. Esta vista muestra la informacin de definicin de las variables, que
incluye las etiquetas de la variable definida y de valor, tipo de dato (por ejemplo, cadena,
fecha o numrico), nivel de medida (nominal, ordinal o de escala) y los valores perdidos
definidos por el usuario.
En ambas vistas, se puede aadir, modificar y eliminar la informacin contenida en el
archivo de datos.
En la vista de variables las columnas corresponden a las caractersticas de cada variable.

27
Estando en la vista de variables en la columna Nombre deber ingresar la denominacin
de la variable (preferentemente en formato corto o una abreviatura, sin dejar espacios en
blanco). Al pasar a la casilla Tipo, se abrir un cuadro de dilogo en el que deber
seleccionar la clase de variable en el listado de la izquierda (el trmino cadena
corresponde a las variables de texto) y, a la derecha, se abrirn diferentes opciones segn la
clase de variable seleccionada:

28
El ancho o cantidad de caracteres puede seleccionarlos en la ventana de Tipo de variable
o en la tercer columna.
En la columna Etiqueta introduzca el nombre con que aparecer la variable en los grficos.
En el caso de las variables de texto o cadena puede establecer valores predeterminados
(semejantes a los valores legales en EpiInfo). Para ello en la columna valores se abrir el
cuadro de dilogo Etiquetas de valor:

Escriba el cdigo o valor y el rotulo de la etiqueta, por ejemplo: 1 y Mujer:

29
Haga click en aadir y contine aadiendo las etiquetas:

O por ejemplo, para una variable Como es su vida?, podra usar etiquetas como las
siguientes:

30
En la siguiente columna Perdidos, podr ingresar el cdigo con el cual identificar los
valores perdidos (no todas las variables lo necesitan) (Recordemos que los valores perdidos
corresponden a las casillas de nuestra base de datos en que no se han ingresado valores,
porque no pudieron obtenerse. Es importante diferenciarlos para que el programa los tenga
en cuenta al realizar los anlisis estadsticos):

31
32
Finalmente, en la columna Medida deber especificar si la variable es de escala, nominal
u ordinal:

Por ejemplo, luego de ingresar todas las variables en la Vista de variables obtendr la
siguiente ventana:

Y en la vista de datos, al ingresarlos, obtendr:

33
En la Vista de datos, al hacer click en el botn Etiquetas de valor

se visualizarn los valores en vez de los cdigos.

34
Si hacemos click
en el botn
etiquetas se
visualizarn los
valores en lugar
de los cdigos.

Una vez armada la base de datos deber guardarla seleccionando en Archivo, guardar
como:

En la siguiente ventana deber introducir el nombre del archivo y seleccionar la carpeta en


que lo guardar:

35
En SPSS los archivos de base de datos tienen la extensin .sav y los de resultado la
extensin .spo.

La base de datos en Excel

Las bases de datos pueden crearse en los programas que utilizaremos para analizarlas o en
un archivo de Excel (la ventaja de organizarlo en Excel es la posibilidad de utilizarlo en
cualquier ordenador y de analizarlo con varios programas, utilizando las opciones que nos
resulten ms cmodas o mejores de Epi Info y SPSS, u otros programas).

Al crear la base de datos en Excel, para que podamos importarla a Epi Info o SPSS
tendremos que tener los siguientes recaudos:
En la primer fila de la hoja de clculo deber ingresar los nombres de las variables
A cada variable le corresponder una columna, excepto en el caso de variables de
respuesta mltiple, en las que tendr que crear tantas columnas como respuestas
posibles tenga
Puede utilizar varias hojas de clculo en un archivo, pero recuerde identificarlas
adecuadamente, cambiando el nombre en la pestaa inferior, para poder determinar
sin inconvenientes cual es la que necesitar importar al programas SPSS o Epi Info
para su anlisis

36
No se olvide de aclarar el formato de celda en las filas correspondientes a los casos
(si son celdas con texto, nmero, fecha, etc).

37
38

S-ar putea să vă placă și