Documente Academic
Documente Profesional
Documente Cultură
en investigaciones
observacionales
Aplicacin de programas
informticos
ndice
Introduccin 2
El proceso de anlisis estadstico 3
Variables 4
La base de datos 7
Datos perdidos 10
Uso de softwares en estadstica 12
Creacin de una base de datos o cuestionario con EpiInfo 13
Creacin de una base de datos con SPSS 22
La base de datos en Excel 36
1
Iniciamos este mdulo con la definicin de algunos conceptos
elementales y bsicos, y sin embargo pilares, para una comprensin
intuitiva y real de lo que es la Bioestadstica. Pretendemos introducir al
estudiante en los primeros pasos sobre el uso y manejos de datos
numricos y su organizacin en base de datos en los formatos adecuados
para su posterior anlisis con los programas informticos disponibles
para la evaluacin estadstica.
2
Unidad de relevamiento: es la unidad que aporta la informacin para la construccin del
dato estadstico. Muchas veces coincide con la unidad de anlisis, pero en otros casos no.
Por ejemplo, si estamos interesados en estudiar caractersticas de los hogares (por ejemplo:
los ingresos del hogar, el nmero de miembros que trabajan, etc.) nuestro relevamiento lo
haremos sobre los miembros del hogar (les preguntaremos por sus ingresos y su condicin
laboral). Pero cuando construyamos los datos, tomaremos esa informacin y
caracterizaremos con ella al hogar. En este caso, la unidad de relevamiento son los
miembros del hogar pero la unidad de anlisis (que es la que queremos estudiar) son
hogares.
Estadstico o estimador es una variable aleatoria con una determinada distribucin, que es
una pieza clave en la inferencia estadstica: estimacin de parmetros y contraste de
hiptesis o pruebas de hiptesis de la informacin obtenida. Tambin se la define como la
funcin definida sobre los valores numricos de una muestra. Es una cantidad numrica
calculada sobre una muestra que resume su informacin sobre algn aspecto.
Dato: valor particular de una variable. Todo dato tiene una estructura compuesta por tres
elementos: unidades de anlisis, variables y valores.
3
Determinacin de la poblacin y la muestra (mtodos de
muestreo)
Recoleccin de los datos
Descripcin de las datos obtenidos (ordenacin,
tabulacin, clasificacin)
Inferencia sobre la poblacin
Cuantificar la confianza de la inferencia (intervalos de
confianza, valor p)
Extrado de Bueno, Concepcin y Escudero, Toms: Apuntes de Estadstica para profesores. Curso 2006/2007.Instituto de
Ciencias de la Educacin. Universidad de Zaragoza
Veamos ms en detalle a las variables, que sern nuestro insumo bsico de la investigacin.
4
Segn su naturaleza sern:
Cualitativas: son magnitudes cuyos posibles valores no pueden representarse
numricamente, pero se pueden diferenciar, por ejemplo el grado de afectacin de
un paciente puede ser leve, grave y muy grave. Sus escalas de medida pueden ser
nominales u ordinales.
Cuantitativas: son magnitudes cuya variabilidad puede ser representada
numricamente y esta representacin no es un mero simbolismo, sino que es
producto de una medida que cumple criterios de una mtrica. Las variables
cuantitativas discretas tienen variabilidad finita, las cuantitativas continuas tienen
variabilidad terica infinita. (Cuidado: hay nmeros que son etiquetas, por ejemplo
un cdigo postal o un nmero telefnico son nmeros pero deberemos considerarlos
como variables cualitativas por su significado).
Ordinales (se diferencian las categoras y tienen un orden). Cuando las propiedades
de los objetos pueden ser ordenadas segn algn criterio. Esta escala establece una
relacin de orden entre las variables. Los nmeros por su propiedad de orden nos
permite establecer relaciones tales como: mayor que; igual a; menor que; ms
importante; etc. El nivel ordinal da informacin acerca de la organizacin de las
categoras, pero no indica la magnitud de la diferencia entre los nmeros.
El valor numrico se usa para indicar en orden relativo el lugar que ocupa el
elemento. Por ejemplo, ordenar de la ms importante a la menos importante, cada
una de las necesidades de empleo, vivienda, salud, servicios pblicos y educacin
utilizando 1 para la ms importante y as sucesivamente en orden de importancia.
5
Estas clasificaciones definirn que tipo de estadsticos y pruebas podremos
utilizar para la inferencia estadstica.
El valor de las variables simples se obtiene por medida directa, por ejemplo la glucemia
basal, la tensin arterial sistlica, etc.; las variables complejas se suelen obtener a partir de
varias variables simples, como la calidad de vida, grado de invalidez, etc.
Cuando la variable es compuesta, los tems que la integran pueden estar dispuestos en la
matriz de datos en columnas continuas o no. Mediante los programas o software
estadsticos se pueden crear estas variables a travs de comandos como transformar y/o
calcular por ejemplo.
En algunos casos las variables tienen un significado muy concreto, utilizado a nivel
mundial, por lo que no requieren de mayores detalles, por ejemplo sexo, rganos del cuerpo
humano. En otros casos, variables con un significado aparentemente obvio, no lo son tanto.
Por ejemplo estado civil (lo podramos operacionalizar con las categoras soltero, casado y
divorciado, pero entonces en qu categora incluiramos a un individuo divorciado que se
ha vuelto a casar?, deberemos especificar las categoras y el momento en que las
consideraremos para que las modalidades sean mutuamente excluyentes) o estado de salud
de un paciente (un mismo paciente estudiado por varios mdicos seguramente obtendr
puntuaciones diferentes sobre su estado de salud).
Los valores de las variables tienen dos componentes, uno objetivo con poca variabilidad
intra e interobservador; y otro subjetivo, con mayor variabilidad interobservador. Por
ejemplo, para una variable como el grado de ansiedad de una persona el componente
subjetivo ser importante, por el contrario, la altura de una persona es una variable con un
componente subjetivo pequeo.
El xito de un estudio cientfico depende en gran parte de una adecuada eleccin de las
variables. Estas deben ser las mejores posibles para demostrar la hiptesis y lo ms
objetivas que se pueda, con variabilidades intra e interobservador mnimas.
6
Una vez recolectados los datos, estos deben codificarse en smbolos o nmeros para poder
analizarlos con el ordenador.
Lo adecuado es que los valores perdidos no superen el 5% del total de datos posibles.
La base de datos
Una vez recopilados los datos por las tcnicas experimentales y/o instrumentos de medicin
diseados para este fin, los datos deben ser transferidos a una matriz y guardados en un
archivo, para poder proceder a su anlisis posterior. El procesamiento de datos se lleva a
cabo por computadoras, aplicando software estadsticos especficos.
7
En la matriz de datos se registran todos los valores observados, generalmente en un
programa como Excel que puede ser ledo por todos los softwares estadsticos, permitiendo
as su uso combinado:
8
La forma misma de la matriz y la definicin, conducen a los tres Principios de la
recoleccin de datos establecidos por Galtung, J.:
Por lo tanto, las variables han de ser de hecho, en la matriz, variables de las unidades
investigadas. Por otro lado, las unidades slo pueden ser comparadas con sentido respecto
de valores de concretizacin sobre la variable correspondiente. Afirmaciones como "la
unidad n1 es de sexo masculino, mientras que la unidad n2 tiene un alto grado de
participacin poltica no tienen de sentido."
9
haber excepciones, por ejemplo, en el caso de una pregunta con respuesta de eleccin
mltiple, ya sea de nmero limitado o no limitado.
3) Principio de Integridad: mientras que los dos principios anteriores aluden a la lgica de
la matriz, este principio se refiere al trabajo emprico de llenar la matriz y dice simplemente
esto: no dejar ninguna celda vaca. Lo que antecede significa que hay que intentar que la
cantidad de celdas sin informacin, es decir, "No sabe"/"No contesta", se mantenga lo ms
baja posible. Sin embargo, en algunos casos, por ejemplo, en un estudio acerca del "Nivel
de informacin acerca de las formas de contagio del SIDA", las alternativas mencionadas
anteriormente resultan ser muy pertinentes, ya sea porque no hay conocimiento acerca del
tema, no se tiene una opinin formada, no se quiere contestar o porque simplemente hay
temas que no despiertan inters en la gente.
Una vez completa la matriz de datos se debe evaluar su calidad. Uno de los procedimientos
consiste en revisar la cantidad de datos faltantes por fila y/o columna. La recomendacin
general es que la falta de datos no supere el 5% de los datos posibles, pero esto depender
del instrumento utilizado en la recoleccin, por ejemplo, en los censos el margen de
tolerancia es mayor que en un muestreo, o en variables que corresponden a informacin
personal sensible tambin es ms elevado el nivel de prdida aceptado.
Con datos incompletos o perdidos hacemos referencia a la falta de informacin sobre los
sujetos que componen la muestra.
La inferencia estadstica con datos perdidos es un
problema muy importante de la investigacin aplicada
en general. Bsicamente son tres las dificultades
fundamentales en el uso de matrices con datos
perdidos. En primer lugar, si los casos con missing
son diferentes a los casos completos, las estrategias
comunes de tratamiento de este problema presentan
un importante sesgo. En segundo lugar, la existencia de datos perdidos generalmente
implica una importante prdida de informacin, por lo que las estimaciones de parmetros
pueden ser ineficientes. Finalmente, las tcnicas estadsticas disponibles estn diseadas
para datos completos, por lo que, la sola presencia de datos perdidos perjudica
notablemente el anlisis.
10
Los patrones de datos perdidos pueden ser:
Aleatorio (no son funcin de alguna variable)
Patrn dependiente de una variable (por ejemplo falta de respuesta total o parcial a
una variable en particular)
Ante los casos perdidos habr que establecer algunos supuestos sobre la ausencia de
informacin y decidir si se eliminan del anlisis o se reemplazan utilizando algn mtodo
tal como la interpolacin.
Algunas de las soluciones habitualmente utilizadas en la prctica ante una matriz de datos
con valores perdidos son:
Anlisis de casos completos: en esta situacin se descartan todos los casos que
tengan alguna variable sin valor. Segn la cantidad de datos faltantes y la relacin
entre casos completos e incompletos podra tener un sesgo importante y falta de
precisin de las estimaciones si los faltantes no son una muestra aleatoria de la
muestra completa. Su ventaja es la simplicidad y que todos los estadsticos se
calculan utilizando el mismo tamao muestral, lo que permite su comparacin.
Anlisis de casos disponibles: utiliza para cada clculo toda la informacin
disponible en la muestra. Implica en general trabajar con distintos tamaos
muestrales para cada variable.
Mtodos de imputacin simple: sustituyen los datos faltantes por valores estimados
a partir de la informacin suministrada por la muestra (por ejemplo imputacin
mediante la media o imputacin mediante regresin), pero tienden a subestimar la
variabilidad real de la muestra.
Mtodos basados en verosimilitudes: se basan en funciones de verosimilitud, son
por lo tanto mtodos bajo los que subyace un modelo probabilstico (por ejemplo
algoritmo EM y mtodo de imputacin mltiple).
Si la proporcin de datos faltantes es baja en cada variable del estudio y se asume que los
valores perdidos son aleatorios, esto no generar un problema importante en el anlisis
estadstico univariado, por el contrario, si se debe realizar un anlisis multivariado, esto
podra generar un grave problema (no podra incluirse
en el anlisis una gran proporcin de la muestra). Sin
importar cual sea el mtodo elegido para manejar los
valores perdidos, lo ideal es explicitarlo y tenerlo en
cuenta al momento de sacar conclusiones de los
anlisis llevados a cabo.
11
Uso de softwares en estadstica
SPSS es un programa estadstico desarrollado por IBM. Para adquirir el programa pueden
comunicarse con los representantes en Argentina a travs del siguiente enlace:
http://www.spss.com.ar/es/contacto/
En este curso utilizaremos los programas Epi Info versin 7, Epidat 3 y SPSS 20.
12
EL EDITOR DE DATOS (creacin del cuestionario o base de datos)
El primer paso en el uso de Epi Info es el diseo del cuestionario para la recoleccin de
datos. Para ello, al abrir el programa, deberemos seleccionar la opcin crear formulario o
make view
Los formularios y cuestionarios de Epi Info se llaman vistas. Una o varias vistas
constituyen un Proyecto (las vistas corresponden a las hojas en Excel, y el Proyecto al
archivo de Excel). Al presionar el botn Make View (Crear formularios) se abrir la
siguiente ventana de trabajo
13
Para iniciar, en la opcin File o archivo habr que elegir New, o directamente en la
barra de herramientas seleccionar Proyecto nuevo. Se abrir la ventana Proyecto nuevo
en la cual deber ingresar el nombre del archivo:
*1
*2
*1
Introducir el nombre del proyecto y del formulario (*1). En el tem localizacin, haciendo
click en el botn a la derecha (*2), puede abrir el navegador y seleccionar en que carpeta se
guardar el archivo. (Si no selecciona una carpeta en particular el archivo se guardar en la
carpeta Projects dentro de la carpeta EpiInfo7 con la extensin prj.) Luego aceptar
para que queden grabadas estas opciones.
Tendremos entonces dos zonas de trabajo: a la izquierda el explorador del proyecto (*1)
(donde podemos seleccionar el tipo de variable a incorporar) y a la derecha el rea de
trabajo (*2) donde crearemos el cuestionario o base de datos.
14
*2
*1
O aadirla pulsando el botn derecho del ratn sobre el rea de la derecha de la pantalla.
Cada vez que haga esto aparecer una ventana de definicin de campo y al final se crear
un campo (correspondiente a la variable elegida) en la posicin donde hizo clic con el
botn derecho.
15
En la opcin Nuevo campo o Field Definition deber seleccionar el tipo de variable a
agregar (texto, nmero, fecha, lgicos Si/No, etc.).
*1
*2
Para cada campo escriba la Pregunta o texto (*1) (nombre con el cual aparecer en la vista
del cuestionario) y siga las instrucciones de los comentarios (si hay alguna). En nombre de
campo (*2) ingrese el nombre o abreviatura con que se identificar la variable al hacer las
tablas o grficos.
16
y los no tildados como (-). El tipo de variable Option se utiliza cuando tenemos una
variable cualitativa con valores mutuamente excluyentes.
Con required se indica que el campo no puede saltearse y debe ingresarse siempre un
valor para poder continuar con el ingreso de datos.
Con una variable del tipo Date o fecha o Nmero, en la pestaa de Pattern (patrones)
deber seleccionar el formato de fecha con que se introducirn los datos. Para el caso de
variables numricas, tambin deber indicar cuantas cifras y decimales tendr.
17
Con valores legales puede programar las opciones de respuesta siguiendo los pasos que
detallamos a continuacin:
Elija la opcin Legal values en el explorador del proyecto
18
Escriba los valores, uno por rengln (por ejemplo para Sexo: varn, mujer, no
especificado). Pulse enter despus de cada uno para que se habilite una nueva
lnea.
Aceptar u ok
Para finalizar cada campo pulse Aceptar u OK.
19
Para los valores legales puede utilizar plantillas ya hechas en el mismo archivo. Para ello
seleccione Use existing table y se abrir una nueva ventana con la lista de las opciones
disponibles:
Al finalizar con legal values la variable tendr una pestaa desplegable con las opciones
de valores permitidos para ingresar en la base de datos:
Una vez ingresadas todas las variables con las opciones de la pestaa Formato puede
modificar el aspecto del cuestionario:
Por ejemplo, con fondo puede seleccionar otro color o una imagen como fondo del
formulario:
20
Al finalizar el ingreso de todas las variables de la vista o cuestionario y modificar el
formato, quedar semejante a la siguiente imagen:
Por defecto todos los archivos de Epi Info se guardan en la carpeta EpiInfo 7 Projects
en la misma ubicacin en que se descarg el programa al instalarlo.
21
Manejo de SPSS
Con el programa SPSS es posible abrir un archivo de datos SPSS Statistics previamente
guardado, leer una hoja de clculo, una base de datos o un archivo de datos de texto, o
introducir los datos directamente en el Editor de datos.
El primer paso ser acceder al programa desde el men Inicio o desde el cono de acceso
directo, si lo tenemos en el escritorio.
Se abrir una ventana como la siguiente, en la que puede elegir un archivo preexistente o,
en el caso de crear un archivo nuevo deber simplemente seleccionar aceptar.
22
Ver entonces la ventana Abrir datos, en la que puede nuevamente seleccionar un archivo
ya existente con la extensin .sav correspondiente a los archivos en formato SPSS u otro
formato
23
Para crear el archivo nuevo, cierre la ventana Abrir datos para acceder a la siguiente
ventana:
Variable
s
Casos
24
Esta es la ventana del Editor de datos, con las Vista de datos y vista de
variables.
Cuando est activada la Vista de datos, las filas corresponden a los casos y las columnas
a las variables. En cambio, en la Vista de variables, las filas corresponden a las variables
y las columnas a sus caractersticas (nombre, clase, etc).
Caractersticas
de la Variable
Variable
Para abrir archivos de datos ya preparados, desde esta ventana, elija en los mens:
Archivo > Abrir > Datos...
25
En el cuadro de dilogo Abrir datos, seleccione el archivo que desea abrir. Pulse en Abrir.
El Editor de datos proporciona un mtodo prctico (al estilo de las hojas de clculo) para la
creacin y edicin de archivos de datos.
El Editor de datos proporciona, entonces, dos ventanas:
Vista de datos. Esta vista muestra los valores de datos reales o las etiquetas de valor
definidas.
En la pgina de visor de datos cada columna corresponde a una variable y las filas a los
casos.
26
Vista de variables. Esta vista muestra la informacin de definicin de las variables, que
incluye las etiquetas de la variable definida y de valor, tipo de dato (por ejemplo, cadena,
fecha o numrico), nivel de medida (nominal, ordinal o de escala) y los valores perdidos
definidos por el usuario.
En ambas vistas, se puede aadir, modificar y eliminar la informacin contenida en el
archivo de datos.
En la vista de variables las columnas corresponden a las caractersticas de cada variable.
27
Estando en la vista de variables en la columna Nombre deber ingresar la denominacin
de la variable (preferentemente en formato corto o una abreviatura, sin dejar espacios en
blanco). Al pasar a la casilla Tipo, se abrir un cuadro de dilogo en el que deber
seleccionar la clase de variable en el listado de la izquierda (el trmino cadena
corresponde a las variables de texto) y, a la derecha, se abrirn diferentes opciones segn la
clase de variable seleccionada:
28
El ancho o cantidad de caracteres puede seleccionarlos en la ventana de Tipo de variable
o en la tercer columna.
En la columna Etiqueta introduzca el nombre con que aparecer la variable en los grficos.
En el caso de las variables de texto o cadena puede establecer valores predeterminados
(semejantes a los valores legales en EpiInfo). Para ello en la columna valores se abrir el
cuadro de dilogo Etiquetas de valor:
29
Haga click en aadir y contine aadiendo las etiquetas:
O por ejemplo, para una variable Como es su vida?, podra usar etiquetas como las
siguientes:
30
En la siguiente columna Perdidos, podr ingresar el cdigo con el cual identificar los
valores perdidos (no todas las variables lo necesitan) (Recordemos que los valores perdidos
corresponden a las casillas de nuestra base de datos en que no se han ingresado valores,
porque no pudieron obtenerse. Es importante diferenciarlos para que el programa los tenga
en cuenta al realizar los anlisis estadsticos):
31
32
Finalmente, en la columna Medida deber especificar si la variable es de escala, nominal
u ordinal:
Por ejemplo, luego de ingresar todas las variables en la Vista de variables obtendr la
siguiente ventana:
33
En la Vista de datos, al hacer click en el botn Etiquetas de valor
34
Si hacemos click
en el botn
etiquetas se
visualizarn los
valores en lugar
de los cdigos.
Una vez armada la base de datos deber guardarla seleccionando en Archivo, guardar
como:
35
En SPSS los archivos de base de datos tienen la extensin .sav y los de resultado la
extensin .spo.
Las bases de datos pueden crearse en los programas que utilizaremos para analizarlas o en
un archivo de Excel (la ventaja de organizarlo en Excel es la posibilidad de utilizarlo en
cualquier ordenador y de analizarlo con varios programas, utilizando las opciones que nos
resulten ms cmodas o mejores de Epi Info y SPSS, u otros programas).
Al crear la base de datos en Excel, para que podamos importarla a Epi Info o SPSS
tendremos que tener los siguientes recaudos:
En la primer fila de la hoja de clculo deber ingresar los nombres de las variables
A cada variable le corresponder una columna, excepto en el caso de variables de
respuesta mltiple, en las que tendr que crear tantas columnas como respuestas
posibles tenga
Puede utilizar varias hojas de clculo en un archivo, pero recuerde identificarlas
adecuadamente, cambiando el nombre en la pestaa inferior, para poder determinar
sin inconvenientes cual es la que necesitar importar al programas SPSS o Epi Info
para su anlisis
36
No se olvide de aclarar el formato de celda en las filas correspondientes a los casos
(si son celdas con texto, nmero, fecha, etc).
37
38