Documente Academic
Documente Profesional
Documente Cultură
El presente manual tiene como intención dar a conocer el manejo del software STATA, está
destinado a quienes desean conocer cómo utilizar este programa, en un primer momento se
describe las características del programa, el manejo de los datos, la descripción, confección de
gráficos y algunos aspectos del análisis. Se dará una explicación básica de los comandos más
comunes que se utilizan. El presente manual pretende que el lector aprenda a utilizar el
software. Así mismo es necesario tener en cuenta que la finalidad de este manual es que sea una
guía para uso del software STATA y no es un libro de estadística.
2
INDICE
INTRODUCCIÓN A STATA 4
Descripción de la consola del STATA 5
Empezar a utilizar STATA 7
Mostrar la base 8
Importar datos 10
Guardar archivo STATA 13
Como dar órdenes a STATA 13
DESCRIPCION DE DATOS 25
Descripción de variables categóricas o cualitativas 26
Gráficos de las variables categóricas o cualitativas 29
Descripción de variables numéricas o cuantitativas 32
Gráficos de variables numéricas o cuantitativas 35
ANALISIS DE DATOS 40
Variables categóricas 40
Comparación de variable continúa versus categórica dictomica 42
Comparar muestras apareadas o relacionadas 44
Comprobación de normalidad para la prueba t de student 47
Prueba t de student para datos resumidos 50
Comparación de variable continúa versus categórica politómica 53
Comparación de variable continúa versus otra continua 56
Análisis de sobrevida 63
3
INTRODUCCION A STATA
STATA es un programa de análisis estadístico que puede ser utilizado para el análisis de datos
procedentes de las investigaciones. Es un paquete integrado, no una colección de módulos
separados. En los últimos años ha ganado un lugar importante por su fácil uso.
Con STATA se puede trabajar de varias formas, como en el entorno Windows , en base a ventanas
y desplegables pero también se pude dar órdenes directas e incluso programar.
En el presente manual emplearemos los menú desplegables propios de los programas de entorno
Windows sin embargo también se enseñara a dar órdenes directas para que STATA lo ejecute,
dado que el usuario debe establecer su propia forma de utilizarlo, según le convenga.
Al momento actual existe mucha información sobre el Uso de STATA, lo puede ver el Web de
STATA.
4
DESCRIPCION DE LA CONSOLA DEL STATA
La consola del STATA en el entorno Windows, está compuesta por varias ventanas, el menú de
ayuda y algunos iconos que facilitan el manejo. STATA en su concepción y lógica de uso no difieren
de los paquetes convencionales, por lo que los usuarios de otros paquetes como SPSS lo hallarán
fácil de aplicar.
Lo más utilizado del menú desplegable es: el Archivo, Edición, Gráficos y Estadísticas:
Archivo, como en todo programa diseñado para el entorno Windows, este le permitirá abrir un
archivo, guardar, salir del archivo, imprimir , así mismo importar y exportar.
Datos, le permitirá trabajar sus datos, describirlos, ordenarlos entre otros (figura 1).
Gráficos, Este desplegable es muy útil, para la confección de gráficos, le permitirá realizar diversos
tipos de gráficos.
5
Estadísticas, Este desplegable será muy útil para la realización de diversas pruebas estadísticas, su
uso se verá en páginas posteriores de este manual.
Como puede apreciar cada orden del menú al colocar en puntero sobre la orden y hacer clic,
despliega una cortina con un menú de órdenes.
ICONOS IMPORTANTES
Hay ciertos iconos que al hacer clic sobre ellos , nos brindaran un recurso para utilizar STATA
este icono nos permite iniciar STATA
Editor de archivos “do”, este icono sirve para crear un programa que se desea correr en
STATA
Las ventanas más importantes de STATA son la Ventana de órdenes, de resultados, de variables ,
de ordenes previas
Ventana
Ventana de
de variables
órdenes
previas
Ventana de resultados
Ventana
de carac-
terísticas
Ventana de órdenes de las
Variables
6
Ventana de órdenes, es aquella en la que se escribirá directamente las órdenes que deseamos que
STATA realice, y luego de presionar la tecla ENTER se ejecutará.
Ventana de resultados, en esta ventana STATA mostrará los resultados de la orden que se le ha
dado a STATA.
Ventana de órdenes previas, en esta ventana se verá las órdenes previas que se ha dado a STATA,
las cuales se pueden volver a dar con solo un clic con el puntero sobre la orden. Luego del clic la
orden se sitúa inmediatamente en la ventana de órdenes, lista para ser ejecutada otra vez o puede
ser editada para crear una orden diferente y aprovechar el texto de la orden previa, con lo que
usted gana tiempo y esfuerzo.
Ventana de variables, En esta ventana se muestra las variables de la base de datos que se está
utilizando, con el puntero y clic derecho se puede coger una variable y llevarla a la ventana de
órdenes para su utilización.
Iniciamos STATA cargando una base de datos, no hay diferencia e cuando utiliza un programa del
entorno Windows, al hacer doble clic sobre el archivo , en este caso un archivo en formato STATA
(.dta) inmediatamente se abra STATA con el archivo listo para trabajar. Sin embargo hay varias
maneras de cargar una base de datos, los mostramos en seguida.
En primer lugar podemos hacer con la barra de ayuda “Archivo”, al hacer clic sobre el mismo se
abre un desplegable, como la figura siguiente
Aquí seleccionamos abrir y se desplegará una ventana que le permitirá ubicar sus archivos y
seleccionar una base de datos en formato STATA , recuerde que STATA solo lee directamente los
archivos que contienen una de base para STATA es decir que tenga la extensión “.dta” si no se
7
dispone de alguno utilizar el archivo auto que trae STATA, al cargar el archivo seleccionado se abre
y ya estará listo para trabajar con STATA.
Esta salida, nos avisa que se ha cargado la base de datos “auto”, observe que el formato de las
base de datos en STATA tienen el nombre y la extensión “auto.dta”, ahora ya se puede trabajar el
análisis de la base de datos auto.
MOSTRAR LA BASE
Lo primero que debemos hacer con una base de datos es describirla, para saber que contiene.
Para describir la base de datos, con STATA, se puede hacer por medio del menú de ayuda, para
esta finalidad se lleva el puntero al desplegable “Datos” se hace clic sobre este, lo que despliega
una cortina, de esta escogemos la orden “Describir los datos” , y esta acción extiende un nuevo
desplegable del que escogemos la orden “Describir los datos en la memoria o en un archivo”. En la
figura siguiente se muestra los desplegables que se han abierto secuencialmente.
8
1
2 3
Para lo sucesivo, dado que el manejo del menú desplegable será muy frecuente, la manera que
utilizaremos para describirlos, será la secuencia de órdenes una detrás de la otra, para el caso
previo la descripción sería:
y luego de hacer clic sobre la orden “Describir los datos en la memoria o en un archivo” se abre una
ventana, como se muestra en seguida, que le permitirá dar la orden a STATA:
En esta ventana se solo haga clic sobre OK, con lo que STATA describirá la base de datos “auto” y
nos brindará la siguiente salida en la ventana de resultados.
9
Ahora comentemos lo que ha salido en la ventana resultados :
En primer lugar ha salido un punto y la palabra “describe”, lo que nos dice que esta ha sido la
orden que STATA ha trabajado. Si usted coloca la palabra “describe”, en la ventana de ordenes,
luego de presionar la tecla enter, STATA recibe la orden “describe”, la acción que realiza es
describir la base de datos lo que muestra en la ventana de resultados.
Luego, la pantalla resultados muestra un texto que nos dice que son 74 observaciones, y 12
variables, seguidamente se halla la lista las variables y una breve descripción de las mismas,
mostrando el nombre de la variable, formato, y las etiquetas que contienen.
Ahora recuerde esta orden nos ha permitido describir lo que contiene la base de datos “auto”,
sin embargo de igual forma describirá cualquier base de datos que hayamos cargado en STATA.
IMPORTAR DATOS
Muy frecuentemente nuestras bases de datos las trabajamos en Excel, enseguida damos las
pautas para pasar del formato Excel a STATA.
En necesario precisar que la base de datos debe tener la forma determinada, de lo contrario no
puede trabajar en STATA, las columnas deben contener a las variables y en las filas las
observaciones, de la siguiente forma:
10
Nombres
de las
variables
Individuos y
sus datos
para cada
variable
Para poder utilizar una base de datos creada en Excel, debe realizar la siguiente secuencia
1.- Abra STATA, con el icono de arranque, no debe haber abierto ninguna base de datos. Si
contiene alguna base de datos, cierre y abra con el icono de arranque. Para esta actividad STATA
debe abrirse y no debe contener ninguna base de datos.
2.- Luego vaya a la base de datos en Excel y seleccione toda la base de datos incluyendo los
nombres de las variables, y cópielo.
3.- Luego va STATA y abra el editor de datos, para eso debe hacer clic sobre el icono editor de
datos, como muestra la siguiente imagen.
4.- Luego de hacer clic, se abrirá una ventana, que contiene una cuadricula, en blanco,
11
5.- situé el puntero en el casillero de la primera fila y primera columna, haga clic derecho con lo
que aparecerá un desplegable, como el que se muestra en la siguiente imagen
6.- Luego haga clic sobre pegar, con lo que aparecerá una ventana, como la siguiente:
12
7.- Debe hacer clic sobre Nombre de variable, con lo que se le dice a STATA que la primera fila de
lo que se ha copiado el portapapeles es el encabezado de la base de datos con el nombre de las
variables. Luego aparecerá la siguiente una ventana, como se muestra, donde usted aprecia la
base de datos que ha importado desde el Excel.
8.- Luego cierra esta ventana, con un clic en la X del extremo superior derecho de esta ventana, y
la base de datos estará lista en STATA para ser trabajada.
Si ha creado un archivo en STATA, lo puede guardar con la extensión “.dta” de STATA, para luego
abrirlo y continuar con su trabajo, debe guardar como en cualquier programa. Con las órdenes
Como usted se está percatando, hay varia maneras de trabajar con STATA, para los fines de este
manual, utilizaremos dos formas, la primera mediante el uso de los menús desplegables, y la
segunda mediante órdenes directas en la ventana de órdenes.
En el acápite previo para la descripción de la base de datos utilizamos una secuencia de menús
desplegables:
13
Datos/ Describir los datos/ Describir los datos en la memoria o en un archivo
Con los que obtuvimos una ventana que luego de dar la orden OK nos permitió describir los datos,
esta ha sido una secuencia de uso de menús desplegables que pe permitió describir la base de
datos.
Observe que STATA tiene varias maneras obtener los mismo resultado, dependerá de cómo usted
lo prefiere.
En la ventanas de ordenes STATA acepta ordenes acortadas, usualmente son las cuatro primeras
letras de las ordenes en ingles, sin embargo para ordenes muy comunes como es describir , usted
puede colocar solo la letra d en la ventana de ordenes, luego de presionar la tecla enter , obtendrá
el mismo resultado.
14
MANEJO BASICO DE LA BASE DE DATOS
El manejo básico de la base de datos es la descripción de lo que contiene la base de datos es muy
importante, debe realizarse desde el inicio.
Las ordenes básicas que le permiten realizar esta actividad son: describe y codebook.
La orden describir la hemos mostrado previamente, pagina 8.
La orden: Codebook
Esta orden permite describir las variables de la base de datos, con más detalles, de igual manera
que la orden previa, la podemos realizar mediante los desplegables o dando una orden.
En ésta solo hay que hacer click en OK , para obtener la salida siguiente:
15
En la ventana de resultados podemos apreciar que sale la descripción básica de cada variable ´por
vez.
formas, en primer lugar podemos utilizar el editor de datos, al hacer click sobre él se abre el
editor de datos (para visualizar) y podemos ver como un Excel.
16
Otra forma es hacer una salida en la ventana de resultados, con el menú desplegable:
Aparece la ventana
17
En la ventana de resultados se puede apreciar los datos de las variables.
Debe presionar barra espaciadora para poder ver la salida completa.
El poder manejar las variables es indispensable para el trabajo con base de datos, por lo que se les
mostrara varias órdenes , que permiten manejar las variables.
NOMBRE y ETIQUETA
Cada variable tiene un nombre y además usted desea que se maneje con una etiqueta
característica. En STATA, lo puede hacer muy fácil.
Nuestra base de datos “PACIENTES” tiene una variable “id”, que corresponde al número que le
hemos asignado a cada paciente. Ahora dado que id nos queremos cambiarla, deseamos llamar a
esa variable “iden” y así mismo queremos que la etiqueta de esa variable sea “Identificación del
sujeto”. Recuerde las comillas solo las utilizamos para destacar el nombre de la etiqueta de desea
colocar, no debe colocar las comillas en el recuadro.
18
Seguidamente se abre una ventana:
Escribir:
iden
Escribir:
identificación del sujeto
En esta ventana se selecciona la variable que se desea modificar, en este caso es id, la que debe
quedar resaltada. En seguida en el lado derecho donde dice nombre “id” cambiar por “iden” (nota
STATA hace diferencia entre mayúsculas y minúsculas), luego en etiqueta dice “ID” lo vamos a
cambiar por “Identificación del sujeto”, luego de haber realizado los cambios da clic sobre la
orden Aplicar de dicha ventana. Usted ya ha hecho los cambios
De la orden describe, y ve la salida, que muestra los cambios
Comentario: puede apreciar que con esta ventana puede modificar el nombre la variable y
también su etiqueta (label).
19
La otra forma es utilizando la ventana de ordenes:
Se coloca la orden label variable , seguida del nombre de la variable y seguida entre
comillas de la nueva etiqueta “iden” en la ventana de ordenes:
label variable “identifica”
Presiona la tecla enter y se obtiene el mismo resultado.
Supongamos que usted desea tener una variable la talla en centímetros, dado que usted tiene en
base de datos la variable talla en metros, para obtener la nueva variable la podría generar
multiplicando la variable talla en metros por 100 y los datos almacenar en una nueva variable que
“talla_cm”. En STATA lo puede realizar de varias maneras.
20
Luego, aparece la ventana que le permitirá recibir las indicaciones
En dicha ventana usted debe llenar, el casillero de Nombre de la variable, donde debe colocar el
nombre de nuestra variable talla en centímetros “edad_cm” , recuerde las comillas solo las
utilizamos para destacar el nombre , no debe colocar las comillas en el recuadro. También debe
Especificar el valor que va utilizar , en el espacio Especificar un valor o una expresión debe colocar
el nombre de la expresión “ edad*100” , debe colocar la edad multiplicada por 100, que será el
valor asignado a la variable edad_cm. En seguida mostramos como se debe colocar en la siguiente
ventana
21
1.- Colocar:
edad_cm
2.- Colocar:
edad*100
Luego de dar OK, usted puede apreciar lo que ha producido en la base de datos, con la orden
describe
Donde usted puede apreciar que ha generado la variable edad_cm . Además observe que en la
ventana de resultados ha salido la expresión:
22
Esta es la orden que ha hecho que STATA haya creado una nueva variable. También es necesario
comentar que si coloca esta orden dentro de la ventana de órdenes, se obtendrá lo mismo que lo
que ha hecho con los desplegables.
Ahora nos percatamos que la variable generada no la necesitamos y deseamos borrarla, ¿como
podemos hacer?
Colocamos la orden drop seguida del nombre de la variable en la ventana de ordenes:
drop edad_cm
Luego de presionar enter, aparentemente no pasó nada, pero si usted da la orden descibe la base
de datos puede apreciar que la variable ya no figura.
Ahora usted desea crear de nuevo la variable talla_cm, para hacerlo mediante la ventana de
órdenes , la expresión:
Ahora dé la orden otra vez, y sale que hay un error, y es porque la variable edad_cm, ya existe.
Con lo que usted puede verificar que no puede generar otra variable con el mismo nombre, le
queda dos caminos , la genera con otra nombre o borra la previa.
drop _all
Se puede hacer diversos manejos con variables, por medio de los menos desplegables, sim
embargo también debe utilizar la ventana de órdenes, ya que algunas tareas son más fáciles con
dicho aplicativo.
Se desea crear una nueva variable IMC índice de masa corporal , que de acuerdo a la definición es
el peso sobre talla al cuadrado, ¿Cómo lo haría?.
Debe colocar en la ventana de ordenes la expresión:
Ahora puede visualizar las variables peso , talla y IMC con la orden:
23
list peso talla IMC
Puede apreciar las variables peso, talla así como la variable IMC.
Note que usted entonces puede generar nuevas variables a partir de las existentes, también puede
generar una variable transformando una ya existente utilizando diversas funciones matemáticas o
estadísticas que tiene STATA.
24
DESCRIPCION DE DATOS
En capítulos previos se muestra como describir la base de datos por medio del programa STATA,
ahora corresponde mostrar cómo se puede describir las variables de una base de datos, con dicho
programa.
Las características de cada variable es necesario que sean tomadas en cuenta para determinar la
forma en que se presentaran la descripción de las mismas.
Las variables categóricas, se resumen tabulándolas por sus categorías, los gráficos de barras, y de
pastel nos ayudarán a tener una apreciación gráfica de las mismas. Para las variables numéricas se
debe obtener las medidas de tendencia central (media, mediana), de dispersión (Varianza,
desviación estándar, rango, rango intercuatílico) y de posición (percentiles, cuartiles),
complementando la descripción con los gráficos del tipo histograma y de cajas. Es recomendable
consultar un libro de estadística para despejar las dudas sobre estos conceptos.
Para este capítulo utilizaremos una base de datos de niños cuyo nombre es: lactantes.
La descripción de la base de datos lactantes, muestra que la base de datos contiene 350
observaciones y 15 variables, en la ventana de resultados podemos apreciar el nombre de las
variables, algunas de sus características y sus etiquetas.
25
Una descripción más detallada se puede obtener con la orden codebook, para tal fin coloca la
palabra, en la ventana de órdenes:
codebook
Luego la tecla enter y se obtiene el resultado, observe que algunas variables contienen datos
faltantes (missing). Si desea utilizar el menú desplegable revise la pagina ¿?. Como un ejemplo de
la descripción, podemos observar que para la variable edad le faltan 55 datos de 350
observaciones.
Dado que las variables categóricas o cualitativas contienen categorías, para su descripción de debe
establecer la frecuencia de cada categoría.
Descripción por medio del menú desplegable, se procede como se muestra en la siguiente figura:
Recuerde que para el manejo de los menús desplegables, nombramos la secuencia de órdenes
que se van abriendo por medio de un clic, una detrás de la otra, en este caso será:
y luego de hacer clic sobre la orden “Tablas de frecuencias” se abre una ventana, como se muestra
en seguida, ésta ventana nos permitirá dar los detalles a STATA para que pueda construir una tabla
de frecuencia.
26
En el casillero Variable categórica seleccionamos la variable region
y luego de dar la orden OK obtendremos una salida en la ventana de resultados, que corresponde
a una tabla , en esta tabla se muestra para cada categoría de la variable las frecuencias absolutas
(Freq.) , relativas (porcentaje) y acumuladas (Cum.).
27
Observe que para la variable Region del Peru, en la categoría costa ce (costa central) hay 30
individuos, que corresponde al 8.6%, en la categoría costa no (costa norte) hay 47 individuos, que
corresponde al 13.4%.
A estas alturas debemos comentar que en STATA se puede trabajar por medio de órdenes.
Enseguida le traemos algunos comentarios sobre el trabajo con órdenes.
1.- Observe que en la pantalla resultados antes de la salida de tabla de frecuencia de la variable
region, ha salido las palabras “tabulate region”, entonces esta orden se ha dado por medio
de los menús desplegables cuando pedimos a STATA confeccionar una tabla de frecuencias de la
variable region. De esta manera nos percatamos que cada vez que utilizamos los desplegables se
produce una orden que a STATA le indica la actividad que debe realizar.
2.- También notamos que las indicaciones que se colocan en la ventana de órdenes son en inglés, y
deben ser exactas, respetando las letras mayúsculas y minúsculas, ya que no son intecambiables.
Si hay algún error en una letra en un espacio STATA no reconoce la orden y emitirá un error.
3.- No es necesario colocar el nombre completo de la orden, se puede abreviar la orden y STATA la
reconoce, por ejemplo usted puede colocar en la ventana de órdenes tab region obtendrá la
misma salida que tabulate region
4.- Usted puede traer con el puntero al nombre de la variable y la suelta en la ventana de ordenes,
es muy útil cuando el nombre de la variable es complicada para evitar equivocarse. Esto le permite
agilizar el trabajo ahorrando tiempo en digitación y evitar errores de tipeo.
5.- Las ordenes que han sido dadas se pueden visualizar en la venta de ordenes previas, las cuales
las puede traer a la ventana de órdenes , solo haciendo clic sobre la que desea y una vez que se la
tienen en la ventana de órdenes, también se la puede editar para indicar a STATA los que usted
desee.
28
GRAFICOS DE LAS VARIABLES CATEGORICAS O CUALITATIVAS
Los gráficos que corresponden a las variable categóricas o cualitativas, serán los grafico del tipo
pastel y barras.
Grafico del tipo pastel por medio del menú desplegable, selecciona el grafico como muestra la
siguiente figura
al hacer clic sobre la orden “Gráfico de tortas” se abre una ventana, como se muestra en seguida,
que le permitirá dar la orden a STATA:
29
En el casillero Variable por categórica seleccionamos la variable region
30
costa ce costa no
costa su lima met
selva sierra c
sierra n sierra s
31
30
20
percent
10
0
En este tipo de variables importa obtener las medidas de tendencia central (media, mediana), de
dispersión (Varianza, desviación estándar, rango, rango intercuatílico) y de posición (percentiles,
cuartiles).
Descripción por medio del menú desplegable, se procede en una secuencia como muestra la
siguiente figura
32
Estadísticas/ Sumarios, tablas y tests estadísticos/ Sumarios y estadísticas descriptivas/Sumario de
estadísticas
y luego de hacer clic sobre la orden “Sumario de estadísticas” se abre una ventana, como se
muestra en seguida, que le permitirá completar la orden a STATA:
33
Ahora explicaremos esta salida que brinda STATA, al leer la ventana de resultados encontramos:
Obs 265, nos dice que se ha tomado 265 observaciones para este cálculo, se deduce que 85
individuos no tienen datos de hemoglobina (missing), por lo que no se cuentan para esta
estadística.
Smallest 7.5 / 7.5 / 7.6 / 8.1 /, corresponde a los cuatro valores menores que ha
tomado la hemoglobina.
De esta misma información usted puede obtener el rango, que se calcula con el mayor valor
obtenido menos el menor valor obtenido: 16.6 – 7.5 mg/dl.
Así mismo el rango intercuartílico estará dado por el valor del percentil 75 – menos el valor del
percentil 25, de acurdo a los datos es 12 - 10.4 mg/dl.
34
Obtención de las estadísticas por medio de la ventana de ordenes:
summ hemoglobina, d
Los gráficos que corresponden a esta variable serán los grafico del tipo histograma y de cajas
Confección del Histograma por medio del menú desplegable, procede a seleccionar el menú
desplegable que permite realizar el grafico, como muestra la siguiente figura.
Gráficos/ Histograma
al hacer clic sobre la orden “Histograma” se abre una ventana, como se muestra en seguida, que le
permitirá dar la orden a STATA:
35
En esta ventana seleccione la variable hemoglobina, luego al hacer OK, obtendrá el histograma de
la variable hemoglobina.
.4
.3
Density
.2
.1
0
8 10 12 14 16
Hemoglobina (mg/dl)
Ahora podemos dar algunas indicaciones adicionales para: obtener 10 columnas y el dato de la
frecuencia absoluta sobre cada columna, para poder lograr en la ventana para confeccionar el
histograma debe colocar lo siguiente, que se desea 10 barras y colocar el valor de la densidad
sobre la barra:
36
Agregar valor
frecuencia.
Columnas:
10
Obteniéndose el siguiente histograma, con estos detalles, lo que se puede observar en el siguiente
gráfico.
.4
.34
.3
.2695
Density
.2
.1327
.1203
.1
.0788
.0663
8 10 12 14 16
Hemoglobina (mg/dl)
37
Confección del Gráfico de cajas por medio del menú desplegable, selecciona el menú desplegable
que le permitirá construir el grafico como muestra la siguiente figura.
al hacer clic sobre la orden “Gráfico de caja” se abre una ventana, como se muestra en seguida,
que le permitirá dar la orden a STATA:
38
En esta ventana seleccione la variable hemoglobina, y la orientación Horizontal y luego al hacer
OK, obtendrá el grafico.
8 10 12 14 16
Hemoglobina (mg/dl)
Con estas instrucciones de forma similar puede conducirse para realizar la descripción de las
variables. Para la descripción de las variables, primero debe determinar el tipo de variable, ya que
depende del tipo para proceder a la obtención de las estadísticas o gráficos que le corresponden.
39
ANALISIS DE DATOS
La intención de este manual es introducir al análisis de datos con STATA, por tal razón solo
tocaremos algunas comparaciones más frecuentes.
Otra vez es el objetivo que tiene los autores de la investigación, el diseño utilizado , la naturales de
las variables y las exigencias que trae cada prueba estadística las que se tendrá que tomar en
cuenta para decidir sobre la utilización de determinada prueba estadística.
Para el propósito de este manual se utilizaran diversas bases de datos, hepatocarcinoma que
corresponde a un estudio de casos y controles, para evaluar el efecto de una hierba “A” en el
desarrollo de esta neoplasia.
VARIABLES CATEGORICAS
En la base de datos hepatocarcinoma, se ha medido el uso de la hierba “A” por medio de una
variable dicotómica “hierba”, con las categorías: si utilizo la hierba y no utilizó la hierba, por otro
lado la variable que contiene los datos del hepatocarcinoma están en la variable “cáncer” en dos
categorías, tiene el cáncer y no tiene el cáncer.
Se desea evaluar si existe algún tipo de asociación entre algunas de las categorías de dos variables.
La prueba estadística que corresponde es la prueba de chi cuadrado.
Se procede a cargar la base de datos hepatocarcinoma, haciendo doble clic, descríbala y observe
las variables existentes.
Obtención de las estadísticas chi cuadrado por medio de los menús desplegables:
Para aplicar la prueba de chi cuadrado por medio del menú desplegable, se procede a abrir el
menú desplegable de acuerdo a la secuencia que enseguida mostramos.
40
Estadísticas/ Sumarios, tablas y tests estadísticos/ Tablas de frecuencias/ Tablas de contingencias
con medidas de asociación
Luego de hacer clic sobre “Tabla” se despliega una ventana, como la que enseguida mostramos, en
dicha ventana hay que seleccionar en la casilla Variable de fila, la variable hierba , en la casilla
Variable de columna la variable cancer , luego en Estadísticos del test escoger la prueba Chi-
cuadrado de Pearson, luego OK.
Observe, que en esta ventana usted puede escoger la prueba, estadística más conveniente para la
situación, para el ejercicio hemos escogido la prueba “Chi cuadrado de Pearson”, pero hay la
opción de escoger el “Test exacto de Fisher”.
41
Obtención de las estadísticas chi cuadrado por medio de la ventana de órdenes:
con el valor del chi cuadrado obtenido y el valor p, se debe sacar las conclusiones de acuerdo a los
criterios establecidos, ej si el alfa hemos convenido que será 0.05 y en esta situación, el valor p nos
ha salido (pr=0.000) semejante a cero, tiene un valor menor que el alfa , por lo que
rechazaremos la hipótesis nula (la hipótesis nula afirma que la exposición a la hierba A y el
hepatocacinoma no están asociados), concluyendo que la que la exposición a la hierba A y el
hepatocacinoma están asociados.
Comparar la media de una variable continua, teniendo en cuenta las dos categorías de una
variable dicotómica, desde luego una situación muy frecuente, utilizando la prueba t de student.
Ejemplo si tendríamos la pregunta si la hemoglobina de los niños varones difiere de las mujeres ,
en la base de datos lactantes. Corresponde utilizar la prueba t de student. Tenga en cuenta que en
este ejemplo se puede ver que se esta comparando niños contra niñas, funciona como dos
muestras independientes.
Para aplicar la prueba t de student por medio del menú desplegable, se procede a abrir el menú
desplegable de acuerdo a la secuencia que enseguida mostramos
42
Estadísticas/ Sumarios, tablas y tests estadísticos/ Test de hipótesis clásicos/ Test de comparación de
medias (test-t)
43
Obtención de t de student por medio de la ventana de ordenes:
En estas salidas de STATA usted puede apreciar que el promedio de la hemoglobina para varones
(149 observaciones) es 11.19 mg/dl, para mujeres es 11.29 mg/dl, se aplica la prueba t de student
para ver si hay diferencia entre esta medias. Para la interpretación de la prueba t de student se
debe tener el valor calculado para esta prueba con estos datos t = -0.5337 con 263 grados de
libertad, con su correspondiente valor p= 0.594, hemos subrayado las salidas de STATA. Si el alfa
hemos convenido que será 0.05 y en esta situación, el valor p nos ha salido (pr = 0.59), tiene
un valor mayor que el alfa, por lo que no se pude rechazar la hipótesis nula (la hipótesis nula
afirma que no hay diferencia entre las medias de la hemoglobina de varones y mujeres),
concluyendo que la hemoglobina de varones y mujeres no difiere.
Comparar una variable continua, en una muestra de individuos, antes y después de someterles a
un tratamiento en el mismo sujeto, es una situación no infrecuente en investigación.
Ejemplo si deseamos evaluar si un medicamento tiene efecto sobre la presión arterial se puede
llevar a cabo el siguiente estudio, se toma la presión arterial diastólica (PAD) aun grupos de
individuos saludables se les administra el medicamento en cuestión y 1 hora después se vuelve a
tomar la PAD. El investigador ha tenido la precaución de evitar otros efectos en su estudio.
44
Aplicación de t de student para datos apareados por medio de los menús desplegables:
Para aplicar esta prueba t de student por medio del menú desplegable, se procede a abrir el menú
desplegable de acuerdo a la secuencia que enseguida mostramos
Estadísticas/ Sumarios, tablas y tests estadísticos/ Test de hipótesis clásicos/ Test de comparación de
medias (test-t)
45
Se debe seleccionar en la orden t-test , la alternativa “Emparejados” , en la casilla Primera
variable, se selecciona la variable psd_i, en la casilla Segunda variable, selecciona la variable
pad_f , luego OK, para obtener el resultado.
En estas salidas de STATA usted puede apreciar que se ha calculado la diferencia entre la Presión
arterial Diastólica inicial (pad_i) menos la Presión arterial Diastólica final (pad_f), de los 100
individuos, estas diferencias tienen como promedio 4.02 mm de Hg, se aplica la prueba t de
46
student para ver si diferencia entre las presiones difiere de cero. Para la interpretación de la
prueba t de student se debe tener el valor calculado para esta prueba con estos datos t = 24.62
con 99 grados de libertad, con su correspondiente valor p= 0.0000. Si el alfa hemos convenido que
será 0.05 y en esta situación, el valor p nos ha salido (pr = 0.0000), tiene un valor menor que
el alfa, por lo que se rechazar la hipótesis nula (la hipótesis nula afirma que no hay diferencia entre
la pad_i y la pad_f, o que su diferencia no difiere de cero), concluyendo que hay diferencia entre la
Presión arterial Diastólica inicial (pad_i) y la Presión arterial Diastólica final (pad_f),
La pruebas t de student tiene como exigencia que la variable continua sea del tipo normal, lo que
debe verificarse. Para el caso de variables apareadas la diferencia debe tener distribución normal,
por lo que hay que construir un variable que contenga esa diferencia.
47
En esta ventana se ha colocado en la casilla “Nombre de la variable” la letra d, es que queremos
que nuestra variable que contiene la diferencia de las presiones se llame d, en “Especificar un
valor o una expresión” colocamos pad_i – pad_f, hemos colacdo el nombre de las variable
que deseamos calcular la diferencia con el signo “-“ que indica que debe calcularse dicha
diferencia. Luego damos la orden OK , y se generó la nueva variable.
Dado que la variable d ya existe, debe ser borrada con la orden “drop d” , para el programa
STATA la orden que le permite realizar es:
Uno de los supuestos para el uso correcto de la prueba t de student es que la variable sometida a
prueba tenga una distribución normal. Para esta finalidad, lo primero que se puede hacer es un
histograma, con la orden:
histogram d
48
.4
.3
Density
.2
.1
0
0 2 4 6 8
diferencias entre la PAD inicial y final mm Hg.
De acuerdo a este grafico se puede apreciar que la diferencia tiene una distribución del tipo
normal.
Sin embargo usted tal vez desea aplicar alguna prueba para evaluar si la diferencia tiene una
distribución normal, ejemplo la prueba de Shapiro Wilk
49
Al hacer clic sobre Test de normalidad de Shapiro y Wilk se abre una ventana:
Debe escoger la variable d, dar la orden OK, con lo que obtiene la prueba de Shapiro Wilk para
normalidad.
swilk d
Para nuestro ejemplo la prueba de Shapiro Wilk no resulta significativo (Prob >z = 0.754), por lo
que se puede decir que la variable d , tiene una distribución normal.
Es frecuente que se tenga los datos de un estudio en forma resumida, como el siguiente escenario,
se ha realizado un estudio para comparar el porcentaje de grasa corporal, en estudiantes urbanos
versus estudiantes rurales saludables, se ha escogidos al azar solo varones, se encontró que el
porcentaje de grasa corporal era:
50
Estadísticas/ Sumarios, tablas y tests estadísticos/ Test de hipótesis clásicos/ Forma inmediata para
cálculo del test-t
Al dar clic se desplega una ventana en que escogemos “Dos muestras”, nos pide colocar el
tamaño, media y desviación estándar de cada muestra. Una vez colocado los datos, coloca
varianzas desiguales y confianza 95%.
51
Para obtener por medio de la ventana de órdenes, usted debe colocar:
52
COMPARACION DE VARIABLE CONTINUA VERSUS CATEGORICA POLITOMICA
Para comparar una variable continua (la media), de acuerdo a las categorías de una variable
politómica.
Para saber si estas medias tienen alguna diferencia aplicamos la anova de una via, con los
desplegables:
53
En la variable respuesta colocamos peso, en la Variable de factor: alimento, el test de
comparaciones múltiples que se escoge es: bonferroni, y en Salida se escoge: Producir tabla
sumaria, con estas órdenes se obtiene la siguiente salida:
La prueba F, obtenida es 26.4 , y el valor p es menor de 0.0000 , lo que se interpreta que las
medias de peso de los ratones logradas con los tipos de alimentos, son diferentes. La pruebas de
54
bonferroni es útil para comparar cada alimento contra otro, se puede apreciar que los tres son
diferentes cuando se compara de dos en dos.
55
COMPARACION DE VARIABLE CONTINUA VERSUS OTRA CONTINUA
Para comparar dos variables continuas, los recursos que tiene STATA son diversos, sin embargo es
recomendable utilizar una exploración visual, de la relación entre dos variables continuas, esta
mirada será de mucha ayuda.
Se toma los datos de la base de datos PAS, Los autores del estudio desean evaluar el efecto que
tiene la edad sobre la presión arterial sistólica.
56
Se abre otra ventana,
En esta hay que seleccionar Gráficos básicos, y el grafico del tipo Dispersión, luego escoger la
Variable Y: PAS y la Variable X edad.
Luego nos aparece la ventana siguiente en la que hay que hay que hacer click sobre OK ,
57
y se obtiene el gráfico:
160
140
120
100
80
40 50 60 70 80 90
Edad
En el que se puede apreciar que aparentemente si hay una relación entre la edad y la presión
arterial sistólica, a mayos edad mayos presión. Visualmente se puede apreciar que la edad
correlaciona con la presión arterial sistólica de modo directo.
Con las ventanas de ordenes en STATA la orden que le permite hacer eso es:
58
CORRELACION ENTRE VARIABLES
Una vez confeccionado el grafico de dispersión, y se aprecia que aparentemente hay una relación ,
lo siguiente es hacer un análisis de correlación. En STATA , por medio de los desplegables:
La
secuencia de desplegables es:
59
En la casilla Variables, de dicha ventana, debe escoger la variable edad y pas, y luego presionar
OK, con lo que se obtiene la correlación:
Con las ventanas de ordenes en STATA la orden que le permite hacer eso es:
Observe que por medio de la ventana de ordenes solo requiero colocar corr (las 4 primeras
letras) y los nombres de la variables no importando el orden de las mismas.
60
REGRESIÓN LINEAL SIMPLE
Cuando se tiene que una variable puede ser tomada como independiente y otra como
dependiente, corresponde hacer una regresión lineal simple. Para el análisis de regresión lineal
simple. En STATA , por medio de los desplegables:
Aparece una ventana en la hay que escoger la variable dependiente : pas y la independiente :
edad.
61
Luego de presionar OK, se obtiene el resultado:
Pendiente
Intercepto
Para leer la esta salida de STATA, debe de tenerse en cuenta:
El intercepto , ha resultado 54, en nuestro ejemplo ( un modelo lineal) se puede interpretar como
la presión arterial sistólica al momento de nacer es 54.35 .
Así mismo , se debe probar que la pendiente difiere de cero (subrayado en rojo), si fuera así no
contribuiría. En nuestro ejemplo es la prueba t , que resultó 5.18 y su valor p : 0.000,
concluyendo que la pendiente difiere de cero.
Con las ventanas de ordenes en STATA se puede realizar la regresión lineal de la siguiente forma:
62
ANALISIS DE SOBREVIDA
Las técnicas que permiten trabajar con variables del tipo tiempo-evento, son muy necesarias para
la investigación actual.
En primer lugar debemos decir a STATA , que vamos a trabajar sobrevida, para lo que usamos la
orden stset, la orden debe decir la variable tiempo y la variable evento (desenlace), para
nuestro ejemplo, con los Menús desplegables:
63
Estadísticas/Análisis de supervivencia/ Especificaciones y utilidades/ Declarar estructura de datos de
supervivencia
64
También pudo darse la orden por medio de la ventana de órdenes. Digitando:
65
Seleccionar Graficar función de supervivencia de Kaplan – meier. Escoger la variable de agrupación
drug , luego OK, con lo que obtiene un grafico:
66
Puede apreciar que la caída más rápida de la sobrevida se da con placebo, luego el tratamiento A y
más lenta es la caída con el tratamiento B.
Para poder saber si efectivamente hay una diferencia estadística entre las curvas de sobrevivencia
se usa el test log Rank,
67
Allí hay que escoger la variable drug , luego OK , con loa que se obtiene el test de log Rank, en
nuestro ejemplo salió:
con lo que podemos concluir, que hay diferencia entre las curvas de sobrevida.
68