Documente Academic
Documente Profesional
Documente Cultură
SOFTWARE shop
3020 Issaquah Pine Lake Rd
Sammamish WA, 98075 USA
________________________________________________________________________________
Copyright 2013 por SOFWARE Shop
Todos los derechos Reservados
Ni la totalidad ni parte de esta publicacin pueden reproducirse, registrarse o transmitirse, por un sistema de
recuperacin de informacin, en ninguna forma ni por ningn medio, sea electrnico, mecnico, fotoqumico,
magntico o electroptico, por fotocopia, grabacin o cualquier otro, sin permiso previo por escrito del autor.
DARWIN MARCELO
Darwin Marcelo tiene nueve aos de experiencia en investigacin aplicada en economa a travs
de distintos pases de Amrica Latina. El principal rea de enfoque de su trabajo ha sido el
desarrollo sostenible, con nfasis en infraestructura, desarrollo rural, violencia, empleo y pobreza.
Posee fuertes conocimientos en anlisis y habilidades en econometra aplicada, mtodos de
evaluacin de impacto, modelos estadsticos y manejo de software como Stata, Eviews, Systat,
Rats, GIS, Axum y MI Win.
Cuenta con cuatro aos de experiencia en el departamento de economa, desarrollo sostenible
para Amrica Latina y el Caribe del Banco Mundial y 5 aos de experiencia como economista en el
Departamento Nacional de Planeacin de Colombia.
As mismo, ha trabajado como consultor externo en el Instituto de Polticas de Desarrollo de
Colombia (IPD), el Programa Nacional de Desarrollo Humano (PNDH), el Departamento Nacional
de Estadstica (DANE), la Presidencia de la Republica de Colombia, y se ha desempeado como
profesor en la facultad de economa de la Universidad Central y de la Universidad Javeriana.
BRAYAN ROJAS
Economista de la Universidad Nacional de Colombia, con especializacin en Gestin de Riesgo y
Control de Instituciones Financieras de la Universidad de los Andes, realizando posgrado en
estadstica en la Universidad Nacional de Colombia.
Profesor de la Universidad del Rosario y de la Universidad Piloto, trabaj en el rea de
Investigaciones del Banco de la Repblica de Colombia. Posee fuertes conocimientos en anlisis y
habilidades en econometra aplicada, modelos estadsticos y manejo de software como Stata,
Eviews, Risk Simualtor, Crystal Ball, @Risk, Rats, entre otros.
Ha impartido varias capacitaciones en temas de estadstica y riesgos financieros a importantes
entidades como bancos centrales, ministerios, bancos y empresas reguladoras en el sector
financiero, universidades a nivel Latinoamrica.
CONTENIDO
1.
INTRODUCCIN ........................................................................................................................... 1
1.1
2.
2.1
2.2
2.3
2.3.1
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.10.1
3.
3.4
3.1.1
3.1.2
3.1.3
3.1.4
3.1.5
3.4.1
3.5
3.6
3.7
3.8
3.9
3.10
3.1
3.2
3.3
Actualizaciones en Stata:............................................................................................. 8
3.10.1
Rename ..................................................................................................................... 32
3.10.2
3.10.3
Notes ......................................................................................................................... 32
3.11
3.12
3.13
3.14
3.15
3.16
3.17
3.18
3.19
3.12.1
Recode ....................................................................................................................... 34
3.12.2
3.13.1
3.13.2
3.14.1
Collapse ..................................................................................................................... 39
3.14.2
Reshape ..................................................................................................................... 40
3.14.3
Xpose ......................................................................................................................... 43
3.14.4
Stack .......................................................................................................................... 44
3.15.1
3.15.2
3.15.3
3.18.1
3.18.2
Ejercicio ..................................................................................................................... 53
3.19.1
capture ...................................................................................................................................... 55
4.
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.5.1
Media ........................................................................................................................ 60
4.5.2
Varianza ..................................................................................................................... 61
4.5.3
Proporciones ............................................................................................................. 61
4.6.1
Tabstat ....................................................................................................................... 62
4.6.2
4.6.3
Table .......................................................................................................................... 64
4.9
4.8.1
4.8.2
4.8.3
4.8.4
Tablas de frecuencia.................................................................................................. 72
4.8.5
Correlaciones............................................................................................................. 73
4.8.6
4.8.7
4.8.8
4.8.9
4.8.10
4.8.11
Ejercicio ..................................................................................................................... 80
4.9.1
5.
5.1
5.2
5.3
5.4
5.4.1
5.5
5.6
5.7
5.8
5.9
5.10
5.11
5.12
6.
6.1
6.2
6.3
6.4
6.5
5.11.1
5.11.2
5.11.3
5.11.4
5.11.5
5.11.6
5.11.7
6.6
6.7
6.5.1
6.5.2
6.6.1
6.6.2
6.6.3
6.6.4
6.6.5
Pronstico ...........................................................................................................................................120
6.7.1
Representacin grfica del pronstico de la variable dependiente y su relacin con
los regresores .......................................................................................................................... 120
6.7.2
6.8
6.9
6.10
7.
7.1
7.2
7.3
7.4
6.9.1
6.9.2
7.1.1
7.1.2
7.1.3
7.2.1
7.2.2
7.2.3
7.3.1
7.3.2
7.3.3
7.3.4
7.3.5
7.4.1
7.5
8.
Modelos con variable dependiente binaria MLP, Logit y Probit ............................ 144
8.1
8.1.1
8.1.2
8.1.3
8.2
Metodologa Box Jenkins (BJ) aplicada al caso de seleccin y estimacin de un modelo arma para
pronstico de la inflacin. ................................................................................................................................152
8.3
8.4
9.
9.1
8.2.1
8.2.2
8.2.3
8.2.4
8.2.5
8.2.6
8.3.1
8.3.2
8.3.3
8.3.4
9.1.1
9.2
9.2.1
9.2.2
9.2.3
9.2.4
9.3
10.
10.1
10.2
10.3
10.2.1
10.2.2
10.2.3
10.2.4
10.3.1
11.
11.1
11.2
11.3
11.4
11.5
12.
1. INTRODUCCIN
Este manual es de carcter acadmico y representa una gua para los usuarios de Stata.
El manual contiene 216 pginas, las cuales describe los principales usos para un usuario
de diferente nivel y estudios. Para el mejor entendimiento del manual se describe el
siguiente cuadro:
Descripcin
Caractersticas
Comando
Notas o recomendaciones
Mensajes de Error
Intercooled Stata
Stata/SE
Stata/MP
Stata/IC
1,200
2,147,483,647
2,147,483,647
99
2,047
32,767
2.1
Una vez que se hace clic en el icono de Stata en el men de inicio, se despliegan los
siguientes cuadros de trabajo. Estas ventanas constituyen el cuerpo bsico Stata para
llevar a cabo un anlisis de datos, teniendo una interface bastante amigable.
1
Para conocer todas las diferencias entre las versiones de Stata, dirigirse a la ayuda por medio del comando
help limits.
VENTANA DE
REVISIN
VENTANA DE
VARIABLES
VENTANA DE RESULTADOS
VENTANA DE COMANDOS
VENTANA DE
PROPIEDADES DE
VARIABLES
Ventana de Variables:
Ventana de Comandos:
Ventana de Resultados:
Ventana de Revisin:
Barras
Barra de Nombre
Barra de
Mens
Barra de
Herramientas
Figura 2. Men de Stata
Barra de Nombre:
Barra de Mens:
Barra de Herramientas:
2.3
El men de ayuda
Buscar informacin sobre algn tema, la rutina que permite ejecutarla en Stata, o el
sitio desde donde es posible descargar la macro para alimentar el programa.
Instalar programas de Stata escritas por otros usuarios, desde el Stata Journal o del
boletn tcnico Stata Technical Bulletin.
El sistema de ayuda para los comandos de Stata es una de las herramientas que ms
rpidamente puede familiarizar al usuario con el manejo de Stata. Alternativamente al
sistema de ventanas, el usuario puede digitar en el cuadro de comandos help seguido del
comando del cual desea informacin.
Por ejemplo al digitar en el cuadro de comandos: help describe emerge la siguiente
ventana
Con frecuencia, el usuario desconoce el nombre del comando especfico que realiza algn
procedimiento en Stata. En estos casos es conveniente realizar una bsqueda temtica
por medio del comando search. A travs de este comando Stata realiza una bsqueda en
lnea en:
Por ejemplo, suponga que se quiere calcular en Stata el coeficiente de concentracin gini
(procedimiento muy conocido en economa y estadstica), pero no se sabe si Stata realiza
este clculo y, adems, si es posible hacerlo, no se conoce el comando para ejecutarlo.
En estos casos el comando search resulta de gran ayuda. Por ejemplo al escribir en el
cuadro de comandos
. search gini
Actualizaciones en Stata:
2.4
Tipos de archivo
Antes de iniciar una sesin de trabajo es importante tener en cuenta que Stata opera a
travs de diferentes tipos de archivos.
Tipo de Archivo
Extensin
Archivos de datos
*.dta
Archivos grficos
*.gph
Bitcoras de salida
*.smcl
Archivos de comandos
*.do
Archivos de programacin
*.ado
2.5
Estructura de comandos
La creacin de las variables se realiza por medio del comando generate, los comandos en
Stata no son necesarios escribirlos en su totalidad. La mayora de los comandos pueden
ser reducidos en un prefijo, para conocer el prefijo de cada comando escriba help nombre
del comando y en la ayuda, aparecer subrayado el nombre hasta cierto carcter
indicando que puede usar solamente ese texto para ejecutar el comando, por ejemplo g
es igual a generate
[by varlist:] Command [varlist] [=exp] [if exp] [in range] [weight] [using filename] [,options]
Por ejemplo:
Se debe tener en cuenta que Stata distingue entre letras maysculas y minsculas. Todos
los comandos del programa se deben escribir en letras minsculas. De lo contrario el
programa no lo reconoce. Los parntesis cuadrados indican que no es un carcter
obligatorio dependiendo el comando especfico.
Es posible usar con Stata prefijos para algunos comandos, por ejemplo, el comando
regress que permite realizar el procedimiento de regresin se puede ejecutar digitando
solamente los tres primeros caracteres, es decir al tener reg ejecuta la misma funcin que
al escribir regress.
Para conocer mayor informacin sobre la estructura de los comandos de Stata, busque
informacin as: help syntax
2.6
Ventana de comandos
Es comn encontrar en las ventanas emergentes de Stata el nombre del comando que
permite realizar la instruccin que se le ordenar al programa para que realice, por
ejemplo, al seguir la ruta
File Import Text Data created by a spreadsheet
En este caso es el comando insheet. A continuacin se explican algunas caractersticas
generales de las ventanas emergentes de Stata para la realizacin de procedimientos,
este manual no presentar las ventanas en las cuales se ejecutan las instrucciones sino
los comandos y las opciones correspondientes.
Comando
Ayuda de la
instruccin
Copiar como
comando
Limpiar la
ventana
Ejecutar
No Ejecutar
Ejecutar y
mantener
la ventana
activa
2.7
Es muy importante que antes de empezar una sesin de trabajo el usuario configure la
cantidad de memoria RAM que necesita de lo contrario emerger el siguiente error:
no room to add more observations
r (901);
2.8
La sintaxis para cargar y salvar datos puede ser muy extensa dependiendo de la ruta de
acceso a las bases de datos o el lugar en el disco duro donde se quieran almacenar los
resultados. Una forma prctica de abreviar la sintaxis en ambos casos consiste en
indicarle a Stata, antes de comenzar la sesin de trabajo, el lugar en el disco duro de
donde se desean tomar los datos y donde se quieren almacenar los resultados. Este
procedimiento se lleva a cabo a travs del comando cd as:
. cd "C:\...."
La otra opcin es por medio del Men File Change Working Directory
Entre comillas se debe encontrar la direccin o ruta de la carpeta donde se encuentran las
bases de datos que sern empleadas en la sesin de trabajo de Stata.
2.9
Si desea conocer qu versin tiene de Stata y la configuracin de la memoria y la licencia del programa
escriba el comando about o creturn list.
3
Se recomienda revisar la ayuda sobre el comando set y el comando memory
11
dado que la ayuda en muchas ocasiones se referencia a las bases de datos del software,
para acceder a ellas siga la ruta File Example Datasets Example datasets installed
with Stata o para acceder a todas las bases de datos seleccione Stata 12 manual
datasets pero debe tener acceso a internet.
El comando asociado es:
* para ver el directorio de bases de ejemplo en su equipo
* cargar la base auto.dta que es una base de ejemplo de Stata
. sysuse dir
. sysuse auto.dta
VARIABLE
CUANTITATIVA
Continua
CUALITATIVA
Discreta
Ordinal
Nominal
12
RANGO
TIPO DE VARIABLE
FORMATO
MNIMO
MXIMO
-127
100
%8.0g
-32,767
32,740
%8.0g
-2,147,483,647
2,147,483,620
%12.0g
Float
-1.70141E+38 1.70141173319*10^38
%9.0g
Double
-8.9885E+307 8.9884656743*10^307
%10.0g
Byte
Int
Long
El nmero que aparece despus del smbolo % es el nmero mximo de dgitos enteros o
ancho que soporta el formato y el nmero a la derecha ndica el nmero de decimales,
posteriormente se encuentra una letra. Donde [f] es aproximacin al entero ms cercano,
[e] indica notacin cientfica y [g] indica decimales.
Stata por defecto selecciona el formato FLOAT, el otro tipo de variables son las variables
alfanumricas, estas variables en las que se encuentran principalmente las variables
cualitativas, Stata define un formato especial para ellas, y es el formato STRING, %str#
es la visualizacin de este formato, en el cual el carcter # indica el largo de la cadena.
2.10.1 Formato de las variables:
El formato de las variables hace referencias a la forma como son almacenadas y
desplegadas las variables en STATA. Para cambiar el formato de una de una variable a
travs del lenguaje de sintaxis debe tener en cuenta que el formato de toda variable
siempre antecedido por el smbolo %.
Variables de cadena
% 20 s
Inicio de un formato
Variable String
nmero de caracteres
Variable numrica
13
% 10. 0 g c
opcional, separados de
miles por comas
Inicio de un formato
Dgitos antes del punto decimal
Dgitos despus del punto decimal
14
Hay ciertas caractersticas que usted podr aprender para el manejo de la informacin,
entre ellas los pasos fundamentales, como son, importar una base de datos, eliminacin,
transformacin de bases de datos, entre otros.
3.1.1
Un archivo tipo texto con extensin .log o .smcl4, permite guardar todo lo que usted
digite y ejecute en la lnea de comandos as como las salidas obtenidas en la ventana de
resultados realizadas durante la sesin activa de Stata.
Se recomienda que la extensin sea SMCL, dado que le permite conservar las fuentes y
colores de su ventana de resultados y adems podr configurarlo para imprimir.
15
3.1.2
El primer paso es cargar una base de datos, para ello depende el formato de la base de
datos. Es comn que los usuarios contengan su informacin en archivos tipo Excel, para
ello es necesario tener claro que Stata requiere que el separador decimal debe ser el
punto (.), para ello se recomienda utilizar la herramienta de buscar-reemplazar de Excel o
hacer cambio de la configuracin de Excel o de la configuracin regional de su equipo.
Recuerde que las bases de datos de Stata finalizan con la extensin .dta, cuando se tiene
un base tipo Stata para abrirla puede utilizar la ruta File Open o mediante el teclado
CTRL+ O y seleccionar el archivo o por el cono abrir de la barra de herramientas, por
medio de comandos podr usar la instruccin use
. use "C:\Users\Brayan\Desktop\ipc_raw.dta", clear
Recuerde la seccin 2.8 en donde se indica como activar un directorio de trabajo para no
tener que referenciar la ruta o path en donde se encuentra el archivo; si ya tiene un
directorio activo la instruccin es:
. use ipc_raw, clear
Dado que la instruccin solo importa bases de datos de formato Stata no se requiere
ingresar la extensin .dta.
Finalmente con el comando use podr seleccionar solamente las variables que desea
usando la opcin using importar por ejemplo
. use fecha ipc inflacin using ipc_ra, clear
3.1.3
Es comn que las bases de datos y los archivos que se usan a diario por las empresas y
sus trabajadores sean de hojas de clculo, para facilitar el trabajo de uso de Stata cuando
las bases son de una hoja de clculo se puede sin mayor problema copiar los datos de la
hoja correspondiente y posteriormente en la ventana edit dar clic derecho y seleccionar
pegar o la secuencia CTRL+V, de sta forma Stata reconoce los datos correspondientes.
El software abrir una ventana en donde se pregunta si los datos que se encuentran en la
primera fila son las etiquetas de los datos o si no lo son, dependiendo de la fuente de los
datos se toma la decisin.
Nota: El usuario debe tener sumo cuidado con el formato de la base original dado que Stata
trabaja los separadores decimales con el punto y no con la coma como se usa en la configuracin
de los computadores con idioma espaol. Para ello se recomienda al usuario cambiar el formato de
separador decimal y de miles en su hoja de clculo o directamente desde la configuracin regional
17
de su equipo. De igual forma usar la tcnica de buscar y reemplazar le permite obtener un buen
resultado.
Filter Observations
Variable Properties
Variables Manager
Edit Mode
Snapshots
Browse Mode
18
Busque el
archivo de
Excel
Seleccione
la hoja a
importar
Active la casilla si en
su hoja la primera fila
contiene los nombres
de las variables
Seleccione el
rango de los
datos
Nota: Para poder importar la base de datos debe tener cerrada la base de datos de lo contrario el
asistente no realizar la importacin.
sheet("sheetname")
cellrange([start][:end])
firstrow
allstring
clear
19
3.1.5
Hay otro tipo de archivos que Stata le permite importar automticamente como archivo
para ello se recomienda tener en cuenta las siguientes recomendaciones:
TIPO DE BASE
ODBC
Archivo de Texto sin diccionario
(.raw)
Archivo de Texto con ancho fijo
(.raw)
Archivo de Texto con diccionario (
Formatos SAS XPORT o .xpf
Formato tipo haver
XML files
COMANDO
Odbc
Infile
Infix
infile2
import sasxport
Haver
Xmlsave
Como los datos han sido cargados en la memoria RAM, slo puede modificarse la base
de datos original de tres formas
La opcin replace le permite sobre escribir un archivo que tenga en el mismo directorio de
trabajo activo y con el mismo nombre.
Una vez que los datos han sido guardados o abiertos es posible optimizar el espacio que
estos ocupan utilizando el comando compress este comando comprime la base de datos.
Es muy til cuando se trabaja con bases de datos grandes.
3.3
Una vez se tenga una base de datos cargada, es necesario empezar a revisarla y obtener
informacin de ella, para ellos Stata le permite al usuario por medio de diferentes
procedimientos entender cada variable y su contenido.
20
Lo primero que debe realizar el usuario una vez importa o abre una base de datos es
observar la base, para ello se encuentran diferentes formas de visualizar los datos, entre
ellas las opciones de edit y de browse, las cuales abren una ventana con forma de hoja de
clculo, la otra opcin es por medio del comando list que permite visualizar la o las
variables en la ventana de resultados, se recomienda usar los comandos edit, browse y
list con las opciones if in (ver ms informacin en la seccin 3.4).
Adicional a esto el usuario puede recibir informacin especfica de cada variable por
medio de las opciones del men Data Describe Data. En ste men las opciones de
describe data in memory, describe data contents e inspect variables, le da la posibilidad al
usuario de obtener informacin correspondiente al nombre, la etiqueta, el tipo y formato
de la variable, notas, etiquetas sobre valores, el nmero de valores perdidos, entre otras.
A continuacin se presenta un ejemplo del uso de estos comandos
. sysuse auto
. browse
21
variable name
storage
type
make
price
mpg
str18
int
int
display
format
value
label
variable label
%-18s
%8.0gc
%8.0g
Cuando se desea aplicar un comando para todas las variables de la base de datos podr
hacerlo ingresando el comando sin incluir ninguna variable de esta forma Stata tomar la
instruccin para toda la base de datos, otra alternativa es escribir _all posterior al
comando por ejemplo:
. sysuse auto
. describe _all
variable name
make
price
mpg
rep78
headroom
trunk
weight
length
turn
displacement
gear_ratio
foreign
storage
type
str18
int
int
int
float
int
int
int
int
int
float
byte
display
format
%-18s
%8.0gc
%8.0g
%8.0g
%6.1f
%8.0g
%8.0gc
%8.0g
%8.0g
%8.0g
%6.2f
%8.0g
value
label
variable label
origin
3.4
Creacin de Variables
Por medio del men Data se puede encontrar opciones como crear nuevas variables
Data Create or Change Data Create New Variable:
22
23
Tabla 9. Operadores
En algunas ocasiones se requieren algunos caracteres especiales, uno de ellos son los
caracteres _n y _N o denominadas variables del sistema, _n es un contador del nmero
de observaciones, y _N indica el total de observaciones de la base de datos.
. gen tendencia = _n
. gen totales = _N
#/#
#/l
f/#
-#/# Condicin desde las ltimas # observaciones hasta # que puede ser la ltima
con l, *L minscula*
A continuacin se listan algunas funciones matemticas, estadsticas y de fecha
importantes en la creacin de variables
Funcin
ln()
exp()
sqrt()
abs()
cos()
logit()
runiform()
Ejemplo
g lpib = ln(pib)
g epib = exp(pib)
g y = sqrt(epib)
g x = abs(y)
g coseno = cos()
g logit = logit(x)
g uniforme = runiform()
rnormal()
g normal = rnormal()
rnormal(m,s)
g normal = rnormal(10,2)
int()
invnormal(p)
g enteros = int(pib)
g inversa = invnormal(prob)
length(s)
g largo = length(nombre)
Descripcin
Logaritmo natural
Exponencial
Raz cuadrada
Valor absoluto
Coseno
Retorna el logaritmo de los odds ratio de x
Genera nmeros aleatorios de una distribucin
uniforme [0,1)
Genera nmeros aleatorios de una distribucin
normal estndar (0,1)
Genera nmeros aleatorios de una distribucin
normal con media m y desviacin estndar s
Convierte una variable o dato en entero
Genera una variable como la inversa de la
probabilidad de una distribucin normal
Presenta el nmero de caracteres de una
variable string
Ejemplo:
. use personas, clear
25
Para recodificar variables (cambiar los valores de una variable) se pueden utilizar los
comandos recode (ver ms informacin en la seccin 3.12.1) o replace. Por ejemplo, si se
quiere reemplazar en la variable men25 los valores perdidos . por 0 una opcin es
emplear el comando replace as:
. replace men25=0 if men25==.
Podemos utilizar algunos comandos adicionales para la creacin de variables con algunas
condiciones, tales como el comando egen y la funcin cond()
Ejemplo:
. gen dummy = cond(TV>5,1,0)
. gen dummy = (TV>5)
. egen concatenar = concat(variable1 variable2)
FUNCIN
max()
min()
mean()
kurt()
sd()
EJEMPLO
egen maximo = max(ingresos)
egen minimo = min(ingresos)
egen promedio = mean(ingresos)
egen curtosis = kurt(ingresos)
egen desviacin = sd(ingresos)
DESCRIPCIN
Presenta el mximo de una variable
Presenta el mnimo de una variable
Presenta el promedio de una variable
Presenta la curtosis de una variable
Presenta la desviacin estndar de una
variable
3.5
26
27
Codebook e Inspect
foreign
type:
label:
numeric (byte)
origin
range:
unique values:
[0,1]
2
tabulation:
Freq.
12
3
units:
missing .:
Numeric
0
1
1
0/15
Label
Domestic
Foreign
type:
numeric (int)
range:
unique values:
[12990,15906]
5
tabulation:
Freq.
3
3
3
3
3
units:
missing .:
1
0/15
Value
12990
13466
13594
14500
15906
28
. inspect rep78
rep78:
#
#
#
#
#
#
Number of Observations
Total
69
Negative
Zero
Positive
#
#
#
#
#
Total
Missing
Integers
69
69
5
Nonintegers
-
69
74
(5 unique values)
3.8
Es importante cuidar la base de datos que se est trabajando, por eso se recomienda
salvar la base de datos, pero adems, Stata ofrece opciones que le permitirn al usuario
guardar la base de datos de forma virtual, por medio de los comandos preserve y
snapshot y para recuperar la base con el comando restore
. preserve
. restore
. snapshot save, label("nombre del elemento guardado")
. snapshot restore 1
Snapshot
Remover Snapshot
Cambiar el nombre
Agregar
Snapshot
Restaurar
La diferencia entre el snapshot y el preserve es que este ltimo solo permite guardar una
vez la base de datos, mientras el snapshot varias veces.
3.9
> 10000000
> 10000000 & marriage > 100000
> 10000000 & marriage > 100000 & popurban > 10000000
> 10000000 | marriage > 100000 & popurban > 10000000
Uso del in
29
Se puede combinar con que realizar el filtro puede usar los comandos browse, edit, keep,
drop y list.
drop elimina observaciones y/o variables, keep conserva observaciones y/o variables, list
presenta variables y/o observaciones en la ventana de resultados, edit permite visualizar
los datos en una hoja de datos y podr editar y modificar los datos, browse realiza las
mismas opciones de edit pero no se puede modificar la informacin.
El comando keep y drop tienen la misma estructura
keep/drop variables
keep/drop if expression
keep/drop in rango
Ejemplo:
. sysuse census
. sort popurban
. keep in -10/l
30
31
3.10.1 Rename
Este comando permite cambiar el nombre de una variable. Por ejemplo:
rename nombreviejo nombrenuevo
. rename price precio
3.10.3 Notes
Se pueden crear dos tipos de notas, una para las variables o para la base de datos, a
continuacin un ejemplo para cada caso:
. notes divorce: 1 si la persona es divorciada, 0 en otro caso
. notes _dta: Censo 1994
32
Para crear una nueva etiqueta haga clic en Create Label, en la figura 17 podr agregar,
eliminar y editar las categoras con su correspondiente descripcin.
Una vez haya creado la etiqueta deber asignarla a la(s) variable(s) que correspondan,
para ello en el administrador de variable a la izquierda de Manage seleccione el nombre
de la etiqueta.
33
*Ejemplo 1
*Ejemplo 2
34
o en forma alternativa
recode e02 (min/17=1 "Menores de edad") (18/25=2 "Entre 18 y 25 aos") (26/40=3 "Entre 26 y 40 aos")
(41/60=4 "Entre 41 y 60 aos") (61/max=5 "Mayores de 60 aos"), gen(gedad)
La variable gedad es una recodificacin de e02 (edad). Note que se han aplicado
etiquetas a cada una de las categoras entre comillas.
. codebook gedad
35
HOMBRES.dta
Adicin casos:
append
No es necesaria
variable llave
Adicin de variables:
merge
Es necesaria variable llave.
Las bases de datos deben
estar ordenadas.
Revisar la variable _merge
EDUCACION.dta
MUJERES.dta
38
3. Se aplica el comando merge para pegar horizontalmente las dos bases as:
Lo anterior crea una base de datos con cuatro variables, hogar, edad, ingreso y
educacin.
Con frecuencia, la informacin estadstica tiene algn grado de reserva o confidencialidad
que la hace no accesible al pblico en su forma original. La mayor parte de la informacin
proveniente de bases de datos grandes, por ejemplo las encuestas (de personas, de
hogares, de empresas de la industria manufacturera, etc.) o los censos (de poblacin, de
instituciones educativas, de edificaciones, etc.) suele ser presentada en tablas resumen y
en bases de datos colapsadas o agregadas.
En Stata es posible colapsar bases de datos a travs del comando collapse. Debe
tenerse en cuenta:
1. La(s) variable(s) de agregacin: Variable(s) que definen las nuevas unidades de
observacin u observaciones agregadas.
39
La variable edu007 corresponde a los aos de educacin promedio y jefe a la suma de los
jefes de hogar, en ambos casos, por localidad y sexo.
3.14.2 Reshape
En algunas ocasiones dependiendo del estudio muestral y de la construccin de la base
de datos, usted encontrar su informacin en dos formatos, ancho (wide) y largo (long), el
formato ancho es aquel en el cual usted tiene un conjunto i de individuos y un nmero j de
variables, donde j es generalmente una variable con informacin para diferentes perodos
de tiempo.
Para mostrar un ejemplo, se utilizar la base de datos reshapeState descrita en el libro
[1]:
. use http://www.Stata-press.com/data/imeus/reshapeState, clear
. list
40
state
pop1970
pop1980
pop1990
pop2000
area
1.
2.
3.
4.
5.
CT
MA
ME
NH
RI
.1369841
.6432207
.5578017
.6047949
.684176
.6184582
.0610638
.5552388
.8714491
.2551499
.4241557
.8983462
.5219247
.8414094
.2110077
.2648021
.9477426
.2769154
.1180158
.4079702
.871691
.4611429
.4216726
.8944746
.0580662
6.
VT
.1086679
.0445188
.5644092
.7219492
.6759487
wide
>
Number of obs.
6
Number of variables
6
j variable (4 values)
xij variables:
pop1970 pop1980 ... pop2000
->
long
->
->
->
24
4
ao
->
pop
41
state
ao
pop
area
1.
2.
3.
4.
5.
CT
CT
CT
CT
MA
1970
1980
1990
2000
1970
.1369841
.6184582
.4241557
.2648021
.6432207
.871691
.871691
.871691
.871691
.4611429
6.
7.
8.
9.
10.
MA
MA
MA
ME
ME
1980
1990
2000
1970
1980
.0610638
.8983462
.9477426
.5578017
.5552388
.4611429
.4611429
.4611429
.4216726
.4216726
11.
12.
13.
14.
15.
ME
ME
NH
NH
NH
1990
2000
1970
1980
1990
.5219247
.2769154
.6047949
.8714491
.8414094
.4216726
.4216726
.8944746
.8944746
.8944746
16.
17.
18.
19.
20.
NH
RI
RI
RI
RI
2000
1970
1980
1990
2000
.1180158
.684176
.2551499
.2110077
.4079702
.8944746
.0580662
.0580662
.0580662
.0580662
21.
22.
23.
24.
VT
VT
VT
VT
1970
1980
1990
2000
.1086679
.0445188
.5644092
.7219492
.6759487
.6759487
.6759487
.6759487
Si se encuentra usted con una base de datos similar a la generada con el comando
reshape, podr pasarla a formato wide, en nuestro caso se usar la siguiente sintaxis
reshape wide pop, i(state) j(year)
Continuando con el ejemplo de la encuesta de hogares. Se puede hablar de orientacin
vertical u horizontal cuando a cada una de las observaciones i en una base de datos, se
las segmenta por algn criterio j (v.g., diferentes periodos de tiempo). En nuestro ejemplo,
cada una de las localidades i, ha sido segmentada por sexo j, mientras que la base de
datos en conjunto ha sido desplegada de forma vertical. En este caso sin embargo, puede
resultar ms cmodo emplear una base de datos orientada horizontalmente, en particular
si se quieren hacer comparaciones para cada una de las localidades entre hombres y
mujeres. Se puede emplear el comando reshape, acompaado de las opciones wide
(despliegue horizontal) o long (despliegue vertical), para cambiar la orientacin de la base
de datos colapsada as:
. reshape wide edu007, i(localid) j(e03)
42
3.14.3 Xpose
Usted podr modificar la orientacin de una forma completa en su base de datos, es decir,
pasar de filas a columnas (similar a realizar un transponer en Excel), debe tener cuidado
dado que no podr retornar a la posicin inicial.
43
3.14.4 Stack
El comando stack le permitir a usted fusionar variables por ejemplo tiene los meses de
cada ao ordenados en columnas y quiero formar una sola variable con todos los meses
para todos los aos.
44
45
make
1.
2.
3.
4.
5.
price
Cad. Eldorado
Cad. Seville
Linc. Mark V
Linc. Versailles
Peugeot 604
14,500
15,906
13,594
13,466
12,990
De acuerdo al comando usado, los datos se encontrarn 3 veces en la base de datos, tal
y como se presenta a continuacin.
. sort make price
. list make price
make
1.
2.
3.
4.
5.
Cad.
Cad.
Cad.
Cad.
Cad.
price
Eldorado
Eldorado
Eldorado
Seville
Seville
14,500
14,500
14,500
15,906
15,906
6.
7.
8.
9.
10.
Cad. Seville
Linc. Mark V
Linc. Mark V
Linc. Mark V
Linc. Versailles
15,906
13,594
13,594
13,594
13,466
11.
12.
13.
14.
15.
Linc. Versailles
Linc. Versailles
Peugeot 604
Peugeot 604
Peugeot 604
13,466
13,466
12,990
12,990
12,990
46
El comando isid nos permite asegurar que una variable es una codificacin nica dentro
de una base de datos, este comando se usa generalmente para chequear que no existan
observaciones duplicadas dentro de una base de datos. Si la variable tiene exactamente
valores nicos entonces no emerge ningn mensaje, de lo contrario aparece lo siguiente:
. isid foreign
47
copies
observations
surplus
15
10
El resultado indica que hay 15 observaciones en total de las cuales hay 10 en exceso o
duplicadas, indica adicionalmente que para cada observacin hay 3 copias.
Para ver el listado total de elementos duplicados
. duplicates list make
48
group:
obs:
make
1
1
1
2
2
1
6
7
2
8
Cad.
Cad.
Cad.
Cad.
Cad.
2
3
3
3
4
9
3
10
11
4
Cad. Seville
Linc. Mark V
Linc. Mark V
Linc. Mark V
Linc. Versailles
4
4
5
5
5
12
13
5
14
15
Linc. Versailles
Linc. Versailles
Peugeot 604
Peugeot 604
Peugeot 604
Eldorado
Eldorado
Eldorado
Seville
Seville
Como se puede observar para cada marcar de automvil hay dos valores adicionales, lo
que ya nos haba indicado la opcin report informando que haban tres observaciones
para cada categora.
La siguiente opcin Tags duplicates permite crear una variable que indica el nmero de
valores adicionales en este caso ser 2, si se utiliza el tag y se realiza una lista se
apreciar el resultado.
. duplicates tag make, generate(duplicado)
. list make duplicado
make
1.
2.
3.
4.
5.
Cad.
Cad.
Cad.
Cad.
Cad.
duplic~o
Eldorado
Eldorado
Eldorado
Seville
Seville
2
2
2
2
2
6.
7.
8.
9.
10.
Cad. Seville
Linc. Mark V
Linc. Mark V
Linc. Mark V
Linc. Versailles
2
2
2
2
2
11.
12.
13.
14.
15.
Linc. Versailles
Linc. Versailles
Peugeot 604
Peugeot 604
Peugeot 604
2
2
2
2
2
49
make
1.
2.
3.
4.
5.
Cad. Eldorado
Cad. Seville
Linc. Mark V
Linc. Versailles
Peugeot 604
*.do y *.ado. Los archivos *.do son conjuntos de comandos y macros que nicamente se
pueden ejecutar cuando el archivo est activo. En contraste, los archivos *.ado son rutinas
que se incorporan a STATA permanentemente y pueden ser ejecutadas desde la el
cuadro de comandos o incluso desde otros archivos *.do y *.ado. Se accede a este editor
como se muestra en la siguiente ilustracin, presionando CTRL+9 o haciendo clic en el
submen Do-file Editor en el men Window en la barra de herramientas5.
3.18 Ejemplo aplicado
En ocasiones las bases de datos no se encuentran completas, por un lado por datos
faltantes en columnas o en filas, por lo tanto en esta seccin se explica cmo aadir
nuevas observaciones de bases de datos externas utilizando comandos como merge y
append.
1. Se utiliza la base de datos llamada REGION19572004, la cual contiene datos de
1957 hasta 2004 para pases de la regin latinoamericana excluyendo a Chile para
efectos de aprendizaje, la cual fue descargada de la base de datos de
https://pwt.sas.upenn.edu/.
2. Se utiliza la base de datos llamada POBLACION19572004, la cual contiene la
poblacin de cada pas en cada periodo de tiempo, y se aplicara el comando
merge, con el objetivo de agregar esta variable a la base de datos del primer punto
de forma vertical.
3. Se utiliza la base de datos llamada CHILE19572004, la cual contiene las misma
variables que el punto uno y dos, pero solo para el pas de Chile, se aplicara el
comando append, con el objetivo de agregar una nueva observacin de orden
horizontal.
4. Se identificara algunos comandos bsicos para el manejo de bases de datos tales
como: browse, codebook, describe, drop in, drop, keep, sort, save,
. cd "C:\Users\SOFWARESHOPFILES"
. use "POBLACION19572004"
. sort country year
. browse
. save "POBLACION19572004.dta", replace
. use "REGION19572004"
. sort country year
. merge 1:1 country year using "POBLACION19572004"
. br
.codebook _merge
.drop _merge
51
Por ejemplo, se desea mantener en memoria aquellas variables que cumplan con alguna
condicin en este caso para aquella poblacin que sea mayor a 30.000.000.
. keep if pop>=30000
Por ejemplo, se desea que se eliminen las dos primeros aos para cada pas.
. by country: drop if year==1957 | year==1958
52
3.18.2 Ejercicio
1. Utilizar las bases de datos de calidad de vida para el pas Colombia ao 2010:
Dbfp_encv_547_1, Dbfp_encv_547_4, Dbfp_encv_547_5.
2. Se debe aplicar el comando merge 1:1 para consolidar las tres bases de datos,
siendo la base de datos Dbfp_encv_547_1 master.
3. Recomendaciones: elegir la llave correcta, eliminar los datos que se desean
excluir de la muestra (e.g. Nro_encuesta, nro_encuesta) drop, organizar de forma
ascendente la llave sort, guardar la bases de datos con nombre alternos (e.g.
20101, 20102, 20103) save, aplicar el comando merge.
53
invnormal()
keep
label
list
log
merge
mvdecode
mvencode
open
order
outfile
prefix
recode
rename
replace
reshape
save
snapshot
sort
sysuse
use
uniform()
varmanage
xpose
54
mat
more
notes
sample
seed
separate
split
stack
svy
tostring
translate
version
operators
55
Clear--more
Break
Pero es posible desactivar la opcin para que aparezca todo el resultado inmediatamente
por medio de set more off.
Para el anlisis estadstico el men Statistics permite obtener gran cantidad de opciones
para poder desarrollar los temas del manual. Por ejemplo en Statistics Summary,
tables, and test Summary and descriptive statistics:
56
Estadstica descriptiva
Lo que se genera:
4.2
Ponderadores -weight-
fweight: frequency weights, indica el nmero de casos que representa realmente cada
observacin muestral. La variable debe contener enteros positivos.
pweight: sampling weights, indica la inversa de la probabilidad de seleccin muestral de
cada observacin. Han de ser positivos, pero no necesariamente enteros.
aweight: analytic weights, indica los pesos inversamente proporcionales a la varianza de
cada observacin. Un uso tpico de este tipo de ponderacin es cuando las observaciones
son medias y el peso representa el nmero de elementos que generan la media. Han de
ser positivos, pero no necesariamente enteros.
Iweight (importance weights): estos comandos no tienen definicin estadstica formal,
simplemente representan de alguna forma la importancia que se atribuye a cada
observacin. Cada comando que los acepta explica cmo los utiliza puede tener cualquier
forma.
4.3
Calculo de medias
58
4.4
Intervalos de confianza
59
Obs
Mean
price
74
6165.257
Std. Err.
342.8719
5481.914
6848.6
4.5
Pruebas de hiptesis
4.5.1
Media
60
4.5.2
Varianza
4.5.3
Proporciones
4.6
Los comandos tabulate y table ofrecen a los usuarios de Stata una amplia gama de
posibilidades de descripcin y anlisis de datos a travs de diferentes tipos de
estadsticos y cruces de variables en cuadros de frecuencias y tablas de resumen.
Se puede encontrar en el submen StatisticsSummary, tables, and testTables
61
Gran variedad de opciones para analizar encuestas como tablas de doble y mltiple
entrada, de igual forma permite ver la tabla de frecuencias y de contingencia
4.6.1
Tabstat
62
4.6.2
Tabulate (tab)
El comando tabulate (en forma abreviada ta o tab) produce un cuadro de frecuencias para
diferentes valores o categoras de una variable. La sintaxis del comando es:
. tabulate rep78
Repair
Record 1978
Freq.
Percent
Cum.
1
2
3
4
5
2
8
30
18
11
2.90
11.59
43.48
26.09
15.94
2.90
14.49
57.97
84.06
100.00
Total
69
100.00
Combinado con la opcin plot, el comando tabulate genera un histograma horizontal que
describe grficamente la frecuencia de cada una de las categoras.
63
Se puede tabular de forma separada ms de una variable con el comando tab1. Para
visualizar las frecuencias de cada una de las variables creadas con el procedimiento
anterior se podr usar la siguiente sintaxis:
. tab1 ed1 ed2 ed3 ed4 ed5 ed6
4.6.3
Table
De otro lado, el comando table permite crear tablas de contingencia doble o mltiple y a
su vez definir el tipo de contenido estadstico para los campos de una tabla. La forma ms
simple de una tabla de contingencia es un cuadro de frecuencias absolutas. La sintaxis
para generar tablas de contingencia es:
Genera una tabla de frecuencia simple con el sub-total de personas que alcanzaron cada
nivel educativo. La tabla resultante tan slo tiene en cuenta las unidades sin expansin
disponibles en la muestra. Sin embargo, las opciones del comando table, permiten
obtener reportes mucho ms elaborados como se muestra a continuacin:
1.
La primera variable edu004 define las categoras de cada una de las filas de la tabla
de contingencia y la segunda variable e03 las categoras de cada columna.
3.
Los totales por columna y por fila para una o ms variables se obtienen con las
opciones col y row respectivamente as:
. table edu004 e03 [pw=fex], row col
4.
La opcin format permite dar formato a los contenidos de la tabla para facilitar la
lectura de los resultados. Por ejemplo, para desplegar la informacin con separadores
de miles y cero decimales la sintaxis es:
. table edu004 e03 [pw=fex], row col format(%10.0fc)
5.
Adems de las frecuencias absolutas, el usuario puede definir otro tipo de contenido
c() estadstico para los campos de la tabla. Por ejemplo, se pueden obtener en una
tabla de contingencia la edad promedio de hombres y mujeres por nivel educativo as:
65
mean
sd
sum
count
max
min
median
media de la variable
desviacin estndar
suma
conteo de observaciones
mximo
mnimo
mediana
Finalmente puede crear una variable dummy para cada categora, simplemente, se
agrega la opcin generate.
. tabulate rep78, generate(dummy)
4.7
Pruebas no paramtricas
66
Con el anterior test se comprueba que el precio y las millas por hora de un vehculo tienen
una relacin dependiente negativa.
Test
No
parmetrico
KSStatisticsSummarize,
tables
and
testNonparametric Test of hyphotesis Two- sample Kolmogorov-Smirnov test
Es una prueba de significancia estadstica no paramtrica para contrastar la
hiptesis nula cuando los parmetros de localizacin de ambos grupos son
iguales. Por lo tanto, la hiptesis nula describe que las dos distribuciones son
iguales y que existe evidencia de un patrn aleatorio, mientras que la hiptesis
alternativa corresponder a que existe un patrn no aleatorio.
67
A travs de esta prueba se puede inferir que la distribucin del precio de los vehculos es
igual para el grupo de vehculos que provienen del extranjero y los nacionales. Por lo
tanto se acepta la hiptesis nula de que la muestra proviene de una distribucin normal.
4.8
Ejemplo aplicado
Descripcin
Ao en el cual se realiza la encuesta
Mes en el cual se realiza la encuesta
Edad del individuo
Genero del individuo
Peso neto del individuo (Kg)
Talla (Cm).
Ocupacin profesional
4.8.1
Comandos Bsicos
68
4.8.2
Por ejemplo, se quiere saber los aspectos generales de la muestra, alguna variable en
especfico o algn momento estadstico de una variable.
. sum
. sum c101_edad_anio, d
69
70
Nota: Puede notar que el valor mximo para talla en centmetros es igual 999.9. Para codificar esta
variable se digita el siguiente comando recode c107 (999.9=.). (Ver ms informacin en la seccin
3.12.1)
4.8.3
Tablas de contingencia
Por ejemplo, se requiere el peso promedio neto por edad y sexo, teniendo como
restriccin aquellas personas que sean mayores de 17 y menores a 41 aos.
. table c101_edad_anio c101_sexo, contents(mean c104), if c101_edad_anio>=18 & c101_edad_anio<=40
Se requiere una tabla que contenga el peso promedio neto y el nmero de individuos por
edad y sexo, teniendo en cuenta la ocupacin profesional del individuo.
. by c116, sort: table c101_edad_anio c101_sexo, contents(mean c104 count c104)
71
4.8.4
Tablas de frecuencia
Se requiere una tabla de frecuencia que tenga en cuenta la edad y una restriccin con
respecto a que los individuos sean menores a 18 aos.
. tabulate c101_edad_anio if c101_edad_anio<=18
Se requiere una tabla de frecuencia que tenga en cuenta la poblacin entre los 16 y 18
aos y que muestre el porcentaje del total en forma de fila y una siguiente en forma de
porcentaje por filas y columnas.
. tabulate c101_edad_anio c101_sexo, row, if c101_edad_anio<=18 & c101_edad_anio>=16
. tabulate c101_edad_anio c101_sexo, row col, if c101_edad_anio<=18 & c101_edad_anio>=16
72
4.8.5
Correlaciones
Se requiere medir el grado de asociacin entre las variables de edad y peso neto, con
dos medidas de correlacin. Una de manera paramtrica y la otra de manera no
paramtrica.
73
*Lineal
*No lineal
Para los dos tipos de prueba existe evidencia que el peso est altamente correlacionado
con la edad del individuo, con una correlacin positiva..
4.8.6
74
4.8.7
. sktest c101_edad_anio
Mediante las dos pruebas que se realizaron para detectar la presencia de normalidad en
la variable de aos del individuo se llega a la conclusin que esta variable no sigue una
distribucin normal.
4.8.8
En caso de que las varianzas de las dos muestras sean diferentes, se utiliza unequal o el
test de Welch w.
. ttest c101_edad_anio, by( c101_sexo) unequal
. ttest c101_edad_anio, by( c101_sexo) w
4.8.9
Primero se crea una variable con los residuales para comprobar su normalidad.
. gen residuales= c104-50.77146 if c101_sexo==1
. replace residuales= c104-48.40414 if c101_sexo==2
Segundo se comprueba la normalidad de los residuales, tanto con test estadsticos como
por mtodos grficos.
0.75
0.25
0.50
Normal F[(residuales-m)/s]
0.00
-100
-50
residuales
50
1.00
100
. pnorm residuales
. qnorm residuales
. swilk residuals
.sktest residuals
-100
-50
0
Inverse Normal
50
100
0.00
0.25
0.50
Empirical P[i] = i/(N+1)
0.75
1.00
77
Cuarto, se lleva a cabo el ANOVA, y se coloca como opcin elaborar una tabla descriptiva
t y algunas opciones tiles para hacer comparaciones b anova, sc anova, si anova, para
hacer comparaciones Bonferroni, Scheffe y Sidak, respectivamente.
. oneway c104 c101_sexo, t
78
79
Comandos usados
ameans
anova
by, sort
ci
collapse
contract
correlate
display
egen
estat
gen
gmeans
help tabout
hmeans
keep
ksmirnov
level
mean
misstable
normprob
oneway
oneway
outreg2
pnorm
pwcorr
pwcorr
qnorm
quietly
80
recode
replace
robvar
scalar
sdtest
sktes
sktest
sktest
spearman
ssc describe
ssc install
summarize
swilk
4.9.1
tab1
tab2
table
table
tabstat
tabstat
tabulate
tabulate
test
ttest
ttest
use
xi
compare
ereturn
ktau
ladder
outreg
outreg2
Return
set level 90
Signtest
spearman
stem
tabi
weight
81
Description
scatter
Scatterplot
line
line plot
connected
connected-line plot
scatteri
area
bar
bar plot
spike
spike plot
dropline
dropline plot
dot
dot plot
rarea
rbar
rspike
rcap
rcapsym
rscatter
rline
rconnected
pcspike
pccapsym
pcarrow
pcbarrow
pcscatter
pci
pcarrowi
tsline
time-series plot
tsrline
82
mband
mspline
lowess
lfit
qfit
fpfit
lfitci
qfitci
fpfitci
function
histogram
histogram plot
kdensity
lpoly
lpolyci
Plottype
Description
graph matrix
Matrices de grficos
graph bar
graph hbar
graph dot
Grficos de medias
graph box
Grficos de cajas
graph pie
Grficos de tortas
Tabla 69. Otro tipo de grficos
Ejemplo:
. graph twoway connected var1 var3
. graph twoway scatter var3 var1 var4
. graph box var5 if dummy = =1
. graph pie var3 var1 in 1/30
Para grabar un grfico, se usa el comando graph save graph.gph y el nombre del archivo,
recuerde que la extensin de los grficos de Stata es .gph. Si se quiere traer de nuevo se
usar graph use graph.gph
Es posible combinar grficos por medio del comando combine graph1 graph2..
A continuacin se presenta una explicacin ms detallada de la creacin de los diferentes
tipos de grficos
83
5.1
Histograma
Histograma: GraphicsHistogram
84
3.0e-04
2.0e-04
Density
1.0e-04
5,000
Price
10,000
15,000
5.2
Grfico de tortas
85
86
5.3
Graficas twoway
Todos los comandos para graficas empiezan por graph, pero esto es opcional
dependiendo el tipo de grfico solo se pone la opcin TWOWAY
87
40
30
10
20
Mileage (mpg)
2,000
3,000
Weight (lbs.)
4,000
5,000
Usando los comandos para hacer esta grfica solo es necesario escribir
. scatter mpg weight
Foreign
30
20
10
Mileage (mpg)
40
Domestic
2,000
3,000
4,000
5,000
2,000
3,000
4,000
5,000
Weight (lbs.)
Graphs by Car type
88
Es posible crear varios tipos de grficas en un solo grfico, algo muy usual es el uso de la
grfica scatter con una recta de regresin ajustada.
Se debe crear un nuevo grfico sin eliminar el anterior
89
40
30
20
10
2,000
3,000
Weight (lbs.)
Mileage (mpg)
4,000
5,000
Fitted values
5.4
90
5.4.1
Se pueden agregar lneas horizontales o verticales indicando el valor del eje Y/o X donde
se desea trazar la lnea
91
5.5
Figura 61. Grfico del precio de la accin de Coca Cola a travs del tiempo
Otra manera de graficar series de tiempo, primero se debe crear una variable de tiempo
con el comando tsset y utilizar el comando tsline con la variables que se desean grficar.
. tsset date, m
. tsline Coke
92
5.6
Grfico de dispersin
93
. graph matrix pop medage death marriage, maxes(ylab(none) xlab(none)) by( region)
94
5.7
Grfico de puntos
95
5.8
Grfico de barras
96
8
6
4
2
0
Prof/Mgmt
Sales
Clerical
mean of tenure
Labor/Ops
Other
mean of prev_exp
10
15
Prof/Mgmt
Sales
Clerical
mean of tenure
Labor/Ops
Other
mean of prev_exp
La opcin de STACK produce una grfica donde cada barra sera de dos o ms barras
apiladas, por lo que la divisin muestra la relacin de las variables con respecto a total de
la suma de las variables.
97
5.9
Generando Funciones
10
x
15
20
98
99
100
101
Para editar colores y tamaos en los ejes ser necesario dar un doble clic sobre el rea a
editar.
102
103
Algunas opciones como ylabel y xlabel, permite editar los ejes de las ordenadas y
abscisas dentro de un rango y un intervalo, lfit, permite hacer una grfico bidimensional
trazando una lnea que mejor se ajuste a las variables de la muestra.
. scatter w edu, ylabel(0(200000)3000000, angle(horizontal)) xlabel(0(1)15, grid) /// name(Scatter2,replace)
title(Ingresos vs Educacion) ytitle(Ingreso promedio) xtitle(Aos de educacin promedio)
. scatter w edu, ylabel(0(200000)3000000, angle(horizontal)) xlabel(0(1)15, grid) /// name(Scatter3,replace)
title(Ingresos vs Educacion) ytitle(Ingreso promedio) xtitle(Aos de educacin promedio) by(p6020)
. scatter w edu, mlabel(nivele) || Lfit w edu ,ylabel(0(200000)3000000, angle(horizontal)) xlabel(0(1)15, grid) ///
name(Scatter4,replace) title(Ingresos vs Educacion) ytitle(Ingreso promedio) xtitle(Aos de educacin
promedio) by(p6020)
104
105
106
pie
qnorm
quantile
rchart
rvpplot
scatter
title
tslinetwoway
xchart
107
Descripcin de la variable
lny
lnm
edu007
exp
exp2
e03
6.1
Ejercicio
1. A partir de la informacin de la base de datos ECUACION INGRESO.dta,
generar las variables necesarias con sus respectivas etiquetas para estimar la
ecuacin (1)
108
6.2
Se puede obtener ms detalles estadsticos de cada una de las variables con la opcin
detail as:
. summ lny lnm edu007 exp exp2 e03, d
6.3
Con el fin de analizar la relacin lineal entre las variables independientes del modelo se
calcula la matriz de correlaciones. A travs de la instruccin pwcorr se obtiene la matriz de
correlacin de las variables que van a ser incluidas en el modelo de regresin as:
. pwcorr lny lnm edu007 exp exp2, sig
109
lny
lnm
edu007
exp
lny
1.0000
lnm
0.3674
0.0000
1.0000
edu007
0.4995
0.0000
-0.0127
0.0812
1.0000
exp
-0.0766
0.0000
-0.0211
0.0037
-0.3772
0.0000
1.0000
exp2
-0.1373
0.0000
-0.0541
0.0000
-0.4213
0.0000
0.9425
0.0000
exp2
1.0000
El comando pwcorr estima los coeficientes de correlacin del conjunto de variables del
modelo. En la matriz de correlaciones aparece el coeficiente de correlacin que es un
valor nmero que va desde 0 a 1 e indica el grado de asociacin lineal entre las variables,
este coeficiente viene acompaado del nivel de significancia (con la adicin de la opcin
sig), que permite decidir sobre la hiptesis nula de que el coeficiente de correlacin vale
cero. En nuestro ejemplo, el coeficiente de correlacin entre aos de educacin (edu007)
e ingreso salarial en logaritmos (lny) es de 0,4 y tiene una significancia de 0, lo cual indica
que existe una relacin significativa entre estas dos variables.
6.4
Col1
Col2
Col3
Col4
Id
Aos de
educacin
Ingreso (Miles de
pesos)
Ingreso
promedio por
ao de
educacin
20000
25000
30000
25000
25000
25000
25000
24000
24000
24000
23000
24000
24000
22000
20000
22000
110
20000
17500
10
15000
17500
Ahora se tiene una idea bastante clara de la relacin promedio observada entre el
logaritmo de los ingresos laborales y los aos de educacin y de qu tan realista es la
aproximacin lineal en este caso. El grfico parece indicar que sera conveniente estimar
la relacin entre estas dos variables a travs de una transformacin de tipo spline.
111
De otro lado, la relacin entre los ingresos laborales promedio y los aos de experiencia
es de tipo cuadrtico.
Para estimar la ecuacin (1) a travs de MCO se utiliza el comando regress (en forma
abreviada reg) as:
. regress lny lnm edu007 exp exp2
El comando regress genera una amplia gama de estadsticas adems de los coeficiente
de regresin.
6
Help regress
Findit aboutreg
112
Interpretacin de los betas estimados de acuerdo a la forma como estn expresadas las
variables del modelo
Variable
dependiente en
logaritmos
Variable independiente en
logaritmos
ejemplo , 1
Variable
dependiente en
niveles
en x. En nuestro ejemplo , 2 , 3 y
Una vez realizada una regresin lineal es posible probar hiptesis lineales sobre los
coeficientes estimados a travs del comando test as:
. test lnm=1
En el primer caso se prob que si el coeficiente estimado asociado a las horas de trabajo
al mes es igual a 1. La probabilidad de que el coeficiente sea 1 es cero, por los tanto no
se acepta la hiptesis. En trminos econmicos se podra afirmar que no hay elasticidad
unitaria entre horas de trabajo al mes y el ingreso laboral.
6.5.2
Ejercicio
. lincom -0.0347/(2*-0.0003987)
6.6
Los VIF de cada uno de los estimadores cuyo valor sea superior a 10 (algunos menos
conservadores consideran 30) indican que la variable a la que acompaan puede
considerarse como una combinacin lineal de otras variables independientes.
Alternativamente suele observarse el ndice de Tolerancia (1/VIF). Un ndice de tolerancia
igual a 0.1 es equivalente a un VIF de 10. Valores de tolerancia inferiores a 0.1 (0.333
para los menos conservadores) indican presencia moderada o severa de
multicolinealidad.
6.6.1.1 Ejercicio
4. Calcule cada uno de los VIF de la regresin anterior.
6.6.2
Homocedasticidad
Mtodo Grfico: A travs de un grfico que relacione los residuales del modelo
contra los valores estimados de la variable dependiente se puede hacer una
primera comprobacin visual de posibles patrones de interrelacin entre estas dos
variables. Siguiendo con nuestro ejemplo, en Stata se puede obtener este grfico
a travs del comando rvfplot as:
. rvfplot, yline(0)
WHITE H. 1980. A Heteroscedasticity Consistent Covariance Matriz Estimator and Direct Test of
Heteroscedasticity. Econometrica, vol 48.
117
La opcin normal permite comparar la funcin de densidad de los residuales con una
funcin de densidad normal. Se puede observar apuntalamiento y asimetra en los
residuales. Otra comprobacin grfica de normalidad muy conocida es aquella que
contrasta cuantiles de una variable contra cuantiles de una distribucin normal. Cuanto
ms cerca estn los cuantiles de la variable a los cuantiles de la distribucin normal (lnea
diagonal continua) ms cerca est la variable de ser normal. Stata la representa a travs
del comando qnorm as:
. qnorm residual
Mtodo formal: Claramente hay problemas en los residuales que nos hacen
pensar en que no se cumple el supuesto de normalidad. Sin embargo, para estos
casos en los que la variable tiene muchas observaciones, Stata ofrece una prueba
formal de normalidad a travs del comando sktest as:
. sktest residual
118
Otro supuesto bsico en regresin lineal es que las variables explicativas estn
determinadas por fuera del modelo que se est estimando. En otras palabras, se supone
que ninguno de los regresores est determinado por otro u otros regresores dentro del
modelo. A travs de la prueba de HAUSMAN (1978)8 es posible establecer si un regresor
es exgeno o no. La prueba se realiza en etapas: en primer lugar, se estima un modelo
que se considera consistente pero ineficiente (en el sentido que no empleamos toda la
informacin disponible para explicar la variable dependiente).
A continuacin, se estima otro modelo (el cual tiene en cuenta la variable que deseamos
comprobar si es exgena) que se supone consistente y eficiente. En tercer lugar, se
emplea el estadstico de HAUSMAN el cual compara los coeficientes comunes en ambos
modelos y sus respectivas matrices de varianzas y covarianzas. Si no hay diferencias
sistemticas en los coeficientes la nueva variable se puede considerar exgena. Los
pasos y los comandos necesarios para realizar esta comprobacin en Stata son:
1. Estimar el modelo consistente pero ineficiente (no tiene en cuenta la variable lnm)
. regress lny edu007 exp exp2
HAUSMAN J,. Specification Test in Econometrics, Economtrica Vol. 46. No. 6. 1978.
119
Ejercicio
Pronstico
Grfico que representa los ingresos estimados y observados por ao de educacin y los
aos de educacin
120
Ahora se tiene una idea bastante clara de la aproximacin lineal que se ha llevado a cabo
entre los ingresos promedio y los aos de educacin a travs de MCO.
6.7.2
Ejercicio
Para exportar los resultados de la tabla de regresin, existe un comando llamado outreg2
que permite hacer esta labor. Se utilizar despus de evaluar el modelo de regresin. En
caso de que Stata 12 no tenga el comando en necesario instalarlo mediante el comando
ssc install outreg2.
1. Por ejemplo, se desea exportar una tabla a Excel que contenga una regresin
diferenciada por gnero, con las mismas variables independientes vistas en la
seccin de la funcin de ingresos.
. reg Ln_w Ln_m edu exp exp2 if Hombre==1
. outreg2 using primero.xls, ctitle(Hombre)
. reg Ln_w Ln_m edu exp exp2 if Hombre==0
. outreg2 using primero.xls, append ctitle(Mujer)
121
6.9
Ejemplo aplicado
+ +
Donde,
Ln_wi, corresponde a la tranformacin logartmica del salario del individuo i, Ln_mi,
corresponde al logaritmo natural de la horas trabajadas por mes del individuo i, edu i,
corresponde a los aos de educacin que tiene el individuo i, expi, correponde a los aos
de experiencia que tiene el individuo i, exp2, corresponde a los aos de experiencia que
tiene el individuo i, por ltimo una variable binaria que toma el valor de uno si es hombre
y cero en caso contrario, Hombrei.
El comando general para evaluar un modelo de regresin lineal se llama regress o reg.
. regress Ln_w Ln_m edu exp exp2 Hombre
122
6.9.1
Prueba de hiptesis
6.9.2
Existen tres mtodos para detectar multicolinealidad entre las variables independientes.
1. Correlaciones de orden cero entre parejas de regresores. La regla de decisin es
que si la correlacin supera el 0.8, existe multicolinealidad.
. pwcorr Ln_m edu exp exp2 Hombre
123
3. Utilizar el comando vif, el cual se utiliza para crear el estimador que mide el factor
inflador de varianza, la regla de decisin consiste en que si el VIF es mayor o igual
a 10, existe multicolinealidad. La variable exp demuestra que existe
multicolinealidad, ser necesario excluirla pero por propsitos acadmicos existe
evidencia emprica de que la experiencia afecta de manera positiva el ingreso del
individuo.
6.9.2.2 Heterocedasticidad
Existen dos mtodos para detectar la presencia de heterocedasticidad dentro del modelo
por un lado se encuentra el anlisis grfico y otro que hace parte del anlisis formal como
son las pruebas de Park, Glejser, White y Breush-Pagan.
. reg Ln_w Ln_m edu exp exp2 Hombre
. rvfplot
. imtest,white
. estat hottest
124
Prueba White
Con esta prueba se concluye que hay presencia de heterocedasticidad, una de las
maneras que existen para corregir este problema es a travs de la opcin robust en la
estimacin por M.C.O as:
. reg Ln_w Ln_m edu exp exp2 Hombre, r
125
126
Se concluye que el modelo que describe una funcin de salario con variables observables
omite algunas variables que afectan el salario del individuo.
6.10 Comandos usados
by
e(sample
egen
est store
estat
estat ovtest
hausman
imtest
kdensity
lincom
line
mean
normal
outreg2
predict
pwcorr
qnorm
regress
res
rvfplot
sktest
sort
summ
test
vif
xb
127
Freq.
Ocupados
Desocupados
Inactivos
Total
Percent
Cum.
6,578,325
53.11
53.11
519,357
4.19
57.3
5,288,175
42.7
100
12,385,857
100
Participa
Freq.
Percent
Cum.
No
5,288,175
42.7
42.7
Si
7,097,682
57.3
100
12,385,857
100
Total
128
7.1
3,000,000
2,000,000
1,000,000
PARTICIPAN
4,000,000
7.1.1
Hombre
Mujer
La funcin logstica es () =
129
Participa en el Mercado
Laboral
No
Si
Sexo
Total
Hombre
1,622,038
4,303,680
5,925,718
Mujer
3,666,137
2,794,002
6,460,139
5,288,175
7,097,682
12,385,857
Total
7.1.2
M.HUM. COMPL
M.HUM. INCOM
BASICA COMP
BASICA INC
SIN EDUC.
M.HUM. COMPL
M.HUM. INCOM
BASICA COMP
BASICA INC
SIN EDUC.
.2
.4
.6
.8
Hombre
Graphs by Sexo
130
7.1.3
Participacin y Edad
Mujer
.2
.4
TGP
.6
.8
Hombre
25
30
35
40
45
50
25
30
35
40
45
50
Edad
Graphs by Sexo
7.2
El comando logit (probit) nos permite obtener los resultados de la estimacin logstica
(probabilstica). La estimacin se hace a travs de la metodologa de mxima verosimilitud
por lo que en el proceso de estimacin, Stata primero muestra las iteraciones necesarias
para alcanzar la convergencia.
Cuando existen variables categricas con ms de dos categoras (parentesco, estado
civil) Stata las puede codificar automticamente para que cada una de las categoras
cuente como una dummy. Para eso se antepone el prefijo xi: frente a toda la expresin
de la regresin y el prefijo i. antes de cada variable.
El comando para nuestra regresin sera:
xi: logit PARTI EDAD ESC NUMPER YTOTHAJ i.PCO1 i.ECIVIL [w=EXPR], or
En este caso las variables de parentesco con el jefe de hogar (PCO1) y de estado civil
(ECIVIL) son codificadas por Stata y la codificacin responde al orden en que las
variables categricas adoptan valores. Por ejemplo PCO1, ordinalmente la primera
etiqueta es Jefe de Hogar y Stata crea una dummy _IPCO1_1 para nombrarla. En la
siguiente tabla se ha cambiado los nombres por los valores de las categoras.
A travs del men se puede acceder a travs de la siguiente ventana:
131
7.2.1
Interpretacin de resultados
Post estimacin
chi2( 7) =60644.47
Prob > chi2 =
0.0000
Para obtener las probabilidades estimadas, que es lo que finalmente se desea saber,
Stata 11 creo el comando margins. El siguiente comando va a modelar todas las
10
133
probabilidades para cada valor de SEXO, empezando por el 0 hasta 1 con un ancho de
intervalo de 1.
margins,
at(SEXO=(
Variable
de Inters
Number
obs
=
:
Expression
Pr(PARTI),
1._at
2._at
(1)
1)) atmeans
Ancho
Intervalo
Valor
Inicial
Predictive
margins
Model VCE
OIM
Valor
Final
of
12350554
predict()
(lista
medias
SEXO= 0
(lista
medias
(lista
medias)
SEXO= 1
(lista
medias)
de
de
de
de
Margin
Std. Err.
P>z
[95%
Conf.
Interval
]
_at
1
0.7362227
0.0002468
2982.78
0.000
0.7357389
0.736706
0.4423416
0.0002768
1598.17
0.000
0.4417992
0.442884
La probabilidad de que una persona trabaje siendo hombre (1. at SEXO = 0) es el 73.6%,
mientras que la probabilidad de que una persona trabaje siendo mujer es de 44.2%,
manteniendo todas las dems variables en su media.
Si quiere fijarse el valor de ms de una variable, o fijar los intervalos de variables
continuas, o en cortes de distribucin de las variables independientes:
. margins, at(SEXO=(0(1)1) PCO1=1) atmeans noatlegend
. margins, at(ln_yh=(11 11.5 12 13 13.5) PCO1=1) atmeans noatlegend
. margins, at((p25) _all) atmeans noatlegend
. margins, at((p25) _all (mean) ESC ) atmeans noatlegend
134
7.3
Modelo Lineal
Para corregir los problemas que genera la estimacin del modelo de participacin laboral
por MCO, se supone la existencia de una variable latente Y* que es explicada por un
conjunto de variables independientes y que determina el valor de la variable dicotmica
que se observa. A medida que el valor de la variable latente aumenta, la probabilidad de
participar en el mercado laboral Y tambin se incrementa as:
Y 1
si
0 P ( Y 1 ) P ( Y
0) P ( X e 0) F ( X )
2 edad
3 edad
2
i
4 jefe
ei
Para llevar a cabo las estimaciones de este modelo primero se debe generar la variable
edad al cuadrado:
. gen e02_2= e02^2
En STATA se utiliza el comando probit para estimar modelos con variable discreta a partir
del mtodo de mxima verosimilitud. Para analizar los resultados del comando, se
comienza con estimar un modelo vaco:
. probit pea, r
136
Adems de los coeficientes de regresin, el comando probit genera una amplia gama de
estadsticas:
ood
Loglikelih
ood
137
necesario calcular el efecto marginal en varios valores de las variables. El clculo que se
tendra que hacer es
( X i )
La funcin podra ser evaluada en el valor medio de la variable Xi. Por lo tanto, el primer
paso consiste en calcular el valor medio de las variables que se incluyeron en el modelo
probit a travs del comando estat sum, que reporta las principales estadsticas de los
datos utilizados en el modelo de regresin:
. estat sum
138
139
Los resultados sealan que la hiptesis nula es rechazada y por lo tanto, el modelo no
presenta un buen nivel de ajuste a los valores actuales. La principal consecuencia de este
resultado, es que no se puede utilizar el modelo para hacer inferencias acerca de la
relacin entre las variables explicativas y la probabilidad de participar en el mercado de
trabajo. Sin embargo, el modelo an posee algn valor predictivo y puede utilizarse para
pronosticar casos.
7.3.3.2 PRUEBA DE HOSMER-LEMESHOV(H-L)
Al igual que la prueba de Pearson, el estadstico de Hosmer Lemeshov es una prueba de
bondad de ajuste que permite comparar el valor original de los datos con el valor
estimado por grupos de observacin (G). En Stata la prueba de H-L puede practicarse
utilizando el comando estat gof y adicionando la opcin group(#), para definir el nmero
de particiones de las observaciones que generalmente son 10 grupos iguales.
. estat gof, group(10)
Bajo la hiptesis nula de que el modelo presenta un buen nivel de ajuste, el estadstico de
H-L sigue una distribucin chi2 con G-2 grados de libertad. Al comparar las frecuencias
observadas y estimadas a travs del estadstico de H-L y analizar el p-valor asociado a la
prueba, se rechaza la hiptesis nula. Una vez ms, el modelo de participacin laboral fall
una prueba de bondad de ajuste.
7.3.3.3 Estadsticas de clasificacin
Otra prueba de bondad de ajuste de la regresin probit es la capacidad predictiva del
modelo para clasificar correcta o incorrectamente los valores originales. A partir del
pronstico de la variable dependiente, el modelo clasifica como 1 los valores que tienen
mayor probabilidad de ocurrencia y que son superiores a un punto de corte, en caso
contrario los valores se clasifican como 0. En general, se asume que el punto de corte
es igual a 0.5. En Stata se utiliza el comando estat class para generar las estadsticas de
clasificacin as:
. estat class
140
El resultado general de esta prueba es que el 66% de los valores originales estn
clasificados correctamente. De la tabla de clasificacin tambin se puede analizar la
siguiente informacin:
El primer cuadro de la tabla realiza una comparacin entre los valores observados
y los pronosticados por el modelo. Las filas corresponden a los valores 1(+) y
0(-) clasificados por el modelo, y las columnas corresponden a los valores
observados (D=1 y ~D=0).
La sensibilidad mide el porcentaje de los valores 1 que fueron clasificados
correctamente. En nuestro ejemplo el 89.11% de la poblacin que hace parte de
la Poblacin Econmicamente Activa (PEA) fue clasificada correctamente por el
modelo.
La especificidad corresponde al porcentaje de 0 que fueron pronosticados
correctamente por el modelo. En el ejemplo, el 24.9% de los 0 observados la
poblacin que no hace parte de la PEA, fueron clasificados correctamente por el
modelo.
La prediccin de los valores positivos o negativos mide el porcentaje de valores
pronosticados que acertaron correctamente en la clasificacin de 1 o 0. En el
caso de los 1 (+), el 67.9% de los datos pronosticados corresponden a los
verdaderos valores de 1, en otras palabras, del total de personas que fueron
catalogadas como PEA por el modelo, el 67,9% de los casos realmente haca
parte de la PEA. En caso contrario, el 56.2% de los valores 0 pronosticados
equivalen a los valores originales de los 0.
Los errores de clasificacin miden el porcentaje de valores observados que fueron
incorrectamente clasificados. Por ejemplo, el 75% de los valores 0 observados
fueron clasificados incorrectamente por el modelo, es decir, del total de personas
141
que no hacen parte de la fuerza de trabajo, en el 75% de los casos el modelo las
clasifico incorrectamente como poblacin PEA.
Una interpretacin similar se realiza para el caso de los unos. El 10.8% de los
valores 1 de la poblacin que en la muestra hace parte de la PEA, fueron
clasificados como 0 por la prediccin del modelo.
La tasa de falsos unos (ceros) corresponde al porcentaje de valores 1 (0)
pronosticados que en realidad son valores 0. En el ejemplo, el 32.1% de las
personas que fueron clasificadas en la PEA por el modelo, no hacen parte de este
grupo. De manera anloga, el 43.7% de los valores 0 pronosticados, son valores
1
De manera anloga, el 43.7% de las personas que el modelo clasific como 0 o
que no hacan parte de la PEA, corresponden a valores 1 que debieron
pronosticarse como parte de la PEA.
7.3.3.4 CURVAS ROC
Las Curvas ROC (Receiver Operating Characteristic) son una representacin grfica de
todos los pares posibles (1-especificidad, sensibilidad) que se generan con distintos
puntos de corte. A medida que se incrementa el valor del punto de corte, el porcentaje de
1 clasificados correctamente por el modelo aumenta (sensibilidad), al tiempo que el
porcentaje de 0 clasificados como 1 tambin se incrementa (falsos positivos). En
STATA las curvas ROC se obtienen al ingresar en la ventana de comando la opcin:
. lroc
7.3.4
Pronstico
7.3.5
Ejercicio
143
7.4
Ejemplo aplicado
Para este ejemplo aplicado se utiliza la base de datos de calidad de vida para el pas de
Colombia en el ao 2010. Primero se evala un modelo lineal de probabilidad, despus un
modelo tipo Logit y finalmente un modelo tipo Probit, todo esto con el fin de obtener
caractersticas de cada modelo.
7.4.1
= + + + + + +
+ + _ +
Donde,
Edad: edad del individuo i, Edad2: edad al cuadrado del individuo i, pri, sec, uni, post:
variable binaria que toman el valor de uno cuando el individuo i ha alcanzado el nivel
educativo respectivo, spouse: variable binaria que toma el valor de uno si el individuo i
est casado y cero en cualquier otro caso y h_head: variable binaria que toma el valor de
uno si el individuo i es jefe de hogar y cero en cualquier otro caso.
Con un simple ejemplo se puede probar porque se deben utilizar otros instrumentos de
estimacin diferentes a M.C.O cuando la variables dependiente es binaria es decir toma el
valor de 1 en un caso afirmativo y cero en caso contrario.
. gen Participacion= Ln_w!=.
. keep if p6040>=18 & p6040<=65
. reg Participacion p6040 edad2 pri sec uni post spouse h_head
. predict partmpl
. logit Participacion p6040 edad2 pri sec uni post spouse h_head
. predict partlogit
. sum partmpl partlogit
Para el valor de las predicciones por M.C.O existe un rango que toma valores negativos,
por lo tanto no se puede evaluar la probabilidad de participar en el mercado laboral para el
ao 2011, las probabilidades predichas de cualquier medida deben estar entre 0 y 1.
7.4.1.1 Prueba de Wald y prueba bondad de ajuste del modelo
. logit Participacion p6040 edad2 pri sec uni post spouse h_head,
. logit Participacion,
. display 2*(-18001.881 --18765.493)
. display 1-(-18001.881/-18765.493)
144
145
1. Prueba de Pearson
. estat gof
146
3. Estadstica de clasificacin
. estat class
4. Curvas Roc
147
. lroc
7.5
Comandos usados
atmeans
display
dprobit
estat class
estat gof
estat gof, group(10)
estat sum
gen
invnormal
keep
label define
label values
label variable
lroc
t
lsens
margins
mfx
normalden
predict
probit
recode
regress
tab
test
tw
w
xi: logi
148
Los modelos autorregresivos (AR), de media mvil (MA) y autorregresivos de media mvil
(ARMA) se caracterizan por incorporar en la explicacin futura de la variable dependiente
su propio comportamiento pasado. Esta forma de modelar la conducta de una serie de
datos temporales hace posible, en su forma ms simple en modelos univariados, la
generacin de pronsticos sin emplear informacin adicional proveniente de otros
regresores. En las secciones siguientes se sigue la metodologa de BOX y JENKINS
(1976)11 para estimar y pronosticar modelos univariados de serie de tiempo a travs de
Stata. En particular se har uso de la informacin mensual de inflacin contenida en la
base de datos INFLACION.dta.
Antes de desarrollar la metodologa de BOX y JENKINS se aprender a generar variables
con formato de fecha, variables rezagadas y a designar la variable que representar el
tiempo en las estimaciones. Se carga la base de datos INFLACION.dta
. use INFLACION.dta
8.1.1
Las variables de tiempo; fechas en aos, semestres, trimestres, meses, semanas y das
deben tener un formato especial en el anlisis de serie de tiempo y panel de datos. Los
formatos de estas variables en cada caso se describen a continuacin:
Formato
%tw
Descripcin
0=
Diario
01jan1960;
Semanal
0 = 1960w1;
%tm
Mensual
0 = 1960m1;
1 = 1960m2
%tq
Trimestral
0 = 1960q1;
1 = 1960q2
%th
Semestral
0 = 1960h1;
1 = 1960h2
Anual
1960 = 1960;
1961 = 1961
%td %d
%ty
Codificacin
1 = 02jan1960
1 = 1960w2
Es posible generar variables con formato de fecha a partir del comando generate. Por
ejemplo, para crear una variable con formato mensual se emplea la siguiente sintaxis:
11
BOX G. & JENKINS G. Time Series Analiysis, Forecasting and Control. Holden Day, San Francisco. 1976
149
8.1.2
Antes de estimar cualquier modelo de serie de tiempo es necesario que Stata reconozca
la variable que representa el tiempo (en nuestro ejemplo, la variable fecha). Este paso se
logra a travs del comando tsset as:
150
En anlisis de serie de tiempo resulta muy til generar variables con uno o ms rezagos.
En estos casos suele acompaarse al comando generate con los operadores [_N] y [_n].
El operador _N se usa para contar el nmero total de observaciones en una variable y, el
operador _n numera las observaciones dentro de una variable.
Por ejemplo, se puede generar una variable rezagada un periodo as:
. g rezago = inflacion[_n-1]
Al listar las variables fecha, inflacion y rezago se puede visualizar la nueva variable
rezago correspondiente a la inflacin rezagada un perodo.
. list fecha inflacion rezago
151
8.2
BOX JENKINS difundieron una metodologa en tres fases para identificar, estimar y
validar modelos de serie de tiempo univariada y generar pronsticos. A continuacin se
seguirn estos pasos para obtener un modelo de pronstico tipo ARMA para la inflacin
mensual.
8.2.1
Fase de identificacin
152
12
DICKEY D. & FULLER W. 1991. Distribution of the Estimates for Autoregressive Time Series With a Unit
Root. Journal of the American Statistical Association 74.
153
. pac inflacion
8.2.2
Fase de estimacin
154
Nota: El orden de integracin en este caso es 0. Sin embargo a travs del prefijo D1., D2.,
D3.,,etc., antecediendo la variable dependiente (por ejemplo, D1.inflacion, D2.inflacion,
D3.inflacion,) se pueden lograr diferenciaciones de orden superior. La opcin robust genera una
matriz de varianzas y covarianzas consistente con posibles problemas de heteroscedasticidad.
A travs del comando estat ic se puede obtener el criterio de informacin de Akaike (AIC)
y el criterio bayesiano de Schwartz (BIC) los cuales son las dos medidas ms comunes de
bondad de ajuste. Cuanto ms pequeo es el valor de los estadsticos (AIC) y (BIC) mejor
ajuste tiene el modelo. Estos criterios se pueden emplear para seleccionar el modelo ms
apropiado de un conjunto de posibles modelos.
. estat ic
8.2.3
Es muy importante que los residuales del modelo estimado no estn serialmente
correlacionados. Cualquier evidencia de correlacin serial implicara movimientos
sistemticos en la variable dependiente que no han sido tenidos en cuenta por los
coeficientes incluidos en el modelo ARMA. Para chequear correlacin en los residuales se
pueden construir las funciones de autocorrelacin y autocorrelacin parcial para los
residuales. A travs del comando predict seguido de la opcin res se podr estimar los
residuales as:
155
En una prueba ms general, se puede constatar si los residuales son ruido blanco, en
otras palabras, tienen media cero, varianza constante y no estn serialmente
correlacionados. A travs del comando wntestq realizar esta prueba as:
. wntestq residual
Pronsticos
El pronstico de inflacin para el mes 6 de 2006 (segn este proceso ARMA) es del
0.366%. Se elabora una lista de las variables fecha, inflacin e inf_p a travs del
comando list as:
156
Finalmente, a travs del comando tsline es posible visualizar los valores observados y
pronosticados de la inflacin hasta diciembre de 2006.
. tsline inflacion inf_p
8.2.5
Ejercicio
157
8.2.6
En esta seccin de utilizar la base de datos del ndice de precio del consumidor de orden
mensual para el pas de Mxico para una serie temporal de 1995 a 2013.
8.2.6.1 Generacin de variables con formato de fecha
1. Utilizar el comando br para observar cmo est determinada la variable de tiempo,
lo cual tiene una parmetro de meses en letras en idioma espaol y aos en
nmeros, por lo tanto se deber hacer un tratamiento diferente a como se
presentara en una base de datos con tiempo January 1,1995, 1/1/1995 o 1995-11, lo cual se transformara de la siguiente manera
. gen fecha=date(NOMBREDELAVARIABLEFECHA, MDY)
. format fecha %td
2. Por lo tanto se debe en primera instancia dividir la variable Fecha en dos partes la
primera que contenga los meses en letras y la segunda la fecha, el comando que
se utilizar es Split, despus se debe renombrar las variable, respectivamente
rename, segundo generar una variable de tiempo que contenga valores numricos
ordenados a partir de la variable aos bysort year: gen, tercero generar la
variables de tiempo con el formato ao mes, ym, cuarto definir el formato de la
variable de tiempo format, y por ltimo se designa la variable que representa al
tiempo con el comando tsset.
. split Fecha, gen(fecha) destring
. rename fecha1 mes
. rename fecha2 ao
158
159
160
Segn la prueba ninguna funcin se ajusta a la tendencia del IPC, por lo tanto el
pronstico no se puede llevar a cabo mediante esta metodologa. En caso contrario se
evala una regresin del IPC en funcin de la tendencia teniendo en cuenta la hiptesis
nula del anterior test de prueba. Por ejemplo, si theta=lambda=1 entonces, regress IPC
tendencia, para luego pronosticar la variable IPC con el comando, predict IPCF, xb
8.2.6.2.3 Pronstico con atenuacin exponencial
Los mtodos que se utilizan dependern de la naturaleza de la variable IPC, ya se
descarta de antemano que el IPC sigue una funcin con tendencia con la prueba BOXCOX, para determinar la naturaleza de la variable dependiente si es o no estacionaria se
elabora la prueba de Dickey-Fuller, mediante esta prueba se rechaza la hiptesis nula de
estacionariedad, por lo tanto ser necesario diferenciarla n veces para volverla
estacionaria.
Para lo cual se sugieren modelos tales como promedio mvil, promedio mvil doble,
atenuacin simple, atenuacin doble. En caso de que el modelo tenga tendencia se puede
pronosticar mediante Holt-Winters no estacional, Holt-Winters estacional multiplicativo o
Holt-Winters estacional aditivo.
. dfuller IPC, drift lags(14)
. dfuller D.IPC, drift lags(14)
. tsappend, add(10)
. tssmooth dexponential ADIPC=D.IPC, forecast(10)
. gen PronosticoIPC=IPC[_n-1]+ADIPC
. replace PronosticoIPC= PronosticoIPC[_n-1]+ADIPC if tin(2013m4, 2013m12)
. tsline PronosticoIPC IPC if tin(2010m1, 2013m12)
161
162
163
164
. gen LnIPC=ln(IPC)
. gen dLnIPC=D.LnIPC
. tsline dLnIPC
. ac dLnIPC
. corrgram dLnIPC
. dfuller dLnIPC, drift lags(12) regress
166
167
168
8.2.6.3.3 Verificacin
Antes de ir a la parte de pronstico de la serie de tiempo se deben validar algunos
parmetros como por ejemplo los estimadores sean estadsticamente significativos lo cual
pasan la prueba al 1% de nivel de significancia, segundo se realiza una prueba de ruido
blanco para los errores.
. predict residuales, r
169
. wntestq residuales
Bajo esta prueba se confirma que los residuales del modelo son ruido blanco.
8.2.6.3.4 Pronstico
Ahora se prosigue al pronstico de la serie para lo cual se agregan n observaciones para
el pronstico, se predicen los valores de la variables IPC y luego se halla el antilogaritmo
de la diferencia logartmica con el fin de obtener el IPC en niveles.
. tsappend, add(10)
. predict forescastlnipc, y dymamic(tm(2013m3))
. gen IPCF=exp(forescastlnipc)
Despus de este procedimiento se hace una evaluacin de la calidad del pronstico con
la serie observada, primero un anlisis grfico, segundo observar si el dato pronosticado
est por encima o por debajo del valor real mediante el comando rmse y tercero observar
si la prediccin est bien ajustada con el comando inequal7
. tsline IPC IPCf
. ssc install rmse
. ssc install inequal7
. rmse IPC IPCf
. inequal7 IPCf [weight=IPC]
170
Por lo tanto, al valor pronosticado de 108.573 para el mes de abril de 2013 se le debe
restar 0.245356 para que la proyeccin se aproxime mejor a la observacin de ese
periodo, es decir un IPC de 108.327. Tambin se puede observar si el pronstico est
bien ajustado de acuerdo con el Theil index de 0.028 que se aproxima a cero.
8.3
Antecedentes
El modelo GARCH(1,0)
= +
Donde
= ; ( ) = 0 ; Var( ) =
< 1: ; .
GARCH (1,1)
172
= +
8.3.2.2 VARIANZAS
() =
1
1
AR(1)
8.3.3
1
ARCH(1)
Para determinar si una serie de tiempo tiene efecto ARCH, se debe primero
estacionarizar la serie, por lo general en series financieras una manera de resolver
este problema es utilizar la frmula de rendimientos continuos % = ( ).
Segundo evaluar un modelo de regresin en donde incluya la metodologa
previamente vista Box Jenkins (BJ) y utilizar los comandos estat archlm y estat
bgodfrey, donde la hiptesis nula describe que no existe la existencia de un efecto
ARCH y una hiptesis alternativa que describe la presencia de un efecto ARCH.
Tercero, el orden del Arch (autocorrelacin) y del Garch (autocorrelacin parcial)
sern determinados a partir de los residuos al cuadrado del modelo, para este
caso se debe utilizar el comando armadiag, arch, el cual no viene preinstalado en
Stata 12 por lo tanto se debe instalar con el comando ssc install armadiag para
ms ayuda sobre productores de programacin utilizar el comando findit armadiag.
Cuarto, despus de evaluar el modelo correspondiente se debe hacer diagnstico
de los residuos para detectar ruido blanco en los errores y un diagnstico a los
residuos al cuadrado si sigue la persistencia en la varianza condicional. Los
comandos a utilizar son armadiag y armadiag, arch, respectivamente.
Por ltimo se hace un anlisis de pronstico graficando la serie original y la serie
pronosticada con el comando tsline.
8.3.4
Ejemplo aplicado
Para esta seccin se utilizar una serie financiera tomada de la base de datos de
finance.yahoo.com desde enero de 2007 hasta marzo de 2013 con una periodicidad
diaria.
. gen tiempo=_n
. tsset tiempo
. gen Lncoke=ln(Coke)
. gen rendimientos= D.Lncoke
. regress D.Lncoke
. estat archlm, lags(1)
. estat bgodfrey, lags(1)
173
174
175
176
8.3.4.1 Ejercicio
1. Evaluar el modelo incluyendo los parmetros ar(2) ma(2) GARCH (2,2) y verificar
individualmente la significancia de los coeficientes al 5% como nivel de
significancia.
8.3.4.2 Verificacin del modelo
Se debe verificar si los residuos se comportan con media cero y varianza constante, lo
que se llama ruido blanco y adems verificar si los residuos al cuadrado no muestran
patrones de volatilidad. Para esto se utiliza el comando armadiag y armadiag, arch, para
lo cual se debe mirar la probabilidad del estadstico Q, debe sobrepasar los niveles del 5%
para cada rezago, concluyendo que se debe aceptar la hiptesis nula de normalidad y no
presencia de volatilidad condicional.
. armadiag
. armadiag, arch
177
8.3.4.3 Pronstico
Por ltimo se realiza el pronstico para los siguientes 7 das hbiles en el mercado
accionario, con el fin de predecir hasta el fin del mes. Adems de predecir el precio se
utiliza la opcin variance con el fin de pronosticar la varianza sujeta a nuestro modelo
economtrico.
. tsappend, add(7)
. predict pronosticolncoke, y dynamic(1565)
. predict cond_var, variance
. gen pronosticocoke=exp(pronosticolncoke)
. tsline Coke pronosticocoke in 1400/1571
178
8.4
Comandos usados
%td
_n-1
ac
add
ar
arch
arima
arima
armadiag
boxcox
bysort
corrgram
D.
date
destring
dfuller
drift
drop
DS12
dymamic
estat archlm, lags(1)
estat bgodfrey, lags(1)
estat ic
forecast
format
g
garch
inequal7
lags(7)
list
list
lrtest
ma
model(theta)
noconstant
pac
predict
range
regress
rename
res
rmse
robust
sarima
smooth(14400)
split
ssc install
tin
trend
tsappend
tsfilter hp
tsline
tsset
tssmooth dexponential
use
weight
wntestq
wntestq
xb
ym
179
Como los datos de panel exigen la repeticin de las mismas unidades con el tiempo, los
conjuntos de estos datos, en particular de los individuos, hogares y empresas, son ms
difciles de conseguir que en las combinaciones de cortes transversales. La ventaja es
que al tener las mismas unidades es posible controlar ciertas caractersticas inobservadas
de individuos, empresas, etc.
Es decir es posible capturar inferencias causales que no es posible capturar con los
cortes transversales. La segunda ventaja de los datos panel es que permite estudiar la
importancia de los rezagos en el comportamiento o el resultado de tomar una decisin.
Esta informacin puede ser significativa, puesto que es de esperar que muchas polticas
econmicas tengan efecto slo al paso del tiempo.
La idea de los panel es poder capturar esos factores inobservables, por ejemplo, lo que
influye en el salario de un individuo en 1990 tambin influir en el mismo individuo en
1991, ese factor inobservable puede ser la capacidad o habilidades.
9.1
. xtset id t
. xtdescribe
. xttab south
9.1.1
Stata requiere un ajuste de la base de datos panel, dado que solo trabaja con bases de
datos micropanel, es decir con N grande y T pequeo.
Reshape
reshape long stubnames, i(varlist) [options]
reshape wide stubnames, i(varlist) [options]
WIDE
i
....... x_ij ........
id sex inc80 inc81 inc82
------------------------------1 0 5000 5500 6000
2 1 2000 2200 3300
3 0 3000 2000 1000
Tabla Ejemplo Wide
En la base de datos en forma horizontal (wide form), existe una sola observacin por id,
pero ms de una variable por ingreso.
LONG
i
j
x_ij
id year sex inc
----------------------1 80 0 5000
181
1
1
2
2
2
3
3
3
81
82
80
81
82
80
81
82
0
0
1
1
1
0
0
0
5500
6000
2000
2200
3300
3000
2000
1000
En la base de datos de forma vertical (long form) se puede observar que existe una
variable que es constante al interior de un grupo, en este caso el id y una variable que
vara en el interior del grupo que es el ao.
De Long a Wide
reshape wide stub, i(i) j(j) j es una variable existente
De Wide a Long
reshape long stub, i(i) j(j) j es una nueva variable
9.2
En primera instancia se delimita que se va a trabajar con una base de datos de orden
panel con el comando xtset(i,j), donde i denota la variable que determina el corte
transversal y j determina el periodo con que se denomina la base de datos. Es pertinente
que la variable de serie de tiempo debe ir organizada en fila y no en columnas, el
comando que se utiliza es reshape.
Al igual que series de tiempo con el comando ts, datos de panel trabaja con un comando
especial xt, por ejemplo si se desea describir las variables de la base de datos de xtdes,
para hacer algn tipo de estadstica descriptiva xtsum, para realizar tablas de frecuencias
xttab y para calcular matrices de transicin se utilizar el comando xttrans.
. by idpersona: gen fecha=_n
. xtset idpersona fecha
. gen lwage=ln( ytrabcor)
. gen exp2=exp*exp
. xtdes
. xtsum
. xttab econyugal
. xttrans econyugal,freq
Tener en cuenta que overrall hace referencia a todos los individuos de la muestra en todo
los n periodos, between es una muestra entre individuos y within es una variacin entre la
variable de tiempo, manteniendo a los mismos individuos.
Para entender un poco mejor el anterior anlisis, preste atencin a la columna overall freq,
quiere decir que sobre todas las observaciones se encontraron 3640 ocasiones donde el
individuo est casado, 456 ocasiones donde los individuos se encontraron solteros. Ahora
observe la columna between freq. Por ejemplo el nmero 406, indica que 406 individuos
estuvieron solteros alguna vez. Ahora observe la columna within percent, indica que del
total de la muestra el 89.68% de las personas estaban alguna en otro estado conyugal
diferente al casado.
183
Grficos de evolucin
El comando xtline permite hacer grafico de evolucin de aquellas variables que que se
quieren analizar, por ejemplo si se quiere saber la dinmica del comportamiento del
logaritmo del salario y la dinmica de las horas de trabajo al mes;
. xtline lwage if idpersona<=39, overlay title("Logaritmo salario") name(lwage, replace)
. xtline horas if idpersona<=39, overlay title("Horas de trabajo al mes") name(hora, replace)
. graph combine lwage hora
184
Ahora para la realizar grficos de dispersin scatter con ajustes paramtricos qfit y no
paramtricos lowess se utilizar el comando graph twoway. Por ejemplo se quiere el
grfico del comportamiento del salario con respecto a los aos de experiencia de los
individuos de la muestra, con un ajuste cuadrtico para observar si existe un efecto lineal
y un ajuste no paramtrico para observar que tanto se desva del ajuste paramtrico.
. graph twoway (scatter lwage exp) (qfit lwage exp) (lowess lwage exp), title(Dinamica: Salario vs experiencia)
ytitle(Logaritmo Salario) xtitle(Aos de experiencia) legend(label(1 "Datos reales") label(2 "Ajuste Cuadratico")
label(3 "Lowess")) name(Grfico)
185
Por otro lado tambin se pueden realizar grficos en donde solo se incluya el efecto within
y between de la muestra que se elige. Por ejemplo si se quisiera realizar el anterior grafico
pero solo entre el cambio de cada individuo a travs del tiempo se utilizar el comando
xtdata, fe, mientras que para realizar anlisis entre individuos between se utilizar xtdata,
be.
*variacion within*
. snapshot save, label("Snapshot 1")
. xtdata idpersona anos lwage exp, fe
. graph twoway (scatter lwage exp) (qfit lwage exp) (lowess lwage exp), title(Dinamica: Salario vs experiencia)
ytitle(Logaritmo Salario) xtitle(Aos de experiencia) legend(label(1 "Datos reales") label(2 "Ajuste Cuadratico")
label(3 "Lowess")) name(Grficowithin)
. snapshot restore 1
*variacion between*
. xtdata idpersona anos lwage exp, be
. graph twoway (scatter lwage exp) (qfit lwage exp) (lowess lwage exp), title(Dinamica: Salario vs experiencia)
ytitle(Logaritmo Salario) xtitle(Aos de experiencia) legend(label(1 "Datos reales") label(2 "Ajuste Cuadratico")
label(3 "Lowess")) name(Grficobetween)
. snapshot restore 1
. graph combine Grficowithin Grficobetween, title(Logaritmo del salario vs experiencia)
186
9.2.2
( , ) = 0.
Exogeneidad ( , ) = 0.
El modelo resultante es el modelo de efectos aleatorios.
9.2.2.1 Regresion Pooled
La regresin agrupada se evala sin tener en cuenta de que los datos son datos de panel
agrupados. En este parte, primero se crea una variable categrica de gnero, toma el
valor de 1 si es hombre y 0 en caso contrario, segundo se crea una variable global que
contenga todas la variables independientes y al momento de requerirla se utilizar el
nombre del global antecedido del signo $, tercero se evala la funcin de los ingresos del
individuo, cuarto se examina si los residuos tienen algn tipo de autocorrelacin serial.
. gen sexo=genero==1
. global xvarlist exp exp2 horas esc sexo
*Regresion agrupada pooled*
. sort idpersona fecha
. reg lwage $xvarlist
. reg lwage $xvarlist, vce(cluster idpersona)
. predict uhat, resid
. correlate uhat L.uhat
188
. xttest3
. xtserial lwage $xvarlist
. xtreg lwage $xvarlist, fe vce(cluster idpersona)
189
Por medio de las anteriores pruebas se demuestra que por medio de la regresin por
efectos fijos existe presencia de heterocedasticidad y la no presencia de autocorrelacin
seria.l
Tabla 146. Regresin datos de panel por efectos fijos y correccin de heterocedasticidad.
Se puede observar que Stata 12 omite la variable que no cambia a travs del tiempo
entre los individuos, que es el gnero. A diferencia del modelo por mnimos cuadrados
ordinarios las variables de aos de escolaridad y de experiencia al cuadrado no son
significativas al 5%.
9.2.2.3 Estimacin del modelo de efectos aleatorios
La estimacin se puede realizar mediante tres mtodos el primero hace nfasis en
evaluarlo en primeras diferencias, segundo, por el mtodo de mnimos cuadrados
generalizados y tercero con el mtodo between. El comando que se utiliza es xtreg, re.
. xtreg lwage $xvarlist, re vce(cluster idpersona)
. xttest1
190
Tabla 147. Regresin datos de panel por efectos aleatorios y correccin de heterocedasticidad.
Con la anterior prueba que demuestra que al evaluar el modelo por efectos aleatorios
existe presencia de heterocedasticidad y autocorrelacin, para corregir estos dos
problemas se utiliza la opcin vce(cluster idpersona) y el comando xtregar.
191
9.2.3
Comparacin de modelos
En esta parte se utilizaran los comando quietly para realizar la estimacin sin que muestre
los resultados en la pantalla, est store para que guarde en memoria los resultados de la
estimacin y est table para mostrar los resultados en una tabla con las opciones que se
quieran mostrar, por ejemplo b, se, r2, para los coeficientes, la desviacin estndar y el r
cuadrado, respectivamente.
. quietly regress lwage $xvarlist, vce(cluster idpersona)
. est store MCO
. quietly xtreg lwage $xvarlist, fe
. est store FE
. quietly xtreg lwage $xvarlist, fe vce(robust)
. est store FE_rob
. quietly xtreg lwage $xvarlist, re
.. est store RE
. quietly xtreg lwage $xvarlist, re vce(robust)
. est store RE_rob
. est table MCO FE FE_rob RE RE_rob
Para elegir el mejor modelo a estimar se puede hacer una prueba con el comando
hausman.
. hausman FE RE, sigmamore
192
A travs de la prueba de Hausman se estima el modelo por efectos fijos, por lo tanto si la
experiencia se incrementa en una aos adicional, manteniendo las dems variables
constantes, los individuos de la muestra incrementaran su nivel de salario en un 2,7%.
Por un incremento de un ao de escolaridad de cada individuo, manteniendo las dems
variables constantes, el salario se incrementara en un 3.5%.
9.3
Comandos usados
$
by
clean
est store
gen
global
graph combine
hausman
list
predict
quietly
reshape
reshape long
reshape wide
resid
sigmamore
use
vce(cluster
xtdata, be.
xtdata, fe
xtdescribe
xtgls
xtline
xtpcse
193
xtregar
xtse
xtserial
xtset
xtsum
xttab
xttest0
xttest1
xttest3
xttrans
194
Luego para hacer referencia al grupo de variable utilizando algn comando, se debe
anteponer el smbolo $ al nombre del grupo
Por ejemplo
keep $grupo1
195
Los estadsticos, pruebas y resultados que genera Stata es posible visualizarlos por
medio del comando return y ereturn. Por ejemplo
196
Percentiles
3291
3748
3895
4195
Smallest
3291
3299
3667
3748
Obs
Sum of Wgt.
5006.5
Largest
13466
13594
14500
15906
6342
11385
13466
15906
74
74
Mean
Std. Dev.
6165.257
2949.496
Variance
Skewness
Kurtosis
8699526
1.653434
4.819188
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
74
74
6165.256756756757
8699525.97426879
2949.49588476892
1.653433511704859
4.819187528464004
456229
3291
15906
3291
3748
3895
4195
5006.5
6342
11385
13466
15906
Vea en este caso, que al hacer un comando de sum e indicando la opcin de detail, Stata
se muestran los resultados generales ms otras medidas de percentiles, la curtosis y la
simetra. Ahora suponiendo que se quiere armar una tabla que muestre para la base de
nlsw88.dta, por raza, el promedio del salario, la mediana, la varianza y el nmero de
observaciones. Para ello se usar la construccin de una matriz.
Para la creacin de la matriz se construye indicando el tamao que se quiere.
La matriz que se debe construir es la siguiente:
BLACK
WHITE
Promedio
Varianza
Mediana
No. Observaciones
Tabla 152. Tabla de ejemplo
Percentiles
2.090301
2.875546
3.344482
4.516906
Smallest
1.004952
1.032247
1.392914
1.501798
Obs
Sum of Wgt.
6.545891
Largest
40.19808
40.19808
40.19808
40.19808
9.758451
13.14009
17.34411
38.70926
1637
1637
Mean
Std. Dev.
8.082999
5.955069
Variance
Skewness
Kurtosis
35.46285
3.00474
14.74577
c1
8.0829994
6.5458913
35.462848
1637
c2
6.8445578
5.434783
25.767671
583
. matrix list A
A[4,2]
Promedio
Media
Varianza
Observacio~s
Blanco
8.0829994
6.5458913
35.462848
1637
Negro
6.8445578
5.434783
25.767671
583
198
10.3.1 Ejercicio
1. Ahora haga una prueba de igualdad de medias de los salarios, por la raza
2. Cree una tabla de resultados tal como se presenta a continuacin
BLANCO
NEGRO
ESTADSTICAS
Promedio Observaciones Promedio Observaciones Diferencia Error
T-test
std
Tabla 156. Ejercicio de matrices
La primera fila no es posible crearla en Stata, entonces solamente ingrese como nombres
la segunda fila.
Ahora utilizando loops realice la siguiente tabla por las variables tenure, hours, wage
grade
SINGLE
MARRIED
ESTADSTICAS
Promedio Observaciones Promedio Observaciones Diferencia Error Tstd
test
tenure
Hours
Wage
Grade
Tabla 157. Ejercicio 2 de matrices
. global grupo tenure hours wage grade
Utilizando el comando foreach me dice que para cada variable en el grupo que acabo de
formar realice los comandos dentro del loop.
foreach var in $grupo {
local i = `i'+1
preserve
qui ttest `var', by(married)
matrix C[`i',1]=r(mu_1)
matrix C[`i',2]=r(N_1)
matrix C[`i',3]=r(mu_2)
199
matrix C[`i',4]=r(N_2)
matrix C[`i',5]=r(mu_1) - r(mu_2)
matrix C[`i',6]=r(se)
matrix C[`i',7]=r(t)
restore
}
matrix rown C = tenure hours wage grade
matrix coln C = Prom1 Obs1 Prom2 Obs2 Dif ErrSt T-test
matrix list C
3. Para ingresar caracteres de texto en grficas, crear variables, tablas, puede utilizar
el comando char() , en su interior debe ingresar el cdigo ASCII
Ejemplo:
. gen arroba = char(64)
. global copyr = char(169)
13
200
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
di `c(ALPHA)
ABCDEFGHIJKLMNOPQRSTUVWXYZ
di `c(Mons)
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
di `c(current_date)
di `c(current_time)
di `c(sysdir_stata)
di `c(N)
di `c(k)
di `c(memory)
di `c(more)
di `c(virtual)
di `c(pi)
- Genera el nmero Pi
5. Fillin
. clear
. set obs 3
. gen y = _n
. gen x = y
. fillin y x
201
. global F4 = char(180)
. global F4 = list;
. net cd stb
. net cd stb42
net install sbe16_1
202
Ejemplo 2:
. quietly: summarize mpg, detail
204
205
Una vez ejecutado la IQT deber instalar un recurso de evaluacin, para ello haga clic en
Browse de la opcin de Qualification source, seleccione una ubicacin, puede ser la
carpeta de Stata 12, e instale el complemento.
206
207
Adems, en Stata 12 se puede producir un PDF de un grfico desde Stata. Por ejemplo:
. sysuse auto, clear
. gladder price
. graph export C:\Users\Soporte\Desktop\graph.pdf //name(scatter)
208
http://www.ats.ucla.edu/stat/stata/
http://econpapers.hhs.se/paper/bocbocoec/531.htm
http://fmwww.bc.edu/ec/res.info.php
http://ideas.repec.org/s/boc/bocins.html
209
12. BIBLIOGRAFIA
[1] Adkins, L. & Hill, R. (2008). Using Stata for Principles of Econometrics. Wiley, Third
Edition.
[2] Baum, Christopher. (2006). An Introduction to Moderm Econometrics Using Stata.
Stata Press, Second Edition.
[3] Baum, Christopher. (2009). An Introduction to Stata Programming.. Stata Press, First
Edition.
[4] Cameron, A. & Trivedi, P. (2009). Microeconometrics Using Stata. Stata Press, Second
Edition.
[5] Cox, N. & Newton, H. (2009) Seventy-six Stata Tips. Stata Press, Second Edition.
[6] Freese, J. & Long. S. (2006). Regression Models for Categorial Dependent Variables
Using Stata. Stata Press, Second Edition.
[7] Hamilton, Lawrence. (2004). Statistics with Stata. Thomson.
[7] Mitchell, Michael. (2008). A Visual Guide to Stata Graphics. Stata Press, Second
Edition.
[8] Mitchell, Michael. (2010). Data Management Using Stata, A Practical Handbook. Stata
Press, Second Edition.
[9] Rabe, S & Everitt, B. (2004). A Handbook of Statistics Analyses using Stata. Chapman
& Hall/CRC, Third Edition.
210
www.SOFTWARE-shop.com