Sunteți pe pagina 1din 164

Brayan Ricardo Rojas O.

Instructor
1
Si oigo algo lo olvido.
Si lo veo lo entiendo.
Si lo hago lo aprendo.
Confucio (551-478 A.C)
2
CONTENIDO DEL CURSO
MANEJO BSICO
1. INTRODUCCIN:
-Qu es STATA?
-Versiones de STATA
-Ventajas y Desventajas
2. MANEJO DE LA INTERFAZ
-Ventanas y Mens
-Tipos de Archivos
-Sintaxis de los comandos
3. MANEJO DE BASES DE DATOS
-Abrir, importar, exportar y guardar
datos
-Creacin, transformacin, eliminacin
de variables y observaciones
-Filtros
-Combinar Bases de datos
-Labels (variables y observacciones)
4. GRAFICAS
-Linea
-Torta (pie)
-Puntos scatter -
-Histogramas
-Correlaciones
-Caja box plot -
5. ANLISIS DE DATOS
-Estadsticas bsicas
-Tablas (frecuencias, cruzadas, etc.)
6. INFERENCIA ESTADSTICA
- Pruebas sobre la media, varianza y
proporciones
3
CONTENIDO DEL CURSO
MANEJO INTERMEDIO
1. REGRESIN LINEAL
-Qu es regresin?
-Grficas
-Correlacin
-Regresin simple y mltiple:
-Pruebas sobre coeficientes y el
modelo
-Elasticidades
-Calculo de residuales y
predicciones
-Evaluacin de supuestos
-Normalidad
-Heterocedasticidad
-Multicolenalidad
2. SERIES DE TIEMPO
4
5
Stata es un paquete estadstico operado por
lneas de comando, por lo cual se define como
un lenguaje de programacin, aunque tambin
funciona bajo entorno grfico (por ventanas).
Ofrece alta flexibilidad, mltiples herramientas
para el manejo de datos, y opciones de
grficos, lo cual facilita al principiante aprender
a manejarlo. Adicionalmente, desde el
programa se puede acceder a actualizaciones y
bases de datos disponibles en Internet.
6
Small STATA Versin estudiantil de STATA
Intercooled STATA Versin estndar de STATA
STATA/SE Versin especial de STATA
para manejo de bases de datos
grandes.
STATA/MP Versin especial de STATA
diseada para trabajar en
equipos con ms de un
procesador o ncleo (2 a 32
procesadores)
7
VENTAJAS DESVENTAJAS
1. Uso combinado de lenguaje de
programacin y ventanas
2. Manuales disponibles con
informacin especializada
3. Actualizacin permanente con
solo tener acceso a Internet
4. Libros tcnicos especializados
con aplicaciones en STATA
5. Es usado en las principales
instituciones de investigacin,
universidades, empresas
pblicas y privadas alrededor
del mundo.
6. Versiones para Sistemas
operativos Linux, Windows y
Mac.
7. Mdulos especializados para
anlisis micro y macro.
8. Programacin en Matrices
1. Solo esta disponible en el
idioma Ingls
8
Introduccin
9
10
BARRA DE MENS
BARRA DE HERRAMIENTAS
11
Tipo de Archivo Extensin
Archivos de datos *.dta
Archivos grficos *.gph
Bitcoras de salida *.smcl
Archivos de comandos *.do
Archivos de programacin *.ado
12
13
14
15
16
17
18
19
20
21
22
23
Uso de comandos:
-list
-browse
-table
24
NOTA:
Las variables deben
tener EXACTAMENTE
los mismos nombres
en ambas bases de
datos
25
26
27
28
1
2
29
30
31
1
0
2
0
3
0
4
0
M
i
l
e
a
g
e

(
m
p
g
)
2,000 3,000 4,000 5,000
Weight (lbs.)
32
33
0
1
0
2
0
3
0
4
0
2000 3000 4000 5000 2000 3000 4000 5000
Domestic Foreign
95% CI Fitted values
Mileage (mpg)
Weight (lbs.)
Graphs by Car type
1
0
2
0
3
0
4
0
2,000 3,000 4,000 5,000 2,000 3,000 4,000 5,000
Domestic Foreign
M
i
l
e
a
g
e

(
m
p
g
)
Weight (lbs.)
Graphs by Car type
34
4
0
5
0
6
0
7
0
8
0
1900 1920 1940 1960 1980 2000
Year
Life expectancy, males Life expectancy, females
35
Avg.
annual
%
growth
lgnppc
safewater
Life
expectancy
at birth
0
2
4
0 2 4
6
8
10
6 8 10
0
50
100
0 50 100
50
60
70
80
50 60 70 80
36
-
1
0
1
2
3
A
v
g
.

a
n
n
u
a
l

%

g
r
o
w
t
h
Eur & C.Asia N.A. S.A. 37
0
5
1
0
1
5
m
e
a
n

o
f

w
a
g
e
not college grad college grad
single married single married
nonSMSA SMSA
38
39
length 74 187.9324 22.26634 142 233
weight 74 3019.459 777.1936 1760 4840
price 74 6165.257 2949.496 3291 15906

Variable Obs Mean Std. Dev. Min Max
. sum price weight length
40

Foreign 22
Domestic 52

Car type Freq.

. table foreign
41
Total 74

Foreign 22 **********************
Domestic 52 ****************************************************

Car type Freq.
. tabulate foreign, plot sort
42
43
44
Pr(C < c) = 1.0000 2*Pr(C > c) = 0.0000 Pr(C > c) = 0.0000
Ha: sd < 300 Ha: sd != 300 Ha: sd > 300
Ho: sd = 300 degrees of freedom = 73
sd = sd(price) c = chi2 = 7.1e+03

price 74 6165.257 342.8719 2949.496 5481.914 6848.6

Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

One-sample test of variance
45
46
REGRESIN LINEAL
47
FUENTE: Guadalupe Ruiz Merino - Curso de Estadstica
PARA QU SIRVE EL ANOVA?
Para comprobar si una variable con ms de dos categoras
(factores) tiene relacin con una segunda variable que es
cuantitativa
A esta segunda variable que supone la respuesta al factor se le
llama variable dependiente
Pretendemos demostrar que depende de la otra variable (factor)
variable dependiente
El factor es, por lo tanto, la variable independiente
variable
independiente
48
RECORDATORIO
Hay dos problemas que no se pueden solucionar con el
anlisis de la varianza:
El ANOVA se queda corto 1
Hay factores que tienen tantas categoras que realmente se
parecen ms a una variable cuantitativa, o puede que nos
interese usar como variable independiente una variable que es
cuantitativa
2
Indica si hay o no una
asociacin estadstica entre dos
variables, pero no define
exactamente cul es la
magnitud de esa relacin
Cunto aumenta la
variable dependiente
por cada unidad de
aumento de la
independiente?
LA REGRESIN
VIENE A RESOLVER
ESTOS DOS PROBLEMAS
INTRODUCCIN A LA REGRESIN
49
DEFINICIN DE CORRELACIN
Se considera que dos variables cuantitativas estn
relacionadas entre s cuando los valores de una de
ellas varan de forma sistemtica conforme a los
valores de la otra.
50
EL COEFICIENTE DE CORRELACIN DE PEARSON
El coeficiente de correlacin de Pearson es
un ndice estadstico que permite definir de
forma ms concisa la relacin entre las
variables
Es una medida de la relacin lineal entre
dos variables medidas con escala numrica
51
EL COEFICIENTE DE CORRELACIN DE PEARSON
Su resultado es un valor que flucta entre -1 y +1
+1
-1
0
Relacin perfecta en sentido
negativo
Relacin perfecta en sentido positivo
Cuanto ms cercanos a 0 sean los
valores significar una relacin ms
dbil o incluso ausencia de relacin
52
El valor del coeficiente de correlacin est
muy influenciado por los valores extremos,
igual que la desviacin estndar.
Por tanto la correlacin no describe bien la
relacin entre dos variables cuando cada
una de ellas tiene valores extremos
En estos casos debe hacerse una
transformacin de los datos o usarse la
correlacin de Spearman
53
Finalmente, correlacin no es igual a
causa
El juicio de que una caracterstica causa otra debe
justificarse con argumentos, no slo con el coeficiente de
correlacin
Correlacin = Causa
54
EL COEFICIENTE DE CORRELACIN DE PEARSON
Segn su valor la relacin entre las variables ser:
1
Perfecta
0,5
0,9
0,8
Excelente
Buena
Regular
Mala
55
DIAGRAMAS DE DISPERSIN
Un DIAGRAMA DE DISPERSIN ofrece una idea bastante
aproximada sobre el tipo de relacin existente entre dos
variables
Un DIAGRAMA DE DISPERSIN tambin puede utilizarse como
una forma de cuantificar el grado de relacin lineal existente
entre dos variables
56
COEFICIENTE DE PEARSON REPRESENTACIN GRFICA
COEFICIENTE DE PEARSON REPRESENTACIN GRFICA
DIAGRAMAS DE DISPERSIN
El DIAGRAMA DE DISPERSIN permite formarse una primera
impresin sobre el tipo de relacin existente entre variables
Intentar cuantificar esa relacin tiene inconvenientes porque
la relacin entre dos variables no siempre es perfecta o nula
Normalmente ni lo uno ni lo
otro
59
Como hemos visto, la correlacin sirve para medir la fuerza
con que estn asociadas dos variable cuantitativas
Esa fuerza se expresa con un nmero
COEFICIENTE DE
CORRELACIN
La regresin sirve para detallar ms
Est dirigida a describir de una manera ms completa cmo es la
relacin entre ambas variables
de tal manera que se puede predecir (con un cierto margen de
error) cul va a ser el valor de una variable una vez que se sabe
el valor de la otra
INTRODUCCIN A LA REGRESIN
60
Si la asociacin entre
ambas variables es dbil
Pero cuando la asociacin
es fuerte
La regresin nos ofrece
un modelo estadstico
que puede alcanzar
finalidades predictivas
Esta prediccin puede ser
bastante imprecisa
INTRODUCCIN A LA REGRESIN
61
Una vez que sabemos que dos variables estn
relacionadas
Cmo averiguar qu tipo de relacin tienen?
Para esto utilizamos los modelos de
regresin
MODELOS DE REGRESIN
INTRODUCCIN A LA REGRESIN
62
QU ES?
La regresin como tcnica estadstica analiza
la relacin de dos o ms variables continuas
PARA QU
SIRVE?
La regresin se utiliza para inferir datos
a partir de otros y hallar una respuesta
a lo que pueda suceder
CONCEPTO DE REGRESIN
INTRODUCCIN A LA REGRESIN
63
DIFERENCIA ENTRE CORRELACIN Y REGRESIN:
La correlacin es independiente de la escala
pero no la regresin
EJEMPLO
La correlacin entre estatura y peso es la
misma sin importar que la estatura se mida
en metros o centmetros
SIN EMBARGO
La ecuacin de regresin entre el peso y la
estatura depende de las unidades que
utilicemos
INTRODUCCIN A LA REGRESIN
64
La regresin supone que hay una variable fija, controlada
por el investigador y otra variable que no est controlada
La regresin supone que hay una variable fija, controlada
por el investigador y otra variable que no est controlada
La regresin supone que hay una variable fija, controlada
por el investigador y otra variable que no est controlada
variable indepediente o predictora
variable de respuesta o dependiente
La correlacin supone que ninguna variabe es fija, las dos
estn fuera del control del investigador
INTRODUCCIN A LA REGRESIN
65
SIMILITUDES ENTRE CORRELACIN Y REGRESIN:
La pendiente de la lnea de regresin tiene el
mismo signo que el coeficiente de correlacin
La correlacin y la regresin slo describen relaciones
lineales. Si los coeficientes de correlacin y las ecuaciones
de regresin se calculan a ciegas, sin examinar las grficas,
los investigadores pasarn por alto relaciones muy
estrechas pero no lineales
OJO!
INTRODUCCIN A LA REGRESIN
66
VARIABLES DE LA REGRESIN
Las variables del modelo de regresin deben ser
cuantitativas
Dada la robustez de la regresin es frecuente encontrar
incluidas como variable independiente variables nominales
La variable dependiente debe ser siempre cuantitativa
Robustez: un estadstico se dice que es
robusto cuando es vlido aunque no se
cumpla alguno de sus supuestos
INTRODUCCIN A LA REGRESIN
67
TIPOS DE REGRESIN
Se pueden encontrar distintos tipos de
regresin
Regresin Lineal
1
Regresin Mltiple
2
Regresin Logstica
3
INTRODUCCIN A LA REGRESIN
68
La regresin en su forma ms sencilla se llama regresin
lineal simple
Tcnica estadstica que analiza la relacin
entre dos variables cuantitativas, tratando de
verificar si dicha relacin es lineal
Sin embargo, a diferencia de lo que ocurra con la
correlacin, ahora no se puede considerar que ambas
variables tengan un papel simtrico
INTRODUCCIN A LA REGRESIN
69
En la regresin, cada una de las dos variables desempea
una funcin diferente y en consecuencia tienen una
consideracin distinta:
A la variable respuesta se le
llama variable dependiente y
ocupa el eje de ordenadas (eje
vertical o de la y)
A la variable predictora o
causa se le denomina variable
independiente y ocupa el eje de
abcisas (eje horizontal)
variable respuesta
variable
predictora
Suele ser un factor previamente
determinado o una
caracterstica ms fcil de
medir que la que se pretende
explicar a partir de ella
INTRODUCCIN A LA REGRESIN
70
La correlacin y la regresin tienen distintas finalidades
Es bastante raro que est indicado aplicar simultneamente
ambas tcnicas para alcanzar los objetivos de un determinado
anlisis estadstico
Con frecuencia se confunden ambas tcnicas y se piensa
que son una sola
ALGUNAS ACLARACIONES
INTRODUCCIN A LA REGRESIN
71
Medir el grado o fuerza de la
asociacin entre dos variables
cuantitativas
OBJETIVO DE LA
CORRELACIN
A travs del coeficiente de correlacin
No estima la bondad del ajuste de unos datos a
un modelo
Buscar la lnea que mejor se ajusta a
los puntos
OBJETIVO DE LA
REGRESIN
INTRODUCCIN A LA REGRESIN
72
REGRESIN LINEAL
Consideremos una variable aleatoria respuesta Y,
relacionada con otra variable que llamaremos explicativa X
Supongamos una muestra de n individuos para los que se
conocen los valores de ambas variables
Hacemos una representacin
grfica:
en el eje X la variable
explicativa
en el Y la respuesta
Y
Variable aleatoria
X
Variable explicativa
n
Muestra
INTRODUCCIN A LA REGRESIN
73
REGRESIN LINEAL
OBJETIVO Encontrar una recta que se ajuste a la nube de
puntos
A partir de esa recta podemos usar los valores de X para
predecir los de Y
Normalmente se utiliza el mtodo de los mnimos cuadrados
que minimiza la distancia de las observaciones a la recta
INTRODUCCIN A LA REGRESIN
74
Una recta tiene una ecuacin muy simple:
a
b
Y=a+bX
b
a
es la pendiente de la recta
es el punto en que la recta corta el eje vertical
Habra que calcular
los coeficientes a,b.
REPRESENTACIN GRFICA
INTRODUCCIN A LA REGRESIN
75
Conociendo los valores de estos dos coeficientes podramos
reproducir la recta y describir con ella la relacin entre las
variables
Adems de representar la recta con su frmula tambin es til
disponer de alguna informacin sobre el grado en que la recta
se ajusta a la nube de puntos
REGRESIN LINEAL
INTRODUCCIN A LA REGRESIN
76
Obtenemos el siguiente resultado
Qu est pasando? Cul es el problema?
Dispersin de los datos: los datos estn muy
separados
Por eso no se observa ninguna tendencia
QU
HACER?
Aplicamos transformaciones logartmicas
Es una opcin siempre que tengamos datos dispersos
INTRODUCCIN A LA REGRESIN
EJEMPLO
El ejemplo ms intuitivo es cmo se relacionan la talla y la edad
Por cada incremento de edad (por lo menos hasta los 25 aos)
se produce un incremento de altura. Es decir
y = a + b*x
constante llamada ordenada en el
origen
(en nuestro caso: cunto
medira un recin nacido)
pendiente: incremento de y por
cada unidad de incremento de x
(en nuestro caso: cuntos
centmetros crece un nio al
ao)
INTRODUCCIN A LA REGRESIN
EJEMPLO
Sin embargo, a pesar de ser este un modelo de fcil comprensin,
tiene errores
Nunca ser posible hacer predicciones perfectas de la estatura
que tendr un nio una vez que se conoce su edad
Aunque la edad tiene un efecto importante sobre la estatura,
este efecto est afectado por un cierto grado de variabilidad
aleatoria
INTRODUCCIN A LA REGRESIN
EJEMPLO
Las observaciones de dos variables no suelen trazar una lnea recta
perfecta sino que existe un cierto grado de dispersin entorno
a una imaginaria lnea recta que los atravesara por el centro
y = a + b*x + e
error residual: expresa
el desajuste de los
datos respecto al
modelo lineal
e
es una cantidad variable de un sujeto a otro y puede ser
positiva o negativa
equivale a lo que habra que aadir o quitar a la prediccin
que hace el modelo para que coincida exactamente con lo
observado en cada sujeto
INTRODUCCIN A LA REGRESIN
La ecuacin anterior nos plantea una serie de preguntas
Hasta qu punto es importante ese error?
Qu porcentaje de la variabilidad en la talla puede
ser explicado por efecto de la edad y cul no es
explicado?
Para resolver estos interrogantes nos adentramos en los
modelos de regresin
INTRODUCCIN A LA REGRESIN
BONDAD DEL AJUSTE
Una medida de ajuste
muy aceptada es el
coeficiente de
determinacin R
2
Se trata de una medida estandarizada que toma valores entre 0
y 1
Cuadrado del coeficiente
de correlacin lineal
R
2
=0.86
La recta explica un 86% de la variabilidad
de Y en funcin de X
Modelo de Regresin
COEFICIENTE DE DETERMINACIN R
2
R
2
Coeficiente muy importante en regresin, ya
que compara lo explicado por la regresin
lineal con la variabilidad total
Porcentaje de la variabilidad total de la
variable dependiente que es explicada
por la variable independiente
INTERPRETACIN
Modelo de Regresin
COEFICIENTE DE DETERMINACIN R
2
Los posibles valores para R
2
van desde 1, que es
el mximo, a 0 que es el mnimo
VALORES
+1
0
La recta no explica nada, es decir, no existe
asociacin entre x e y
La recta dara una explicacin perfecta, es decir,
los valores de y estn totalmente determinados
por la x
Modelo de Regresin
COEFICIENTE DE DETERMINACIN R
2
Los posibles valores para R
2
van desde 1, que es
el mximo, a 0 que es el mnimo
VALORES
+1
0
Cuando ms prximo a 1 sea R
2
mayor es la fuerza
de la asociacin entre ambas variables
Modelo de Regresin
COEFICIENTE DE DETERMINACIN R
2
La raz cuadrada de R
2
se llama r
Slo se escribe con mayscula (R) cuando hay varias
variables independientes
Entonces se llama coeficiente de correlacin mltiple o R
mltiple
R
2
= r
Esta r es precisamente el coeficiente de correlacin de
Pearson
Modelo de Regresin
COEFICIENTE DE DETERMINACIN R
2
Salvo en los casos extremos de que R
2
valga 0 o 1, la
magnitud de r es siempre superior a la de R
2
para R
2
0,1 r >R
2
Una correlacin puede parecer muy buena,
por ejemplo r=0,7, y sin embargo el
modelo lineal explicara menos del 50% de
lo observado
REPERCURSIONES
PRCTICAS
R
2
= 0,49
Modelo de Regresin
ECUACIN DE REGRESIN
El objetivo ms importante de un anlisis de regresin lineal
suele ser el clculo del valor de la pendiente de la recta
b = pendiente de la recta o coeficiente de regresin
mide el cambio de la variable y por cada unidad de
cambio de x
Su magnitud sirve para predecir en cunto
aumentar y cada vez que x se incremente en una
unidad
Su signo puede ser positivo o negativo, y en esto la
interpretacin coincide con la correlacin
Modelo de Regresin
SUPUESTOS DEL MODELO DE REGRESIN
Para poder realizar una regresin lineal se deben asumir cuatro
supuestos:
Normalidad de la distribucin condicional de la variable y 1
Linealidad
2
Homogeneidad de las varianzas 3
Independencia de las observaciones
4
Modelo de Regresin
SUPUESTOS DEL MODELO DE REGRESIN
Para poder realizar una regresin lineal se deben asumir cuatro
supuestos:
Normalidad de la distribucin condicional de la variable y 1
Linealidad
2
Homogeneidad de las varianzas 3
Independencia de las observaciones
4
Se refiere no slo a que la variable y siga una
distribucin normal, sino que adems, para
cada valor de x, la distribucin de posibles
valores de y tambin siga una normal
Modelo de Regresin
SUPUESTOS DEL MODELO DE REGRESIN
Para poder realizar una regresin lineal se deben asumir cuatro
supuestos:
Normalidad de la distribucin condicional de la variable y 1
Linealidad
2
Homogeneidad de las varianzas 3
Independencia de las observaciones
4
Que exista una relacin lineal subyacente entre
la variable x y la variable y
Modelo de Regresin
SUPUESTOS DEL MODELO DE REGRESIN
Para poder realizar una regresin lineal se deben asumir cuatro
supuestos:
Normalidad de la distribucin condicional de la variable y 1
Homogeneidad de las varianzas 3
Independencia de las observaciones
4
Linealidad
2
Se conoce como homoscedasticidad
Modelo de Regresin
SUPUESTOS DEL MODELO DE REGRESIN
Para poder realizar una regresin lineal se deben asumir cuatro
supuestos:
Normalidad de la distribucin condicional de la variable y 1
Independencia de las observaciones
4
Linealidad
2
Homogeneidad de las varianzas 3
Cada observacin de la variable y
debe ser independiente de las dems
SUPUESTOS DEL MODELO DE REGRESIN
POR
EJEMPLO
Un estudio en el que y que representa el nmero
de acudientes en un colegio
Si existiesen estudiantes
con el mismo acudiente
Hay dos observaciones por
acudiente que estn
autocorrelacionadas entre s
No son independientes!
POR
TANTO
Habra que considerar como N al nmero de
estudiantes y no al nmero de brazos
Modelo de Regresin
SUPUESTOS DEL MODELO DE REGRESIN
OTRO
EJEMPLO
Nmero de casos de gripa en la regin
en un ao
Es decir, el segundo valor y no es independiente sino
que est condicionado por el primero, el tercero por el
segundo y as sucesivamente
A este efecto se le llama autocorrelacin
Modelo de Regresin
SUPUESTOS DEL MODELO DE REGRESIN
OTRO
EJEMPLO
Nmero de casos de gripa en la regin
en un ao
La autocorrelacin exige aplicar tcnicas especiales que
se agrupan bajo el concepto de series temporales
Estas series se utilizan mucho en economa, y cada vez van
teniendo ms inters para aplicaciones en ciencias sociales
Modelo de Regresin
REGRESIN LINEAL
PRIMER
PASO
Pedir a SPSS un grfico de dispersin
OBJETIVO
Apreciar visualmente si se puede asumir
un modelo lineal entre ambas variables
Cundo ajustaremos
una regresin?
Cuando la nube de puntos
nos sugiera que existe una
relacin lineal
Modelo de Regresin
USOS E INTERPRETACIN DE UNA REGRESIN LINEAL
Cul es la utilidad ms interesante de esta recta de regresin?
Representa lo que idealmente sera la unin de las diferentes
medias que va tomando y para cada grupo de valores de x
cul es la media de y a
medida que x va cambiando
ES
DECIR
Modelo de Regresin
Un error comn en el anlisis de regresin se presenta cuando
se hacen en el mismo individuo mltiples observaciones y se
tratan como si fueran independientes
POR
EJEMPLO
Considrese 10 empresas de quienes se ha
registrado el nmero de trabajadores y sus activos
antes de empezar una reestructuracin
N = 10
#
trabajadores
ACTIVOS
Tamao de la muestra Variables
Puede esperarse una moderada relacin positiva
entre el # de trabajadores y los activos de la
empresa
RESULTADO
Errores comunes de la regresin
Si las 20 observaciones se tratan como si fueran independientes
se presentaran varios problemas:
Ahora supngase que las mismas 10 empresas se encuestan a
los seis meses de la reestructuracin
1
El tamao de la muestra parecera ser de 20 en vez de
10
2
El uso de ambas observaciones tiene el mismo efecto
que usar mediciones duplicadas
Errores comunes de la regresin
Si las 20 observaciones se tratan como si fueran independientes
se presentaran varios problemas:
Ahora supngase que las mismas 10 empresas se encuestan a
los seis meses de la reestructuracin
1
El tamao de la muestra parecera ser de 20 en vez de
10
2
El uso de ambas observaciones tiene el mismo efecto
que usar mediciones duplicadas
Podra concluirse con
mayor probabilidad una significancia
(errneamente
)
Errores comunes de la regresin
Si las 20 observaciones se tratan como si fueran independientes
se presentaran varios problemas:
Ahora supngase que las mismas 10 empresas se encuestan a
los seis meses de la reestructuracin
1
El tamao de la muestra parecera ser de 20 en vez de
10
2
El uso de ambas observaciones tiene el mismo efecto
que usar mediciones duplicadas
Esto es debido a que la
relacin entre el # de
trabajadores y los activos
es estable en la misma
empresa
Da como resultado una
correlacin mayor de lo
que en realidad debe ser
Errores comunes de la regresin
Se pueden tambin obtener conclusiones inadecuadas si se
mezclan dos poblaciones diferentes
POR
EJEMPLO
Considrese la relacin entre estatura y
peso corporal
Recogemos una muestra de 10 hombres y 10 mujeres y se
calcula la correlacin entre peso y estatura combinando las
muestras
Errores comunes de la regresin
El procedimiento de Regresin Lineal permite utilizar ms de
una variable independiente y permite llevar a cabo anlisis de
regresin mltiple
En el anlisis de regresin mltiple la ecuacin ya no define una
recta en el plano, sino un hiperplano en un espacio
multidimensional
Con una variable dependiente y dos independientes
necesitamos tres ejes para poder representar el diagrama
de dispersin
Regresin lineal Mltiple
Si en lugar de dos variables independientes
utilizramos tres
sera necesario un espacio de cuatro dimensiones para
poder construir el diagrama de dispersin
POR
TANTO
Con ms de una variable independiente, la
representacin grfica de las relaciones
presentes en un modelo de regresin resulta
poco intuitiva, muy complicada y nada til
Regresin lineal Mltiple
Es ms fcil y prctico partir de la ecuacin del
modelo de regresin lineal:
Y =
0
+
1
*X
1
+
2
*X
2
+..+
k
*X
k
+
La variable dependiente Y se interpreta como una
combinacin lineal de un conjunto de K variables
independientes, cada una de las cuales va acompaada de un
coeficiente , que indica el peso relativo de esa variable en la
ecuacin
La variable dependiente Y se interpreta como una
combinacin lineal de un conjunto de K variables
independientes, cada una de las cuales va acompaada de un
coeficiente , que indica el peso relativo de esa variable en la
ecuacin
La variable dependiente Y se interpreta como una
combinacin lineal de un conjunto de K variables
independientes, cada una de las cuales va acompaada de un
coeficiente , que indica el peso relativo de esa variable en la
ecuacin
La ecuacin incluye un componente aleatorio (los residuos
) que recoge todo lo que las variables independientes no son
capaces de explicar
Regresin lineal Mltiple
SELECCIN DE LAS VARIABLES DE REGRESIN
El control sobre las variables utilizadas para construir el
modelo de regresin recae sobre el propio analista
Es el analista quien decide qu variables independientes
desea incluir en la ecuacin de regresin seleccionndolas l
mismo de la lista de variables independientes que tiene
v. independiente 1
v. independiente 2
v. independiente 3
..
analista
ecuacin de
regresin
Regresin lineal Mltiple
SELECCIN DE LAS VARIABLES DE REGRESIN
Sin embargo son
frecuentes situaciones
en las que
Para afrontar estas situaciones existen procedimientos
diseados para seleccionar, entre una gran cantidad de
variables, slo aquellas que permiten obtener el mejor ajuste
posible
No existe una teora o un trabajo
previo que oriente al analista en la
eleccin de las variables relevantes
El nmero de variables
independientes es muy elevado
Mtodos de Regresin
CRITERIOS DE SELECCIN DE LAS VARIABLES
Existen diferentes criterios para seleccionar variables en un
modelo de regresin:
El valor del coeficiente de correlacin mltiple R
2
1
El coeficiente de correlacin parcial entre cada
variable independiente y la dependiente
2
El grado de reduccin del error tpico cada vez que
se incorpora una variable
3
Mtodos de Regresin
MTODOS DE SELECCIN DE VARIABLES
Existen diferentes mtodos para seleccionar las variables
independientes que debe incluir un modelo de regresin
Los de mayor aceptacin son los mtodos de seleccin por
pasos (stepwise)
En primer lugar se selecciona la mejor variable, de
acuerdo a algn criterio estadstico
A continuacin, la mejor de las restantes
y as sucesivamente hasta que ya no quedan variables
que cumplan los criterios de seleccin
Mtodos de Regresin
MTODOS DE SELECCIN DE VARIABLES
Los mtodos de seleccin ms utilizados son:
Mtodo hacia delante 1
Mtodo hacia atrs 2
Pasos sucesivos 3
Mtodos de Regresin
Mtodo hacia delante 1
Mtodo hacia atrs 2
Pasos sucesivos 3
MTODOS DE SELECCIN DE VARIABLES
Los mtodos de seleccin ms utilizados son:
Las variables se incorporan al modelo de regresin
una a una
PRIMER PASO: se selecciona la variable
independiente que, adems de superar los criterios
de entrada, ms alto correlaciona (positiva o
negativamente) con la dependiente
Mtodos de Regresin
Mtodo hacia delante 1
Mtodo hacia atrs 2
Pasos sucesivos 3
MTODOS DE SELECCIN DE VARIABLES
Los mtodos de seleccin ms utilizados son:
SIGUIENTES PASOS: se utiliza como criterio de
seleccin el coeficiente de correlacin parcial.
Van siendo seleccionadas una a una las variables
que poseen el coeficiente de correlacin parcial
ms alto en valor absoluto
La seleccin de variables se detiene cuando no
quedan variables que superen el criterio de entrada
Mtodos de Regresin
MTODOS DE SELECCIN DE VARIABLES
Los mtodos de seleccin ms utilizados son:
Mtodo hacia delante 1
Mtodo hacia atrs 2
Pasos sucesivos 3
Comienza incluyendo en el modelo todas las
variables independientes, para luego proceder a
eliminarlas una a una
PRIMER PASO: se elimina aquella variable que,
adems de cumplir los criterios de salida, posee el
coeficiente de regresin ms bajo en valor absoluto
Mtodos de Regresin
MTODOS DE SELECCIN DE VARIABLES
Los mtodos de seleccin ms utilizados son:
Mtodo hacia delante 1
Mtodo hacia atrs 2
Pasos sucesivos 3
SIGUIENTES PASOS: Se van eliminando las variables
con coeficientes de regresin no significativos
La eliminacin de variables se detiene cuando no
quedan variables en el modelo que cumplan los
criterios de salida
Mtodos de Regresin
Mtodo hacia delante 1
Mtodo hacia atrs 2
Pasos sucesivos 3
MTODOS DE SELECCIN DE VARIABLES
Los mtodos de seleccin ms utilizados son:
Mezcla de los dos mtodos
anteriores
Mtodos de Regresin
Mtodo hacia delante 1
Mtodo hacia atrs 2
Pasos sucesivos 3
MTODOS DE SELECCIN DE VARIABLES
Los mtodos de seleccin ms utilizados son:
Comienza al igual que el mtodo hacia delante,
seleccionando en el primer paso la variable
independiente que adems de superar los criterios de
entrada ms altos correlaciona con la variable
dependiente
Mtodos de Regresin
Mtodo hacia delante 1
Mtodo hacia atrs 2
Pasos sucesivos 3
MTODOS DE SELECCIN DE VARIABLES
Los mtodos de seleccin ms utilizados son:
A continuacin se selecciona la variable independiente
Mtodos de Regresin
12
1
Se llama Series de Tiempo a un conjunto de
observaciones sobre valores que toma una
variable (cuantitativa) en diferentes momentos del
tiempo, a lo que llamaremos Perodicidad.
12
2
Hoy en da diversas organizaciones requieren
conocer el comportamiento futuro de ciertos
fenmenos con el fin de planificar, prevenir,es
decir, se utilizan para predecir lo que ocurrir con
una variable en el futuro a partir del
comportamiento de esa variable en el pasado.
12
3
En las organizaciones es de mucha utilidad en
predicciones a corto y mediano plazo, por
ejemplo ver que ocurrira con la demanda de un
cierto producto, las ventas a futuro, decisiones
sobre inventario, insumos, etc....
No as para el diseo de un proceso productivo
ya que no se disponen de datos histricos y se
trata de un proyecto a largo plazo
12
4
1. El horizonte de tiempo para realizar la
proyeccin.
2. La disponibilidad de los datos.
3. La exactitud requerida.
4. El tamao del presupuesto de proyeccin.
5. La disponibilidad de personal calificado.
12
5
ao Trim. 1 Trim. 2 Trim. 3 Trim. 4
1 0,300 0,460 0,345 0,910
2 0,330 0,545 0,440 1,040
3 0,495 0,680 0,545 1,285
4 0,550 0,878 0,660 1,580
5 0,590 0,990 0,830 1,730
6 0,610 1,050 0,920 2,040
7 0,700 1,230 1,060 2,320
8 0,820 1,410 1,250 2,730
ganancias
0,00
0,25
0,50
0,75
1,00
1,25
1,50
1,75
2,00
2,25
2,50
2,75
3,00
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
12
7
Mes 1999 2000 2001 2002 2003
Enero 6265,6 6356,8 6953,2 7428,1 6760,9
Febrero 5822,1 6194,9 6263,6 6755,8 6486,1
Marzo 6647,8 6664 7261,1 7389,7 7445,5
Abril 6320,9 6556,3 7039,6 7231,9 7345,2
Mayo 6781,5 7034,9 7305,5 7627,7 7703,3
Junio 6484,5 6809,7 7239,3 7339,9 7340,4
Julio 6636,2 6921,2 7386,6 7597,2 7621,7
Agosto 6583,4 7116,2 7502,1 7720,5 7685,7
Septiembre 6546,8 6784,2 7288 7555,6 7543,4
Octubre 6690,9 7110,7 7609,3 7835,1 7897,2
Noviembre 6588,1 7001,1 7424,7 7637,5 7657,3
Diciembre 6592,2 7150 7618,6 7027,5
12
8
Consumo Mensual
5000
5500
6000
6500
7000
7500
8000
8500
1 5 9
1
3
1
7
2
1
2
5
2
9
3
3
3
7
4
1
4
5
4
9
5
3
5
7
12
9
Establecer un modelo probabilstico
hipottico que represente los datos
(puede ser mas de uno)
Habiendo escogido un modelo (o familia
de modelos), estimar los parmetros.
13
0
Para el modelo estimado, verificar la
bondad de ajuste a los datos
Usar el modelo ajustado para intensificar
nuestra comprensin del mecanismo que
genera la serie.
13
1
Tendencia: componente a largo plazo
Efecto estacional: patrn de cambio que ocurre
peridicamente
Efecto cclico: fluctuacin (o dinmica del proceso)
que no es explicada ni por la tendencia ni por la
estacionalidad.
Efecto aleatorio: variabilidad debido al azar que se
observa despus de retirar los otros componentes
13
2
0,00
20,00
40,00
60,00
80,00
100,00
120,00
140,00
0 5 10 15 20 25 30 35 40 45 50 55
13
3
-40
-20
0
20
40
60
80
100
120
0 5 10 15 20 25 30 35 40 45 50 55
Tendencia y efecto estacional
13
4
componente aleatorio
-15,00
-10,00
-5,00
0,00
5,00
10,00
15,00
0 10 20 30 40 50
13
5
13
6
Desestacionalizacin:
Mtodos alternativos:
Diferencias sobre la media mvil
Ratios sobre la media mvil
X-11 /X-11 ARIMA / X-12
Mtodos basados en el Proceso Generador de Datos y Anlisis en
el dominio de las frecuencias (TRAMO/SEATS)
13
7
Presentacin:
Los modelos ARIMA responden al acrnimo de procesos
AutoRregresivos, Integrados, y Medias mviles (Moving
Average), y fueron planteados inicialmente por George Box y
Gwilym Jenkins en 1970 en su obra Time Series Analysis:
Forecasting and Control (Holden Day, San Francisco, USA)
como una alternativa a la modelizacin y prediccin tradicional
mediante modelos estructurales.
INTRODUCCIN A LOS MODELOS ARIMA
13
8
La idea subyacente fundamental consiste en
admitir que las series temporales son generadas
mediante un Proceso Generador de Datos que
puede ser identificado y cuantificado y que, por
tanto, pueden ser inferidos sus valores a futuro.
En este sentido enlaza con los mtodos clsicos
de prediccin basados en la identificacin de los
componentes de una serie temporal.
13
9
INTRODUCCIN A LOS MODELOS ARIMA
Presentacin:
En efecto cuando realizamos una prediccin de la evolucin de
una determinada serie temporal mediante la descomposicin en
los componentes estacional, tendencial, cclico e irregular, el
procedimiento que seguimos consiste en identificar
comportamientos regulares a lo largo de la serie (movimientos
estacionales, tendenciales y cclicos ) y extrapolarlos a futuro,
asumiendo que los comportamientos irregulares tendrn un efecto
promedio nulo.
14
0
En el caso de los modelos ARIMA
identificaremos igualmente una serie de
comportamientos regulares asociados a procesos
de evolucin temporal conocidos (Procesos de
integracin, autorregresivos y de Medias
mviles) que interactan con procesos
completamente aleatorios (Ruido blanco).
14
1
1. Identificacin tentativa del modelo
2. Estimacin de los parmetros del modelo
3. Evaluacin de diagnsticos para comprobar si el modelo es adecuado;
mejorar el modelo si es necesario.
4. Generacin de Pronsticos
14
2
Estacionario?
S
No
Transformar los datos
(primera diferencia)
Estacionario?
S
No
Transformar los datos
(segunda diferencia)
Determinar qu
tipo de modelo es
el adecuado
Estimar los
parmetros
del modelo
Estacionario?
No transforma-
ciones
ms
complejas
S
Diagnsticos Pronsticos
14
3
Procesos estocsticos elementales: Ruido Blanco
El denominado ruido blanco es un proceso estocstico que
presenta media nula, varianza constante y covarianza nula para
cualquier valor de k, si adems la distribucin es normal, se
denomina Ruido Blanco Gaussiano.
( )
( )
k a a Cov
a E
a E
k t t
a t
t
=
=
=
+
0 ) , (
0
2 2
o
Este tipo de procesos es estrictamente estacionario.
144
Procesos estocsticos elementales: Caminata aleatoria.
La caminata aleatoria es un proceso tal que la diferencia entre
dos valores consecutivos de la variable se comporta como un
ruido blanco.
Si existe una tendencia sistemtica en el cambio se denomina
camino aleatorio con deriva.
t t t t t t
a Z Z bien o a Z Z + = =
1 1
t t t t t t
a Z m Z bien o a m Z Z + + = + =
1 1
El camino aleatorio es no estacionario en varianza mientras que
si tiene deriva tampoco lo es en media.
145
Procesos estocsticos elementales: Proceso Autorregresivo.
Definimos un proceso autorregresivo de primer orden AR(1)
como un proceso aleatorio que responde a una expresin del tipo
0 1 1 1 1 0
= + = + + =
t t t t t t t t
Z Z con a Z Z bien o a Z Z

Los procesos autoregresivos pueden generalizarse al orden p
AR(p) sin ms que aadir trminos retardados en la expresin
general.
t p t p t t t
a Z Z Z Z + + + + + =

...
2 2 1 1 0
14
6
Procesos estocsticos elementales: Medias mviles.
Definimos una media mvil de primer orden MA(1) como un
proceso aleatorio que responde a una expresin del tipo
media la a s diferencia en Z con a a Z
t t t t 1 1
+ = u
Los procesos de medias mviles son estacionarios y, al igual
que los autoregresivos pueden generalizarse al orden q MA(q)
sin ms que aadir trminos retardados en la expresin general.
q t q t t t t
a a a a Z

+ + + + = u u u ...
2 2 1 1
14
7
Procesos estocsticos elementales: Procesos integrados.
Un proceso integrado es aquel que puede convertirse en estacionario
aplicando diferencias.
As, por ejemplo, un camino aleatorio sera un proceso integrado de
orden 1 I(1), ya que puede convertirse en estacionario tomando
primeras diferencias.
Definimos el orden de integracin de un proceso como el nmero de
diferencias que debemos aplicarle para convertirlo en estacionario.
En el contexto de las series econmicas los rdenes de integracin
ms frecuentes son 1 2 I(1) I(2).
En algunas ocasiones las diferencias deben aplicarse sobre el valor
estacional.
io estacionar e s con e Z Z
t t s t t
12 4 = =

148
Proceso Generador de Datos.
Mediante la adecuada combinacin de estos procesos elementales:
integracin, AR(p), y MA(q) podemos representar la evolucin de cualquier
serie temporal.
p t p t t t p t p t t t
a a a a Y Y Y Y

+ + + + + V + + V + V = V u u u
2 2 1 1 2 2 1 1
( ) ( )
( )
( )
t
p
q
t t q p t
a
B
B
Y a B B Y

u
u = V = V
( ) B Y Y Y Y con
t t t t
= = V

1
1
Para la series que presentan estacionalidad se pueden reproducir los mismos
procesos sobre el orden estacional s (s=4 trimestrales, s=12 mensuales)
( )
s
t s t t t s
B Y Y Y Y = = V

1
Integracin estacional
t p t sp s t s s t s t
a Z Z Z Z + + + + =
2 2 2 1

SAR(p)
q t sq s t s s t s t t
a a a a Z
2 2 2 1
+ + + + = u u u SMA(q)
1
4
9
Herramientas de identificacin: Correlograma.
Denominamos correlograma a una representacin grfica de las funciones
de Autocorrelacin total (FAC) y parcial (FAP).
Las funciones de autocorrelacin recogen los valores de los diferentes
coeficientes de autocorrelacin de una serie para distintos desfases k.
El coeficiente de autocorrelacin para un determinado desfase k se define
como:
0
) ( ) (
) , (

k
o o
k
k t t
k t t
k
Z Var Z Var
Z Z Cov
= = =

Si el proceso Z
t
es estacionario
15
0
Herramientas de identificacin: Correlograma.
Asumiendo la estacionariedad y ergodicidad del proceso los
coeficientes de autocorrelacin pueden aproximarse como:
( )( )
( )

=
= =
=

=
+ =

N
t
t
N
k t
k t t k k
k
k
Z Z
N
c
Z Z Z Z
N
c
con
c
c
1
2
0 0
1
0
1

La funcin de autocorrelacin parcial estara formada por los correspondientes


coeficientes de autorcorrelacin parcial, que miden la relacin entre los valores
desfasados k periodos una vez eliminados o filtrados los efectos de la
correlacin entre los restantes desfases.
Las bandas de confianza para la FAC y la FAP se aproximan como:
0
1 1
* 96 , 1 = j
N
o
N
p
15
1
15
2
15
3
15
4
15
5
estacionario
FAC
se
corta
FAC Parcial
se
extingue
FAC Parcial
se
corta
FAC
se
extiingue
FAC
se
extingue
FAC parcial
se
extingue
modelo mixto
modelo de
medias
mviles
(MA)
modelo
auto-
regresivo
(AR)
Dnde
se corta
La FAC?
Nmero de
rezagos
(perodos)
a incluir
Dnde
se corta
la FAC P ?
Nmero de
rezagos
(perodos)
a incluir
15
6
En Stata, se utiliza el comando arima. Por
ejemplo, para estimar un modelo autorregresivo
con dos rezagos:
arima y, ar(1/2)
de medias mviles en una primera diferencia,
con tres rezagos:
arima D.y, ma(1/3)
mixto, con una segunda diferencia y un rezago
tanto para las medias mviles como para lo
auto-regresivo:
arima D2.y, ma(1) ar(1)
15
7
Se debe eliminar una variable del modelo si no
cumple con cualquiera de las siguientes
condiciones equivalentes:
As se puede lograr que el modelo sea
parsimonioso.
| |
o
o
<
>

valor p
t t
p
n n
2 /
15
8
1. Anlisis de residuos
2. La mejor estadstica para determinar si el modelo es
adecuado, es la estadstica Ljung-Box. Si el valor-p de la
estadstica Ljung-Box es menor que .01, es evidencia muy
fuerte de que el modelo no es adecuado.
3. Anlisis de autocorrelacin de residuos para identificar
espigas:
RFAC
RFACP
15
9
En Stata, se utiliza el comando armadiag (findit
arimadiag) despus de haber corrido el modelo
arima. Genera cuatro grficas:
residuos
valores-p de la estadstica Q*
RFAC
RFPAC
16
0
Se sigue el mismo procedimiento que para no
estacionales, pero incluyendo rezagos del
nmero de perodos en el ao.
Por ejemplo:
arima y, ma(1 12)
arima D.y, ar(1 2 4)
arima D.z, ar(1 3 5) ma(12)
donde z = y-L12.y
16
1
arima y, ma(1 2) ar(1 2) corre el modelo mixto en los datos
originales, con dos rezagos y dos choques.
arima D.y, ma(1) corre un modelo de medias mviles en los
datos transformados con una primera diferencia, con un perodo
de rezago.
ac y grafica la FAC de los datos originales
pac D2.y grafica la FACP de los datos transformados con una
segunda diferencia.
STATA utiliza el mtodo de maximum likelihood (a diferencia de
SAS y MINITAB, que utilizan OLS). Box, Jenkins y Reinsel (1994)
prefieren maximum likelihood.
noconstant opcin elimina el constante del modelo
armadiag para las herramientas de diagnstico (hay que
instalarlo.)
162
Jeffrey M. Wooldridge: Introductory Econometrics:
A Modern Approach, 2
nd
Edition
Eva Medina Moral, Profesora Economa Aplicada
(UAM)
Guadalupe Ruiz Merino - Curso de
Estadstica
16
3

S-ar putea să vă placă și