Sunteți pe pagina 1din 3

Tarifas Aéreas

El juego de datos para realizar este ejercicio pertenece a la pàgina web de stata
(http://www.stata.com/texts/eacsap/), son 4596 observaciones individuales de tarifas aéreas
norteamericanas documentadas por Jeffrey M. Wooldridge, 2000 "Airfare" Instructional
Stata datasets for econometrics”, Boston College Department of Economics.
-----------------------------------------------------------------------------
storage display value
variable name type format label variable label
-----------------------------------------------------------------------------
year int %9.0g 1997, 1998, 1999, 2000
origin str21 %21s flight's origin
destin str24 %24s flight's destination
id int %9.0g route identifier
dist int %9.0g distance, in miles
passen int %9.0g avg. passengers per day
fare int %9.0g avg. one-way fare, $
bmktshr float %9.0g fraction market, biggest carrier
ldist float %9.0g log(distance)
y98 byte %9.0g =1 if year == 1998
y99 byte %9.0g =1 if year == 1999
y00 byte %9.0g =1 if year == 2000
lfare float %9.0g log(fare)
ldistsq float %9.0g ldist^2
concen float %9.0g = bmktshr
lpassen float %9.0g log(passen)
-----------------------------------------------------------------------------
Sorted by: id year

El archivo contiene el precio pagado por los pasajeros para vuelos internos en 48 estados de EEUU entre
1997 y 2000. La variable de respuesta original es fare. La variable explicativa clave es la cuota de
mercado de la compañia mayoritaria (bmktshr o concen), la distancia también debiera incluirse en el
modelo y la demanda diaria (passen). Se tiene que trabajar únicamente en este ejercicio con los datos
del año 2000.

1. Determinar si la variable de respuesta (tarifa aérea) tiene una distribución aceptablemente normal.

2. Valorad la estadística descriptiva de las variables tarifa (fare), cuota de mercado del mayor operador
(bmktshr), distancia (dist) y número de pasajeros diarios (passen).

3. Indicad por exploración de los datos cuales son aparentemente las variables más asociadas con la
variable de respuesta (emplead únicamente las variables indicadas).

4. Definid un factor politómico f.concen para la covariable de la cuota de mercado del principal
operador (concen) según sus cuártiles y argumentad si la tarifa media depende del nivel de
concentración del trayecto. Justificar estadísticamente la respuesta.

5. Calculad e interpretar el modelo anova de una vía que explica la tarifa según el factor de
concentración del principal operador (factor de concen creado en el punto 4).

6. Pensáis que la variabilidad de la tarifa depende del grado de monopolio que se opera en el trayecto?

7. Calculad el modelo de regresión lineal que explica la tarifa a partir de la distancia del trayecto:
interpretad la recta de regresión y valorad su calidad.

P.05 - Estadística, Optimización y Sistemas – Estadística - Lídia Montero 1


8. Cuál es el porcentaje de la variabilidad de la tarifa que viene explicada por la longitud del trayecto
aérea?

9. Pensáis que resulta necesario introducir un término cuadrático en la ecuación que relaciona la tarifa
con la longitud del trayecto aéreo?

10. Después de controlar por la longitud del trayecto, indicad si el efecto aditivo del factor de
monopolio en el trayecto es estadísticamente significativo.

11. Indicad si la relación entre la tarifa aérea y la longitud del trayecto depende del factor de monopolio
en el trayecto?. Calculad los modelos implicados, efectuar los contrastes de hipótesis adecuados e
interpretarlos estadísticamente.

12. Seleccionad el mejor modelo disponible hasta el momento. Interpretad las ecuaciones que
relacionan las variables explicativas con la respuesta (tarifa).

13. Estudiad el modelo que relaciona el logaritmo de la tarifa con los términos lineales y cuadráticos del
logaritmo de la distancia.

14. Valorad gráficamente los modelos obtenido en el Punto 9 y en el Punto 13.

Se construye un nuevo modelo en escala logarítmica de la tarifa con variables explicativas distancia
(lineal) y número de pasajeros (ambas en escala logarítmica) y el factor dicotómico de monopolio que
indica 1 si la cuota de mercado de la principal operadora supera el 80%. Hay presenten interacciones.
Los resultados se presentan a continuación y sobre este modelo se desarrollarán las preguntas de
análisis de los residuos y predicción.

> summary(lfit.8)
Call:
lm(formula = lfare ~ (ldist) * lpassen + f.concen1 * lpassen +
(ldist) * f.concen1, data = air)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.48657 0.73393 10.201 < 2e-16 ***
ldist -0.30180 0.10856 -2.780 0.00552 **
lpassen -0.79735 0.11546 -6.906 8.28e-12 ***
f.concen1>80% 1.14684 0.37247 3.079 0.00213 **
ldist:lpassen 0.11136 0.01716 6.489 1.29e-10 ***
lpassen:f.concen1>80% -0.08684 0.03117 -2.787 0.00542 **
ldist:f.concen1>80% -0.10155 0.04859 -2.090 0.03685 *

Residual standard error: 0.3185 on 1142 degrees of freedom


Multiple R-squared: 0.4196, Adjusted R-squared: 0.4166
F-statistic: 137.6 on 6 and 1142 DF, p-value: < 2.2e-16

15. Valorad la presencia de outliers en los residuos estudentizados a un nivel de confianza del 99%.
Indicad cuáles son esas observaciones.
16. Estudiad la presencia de valores influyentes a priori, indicando su número según el criterio
estudiado en clase.
17. Estudiad la presencia de valores influyentes a posteriori, indicando el criterio estudiado en clase y
las observaciones realmente atípicas.
18. Dado un vuelo de una distancia de 300km, con una media diaria de 1000 pasajeros/dia y ausencia de
comportamiento monopolista en el servicio, cuál sería la tarifa esperada con un intervalo de
confianza del 95%?
P.05 - Estadística, Optimización y Sistemas – Estadística - Lídia Montero 2
19. Valorad lo que habéis aprendido trabajando con este interesante juego de datos reales.

P.05 - Estadística, Optimización y Sistemas – Estadística - Lídia Montero 3

S-ar putea să vă placă și