Sunteți pe pagina 1din 10

Estadística I

Ejercicios del Tema 2


Curso 2017/18
- Respuestas

En las respuestas no se recogen los comentarios referentes a interpretación, sólo se dan los resultados. Para los problemas de
examen se facilitan las soluciones desarrolladas y las debidas interpretaciones.

Problemas
1. Respuesta:
Duración (intervalo) Marca clase Frec. relativa Altura Frec. relativa acumulada
[0, 10) 5 0.133 0.013 0.133
[10, 20) 15 0.283 0.028 0.416
(a)
[20, 30) 25 0.233 0.023 0.649
[30, 40) 35 0.167 0.017 0.816
[40, 60) 50 0.184 0.009 1.000
El histograma muestra una ligera asimetría positiva (a la derecha). Es unimodal, siendo el intervalo modal el [10, 20).
La Mediana se obtendría como el promedio de los tiempos que ocupan las posiciones 30 y 31, ambas en el intervalo
[20, 30)

(b) El tiempo medio estimado a partir de las marcas de clase es de 25,78 minutos. La varianza aproximada es de 212,59
minutos2 .
2. Respuesta:

(a) Diagrama de barras:

1
(b) Distribuciones de frecuencias absolutas, relativas y relativas acumuladas:
Número de condenas ni fi Fi
Una pena 94.709 0, 349 0, 349
Dos penas 89.703 0, 330 0, 679
Tres penas 32.624 0, 120 0, 799
Cuatro penas 23.692 0, 087 0, 887
Cinco penas 10.681 0, 039 0, 926
Más de cinco penas 20.117 0, 074 1, 000
El diagrama de sectores es:

3. Respuesta:

(a) Variable: porcentaje de estudiantes de Grado con movilidad internacional en las Universidades públicas españolas
durante el curso 2015/2016, es cuantitativa continua. La población son todas las Universidades Públicas presenciales.
Los datos disponibles son una muestra de 20 de estas universidades.
(b) En el gráfico se muestran los valores ordenados en orden creciente. El máximo se alcanza en la Universidad Carlos III
con un 15,68 %, siendo la Universidad de Málaga en la que el porcentaje de alumnos de movilidad es el mínimo, con un
6,21 %. La Universidad de Salamanca y a la Politécnica de Catalunya, que ocupan las respectivamente las posiciones 5
y 16, nos dan el primer y tercer cuartil, con valores de Q1 = 7,17 % y Q3 = 9,09 %
(c) Pueden representar los datos a través de un histograma o de un diagrama de cajas. Como hay pocos datos n = 20
tomamos 5 clases de amplitud 1,9 empezando en 6, 2 para construir el histograma. Se obtiene:

2
Se observa que la distribución es asimétrica positiva (a la derecha) y que hay un dato atípicamente alto.
No hay atípicos inferiores. Hay un único atípico superior (UC3M), que además es extremo.
(d) Las medidas descriptivas con y sin dato atípico que se obtienen son:

Comparando todas las medidas que nos indican se observa cómo la más afectada por el valor atípico es la desviación
estándar, seguida de la media. La Mediana se queda prácticamente igual y el RIC varía poco.
(e) El porcentaje total 6,18 < 6,21, que es el mínimo porcentaje de las 20 universidades sobre las que se muestran datos.
Todo apunta a que son las 20 Universidades con mayor proporción de estudiantes de movilidad.

4. Respuesta:
(a) La variable es cuantitativa discreta.
(b) La distribución de frecuencias absolutas es:

3
Frecuencia
ci Absoluta
0 6
1 10
2 12
3 8
4 5
5 4
6 3
8 1
10 1
Total 50
(c) La distribución es asimétrica sesgada a la derecha.
(d) x̄ = 2,68 y s2x = 4,5485.
(e) M oda = 2, la Mediana es 2, el Percentil 20 es P20 = x(10) = 1, y el 80 P80 = x(41) = 4

5. Respuesta:

(a) La variable es cualitativa nominal y la población está compuesta por todos los titulados universitarios del curso 2009-
2010.
(b) La distribución de frecuencias absolutas
(c) La única medida que tiene sentido para datos cualitativos nominales es la Moda, que en este caso es Madrid.

El gráfico de Pareto es:

(a) No tenemos suficiente información como para saber si es verdadero o falso.


(b) La Mediana no tiene sentido para datos nominales, que por tanto no se pueden ordenar.
(c) Verdadero. Entre Madrid, Andalucía y Cataluña, que representan el 17,65 % de las comunidades autónomas, concentran
el 52,81 % de los titulados.
(d) Verdadero. Las 6 (35.29 %) comunidades con porcentajes menores, Asturias, Extremadura, Navarra, Balears, Cantabria
y La Rioja, solo tienen el 8.6 % de titulados.

6. Respuesta. Los gráficos respetando la escala y sin truncar el eje quedarían como sigue:

4
7. Respuesta.

(a) Tomando 5 clase en ambos casos, se obtienen los siguientes histogramas:

(b) Los percentiles vienen dados por:

5
Percentil Posición 2014 2006
Mínimo 1 4,2 3,1
P20 4 11,5 6,6
P40 8 12,9 8,8
P60 12 15,9 11,3
P80 16 20,8 15,9
Máximo 20 32,9 25,7
Gráficamente:

(c) En este caso, dada la asimetría de los datos del 2006 y que en los del 2014 se detecta un dato atípico (por arriba)
sería más conveniente usar la Mediana como medida de centralización. Además por la naturaleza de los datos se suele
emplear la mediana.
(d) Los porcentajes han aumentado de un año a otro. Comparamos los coeficientes de variación cv2014 = 0,438 y cv2006 =
0,490, luego la respuesta más adecuada es en el 2006.
(e) Para comparar la situación de estas dos comunidades teniendo en cuenta la situación general del 2014 y del 2006
calculamos los porcentajes tipificados. La situación de la Comunidad Valenciana es peor en el 2014, año en el que tiene
un porcentaje tipificado mayor. Para la Comunidad de Madrid sin embargo el peor año es el 2006.

Ejercicios con Excel


Las soluciones detalladas a estos ejercicios se proporcionan como material del Laboratorio 1 de informática.

Ejercicios de Exámenes de cursos pasados


8. (Examen mayo 2015) Solución.

(a) La media muestral de los 15 porcentajes es x̄ = 5, 96, mientras que la mediana muestral es M = 3, 2. Entonces, la media
muestral es mayor que la mediana muestral. Este resultado sugiere que la distribución de los datos es asimétrica a la
derecha (asimetría positiva), es decir, hay un número reducido de pequeñas compañías para las que los porcentajes de
ventas totales anuales a la gran compañía son notablemente mayores que para el resto. Esta asimetría queda corroborada
en el diagram de cajas (apartado d), incluso después de eliminar el efecto del dato atípico.
(b) Los cuartiles muestrales son Q1 = x(4) = 1, Q2 = x(8) = 3, 2 y Q3 = x(12) = 7, 6, respectivamente. Entonces, el
25 % de los porcentajes son menores que el 1 %, el 50 % de los porcentajes son menores que el 3, 2 % y el 75 % de los
porcentajes son menores que el 7, 6 %. Consecuentemente, los tres cuartiles muestrales dividen la muestra en cuatro
sub-muestras que contienen respectivamente el mismo número de porcentajes. En general, los porcentajes de ventas
totales a la compañía para la mayoría de las pequeñas empresas representa menos del 7, 6 %.
(c) La cuasi-varianza muestral es s2 = 53, 2668, mientras que el coeficiente de variación muestral es cv = 1, 2245.

6
(d) Para construir el diagrama de caja, necesitamos el rango intercuartílico que está dado por IQR = Q3 − Q1 = 7, 6 − 1 =
6, 6. Más aún, para construir las barras del diagrama y para detectar atípicos, si los hay, necesitamos los valores
Q1 − 1, 5IQR = 1 − 1, 5 · 6, 6 = 8, 9 y Q3 + 1, 5IQR = 7, 6 + 1, 5 · 6, 6 = 17, 5. Además, los valores máximo y mínimo en
la muestra son 0, 1 y 27, respectivamente. Entonces, hay un solo dato atípico ya que 17, 5 < 27. El diagrama de caja
aparece a continuación.

En el box-plot se aprecia la asimetría de la distribución, que persiste aunque se elimine el dato atípicamente alto, como
se observa en el siguiente box-plot. Notése también los valores del coeficiente de asimetría en los dos casos, con y sin
atípico. Observa también el cambio de las medids menos robustas (media, desviación estandar, rango..)

7
9. (Examen junio 2015) Solución.

(a) En la Tabla 2 faltan algunos estadísticos descriptivos para la variable tasa de paro: media 10,5, mediana 10,3, cuasi-
desviación típica 3,4, Q3 = 11, 2, P1 5 = 7, 0.
(b) Puesto que las unidades de medida y el rango de valores son muy distintos para el PIB y la tasa de paro, la cuasi-
desviación típica no es un buen descriptivo para comparar sus variabilidades. Es mejor utilizar una medida adimensional,
como el coeficiente de variación (CV). En este caso,
3251, 1 3, 4
cv(PIB) = = 0, 19; cv(tasa paro) = = 0, 32
17530, 7 10, 5
Luego la variación de la tasa de paro es mayor.
ID Empresa X1 X2 X3
(c) El grupo de CCAA formado por el 1215BBVA 0,985 PIB son
% con mayor
ACS 0,667
1,144 aquellas
0,540
0,455cuyo PIB sea superior al percentil 85, es decir
0,401
superior a 21360, 3. Hay tres CCAA 3que
FCC cumplen0,720
esta condición:
0,650 Navarra,
0,323 País Vasco y Madrid.
4 Inditex 1,270 1,730 0,231
(d) Diagrama de caja para la tasa de paro
5 Acciona 0,463 0,590 0,390
6 Santander 1,484 2,580 0,586
7 IAG 1,220 2,440 0,809
10. (Examen mayo 2016) Solución. 8 Iberdrola 0,920 1,979 0,894
9 Ferrovial 1,330 1,800 0,391 2,75
10 Telefónica 1,240 1,869 0,491 8,25
(a) La tabla completa es:
Estadísticos
X1 X2 X3
Media 1,030 1,532 0,497
Mediana 1,103 1,765 0,428
Desviación estándar 0,333 0,756 0,210
Varianza 0,111 0,572 0,044
Percentiles 25 0,770 0,774 0,390
75 1,263 1,952 0,562

CV 0,323 0,494 0,423


RIC 0,493 1,178 0,172 0,504

(b) La media de la variable X2 es menor que su mediana. Por tanto, se trata de una distribución asimétrica hacia la
izquierda (o asimetría negativa).
44,91
(c) Las medias de las tres variables son muy distintas,
27,29 por lo que la dispersión debe medirse meidante el coeficiente de
variación de Pearson. En este caso CV (X1 )24,2
= 0,323, CV (X2 ) = 0,494 y CV (X3 ) = 0,423, por lo que la variable con
23,79
mayor dispersión es X2 . 23,37
22,58
(d) La variable X3 tiene asimetría positiva (o hacia
22,03 la derecha), por lo que si tiene datos atípicos éstos estarán en la cola
21,98
derecha de X3 . Los datos atípicos serán aquellos
20,01 valores superiores a Q3 + 1,5 × RIC = 0,562 + 1, 5 × 0,172 = 0, 82 (o
también Q3 + 1,5 × RIC = 0,586 + 1,5 × 0,196
19,82 = 0,88). Hay un dato atípico y se trata de la empresa Iberdrola.
24,998
6,942214056 1,38844281

2,3 8
0,7 230 70

170 2,428571429
0,42857143

4,2
2,4
1,3
0,4
2,075
1,416642157

30
(e) El box-plot A corresponde a la variable X1 (por ejemplo, teniendo observando los valores de la mediana o de Q1 ),
mientras que el box-plo B corresponde a la variable X3 (observando los valores de la mediana, el valor del atípico, etc.)
(f) Para determinar el grado de relación lienal es necesario calcular el coeficiente de correlación lineal de Pearson. En este
caso, r(X1 , X3 ) = 0,175 y r(X2 , X3 ) = 0,093/(0,756 × 0,210) = 0,585. Por tanto, la relación lineal entre X2 y X3 es
mayor que entre X1 y X3 .
11. (Examen Junio 2016) Solución.
a) La variable X2 toma valores desde mı́n(X2 ) = 29,97 hasta máx(X2 ) = 158,31, con una media de x̄2 = 97,26. Además,
se tiene que:
100,31 + 106,11
M e(X2 ) = = 103,21, Q1 (X2 ) = 64,21, Q3 (X2 ) = 113,69, RIC(X2 ) = 49,49.
2
No hay datos atípicos (ni atípicos extremos) porque Q3 (X2 ) + 1,5RIC(X2 ) = 187,91 y Q1 (X2 ) − 1,5RIC(X2 ) < 0. El
diagrama de caja es:

b) X1 y X2 presentan tipos de asimetría distinta. En concreto, X1 tiene una distribución asimétrica positiva porque x̄1 =
24,998 > M e(X1 ) = 22,975, mientras que X2 presenta asimetría negativa, puesto que x̄2 = 97,26 < M e(X2 ) = 103,21.
c) La diferencia clara entre los box-plot A, B y C radica en el número de atípicos y atípicos extremos. Luego es suficiente
en averiguar el número de atípicos que tiene la variable X1 . Para la variable X1 se tiene que
Q1 (X1 ) = 21,98, Q3 (X1 ) = 24,2, RIC(X1 ) = 2,22.
Calculamos las barreras exteriores: Q1 (X1 ) − 1,5RIC(X1 ) = 18,65, luego no hay atípicos en la cola izquierda y, por
tanto, descartamos el box-plot C. En cuanto a la cola derecha, Q3 (X1 )+1,5RIC(X1 ) = 27,53 (y Q3 (X1 )+3RIC(X1 ) =
30,86), luego 44.91 es un atípico extremo. Por tanto, elegimos el box-plot A.
d ) Si llamamos Y =“sueldo de ejecutivo mejor pagado (en millones de euros)”, y sabemos que 1 euro = 1,14 dólares,
entonces Y = X1 /1,14. Al ser Y una transformación lineal de X1 , se tiene que
x̄1 s2n (X1 ) 48,194
ȳ = = 21,928, s2n (Y ) = = = 37,084.
1,14 1,142 1,142
12. (Examen Mayo 2017) Solución.
(a) Como hay n = 15 datos, los cuartiles ocupan las posiciones 14 16 = 4, 12 16 = 8 y 43 16 = 12. Luego,
Af rica : M in(af r) = 0, 348 Q1 (af r) = 0, 416 Q2 (af r) = 0, 684 Q3 (af r) = 0, 724 M ax(af r) = 0, 777
America : M in(amr) = 0, 483 Q1 (amr) = 0, 714 Q2 (amr) = 0, 783 Q3 (amr) = 0, 827 M ax(amr) = 0, 923
Europa : M in(eur) = 0, 693 Q1 (eur) = 0, 761 Q2 (eur) = 0, 907 Q3 (eur) = 0, 922 M ax(eur) = 0, 944
Para el análisis de atípicos:
Af rica : RI = 0, 308 =⇒ LS = Q3 + 1, 5RI = 1, 186 > max y L1 = Q1 − 1, 5RI = −0, 046 < min (No tiene)
America : RI = 0, 113 =⇒ LS = Q3 + 1, 5RI = 0, 9965 > max y L1 = Q1 − 1, 5RI = 0, 5445 > min (Tiene)
Europa : RI = 0, 161 =⇒ LS = Q3 + 1, 5RI = 1, 1635 > max y L1 = Q1 − 1, 5RI = 0, 5195 < min (No tiene)

9
(b) Con las medidas anteriores, se construyen los siguientes diagramas de cajas:

Las tres distribuciones presentan asimetría hacia la izquierda, en mayor o menor medida, siendo el continente americano
el que, salvo por el dato atípico inferior que tiene, tiene la distribución más simétrica. El gráfico conjunto permite
comparar fácilmente el IDH en los 3 continentes, siendo el Americano el más homogéneo (salvo por el dato atípico) y
el Europeo en el que se alcanza el valor mediano más alto; mientras que el Africano es en el que hay más variabilidad
y el IDH es más bajo.
Teniendo en cuenta la asimetría más acusada de África y Europa y el atípico de América, las medidas de centralidad
y variabilidad más adecuadas son las que sean más robustas: la mediana y el IQR respectivamente.
No hace falta clacular las medidas de centro y de variabilidad, sólo que opten por medidas robustas, aunque al tener
los box-plot se pueden comparar sin necesidad de obtener el dato exacto. Se observa claramente como las medianas van
aumentando M d(af rica) < M d(america) < M d(europa). En cuanto a la variabilidad, también se aprecia claramente
en el gráfico la relación entre las amplitudes de las cajas. Una vez eliminado el efecto del atípico la variabilidad de
América y Europa es algo más similar, siendo la del contienente americano la inferior. La de África es claramente
superior, lo que denota mayores diferencias en el nivel de desarrollo alcanzado por los países de dicho continente.
(c) Para analizar la veracidad de las afirmaciones necesitamos obtener la M d(af rica), M in(europa), Q1 (america), M ax(af rica),
M d(europa) y el Q3 (america).
1) Verdadero. M d(af rica) = 0, 684 < 0, 693 = M in(europa) y, por tanto, el 50 % de los países de África con un índice
de desarrollo humano tienen un valor del mismo que está por debajo del valor mínimo de los países europeos.
2) Falso. Q1 (america) = 0, 714 < M ax(af rica) = 0, 777 y, por tanto, no podemos garantizar que el 75 % más
desarrollado de los países americanos tenga un nivel que supere el máximo nivel alcanzado por los africanos, que
es del 0, 777. Nótese que Q3 (america) = 0, 827 > M ax(af rica) = 0, 777 sólo garantiza que el 25 % de los países
americanos mejor posicionados superen el valor de 0, 827. De hecho, sólo 9 de ellos lo superan, que representan un
60 %.
14
(d) Hay 14 + 17 = 31 países con un IDH Alto o Muy alto, de los cuales 10 + 4 = 14 son europeos. Luego 31 = 0, 4516 y el
porcentaje pedido es el 45, 16 %.
Hay 6 países con un IDH inferior a 0, 5, de los que 5 son africanos. Luego 56 = 0, 8333 y el porcentaje pedido es el
83, 33 %

10

S-ar putea să vă placă și