Sunteți pe pagina 1din 23

Nieves Martnez-Alzamora

PRCTICA 1:

ESTADISTICA DESCRIPTIVA
Contenido:
1.
2.
3.
4.
5.

Recogida de datos. Tipos de variables


Tablas de frecuencias
Medidas que caracterizan una distribucin de frecuencias.
Diagramas de box-whisker
Estudios por subgrupos

Nieves Martnez-Alzamora

Nieves Martnez-Alzamora

En esta prctica analizaremos las respuestas de compaeros vuestros de la UPV a la siguiente


encuesta.
1. SEXO (1-Varn 2-Mujer). ----2. EDAD (en aos). ----3. MES DE NACIMIENTO (1 A 12).. ----4. ESTATURA (en centmetros) .. ----5. PESO (en kgs). ----6. POLITICAMENTE TE CONSIDERAS UNA PERSONA DE:
1- Derechas
4- Nacionalista
2- Centro
5- Ecologista
3- Izquierdas
6- Pasas del tema
----7. ESCRIBE UN DIGITO AL AZAR DE 0 A 9.. ----8. LUGAR DE RESIDENCIA DURANTE EL CURSO:
1- Hogar familiar
4- Con un pariente/conocido
2- Residencia
5- Otra solucin
3- Piso con compaeros
----9. COMO VIENES HABITUALMENTE A LA UNIVERSIDAD? :
1- En tu coche
4- En un coche de un compaero
2- En tu moto o bici
5- Transporte pblico
3- Andando
----10. CUANTOS MINUTOS HAS TARDADO HOY EN VENIR A LA UPV? .. ___
11. CUAL DE LOS SIGUIENTES PROBLEMAS CONSIDERAS MAS IMPORTANTE
EN LA ESPAA ACTUAL?
1- Drogas/Alcohol
4- Desigualdad social
2- Educacin/Sanidad
5- Prdida de valores
3- Paro
-----

Como punto de partida, cumplimentaremos la encuesta para que los datos obtenidos puedan
servir de base para el prximo curso y nos ayudar a familiarizarnos con los items
Las respuestas de la encuesta sobre la que trabajaremos se encuentran almacenadas en el fichero
DATOSPRACT_GIB_P1.

Nieves Martnez-Alzamora

Ejercicio 0: Identificacin de variables


Antes de iniciar el estudio hay que identificar si cada tem se va a identificar con:

una cualidad (caracterstica cualitativa o categrica)


el resultado de un proceso de conteo ( variable cuantitativa discreta) o
el resultado de un proceso de medicin (variable cuantitativa continua)

Aunque parece un tema exclusivamente terico, esta cuestin tendr una importante repercusin
en la seleccin del tratamiento a utilizar para estudiar los datos obtenidos. Tambin es
importante considerar cuantas respuestas diferentes es posible obtener en cada pregunta.

Cualitativa: es necesaria una codificacin previa. No tienen sentido algunos


estadsticos.
Continuas -> es necesario una agrupacin de valores en intervalos
Descritas->puede ser o no ser necesaria una agrupacin dependiendo del nmero de
posibles respuestas. Ej: edad (personal-discreta-/muerte cncer- continua-)
Cmo crees que son estas caractersticas: categricas, cuantitativas discretas o cuantitativas
contnuas?

Sexo

Edad cuantitativa discreta (nos interesa en este caso)

Mes Nacimiento

Peso cuantitativa continua

Opinin poltica

Digito azar

cualitativa (en este caso) cuantitativa discreta

Residencia

categrica

Transporte

categrica

Tiempo

cuantitativa continua

Problema

categrica=cualitativa

categrica

cuantitativa (interesa tratarla como cualitativa) discreta

categrica

Depende del sentido que le vayamos a dar nosotros a la variable

1. Tablas de frecuencias

Nieves Martnez-Alzamora

El primer paso al iniciar el anlisis estadstico de unos datos ser

organizar los datos en tablas de frecuencias ordenar


construir grficos que nos ayuden a visualizarlos visualizar
calcular medidas que nos permitan realizar comparaciones entre subgrupos. comparar

La introduccin de los datos de las caractersticas cualitativas se realiza en cdigo numrico,


para facilitar el proceso. A partir de las variables codificadas es posible decodificarlas, con las
categoras nominales.

Ejercicio 1: Tablas de frecuencias para caractersticas cualitativas o variables cuantitativas


discretas con pocos valores diferentes. Diagrama de barras y diagrama de sectores
En este ejercicio trabajaremos sobre las respuestas obtenidas en la pregunta 11: CUAL DE LOS
SIGUIENTES PROBLEMAS CONSIDERAS MAS IMPORTANTE EN LA ESPAA ACTUAL? Los
valores se han introducidas, codificados, en la variable PROBNUM y se ha creado una columna
PROBLEMA con los valores nominales.
a) Obtener y copiar la tabla de frecuencias de PROBLEMA. Cuntos alumnos han respondido
esta pregunta? 59 alumnos
Statgraphics: Desplegar el men de Estadstica Descriptiva (Describir), el submen Datos
Categricos y elegir la opcin Tabulacin.
Tabla de Frecuencia para PROBLEMA
Clase
1
2
3
4

Valor
DESIG. SOCIAL
EDUCACION/SANIDAD
PARO
PERDIDA VALORES

Frecuencia
1
17
33
8

Frecuencia
Relativa
0,0169
0,2881
0,5593
0,1356

Frecuencia
Acumulada
1
18
51
59

Frecuencia
Rel. acum.
0,0169
0,3051
0,8644
1,0000

Han respondido 59 alumnos


El StatAdvisor
Esta tabla muestra el nmero de veces que se ha presentado cada valor de PROBLEMA as como porcentajes y estadsticas
acumuladas. Por ejemplo, en 1 filas del archivo de datos, PROBLEMA es igual a DESIG. SOCIAL. Esto representa 1,69492% de
los 59 valores en el archivo. Las dos columnas de la extrema derecha dan los recuentos y porcentajes acumulados, desde el inicio
de la tabla hacia abajo.

b) Obtener el diagrama de barras para frecuencias absolutas y relativas Hay cambios en la


forma del grfico? Qu cambia?

Nieves Martnez-Alzamora

Statgraphics: Para obtener el diagrama de barras para frecuencias relativas: pulsar el botn
derecho del ratn, elegir Opciones de Ventana y seleccionar frecuencias relativas.
Slo ha cambiado la escala pero la forma no
Diagrama de Barras de PROBLEMA

DESIG. SOCIAL

EDUCACION/SANIDAD

PARO

PERDIDA VALORES
0

10

20
frecuencia

30

40

Diagrama de Barras de PROBLEMA


{[}
{\}
{]}
{^}
{_}
{`}

DESIG. SOCIAL

EDUCACION/SANIDAD

PARO

PERDIDA VALORES

10

20

30
40
porcentaje

50

60

/**
{[}
{\}
{]}
{^}
{_}
{`}

Nieves Martnez-Alzamora

c) Obtener el diagrama de sectores o diagrama de tarta Qu relacin tiene con los diagramas de
barra? Qu ventaja presenta? Es equivalente a un diagrama de barras en frecuencia
relativa(porcentaje); pero la ventaja es que se visualiza mejor

Nieves Martnez-Alzamora

Diagrama de Sectores de PROBLEMA


1,69%

13,56%

28,81%

PROBLEMA
DESIG. SOCIAL
EDUCACION/SANIDAD
PARO
PERDIDA VALORES
55,93%

Ejercicio 2: Tablas de frecuencias para variables cuantitativas continuas o discretas con


muchos valore diferentes. Histogramas y Polgonos de frecuencias.
Las tcnicas que vamos a utilizar en este apartado son tiles para organizar y visualizar los datos
de caractersticas cuantitativas continuas o bien de caractersticas cuantitativas discretas con
muchos valores diferentes que necesitan ser agrupados

Nieves Martnez-Alzamora

a) Construye un diagrama de sectores para la variable PESO, considerndola cualitativa


como has hecho en el Ejercicio 1 Qu ocurre? Qu crees que es necesario hacer si la
variable puede tomar muchos valores diferentes? Dado que es una variable continua esto
no me sirve para nada

b)Obtn la tabla de frecuencias de la variable PESO , como variable cuantitativa tal como se
indica en el recuadro
Statgraphics: Desplegar el men Describir, el submen Datos Numricos y elegir la opcin
Anlisis de una variable. Pulsar el icono que indica las subopciones del anlisis y seleccionar
Tabla de frecuencias. Para modificar el nmero o anchura de los intervalos que Statgraphics
hace por defecto, situarse sobre la tabla y con el botn derecho del ratn seleccionar Opciones
Ventana.

Clase
1
2
3
4
5

Lmite
Inferior
menor o igual
39,0
43,4444
47,8889
52,3333
56,7778

Lmite
Superior
39,0
43,4444
47,8889
52,3333
56,7778
61,2222

Punto Medio
41,2222
45,6667
50,1111
54,5556
59,0

Frecuencia
0
1
3
6
10
6

Frecuencia
Relativa
0,0000
0,0169
0,0508
0,1017
0,1695
0,1017

Frecuencia
Acumulada
0
1
4
10
20
26

Frecuencia
Rel. Acum.
0,0000
0,0169
0,0678
0,1695
0,3390
0,4407

Nieves Martnez-Alzamora
6
7
8
9
10
11
12
13
14
15
16
17
18

61,2222
65,6667
63,4444
65,6667
70,1111
67,8889
70,1111
74,5556
72,3333
74,5556
79,0
76,7778
79,0
83,4444
81,2222
83,4444
87,8889
85,6667
87,8889
92,3333
90,1111
92,3333
96,7778
94,5556
96,7778
101,222
99,0
101,222
105,667
103,444
105,667
110,111
107,889
110,111
114,556
112,333
114,556
119,0
116,778
mayor de
119,0
Media = 63,0678 Desviacin Estndar = 11,347

12
10
4
3
1
0
2
0
0
1
0
0
0
0

0,2034
0,1695
0,0678
0,0508
0,0169
0,0000
0,0339
0,0000
0,0000
0,0169
0,0000
0,0000
0,0000
0,0000

38
48
52
55
56
56
58
58
58
59
59
59
59
59

0,6441
0,8136
0,8814
0,9322
0,9492
0,9492
0,9831
0,9831
0,9831
1,0000
1,0000
1,0000
1,0000
1,0000

El StatAdvisor
Esta opcin ejecuta una tabulacin de frecuencias dividiendo el rango de PESO en intervalos del mismo ancho, y contando el
nmero de datos en cada intervalo. Las frecuencias muestran el nmero de datos en cada intervalo, mientras que las frecuencias
relativas muestran las proporciones en cada intervalo. Puede cambiarse la definicin de los intervalos pulsando el botn secundario
del ratn y seleccionando Opciones de Ventana. Pueden verse grficamente los resultados de la tabulacin seleccionando
Histograma de Frecuencias de la lista de Opciones Grficas.

c) Crees que los lmites de intervalo seleccionados por el Statgraphics son ptimos para
realizar comparaciones con otros grupos de alumnos? T que limites cogeras?

Tabla de Frecuencias para PESO


Lmite
Lmite
Clase Inferior
Superior Punto Medio
menor o igual 40,0
1
40,0
45,0
42,5
2
45,0
50,0
47,5
3
50,0
55,0
52,5
4
55,0
60,0
57,5
5
60,0
65,0
62,5
6
65,0
70,0
67,5
7
70,0
75,0
72,5
8
75,0
80,0
77,5
9
80,0
85,0
82,5
10
85,0
90,0
87,5
11
90,0
95,0
92,5
12
95,0
100,0
97,5
13
100,0
105,0
102,5
mayor de
105,0
Media = 63,0678 Desviacin Estndar = 11,347

Frecuencia
0
1
4
12
9
12
10
7
1
0
1
1
0
1
0

10

Frecuencia
Relativa
0,0000
0,0169
0,0678
0,2034
0,1525
0,2034
0,1695
0,1186
0,0169
0,0000
0,0169
0,0169
0,0000
0,0169
0,0000

Frecuencia
Acumulada
0
1
5
17
26
38
48
55
56
56
57
58
58
59
59

Frecuencia
Rel. Acum.
0,0000
0,0169
0,0847
0,2881
0,4407
0,6441
0,8136
0,9322
0,9492
0,9492
0,9661
0,9831
0,9831
1,0000
1,0000

Nieves Martnez-Alzamora

d) Obtener y copiar un histograma de frecuencias absolutas de la variable PESO Qu


informacin proporciona este grfico? (Explcalo para el primer intervalo)Qu intervalo
contiene mayor nmero de valores? Nmero de personas que estn en un intervalo
En el primer intervalo slo hay una persona cuyo peso est entre 40 y 45
Statgraphics: Utilizando el botn derecho del ratn, en cualquier grfico podemos activar la
funcin Localizar que nos ayudar a leer el valor de la abscisa o de la ordenada en cualquier
punto

Histograma

12

frecuencia

10
8
6
4
2
0
40

60

80
PESO

100

120

Entre 50-55 y 60-65


Tengo una poblacin bimodal (2 modas) (es una mezcla de 2 poblaciones: chicos y chicas)
e) Obtener y copiar el histograma de frecuencias relativas Qu informacin proporciona este
grfico? (Explcalo para el primer intervalo) Porcentaje de individuos cuyo peso est en el
intervalo
Statgraphics: Para obtener el histograma de frecuencias relativas: pulsar el botn derecho del
ratn, elegir Opciones de Ventana y seleccionar frecuencias relativas.

11

Nieves Martnez-Alzamora

Histograma

24

porcentaje

20
16
12
8
4
0
40

60

80
PESO

100

120

f) Representar el polgono de frecuencias. Qu relacin tiene con el histograma?


Une los puntos medios de los lados superiores (de la barras del histograma); sirve para
visualizar la forma. Recoge la forma del histograma
Statgraphics: Para representar el polgono de frecuencias, pulsar el botn derecho del ratn y en
Opciones de ventana, Tipo de Grfico, marcar Polgono.

Histograma

24

porcentaje

20
16
12
8
4
0
40

60

80
PESO

12

100

120

Nieves Martnez-Alzamora

g) Teniendo en cuenta el concepto de simetra, asimetra a derechas y asimetra a izquierdas (ver


grfico) Cmo crees que es la distribucin de la variable PESO?Presenta claramente una
cola ms larga hacia la derecha o hacia la izquierda?
En prinicipio presenta asimetra positiva (cola larga hacia la derecha) pero habra que hacer el estudio porque podran
ser datos anomalos y ademas presenta 2 modas

h) Obtener y copiar el histograma de frecuencias relativas acumuladas. Qu informacin


proporciona este histograma? (explcalo para el segundo intervalo)
Porcentaje de alumnos cuyo peso es inferior al lmite superior. Modelo de la funcin de
distribucin de frecuencias.
Statgraphics: Para representar el histograma de frecuencias relativas acumuladas, pulsar el
botn derecho del ratn y en Opciones de ventana, Tipo de Grfico, marcar histograma y en
frecuencias marcar relativa.

Histograma

100

porcentaje

80
60
40
20
0
40

60

80
PESO

13

100

120

Nieves Martnez-Alzamora

3. Medidas que caracterizan una distribucin de frecuencias

Las medidas de posicin, dispersin y forma nos proporcionan informacin acerca de la posicin
de los datos y su variabilidad y acerca de si el modelo normal ser adecuado para describir la
distribucin de la variable.
Forma sirve para saber si el modelo normal es adecuado
Statgraphics: Para obtener medidas de posicin y dispersin, desplegar el men Describir, el
submen Datos Numricos y elegir la opcin Anlisis de una variable. Pulsar el icono amarillo
de opciones de anlisis y seleccionar Resumen Estadstico y Percentiles.
Por defecto, Statgraphics mostrar algunas de las medidas definidas anteriormente. Si se desea
seleccionar otras medidas que no aparezcan de esta forma, nos situaremos sobre la ventana de
resultados y con el botn derecho del ratn seleccionaremos Opciones de Ventana. Aparecer un
cuadro de dilogo donde podemos elegir las medidas muestrales que queramos obtener.

Ejercicio 3: Medidas de posicin


Las medidas de posicin se utilizan para indicar la posicin de la distribucin de frecuencias.
Son valores representativos de los datos.

a)Con los datos de la variable PESO, utilizar Statgraphics para hallar el valor de las
siguientes medidas de posicin:
Mnimo
Mximo
Media muestral ( x ) (promedio)
Primer cuartil (un 25% de los valores son inferiores)
Segundo cuartil (Mediana) (un 50% de los valores son inferiores)
Tercer cuartil (un 75% de los valores son inferiores)
Moda

14

Nieves Martnez-Alzamora
Resumen Estadstico para PESO
Recuento
59
Promedio
63,0678
Mediana
64,0
Moda
65,0
Mnimo
43,0
Mximo
105,0
Cuartil Inferior
55,0
Cuartil Superior 70,0

b)Cambia el idioma de las salidas y obtn el nombre de estos estadsticos en ingles


Summary Statistics for PESO
Count
59
Average
63,0678
Median
64,0
Mode
65,0
Minimum
43,0
Maximum
105,0
Lower quartile 55,0
Upper quartile
70,0

c)En qu se diferencian media y mediana? Cundo utilizaras cada una de ellas?


Media: sumo todos y divido por el nmero de datos. Se ve afectada por valores extremos
Mediana: los ordeno y cojo el valor central. Tiene robustez: no se ve afectado por errores o
valores anmalos. Cuando hay errores o cuando la distribucin es asimtrica.

d)Qu medida de posicin utilizaras para PROBLEMA? Tendran sentido las medidas del
apartado a)? Por qu? La moda: me interesa saber cul ha respondido ms veces.

Para variables cualitativas se utilizada la moda.


sentido, los nmeros no sirven es un simple cdigo.
Resumen Estadstico para PROBNUM
Recuento
59
Promedio
3,0
Desviacin Estndar
0,928477
Coeficiente de Variacin
30,9492%
Mnimo
2,0
Mximo
5,0
Rango
3,0
Sesgo Estandarizado
3,35604
Curtosis Estandarizada
0,932634

15

Las otras no tienen

Nieves Martnez-Alzamora

Ejercicio 4: Medidas de dispersin


Las medidas de dispersin nos indicarn la variabilidad de los datos
a)Con los datos de la variable PESO, utilizar Statgraphics para hallar el valor de las siguientes
medidas de dispersin:
Varianza muestral (s2)
Desviacin tpica (s)
Rango o recorrido
Rango intercuartlico
Coeficiente de variacin
Resumen Estadstico para PESO
Recuento
59
Varianza
128,754
Desviacin Estndar
11,347
Coeficiente de Variacin
17,9917%
Rango
62,0
Rango Intercuartlico
15,0

Resumen Estadstico para PESO


Recuento
59
Promedio
63,0678
Mediana
64,0
Varianza
128,754
Desviacin Estndar
11,347
Coeficiente de Variacin
17,9917%
Mnimo
43,0
Mximo
105,0
Rango
62,0
Cuartil Inferior
55,0
Cuartil Superior
70,0
Sesgo
1,08697
Sesgo Estandarizado
3,40852
Curtosis
2,4117
Curtosis Estandarizada
3,78132

b) Cambia el idioma de las salidas y obtn el nombre de estos estadsticos en ingles


Summary Statistics for PESO
Count
59
Variance
128,754
Standard deviation 11,347

16

Nieves Martnez-Alzamora
Coeff. of variation
Range
Interquartile range

17,9917%
62,0
15,0

c) Qu caracteriza cada medida de dispersin? Cul elegiras en este caso?


Varianza no viene medida en unidades de la variable
La desviacin tpica si
Recorrido (valor mximo- valor mnimo): es muy fcil de calcular
Recorrido intercuartlico( tercer cuartil primer cuartil): es fcil de calcular y es muy robusto
Coeficiente Variacin: normalizacin de la desviacin tpica divida por la media; sirve para
comparar

d) Tendra sentido estudiar la dispersin de PROBLEMA?Por qu?


No porque el cdigo podra haber sido distinto. En una cualitativa no
En el peso si es asimtrico, mejor recorrido asimtrico porque la media puede dar problemas.

Hasta aqu (16-09-2014)


Ejercicio 5: Medidas de forma
Las medidas de forma se utilizan para estudiar si el modelo normal, en forma de campana
simtrica, es adecuado para describir la distribucin de una variable continua.
Coeficiente de simetra estandarizado debe estar entre -2 y 2. Si esta fuera rechazaremos el modelo
normal. Por debajo de -2: fuerte asimetra negativa.
Coeficiente de curtosis estandarizado -> debe estar entre -2 y 2.

a)Con los datos de la variable PESO, utilizar Statgraphics para estudiar si el modelo normal es
adecuado para describir la distribucin de esta variable:
b) Summary Statistics for PESO
Count
59
Skewness
1,08697
Stnd. skewness
3,40852
Kurtosis
2,4117
Stnd. kurtosis
3,78132

17

Nieves Martnez-Alzamora

Coeficiente de asimetra
Coeficiente de curtosis
Coeficiente de asimetra estandrizado
Coeficiente de curtosis estandarizado

c) Cmo interpretas los valores obtenidos?


Asimetra fuerte a derechas y curtosis alta (mi distribucin es ms alta que el modelo normal)
Ambas me indican que debo rechazar el modelo normal.
Hago un histograma por si hubiera algo peculiar en la distribucin
Posiblemente los problemas de la distribucin se solucin al hacer una particin de 2 poblaciones
(hombres y mujeres), de manera que seguramente los valores anmalos no sean tan anmalos.

Convendra hacer una particin


Trabajar con modelos diferentes del normal es mucho ms complicado.

4. Diagrama de box-whisker
El grfico de box-whisker permite analizar de un modo sencillo la posicin, dispersin, simetra y
presencia de datos anmalos en una distribucin. La sencillez de su construccin e interpretacin
facilita tambin la comparacin de distintas distribuciones.

Para su construccin es necesario localizar los valores mnimo y mximo de los datos y calcular
los cuartiles. Se dibuja una caja que se extiende entre el primer y el tercer cuartil. Su amplitud
es por tanto igual al recorrido intercuartlico y entre sus lmites se ubican un 50% de los datos
(los centrales). En el interior se traza una lnea vertical que corresponde a la mediana (segundo
cuartil) y una cruz que indica la media.
Cruz roja: media aritmtica;
Lnea en la caja: mediana

18

Nieves Martnez-Alzamora

Partiendo de cada lado de la caja se dibujan una lneas horizontales llamadas bigotes . El
bigote de la izquierda se extiende entre el valor mnimo y el primer cuartil 1 y el bigote de la
derecha entre el tercer cuartil y el valor mximo.
Aquellos valores extremos que difieren del cuartil ms prximo en ms de 1,5 veces la anchura
de la caja o recorrido intercuartlico se representan como puntos aislados por considerar que se
corresponden con datos anmalos
Comprabar si he introducido bien los datos
Observar la influencia de esos datos.
El bigote se detiene en el dato anterior al que supera 1,5*longitud caja
Para estudiar la simetra de la distribucin se comparan la media y la mediana o los cuartiles
Si la distancia del bigote izqdo. A la mediana es mayor que la distancia del
bigote dcho a la mediana presenta asimetra a izquierdas.
Ejercicio 6: Diagrama de box-whisker
Se han recogido datos sobre la presin mxima hasta la rotura de 100 botellas de agua mineral.
Los datos se encuentran en la variable PRESION.
a) Obtener y copiar el diagrama de box-whisker. Identifica utilizando el Localizador el valor
mnimo, el valor mximo, primer y tercer cuartil, media y mediana
Statgraphics: Para representar el grfico box-whisker, seleccionar con el botn de opciones
grficas del Statfolio la opcin Grfico de caja-bigotes. Recordar que utilizando el botn derecho
del ratn, en cualquier grafico podemos activar la funcin Localizar que nos ayudara a leer el
valor de la abscisa o de la ordenada en cualquier punto

Media: 1047.3
Mediana: 1066.25
Valor mximo: 1222
Valor mnimo: 810.1
Primer cuartil: 992.55
Tercer cuartil: 1114.1

19

Nieves Martnez-Alzamora

Resumen Estadstico para PRESION


Recuento
100
Promedio
1047,3
Mediana
1066,25
Mnimo
810,1
Mximo
1222,0
Cuartil Inferior
992,55
Cuartil Superior
1114,1

b) Cul es el rango y el recorrido intercuartlico?

Re=Mx-Mn
RI=Q3-Q1
Recuento
Rango
Rango
intercuatlico

100
411,9
121,55

c) Es simtrica la distribucin?
20

Nieves Martnez-Alzamora

Recuento
Sesgo
Sesgo Estandarizado

100
-0,716774
-2,92622

No, presenta una asimetra a izquierdas; y no es debida al dato anmalo.


Se puede comprobar por el estadstico de asimetra estandarizada
d) Existe algn valor anmalo? cul?

5. Estudio por subgrupos


Es muy frecuente el estudio comparativo de una variable continua por subgrupos dentro de una
muestra. El Statgraphics nos permite realizar estos anlisis. Adicionalmente el grafico de boxwhisker nos ayudar a visualizar estas comparaciones.

Ejercicio 7: Estudio de la distribucin del peso por tramos de altura


a) Calcular el valor medio y la desviacin tpica de las distribuciones condicionales del PESO
asociadas a los distintos tramos de la variable altura (ALTINT). Comentar los resultados.
Statgraphics: Desplegar el men Descripcin, el submen Datos Numricos y seleccionar la
opcin Anlisis subgrupos. Seleccionar como Datos la variable de la que se quieren obtener los
estadsticos, y como Cdigos la variable que indica la pertenencia al grupo. Con el icono
amarillo de subopciones seleccionar Resmenes Estadsticos.
Summary Statistics
Data variable: PESO

ALTINT
150-160
160-170
170-180
180-190
190-200
Total

Count
6
28
17
7
1
59

Average
50,0
58,5
66,5294
81,7143
80,0
63,0678

Standard
Deviation
6,16441
6,28638
6,24618
13,2503
11,347

Observo que cuanto mayor altura ms peso.


Respecto a la variabilidad solo podemos decir que llama la atencin que en el rango 180-190 hay
pocos individuos y con mucha variabilidad.
b) Confirmar los comentarios del apartado anterior realizando un grfico de box-whisker
mltiple

21

Nieves Martnez-Alzamora

Estadsticas de Resumen
Datos/Variable: PESO

ALTINT
150-160
160-170
170-180
180-190
190-200
Total

ALTINT
150-160
160-170
170-180
180-190
190-200
Total

Recuento
6
28
17
7
1
59

Promedio
50,0
58,5
66,5294
81,7143
80,0
63,0678

Desviacin
Estndar
6,16441
6,28638
6,24618
13,2503

Coeficiente
de Variacin
12,3288%
10,7459%
9,38859%
16,2154%

11,347

17,9917%

Mnimo
43,0
47,0
54,0
70,0
80,0
43,0

Mximo
60,0
70,0
75,0
105,0
80,0
105,0

Rango
17,0
23,0
21,0
35,0
0,0
62,0

Sesgo
Estandarizado
0,806838
0,511929
-0,549422
1,05899
3,40852

Curtosis
Estandarizada
0,0245152
-1,21078
-0,173863
-0,110438
3,78132

El StatAdvisor
Esta tabla presenta las estadsticas muestrales para los 5 niveles de ALTINT.

En 170-180 hay algn dato anmalo


En 1800-190 existe mayor variabilidad (aunque no dispongo de muchos datos)
d) Utilizar el grfico de box-whisker para analizar si existe alguna relacin entre el TIEMPO
que tardan en llegar a la Universidad los estudiantes y el medio de transporte utilizado
para llegar a la universidad (TRANSPORTE). Comentar los resultados.

22

Nieves Martnez-Alzamora

Estadsticas de Resumen
Datos/Variable: TIEMPO

TRANSPORTE
ANDANDO
COCHE
COCHE AMIGO
MOTO/BICI
TRANSP.PUBLICO
Total

Recuento
21
9
4
4
21
59

Promedio
13,619
23,3333
26,25
15,75
37,619
24,6441

TRANSPORTE
ANDANDO
COCHE
COCHE AMIGO
MOTO/BICI
TRANSP.PUBLICO
Total

Sesgo
Estandarizado
0,887591
-0,131223
0,0493305
-0,928421
0,593221
3,44299

Desviacin
Estndar
5,14272
5,0
18,8746
5,67891
15,5418
15,0605

Coeficiente
de Variacin
37,7613%
21,4286%
71,9032%
36,0566%
41,3137%
61,1122%

Mnimo
6,0
15,0
10,0
8,0
10,0
6,0

Curtosis
Estandarizada
-0,362947
-0,393668
-2,3075
0,0629018
-0,765625
0,876548

Transporte pblico abarca cosas muy diferentes; no es representativo


En choche de un amigo y moto/bici hay muy pocos datos.

23

Mximo
25,0
30,0
45,0
20,0
65,0
65,0

Rango
19,0
15,0
35,0
12,0
55,0
59,0

S-ar putea să vă placă și