Documente Academic
Documente Profesional
Documente Cultură
Por:
Junio de 2013
Apellidos y Nombres:
1.
Preliminares
1.1.
Terminologa estadstica
Estadgrafo:
Es cualquier funcin de datos empricos que se usa con nes descriptivos o analticos; son medidas de resumen
estadstico de un conjunto de datos, por ejemplo, es la medida que en Estadstica se aplica sobre una muestra. En general se
utilizan dos tipos: Los de Tendencia Central y los de Dispersin. Entre los primeros tenemos: a) las medidas denominadas
promedios, osea aquellas que tratan de localizarse hacia el centro de la serie; moda, media y mediana; y b) los cuartiles y
deciles, o cuartas y dcimas partes de las observaciones; esto slo se aplican en los datos agrupados. Entre los de dispersin
estn: la desviacin media, la desviacin mediana, la varianza, la desviacin tpica o estndar, la dispersin absoluta y
relativa.
Desviaciones:
son valores que indican en cuanto se aleja un determinado valor, de los valores de la variable; de otra forma, es
la diferencia entre cada valor observado y uno determinado, que puede ser la media aritmtica, la mediana o un origen
de trabajo elegido arbitrariamente. Es necesario conocer las desviaciones por la importancia que tienen en el estudio de
las propiedades de la media aritmtica, para utilizar mtodos cortos de trabajo y para los estadgrafos de dispersin.
Es otro estadgrafo de dispersin, que expresa en forma ms real los resultados de la varianza,
ya que como vimos sta da la dispersin de las unidades al cuadrado, mientras que la desviacin tpica lo hace en las
unidades originales de la investigacin. La desviacin tpica se obtiene extrayndole la raz cuadrada a la varianza.
La dispersin real determinada por la desviacin tpica, u otra de las medidas de dispersin
ya estudiadas, se denomina dispersin absoluta. La dispersin relativa, compara la desviacin tpica y la respectiva media
aritmtica; esta dispersin relativa se conoce como coeciente de variacin.
Caractersticas de las medidas de dispersin y de forma Un promedio es un valor en la escala de las X correspondiente
a una distribucin de frecuencias y este valor se calcula para representarla en calidad de medida tpica del grupo. Algunas
condiciones esenciales para que este valor pueda cumplir su cometido son:
1.
2.
3.
4.
Debe ser descriptiva de los datos en forma que su signicado sea fcil de entender
No debe ser una abstraccin matemtica, que nicamente pueda ser entendida por personas muy versadas en esta ciencia,
ya que una de las condiciones de la estadstica, es simplicar los datos y no hacerlos ms complejos.
5.
Proporciona informacin adicional que permite juzgar la conabilidad de la medida de tendencia central. Si los datos se
encuentran ampliamente dispersos, la posicin central es menos representativa de los datos.
6.
Ya que existen problemas caractersticos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan
esa dispersin antes de abordar esos problemas.
7.
Quiz se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersin de valores con
respecto al centro de distribucin o esto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar
escoger distribuciones que tengan las dispersiones ms grandes.
Estadstica Descriptiva
2.
Medidas de Dispersin
Las medidas de dispersin o de variabilidad son nmeros que miden el grado de separacin de los datos con respecto a un
Distribucin A
xmn
xmx
xmx
Distribucin B
xmn
A.
Las principales medidas de dispersin son: El rango, el rango intercuartlico, la desviacin media, la varianza, la desviacin
estndar y el coeciente de variacin.
Definicin 1 (Rango o recorrido de una variable) El rango de variacin o recorrido (R o ) de un conjunto de datos de
variable cuantitativa, es la diferencia entre sus valores mximo y mnimo. Es decir,
R = Xmx Xmn ,
xmx
xmn
R
El rango es una medida de dispersin fcil de calcular, pero es muy inestable, porque depende de los valores extremos. Su valor
puede cambiar si se agrega o quita un dato, su uso es muy limitado.
B:
R = 9 1 = 8,
9
9
pero en ambos casos las dos series no tienen la
misma dispersin, ya que la segunda tiene mayor variabilidad. Este inconveniente se subsanar en parte utilizando el recorrido
intercuartlico.
Definicin 2 (Rango intercuartlico) El rango intercuartlico (RI) es la diferencia entre los cuartiles tercero y primero, es
decir
RI = Q3 Q1
xmn
Q1
Q2
Q3
xmx
RI
El rango intercuartlico es una medida que excluye el
25 %
50 %
25 %
de los datos.
Esta medida de dispersin es, evidentemente, ms exacta que el simple recorrido de la variable, ya que evita el inconveniente
de valores extremos anormales, tomando aquellos dos valores que dejan entre s el
50 %
variable.
UNSCH
Digitado en
LATEX
Estadstica Descriptiva
12
B:
10
11
12
Calcule el recorrido intercuartlico para cada conjunto, luego compare los resultados.
A, Q1 = 4,5
Q3 = 7,5
1
Q1
Para el conjunto
B , Q1 = 3,5
Q3 = 9,5
1
10
11
12
Q3
Q1
12
Q3
Por lo tanto aunque el recorrido de la variable sea el mismo en ambos casos, el recorrido intercuartlico toma los valores
xmn
D1
D2
D5
D8
D9
xmx
RID
Definicin 4 (Rango Semiintercuartlico) Es igual al rango intercualtil dividido entre dos, es decir,
RSI =
Q3 Q1
2
El rango semiintercuartlico mide el recorrido promedio de un cuarto de los datos. Es representativo de la dispersin de los
datos, ya se calcula, tomando el promedio de la mitad de los elementos del medio en lugar de escoger uno de los cuartos.
Q3 Q1
7,5 4,5
=
= 1,5
2
2
Q3 Q1
9,5 3,5
RSIB =
=
=3
2
2
datos en B .
RSIA =
2.1.
Desviacin media
Una de las medidas de dispersin que intenta solucionar los inconvenientes de las anteriormente presentadas es la desviacin
media que lo denotaremos por
DM ,
ella mide el promedio de las desviaciones de cada dato con respecto a la media de los
mismos.
Definicin 5 Sean
de estos datos. La deviacin media de estos datos es el promedio de las desviaciones de cada uno de ellos respecto a su media
X , es decir
x1 X + x2 X + + xn X
DM =
=
n
UNSCH
xi X
i=1
Digitado en
LATEX
Estadstica Descriptiva
Prcticamente la denicin (6) nos indica la forma del clculo de la desviacin media, cuando los datos no estn agrupados.
Calculo de la desviacin media para datos agrupados, no interesa que ellos estn agrupados en una tabla de distribucin
de frecuencia con o sin intervalos
yi
ni
y i ni
y1
n1
y 1 n1
y2
n2
y 2 n2
yi X ni
y2 X n1
y2 X n2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ym
nm
y m nm
y i ni
ym X nm
yi X ni
yi
[yi1
yi
ni
y i ni
[y0 y1
y1
n1
y 1 n1
[y1 y2
y2
n2
y 2 n2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
[ym1
ym
]
ym
nm
y m nm
yi ni
X=
yi X ni
y1 X n1
y2 X n2
.
.
.
ym X nm
yi X ni
y i ni
i=1
yi X ni
DM =
i=1
20
4
yi
ni
23
10
24
12
28
9
30
5
Intervalos
[22,5 27,5
[27,5 32,5
[32,5 37,5
[37,5 42,5
[42,5 47,5
ni
10
12
Solucin:
a)
b)
y i ni
yi X
80
20
10
230
20
12
288
12
28
252
27
30
150
25
40
1000
yi
20
23
24
4
5
ni
|yi
X|
|yi X|ni
La media es
1000
= 25
40
yi X,
|yi X|,
|yi X|ni
DM =
104
[yi1
yi
yi
ni
y i ni
yi X
[22,5 27,5
25
100
10,125
10,125
40,5
[27,5 32,5
30
10
300
5,125
5,125
51,25
[32,5 37,5
35
12
420
0,125
0,125
1,5
[37,5 42,5
40
360
4,875
4,875
43,875
[42,5 47,5
45
225
9,875
9,875
49,375
40
1405
2.2.
X=
|yi
X|
|yi
X|ni
La media es
104
= 2,6
40
X=
1405
= 35,125
40
yi X,
|yi X|,
|yi X|ni
as la desviacin media es
DM =
186.5
186,5
= 4,6625
40
La varianza es una medida que cuantica el grado de dispersin (variacin) de los valores de una variable cuantitativa con
respecto a su media aritmtica. Si los valores tienden a concentrarse alrededor de su media, la varianza ser pequea. Si los
valores tienden a distribuirse lejos de la media, la varianza ser grande.
Definicin 7 Sean
UNSCH
Digitado en
LATEX
Estadstica Descriptiva
Definicin 8 (Varianza) Es el estadgrafo de dispersin ms importante y expresa el grado de dispersin de las observaciones
respecto a la media aritmtica. La varianza se dene como la media aritmtica de las deviaciones cuadrticas de los datos con
respecto a su media, es decir, si x1 , x2 xn son los datos correspondientes a una variable cuantitativa y X la media de estos
datos, la varianza de estos datos es el promedio de las desviaciones cuadrticas de cada uno de ellos respecto a su media X , es
decir
n
(
)2 (
)2
(
)2
x1 X + x2 X + + xn X
V =
=
n
xi X
)2
i=1
Clculo de la varianza
a) Datos sin agrupar:
Donde:
( xi )2
i=1
V = 2 =
Poblacional o terica
N
n
( xi X )2
V =S =
i=1
Muestral o prctica
n1
: promedio poblacional
: promedio muestral
xi
b) Datos agrupados:
m
( yi )2 .ni
V = 2 =
Donde:
i=1
Poblacional o terica
N
m
( yi X )2 .ni
V = S2 =
i=1
: marca de clase
ni
Muestral o prctica
n1
OBSERVACIN:
yi
La diferencia entre
)2
(
xi X
n
(
y
xi X
n1
)2
es grande para muestras pequeas, y es mnima para
muestras grandes, prcticamente son iguales. Entonces para muestras grandes, n > 60, puede usarse cualquiera de las frmulas.
(xi x)2
Para muestras pequeas se usa
, la cual es llamada varianza muestral o varianza corregida.
n1
V (X)
la varianza de
1.
V (X) 0
2.
V (c) = 0
3.
V (X c) = V (X),
donde
Sean
{x1 , x2 , xn }
X,
al deno-
4.
V (aX) = a V (X)
5.
V (aX b) = a2 V (X)
Ejemplo 4 En un centro de mujeres maltratadas se hace un recuento de las edades (aos) de las mujeres ingresadas y el
resultado es el siguiente
UNSCH
n1
n1
Digitado en
LATEX
Estadstica Descriptiva
xi
ni
y i ni
xi x
(xi x)2
(xi x)2 ni
22
22
1,4
1,96
1,96
23
46
0,4
0,16
0,32
24
24
0,6
0,36
0,36
25
25
1,6
2,56
2,56
117
X=
5,2
yi ni
i=1
117
= 23,4
5
aos
En promedio se tiene que la edad de las mujeres maltratadas es de 23,4 aos aproximadamente.
Luego calculamos la varianza poblacional y muestral respectivamente (Ver la tabla anterior en donde se ha elaborado las
(
)2
(
)2
y i X ni
y i X ni
5,2
5,2
i=1
i=1
=
= 1,04 aos2
S2 =
=
= 1,3
2 =
n
5
n1
51
columnas
4
S2,
2
aos
Ejemplo 5 Tenemos la siguiente informacin sobre el gasto semanal en ocio de un grupo de estudiantes universitarios.
Nivel de Gasto($)
No de jvenes
[0 5
[5 10
[10 15
[15 20
[20 25
[25 30
11
16
22
Solucin: Suponiendo que los datos se encuentran uniformemente distribuidos en cada intervalo de clase, lo cual justica que
se tome el punto medio de cada intervalo, como valor representativo de todos los valores de dicho intervalo. Entonces resumimos
los pasos en la tabla siguiente:
y i ni
yi X
(yi X)2
(yi X)2 ni
10
121,76
162,8176
651,2704
11
82,5
7,76
60,2176
662,3936
16
200
2,76
7,6176
121,8816
22
385
2,24
5,0176
110,3872
22,5
180
7,24
52,4176
419,3408
27,5
165
12,24
149,8176
898,9056
67
1022,5
Gasto($)
yi
[0 5
2,5
[5 10
7,5
[10 15
12,5
[15 20
17,5
[20 25
[25 30
Totales
( yi X )2 ni
1022,5
= 15,26119403 . . . 15,26
67
i=1
2864,1792
= 42,748943
67
2
dlares
Nota:
2864,1792
y i ni
i=1
2 =
X=
ni
S2
S2 =
dlares
( yi X )2 ni
i=1
n1
2864,1792
= 43,396654
67 1
2
dlares
esta cantidad, ya que ella esta dado por el cuadrado de las dimensiones la que expresa la caracterstica, y en ocasiones trae
confusin. Es conveniente, entonces contar con otro estadgrafo que basado en el valor de la varianza, sirva para dar una medida
de dispersin en la misma dimensin en que estn los datos. Esta medida es la desviacin estndar o desviacin tpica.
UNSCH
Digitado en
LATEX
Estadstica Descriptiva
varianza, es decir
a)
v
u N
u
u
( xi )2
u
t i=1
Poblacional o terica
v
u m
u
u
( xi X )2
u
t i=1
S=
n1
b)
Datos agrupados:
Muestral o prctica
v
m
u
u
u
( yi )2 ni
t
=
i=1
N
v
u m
u
u
( yi X )2 ni
u
t i=1
S=
n1
Poblacional o terica
Muestral o prctica
2.
3.
Se basa en todos los valores de la variable, tanto atendiendo a su magnitud como a su signo.
Su estudio es indispensable cuando se trata de interpretar datos en relacin con la distribucin normal.
Nota: En general, los estadgrafos de dispersin se usan para comparar dos o ms poblaciones. A mayor dispersin o heterogeneidad entre los valores o elementos de una poblacin, le corresponde un valor mayor para el estadgrafo de dispersin.
Ejemplo 6 En un centro de mujeres maltratadas se hace un recuento de las edades (aos) de las mujeres ingresadas y el
resultado es el siguiente:
Solucin: Como ya calculamos la varianza poblacional y muestral resultaron respectivamente, 2 = 1,3 aos2 y S 2 = 1,3 aos2 .
Dado que la desviacin estndar es la raz cuadrada de la varianza, la desviacin estndar poblacional y muestral son
1,04
2
aos
= 1,019803903
aos
S=
1,3
2
aos
= 1,140175425
aos
Ejemplo 7 Las estaturas (en centmetros) de un grupo de personas se distribuyen como sigue
talla(cm)
frecuencias
[150 155
[155 160
[160 165
10
[165 170
18
[170 175
24
[175 180
17
[180 185
[185 190
[190 195
[195 200
Solucin:
Para encontrar la desviacin estndar, calculamos en una tabla los valores que necesitamos para sustituirlo en la
frmula de la varianza
UNSCH
Digitado en
LATEX
Estadstica Descriptiva
talla(cm)
yi
ni
y i ni
(yi X)2 ni
[150 155
152,5
457,5
1329,3075
[155 160
157,5
787,5
1288,0125
[160 165
162,5
10
1625
1221,025
[165 170
167,5
18
3015
658,845
[170 175
172,5
24
4140
26,46
[175 180
177,5
17
3017,5
265,2425
[180 185
182,5
1642,5
720,9225
[185 190
187,5
1312,5
1362,2175
[190 195
192,5
962,5
1795,5125
10
[195 200
197,5
395
1147,205
100
17355
9814.75
Totales
X=
17355
= 173,55 cm,
100
tabla anterior.
( yi X )2 ni
V = S2 =
y la desviacin estndar es
S=
2.3.
i=1
varianza
9814,75
= 98,1475 cm2
100
Definicin 10 (Coeciente de Variacin) El coeciente de variacin, CV , es una medida de dispersin relativa (no tiene
unidades de medida) , que se dene como la desviacin estndar dividido por la media aritmtica. Es decir
CV =
S
X
Observaciones:
1. El coeciente de variacin se utiliza para comparar la variabilidad de dos o ms conjuntos de datos que tengan medias iguales
o diferentes, o tengan unidades de medida iguales o diferentes.
2. El coeciente de variacin no tiene unidades y se utiliza para comparar distribuciones con distintas unidades de medidas.
Por ejemplo tallas y pesos.
3. Suele expresarse en porcentajes. Tambin se utiliza cuando al comparar dos distribuciones sobre la misma variable estn
medidas en distintas unidades, por ejemplo en metros y Kilmetros
4. Su ventaja es que permite comparar distribuciones distintas, incluso con unidades de medidas distintas.
5. Su desventaja es que deja de ser representativa y no debe utilizarse cuando la media de una de las distribuciones sea muy
baja, pues la fraccin tiende a ser grande.
Ejemplo 8 En dos pruebas de conocimiento A y B que se aplic a un grupo de estudiantes, la prueba A se calic en la escala
de 0 100 puntos; la media aritmtica de los resultados fue de 75 puntos con una desviacin estndar de 8 puntos. La prueba
B se calic en la escala de 0 80 puntos; la media aritmtica de los resultados fue de 50 puntos con una desviacin estndar
de 5 puntos. En cul de las pruebas hubo mayor variacin de los resultados?.
Solucin:
Para conocer en que prueba hay mayor variacin comparemos sus coecientes de variacin.
CVA =
8
SA
=
= 0,1066 . . .
75
XA
CVB =
Por tanto, la prueba de conocimiento
UNSCH
SB
5
= 0,1
=
50
XB
Digitado en
LATEX
Estadstica Descriptiva
Nota:
a) Si
CV < 0,15,
la distribucin es homognea.
b) Si
CV 0,15,
la distribucin es heterognea.
Rango, RI , S 2 , S , CV .
b) Si dos o ms series de datos, no tienen medias iguales (o casi iguales), o no tienen las mismas unidades de medicin, entonces,
es ms dispersa la serie que tenga mayor coeciente de variacin.
Definicin 11 (Valores estandarizados) Cuando se necesiten comparar valores observados que pertenecen a diferentes dis-
tribuciones de datos, las que dieren en su media aritmtica o en su varianza, o dieren en el tipo de unidad de medida, entonces
se usa el valor estndar Z que se dene por
Z=
xX
S
Ejemplo 9 En una evaluacin de Estadstica e Historia resultan las medias de 11 y 15 y las desviaciones estndar 3 y 4,
respectivamente. Si un estudiante obtiene 14 en Estadstica y 16 en Historia, en cul de los dos cursos tiene mejor rendimiento
relativo?.
Solucin: Que tenga 16 en Historia y 14 en Estadstica no signica que tiene mejor rendimiento en Historia. Se deben calcular
los rendimientos relativos con la puntuacin estandarizada
Z.
En Estadstica
ZE
En Historia
ZH
3.
14 11
=1
3
16 15
= 0,25
4
(ZH < ZE ).
Medidas de Forma
En trabajos propios de algunas disciplinas encontramos la necesidad de calcular una medida que muestre las direcciones
de la dispersin de los datos con respecto a su centro y que completan la descripcin de las distribuciones de frecuencias.
Estas caractersticas se llaman: Asimetra y curtosis o apuntamiento. Las medidas de dispersin slo indican la magnitud de las
variaciones, pero no dan informacin acerca de la direccin de las variaciones.
3.1.
Medidas de Asimetra
La asimetra de una distribucin indica la deformacin horizontal de las distribuciones de frecuencia. Se dir que una
distribucin de frecuencias unimodal es simtrica cuando la media aritmtica, la mediana, y la moda, coinciden.
Se dir que una distribucin de frecuencia unimodal presenta asimetra positiva o concentrada a la izquierda, si tiene una
ramicacin ms extendida hacia la derecha o hacia valores grandes de la variable.
Se dir que una distribucin de frecuencias unimodal presenta asimetra negativa o concentrada a la derecha, si tiene una
ramicacin ms extendida hacia la izquierda o hacia valores pequeos de la variable.
ni
ni
Me Mo
ASIMETRA NEGATIVA
UNSCH
ni
X = Me = Mo
Mo Me X
SIMTRICA
ASIMETRA POSITIVA
Digitado en
LATEX
Estadstica Descriptiva
ni
ni
ni
Me Mo
X = Me = Mo
ASIMETRA NEGATIVA
Mo Me X
SIMTRICA
ASIMETRA POSITIVA
X Mo
S
X Mo
= 3(X M e)
As =
3(X M e)
S
Interpretacin:
As < 0,
( X < Me < Mo )
As = 0,
As > 0,
( X = Me = Mo )
( Mo < Me < X )
Ejemplo 10 Para la siguiente distribucin de frecuencias, se pide calcular e interpretar los coecientes de la asimetra de
Pearson.
intervalo
frecuencia
60 - 66
66 - 72
72 - 78
78 - 84
11
84 - 90
90 - 96
yi
ni
Ni
60 - 66
63
66 - 72
69
10
72 - 78
75
17
78 - 84
81
11
28
84 - 90
87
36
90 - 96
93
40
totales
media
X = 78,75
Mediana
M e = 79,64
Moda
M o = 81,42
varianza
Desviacin Tpica
S 2 = 78,81
40
Como
As < 0,
As
X Mo
78,75 81,42
=
= 0,302
S
8,88
As
3(X M e)
3(78,75 79,64)
=
= 0,301
S
8,88
Para completar el ejemplo, sera conveniente gracar un polgono de frecuencias y sobre l las medidas de tendencia central y
de esa manera comprobar que se trata de una distribucin asimtrica negativa. (Se deja como ejercicio)
UNSCH
10
Digitado en
LATEX
Estadstica Descriptiva
3.2.
Mide el grado de deformacin vertical de la distribucin de frecuencias. La curtosis es la propiedad de una distribucin de
frecuencias por la cual se compara la dispersin de los datos observados cercanos al valor central con la dispersin de los datos
cercanos a ambos extremos de la distribucin. La curtosis se mide en comparacin a la curva simtrica normal.
K=
P75 P25
2(P90 P10 )
Interpretacin:
Si
K = 0,263
Si
K > 0,263
Si
K < 0,263
ni
ni
ni
DISTRIBUCIN PLATICRTICA
ni
DISTRIBUCIN MESOCRTICA
DISTRIBUCIN LEPTOCRTICA
ni
ni
DISTRIBUCIN PLATICRTICA
DISTRIBUCIN MESOCRTICA
DISTRIBUCIN LEPTOCRTICA
Nota: Al igual que el coeciente de asimetra de una distribucin, los que representan a curtosis o apuntamiento se utiliza para
ayudar a describir las caractersticas de una distribucin y no precisamente como medidas, ya que a veces el valor de la curtosis
se contradice con la realidad por estar relacionada con la distribucin normal.
K=
Como
UNSCH
3028
3628
P25 = 72
)
= 85,5
P90 = 90
85,5 72
P75 P25
=
= 0,28125
2(P90 P10 )
2(90 66)
11
Digitado en
LATEX
Estadstica Descriptiva
Ejemplo 12 Cierta empresa tiene 100 trabajadores profesionales, para los nombrados el sueldo bsico mximo es de 450 soles
y el mnimo 60 soles mensuales, Hay un 6 % de practicantes que trabajan ad-honoren o perciben compensaciones inferiores a 60
soles, 16 trabajadores nombrados perciben sueldos inferiores a 250 soles, el 87 % de los profesionales tienen sueldos inferiores a
400 soles. Con esta informacin, se pide calcular:
a) Cuntos trabajadores ganan ms de 300 soles?
b) La media, la mediana y la moda
c) El coeciente de asimetra y de apuntamiento de la distribucin de sueldos
d) Un polgono de frecuencias para comprobar el grado y la clase de asimetra.
Sueldos
Ni
yi
yi2 ni
yi ni
amplitud
(a.e) =
2a
n
altura =
0 - 60
30
180
5400
60
1.2
60 - 250
16
22
155
2480
384400
190
3.8
4.21
250 - 400
65
87
325
21125
6865625
150
21.67
400 - 450
13
100
425
5525
2348125
50
13
29310
9603550
100
x=
ni
a.e
100(65)
+ 13 = 43,3 + 13 = 56,3
150
Mediana:
Me
Moda:
Mo
Media:
Desviacin Tpica:
29310
= 293,10
100
(
)
50 22
250 + 150
= 314,62
65
(
)
49
250 + 150
= 322,77
49 + 52
103,53
Como
As < 0
As
X Mo
293,10 322,77
=
= 0,3099
S
103,53
As
3(X M e)
3(293,10 314,62)
=
= 0,6936
S
103,53
K=
P75 P25
372,31 256,92
=
= 0,182,
2(P90 P10 )
2(411,54 94,55)
)
10 6
= 94,55
)
( 22
75 22
75(100)
= 372,31
= 75
P75 = 250 + 150
100
65
Como K = 0,182 < 0,263 la distribucin es platicrtica
donde:
10(100)
100
= 10
P10 = 60 + 190
25(100)
100
= 25
90(100)
100
= 90
(
)
25 22
P25 = 250 + 150
= 256,92
65 )
(
90 87
= 411,54
P90 = 400 + 50
13
3.3.
Diagramas de ca ja
El diagrama de caja es una presentacin visual que describe al mismo tiempo varias caractersticas importantes de un
conjunto de datos, tales como el centro, la dispersin, la simetra o asimetra y la identicacin de observaciones atpicas. El
diagrama de caja representa los tres cuartiles, y los valores mnimo y mximo de los datos sobre un rectngulo (caja), alineado
horizontal o verticalmente.
UNSCH
12
Digitado en
LATEX
Estadstica Descriptiva
La asimetra (comparando:
Las colas (por la longitud de los segmentos que salen de los lados de la caja) cuya parte nal contiene, una el mnimo y la
M e P25
RI = P75 P25 )
P75 M e
con
otra el mximo. las colas estn dibujadas sobre los valores anormales de los datos.
Construccin:
1. Se construye una escala de referencia, ya sea horizontal o vertical.
2. Se calculan los cuartiles (Q1 ,
3. Se calculan dos valores
f1
Q2
f3
Q3 )
f1 = Q1 1,5(RI)
4. Se calculan los puntos
a1
a3 .
f3 = Q3 + 1,5(RI)
con un valor de los datos) sin ser el menor de esa barrera, El punto
a1
a3
es el dato ms cercano a
f1 (f1
puede coincidir
es el dato ms cercano a
f3 (f3
puede coincidir
Ejemplo 13 Los siguientes datos corresponden a los tiempos de hospitalizacin, en das, despus de una ciruga de crneo de
un conjunto de pacientes.
8
12
13
15
15
17
23
25
21
28
33
36
36
26
38
21
45
44
78
70.
23
25
26
28
33
36
36
38
44
45
73
90.
Solucin: Ordenando
8
12
13
15
15
17
21
21
RI = 37 14 = 23,
Q1 = 14,
a1 = 8
Q3 = 37;
f1 = 14 1,5(23) = 20,5,
3.
Q2 = 24,
f3 = 37 + 1,5(23) = 71,5
a3 = 73
4. Solamente tenemos un dato que cae fuera las barreras interiores, en el lado derecho, que es el 90. Se procede a construir
el diagrama de caja, quedando de la siguiente manera:
Tiempo (das) de
hospitalizacin
14
8 9
UNSCH
12 13 15 17
24
21 23 25 26 28
37
33
13
36 38
44 45
73
Digitado en
LATEX
90
Estadstica Descriptiva
Del diagrama de caja podemos establecer anlisis como los siguientes: El 90 es un dato atpico, el 50 % de los pacientes duraron
hospitalizados 23 o ms das, etc. Tenga en mente para el anlisis la informacin que proporcionan los cuartiles.
En el diagrama de caja se puede observar que los tiempos de hospitalizacin estn concentrados a la izquierda. Qu signica
que los tiempos de hospitalizacin estn concentrados a la izquierda?, signica La distribucin tiene simetra positiva.
10
12
13
12
13
14
15
12
13
14
15
Solucin:
1. Calculamos la mediana, para ello ordenamos los datos en forma creciente:
1
n = 20,
Me =
2. Calculamos
P25
10
12
12
12
13
13
13
14
14
15
15
x(10) + x(11)
10 + 12
=
= 11
2
2
= Q1 y P75 = Q3
5+6
= 5,5
2
13 + 13
3(20)
= 15,
P(75) = Q3 =
= 13
4
2
RI = P75 P15 = 13 5,5 = 7,5
1(20)
4
3.
= 5,
P(25) = Q1 =
U = xmx = 15,
L = xmn = 1
4. Los datos atpicos (discordantes, outliers (aislados)) son aquellos que se encuentran fuera del intervalo
UNSCH
14
Digitado en
LATEX
Estadstica Descriptiva
1)
Las longitudes de rutas de autobs para un sistema de transito particular varan por lo comn de una ruta a otra. En un
artculo de la Planing City Buss Routes aparece la siguiente informacin acerca de las longitudes en kilmetros para un
determinado sistema
Longitud
[68> [810> [1012> [1214> [1416> [1618> [1820> [2022> [2224> [2426> [2628> [2830]
Frecuencia
23
30
35
32
48
42
40
28
27
26
aprox.
aprox.
kms. aprox.
kms. aprox.
kms. aprox.
kms. aprox.
kms. aprox.
kms. aprox.
kms. aprox.
Los datos presentados agrpelos en una tabla de frecuencias con intervalos de amplitud 4, luego:
n) Halle la varianza y la desviacin estndar de los datos.
) La dispersin relativa de las longitudes de las rutas es de
aprox.
2)
El siguiente cuadro corresponde a la distribucin de edades de un grupo de hombres y mujeres (antes de resolver ordene
adecuadamente la tabla)
.
Edad(aos)
Hombres
Hombres
Mujeres
ni
ni
25 28
22 25
19 22
16 19
13 16
11
10 13
yi
Edad(aos)
Ni
ni
Ambos
Ni
ni
Ni
[10 13>
aproximadamente.
aproximadamente.
aproximadamente.
aproximadamente.
aproximadamente.
UNSCH
ni
Mujeres
15
aproximadamente.
aproximadamente.
Digitado en
LATEX
Estadstica Descriptiva
aproximadamente.
aproximadamente.
aproximadamente.
aproximadamente.
aproximadamente.
aproximadamente.
aproximadamente.
3)
Se seleccionaron tres tipos distintos de cables de acero y se estableci el lmite de ruptura (medido en Kilonewtons
KN )
Tipo I
350
350
350
358
370
370
370
371
371
372
372
384
391
391
392
395
Tipo II
350
354
359
363
365
368
369
371
373
374
376
380
383
388
392
400
Tipo III
350
361
362
364
364
365
366
371
377
377
377
379
380
380
392
392
4)
5)
Si la media de 75 artculos es de
galones y la de 25 artculos es de
6)
52,6
1,52m.
48,4
1,57m,
Dado el siguiente histograma que se reere a los salarios semanales (en dlares) de los trabajadores de la empresa SONY,
responda el siguiente cuestionario, justicando su clculo:
yi
Salarios($)
Histograma de frecuencias
absolutas acumuladas
nmero de
trabajadores
80
79
79
76
76
44
44
24
24
11
90 105
salarios
semanales ($)
Ni
61
61
11
[
80
ni
CV
=
=
=
=
total
a) La mayor parte de los trabajadores de la empresa SONY tienen un sueldo semanal de
aprox.
aprox.
UNSCH
16
Digitado en
LATEX
aprox.
aprox.
aprox.
Estadstica Descriptiva
aprox.
aprox.
aprox.
aprox.
7)
aprox.
La siguiente tabla se reere a los puntajes obtenidos en un examen de BECAS Internacionales por los alumnos de las carreras
de Matemtica y Fsica de todo el Per.
MATEMTICA
P untajes(pts.)
[ 21 29 >
FSICA
yi
ni
6
[ 29 37 >
[ 37 45 >
Ni
16
14
30
[ 45 53 >
44
[ 53 61 >
54
[ 61 69 >
60
CV
P untajes(pts.)
=
=
=
=
yi
ni
[ 21 29 >
[ 29 37 >
11
[ 37 45 >
28
[ 45 53 >
39
[ 53 61 >
48
[ 61 69 >
60
total
Ni
CV
=
=
=
=
total
aprox.
aprox.
aprox.
aprox.
aprox.
aprox.
aprox.
aprox.
aprox.
aprox.
l) Calcule el coeciente de asimetra de Pearson para los datos de los estudiantes de Fsica, luego interprete.
m) Calcule la Krtosis para los datos de los estudiantes de Matemtica, luego interprete.
n) Suponiendo que un solo grupo de estudiantes, por buen rendimiento, se hace merecedor a un premio adicional, que grupo
de estudiantes se lleva el premio y Cul es el puntaje total acumulado por este grupo?.
) Dibuje la curva de frecuencias para los datos del grupo de los matemticos y los fsicos ubicando
8)
X, M e
M o.
Se propone a los estudiantes de Historia un examen difcil, resulta que la mayora de los estudiantes obtendrn calicaciones
bajas y solo algunos destacaran con notas altas. Qu tipo de asimetra tendr la distribucin de sus calicaciones?.
9)
Carlos se presenta a dos exmenes, uno de Historia y otro de Fsica. En Historia la media de las notas de su grupo es de 80
2
pts (la nota mxima es 100pts), con una varianza de 16pts . En Fsica la media de las notas de su grupo tambin es 80pts
2
con una varianza de 9pts . Carlos obtuvo 90pts en Historia y 92pts en Fsica. Qu puede decir de estos resultados?, En
10)
En una regin, resulta que los precios de ciertos productos en la zona turstica para los mismos productos son mucho ms
caros que en las zonas rurales. A continuacin se muestra el precio en dlares de 5 productos de la zona turstica
y los productos de la zona rural
{2, 2, 3, 4, 4}.
{3, 4, 4, 6, 8}
11)
Se toma nota de las edades de un grupo de inmigrantes recin llegados a un centro de la Cruz Roja y son
Cul sera la media y la mediana?. Suponga que llega otro grupo igual excepto que una persona tiene 26 aos en vez de
24. Cmo afecta eso la media?, cmo afecta a la mediana? y cmo afecta a la dispersin tpica?.
UNSCH
17
Digitado en
LATEX
Estadstica Descriptiva
12)
7,51
millones de
86,5.
13)
6,61
117,79
8,41
7,2
millones de dlares.
Se realizo un estudio de cmo inuye la violencia social y poltica en los riesgos de de complicacin de embarazo en mujeres
de edades entre 19 y 40 aos inscritas en cuidados prenatales en el Hospital Regional de Huamanga, los siguientes datos
muestran el nmero de complicaciones prenatales durante el embarazo de 12 mujeres. Calcule e interprete el coeciente de
asimetra de Pearson y la curtosis.
2
14)
10
Una fbrica de beeper A, asegura que en promedio los beeper fallan a los 2 aos continuos de uso con desviacin estndar
de
S = 0,96
aos. Otra fbrica B de la competencia asegura que en promedio los beeper fallan a los 2 aos de uso con
desviacin estndar de
15)
S = 1,3
Las ayudas concedidas, en millones de pesetas, por el Fondo Europeo para el Desarrollo Regional (FEDER) a 62 proyectos
espaoles vienen reejadas en la siguiente tabla:
importe de ayuda
o de proyectos
[0 100
[100 250
[250 500
[500 1000
12
15
20
15
16)
En un barrio de una gran ciudad espaola se ha constatado que las familias residentes se han distribuido, segn su composicin
(nmero de integrantes), de la siguiente forma:
Composicin
[0 2
[2 4
[4 6
[6 8
[8 10
110
200
90
75
25
Familias
17)
acciones
accionistas
UNSCH
[0 50 [50 100 [100 150 [150 200 [200 250 [250 300 [300 350 [350 400 [400 500
23
72
62
48
19
18
Digitado en
14
LATEX
Estadstica Descriptiva
18)
Se ha realizado un estudio de las rentas de alquiler de 390 viviendas (donde la renta viene dada en miles de pesetas), en una
poblacin de tamao medio, obtenindose
Tipos de alquiler
0-25
25-50
50-100
100-150
150-200
nmero de viviendas
20
140
180
40
10
a)
b)
c)
El propietario de la vivienda debe pagar el 10 % del precio que establece como alquiler, ms una cantidad ja de 3.000
ptas., al Ayuntamiento, en concepto de impuestos, cul es el impuesto medio que se ha de pagar?
19)
Supongamos que dos empresas desean repartir benecios entre sus cuatro principales accionistas, y que el reparto se realiza
de la siguiente forma:
Empresa A
Empresa B
1er accionista
100 000$
1 200000$
2do accionista
500 000$
1 300000$
3er accionista
300 000$
1 400000$
4to accionista
100 000$
1 100000$
20)
La distribucin de la supercie de los 90 despachos que se han construido en un nuevo edicio comercial es:
Supercie (m2)
o ocinas
[40 60
[60 80
[80 120
[120 200
[200 400
12
16
20
32
10
ndice
1. Preliminares
1.1.
Terminologa estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Medidas de Dispersin
2.1.
Desviacin media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.
2.3.
3. Medidas de Forma
3.1.
Medidas de Asimetra
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.
11
3.3.
Diagramas de caja
12
UNSCH
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
Digitado en
LATEX