Sunteți pe pagina 1din 42

DOCENTE: Mg. Sc. Ing.

EDGAR ALCNTARA TRUJILLO

Los promedios determinan el centro, pero no


indican acerca de cmo estn situados los datos
respecto al centro.
En primer lugar se necesita una medida del nivel de
la dispersin o la variabilidad de los datos con
respecto a su centro con la finalidad de ampliar la
descripcin de los datos o de comparar dos o mas
series de datos.
En segundo lugar se necesita una medida del grado
o nivel de la asimetra o la deformacin en ambos
lados del centro de una serie de datos, con el fin
de describir la forma de la distribucin de datos.
Esta medida se denomina ndice de asimetra.

En tercer lugar se necesita una medida que nos


permita comparar el apuntamiento o curtosis
de distribuciones simtricas con respecto a la
distribucin simtrica normal. Esta medida se
llama ndice de apuntamiento o curtosis.
Por otro lado, la forma de la distribucin queda
descrita por la ubicacin de los promedios en
la distribucin de frecuencias o por la
ubicacin de los cuartiles en una grafica de
caja.
Finalmente las medidas de curtosis son validas
solo para distribuciones simtricas.

Estas medidas son nmeros reales que

generalmente es la media aritmtica.


Las principales medidas de dispersin son:

miden el grado o nivel de separacin de los


datos con respecto a un valor central, que

El rango
El rango intercuartil
La varianza
La desviacin estndar, y
El coeficiente de variacin.

Denotado por R es el numero que resulta de la


diferencia del valor mximo (xmax) menos el valor
mnimo (xmin) de una serie de datos observados de
variable X:
R = xmax - xmin
El rango es una medida muy fcilmente calculable,
pero es muy inestable, como depende de dos
valores extremos, su valor puede cambiar
grandemente si se aade o elimina un solo dato.
Ejemplo: sean las dos series de datos
a) 1, 4, 4, 5, 5, 5, 5, 6, 6, 9
b) 1, 2, 3, 4, 5, 6, 7, 8, 9
Ambas tienen la misma media = 5, y el mismo
rango 8, pero no tienen la misma dispersin, ya
que la segunda tiene mayor variabilidad.

Es el nmero que resulta de la diferencia del


cuartil 3 menos el cuartil 1 de los datos. Esto
es: RI = Q3 - Q1
El rango intercuartil es una medida que excluye
el 25% superior (cuarto superior) y el 25%
inferior (cuarto inferior), dando un rango

dentro del cual se encuentra el 50% central de


los datos observados y a diferencia del rango
no se encuentra afectada por los valores
extremos.
Si el rango intercuartil es muy pequeo
entonces describe alta uniformidad o pequea
variabilidad de los valores centrales.

Ii

fi

Fi

[26, 34>

[34, 42>

[42, 50>

[50, 58>

10

17

[58, 66>

16

33

[66, 74>

41

[74, 82>

45

45

Como: RI = Q3 Q1
Calculamos primero Q1:
El 25% inferior de los n = 45, es 11,25
(25%n = 0,25xn=n/4).
Este 25% inferior esta entre las frecuencias
acumuladas 7 y 17 que se corresponden con el
intervalo [50, 58>
En este intervalo, Li=50, fi=10, A=8, Fi-1=7
fi = 0,25xn Fi-1 = 11,25 7 = 4,25
Luego:

f i
4,25
Q1 Li (
xA) 50
x8 53,4
fi
10

A continuacin calculamos Q3:


El 75% inferior de los n = 45, es 33,75 (75% x n =
0,75xn = x n).
Este 75% inferior est entre las frecuencias
acumuladas 33 y 41 que se corresponden con el
intervalo [66, 74>
En este intervalo, Li=66, fi=8, A=8, Fi-1= 33
fi = 0,75xn Fi-1 = 33,75 33 = 0,75
Luego:
f i
0,75
Q3 Li (

xA) 66
x8 66,75
fi
8

Finalmente calculamos el RI:


RI = Q3 Q1 = 66,75 53,4 = 13,35
Por lo que podemos concluir que el 50% de los 45
datos varia en el rango de 13,35.

LA VARIANZA: Es la media aritmtica de los


cuadrados de las diferencias de los datos
con respecto a su media aritmtica.
2
s
La varianza se denota por
, y si es
n
2
calculada para una poblacin se denota .
La varianza es una medida de dispersin
que genera unidades de medicin al
cuadrado ($2, m2, etc.)
DESVIACION ESTANDAR: Es la raz cuadrada
positiva de la varianza.
Se denota por sn.

a)

VARIANZA DE DATOS NO AGRUPADOS:

La varianza de n mediciones: x1, x2, , xn


de alguna variable cuantitativa X, cuya
media es x, es el numero real:
n

sn2

Suma total de cuadrados de diferencia s ( xi x)

# de datos

Se comprueba que:

i 1

2
2
(
x

x
)

n
*
(
x
)
i
i
i 1

Por lo tanto:

( x x)

i 1

sn2

2
x
i
i 1

( x )2

Los salarios quincenales, en dlares,


recopilados en una
empleados son:
63 82 36 49 56
43 51 70 57 62
64 72 52 51 62
59 60 67 57 67
50 64 76 44 73
Calcule la varianza
estndar.

muestra de 45

64
43
60
61
56
y

59 35 78
68 62 26
71 61 55
67 51 81
62 63 60
la desviacin

Tenemos:
n

2670
n 45; xi 2670; x
59,333;
45
i 1

x
i 1

2
i

164530

Luego la varianza de los 45 salarios sin


agrupar es:
n

s
2
n

2
x
i
i 1

( x )2

164530
(59,333) 2 135,778 ($2 )
45

Luego la desviacin estndar es:


s n s n2 135,778 11,652 ($)

b)

VARIANZA DE DATOS AGRUPADOS:


1. Varianza de datos agrupados de variable discreta:
Si n valores de una variable discreta X se clasifican en k valores
distintos x1, x2, , xk con frecuencias respectivas f1, f2, , fk,
entonces su varianza es el numero:
Se comprueba que:
k

Suma total de cuadrados de diferencia s ( xi x)


s

# de datos
2
n

Por lo tanto:

f ( x x ) f * x
2

i 1

i 1

2
i

n * ( x )2

sn2

i 1

f i * xi2
n

( x )2

i 1

f i ( xi x) 2
n

Ejemplo:
Calcule la varianza y desviacin estndar de la
distribucin de frecuencias siguientes:

Numero de Hijos xi

F. Absolutas
fi

Tenemos:
Numero de Hijos
xi

F. Absolutas
fi

fi*xi

fi(xi)2

14

28

18

54

32

TOTAL

20

44

118

Tenemos: n = 20, k = 5, x = 44/20 = 2,2


k
La varianza ser:
s
2
n

f *x
i 1

La desviacin estndar es:

( x )2

118
(2,2) 2 1,06
20

sn sn2 1,06 1,0296

2. Varianza
de
intervalos:

datos

agrupados

por

Si n valores de una variable cuantitativa X, son


agrupados en k intervalos, con marcas de clases
y1, y2, , yk con frecuencias respectivas f1, f2, ,
fk, entonces su varianza es el numero:
k

Suma total de cuadrados de diferencia s ( yi x)


s
i 1
# de datos
2
n

f i ( yi x) 2
n

Se comprueba que: fi ( yi x) fi * yi2 n * ( x ) 2


k

i 1

i 1

Por lo tanto: s 2
n

i 1

f i * yi2
n

( x )2

Ejemplo:
Calcule la varianza y desviacin estndar de
la distribucin de frecuencias por intervalos
siguientes:
Ii

fi

[26, 34>

[34, 42>

[42, 50>

[50, 58>

10

[58, 66>

16

[66, 74>

[74, 82>

4
45

Tenemos:

Ii

yi

fi

fi*yi

fi ( yi ) 2

[26, 34[

30

30

900

[34, 42[

38

76

2888

[42, 50[

46

184

8464

[50, 58[

54

10

540

29160

[58, 66[

62

16

992

61504

[66, 74[

70

560

39200

[74, 82]

78

312

24336

TOTAL:

n = 45

2694

166452

La VARIANZA ser:
k

s
2
n

f *y
i 1

2
i

166452 2694
( x )

114,916
45
45

La DESVIACION ESTANDAR es:


sn sn2 114,916 10,7199

Es una medida de dispersin relativa (libre de


unidades de medicin), se define como el cociente
de la desviacin estndar entre la media aritmtica.
Esto es:

s
CV
x

( en %)

El coeficiente o ndice de variacin se utiliza para


comparar la variabilidad de dos o mas series de
datos que tengan medidas iguales o diferentes o
que tengan unidades de medidas
iguales o
diferentes (por ejem., comparar la variabilidad de
una serie de datos, medidos en kilogramos con la
de otra serie de datos medidos en metros).

Si las calificaciones en la seleccin de


personal, de dos grupos de personas, H1 y
H2 , tienen la misma desviacin estndar
igual a 14, no podemos concluir que los dos
grupos tienen la misma variabilidad (salvo
que tengan medias iguales).
Del mismo modo, si la desviacin estndar
de H1 es 2 y la de H2 es 4 no podemos
concluir que las calificaciones de H2 son
ms dispersas que las de H1. La variabilidad
de estos dos grupos depende, adems, de
sus medias.

En el primer caso, si se indica que la media


del grupo H1 es 16 y la media del grupo H2 es
11, los coeficientes de variacin respectivo
son:
s1

14
CV1 0,875, 87,5%
x1 16
CV2

s2

x2

14
1,27, 127%
11

Es decir, las calificaciones obtenidas en H1


son ms homogneas o tienen menor
variabilidad que las calificaciones de H2.

1.

2.

Si dos o mas grupos de datos (observados en el


mismo tipo de medicin) tienen medias aritmticas
iguales, entonces, es ms dispersa o de mayor
variabilidad la serie que tiene mayor valor. Una
cualquiera de sus medidas de variacin como: Rango
(R), o Rango intercuartil (RI), o Varianza (s2), o
Desviacin Estndar (s), o Coeficiente de variacin
(CV), si hay marcada asimetra, es preferible comparar
la variabilidad con el RI).
Si dos o mas series de datos, no tienen medias iguales
(o casi iguales) o no tienen las mismas unidades de
medicin (variables diferentes), entonces, es mas
homognea o de menor variabilidad la serie que tenga
menor coeficiente de variacin CV, sin importar su
forma de asimetra.

Cuando es necesario comparar valores observados que


pertenecen a:
Diferentes distribuciones de datos.
Las que difieren en su media aritmtica o en su varianza
O difieren en el tipo de unidad de medida (variables
diferentes)
Se estandarizan los valores observados de la variable
aplicando la variable estandarizadora o variable estndar Z
Para una distribucin de datos de variable X la variable
estndar Z (puntaje estndar Z); se define por:

X x
sn

La variable Z estandariza en CERO cualquier media


y estandariza en UNO (1) cualquier varianza.
Los valores estandarizados indican la posicin
relativa de las unidades estadsticas dentro de su
grupo.
Por lo tanto Z es otra medida de posicin, adems
de los percentiles.

EJEMPLO:
Las calificaciones en un examen final de
Matemticas y Sociologa generaron las medias 13
y 17 y las desviaciones estndar 3 y 4
respectivamente. Si un alumno obtuvo 14 en
matemtica y 16 en Sociologa, en cual de los dos
cursos tiene mejor rendimiento relativo?

El que tenga 16 en Sociologa y 14 en Matemtica, no


significa que tenga mejor rendimiento en Sociologa.
Debemos calcular los rendimientos relativos con la
puntuacin estandarizada Z:
En Matemticas:

14 13
Z
0,333
3
En Sociologa:

16 17
0,25
4

En consecuencia, el alumno tiene mejor rendimiento


en Matemticas ya que tiene mayor rendimiento
relativo en esa asignatura.

1)

2)

La varianza es un numero real no negativo y


viene expresado en mediciones cuadrticas.
Mientras que la desviacin estndar es
tambin un numero real no negativa que
viene expresado en las mismas unidades en
las que se observan los datos.
Dado la media (x) y la varianza (s2) de n
datos de una variable X, se tiene:

2
2
x

n
*
(
s
i
n x )
i 1

3.

Si la variable cuantitativa X se transforma en Y = aX + b (esto


es cada uno de los n valores xi se transforma en yi = axi + b)
entonces, la varianza de X y la varianza de Y denotados por
Var(X), Var(Y) respectivamente, verifican la siguiente relacin:
Var(Y) = a2.Var(X)
Consecuentemente:
DesvEstdr(Y) = |a|.DesvEstdr(X)
Como casos particulares se tiene:
Si Y = b, entonces, Var(b) = 0. Es decir, si los n datos de una
variable son iguales a una constante, entonces su varianza
es = a cero.
Si Y = X + b, entonces, Var(Y) = Var(X). Es decir, si sumamos
una constante a cada valor de la variable, la varianza y en
consecuencia la desviacin estndar, no cambian.
Si Y = aX, entonces,
Var(Y) = a2.Var(X). Es decir si
multiplicamos por una constante a a cada valor de la
variable, la varianza de los nuevos valores es igual que la
varianza de los antiguos valores multiplicados por a2.

4)

Dados k series de datos con tamaos,


medias y varianzas respectivas:
n1, x1, sn2 ,
n2, x2, sn2 ,
1

,
2
nk, xk, snk ,
2

entonces, la varianza total, de los n = n1 +


n2 ++ nk datos es el numero:
k

sn2

n .(s
i 1

2
ni

xi )

( xn ) 2 , donde, x n

n *x
i 1

5)

Desigualdad de Chebyshev:
Cualquiera sea la forma de la distribucin
(simtrica o asimtrica) de los datos
observados de una variable X, el intervalo
[x k*sn ; x + k*sn>, donde k>1, contiene
por lo menos:
1
1 2 por ciento de los datos
k

El porcentaje de datos que se ubican fuera


del intervalo es menor que:
.

1
x100%
2
k

Se dice que una distribucin de frecuencias


variable discreta o una distribucin por
intervalos es simtrica, si son iguales las
frecuencias de sus valores equidistantes del
intervalo central.
En una distribucin simtrica coinciden en su
centro la media, la mediana y la moda.
En contraposicin, si estos 3 promedios no
coinciden, entonces, la distribucin tiene
forma asimtrica con cola o sesgo a la
derecha (positiva) o la izquierda (negativa).

COEFICIENTE O INDICE DE ASIMETRIA DE PEARSON:

Sirve para medir la asimetra de la


distribucin de los datos, este ndice es un
numero real.
x Mo
AS

Como en distribucin de marcada asimetra


se verifica: x Mo 3.(x Me), entonces otra
forma de expresar el ndice de asimetra es:
3( x Me)
AS
s

Si As = 0, la distribucin de los datos


simtrica, coinciden los tres promedios:
x = Me = Mo.
Si As 0, la distribucin es asimtrica.
asimtrica positiva o sesgada o de cola a
derecha, si As > 0 , (donde Mo < Me < x). Y,
asimtrica negativa o sesgada o de cola a
izquierda, si As < 0 (donde x < Me < Mo)

es

Es
la
es
la

NOTA: (Ojivas asimtricas y simtricas) Las


ojivas o curvas de frecuencias acumuladas,
presentan formas particulares segn el tipo de
asimetra.

La curtosis es la propiedad de una distribucin


de frecuencias por la cual se compara la
dispersin de los datos observados cercanos al
valor central con la dispersin de los datos
cercanos a ambos extremos de la distribucin.
Se aplica si la distribucin es simtrica.

La curtosis se mide en comparacin a la curva


simtrica normal o mesocurtica.
Una curva simtrica con curtosis mayor que de
la normal se denomina curva leptocurtica.
Una curva simtrica con curtosis menor que de
la normal es denominada platicurtica.

Esta medida de curtosis es muy poco usada


por ser muy inestable. Sin embargo
describe muy bien el concepto.
La curtosis utilizando percentiles se define
por el cociente:
K

P75 P25
0,5
P90 P10

INTERPRETACION:
Si la distribucin es normal, K tiende a cero.
Si K tiende a 0,5 es leptocrtica, y si K
tiende a -0,5 es platicrtica.

EJERCICIO 1:

Supngase que los siguientes datos representan los salarios


por da de 12 trabajadores de una empresa muy grande
seleccionados aleatoriamente (en soles).
9, 10, 12, 3, 5, 7, 15, 10, 9, 11, 13, 11
Determinar el primer cuartil de la muestra.
SIOLUCIN:
Q1
3
5 7
9 9
10 10 11 11 12 13 15
x 1 x2 x3 x4 x5 x5 x7 x8 x9
x10 x11 x12
Como n=12, (n+1)/4 = (12+1)/4 = 3.25; esto significa que el
valor de Q es el tercer dado ms 25% de la diferencia entre los
valores de las observaciones tercero y cuarto. As, el valor de la
tercera observacin es igual a 7, y el del cuarto es 9, entonces:
Q1 = 7 +(9-7)(0.25) = 7 + 0.5 = 7.50 soles

EJERCICIO 1:
En el mes de enero el sueldo promedio de los
trabajadores del sector industrial era de $200. Para el
mes de julio se considera un aumento del 30% al
sueldo del mes de enero mas un adicional de $50. Si el
coeficiente de variacin en enero era de 0,25, se
puede decir que la distribucin de sueldos en julio es
mas homognea.
EJERCICIO 2:
Si los salarios no agrupados de 120 obreros tienen una
media de $300 y una desviacin estndar de $30
a) Cuntos obreros por lo menos tienen salarios
comprendidos en el intervalo [$240, $360]?
b) Determine el intervalo que contiene al menos el
88,889% de los salarios.
c) Si el salario mnimo es $210, en que porcentaje se
puede afirmar que los salarios son superiores a
$390?

EJERCICIO 3:
El costo inicial de produccin X de una
muestra de 80 objetos de cierto tipo, tiene
una media de $250 para el 60% de la
muestra y de $200 para el resto, adems
una desviacin estndar de $20 para el
60% de la muestra y de $25 para el resto.
a) Calcule la varianza del costo inicial de los 80
objetos.
b) Si el costo final de produccin Y es igual al 20%
mas del costo inicial, mas 5 dlares y si el
precio de venta de cada objeto de la muestra
es proporcional al cuadrado del costo final de
produccin, Cunto se recaudara por la venta
total?, Cunto seria la utilidad neta?.

S-ar putea să vă placă și