Sunteți pe pagina 1din 17

Tema: Estadígrafos de posición

1. Estadígrafos de posición:
Los estadígrafos de posición o de tendencia central son valores que se ubican al centro de
un conjunto de datos ordenados según su magnitud. Existen varios de estos estadígrafos y
se estudiaran de a uno, considerando si los datos se tienen no tabulados o tabulados.
1.1 Media aritmética o promedio:
- datos no tabulados: se define como el cociente que se obtiene al dividir la suma de los
valores de la variable por el n° de observaciones.
Su fórmula es la siguiente:

Ej. Edades de las personas


19, 18, 21, 32, 17, 27, 28, 20, 35, 31 n = 10

- datos tabulados: se usara los 40 datos de sueldo (tabla 2) en este caso se usa
la siguiente fórmula:
También se llama media ponderada.
Ej. Un inversionista tiene 1.200 acciones cuyo valor promedio es $34 y 800 acciones cuyo
valor promedio es $45. El valor promedio de las 2.000 acciones es:

Propiedades de la media aritmética.


a) La media de una constante es igual a la constante

b) La media de los valores que son multiplicados por una constante es igual a la constante
por la media de los datos.
Ej. 10 sueldos en miles de personas.

Supongamos que se produce un aumento de un 10% a todos los sueldos ¿cómo varia el
promedio?

c) La suma de las desviaciones de cada dato respecto al promedio da siempre


cero.

Ej. Supongamos los datos de edades 26, 35, 24, 32, 28 n = 5


___
Luego x  29 , entonces

Otra forma:

1.2. Mediana:
Es otra medida de posición o tendencia central. Se define como aquel valor de la variable
que supera la mitad de las observaciones y a su vez es superado por la otra mitad de ellas.
Por esta razón, se la considera como el valor central, ya que se divide a los datos en 2
grupos (las observaciones deben estar ordenadas de mayor a menor).
- Datos no tabulados: se ordenan las observaciones de menor a mayor y se ubica el valor
central. Si la constante de datos (n) es par, se promedian los 2 valores centrales. En cambio,
si n es impar habrá solo un valor en el centro.

- Datos tabulados: si los datos están tabulados no es posible individualizar el valor de la


mediana, pero si es factible determinar el intervalo donde se encuentra.
La fórmula para encontrar la mediana es:

donde

Para encontrar el intervalo donde está “Me”, se debe calcular n/2 y buscar en la columna F i,
el valor que sugiere n/2.

Ej.: tabla 2

En la columna Fi, el 4° intervalo supera a 20. El cálculo de Me es el siguiente:

Su interpretación es el 50% inferior de la muestra, gana menos de $94.540 y el otro 50%


gana más de $94.540.
1.3 Moda:
Es un estadígrafo que puede definirse como el valor más frecuente o el valor de la variable
que presenta la mayor frecuencia absoluta.
- Datos no tabulados: se busca el valor más repetido

- Datos tabulados: en este caso no es fácil visualizar el valor con mayor frecuencia ya que
se encuentra dentro de un intervalo. Para buscar la moda se usa la siguiente fórmula:

Características de la media, mediana y la moda.


Hemos aprendido que la media es una medida de tendencia central en la que la suma de las
desviaciones respecto a ella es cero; que la mediana es la medida de tendencia central que
divide el área de un histograma o el área bajo la curva de distribución en 2 partes iguales de
manera que el número de observaciones por debajo de la mediana es igual al número de
observaciones por encima de ella, y que la moda es el valor que presenta la mayor
frecuencia.
Nos referiremos a algunas de sus características y las relaciones más importantes que hay
entre ellas:
De las 3 medidas de tendencia central, la media aritmética es muy sensible a los valores
extremos, en tanto que la mediana y la moda no son afectadas por los valores de los
extremos. Por ejemplo, en la serie 3, 5, 7, 7, 8 la media aritmética es igual a 6; si cambiamos
el valor extremo 8 por 18 se tiene la serie 3, 5, 7, 7, 18 cuya media aritmética es igual a 8 es
decir la media varió de 6 a 8.
La mediana por ser insensible a los valores extremos no cambia en ninguna de las 2 series
manteniendo su valor 7. La moda en ambas series es 7 por ser el valor más frecuente.
Debido a la gran sensibilidad de la media aritmética a lo valores extremos, a veces resulta
que su valor produce efectos engañosos. Por ejemplo, si se está estudiando el ingreso de un
grupo de personas que tiene los siguientes valores como sueldos en miles de pesos: 320,
400, 400, 400, 450, 500, 550, 2000, 2900.
Obsérvese que solo 2 tienen ingresos altos y las 7 restantes tienen ingresos menores o
iguales a 550 o sea que en este caso la media resulto atípica. La mediana y la moda
resultan más representativas para esta distribución. El conocimiento de las 3 medidas da
una buena apreciación de la distribución de los valores pero si se debe hacer una
apreciación con una sola de las medidas es mejor usar la media.
Para ilustrar estas diferencias se han diseñado los siguientes gráficos.

La media aritmética es un punto de equilibrio (semejante a un centro de gravedad).


La mediana tiene la propiedad de que su ordenada divide el área bajo la curva en dos partes
iguales.
La moda es la abscisa correspondiente a la mayor ordenada o pico de la curva.

Relación empírica entre Media, Mediana y Moda


Para curvas de frecuencias unimodales que sean moderadamente sesgadas (asimétricas),
se tiene la relación empírica.
Media – Moda = 3. (Media – Mediana)
CUARTILES, DECILES Y PERCENTILES
Si una serie de datos se colocan en orden de magnitud, el valor medio (o la media aritmética
de los valores medios) que divide al conjunto de datos en dos partes iguales es la mediana.
Por extensión, de esta idea se puede pensar en aquellos valores que dividen a los datos en
cuatro partes iguales. Estos valores, representados por Q 1, Q2, Q3, se llaman primero,
segundo y tercer cuartil, respectivamente; el valor de Q 2 es igual al de la mediana.

Análogamente, los valores que dividen los datos en diez partes iguales se llaman deciles y
se representan por D1, D2, D3,……….D9, mientras que los valores que dividen los datos en
cien partes iguales se llaman percentiles y se representan por P 1, P2,………..P99. El quinto
decil y el quincuagésimo percentil se corresponden con la mediana. Los percentiles P 25 y P75
se corresponden con el primer y tercer cuartil, respectivamente.

En conjunto, cuartiles, deciles, percentiles y otros valores obtenidos por subdivisiones


análogas de los datos se llaman cuantiles. Para el cálculo de estos a partir de datos
agrupados.
1.4 Cuartiles y deciles:
- Datos no tabulados:

Si separamos los datos en 4 grandes grupos, cada uno será un cuartil.

La interpretación, por ejemplo del Q 1 es: el valor 4 supera el 25% de los datos y es superado
por el 75% de las observaciones restantes (ordenadas de mayor a menor).
- Datos tabulados: se usa la misma fórmula que se ocupó en la mediana, con una pequeña
modificación.

donde i = es el n° del cuartil deseado


Ej. Tabla 2: calcular el Q1.

Primero calculamos
Buscamos en la columna Ni el valor que supere el 10, en este caso es el 3 er intervalo (en ese
intervalo se busca el cuartil 1)

El 25% de las personas de la muestra gana menos de $82.850 y el 75% superior gana más
de $82.850 (ordenados 2 sueldos de >a<).
Usando el mismo ejemplo, calculamos el decil 8.

Calculamos en primer lugar


y se busca en la columna Ni el valor que supere 32. En este caso el 5° intervalo sirve.
La interpretación es: el 80% de las personas ganan menos de $107.500 y el 20% restante
gana más de $107.500.

La desviación típica y otras medidas de dispersión


Dispersión o Variación
Al grado en que los datos tienden a extenderse alrededor de un valor medio se llama
variación o dispersión de los datos. Se utilizan distintas medidas de dispersión o variación,
las más empleadas son: el rango, la desviación media, el rango semiintercuartilico, el rango
entre percentiles 10-90 y la desviación típica, la varianza.

Rango
El rango de un conjunto de números es la diferencia entre el mayor y el menor de todos
ellos.
Ejemplo: El rango de los números 2, 3, 3, 5, 5, 5, 8, 10,12 es 12 – 2 = 10.

Desviación media, o promedio de desviación


De una serie de N números x1, x2, x3,………, xn viene definido por:
N __ ___
 Xj X  XX _________
___
Desviación..Media  M .D.  j 1
  X  X .......1
N N
__
___
Donde X es la media aritmética de los números y X j X es el valor absoluto

Ejemplo: Hallar la desviación media de los números 2, 3, 6, 8, 11


___
2  3  6  8  11
Media Aritmética = X  6
5
2  6  3  6  6  6  8  6  11  6
Desviación media = M .D.  
5
 4  3  0  2  5 43 0 25
   2,8
5 5
Si X1, X2, ………..Xk, se presentan con frecuencias f 1, f2,………. fk, respectivamente, la desviación media puede
escribirse como :
N __ ___
f j XjX  f.X  X _________
___
 X  X ....... 2 
j 1
Desviaciòn..Media  M .D.  
N N
k

Donde N   f j   f . Esta forma es útil para datos agrupados donde las diferentes X j
j 1

representan las marcas de clase y las f j las correspondientes frecuencias de clase.


Ocasionalmente, la desviación media se define como desviaciones absolutas de la mediana

X j a
u otro promedio en lugar de la media. Una propiedad interesante de la suma j 1 es
que es mínima cuando a es la mediana, es decir, la desviación media respecto de la
mediana es mínima.
Sería más apropiado utilizar el término desviación media absoluta que el de desviación
media.

Rango intercuartil
Al estudiar el rango, vimos que era muy influenciable por los valores extremos; para eliminar
la influencia de los extremos en estadística se suele analizar la situación del intermedio de la
distribución y a esto se refiere el rango intercuartil que es la diferencia entre el tercer cuartil
Q3 y el primero Q1.

………………………(3)

Rango semi-intercuartílico o desviación cuartil


Es la mitad del rango intercuartílico; designándolo por Q D se tiene:

…………………………………………………………………………………..(4)
A pesar de que el rango intercuartil y la desviación cuartil, como medidas de la variabilidad
de las observaciones son mas adecuadas que el rango, presentan varios inconvenientes que
demeritan su uso. Así:
1. No toma en consideración todos los valores de la distribución y puede ocurrir que los
valores inferiores a Q1 o superiores a Q2 estén muy compactos o muy dispersos, y el valor de
Q sería el mismo.
2. No es posible, conociendo solo Q, hacer la ubicación precisa de una observación dentro
de la distribución.
3. Al igual que la mediana, que es el segundo cuartil, no tiene propiedades que les permitan
intervenir en las relaciones matemáticas que utiliza la estadística.

Rango entre percentiles: 10-90 de una serie de datos viene definido por:
Rango percentil 10-90 = P90 - P10…………………………………….(5)
Donde P10 y P90 son los percentiles décimo y nonagésimo de los datos. El rango

1
semipercentilico 10-90,  P90  P10  , puede también emplearse aunque su empleo no es
2
corriente.

Desviación Típica: de una serie de N números X 1, X2, ……..XN, se representa


por s y se define por:
2 2
N
 ___
  ___

 
j 1 
X j  X

  X  X  x 2
 ___

2

s     X  X  .................................(7)
N N N  
___
Donde x representa las desviaciones de cada uno de los números X j de la media X .

Así, s es la raíz cuadrada del cuadrado medio de las desviaciones a la media, o como a
veces se le llama, raíz del cuadrado medio de las desviaciones.
Si X1, X2, ………XK se presentan con frecuencias f1, f2, ……..fK, respectivamente, la
desviación típica puede escribirse como:
2 2
N
 ___
  ___

 fj X j  X 
 
 fX  X 
 fx 2
 ___

2

s
j 1
      X  X  .................................(6)
N N N  

k
N   fj   f
Donde j 1
. En esta forma se emplea para datos agrupados.
A veces, la desviación típica de los datos de una muestra viene definida con (N-1) en lugar
de N en los denominadores de las expresiones (5) y (6), por que el valor resultante
representa un estimador mejor de la desviación típica de una población de la que se ha
tomado una muestra. Para valores grandes de N ( por ejemplo, N >30), prácticamente no
hay diferencia entre las dos definiciones. También, cuando se necesita un estimador mejor,
puede obtenerse siempre multiplicando la desviación típica calculada con la primera

N
definición por . De aquí que se acostumbra a utilizar la primera definición.
N 1

Varianza
La varianza de un conjunto de datos se define como el cuadrado de la desviación típica y
viene dada, por tanto, por s2 en (5) y (6).
Cuando es necesario distinguir la desviación típica de una población de la desviación típica
de una muestra sacada de esta población, se emplea el símbolo s para la última y  para la
primera. Así, s2 y 2 representarían la varianza muestral y la varianza poblacional,
respectivamente.

Propiedades de la desviación típica

X  a
N
2
j
1. La desviación típica puede definirse como j 1
s
N
Donde a es un promedio que puede ser distinto de la media aritmética. De todas las
___
desviaciones típicas, la mínima es aquella para la que a  X .

2. Para distribuciones normales resulta que:


___ ___
(a) El 68,27% de los casos están comprendidos entre X  s y X  s , (es decir, el valor de la

desviación típica a ambos lados de la media).


___ ___
(b) El 95,45% de los casos están comprendidos entre X  2 s y X  2 s , (es decir, el doble

del valor de la desviación típica a ambos lados de la media).


___ ___
(c) El 99,73% de los casos están comprendidos entre X  3s y X  3s , (es decir, el triple

del valor de la desviación típica a ambos lados de la media).

3. Supóngase dos series de datos N 1 y N2 números (o dos distribuciones de frecuencia con


frecuencias totales N1 y N2) cuyas variaciones vienen dadas por s12 y s22, respectivamente, y
___
que tienen la misma media X . Entonces la varianza combinada para ambas series ( o

ambas distribuciones de frecuencia) esta dada por


2 2
N .s  N 2 .s2
s  1 1
2
……………………………………………….(7)
N1  N 2
Esta es una media aritmética ponderada de las varianzas. Este resultado puede
generalizarse a 3 o más series de datos.

CORRECCION SHEPARD PARA LA VARIANZA


El cálculo de la desviación típica tiene algo de error, debido al agrupamiento de los datos en
clases (error de agrupamiento). Para ajustarnos a la realidad la varianza corregida.
Varianza corregida = Varianza de datos agrupados – c2/12
Donde c es el tamaño del intervalo de clase. La corrección introducida c 2/12 se conoce como
corrección Sheppard. Se utiliza en distribuciones continuas donde las “colas” van
gradualmente a cero en ambas direcciones.
Los estadísticos difieren en lo que se refiere a cuándo y si debe aplicarse la corrección
Sheppard. Ciertamente no debe aplicarse sin haber hecho un examen completo de la
situación. Esto se debe a que frecuentemente se tiende a sobre corregir y así sustituir unos
errores por otros.
Relaciones empíricas entre las medidas de
dispersión
Para distribuciones moderadamente asimétricas se tienen las fórmulas empíricas
Desviación media = 4/5 (Desviación Típica)
Rango semi intercuartílico = 2/3 (Desviación Típica)
Estas son consecuencias del hecho de que para distribuciones normales se tiene que la
desviación media y el rango semi intercuartílitico son, respectivamente, iguales a 0,7979 y
0,6745 veces la desviación típica.

DISPERSIÓN ABSOLUTA Y RELATIVA. COEFICIENTE DE


VARIACIÓN
La dispersión o variación real determinada por la desviación típica u otra medida de
dispersión se llama dispersión absoluta. Sin embargo, una dispersión o variación en la
medida de una distancia de 1.000 pies tiene un efecto totalmente distinto al que tendría la
misma variación de 10 pulgadas en una distancia de 20 pies. Una medida de este efecto
viene dada por la dispersión relativa definida por:
Dispersión..absoluta
Dispersión..relativa 
Pr omedio ……………………………………(8)

___
Si la dispersión absoluta es la desviación típica s y el promedio es la media X , la
dispersión relativa se conoce por coeficiente de variación o coeficiente de dispersión dado
por:
s
Coeficiente.de. var iaciòn  V  ___
X ……………………………………………………(9)

Y está generalmente expresado como un porcentaje. También se tienen otras posibilidades


para esta medida.
Acotación: Mide la representatividad de la media. Valores extremos del mismo nos llevarán
a concluir que la media no es representativa, es decir, existirán valores entre las
observaciones que se separan significativamente de las demás.
Sólo puede ser utilizado cuando los valores de la variable toman valores "normales". Es
decir, no son muy elevados ni muy pequeños, ya que una media próxima a cero o muy alta
darían valores nulos o infinitos al coeficiente.
Si la media es representativa de las observaciones (no existen valores extremos
exageradamente distanciados de la mayoría), el coeficiente de variación permite comparar la
dispersión de dos series estadísticas: mayor coeficiente indica menor homogeneidad, o lo
que es lo mismo, mayor dispersión o variabilidad.
Adviertase que el coeficiente de variación es independiente de las unidades utilizadas. Por
está razón es útil para comparar distribuciones donde las unidades pueden ser diferentes.
___
Un inconveniente del coeficiente de variación es que deja de ser útil cuando X está
próxima a cero.
GRÁFICO DE VARIABILIDAD:

Basado en los cuartiles, adopta la forma del gráfico de abajo. En él se reflejan los cuartiles 1º
y 3º y la mediana, junto a los extremos inferior y superior:

Se consideran observaciones atípicas aquellas que quedan fuera del intervalo:

Ejercicios Propuestos

1.) La tabla muestra una distribución de frecuencias de los salarios semanales en dólares de 65
empleados de la Compañía P & R.

Número de
Salarios (dólares) empleados
$ 50,00 - $ 59,99 8
60,00 - 69,99 10
70,00 - 79,99 16
80,00 - 89,99 14
90,00 - 99,99 10
100,00 - 109,99 5
110,00 - 119,99 2
Total 65
Hallar: a) La media, la mediana y la moda, b) Los cuartiles Q 1, Q2, Q3 y c) los deciles D1, D2, D3,……….D5, de
los salarios de los 65 empleados de la compañía P y R., d) El percentil P 82, e) Utilizar la fórmula empírica
para hallar el salario modal de los 65 empleados de la Compañía P y R.

2.) Determinar a) el percentil 35 y b) el percentil 60 para la distribución del problema anterior.

3.) Demostrar que los resultados de los problemas 1 y 2 pueden obtenerse a partir de una ojiva
porcentual.

4.) La tabla muestra una distribución de la carga máxima en toneladas cortas (1 tonelada = 2000 libras)
que soportan ciertos cables producidos por una compañía.

Máximo de carga
(toneladas de Número de
carga) cables
9,3 - 9,7 2
9,8 - 10,2 5
10,3 - 10,7 12
10,8 - 11,2 17
11,3 - 11,7 14
11,8 - 12,2 6
12,3 - 12,7 3
12,8 - 13,2 1
Total 60
Determinar: a) La media de la carga máxima, b) La mediana para las cargas máximas de los cables, c) La
moda de la carga máxima de los cables, d) Hallar los Q 1, Q2, Q3 , e) Hallar los P10, P90, P25, P75 , interpretando
los resultados.

5.) La tabla muestra una distribución de la edad de los cabezas de familia en Estados Unidos, durante el
año 1957.

Edad de los Número


cabeza de (en
familia (años) millones)
Menor de 25 2,22
25 - 29 4,05
30 - 34 5,08
35 - 44 10,45
45 - 54 9,47
55 - 64 6,63
65 - 74 4,16
75 y más 1,66
Total 43,72
a) Hallar la mediana de la edad.

b) Hallar la moda para la distribución anterior.

c) Hallar (1) el segundo decil, (2) el cuarto decil, (3) EL 90ª percentil y (4) el 68ª percentil,
interpretando los resultados.

d) Realizar el polígono y ubicar cada uno de los resultados en dicho gráfico.

6.) a) ¿Pueden todos los cuartiles y deciles ser expresados como percentiles?, b) ¿Pueden todos los
cuantiles ser expresados como percentiles?. Explicarlo.

6) Número de La tabla muestra una distribución de frecuencias de las calificación es


Calificación estudiantes del examen de algebra en un colegio
90 -100 9
a) 80 -89 32 Hallar los cuartiles de la distribución,
b) 70 -79 43 Interpretar significado de cada uno.
60 -69 21
50 -59 11
40 -49 3
30 -39 1
Total 120
c) La calificación más baja de lograda por el 25% superior de la clase, b) la calificación más alta
lograda por el 20% inferior de la clase. INTERPRETAR las respuestas en términos de percentiles.

7.) Interpretar los resultados del problema anterior mediante: a) un histograma porcentual, b) un
polígono de frecuencias acumuladas, c) una ojiva porcentual.

8.) Hallar el rango de cada una de las series de números: (a) 12, 6, 7, 3, 15, 10, 18, 5, (b) 9, 3, 8, 8, 9,
8, 9, 18.

9.) Hallar la desviación media de las series de números del problema anterior.

10.) Hallar la desviación media de las alturas de los 100 estudiantes de la Universidad XYZ

11) Hallar el rango semiintercuartilico para la distribución de las alturas de los estudiantes de la
Universidad XYZ.

13) Hallar el rango semiintercuartilico para los salarios de los 65 empleados de la compañía P&R, del
problema 1.

14) Hallar el rango entre percentiles 10-90 de las alturas de los estudiantes de la Universidad XYZ.

15) Hallar la desviación típica de cada una de las dos series de números del problema 9.

16) Hallar la varianza de las series del problema 9.

17) Hallar la desviación típica de las alturas de los 100 estudiantes de la Universidad XYZ.

18) Aplicar la corrección de Sheppard para determinar la desviación típica de los datos del problema
de los 100 estudiantes de la Universidad XYZ.

19) Aplicar la corrección de Sheppard para determinar la desviación típica de los datos del problema
de los 65 empleados de la Compañía P & R.

20) La tabla muestra el cociente de inteligencia (I.Q) de 480 alumnos de una cierta escuela elemental.
Hallar: (a) la media, (b) la desviación típica, (c) aplicar la corrección de Sheppard.

21) Discutir la validez de las fórmulas empíricas:

(a) Desviación media = 4/5 (Desviación Típica)


(b) Rango semi intercuartílico = 2/3 (Desviación Típica)
Para la distribución de las alturas de los estudiantes en la Universidad XYZ.

Problemas Varios

1) Un fabricante de tubos de televisión tiene dos tipos de tubos, A y B. Los tubos tienen unas
___ ___
duraciones medias respectivas de X  1,495 horas y X  1,875 horas, y desviaciones típicas
A B

s A  280 horas y s B  310 horas. ¿Qué tubo tiene la mayor (a) dispersión absoluta, (b)
dispersión relativa.

2) Halla los coeficientes de variación V para los datos del problema 11 y 1 del Ejercitario anterior,
utilizando en ambos las desviaciones típicas corregidas y no corregidas.

3) Dada las siguientes series de números: a) 5, 3, 8, 4, 6, 12, 4, 3, b) 8772, 6453, 10624, 8628, 9434,
6351. Hallar: a) las desviaciones medias, b) las desviaciones típicas, c) las varianzas, d) coeficientes
de variación.

4) La tabla muestra la distribución de los diámetros de las cabezas de remaches fabricados por una
compañía.

Hallar: a) las tres medidas de tendencia central, b) el Q 3, P27, D8, interpretando cada resultado c) la
desviación media, c) la desviación típica, d) la varianza, e) la corrección de shepard, f) verificar si
cumplen las relaciones empíricas en las desviaciones y g) coeficiente de variación.

5) La tabla muestra la distribución de frecuencias por grupo de edades en el periodo del 2002 en el
país
Hallar: a) las tres medidas de tendencia central, b) el Q 2, P35, D9, interpretando cada resultado c) la
desviación media, c) la desviación típica, d) la varianza, e) la corrección de shepard, f) verificar si cumplen
las relaciones empíricas en las desviaciones y g) coeficiente de variación.

S-ar putea să vă placă și