Sunteți pe pagina 1din 115

Conceptos Básicos

En muchas ocasiones, para llevar a


cabo una investigación se hacen
encuestas, las cuales son dirigidas a
una muestra representativa de la
población. Para comprender mejor este
tipo de estudios es importante que
conozcas los siguientes términos
básicos:
Población:
Es un conjunto de personas, eventos o cosas de las
cuales se desea hacer un estudio, y tienen una
característica en común.
Elementos o
Muestra: unidad de análisis Población
Es un subconjunto cualquiera de
la población; es importante
escoger la muestra en forma
aleatoria (al azar), pues así se
logra que sea representativa y Muestra
se puedan obtener conclusiones
más afines acerca de las
características de la población.
Para estudiar alguna característica especifica de
la población se pueden definir los siguientes
tipos de variables:

A cada característica de los elementos de una


población se le llama variables. Nos
encontraremos con varios tipos de variables:
cualitativas y cuantitativas.
Las variables cualitativas son aquellas que se
refieren a categorías o atributos de los elementos
(individuos) estudiados.
Las variables cuantitativas son aquellas cuyos
datos son de tipo numérico.
TIPOS DE VARIABLES CUALITATIVAS
Dicotómicas: Sólo hay dos categoría, que son
excluyentes una de la otra.
Ejemplo: planta enferma-sana, se rego-no se rego
 Nominal: tiene mas de dos categorías y no hay
orden entre ellas.
Ejemplo: marca de tractores, tipos de sembradora
(neumática, mecánica)
Ordinal: tiene varias categorías y hay orden entre
ellas.
Ejemplo: grado de salinidad, calidad de la
fumigación realizada.
TIPOS DE VARIABLES CUANTITATIVAS

Continuas: números infinito no numerables de


elementos. Tiene asociado el concepto de medida
Ejemplo: Consumo de combustible, Potencia del motor.
Discretas: números finitos o infinitos numerables de
elementos. Se asocia con el concepto de conteo.
Ejemplo: N° de tractores, N° de cosechadoras por
estado.
Hay ocasiones en las que las medidas cuantitativas continuas son
transformadas en ordinales mediante la utilización de uno o varios puntos de
corte.
Ejemplo: La variable conductividad hidráulica del suelo es codificada en varias
categorías y se utiliza en términos como: permeabilidad alta, media o baja
DATOS PRIMARIOS
Los datos primarios son los datos recolectados que no
han sido ordenados numéricamente. Como ejemplo
puede servir el conjunto de las propiedades físico-
mecánicas (humedad (%), espesor (m), masa de 1000
semillas (g), masa volumétrica (kg/m 3) y
características dimensionales de la semilla de una
planta (longitud y anchura (m)) para el diseño de
una sembradora (25 semillas de amaranto).
ORDENAMIENTO
Un ordenamiento es una disposición de los datos
numéricos primarios en orden creciente o decreciente
de magnitud. La diferencia entre el número mayor y
el menor se denomina recorrido. Por ejemplo, si la
humedad mayor de las 25 semillas es 7.49 % y la
menor es de 7.34 %, el recorrido es 0.15%.
DISTRIBUCIÓN DE FRECUENCIA
Cuando se reúnen grandes cantidades de datos
primarios con frecuencia es útil distribuir los datos en
clases y categorías, y determinar el número de
individuos que pertenecen a una clase, llamada
frecuencia de clase.
DISTRIBUCIÓN DE FRECUENCIA
El ordenamiento tabular de los datos por clases
conjuntamente con las frecuencias de clase se
denomina distribución de frecuencia o tabla de
frecuencia.
Cuadro 1. Humedad en porcentaje de las 25 semillas de amaranto

Límite Límite Valores Frecuencia


Inferior Superior Medio
7.35 7.37 7.36 3
7.38 7.40 7.39 6
7.41 7.43 7.42 10
7.44 7.46 7.45 4
7.47 7.49 7.48 2
DISTRIBUCIÓN DE FRECUENCIA
Los datos organizados y dosificados como en la
distribución de frecuencia anterior se denominan
datos agrupados. Este proceso tiene la desventaja
que destruye el detalle original de los datos, y como
ventaja, la claridad que se muestra en el cuadro
anterior y en las relaciones, que así se hacen evidentes
INTERVALOS DE CLASE Y LÍMITES
DE CLASE
Si las humedades de las semillas se registran con
aproximación de 0.01 %, el intervalo de clase teórico
incluye todas las medidas desde 7.345 y 7.375 % son
llamados límites reales; el número más pequeño es
el límite de clase real inferior y el mayor 7.375 % es
el límite de clase real superior.

En la práctica, los límites de clases reales se obtienen


sumando al límite superior de un intervalo de clase el
límite inferior del intervalo de clase próximo mayor y
dividiendo por dos.
LIMITES DE CLASES REALES
Algunas veces los límites de clases reales son
utilizados para simbolizar las clases. Para evitar
ambigüedades al utilizar ésta notación, los límites de
clase no deben coincidir con las observaciones
reales. Así, si una observación fuera de 7.375 % no
sería posible decidir si pertenecía al intervalo de
clase 7.345 – 7.375 ó al 7.375 – 7.405.
TAMAÑO O AMPLITUD DE UN
INTERVALO
Es la diferencia entre los límites de clase reales
superior e inferior que también se refiere a la
amplitud de clase, tamaño de clase, longitud de
clase.
Si todos los intervalos de clase de una distribución de
frecuencia tienen las mismas amplitudes, ésta
amplitud común es denotada por c.
En este caso c es igual a la diferencia entre los dos
límites de clase inferiores sucesivos o los dos límites
de clase superiores sucesivos. Para nuestro caso c =
7.375 – 7.345 = 7.405 – 7.375 = 0.03.
MARCA DE CLASE
La marca de clase o punto medio de la clase es el
punto medio del intervalo de clase y se obtiene
sumando los límites de clase inferior y superior y
dividiéndolos por dos. Por lo que, para el intervalo
7.35 – 7.37 del Cuadro 1, sería (7.35 + 7.37)/2 =7.36.

Para el análisis estadístico, se considera que todas las


mediciones que pertenecen a un intervalo de clase
dado coinciden con la marca de clase. Por ejemplo,
todas las humedades de la semilla que caen en el
intervalo 7.35 -7.37 % se consideran 7.36 %.
REGLAS GENERALES PARA FORMAR
LAS DISTRIBUCIONES DE FRECUENCIA
1. Determine los números mayores y menores en los datos
primarios y entonces halle el recorrido o amplitud.
2. Divida el recorrido por un número conveniente de intervalos
de clase que tengan el mismo tamaño. Si esto no es factible,
use intervalos de clase de diferentes tamaños o intervalos de
clase abiertos. El número de los intervalos de clase
usualmente se toma entre 5 y 20, dependiendo de los datos.
Los intervalos de clase son también seleccionados de manera
que las marcas de clase o puntos medios coincidan con los
datos realmente observados. Esto tiene a aminorar el llamado
error de agrupación implicado en el análisis estadístico
posterior. Sin embargo, los límites de clase reales no deben
coincidir con los datos observados.
3. Determine el número de observaciones que caen dentro de
cada intervalo de clase, es decir halle las frecuencias de clase.
HISTOGRAMA Y POLÍGONOS DE
FRECUENCIA
Se corresponden con dos representaciones gráficas de las distribuciones
de frecuencia:

Un histograma consiste en un conjunto de rectángulos (gráfica de


barras) que tienen:
Base sobre un eje horizontal (el eje X) con los centros en las marcas
de clase o puntos medios y las longitudes iguales a los tamaños de los
intervalos de clase.
El eje vertical (el eje Y) representa las frecuencias con que se repiten
las mediciones en un intervalo de clase.
Las áreas proporcionales a las frecuencias de clase. Si los intervalos de
clase tienen todos los mismos tamaños, las alturas de los rectángulos son
proporcionales a las frecuencias de clase y entonces es costumbre tomar
las alturas numéricamente iguales a las frecuencias de clase. Si los
intervalos de clase no tienen igual tamaño, estas alturas pueden ser
ajustadas.
HISTOGRAMA Y POLÍGONOS DE
FRECUENCIA
Un polígono de frecuencia es un gráfico de líneas de
frecuencia de clase trazado en función del punto medio.
Puede obtenerse uniendo entre sí los puntos medios de los
topes de los rectángulos en el histograma.

Figura 1. Histograma
y polígonos de
frecuencia de la
humedad de la
semilla de amaranto.
DISTRIBUCIONES DE FRECUENCIAS
RELATIVAS
La frecuencia relativa de una clase es la frecuencia de
la clase dividida por la frecuencia total de todas las
clases y generalmente se expresa como un porcentaje.
Cuadro 2. Frecuencia relativa de la humedad de 25
semillas de amaranto.

Límite Límite Valores Frecuencia Frecuencia


Inferior Superior Medio Relativa
7.35 7.37 7.36 3 0.12
7.38 7.40 7.39 6 0.24
7.41 7.43 7.42 10 0.40
7.44 7.46 7.45 4 0.16
7.47 7.49 7.48 2 0.08
Total Sumatoria
25 1.00
DISTRIBUCIONES DE FRECUENCIAS
RELATIVAS
Si las frecuencias en el Cuadro 1 (Tabla de frecuencia)
son reemplazadas por las frecuencias relativas
correspondientes, el cuadro resultante se llama
distribución de frecuencia relativa, distribución
porcentual, o tabla de frecuencia relativa (Cuadro 2).

Los gráficos resultantes son llamados histogramas de


frecuencia relativa, o histogramas porcentuales y
polígonos de frecuencia relativa o polígonos
porcentuales respectivamente.
DISTRIBUCIONES DE FRECUENCIAS
ACUMULATIVAS U OJIVAS
La frecuencia total de todos los valores menores o
igual que el límite de clase real superior del intervalo
de clase dado se llama frecuencia acumulada. Por
ejemplo, la frecuencia acumulada que incluya el
intervalo de clase 7.41 – 7.43 en el Cuadro 1 es 3 + 6 +
10 = 19, lo que significa que 19 semillas tienen
humedades menores que 7.435 %.
DISTRIBUCIONES DE FRECUENCIAS
ACUMULATIVAS U OJIVAS
Una tabla que presente tales frecuencias acumuladas
se denomina distribución de frecuencia acumulada,
tabla de frecuencia acumulada o simplemente
distribución acumulativa.
Cuadro 3. Frecuencia acumulada de la humedad de 25
semillas de amaranto.
Humedades (%) No. de semillas
Menos de 7.345 0
Menos de 7.375 3
Menos de 7.405 9
Menos de 7.435 19
Menos de 7.465 23
Menos de 7.495 25
DISTRIBUCIONES DE FRECUENCIAS
ACUMULATIVAS U OJIVAS
Un gráfico que muestre la frecuencia acumulada menor
que cualquier límite de clase real superior trazado en
función del límite de clase superior se denomina
polígono de frecuencia acumulativa u ojiva .

Figura 2. Número de
semillas acumuladas para
los diferentes intervalos
de clase
DISTRIBUCIONES DE FRECUENCIAS
ACUMULATIVAS U OJIVAS
 Para algunos propósitos es aconsejable considerar una distribución de
frecuencia acumulativa de todos los valores mayores o iguales al
límite de clase inferior real década intervalo de clase. Como
consideramos en este caso las humedades de 7.345 ó mayor, 7.375 % ó
mayor, algunas veces esta distribución acumulativa se llama “ó
mayor” mientras la considerada anteriormente es una distribución
acumulativa “menor que”.

 Una se obtiene fácilmente de la otra, por ejemplo para la humedad de


7.345 % ó mayor el número de semillas es 25, mientras que para 7.375
% es 22 y así sucesivamente hasta que la frecuencia acumulada es
igual a CERO. Las ojivas correspondientes son llamadas ojivas “o
mayor” y “menor que”.
DISTRIBUCIONES DE FRECUENCIAS ACUMULATIVAS
RELATIVAS U OJIVAS PORCENTUALES
La frecuencia acumulativa relativa o frecuencia
acumulativa porcentual es la frecuencia acumulativa
dividida por la frecuencia total. Por ejemplo, la frecuencia
acumulativa relativa de las humedades menores de 7.435 % es
19/25 = 76 %, lo que significa que el 76 % de las semillas
tienen humedades menores que 7.435 %.
Si las frecuencias acumulativas relativas son utilizadas en el
Cuadro 3 y la Figura 2 en lugar de las frecuencias acumuladas
los resultados son llamados distribuciones de frecuencia
acumulativas relativas o distribuciones acumulativas
porcentuales, y polígonos de frecuencia acumulativa
relativa u ojivas porcentuales respectivamente.
CURVAS DE FRECUENCIA. OJIVAS SUAVIZADAS

 Los datos obtenidos pueden ser considerados como que pertenecen a


una muestra sacada de una población grande. Como en la población
están disponibles muchas observaciones, teóricamente es posible
(para los datos continuos) escoger los intervalos de clase muy
pequeños y no obstante que tengan números medibles de
observaciones que caigan dentro de cada clase. Así se podría esperar
que el polígono de frecuencia o polígono de frecuencia relativa para
una población grande estuviera dividida en tan pequeños segmentos
lineales que pueden aproximarse por curvas, las cuales se llaman
curvas de frecuencia o curvas de frecuencia relativas,
respectivamente.
CURVAS DE FRECUENCIA. OJIVAS SUAVIZADAS

Es razonable esperar que tales curvas teóricas puedan ser


aproximadas suavizando los polígonos de frecuencia o los
polígonos de frecuencia relativa de la muestra, mejorando
la aproximación a medida que aumenta el tamaño de la
muestra. Por esta razón una curva de frecuencia algunas
veces es llamada polígono de frecuencia suavizado.

De una forma similar las ojivas suavizadas se obtienen


suavizando los polígonos de frecuencia acumulativa u
ojivas.
TIPOS DE CURVAS DE FRECUENCIA

Curva simétrica o acampanada

Las curvas simétricas o acampanadas se


caracterizan por el hecho de que las observaciones
equidistantes del máximo central tienen la misma
frecuencia. Un ejemplo importante es la curva normal.
TIPOS DE CURVAS DE FRECUENCIA

Curva asimétrica a la derecha Curva asimétrica a la izquierda


(asimetría positiva) (asimetría negativa)

En las curvas de frecuencia moderadamente asimétricas o


asimétricas, la cola de la curva a un lado del máximo
central es más larga que al otro. Si la cola más larga está
a la derecha, se dice que la curva es asimétrica a la
derecha o que tiene asimetría positiva, pero si ocurre lo
contrario, se dice que la curva es asimétrica a la izquierda,
o que tiene asimetría negativa.
TIPOS DE CURVAS DE FRECUENCIA

Curva forma de J Curva forma de J a la


inversa

En una curva en forma de J, o de J a la inversa el


máximo se encuentra en un extremo.
TIPOS DE CURVAS DE FRECUENCIA

Curva forma de U

Una curva de frecuencia en forma de U tiene los


máximos a ambos extremos.
TIPOS DE CURVAS DE FRECUENCIA

Curva bimodal

Una curva de frecuencia bimodal (g) tiene dos


máximos.
TIPOS DE CURVAS DE FRECUENCIA

Curva multimodal

Una curva de frecuencia multimodal tiene más de dos


máximos.
ÍNDICE O SUBÍNDICE
Sea el símbolo Xj cualquiera de los N valores X1, X2, X3,
…, XN tomados por una variable X. La letra j en Xj, que
significa cualquiera de los números 1, 2, 3, …, N se
llama subíndice o índice.
SUMATORIA
El símbolo se utiliza para denotar la suma de
todas las Xj de j = 1 hasta j = N, es decir, por definición:

Ejemplos:
Parámetros y estadísticos

 Parámetro: Es una cantidad numérica calculada sobre una población

 La altura media de los individuos de un país

 La idea es resumir toda la información que hay en la población en unos


pocos números (parámetros).

 Estadístico: Ídem (cambiar población por muestra)

 La altura media de los que estamos en este aula.


 Somos una muestra (¿representativa?) de la población.

 Si un estadístico se usa para aproximar un parámetro también se le suele llamar


estimador.

Normalmente nos interesa conocer un parámetro, pero por la dificultad que


conlleva estudiar a *TODA* la población, calculamos un estimador sobre una
muestra y “confiamos” en que sean próximos. Más adelante veremos como elegir
muestras para que el error sea “confiablemente” pequeño.

Universidad Cooperativa Tema : Estadísticos 37


Universidad Cooperativa Tema : Estadísticos 38
estadísticos
 Posición
 Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos.
 Cuantiles, percentiles, cuartiles, deciles,...
 Centralización
 Indican valores con respecto a los que los datos parecen
agruparse.
 Media, mediana y moda
 Dispersión
 Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización.
 Desviación típica, coeficiente de variación, rango, varianza
 Forma
 Asimetría
 Apuntamiento o curtosis

Universidad Cooperativa Tema : Estadísticos 39


PROMEDIOS Y MEDIDAS DE
TENDENCIA CENTRAL
Un promedio es un valor que es típico o
representativo de un conjunto de datos. Como tales
valores típicos tienden a distribuirse centralmente
dentro de un conjunto de datos ordenados de acuerdo
con su magnitud, los promedios son llamados
también medidas de tendencia central.
Tipos de medidas centrales son las siguientes: media
aritmética o como se conoce comúnmente media, la
mediana, la moda, la media geométrica, y la
media armónica.
Ej.

MEDIA ARITMÉTICA
La media de un conjunto de N números X1, X2, X3, …, XN se
denota por y se define como:

Si los números X1, X2, X3, …, XK aparecen f1, f2, f3, …,
fK veces respectivamente (es decir, aparecen con
frecuencias f1, f2, f3, …, fK ), la media aritmética es:
Ec. 2

Ejemplo: Si 5, 10, 15, 20 y 25 aparecen con frecuencias 3, 2, 4, 3 y 1


respectivamente
Ej.

MEDIA ARITMÉTICA PONDERADA


Algunas veces con los números X1, X2, X3, …, XK
asociamos ciertos factores de ponderación o
ponderaciones w1, w2, w3, …, wK dependiendo de la
significación o importancia dada a los números. En este
caso:

Ejemplo: Se obtiene en un punto de la parcela los valores de


conductividad hidráulica de 1.5 y 0.22 m/día para dos profundidades 0.1 y
0.3 m respectivamente.
.

PROPIEDADES DE LA MEDIA ARITMÉTICA


La suma algebraica de las desviaciones de un
conjunto de números de su media aritmética es cero.
La suma de los cuadrados de las desviaciones de un
conjunto de números Xj de cualquier número a es un
mínimo si y sólo si a = .

Ejemplo: Pruebe que es un mínimo si a =

La expresión es un mínimo cuando


Ej.

PROPIEDADES DE LA MEDIA ARITMÉTICA


Si f1 números tienen la media m1, f2 números tienen la
media m2, f3 números tienen la media m3, …, fK
números tienen la media mK, la media de todos los
números es:
PROPIEDADES DE LA MEDIA ARITMÉTICA
Supongamos que A es una media aritmética (puede ser
cualquier número) y si dj = Xj – A son las desviaciones de
Xj con respecto a A, entonces las ecuaciones de la media
aritmética (1 y 2) se convierten en:

Ec. 6
Donde:
Ej. 15 o 20

MEDIA ARITMÉTICA CALCULADA DE DATOS


AGRUPADOS
Cuando los datos se presentan en una distribución de
frecuencia, todos los valores que caen en un intervalo
de clase dado son considerados como coincidentes
con el punto medio del intervalo. Las ecuaciones (2) y
(6) son válidas para tales datos agrupados si
interpretamos a Xj, como un punto medio, y a fj como
su correspondiente frecuencia de clase, a A como
cualquier punto medio supuesto y a dj = Xj – A como
las desviaciones de Xj con respecto a A.
Ej. 22

MEDIA ARITMÉTICA CALCULADA DE DATOS


AGRUPADOS
Si los intervalos de clase tienen todos el mismo tamaño c,
las desviaciones dj = Xj – A pueden expresarse también como
cuj, donde uj pueden ser enteros positivos o negativos o
cero, es decir, 0, ±1, ±2, ±3, …, y la formula (6) se convierte:

Que es equivalente a la ecuación:

Esto es llamado el método de codificación para calcular la


media
Algunas fórmulas
 Datos sin agrupar: x1, x2, ..., xn
 Media
x
 x i i

n
 Datos organizados en tabla
 si está en intervalos usar como xi las marcas de clase. Si
no ignorar la columna de intervalos.

 Media x
 xn i i i

n
Variable fr. fr. ac.
 Cuantil de orden α
L0 – L 1 x1 n1 N1  i es el menor intervalo que tiene frecuencia

L1 – L 2 x2 n2 N2 acumulada superior a α ·n
...  α=0,5 es mediana
  n  N i 1
Lk-1 – Lk xk nk Nk C  Li 1  ( Li  Li 1 )
n ni

Universidad Cooperativa Tema : Estadísticos 48


MEDIANA
La mediana de un conjunto de números dispuestos en
orden de magnitud (es decir, en un ordenamiento) es el
valor medio o la media aritmética de los valores centrales.
 x   n  1 2 si n es impar

Me   x
 n 2   x  ( n 2) 1
 si n es par
 2
Ejemplo: El conjunto de números 3, 4, 4, 5, 6, 8, 8, 8, 10
tiene la mediana 6.
El conjunto de números 5, 5, 7, 9, 11, 12, 15,
18 tiene la mediana ½(9+11) = 10
Ej. 28

MEDIANA
Para los datos agrupados la mediana obtenida por
interpolación está dada por:

Donde:
L1, es el límite de clase real inferior de la clase mediana ( es decir, la
clase que contiene la mediana)
N, es el número de datos observados ( es decir frecuencia total)

, es la suma de las frecuencias de todas las clases inferiores a la


clase mediana
fmediana, es la frecuencia de la clase mediana
c, es el tamaño del intervalo de clase de la mediana.
MEDIANA
Geométricamente la mediana es el valor de X
(abscisa) correspondiente a la línea vertical que divide
un histograma en dos partes que tienen áreas iguales.
Este valor de X algunas veces se denota por .
MEDIANA
La mediana es aquel valor que deja el cincuenta por
ciento de los datos por debajo y otro cincuenta por
encima.

Cabe destacar que es preferible el uso de la


mediana como medida descriptiva del centro
cuando se quiere reducir o eliminar el efecto de
valores extremos en un conjunto de datos (muy
grandes o muy pequeños).
MODA
La moda de un conjunto de números es el valor que
aparece con mayor frecuencia, es decir, es el valor más
común. La moda puede no existir, o incluso si existe,
puede no ser única.

Ejemplo: El conjunto 2, 2, 3, 5, 7, 9, 9, 9, 10, 11, 12, 18 tiene la moda 9 y se


llama unimodal

El conjunto 3, 5, 8, 10, 12, 15, 16 no tiene moda

El conjunto 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tiene dos modas 4 y 7 y se llama


bimodal.
Ej. 33

MODA
En el caso de datos agrupados donde una curva de frecuencia ha sido construida para ajustarse a los datos, la moda será el
valor (o valores) de X correspondiente al punto máximo (o puntos) de la curva. Este valor de X algunas veces se denota
por .
En una distribución de frecuencia o histograma la moda puede ser obtenida a partir de la ecuación:

Donde:
L1, es el límite de clase real inferior de la clase modal (es decir, que contiene la moda)
Δ1, es el exceso de la frecuencia modal sobre la frecuencia de la clase inferior más
próxima
Δ2, es el exceso de la frecuencia modal sobre la frecuencia de la clase superior más
próxima
c, es el tamaño del intervalo de clase modal.
RELACIÓN EMPÍRICA ENTRE LA MEDIA, LA
MEDIANA Y LA MODA
Para las curvas de frecuencia unimodales que son
moderadamente asimétricas tenemos la relación empírica:

Media – Moda = 3(Media – Mediana)


RELACIÓN EMPÍRICA ENTRE LA MEDIA, LA
MEDIANA Y LA MODA
A continuación se muestran las posiciones relativas de la media, la mediana y
la moda para las curvas de frecuencia que son asimétricas a la derecha y a la
izquierda respectivamente. Para las curvas simétricas la media, la moda y la
mediana coinciden en un mismo valor.

a) Asimétrica a la derecha b. Asimétrica a la izquierda


MEDIA GEOMÉTRICA
La media geométrica G de un conjunto de valores de N
números X1, X2, X3, …, XN es la Nésima raíz del producto
de los números:

Ejemplo: La media geométrica de los números 2, 4 y 8 es


MEDIA ARMÓNICA
La media armónica H de un conjunto de N números X1,
X2, X3, …, XN es el recíproco de la media aritmética de los
recíprocos de los números:

En la práctica puede ser más fácil recordar que:

Ejemplo: La media armónica de los números 2, 4 y 8 es:


RELACIÓN ENTRE LAS MEDIAS ARITMÉTICA,
GEOMÉTRICA Y ARMÓNICA
La media geométrica de un conjunto de valores positivos X1,
X2, X3, …, XN es menor que o igual a su media aritmética pero
es mayor que o igual a su media armónica. En símbolos:

Los signos de igualdad se conservan sólo si todos los


números X1, X2, X3, …, XN son idénticos.

Ejemplo: El conjunto 2, 4 y 8 tiene la media aritmética


4.67, la media geométrica 4, y la media armónica 3.43.
RAÍZ MEDIA CUADRADA
La raíz media cuadrada (RMC) o media cuadrática de
un conjunto de valores X1, X2, X3, …, XN algunas veces se
denota por y se define por:

Este tipo de promedio frecuentemente se emplea en aplicaciones físicas.

Ejemplo: La RMC de un conjunto de números 1, 3, 4, 5 y 7 es:


CUARTILES, DECILES Y PERCENTILES
Si un conjunto de datos se coloca en orden de magnitud, el
valor medio que divide el conjunto en dos partes iguales es la
mediana.

Ampliando esta idea podemos pensar igual de los valores que


dividen al conjunto en cuatro partes iguales. Estos valores
denotados por Q1, Q2 y Q3, son denominados el primer,
segundo y tercer cuartil respectivamente, siendo el valor Q2
igual a la mediana.
CUARTILES, DECILES Y PERCENTILES
El primer cuartil, al que se le llama Q1, es el valor por debajo
del cual se encuentra el 25% de los datos, y el tercer cuartil
usualmente llamado Q3, es el valor por debajo de el se
encuentra el 75% de los datos. Q2 es la mediana.

Los valores Q1, Q2 y Q3 dividen al conjunto de datos ordenados


en cuatro partes iguales. Q1 se puede entender como la
mediana de la mitad inferior de los datos ordenados y Q 3
como la mediana de la mitad superior de los datos ordenado.
CUARTILES, DECILES Y PERCENTILES
Igualmente los valores que dividen los datos en diez partes
iguales se llaman deciles y se denotan por D1, D2, D3, …,D9.

 Los valores que dividen los datos en cien partes iguales son
denominados percentiles y son denotados por P1, P2, P3, …, P99.

El quinto decil y el percentil 50 corresponden a la mediana. Los


percentiles 25 y 75 corresponden al primer y tercer cuartil
respectivamente.
Medidas de posición

• Son medidas que determinan la ubicación de un


valor con respecto al total de la población.
• Son valores que dividen a la población en partes
iguales.
PROCEDIMIENTO PARA EL CALCULO
DE LOS PERCENTILES
Sea Lp la posición del percentil deseado.
Entonces p
L p  ( n)
100
Donde: n es el numero de datos y p el percentil

Ejemplo: el percentil 33 es el P33, el percentil 50 es el


P50, que es también la mediana ó el Q2. El percentil
25 es el P25=Q1 y el percentil 75 es el P75=Q3
CALCULO DEL P-ÉSIMO PERCENTIL
Paso 1: Ordenar los datos de manera ascendente.
p
Paso 2: Calculamos el Lp (L  (n) 100
p %)

Paso 3: a) Si Lp no es entero, se redondea. El valor


entero inmediato mayor que Lp, indica la posición
del p-ésimo percentil.
b) Si Lp es entero, el p-ésimo persentil es el
promedio de los valores de los datos ubicados en
los lugares i e i+1
Por Ejemplo:
Si tenemos 15 datos ordenados y queremos localizar el
primer cuartil (percentil 25) según la formula este
estará ubicado en la posición 4 (por redondeo) y el
tercer cuartil (percentil 75) estará ubicado en la
posición 12 (por redondeo)
Si tenemos 20 datos ordenados el primer cuartil
estará en la posición intermedia entre el 5° y el 6° dato
es decir si el 5° dato fuese 36 y el 6° 41 el P25=Q1=38,5
La localización o tendencia central de un
conjunto de datos no necesariamente proporciona
información suficiente para describirlos
adecuadamente. Debido a que no todos los
valores son semejantes, la variación entre ellos se
considera importante. Se puede decir que un
conjunto de datos tiene una dispersión reducida si
los mismos se aglomeran estrechamente en torno
a alguna medida de localización de interés y se
dice que tiene una dispersión grande si se
esparcen ampliamente alrededor de alguna
medida de localización de interés.
MEDIDA DE DISPERSIÓN
Las medidas descriptivas más comunes de dispersión
son:
Recorrido o Rango
Desviación media
Recorrido semi-intercuartílico
Recorrido del percentil 10-90
Desviación estándar
RECORRIDO O RANGO
El recorrido de un conjunto de números es la diferencia
entre el número mayor y menor del conjunto.

r  xmax  xmin
Ejemplo: El recorrido de un conjunto 2, 3, 3, 5, 5, 5, 8, 10 y 12 es 12 – 2 = 10.
RECORRIDO O RANGO
Aunque es una medida muy fácil de calcular, ignora
toda la información de la muestra entre las
observaciones más grande y más pequeña. Sin
embargo, vale la pena resaltar que el rango se utiliza
mucho en aplicaciones estadísticas al control de
calidad, donde lo común es emplear muestras con
tamaños n = 4 o 5, ya que en estos casos la pérdida de
información no se considera relevante.
RECORRIDO O RANGO
En general, se desea una medida de variabilidad que
dependa de todas las observaciones y no sólo de unas
pocas; así que parece razonable medir la variación en
términos de las desviaciones relativas a alguna
medida de localización (generalmente esta medida es
la media)
DESVIACIÓN MEDIA O DESVIACIÓN
PROMEDIO O DESVIACIÓN ABSOLUTA
La desviación media de un conjunto de N números X1, X2,
X3, …, XN se define por:

Donde:
, es el valor absoluto de la desviación de Xj con respecto a (El valor
absoluto de un número es el número sin el signo asociado y se indica por las
dos líneas verticales colocadas junto al número.

Ejemplo: Halle la desviación media del conjunto de números 2, 3, 6, 8 y 11

Media aritmética = 6
DESVIACIÓN MEDIA O DESVIACIÓN
PROMEDIO O DESVIACIÓN ABSOLUTA
Si X1, X2, X3, …, XK aparecen con frecuencias f1, f2, f3, …,fK
respectivamente, la desviación media puede ser escrita
como:

Donde:

. Esta norma es útil para datos agrupados donde las Xj representan los
puntos medios y las fj son las correspondientes frecuencias de clase.
Ocasionalmente la desviación media se define en términos de
desviaciones absolutas de la mediana o de otro promedio en vez de la
media. Una interesante propiedad de la suma es que es un mínimo
cuando a es la mediana, es decir, la desviación media sobre la mediana es un
mínimo.
EJEMPLO DE DESVIACIÓN MEDIA

=12.99
Ej. 6
RECORRIDO SEMI-INTERCUARTÍLICO O
DESVIACIÓN CUARTÍLICA
La desviación cuartílica de un conjunto de datos se define
por:
EJEMPLO RECORRIDO SEMI-INTERCUARTÍLICO O
DESVIACIÓN CUARTÍLICA
EJEMPLO RECORRIDO SEMI-INTERCUARTÍLICO O
DESVIACIÓN CUARTÍLICA
Ej. 8

RECORRIDO DEL PERCENTIL 10-90


El recorrido del percentil 10-90 de un conjunto de datos se define por:

Recorrido del percentil 10-90 = P90 – P10

Donde: P10 y P90 son los percentiles 10mo y 90mo de los datos (ver Problema 8). El recorrido del semi-percentílico 10-90, ½(P90 – P10), puede emplearse también pero no es comúnmente usado.
RECORRIDO DEL PERCENTIL 10-90
DESVIACIÓN ESTÁNDAR
La desviación estándar de un conjunto de N números X1,
X2, X3, …, XN se denota por s y se calcula como:

Ec. 5

Para el conjunto de datos x1, x2,….,xn . Las diferencias


( x1  x ), ( x2  x ),....., ( xn  x )
determinan las desviaciones de la media.

Dado que la suma de estas desviaciones es cero, se utiliza como medida


de variabilidad el promedio de los cuadrados de tales desviaciones.
DESVIACIÓN ESTÁNDAR
Si X1, X2, X3, …, XKaparecen con frecuencias f1, f2, f3, …, fK
respectivamente, la desviación estándar puede
determinarse como:

Ec. 6

Donde:

Algunas veces la desviación estándar para los datos de una muestra se


define con (N - 1) reemplazando a N en los denominadores de las ecuaciones
5 y 6 porque el valor resultante representa una estimación mejor de la desviación
estándar de una población de la cual se toma la muestra. Para los valores
grandes de N (por ejemplo N > 30) prácticamente no hay diferencia entre las
dos definiciones.
VARIANZA
La varianza de un conjunto de datos se define como el
cuadrado de la desviación estándar y se representa por
s2 en las ecuaciones (5) y (6).
La desviación estándar para una muestra se representa
por s, mientras que para la población se representa por
. Así, s2 y 2 representarían la varianza muestral y la
varianza poblacional respectivamente.

Sin embargo, como sólo hay n-1 desviaciones independiente se


conviene en dividir entre n-1, es decir,
n

 i
( x  x ) 2

S2  i 1
n 1
Ej.27

PROPIEDADES DE LA DESVIACIÓN
ESTANDAR
1. La desviación estándar puede ser definida como
 Donde a es cualquier promedio además de la media aritmética. De todas
esas desviaciones estándar la mínima es aquella en que , en virtud de la
propiedad (2) de la media. Esta propiedad ofrece una importante razón para
definir la desviación estándar del modo anterior.

2. Para las distribuciones normales resulta que:


 El 68.27 % de los casos están incluidos entre y (es decir, una
desviación estándar a cada lado de la media)
 El 95.45 % de los casos están incluidos entre y (es decir, dos
desviación estándar a cada lado de la media)
 El 99.73 % de los casos están incluidos entre y (es decir, tres
desviación estándar a cada lado de la media)
PROPIEDADES DE LA DESVIACIÓN

ESTANDAR
Lo anterior puede verse en la Figura 1 para una distribución
moderadamente asimétrica o simétrica.

Figura 1. Ubicación de los casos para la distribución normal teniendo


en cuenta la media y la desviación estándar.
3. Supongamos que dos conjuntos consistentes en N1 y N2 números (o dos
distribuciones de frecuencia con las frecuencias totales N1 y N2) tienen
varianzas dadas por s21 y s22 respectivamente y la misma media . Entonces la
varianza combinada o completa de ambos conjuntos (o ambas distribuciones
de frecuencia) está dada por:
RELACIONES EMPÍRICAS ENTRE LAS
MEDIDAS DE DISPERSIÓN
Para las distribuciones moderadamente asimétricas
tenemos las fórmulas empíricas:
Desviación Media = 4/5 (Desviación Estándar)
Recorrido Semi-intercuartílico = 2/3 (Desviación
Estándar)

Estas son consecuencias del hecho de que para la


distribución normal hallamos que la desviación media y
el recorrido Semi-intercuartílico son iguales a 0.7979 y
0.6745 veces la desviación estándar respectivamente.
DISPERSIÓN ABSOLUTA Y RELATIVA.
COEFICIENTE DE VARIACIÓN
La variación real o dispersión determinada a partir de
la desviación estándar u otra medida de dispersión se
llama dispersión absoluta. Sin embargo, una
variación o dispersión de 10 pulgadas al medir una
distancia de 1000 pies tiene un efecto muy distinto que
la misma variación de 10 pulgadas en una distancia de
20 pies. Una medida de este efecto es ofrecida por la
dispersión relativa definida por:
DISPERSIÓN ABSOLUTA Y RELATIVA.
COEFICIENTE DE VARIACIÓN
Si la dispersión absoluta es la desviación estándar s y el
promedio es la media , la dispersión relativa es llamada
Coeficiente de variación o Coeficiente de
dispersión dado por:

y generalmente se expresa como un porcentaje

Este coeficiente mide la dispersión relativa de la muestra y su ventaja es


que resulta independiente de la unidad de medida o cambio de escala; por
tanto, permite establecer una comparación entre las dispersiones de dos
muestras que vengan expresadas en distintas unidades.
El problema que tiene este coeficiente es que pierde representatividad
cuando la media se acerca a cero.
EJEMPLO DE COEFICIENTE DE
VARIACIÓN
Un fabricante de tubos de televisión produce dos tipos de
tubos, A y B, que tienen vidas medias respectivas
¯xA=1495 horas y ¯xB=1875 horas, y desviación típica
A=280 horas y B=310. Comparar las dispersiones de las
dos poblaciones en términos absolutos y relativos.
280
CV A  *100  18.73%
1495
310
CVB  *100  16.53%
1875
Indican que, en términos relativos, la dispersión es mayor en la
población A; a pesar de que las desviaciones típicas sugieran lo
contrario.
Ej.31

VARIABLE ESTANDARIZADA.
PUNTUACIONES ESTANDAR

La variable

que mide la desviación de la media en unidades de la desviación estándar


es llamada variable estandarizada y es una cantidad sin dimensión (es
decir, es independiente de las unidades usadas).

Si las desviaciones de la media vienen dadas en unidades de la desviación


estándar, se dice que están expresadas en unidades o puntuaciones
estándar. Estas son de gran valor al comparar distribuciones
EJEMPLO DE VARIABLE
ESTANDARIZADA
Un estudiante obtuvo 84 puntos en el examen final
de matemáticas, en el que la nota media fue 76 y la
desviación típica 10. En el examen final de física
obtuvo 90 puntos, siendo la media 82 y la desviación
típica 16. Aunque en las dos asignaturas estuvo muy
por encima de la media, ¿en cuál sobresalió más?

Solución: Tipificando las variables para poder


compararlas se obtiene:
EJEMPLO DE VARIABLE
ESTANDARIZADA
84  76 90  82
zM   0.8 F  0.5
10 16

y se observa que la nota tipificada (M) de matemáticas


es mejor que la de física (F) debido a que se encuentra
más alejada de la media en términos de desviación
típica. Es decir, la nota de matemáticas se encuentra a
0.8 desviaciones típicas por encima de la nota media y
por tanto es superior a la nota de física que sólo supera
a la nota media en 0.5 desviaciones típicas.
MEDIDAS DE ASOCIACIÓN Y
APLANAMIENTO
Las características de la forma que presenta la
representación gráfica permite clasificar las
distribuciones de frecuencias.
Dentro de estas medidas se encuentran:
Asimetría
Curtosis

Las cuales proporcionan coeficientes que nos


permitan comparar dos distribuciones.
MOMENTOS
Los momentos son medidas descriptivas que resultan muy útiles para
calcular determinados parámetros. Estas medidas generalizan las
definiciones de media aritmética y, como se verá, forman parte de la
definición de algunos coeficientes.
Si X1, X2, …, XN son los valores N tomados por una variable
X, definimos la cantidad:
Ec. 1

Llamada el r-ésimo momento. El primer momento con r = 1 es la media


aritmética . (r es la orden del momento, 1, 2, 3, etc)

El r-ésimo momento con respecto a la media se define como:

Ec. 2

Si r = 1, m1 = 0 tiende a la media aritmética Si r = 2, m2 = s2, la varianza.


MOMENTOS
El r-ésimo momento con respecto a cualquier origen A
se define como:
Ec. 3

Donde d = X – A son las desviaciones de X con respecto a A.

Si A = 0, la ecuación (3) se reduce a (1). Por esta razón la ecuación (1) se


denomina con frecuencia el r-ésimo momento con respecto a cero.
MOMENTOS PARA DATOS
AGRUPADOS
Si X1, X2, …, XK aparecen con frecuencias f1, f2, …, fK
respectivamente, los momentos anteriores están dados
por: Ec. 4

Ec. 5

Ec. 6

Donde . Las ecuaciones (4), (5) y (6) son adecuadas para calcular los
momentos de datos agrupados.
EJEMPLO DE CÁLCULO DE MOMENTOS
Como estudio preliminar a una encuesta de tráfico,
fue necesario recabar cierta información acerca del
número de ocupantes en los automóviles, que
entraban a una población el domingo por la tarde;
para ello se contó el número de ocupantes en 40
automóviles. Los resultados fueron:
1, 3, 2, 2, 3, 1, 1, 2, 2, 1, 1, 4, 3, 1, 3, 2, 3, 2, 2, 2,
1, 2, 5, 1, 3, 1, 2, 1, 3, 1, 4, 1, 1, 3, 4, 2, 2, 1, 1, 4
Calcular los momentos ordinario y central de orden 4
de los datos.
EJEMPLO DE CÁLCULO DE MOMENTOS
Solución: Aplicamos directamente la fórmula para
calcular el momento ordinario


(14
*15)  ( 2 4
*12)  (3 4
* 8)  ( 4 4
* 4  5 4
*1) 2504
X4    62.6
40 40
y sabiendo que la media es 2.1 calculamos el momento
central

(1  2.1) 4 *15  (2  2.1) 4 *12  (3  2.1) 4 * 8  (4  2.1) 4 * 4  (5  2.1) 4 *1 150.068


m4    3.752
40 40
ASIMETRÍA
La asimetría es el grado de desviación de la simetría, de una
distribución.
Si la curva de frecuencia (polígono de frecuencia suavizado)
de una distribución tiene una cola más larga a la derecha del
máximo central que a la izquierda, se dice que la distribución
es asimétrica a la derecha o que tiene asimetría positiva.
Si ocurre lo contrario, se dice que es asimétrica a la izquierda
o que tiene asimetría negativa.
ASIMETRÍA
Para las distribuciones asimétricas la media tiende a estar
situada al mismo lado de la moda como la cola más larga.
Así una medida de la asimetría viene dada por la
diferencia (Media – Moda).
Esta puede hacerse adimensional dividiendo por una
medida de dispersión, tal como la desviación estándar, lo
que lleva a la definición:
Coeficiente de asimetría
de Pearson

Asimetría > 0 Asimetría a la derecha o positiva


Asimetría = 0 Simetría
Asimetría < 0 Asimetría a la izquierda o negativa
EJEMPLO DE ASIMETRÍA
Utilizando los datos del ejemplo de momentos, calcula
el coeficiente de asimetría de Pearson, si se conoce que
la media es de 2.1, la moda de 1 y la varianza de 1.19.

2.1  1
Asimetría   0.92  0
1.19

lo que indica que la distribución


es asimétrica a la derecha.

Curva asimétrica a la derecha


(asimetría positiva)
ASIMETRÍA
Para evitar el uso de la moda, podemos emplear la
ecuación empírica (Media – Moda = 3(Media - Mediana)
vista anteriormente y definir:

Las dos medidas anteriores se llaman coeficiente de asimetría primero y


segundo de Pearson respectivamente.
ASIMETRÍA
Otras medidas de asimetría definidas en términos de
cuartiles y percentiles son las siguientes:

El coeficiente de asimetría percentílico:


ASIMETRÍA
Una importante medida de asimetría es la que hace
uso del tercer momento alrededor de la media en
forma adimensional y viene dada por:
ASIMETRÍA
Otro coeficiente para medir el nivel de asimetría es el llamado
Coeficiente de Asimetría de Fisher, que viene definido:

n
(1 / n) ( xi  x )3 En otras palabras es la relación
entre el momento de orden 3 y la
g1  i 1
3
desviación estándar
s
n, total de datos
xi, cada dato del conjunto
X media, la media aritmética
s desviación típica o estándar
ASIMETRÍA
Los resultados pueden ser los siguientes:
g1 = 0 (distribución simétrica; existe la misma
concentración de valores a la derecha y a la
izquierda de la media)
g1 > 0 (distribución asimétrica positiva; existe
mayor concentración de valores a la derecha de la
media que a su izquierda)
g1 < 0 (distribución asimétrica negativa; existe
mayor concentración de valores a la izquierda de
la media que a su derecha)
CURTOSIS
La curtosis es el grado de esbeltez de una
distribución, tomado por lo general en relación a una
distribución normal y analiza el grado de
concentración que presentan los datos alrededor de la
zona central de la distribución.
TIPOS DE DISTRIBUCIONES SEGÚN EL
GRADO DE CURTOSIS
Una distribución que tiene un pico relativamente
alto, como la curva de la Figura (a) se llama
leptocúrtica, mientras que la curva de la Figura (b)
que es achatada se llama platicúrtica. La distribución
normal, Figura (c) que no es muy apuntada ni muy
achatada se llama mesocúrtica.
DEFINICIÓN DE LAS DISTRIBUCIONES
SEGÚN EL GRADO DE CURTOSIS
Distribución mesocúrtica: presenta un grado
de concentración medio alrededor de los valores
centrales de la variable (el mismo que presenta
una distribución normal).
Distribución leptocúrtica: presenta un elevado
grado de concentración alrededor de los valores
centrales de la variable.
Distribución platicúrtica: presenta un reducido
grado de concentración alrededor de los valores
centrales de la variable.
COEFICIENTE DE CURTOSIS
Una medida de curtosis usa el cuarto momento con
respecto a la media expresada en forma adimensional y
viene dada por:

que con frecuencia se designa como b2. Para la distribución normal, b2 = a4


= 3. Por esta razón la curtosis algunas veces se define por (b2 – 3) que es
positiva para una distribución leptocúrtica, negativa para una platicúrtica y
nula para una distribución normal.
COEFICIENTE DE CURTOSIS
Teniendo en cuenta la suposición el coeficiente se
calcularía como:
(Relación entre el momento de orden 4 y la
desviación estándar o típica
n
(1 / n) ( xi  x ) 4
g2  i 1
4
3
s
Los resultados pueden ser los siguientes:
g2 = 0 (distribución mesocúrtica).
g2 > 0 (distribución leptocúrtica).
g2 < 0 (distribución platicúrtica).
COEFICIENTE DE CURTOSIS
Otra medida de curtosis que también se usa está
basada en los cuartiles y percentiles a la vez y está
dada por:

Donde Q = ½(Q3 – Q1) es el recorrido semi-intercuartílico. Nos referimos a


este como el coeficiente de curtosis percentílico. Para la distribución normal
este tienen el valor de 0.263.

S-ar putea să vă placă și