Documente Academic
Documente Profesional
Documente Cultură
Documento de trabajo
ANALISIS UNIVARIADO
El analista a menudo se pregunta qué otras medidas puede proponer para conocer el
comportamiento de un conjunto de datos. El análisis descriptivo considera, adicionalmente,
el cálculo de otro tipo de medidas que posibiliten el resumen o la representación resumida de
un conjunto de datos. Interesa, en todo caso, estudiar la concentración y/o la dispersión de
los datos. La estadística, por tanto, propone cierto tipo de medidas denominadas medidas de
tendencia central o de variabilidad, en donde se encuentran la media aritmética, la mediana,
la moda, la varianza (de distintos tipos) y las reconocidas desviaciones. Este tipo de medidas
añade posibilidades e informan cómo se agrupan y dispersan los datos, también dicen sobre
el patrón que presenta su distribución.
Media aritmética
X
X 1 X 2 ...X n
X i
N N
El símbolo Σ debe leerse como sigue: súmense todas las puntuaciones X desde la i hasta la
N, esto es, desde la primera a la última.
Propiedades
2
La media aritmética contiene un conjunto de propiedades que deben ser observadas por el
analista, a fin de dar una correcta interpretación de su significado. Ellas son:
Si se suman, multiplican o dividen cada una de las observaciones por una cantidad
constante, la nueva media obtenida, es igual a la media original, una vez descontado
el efecto de la suma, la multiplicación, etc.
Si a cada observación se le resta la media de la serie, la nueva media obtenida será 0.
Ventajas
Desventajas
A pesar de las anteriores cualidades y ventajas es necesario advertir que dicha medida tiene
que considerarse con cierta prudencia pues puede conducir a falsas consideraciones. La
principal desventaja es que la media aritmética puede afectarse por valores extremos, que la
hagan perder valor como medida de tendencia central. Si una persona consume semanalmente
un pollo y otro no come nada, la media aritmética nos diría que en promedio las personas
comerían medio pollo durante ese periodo, lo cual no es cierto. Se recomienda cautela con
este término. De igual manera en ciertos casos puede no representar un valor observable, al
tratarse de medidas discretas (recurso del redondeo)
3
Ejemplo: Suponga que se registra el tiempo (en minutos) que se lleva en arreglarse, desde
que se levanta hasta que sale de la casa. A lo largo de 10 días consecutivos, usted obtiene los
siguientes datos:
Día 1 2 3 4 5 6 7 8 9 10
to (minutos) 39 29 43 52 39 44 40 31 44 35
39 29 43 52 39 44 40 31 44 35 396
x
10 10
Compare lo anterior con el caso en que el valor del cuarto día fuera de 102 minutos.
Mediana
Considerado otro valor representativo en el análisis de datos. De manera simple se dice que
es el valor medio de los dos centrales. Es el valor que equidista de ambos extremos de la
distribución, cuando está ordenada en forma ascendente o descendente. Una de las virtudes
de esta medida es que no se ve afectada por valores extremos. Para su cálculo basta con
ordenar de mayor a menor, o viceversa, la serie original y contar hasta encontrar el que ocupa
el lugar central. Es conveniente considerar dos posibles situaciones al respecto:
Para la secuencia de tiempos observados, desde que se levanta y sale de casa del ejemplo
anterior, se trata de un número par de observaciones.
4
Día 1 2 3 4 5 6 7 8 9 10
to (min) 39 29 43 52 39 44 40 31 44 35
29 31 35 39 39 40 43 44 44 52
Para calcular la mediana, se consideran los dos números centrales, que dividen la secuencia
en dos partes iguales, estos son 39 y 40, se suman y se promedian obteniendo la mediana:
39.5.
Moda
Si en la vida cotidiana, se dice que algo está de moda, estamos afirmando que es lo que más
se usa, se observa o tiene mayor regularidad. La moda, por tanto, se define como el dato que
aparece con mayor frecuencia en una distribución. Si existe uno solo se dice que la
distribución es uni-modal; si hay dos con la misma frecuencia máxima, la distribución es
bimodal. Más de dos multimodal.
0 0 1 2 2 3 3 3 3 3 4 6 7 26
Como el tres aparece cinco veces, más que ningún otro valor, la moda es tres.
Datos agrupados
Edad Frecuencia
5
51-60 3
41-50 10
31-40 15
21-30 11
11-20 5
Para calcular la media, se debe determinar el punto medio para cada grupo de observaciones,
sumando el valor mayor y el menor, y el resultad dividirlo en dos. Para el primer grupo el
punto medio será igual a: (51+60) = 111/2 = 55.5
6
En consecuencia, si un grupo muestral se considera representativo de la correspondiente
población, podemos interpretar las puntuaciones utilizándolo esta regla de medida. También
nos puede ayudar a la interpretación conocer cuál es la puntuación representativa del grupo
(media, mediana, moda) o el grado de dispersión (puntuaciones más o menos homogéneas,
concentradas en el centro o en los extremos…). Así podemos afirmar que un sujeto está en
el Q2, esto es, entre el 25 y el 50 % de los casos; en el D6, en el 60 % superior, o en el P81,
dejando por debajo de sí 81 casos de cada 100. O bien, estar en el cuartil 1 (Q1) es encontrarse
entre el 25 % inferior del grupo; hallarse en el decil 7 (D7) equivale a superar al 70 % del
grupo, y obtener una puntuación equivalente al centil o percentil 78 (C78) viene a ser superar
al 78 % del grupo.
2 1 1 3 1 2 5 1 2 3
4 2 3 2 1 4 2 3 2 1
7
1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 4 4 5
50%
25%
1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 4 4 5
75%
3 × N/4 = 15 Q3/4 = 3
De la misma forma se pueden definir los deciles como aquellos valores de la variable que
dividen la muestra, ordenada, en 10 partes iguales. La forma de calcular deciles y percentiles
es igual a la de la mediana y los cuartiles, sustituyendo N/2 por la fracción del número total
de datos correspondiente. Evidentemente algunos valores de cuartiles, deciles y centiles
coinciden, cumpliéndose, por ejemplo:
P50 = D5 = Q1/2 = Me
8
(observaciones) en torno a la media, lo que tiene evidentes aplicaciones para la práctica
profesional.
Para apreciar la magnitud de la dispersión contamos con medidas específicas, tales como la
desviación mediana, la desviación media, la desviación típica (estándar) o la varianza. Estas
medidas tienen su uso más frecuente en la denominada estadística inferencial. Una utilidad
muy común e importante es la de interpretar una puntuación individual en el marco de una
distribución normal (Campana de Gauss).
La medida más básica para conocer la dispersión de un conjunto de datos es el rango, que de
claramente da una idea de la dispersión. El rango o recorrido de las puntuaciones
(observaciones) es la diferencia entre los valores extremos. Permite de manera simple
conocer la dimensión entre los valores extremos.
Otras medidas más elaboradas permiten medir la dispersión de un conjunto de datos tomando
como referencia un punto determinado. A este respecto se conoce la desviación mediana, que
es la media de las desviaciones de las observaciones con respecto a la mediana del grupo. En
el caso de la desviación media se trata, también, de la media de las desviaciones tomando
como referencia la media aritmética. La varianza (S2) es una medida que expresa el grado de
dispersión “promedio” de las observaciones de una distribución con respecto a la media. Es
la medida de dispersión más utilizada. Para su cálculo se utiliza la siguiente ecuación:
(X i X )2
S2 i 1
n 1
9
individuales con respecto a la media, elevadas al cuadrado. Por su parte, la desviación típica
o desviación estándar (S) es la raíz cuadrada de la anterior.
n
( X i X )2
S S2 i 1
n 1
Procedimiento
Al considerar la diferencia entre cada uno de los valores y la media y luego sumarlas,
descubrirá que tales diferencias sumarán CERO en todo conjunto de datos. Alternativamente,
elevaría al cuadrado la diferencia entre cada uno de los valores y la media y después sumarlas,
(suma de cuadrados). La suma de cuadrados (SS) luego se divide entre el número de valores
menos 1 (para datos de la muestra) con el fin de obtener una varianza de la muestra (S 2).
Tomando como base los datos anteriores calcular la varianza de los datos observados.
39 29 43 52 39 44 40 31 44 35
X
X 1 X 2 ...X n
X i
N N
39 + 29 + 43 + 52 + 39 + 44 + 40 + 31 + 44 + 35 396
𝑋= = = 39.6
10 10
10
39 39.6 -0.6 0.36
412.4
Varianza 45,7777778
D Standard 6,76921134
11
puntuación Xi que se aparte UNA desviación estándar por encima o por debajo de la media
se situará en la ordenada correspondiente del gráfico (± σ).
12