Sunteți pe pagina 1din 12

Estadística en Analítica

Documento de trabajo
ANALISIS UNIVARIADO

Jesús Carrillo Rodríguez, PhD

México, Marzo de 2019


Introducción

El analista a menudo se pregunta qué otras medidas puede proponer para conocer el
comportamiento de un conjunto de datos. El análisis descriptivo considera, adicionalmente,
el cálculo de otro tipo de medidas que posibiliten el resumen o la representación resumida de
un conjunto de datos. Interesa, en todo caso, estudiar la concentración y/o la dispersión de
los datos. La estadística, por tanto, propone cierto tipo de medidas denominadas medidas de
tendencia central o de variabilidad, en donde se encuentran la media aritmética, la mediana,
la moda, la varianza (de distintos tipos) y las reconocidas desviaciones. Este tipo de medidas
añade posibilidades e informan cómo se agrupan y dispersan los datos, también dicen sobre
el patrón que presenta su distribución.

1. Medidas de tendencia central

Media aritmética

Se considera la medida más común o más popular en el análisis cuantitativo. Representa o


sirve como “punto de equilibrio” del conjunto de datos y es de fácil cálculo y comprensión.
Se calcula sumando todos los valores X del conjunto de datos y dividiendo el resultado por
el número de valores considerados N. Regularmente, las personas hablan de esta medida
como el promedio de una variable. ¿Cuál es la edad promedio de los alumnos de un curso?
¿Cuál es el ingreso medio de las personas en un determinado cargo? Son interrogantes que
se plantean usualmente antes de aplicar este tipo de medidas. La fórmula para su cálculo es:

X 
X 1  X 2  ...X n

X i

N N

El símbolo Σ debe leerse como sigue: súmense todas las puntuaciones X desde la i hasta la
N, esto es, desde la primera a la última.

Propiedades

2
La media aritmética contiene un conjunto de propiedades que deben ser observadas por el
analista, a fin de dar una correcta interpretación de su significado. Ellas son:

 Si se suman, multiplican o dividen cada una de las observaciones por una cantidad
constante, la nueva media obtenida, es igual a la media original, una vez descontado
el efecto de la suma, la multiplicación, etc.
 Si a cada observación se le resta la media de la serie, la nueva media obtenida será 0.

Ventajas

La media aritmética como medida de un conjunto de datos goza de popularidad y en


consecuencia se invoca de manera regular en distintos campos de la vida diaria. Debe
reconocerse que tiene algunas ventajas ya que es fácil de entender y calcular; es eficiente
porque hace uso de todos los datos disponibles y en el estudio de los fenómenos naturales,
económicos y sociales es el más conocido y popular de los promedios.

En suma, es la medida de tendencia central usada en la inferencia estadística y en la mayoría


de los test estadísticos, procedimientos que gozan de notoria distinción entre los estudios
cuando se dispone de información expresada en números, principalmente.

Desventajas

A pesar de las anteriores cualidades y ventajas es necesario advertir que dicha medida tiene
que considerarse con cierta prudencia pues puede conducir a falsas consideraciones. La
principal desventaja es que la media aritmética puede afectarse por valores extremos, que la
hagan perder valor como medida de tendencia central. Si una persona consume semanalmente
un pollo y otro no come nada, la media aritmética nos diría que en promedio las personas
comerían medio pollo durante ese periodo, lo cual no es cierto. Se recomienda cautela con
este término. De igual manera en ciertos casos puede no representar un valor observable, al
tratarse de medidas discretas (recurso del redondeo)

3
Ejemplo: Suponga que se registra el tiempo (en minutos) que se lleva en arreglarse, desde
que se levanta hasta que sale de la casa. A lo largo de 10 días consecutivos, usted obtiene los
siguientes datos:

Día 1 2 3 4 5 6 7 8 9 10
to (minutos) 39 29 43 52 39 44 40 31 44 35

Se quiere calcular el tiempo promedio necesario para salir de casa.

39  29  43  52  39  44  40  31  44  35  396
x 
10 10

Compare lo anterior con el caso en que el valor del cuarto día fuera de 102 minutos.

Mediana

Considerado otro valor representativo en el análisis de datos. De manera simple se dice que
es el valor medio de los dos centrales. Es el valor que equidista de ambos extremos de la
distribución, cuando está ordenada en forma ascendente o descendente. Una de las virtudes
de esta medida es que no se ve afectada por valores extremos. Para su cálculo basta con
ordenar de mayor a menor, o viceversa, la serie original y contar hasta encontrar el que ocupa
el lugar central. Es conveniente considerar dos posibles situaciones al respecto:

 Si el número de casos (o frecuencia total de una distribución) es un número impar, la


mediana es el valor colocado en medio.
 Si en el conjunto de datos hay un número par de valores, entonces la mediana es el
promedio de los dos valores colocados en medio.

Para la secuencia de tiempos observados, desde que se levanta y sale de casa del ejemplo
anterior, se trata de un número par de observaciones.

4
Día 1 2 3 4 5 6 7 8 9 10

to (min) 39 29 43 52 39 44 40 31 44 35

Al ordenar los valores se tiene:

29 31 35 39 39 40 43 44 44 52

Para calcular la mediana, se consideran los dos números centrales, que dividen la secuencia
en dos partes iguales, estos son 39 y 40, se suman y se promedian obteniendo la mediana:
39.5.

Moda

Si en la vida cotidiana, se dice que algo está de moda, estamos afirmando que es lo que más
se usa, se observa o tiene mayor regularidad. La moda, por tanto, se define como el dato que
aparece con mayor frecuencia en una distribución. Si existe uno solo se dice que la
distribución es uni-modal; si hay dos con la misma frecuencia máxima, la distribución es
bimodal. Más de dos multimodal.

Se tiene el siguiente arreglo ordenado de datos:

0 0 1 2 2 3 3 3 3 3 4 6 7 26

Como el tres aparece cinco veces, más que ningún otro valor, la moda es tres.

Datos agrupados

A menudo los datos son reportados en términos de observaciones agrupadas y, en


consecuencia, el cálculo de la media cambia. Considere el siguiente ejemplo:

Edad Frecuencia

5
51-60 3
41-50 10
31-40 15
21-30 11
11-20 5

Para calcular la media, se debe determinar el punto medio para cada grupo de observaciones,
sumando el valor mayor y el menor, y el resultad dividirlo en dos. Para el primer grupo el
punto medio será igual a: (51+60) = 111/2 = 55.5

Edad Frecuencia Punto medio (a)*(b)


(a) (b)
51-60 3 55.5 166.5
41-50 10 45.5 455.0
31-40 15 35.5 532.5
21-30 11 25.5 280.5
11-20 5 15.5 77.5
Total 44 1512

La media es el resultado de dividir la suma de la columna (a)*(b) entre el tamaño de la muestra:


1512/ 44= 34.36

Cuantiles, Deciles y Percentiles

La interpretación de las puntuaciones o los valores de las observaciones puede hacerse,


adicionalmente, a través de determinadas transformaciones de las puntuaciones individuales
directas, como puede ser un cuantil. Entre los cuantiles, los más usados son el cuartil, el decil
y el centil o percentil. Estas medidas nos indican la posición de un sujeto cuando el grupo se
ordena en cuatro, diez o cien partes. Por tanto, el cuantil es una medida que interpreta las
puntuaciones directas ordenadas, divididas en 4, 10 o 100 partes (cuartiles: Q; deciles: D; o
centiles o percentiles: C o P).

6
En consecuencia, si un grupo muestral se considera representativo de la correspondiente
población, podemos interpretar las puntuaciones utilizándolo esta regla de medida. También
nos puede ayudar a la interpretación conocer cuál es la puntuación representativa del grupo
(media, mediana, moda) o el grado de dispersión (puntuaciones más o menos homogéneas,
concentradas en el centro o en los extremos…). Así podemos afirmar que un sujeto está en
el Q2, esto es, entre el 25 y el 50 % de los casos; en el D6, en el 60 % superior, o en el P81,
dejando por debajo de sí 81 casos de cada 100. O bien, estar en el cuartil 1 (Q1) es encontrarse
entre el 25 % inferior del grupo; hallarse en el decil 7 (D7) equivale a superar al 70 % del
grupo, y obtener una puntuación equivalente al centil o percentil 78 (C78) viene a ser superar
al 78 % del grupo.

Gorgas, Cardiel y Zamorano (2011) proponen generalizar el concepto de mediana mediante


los cuartiles. La Mediana, remarca el citado autor, es el valor de la variable que divide a la
muestra (ordenada) en dos mitades iguales. Los cuartiles se definen, entonces, como los tres
valores que dividen la muestra en cuatro partes iguales. Así, el primer cuartil Q1/4 será la
medida tal que el 25% de los datos sean inferiores a su valor y el 75% de los datos sean
superiores. El segundo cuartil Q1/2 coincide con la mediana, mientras que el tercer cuartil
Q3/4 marcará el valor tal que las tres cuartas partes de las observaciones sean inferiores a él
y una cuarta parte sea superior. La forma de calcular los cuartiles es igual a la ya vista para
la mediana pero sustituyendo N/2 por N/4 y 3N/4 para Q1/4 y Q3/4 respectivamente. Un
ejemplo ayuda a entender lo expuesto. Veamos:

Ejemplo: El número de hijos de una muestra de 20 familias que es:

2 1 1 3 1 2 5 1 2 3

4 2 3 2 1 4 2 3 2 1

El rango observado de la distribución es 5-1= 4

La ordenación de los datos se muestra a continuación

7
1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 4 4 5

50%

La media se calcula como N/2= 10  Q1/2 = Me = 2

N/4 = 20/4 = 5  Q1/4 = 1

25%

1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 4 4 5

75%

3 × N/4 = 15  Q3/4 = 3

De la misma forma se pueden definir los deciles como aquellos valores de la variable que
dividen la muestra, ordenada, en 10 partes iguales. La forma de calcular deciles y percentiles
es igual a la de la mediana y los cuartiles, sustituyendo N/2 por la fracción del número total
de datos correspondiente. Evidentemente algunos valores de cuartiles, deciles y centiles
coinciden, cumpliéndose, por ejemplo:

P50 = D5 = Q1/2 = Me

2. Medidas de dispersión o variabilidad

Un tipo de medidas representativas diferente del anterior (medidas de posición o tendencia


central) es el denominado de dispersión o variabilidad. Estas medidas informan sobre el
comportamiento de los datos respecto de una referencia, regularmente la media aritmética.
Estas medidas ofrecen una idea del grado de concentración de las puntuaciones directas

8
(observaciones) en torno a la media, lo que tiene evidentes aplicaciones para la práctica
profesional.

Para apreciar la magnitud de la dispersión contamos con medidas específicas, tales como la
desviación mediana, la desviación media, la desviación típica (estándar) o la varianza. Estas
medidas tienen su uso más frecuente en la denominada estadística inferencial. Una utilidad
muy común e importante es la de interpretar una puntuación individual en el marco de una
distribución normal (Campana de Gauss).

La medida más básica para conocer la dispersión de un conjunto de datos es el rango, que de
claramente da una idea de la dispersión. El rango o recorrido de las puntuaciones
(observaciones) es la diferencia entre los valores extremos. Permite de manera simple
conocer la dimensión entre los valores extremos.

Otras medidas más elaboradas permiten medir la dispersión de un conjunto de datos tomando
como referencia un punto determinado. A este respecto se conoce la desviación mediana, que
es la media de las desviaciones de las observaciones con respecto a la mediana del grupo. En
el caso de la desviación media se trata, también, de la media de las desviaciones tomando
como referencia la media aritmética. La varianza (S2) es una medida que expresa el grado de
dispersión “promedio” de las observaciones de una distribución con respecto a la media. Es
la medida de dispersión más utilizada. Para su cálculo se utiliza la siguiente ecuación:

(X i  X )2
S2  i 1
n 1

Se trata de calcular el promedio de las distancias acumuladas cuadráticas a partir de la


diferencia de cada observación respecto de la media aritmética. Es importante notar que las
desviaciones con respecto a la media (Xi – Media) se elevan al cuadrado a fin de evitar que
la suma sea 0. Pues bien: la varianza (S2) es la media de las desviaciones de las puntuaciones

9
individuales con respecto a la media, elevadas al cuadrado. Por su parte, la desviación típica
o desviación estándar (S) es la raíz cuadrada de la anterior.

n
 ( X i  X )2
S  S2  i 1
n 1

Procedimiento

Al considerar la diferencia entre cada uno de los valores y la media y luego sumarlas,
descubrirá que tales diferencias sumarán CERO en todo conjunto de datos. Alternativamente,
elevaría al cuadrado la diferencia entre cada uno de los valores y la media y después sumarlas,
(suma de cuadrados). La suma de cuadrados (SS) luego se divide entre el número de valores
menos 1 (para datos de la muestra) con el fin de obtener una varianza de la muestra (S 2).

Tomando como base los datos anteriores calcular la varianza de los datos observados.

39 29 43 52 39 44 40 31 44 35

La media aritmética de esta serie es:

X 
X 1  X 2  ...X n

X i

N N
39 + 29 + 43 + 52 + 39 + 44 + 40 + 31 + 44 + 35 396
𝑋= = = 39.6
10 10

Ahora usando el método tabular, continuamos desarrollando la ecuación de la varianza que


indica establecer la diferencia de cada observación respecto de su media aritmética y dicha
diferencia elevarla al cuadrado.

Minutos Media X-Media (X-Media)2

10
39 39.6 -0.6 0.36

29 39.6 -10.6 112.36

43 39.6 3.4 11.56

52 39.6 12.4 153.76

39 39.6 -0.6 0.36

44 39.6 4.4 19.36

40 39.6 0.4 0.16

31 39.6 -8.6 73.96

44 39.6 4.4 19.36

35 39.6 -4.6 21.16

412.4

Varianza 45,7777778

D Standard 6,76921134

Media y desviación estándar aportan información complementaria sobre una distribución.


Como ya se advirtió, estas medidas tienen su uso más frecuente en la denominada estadística
inferencial. Una utilidad muy común e importante es la de interpretar una puntuación
individual en el marco de una distribución normal (Campana de Gauss). Al suponer que una
distribución empírica de datos se acomoda al modelo normal, se puede interpretar la
puntuación (observación) de un elemento cualquiera de la muestra, viendo cuántas unidades
de S se aparta de la media del grupo. Esa puntuación individual, basada en S, se conoce como
puntuación típica, (z), e indica en cuántas desviaciones típicas (estándar) se aparta un sujeto
de la media del grupo.
Curva normal de probabilidades o Campana de Gauss
La siguiente figura es bien reconocida por los estudiantes de estadística y allí se puede
apreciar la famosa curva normal de probabilidades que cualquier puntuación individual (Xi)
ocupa un lugar en la curva, por encima o por debajo de la ordenada de la media (línea roja
vertical), que la divide en dos partes simétricas. Las puntuaciones cercanas a la media se
encuentran a su derecha o a su izquierda, según sean mayores o menores que ella. Una

11
puntuación Xi que se aparte UNA desviación estándar por encima o por debajo de la media
se situará en la ordenada correspondiente del gráfico (± σ).

Fuente: Tomado de Pérez J. R (2012)

A lo largo de esta sección se presentaron varios estadísticos descriptivos que principalmente


sirven para resumir la localización y la variabilidad de un conjunto de datos. A diferencia de
los procedimientos gráficos y tabulares presentados anteriormente las medidas de tendencia
central y variabilidad estudiadas resumen los datos con valores numéricos. Cuando dichos
valores numéricos se obtienen de una muestra, son llamados estadísticos muestrales, cuando
se obtienen de una población, son parámetros poblacionales.

12

S-ar putea să vă placă și