Documente Academic
Documente Profesional
Documente Cultură
1
1 , ,K .
Y la frecuencia relativa acumulada como:
I i
n
N
n
n
F
i
i
j
j
i
, , 1 ,
1
K = = =
=
Recuerde que tiene sentido hablar de valores acumulados cuando las
respuestas de la variable se han ordenado de menor a mayor, lo que slo es
posible si la variable cualitativa es de tipo ordinal.
La imagen estndar de una distribucin de frecuencias es tan sencilla
como la que se muestra en el cuadro 1. En la misma apareceran, para el total de
n observaciones, los I distintos atributos de la variable, sus frecuencias absolutas,
las frecuencias relativas y las frecuencias relativas acumuladas.
Cuadro 1
Distribucin de frecuencias
Categoras
Frecuencias
Absolutas
Frecuencias
Relativas
Frecuencias
Relativas acumuladas
A
1
n
1
n
1
/n n
1
/n
A
2
n
2
n
2
/n (n
1
+n
2
)
/n
A
I
n
I
n
I
/n (n
1
++n
I
)
/n
Ejemplo 1. Rgimen de propiedad de la vivienda. El rgimen de
propiedad de la vivienda familiar puede considerarse como una variable
cualitativa, distinguiendo tres posibles categoras: la vivienda est en alquiler, la
vivienda es de propiedad con la hipoteca pendiente o la vivienda es de
propiedad sin hipoteca. Ante una muestra concreta de familias, podemos
describir de una manera cuantitativa su relacin con la propiedad de su vivienda.
En el cuadro 2 se muestra la distribucin de frecuencias de una muestra
de 4791 declarantes de IRPF. Aunque no es estrictamente necesario suele ser
cmodo, cuando se graban los datos, convertir las categoras en etiquetas
numricas. En nuestro ejemplo se ha definido una variable denominada
vivienda que toma un valor igual a 0 cuando la vivienda es de alquiler, igual a 1
Introduccin a la Estadstica Descriptiva para Economistas
10
cuando la vivienda es de propiedad pero tiene la hipoteca an vigente y valor 2,
si la vivienda es de propiedad y sin hipoteca.
Cuadro 2
VIVIENDA POSESIN VIVIENDA HABITUAL(0,1,2)
Cum
Value Label Value Frequency Percent Percent
Alquiler 0 1764 36,8 36,8
Hipoteca vigente 1 960 20,0 56,9
Propiedad 2 2067 43,1 100,0
------- -------
Total 4791 100,0
Valid cases 4791 Missing cases 0
En el cuadro 2 aparecen los siguientes conceptos:
Los valores que toma la variable (Value). Para esta variable los valores 0, 1 y
2 reflejan las categoras de alquiler, vivienda con hipoteca vigente y vivienda
de propiedad (en la columna Value Label se muestran las etiquetas de la
variable).
La Frecuencia absoluta (Frequency). El nmero de individuos que tiene cada
una de las categoras.
La frecuencia relativa (Percent) . Definida como el cociente entre la
frecuencia absoluta y el nmero total de observaciones.
La frecuencia relativa acumulada (Cum Percent). La frecuencia relativa
acumulada se define como la suma acumulada de los porcentajes relativos
de las categoras anteriores y hasta la propia categora.
La vivienda en propiedad y ya pagada, con un 43.1% de los declarantes
tiene el mayor porcentaje de individuos. La segunda es la categora de vivienda
en alquiler, con un 36.8% de declarantes. Finalmente, la categora con menos
individuos corresponde a la de declarantes que viven en vivienda de propiedad,
an no pagada. La importancia de cada una de las categoras es fcil de percibir
cuando el nmero de categoras de la variable es muy pequeo.
Los porcentajes acumulados no tienen una interpretacin inocente
cuando se tratan variables de tipo cualitativo. La informacin de que el 56.9% de
CAPTULO I. Variables Cualitativas
11
los individuos viven en rgimen de alquiler o en vivienda propia con hipoteca
puede ser una informacin sin sentido.
La frecuencia relativa se define como la frecuencia en cada clase dividida
por el total de observaciones:
f
n
n
i
i
=
La frecuencia relativa acumulada en cada clase se define, una vez
ordenadas las respuestas desde la categora inferior a la superior, como:
n
N
n
n
F
i
i
j
j
i
= =
=1
En variables de tipo cualitativo nominal el porcentaje acumulado de
frecuencias no debe leerse de manera automtica, puesto que al no existir un
orden en las categoras, el sentido de la acumulacin puede ser confuso.
Diagrama de barras. Los resultados de la distribucin de frecuencias se
pueden acompaar de ayudas grficas que facilitan la lectura de la informacin.
El diagrama de barras representa, para cada una de las categoras de la variable
(indicada en uno de los ejes de la grfica), su frecuencia absoluta o relativa (que
se muestra en un segundo eje). Su objetivo es disponer de una visualizacin clara
y rpida de la importancia de cada una de las categoras de la variable. En la
grfica 1 se muestra el diagrama de barras correspondiente al ejemplo anterior.
El diagrama de barras representa grficamente las frecuencias (absolutas o
relativas) de la variable.
Introduccin a la Estadstica Descriptiva para Economistas
12
Grfica 1
Grfica de barras
POSESIN VIVIENDA(0=Alquiler,1=Hipoteca,2=Propiedad)
2 1 0
F
r
e
c
u
e
n
c
i
a
2200
2000
1800
1600
1400
1200
1000
800
Moda. En el Ejemplo 1 sobre el rgimen de propiedad de la vivienda uno de los
resultados obtenidos era que la categora con un porcentaje mayor de individuos
era la 2 (vivienda en propiedad sin hipoteca). Esta percepcin puntual puede
convertirse en el primer estadstico de resumen, ya que saber cul es la categora
ms frecuente de una variable dice algo del comportamiento general del grupo de
individuos. Conocer el valor con mayor frecuencia permite disponer de una
medida sinttica de cul es la tendencia general de las observaciones. A este
valor se le denomina moda de la distribucin.
La moda de una distribucin es el valor de la variable con
mayor frecuencia.
En ocasiones, las distribuciones de frecuencias se pueden caracterizar en
funcin de la moda, distinguiendo entre distribuciones con una nica moda
(distribuciones unimodales) y distribuciones en las que son dos o ms de dos los
valores que alcanzan la mxima frecuencia (distribuciones bimodales o
multimodales, respectivamente).
Es difcil encontrar distribuciones empricas que sean multimodales en el
sentido estricto en que aqu se han definido, es decir, que de manera exacta varios
valores tengan la misma frecuencia. Sin embargo, resulta interesante detectar
distribuciones en las que dos o ms valores tienen frecuencias ms altas que los
CAPTULO I. Variables Cualitativas
13
dems. En la prctica estas distribuciones se denominan tambin multimodales.
La explicacin de esta flexibilidad puede encontrarla en la comparacin de las
grficas 2 y 3. Ambas representan dos distribuciones ficticias de una variable que
tomara ocho categoras. En la primera distribucin se observa una doble moda,
con las categoras A
3
y A
7
con superior e igual frecuencias absolutas. En la
segunda distribucin la moda se encuentra en la categora A
3
, pero resulta obvio
que cualquier comentario sobre la distribucin que ignorase la categora A
7
falseara la imagen de conjunto que se desea transmitir. Hablar de una
distribucin bimodal, con una primera moda situada en la categora A
3
y una
segunda moda en la categora A
7
resultara ser un retrato ms fiel de las
observaciones.
Grfica 2
Variable Cualitativa
A8 A7 A6 A5 A4 A3 A2 A1
F
r
e
c
u
e
n
c
i
a
s
120
100
80
60
40
20
0
Grfica 3
Variable Cualitativa
A8 A7 A6 A5 A4 A3 A2 A1
F
r
e
c
u
e
n
c
i
a
s
120
100
80
60
40
20
0
Introduccin a la Estadstica Descriptiva para Economistas
14
Mediana. En el caso de variables cualitativas ordinales la moda no es el nico
estadstico con significado. Puesto que en las variables ordinales existe un
sentido de orden en sus categoras, si stas se ordenan de menos a ms, la
distribucin de frecuencias acumuladas tendr una interpretacin. La mediana es
aquella caracterstica de la distribucin que ocupa la posicin central de la
misma. Ordenados los valores de la variable (de menor a mayor), la mediana
define aquel punto que deja por debajo de s mismo el 50% de la distribucin.
Ordenados los valores de la variable (de menor a mayor) la mediana es aquel
valor de la distribucin que ocupa el valor central de la misma.
Ejemplo 2. Investigacin comercial de un nuevo producto. Las
empresas, antes de lanzar un producto nuevo, realizan pruebas para medir su
aceptacin. Una prctica habitual es ofrecer una muestra del producto a algunos
consumidores potenciales. Una encuesta posterior permitir conocer el nivel de
satisfaccin del consumidor y las modificaciones que podran resultar
adecuadas. Supongamos que una empresa productora de un abrillantador de
muebles reparte de manera aleatoria 236 unidades de un nuevo producto entre
un nmero igual de posibles consumidores, realizando despus una encuesta
sobre el nivel de satisfaccin respecto al producto. En el cuadro 3 se
reproduciran los resultados obtenidos.
Cuadro 3
Valid Cum
Value Label Value Frequency Percent Percent Percent
Nada satisfactorio 1 6 2,5 2,7 2,7
Poco satisfactorio 2 31 13,1 13,9 16,6
Bastante satisfactorio 3 96 40,7 43,0 59,6
Muy satisfactorio 4 90 38,1 40,4 100,0
No lo ha probado 5 13 5,5 Missing
------- ------- -------
Total 236 100,0 100,0
La variable cualitativa presenta cuatro posibles respuestas, indicando
cada una de ellas el nivel de satisfaccin del consumidor. Existe una quinta
opcin que recoge la categora de aquellas personas que finalmente no han
empleado el producto y que, en este ocasin, se han definido como valores
perdidos (missing). En los resultados del programa aparecen dos columnas de
porcentajes. En la primera, el total de observaciones (hayan empleado o no el
producto) se recoge como referencia para calcular las frecuencias. En la
segunda columna (valid percent) se calculan lo que se denominan porcentajes
vlidos, calculndose las frecuencias con referencia al nmero de individuos
que han empleado el producto.
CAPTULO I. Variables Cualitativas
15
Las caractersticas ms relevantes de la distribucin seran una moda
para la categora de bastante satisfactorio (43% de las respuestas vlidas) y un
valor mediano en la misma categora, al acumularse dentro de ella el 50% de
consumidores. Adems, en los porcentajes acumulados puede leerse que slo el
16,6% de los consumidores consideran el producto nada o poco satisfactorio.
El diagrama de barras de la distribucin se representa en la grfica 4,
apareciendo esta vez en el eje vertical las frecuencias relativas. Destaque de los
resultados anteriores el hecho de que la lectura de los porcentajes acumulados
(y, por tanto de la mediana) tiene sentido al tratarse de una variable cualitativa
de tipo ordinal.
Grfica 4
Grfica de barras
Satisfaccin con respecto al producto
Nada satisf actorio Poco satisf actorio Bastante satisf act. Muy satisf actorio
P
o
r
c
e
n
t
a
j
e
50
40
30
20
10
0
Pictograma. Junto a los diagramas en barra es posible representar la importancia
de cada una de las categoras usando otro tipo de grficas. El pictograma no es
ms que un crculo en el que se representan las categoras de la variable
proporcionalmente a su frecuencia. La regla de proporcionalidad se consigue
definiendo los ngulos proporcionalmente a las frecuencias. As, una categora
con una frecuencia relativa del 40.4% debera cubrir un ngulo igual a
0 404 360 14544
0 0
. . = . En la grfica 5 se representan las frecuencias relativas
del ejemplo anterior por medio de un pictograma.
Grfica 5
Introduccin a la Estadstica Descriptiva para Economistas
16
Frecuencias relativas
2,7%
13,9%
43,0%
40,4%
Nada satisf echo
Poco satisf echo
Bastante satisf echo
Muy satisf echo
Diagrama de Pareto. Si se quiere resaltar la distribucin de frecuencias
acumuladas puede emplearse el denominado diagrama de Pareto. ste no es ms
que un diagrama en barras en el que las categoras se ordenan de mayor a menor
frecuencia, dibujando sobre las barras una lnea indicativa de la frecuencia
acumulada hasta esa categora. La grfica se puede realizar tanto sobre variables
nominales como ordinales.
El diagrama de Pareto es un diagrama de barras en el que las categoras se
ordenan de mayor a menor frecuencia, dibujando una lnea indicativa de la
frecuencia acumulada hasta esa categora.
Ejemplo 3. Control de produccin. Una empresa sufre continuas paradas
en su cadena de produccin. Dada la importancia de las consecuencias
econmicas de estas paradas se decide controlar durante un mes cules son las
razones que las ocasionan. Para ello se solicita de los operarios que anoten el
tipo de percance y el tiempo que tarda en arreglarse, desde que se detecta
hasta que se soluciona el problema. Las causas detectadas (seis causas
particulares a este proceso de produccin) as como su frecuencia y el tiempo de
parada se reproducen en el cuadro 4.
Cuadro 4
Causa Frecuencia Tiempo de parada
CAPTULO I. Variables Cualitativas
17
(en minutos)
1 Rotura de tornillos 10 70
2 Rotura de arandelas 10 10
3 Rotura o bloqueo de cintas 4 41
4 Rotura de aros de sujecin 2 20
5 Rotura de otras piezas 2 10
6 Desajustes de temperatura 11 53
En total, como consecuencia de 39 paradas, se han perdido 204 minutos
en un mes de trabajo. El tiempo de parada y el nmero de paradas se pueden
analizar a partir de los correspondientes diagramas de Pareto. En la grfica 6 se
observa que las tres causas ms frecuentes de parada son la sexta, primera y
segunda, por este orden. Estas tres primeras causas, tal como se observa en la
lnea continua del diagrama, representan un porcentaje alto del total de paradas,
en concreto un 79,5% de stas, (11+10+10)/39. En la grfica 7 se puede
observar, sin embargo, que no todas las paradas tienen igual importancia en
cuanto al tiempo de interrupcin. Las tres primeras causas (primera, sexta y
tercera) suponen un 80,4% del tiempo de parada, (70+53+41)/204. Si el inters
de la empresa se encuentra en reducir al mximo el tiempo de parada (y no
tanto el nmero de veces en que la produccin se detiene) debera centrarse en
los determinantes de la rotura de tornillos, los desajustes de temperatura y la
rotura o bloqueo de cintas.
Grfica 6
Causa de la parada
5,00 4,00 3,00 2,00 1,00 6,00
N
m
e
r
o
d
e
p
a
r
a
d
a
s
50
40
30
20
10
0
P
o
r
c
e
n
t
a
j
e
100
50
0
4
10 10
11
Introduccin a la Estadstica Descriptiva para Economistas
18
Grfica 7
Causa de la parada
5,00 2,00 4,00 3,00 6,00 1,00
T
i
e
m
p
o
d
e
p
a
r
a
d
a
300
200
100
0
P
o
r
c
e
n
t
a
j
e
100
50
0
20
41
53
70