Documente Academic
Documente Profesional
Documente Cultură
ANLISIS DESCRIPTIVO
TEMA
DE VARIABLES CUANTITATIVAS
4.1.Introduccin
4.2.Propiedades estadsticas de las variables cuantitativas
4.3. Descripcin de muestras pequeas
4.3.1. Herramientas para el anlisis grfico
4.3.2. Herramientas para el anlisis numrico
4.4. Descripcin de muestras grandes
4.5. Distribuciones de frecuencias de variables cuantitativas
(datos agrupados)
4.6. Propiedades de las distribuciones de variables
cuantitativas en muestras grandes
4.7. Variables discretas
4.7.1.Herramientas para el anlisis grfico
4.7.2.Herramientas para el anlisis numrico (estadgrafos)
4.7.2.1. Medidas de posicin
4.7.2.2. Medidas de dispersin
4.7.2.3. Medidas de forma: asimetra y curtosis
4.8. Variables continuas
4.8.1. Herramientas para el anlisis grfico
4.8.2. Herramientas para el anlisis numrico (estadgrafos)
4.1. INTRODUCCIN
Continuando con la descripcin estadstica de conjuntos de datos empricos, que se
corresponden con los valores de una variable observada, que generalmente en el caso de una variable
cualitativa se obtienen mediante la observacin y que para el caso de una variable cuantitativa surgen
por recuento o medicin instrumental de una caracterstica o propiedad (datos univariados) o de dos
(datos bivariados) o ms (datos multivariados) en las unidades de anlisis que componen una muestra,
este captulo y el siguiente enfocarn el anlisis numrico y grfico de los datos de naturaleza
cuantitativa.
Se vio la sencillez de la descripcin estadstica en el caso de las variables cualitativas, tanto a
travs de las herramientas grficas como las numricas. Contrariamente, la descripcin estadstica de
las variables cuantitativas, dado que los datos surgen de aplicar los niveles de medicin ms altos
(escala de intervalo o escala de razones), presenta un mayor grado de dificultad y requiere un
tratamiento previo del significado del concepto propiedades estadsticas de los datos cuantitativos en
masa o simplemente de las propiedades estadsticas. Estas propiedades se deben a la naturaleza
aleatoria que presentan los datos empricos correspondientes a fenmenos que resulta de inters
estudiar en el campo del futuro desempeo profesional, y permiten describir diferentes aspectos que
presentan las distribuciones de frecuencias muestrales para poder comprender el comportamiento
emprico general, y a partir de esto poder desarrollar modelos tericos explicativos que representan las
leyes generales que rigen la ocurrencia de los hechos naturales, ecolgicos, productivos, econmicos,
etc.
Lo que antecede justifica plenamente el estudio de las propiedades estadsticas que presentan
las muestras de datos cuantitativos cuando se los analiza en masa. Siguiendo el enfoque ya
presentado, para esto se puede recurrir a herramientas grficas (visualizacin: diagramas y grficos) y
numricas (cuantificacin: medidas descriptivas o estadgrafos), que se elegirn teniendo en cuenta el
tipo de variable y el tamao muestral.
4.2.1. El posicionamiento
La primera propiedad estadstica a analizar con el objetivo de caracterizar el patrn de
variabilidad general de las masas de datos muestrales,
muestrales, es el posicionamiento. Se ha visto que al
definir el recorrido de una variable cuantitativa, que se debe dejar en claro el campo de variacin
numrico que tiene dicha variable, y que se ha recurrido en referencia a los conjuntos de los nmeros
naturales (datos de conteo) y reales (datos de medicin), asociados respectivamente a variables
discretas y variables continuas. La propiedad de posicionamiento se refiere a como se ubican o toman
posicin los datos en masa de la variable en una escala numrica, que por lo general se representa en
el eje de las abscisas de un sistema cartesiano.
cartesiano Estadsticamente se la cuantifica con los denominados
estadgrafos de posicin,, que pueden clasificarse como estadgrafos de centralizacin y estadgrafos
no centrados.
En
n general los datos de las distribuciones empricas suelen presentar tendencia a ubicarse a lo
largo del recorrido de la variable, en un mayor o menor grado, en una posicin ms o menos central
central; una
propiedad de distribucin general que se conoce como tendencia
encia central
central,, y en correspondencia se
habla de las medidas
edidas de la tendencia central que en general son las medidas promedios
promedios. Un promedio
se toma como punto tpico de los datos, es un valor alrededor del cual se agrupan los dems valores de
la variable. Adems
ems se completa la descripcin del posicionamiento general de los datos a travs de los
estadgrafos no centrados, que se refieren a la mayora de los percentiles, cuartiles y deciles
deciles,, y de una
medida que puede resultar centralizada o no, denominada la mediana.
mediana.
4.2.2. La dispersin
La segunda propiedad estadstica a analizar con el objetivo de caracterizar el patrn de
variabilidad general de las masas de datos muestrales, es la dispersin. Cualquiera sea el caso, la
descripcin estadstica de variables cuantitativas debe incluir una medida de la posicin y una de
dispersin.
40
Ctedra de Clculo Es
Estadstico y Biometra Facultad de Ciencias
ias Agrarias UNCUYO / Ciclo 2014
4.2.3. La forma
Cuando se dispone de muestras grandes, resulta de inters analizar otras dos propiedades en
relacin al colectivo de datos, que dan informacin sobre el aspecto de forma de la distribucin, ellas
son: la asimetra y la curtosis.
curtosis Ambas propiedades se miden numricamente a travs de sendas clases
de coeficientes.
s refiere a que los datos se distribuyen de forma similar a
a) Asimetra: la condicin de simetra se
derecha e izquierda del punto central.
central Esto
sto es como imaginar un eje perpendicular ubicado en el valor
central y hacer una comparacin de la partes laterales, encontrando la mitad izquierda de su
distribucin es la imagen especular de su mitad derecha. E
Es decir que hace referencia
ncia a la
caracterstica de una reparticin de datos equilibradamente por encima y por debajo de la tendencia
central. Contrariamente la condicin de asimetra o sesgo, hace referencia a que los datos tienden a
repartirse de modo diferente, en correspondencia
correspondencia a los valores inferiores al promedio y los valores
superiores a ste. La consecuencia de la falta de simetra es que afecta la inferenci
inferencia
a con respecto al
valor central, de modo que un valor medio tomado como representativo del conjunto puede no serlo
tanto.
Las posibilidades que pueden presentarse con relacin a la propiedad de asimetra son:
Caso de distribucin asimtrica positiva; cuando la distribucin se extiende marcadamente
hacia el lado de valores que se encuentran por encima del valor central por la existencia de
unidades de anlisis con valores que se posicionan en la parte muy alta de la escala (cola
derecha pesada)),
Caso de distribucin simtrica:
sim
cuando se distribuyen aproximadamente la misma cantidad de
valores en ambos lados del
de valor central
Caso de distribucin asimtrica negativa: cuando la distribucin se extiende marcadamente
hacia el lado de valores que se encuentran por debajo del valor central por existencia de
unidades de anlisis con valores que se posicionan en la parte muy baja de la escala (cola
izquierda pesada),
pesada
As por ejemplo, si un monte frutal no es bien conducido, es de esperarse que la distribucin de
frecuencias del rendimiento por planta (kg) resulte con sesgo positivo,, puesto que la mayora de
los de los frutales producirn poca fruta y unos pocos darn mucha
mucha.. Si por el contrario el monte
es bien conducido, se puede esperar una distribucin del rendimiento con sesgo negativo,
vo, dado
que la mayora de las plantas produciran
produci
mucha fruta y unas pocas darn bajo
o rendimiento.
rendimiento Si
el monte presenta una situacin normal en la conduccin, lo ms probable es que la distribucin
resulte simtrica.
b) Curtosis: el nombre de esta propiedad se deriva etimolgicamente del trmino griego kurtos,que
significa convexo, y que comenz
omenz a utilizarse en el contexto de la matemtica significando
curvatura. La
a propiedad se relaciona con dos aspectos que hacen a la forma de la distribucin: 1) el
grado de apuntalamiento que posee una distribucin de frecuencias en su parte central, y, 2) las
colas, o partes extremas de la distribucin,
distribuci
en cuanto a si se extienden hacia valores alejados del
central o no. La consecuencia de una alta curtosis es que afecta la inferencia con respecto a las
medidas de dispersin.
Las posibilidades que pueden
pueden presentarse con relacin a la propiedad de curtosis se establecen
tomando como referencia una distribucin que grficamente posee una forma campanular armnica:
Caso de distribucin leptocrtica; cuando la distribucin muestra gran alzada o un aspecto
puntiagudo en el entorno al valor central y adems posee colas estiradas,, esto es, la
distribucin de los datos se extiende marcadamente tanto hacia el lado de valores que se
encuentran muy por debajo del valor central como hacia el lado de valores ubicados muy por
encima del mismo. En general el grfico de la distribucin ttiene una forma estilizada.
Caso de distribucin mesocrtica: cuando se distribuyen aproximadamente la misma cantidad
de valores en ambos lados del
de valor central
Caso de distribucin platicrtica: cuando la distribucin muestra un aspecto aplastado o de
meseta en el entorno al valor central y adems posee colas cortas, esto es, la distribucin de
los datos se extiende poco tanto hacia el lado de valores que se encuentran muy por debajo del
valor central como hacia el lado de valores ubicados muy por encima del mismo. En general el
grfico de la distribucin tomar una forma estilizada
La descripcin estadstica de las distribuciones de frecuencias, a travs de las propiedades del
colectivo de datos muestrales, permitir el primer acercamiento hacia la modelizacin del
comportamiento de las variables en el contexto poblacional, el cual se aprender a expresar utilizando
leyes probabilsticas o estocsticas que sirven para dar sustento a las leyes cientficas.
41
Ctedra de Clculo
culo Estadstico y Biometra Facultad de Cien
iencias Agrarias UNCUYO / Ciclo 2014
Propiedades
Posicionamiento (tendencia central y otra)
Dispersin
Pequeo
0,7
0,8
0,9
1,1
1,2
1,3
1,4
1,5
Grfico 4.1: Diagrama de puntos para residuos de cloro en tratamientos de un depsito de agua
Por ejemplo, se nota que la parte media de los datos se encuentra entre 1,2 y 1,4, aunque ms
cerca de 1,4 ppm. Tambin se observa que los valores mnimo y mximo han sido, respectivamente, 0,9
y 1,8, por lo tanto la amplitud de los valores es de 0,9 ppm (1,8-0,9).
A menudo se puede presentar la necesidad de comparar dos o ms conjuntos pequeos de
datos, como ocurre en el campo de la experimentacin donde se trabaja con muestras pequeas. Por
ejemplo, se ha realizado un experimento para comprobar si la aplicacin de tratamiento fitosanitario para
prevenir ataque de peronspora en vid tiene un efecto fitotxico, que se traduce en una disminucin de
la expresin vegetativa. Para esto al momento de la poda, se pesa el material eliminado en diez plantas
sin tratar (testigo) y en diez tratadas, que se seleccionan, en ambos casos, al azar. Los resultados
obtenidos, en kg/planta, son:
42
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
17,50 - 17,63 - 18,25 - 18,00 - 17,86 - 17,75 - 18,22 - 17,90 17,96 17,80
Tratada
16,85 - 16,40 - 17,21 - 16,35 - 16,52 - 17,04 - 16,96 - 17,15 16,59 16,10
El diagrama de puntos del grfico 4.2 muestra los dos conjuntos de mediciones, donde los
asteriscos corresponden a las plantas tratadas y los puntos a las plantas testigo. Ntese que
rpidamente el diagrama de puntos revela que las plantas tratadas han producido menos material de
poda, y puede esperarse que el valor medio se encuentre ms o menos centrado, mientras que en el
caso de las plantas testigo, este valor estara un poco desplazado hacia la izquierda. Continuando con el
anlisis comparativo, se puede ver que adems los resultados han sido ms variables en el caso de las
plantas tratadas.
16,00
16,50
17,00
17,50
18,00
18,50
Kg/pl
Grfico 4.2: Diagrama de puntos para produccin de material de poda (kg/pl),
en vides tratadas () y no tratadas ()
No obstante, cabe aclarar que cuanto ms pequeo sea el nmero de datos, ms difcil se puede
hacer la tarea de identificar patrones de variacin especficos a travs de estos diagramas. Tambin
resulta claro ver, que no son representaciones adecuadas para conjuntos numerosos de datos.
Hoja
2258
67
009
El grfico es doblemente informativo: no se pierden los datos brutos y, adems muestra el perfil como
se distribuyen en general los datos es decir, permite tomar una idea acerca del patrn de variabilidad de
la variable. A continuacin se dan algunos ejemplos ilustrativos:
a) Horarios de llegada de los trenes que cubren el trayecto entre dos ciudades
7.32
7.37
7.50
8.02
8.05
8.20
8.24
8.32
8.37
8.51
43
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
37 50
37 51
50
50
50
50
50
50
50
50
Hoja
Tallo
Hoja
6
7
8
9
134556
011357889
1344788
235
6L
6U
7L
7U
8L
8U
9L
9U
134
556
0113
57889
1344
788
23
5
(a)
(b)
Hasta aqu hemos visto que la decisin de recopilar datos, que sean relevantes y
conformen una muestra aleatoria, es slo el comienzo indispensable para empezar a desentraar una
situacin problema de inters. Tambin ya conocemos que cuando las muestras son pequeas (n 30),
en la mayora de los casos, se trabaja directamente con los datos tal cual fueron recolectados, tanto
para su representacin grfica como para el clculo de las medidas descriptivas. Se describe el patrn
de datos, a partir de la obtencin de una distribucin simple o distribucin de datos no agrupados.
Contrariamente, cuando las muestras grandes, los datos brutos o datos sin procesar no resultan de
mucha utilidad, hay que darles una forma comprensible que ponga en evidencia el patrn de
comportamiento que tiene la variable considerada. Para esto, se requiere un tratamiento previo a su
anlisis, que en trminos generales hemos llamado organizacin de los datos, y que muchas veces
consiste en someterlos a un ordenamiento y clasificacin. Luego, el patrn de datos, se describe a partir
de la obtencin de distribucin de datos agrupados.
44
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
Propiedades
Media aritmtica,
Media geomtrica,
Mediana (*),
Cuartiles, qi
Deciles, di
Cuantiles
Percentiles, pi
Amplitud o recorrido,
Varianza,
Desviacin tpica,
Tendencia
central
Posicionamiento
Otras
Dispersin
Absolutas
(*) q2 =
Relativas
x=
x 1 + x 2 + ... + x n 1 + x n
, donde el numerador x1,x2, ..., xn-1, xn, representa la
n
x
x=
i=1
La media como medida de posicin, tiene una importante interpretacin fsica: si cada
observacin se piensa como una unidad de masa colocada sobre el filo de una fina cuchilla (que
representa el recorrido de la variable), y que se coloca un punto de apoyo exactamente en el valor de la
media, resultar que el sistema de masas queda perfectamente equilibrado, de ah la consideracin de
la media como un punto de equilibrio (el peso de las masas a la izquierda de la media iguala al peso de
las posicionadas a su derecha). El concepto se ilustra en el grfico 4.3.
16.0
16.5
17.0
17.5
18.0
kg/planta
x = 16.717 kg/planta
Grfico 4.3: La media muestral como punto de quilibrio de un sistema de pesos.
i=1
Propiedades de la media
Propiedad 1. La suma de los desvos de los valores de la variable x, con respecto a la media, para
el conjunto de n obsercaciones es igual a cero.
(x
x) = 0
i =1
(xi > x ). Esto explica de otra forma, por qu la media se interpreta fsicamente como un punto de
equilibrio.
Propiedad 2. La suma del cuadrado de los desvos de la variable x, con respecto a la media, para el
conjunto de n observaciones es un valor mnimo.
n
(x
x ) 2 = mnimo
i =1
Propiedad 3. La media de la suma de varias variables, o media general, es igual a la suma de las
medias de cada variable
(x + y + z ) = x + y + z
Propiedad 4. Si cada una de las n observaciones muestrales es multiplicada por una constante c,
la media de los datos transformados (c.x), es igual a la constante multiplicada por la media de los datos
originales
Ntese que se trata de una media ponderada. En el primer caso, no se observa la ponderacin en la
frmula porque al ser idnticos los tamaos muestrales (n1 = n2) ambas medias tienen idntico peso
(ponderacin unitaria). En el segundo las medias se deben multiplicar por los correspondientes
tamaos muestrales (ponderaciones), dado que el valor de la media se ha calculado con diferente
cantidad de informacin. El caso anterior es slo una situacin particular del caso general para k series,
donde la media de medias o media general, x g , para series de igual tamao est dad por:
xg =
x1 + x 2 + .... + x k
k
4.3.2.1.2. Mediana
Otra medida de posicin bastante utilizada es la mediana, denotada con . Este estadgrafo
posee un nombre que hace referencia a una posicin media bajo ordenamiento, relacionada con igual
cantidad de datos a su izquierda ( < ) y a su derecha ( > ).
Para la definicin formal de la mediana, y por ende para su clculo, hay que considerar si la
serie de datos es par o impar:
En las situaciones prcticas resultar imposible (o poco prctico o poco econmico) examinar las N unidades que componen
una poblacin, por lo tanto el valor verdadero de la media en la prctica nunca ser conocido. Al desarrollar la unidad de
probabilidad, se estudiarn modelos para representar poblaciones finitas e infinitas y se introducir el concepto de variable
aleatoria y el de esperanza matemtica , como el concepto relacionado con la media poblacional. En la unidad de inferencia
estadstica se darn mtodos para poder inferir o estimar la media poblacional, a partir del conocimiento de la .
46
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
=
500
570
590
600
690
12
1
15
2
17
3
25
5
23
4
28
6
1 2
xn / 2 + x( n / 2)+1
2
n impar
x(n+1)/2 = x d
x1 x2 x3 x4
x5 x6
x7
x d = x4
xg = n
i =1
Por ejemplo, sea el crecimiento de una cuenta de ahorros que en cinco aos ha tenido las
siguientes tasas: 1,07-1,08-1,10-1,12 y 1,18. Luego, el valor de la media geomtrica est dada por
ejemplo 1,1093 y respresenta el factor de crecimiento promedio que ha tenido el depsito hecho en la
cuenta de ahorro.
log x
130
98
140
128
145
140
150
160
158
165
165
205
En ambos casos la media es igual a 148 ppm. Sin embargo, si se recurre al diagrama de puntos
del Grfico 4.4, se observa que los patrones de variabilidad o dispersin son diferentes, la muestra 2
posee ms variabilidad que la de la muestra 1.
90
110
130
150
170
190
210
Grfico 4.4: Datos de composicin, en ppm, de dos muestras
Referencias: *, datos de la Muestra 1 y, , datos de la Muestra 2
4.3.2.2.1. Amplitud
La medida ms simple de variabilidad es la amplitud de la muestra, tambin conocida como
rango o recorrido de la muestra. La amplitud muestral, es una medida de la extensin o recorrido de la
muestra en la recta de los reales.
48
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
*
******
++++ +++ +
*
+
*
+
Si bien los tres conjuntos son bastante diferentes en su variabilidad, poseen la misma amplitud.
El primero tiene un patrn de dispersin bastante regular a lo largo de toda la escala, el segundo tiene
una alta concentracin de los datos en la parte central pero muestra dos puntos extremos y, el tercero
muestra una concentracin de valores bajos y uno atpicamente alto. Sin embargo, como la amplitud
ignora toda la informacin que existe en la muestra entre las dos observaciones ms extremas, tiene un
uso limitado. Por ejemplo se lo usa mucho en el control estadstico de calidad, donde por lo general se
trabaja con muestras pequeas (n< 10). Pero, para la mayora de las situaciones se prefiere medir la
variabilidad con medidas donde intervengan todas las observaciones, que son las que se describirn
seguidamente.
Definicin 4.9:
n
( x - x )
2
s =
i=1
n-1
que se lee La varianza muestral, s , de un conjunto de n datos es igual a la suma de cuadrados
de desvos (de los valores xi de la variable estadstica x con respecto a su mediax) dividida por
los grados de libertad dados por n-1.
2
Por su parte, la desviacin tpica muestral, tambin denominada desviacin estndar muestral,
representada con s, se deriva directamente de la varianza.
49
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
( x - x )
s = s2 =
i=1
n-1
que se lee La desviacin tpica muestral, s, es igual a la raz cuadrada (positiva) de la
varianza.
De las frmulas, tanto para la varianza como para la desviacin tpica muestral, se desprende
que ambas medidas al ser aplicadas arrojan un valor numrico acompaado por la unidad en que se
midi la variable en estudio, y que adems, para el caso de la varianza, esta unidad queda elevada al
cuadrado, por ejemplo cm2, g2, kg2, etc. sta es una de las paticularidades por las que se hace ms dfcil
la interpretacin de esta importante medida, contrariamente la desviacin tpica tiene la deseable
propiedad de medir la variabilidad con la misma unidad de medida de los datos recolectados y en
consecuencia, con la misma unidad de medida que tiene la media, entonces se la puede interpretar
como una distancia en el eje de abscisas o eje x.
Algo ms que se debe notar, a partir de las frmulas, es que ni la varianza ni la desviacin tpica
pueden ser negativas y tomaran el valor cero cuando todas las observaciones fueran exactamente
iguales, es decir en una franca ausencia de variabilidad.
A continuacin se har una ilustracin, para facilitar la comprensin de los clculos utilizando la
frmula definicional de la varianza. La tabla 4.1 muestra los datos de una muestra de n=6,
correspondiente a mediciones de resistencia a la tensin de aleaciones de aluminio-litio.
Tabla 4.1: Clculos para la varianza y la desviacin tpica muestral,por el procedimiento directo.
N medicin
1
2
3
4
5
6
( )
90
128
205
140
165
160
-58
-20
57
-8
17
12
4( ) = 0
4 = 888
3364
400
3249
64
289
144
4( ) = 7510
( x - x )
2
s =
i=1
n-1
7510
= 1502 gramos 2
6 -1
en tanto que,
Finalmente se har la interpretacin grfica del concepto de variabilidad. El Grfico 4.5 ilustra los
desvos ( ) sobre la resistencia a la tensin y en ella se observa que se trata de valores de
distancias desde xi al centro de la distribucin. Entre ms grande sea la variabilidad en los datos mayor
ser la magnitud absoluta de estas distancias. Ms claramente, cuanto ms separados o dispersos
estn los datos, mayor ser el valor que tome la amplitud muestral, la varianza y la desviacin tpica,
mientras que cuanto ms concentrados resulten, menores sern los valores de estas medidas. Al elevar
al cuadrado las desviaciones ( ), se magnifican los pequeos y grandes valores, de este modo
existe una estrecha relacin con el valor que muestra la varianza: si es pequea, existe una pequea
variabilidad de los datos, pero si es grande, entonces tambin lo es la variabilidad de los datos
muestrales. En forma anloga la desviacin tpica, relacionada directamente con la varianza, cuanto
mayor resulte, mayor ser la variabilidad de los datos. Luego, s2 y s, miden algo as como la dispersin
promedio en torno a la media; es decir, alrededor de la media las observaciones con valores mayores a
los de la media y con valores menores a sta.
X1
60
80
X2
100
120
X4
X6 X5
140
160
X3
180
200
220
x = 148
Grfico 4.5: Manera en que las desviaciones (xi -x) miden la variabilidad a travs de la varianza
Procedimiento abreviado para el clculo: se basa en los valores de la variable (xi ). La media muy pocas
veces resulta un valor entero, su redondeo arrastra errores al calcular los desvos, por otra parte el
procedimiento directo es poco prctico, en consecuencia las frmulas dadas para s2 y s servirn para
definir los respectivos conceptos, pero en situaciones prcticas se recurrir al procedimiento abreviado
de clculo.
50
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
4
2 4 + 4
4(
Definicin 4.11:
)
= 4
( )
1
( xi )2
x
2
s =
2
i
i=1
i=1
n -1
que se lee La varianza muestral, s2, de un conjunto de n datos es igual a un cociente, que tiene:
a) por numerador a la suma total de cuadrados de los valores de la variable estadstica x
menos el cuadrado de la suma de los valores observados xi , dividida por el tamao
muestral n, y
b) como denominador a los grados de libertad.
Por su parte, la desviacin tpica muestral, como ya se vio, se obtiene a partir de .
Para ilustrar los clculos se usarn los datos muestrales ya presentados en la tabla 4.1, obteniendo su
suma o total, y la que corresponde a sus cuadrados segn se puede ver en la tabla 4.2
Tabla 4.2:. Clculos para la varianza y la desviacin tpica muestral,por el procedimiento abreviado
2
N de medicin
xi
xi
1
2
3
4
5
6
90
128
205
140
165
160
8100
16384
42025
19600
27225
25600
x = 888
( x ) = 888
i
= 138.934
Reemplazando, resulta:
(888)
6 = 7510 = 1502 (:) ;,
=
= ( = 1502 = 38,8 :
61
5
Se observa que estos resultados concuerdan exactamente con los obtenidos por el procedimiento
directo.
138.934
Procedimiento abreviado
( x - x )
2
s =
( xi )2
i=1
n-1
2
s =
2
i
i=1
i=1
n -1
a) el trmino
2
i
i= 1
n
b) el trmino xi se lee cuadrado de la suma
i=1
de los valores observados
51
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
Propiedades de la varianza
Como en el caso de la media, se enunciarn las propiedades de la varianza, que debern ser
tenidas en consideracin en varias oportunidades a lo largo del curso.
Propiedad 2. La varianza del producto (o cociente) de una constante por una variable es igual al
producto (o cociente) del cuadrado de la constante por la varianza de la variable
2=
( xi - ) 2
i =1
= 2
que se lee La varianza poblacional, 2 , de un conjunto
Anteriormente se dijo que la media muestral puede emplearse para hacer inferencias sobre la
media poblacional. De manera similar, la varianza muestral puede utilizarse para hacer inferencias sobre
la varianza poblacional.
Ntese que el denominador para la varianza muestral es el tamao de la muestra menos (n 1),
mientras que para la varianza poblacional es el tamao de la poblacin N.
Si se utiliza n como denominador en la varianza muestral, entonces se obtendr una medida de
2
variabilidad que es, en promedio, ms pequea que la verdadera varianza poblacional , se tendra una
2
estimacin sesgada de .
), (
), , (
), siempre es cero, de modo que la especificacin de
desviaciones (
cualesquiera de estas cantidades determina de manera automtica la restante. Por lo tanto, slo
), estn determinadas de manera arbitraria.
de las n desviaciones, (=
>=: @ = , ABCDAE E =
ED
@
O sea, se puede decir que la varianza muestral es igual a la suma de cuadrados (de desvos) dividida
los grados de libertad.
CV =
s
x
s
%CV = 100
x
Como medida relativa, el coeficiente de variacin es til:
a) sobre todo cuando se compara la variabilidad de dos o ms conjuntos de datos expresados en
diferentes unidades de medicin.
b) cuando se comparan dos o ms conjuntos de datos que se miden en las mismas unidades, pero que
difieren mucho.
El coeficiente de variacin poblacional es igual a:
%CVpob =
100
Desde el punto de vista prctico, para interpretar el coeficiente de variacin en trminos generales se
puede utilizar el siguiente criterio:
Valores del CV
Ensayos en laboratorio
Interpretacin
Pruebas de campo
Bajo
Aceptable
> 15%
Alto
> 25%
Se deduce que siempre deben esperarse valores de coeficientes de variacin menores asociados a los
ensayos donde se ejerce mayor control (laboratorio).
Caso: Distribucin de
una variable
cualitativa (clases
categricas)
Clase
( )
.
.
F
Conteo
(1 )
1
1
.
.
1F
Tipo II
Conteo
(1 )
1
1
.
.
1F
Intervalos de
Clases
G ; )I
G ; J )I
.
.
GFK ; F )I
Conteo
(1 )
1
1
.
.
1F
Es fcil notar que las frecuencias absolutas cumplen con la siguiente propiedad: n = n1+n2++nk, por
tanto
1 = F 1 ,
54
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
fk
L = 1
Con un sentido prctico suele hablarse de frecuencias porcentuales, cuando las fi se las expresa en
por ciento, y entonces resulta que su suma es igual al 100%.
Definicin 4.18.
Las frecuencias absolutas acumuladas, se definen como la frecuencia que resulta de la acumulacin,
fila por fila, de las correspondientes frecuencias absolutas. La acumulacin puede hacerse de dos
formas, y segn esto resultan:
a) Frecuencias acumuladas ascendentes, simbolizadas por Fi: para la i-sima clase, la frecuencia
acumulada ascendente se obtiene sumando a la correspondiente frecuencia, las frecuencias de todas
las clases que anteceden a la considerada
F1 = n1
F2 = n1 + n2,
F3 =n1 + n2 + n3, y as sucesivamente hasta la ltima clase
Fk = n1 + n2 +......+ nk = ni = n , para k < n.
b) Frecuencias acumuladas descendentes, simbolizadas por Fi (que se lee F comilla sub- i): para la isima clase, se obtienen restando a la correspondiente frecuencia, las frecuencias de todas las clases
que anteceden a la considerada
F1 = n
F2= n n1,
F3= n (n1 + n2)
Fk = n (n1 + n2 + . + nk-1 )
Las frecuencias acumuladas ascendentes tambin son llamadas frecuencias menor que, y
las descendentes, frecuencias mayor que. Con un criterio anlogo se pueden obtener tambin las
correspondientes frecuencias relativas acumuladas.
A continuacin se desarrollar el anlisis estadstico descriptivo de las distribuciones de datos
cuantitativos agrupados.
Propiedades
Posicin (tendencia central y otra)
Dispersin
Forma: Asimetra y Curtosis
POSICIONAMIENTO
Otro
(cuantiles)
Estadgrafos de
posicin, por ej.:
cuartiles (1/4 =
25% en cada
parte)
x
Estadgrafos de
dispersin, por
ej.: amplitud.
DISPERSIN
x
FORMA
Asimetra
Estadgrafos de
asimetra,
por
ej.:
coeficiente
de asimetra.
Curtosis
Estadgrafos de
curtosis, por ej.:
coeficiente
de
curtosis.
56
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
Tipo de dato
Tamao muestral
N de
flores/planta
planta
Cuantitativo
discreto
n=50
10
10
ni
n1
n2
.
.
nk
n
N de flores,
(1)
Cantidad de
plantas
(2)
n mayor o
igual que
(3)
(4)
Proporcin de
plantas
Proporcin
porcentual
(5)
(6)
50
0,02
2,0
49
0,02
2,0
48
0,06
6,0
11
45
0,12
12,0
15
39
0,08
8,0
19
35
0,08
8,0
28
31
0,18
18,0
36
22
0,16
16,0
43
14
0,14
14,0
47
0,08
8,0
10
50
0,06
6,0
50
1,00
100,0
57
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
0,20
0,15
0,10
0,05
0 1 2 3 4 5 6 7 8 9 10
N de flores / planta
0 1 2 3 4 5 6 7 8 9 10
N de flores / planta
Construccin: Si en el eje de las abscisas se consideran los distintos valores que toma la variable y,
en el eje de las ordenadas se consideran las frecuencias absolutas (o las frecuencias relativas) y, por
los puntos resultantes se bajan lneas hasta las abscisas, se obtiene un grfico de lneas para
frecuencias absolutas (o de frecuencias relativas).
Cantidad de
familias (ni)
Valor de
variable
Frec.
absolutas
Frec. acum.
ascendentes
Frec.
relativas
xi
ni
Fi
fi
0,083
0,250
0,416
12
0,250
Total
12
1,000
58
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
Cantidad
acumulada
de familias
o
Proporcin i
de familias
N de hijos
o
o
i
N de hijos
N de hijos
y pueden utilizarse
y,
Eje y
Eje
ni : frecuencias absolutas
fi : frecuencias relativas
100 fi : porcentajes
Variable X
Grfico (a)
y pueden utilizarse
y,
Tambin
pueden
usarse
relativas
acumuladas
y
acumulados.
frecuencias
porcentajes
Grfico (b)
59
Ctedra de Clculo
culo Estadstico y Biometra Facultad de Cien
iencias Agrarias UNCUYO / Ciclo 2014
x
x=
. ni
i=1
n
k
siendo:
i =1
x=
k
xi ni
i =1
N de hijos (xi)
0
1
2
3
4
N de obreros (ni)
2
4
8
5
1
xi ni
0
4
16
15
4
Total
n=20
=39
Debe notarse que en el clculo de la media intervienen todos los valores de la variable, de ah que resulte por
excelencia la medida promedio que caracteriza el lugar central de la distribucin.
4.7.2.1.2. Mediana
A diferencia de la media, la mediana es una medida que trata de caracterizar un posicionamiento
que equilibre la cantidad de frecuencias observadas a uno y otro lado. Para encontrar cual es el valor
mediano de una distribucin de frecuencias discretas, se trabaja con una tabla de frecuencias
acumuladas de menor a mayor. La mediana es igual al primer valor de variable, que acumulando las
frecuencias, deja por debajo un 50% de las observaciones. En el siguiente ejemplo se observa que la
mediana es igual a 2: hay 50 fbricas con valores menores o iguales a ella, y tambin 50 fbricas con
valores igual o mayores a ella.
Ejemplo 4.2: Nmero de empleados de 100 pequeas fbricas
N de empleados
(xi)
2
2
3
4
5
N de fbricas
(ni)
20
30
25
15
10
Fi
20
50
75
90
100
Total
n=100
---
Esta es, como ya vimos, una medida de posicin, generalmente central, que se fundamenta en
las frecuencias de la distribucin. Pero, conviene en este momento tener una visin amplia que aclare
cuando corresponde utilizarla, por cuanto, muchas veces se la aplica mal. Para ello hay que tener en
cuenta el tamao muestral y el tipo de variable:
1) en principio, la moda tiene no tiene sentido en muestras pequeas y s, en muestras grandes,
porque su valor es muy inestable
2) a su vez, siendo la muestra grande, la moda tiene sentido en los siguientes casos:
4.7.2.1.3. Moda
60
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
1
0
7
1
10
2
12
3
25
4
20
5
13
6
5
1
0
3
1
17
2
12
3
20
4
35
5
10
6
6
0
4
1
15
2
15
3
12
4
28
5
15
6
5
1
1
18
2
18
3
9
4
3
5
2
Se observa que la distribucin tiene dos modas relativas, ya que la mxima frecuencia, igual a
18, corresponde tanto al valor de variable 1 como 2.
(x
s2 =
x ) 2 ni
i =1
n 1
x i .n i
k
2
i =1
x i ni
n
s 2 = i =1
n 1
; siendo i = 1,2,,k
Notar:
4 = =
=
M
N4 = = O
=
; i = 1,2,.,k
suma de k productos, y se
ponderan los cuadrados de
los valores observados de la
variable =
cuadrado de la suma de k
productos, y se ponderan los
valores observados de la
variable =
s = + s2
61
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
s
_
o bien
4.7.2.3.
s
% cv = 100 _
x
Estas medidas sern desarrolladas en forma integrada para el caso de las variables discretas y
continuas, despus de presentar el anlisis descriptivo de las variables continuas.
38
48
42
49
43
58
39
48
45
43
48
38
39
40
33
40
30
40
33
42
45
45
39
35
43
45
31
30
41
35
43
31
42
53
46
45
49
42
34
33
28
29
34
31
32
49
45
56
27
52
42
54
28
29
40
45
55
44
50
48
54
58
55
28
36
33
25
27
24
37
41
46
36
35
41
34
37
48
46
42
49
36
40
54
36
46
45
44
43
40
36
26
49
49
33
36
34
41
45
49
58
46
52
36
40
43
53
40
36
41
///
////
////
////
////
////
////
///
//// //// /
//// //// ////
//// //// ///
///
//// ///
Nmero de
troncos (ni)
8
13
21
33
23
13
9
Definicin 4.20.
El valor promedio entre los lmites del intervalo se llama punto medio del intervalo o marca
de clase. Este valor es un promedio que se usa para representar a todos los datos que se
clasificaron en el intervalo, por lo tanto, constituye un valor de variable no observado, pero muy til
para realizar los clculos posteriores. Como es un valor de variable, se lo denota con xi.
62
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
Frec.
Absoluta
8
13
21
33
23
13
9
120
Frec. Acumulada.
Ascen.
Desc.
8
120
21
112
42
99
75
78
98
45
111
22
120
9
-
Frec.
relativa
0,067
0,108
0,175
0,275
0,192
0,108
0,075
1,000
Frec. relativa
acumulada
0,067
0,175
0,350
0,625
0,817
0,925
1,000
-
Porcentaje
de fincas
48,9
26,7
12,8
6,4
3,0
1,5
0,7
Total
100,0
Interpretaciones:
La tercera fila en la Tabla 4.6 indica que un 12,8 % de las 240 fincas poseen una superficie inculta
mayor o igual a 30,5 hectreas y no mayor a 40,5
La tercera fila en la Tabla 4.7 indica que hay un 75,6% de fincas con una superficie inculta menor a
30,5 hectreas.
En forma anloga, se puede construir una tabla que muestre la distribucin porcentual
acumulada mayor que el lmite inferior de la variable.
Tabla 4.8. Distribucin porcentual acumulada de
las hectreas incultas por finca, mayor al valor
dado (n=240)
Porcentaje de fincas
Lmite inferior
mayor que
>10,5
100,0
>20.5
51,1
>30.5
24,4
>40,5
11,6
>50,5
5,2
>60,5
2,2
>70,5
0,7
>80.5
0.0
63
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
ni ,
hi
A=b.h
A = x . ni
xi
xi+1
Frecuencia relativa
0,4
0,36
0,3
0,2
0,2
0,1
0,17
0,1
0,1
0,07
0
15,15 - 15,45 15,45 - 15,75 15,75 - 16,05 16,05 - 16,35 16,35 - 16,65 16,65 - 16,95
Nivel de produccin, en metros
64
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
frecuencia
12
10
8
6
4
2
0
15.0
15.3
15.6
15.9
16.2
16.5
16.8
17.1
Si se compara la figura que representa un polgono de frecuencias con el grfico del histograma
anterior, se dar cuenta que se han aadido dos clases, una en cada extremo de la escala de valores
observados. Estas dos nuevas clases contienen cero observaciones, pero permiten que el polgono
alcance el eje horizontal en ambos extremos de la distribucin (100% rea ).
50
45
40
35
30
25
20
15
10
5
0
porcentaje de fbricas
porcentaje de fbricas
El polgono porcentual se forma haciendo que el punto medio de cada clase represente los
datos de esa clase y despus conectando la secuencia de sus respectivos porcentajes de clase.
15
25
35
45
55
65
75
85
50
45
40
35
30
25
20
15
10
5
0
5
15
25
35
45
55 65 75 85
Produccin en miles de pesos
65
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
Polgonos de frecuencias
Polgono de frecuencias acumuladas mayor que u ojiva descendente: Los puntos representados
en la grfica indican la cantidad de datos que tienen un valor de variable igual o maqyor que el valor
correspondiente al lmite inferior del intervalo de clase (eje de abscisas). En este caso el polgono
comienza con ordenada igual a n en coincidencia con el lmite inferior de un intervalo imaginario anterior
(coincide con el inferior del primer intervalo de clase para los valores observados) y termina con
ordenada igual a n, en el lmite superior de la ltima clase.
350
300
Clasificacin
Kg de manzana Cantidad de
/rbol
rboles
45.2 45.4
20
45.5 45.7
50
45.8 46.0
110
46.1 46.3
60
46.4 46.6
30
30
46.7 46.9
300
250
200
150
100
50
0
45.2
45.5
45.8
46.1
46.4
46.7
47.0
Menor que 47
toda la muestra
66
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
Variable x
Grfico (b)
Polgono de frecuencias
acumuladas
menor
que,
con
lmites
superiores del intervalo
(ojiva ascendente)
Grfico (b)
x
x=
Siendo: n =
. ni
i=1
i =1
Es de notar que, en este caso, para poder disponer de la marca de clase de cada intervalo, se
requiere que los intervalos estn perfectamente, determinados por unos extremos concretamente
definidos. As, pues, no podramos calcular la media de una distribucin de datos que nos midiera el
nmero de habitantes de los municipios de una provincia, si el grupo de municipios ms poblados
estuviese definido ambiguamente, diciendo slo, por ejemplo, que tiene ms de 200.000 habitantes.
Ejemplo 4.5: Supongamos que estudiamos el salario anual de los empleados de una fbrica de
automviles y tenemos los datos de dichos salarios recogidos en la siguiente tabla de tipo II:
Miles de
Pesos
50,5 60,5
60,5 70,5
70,5 80,5
80,5 100,5
100,5 120,5
Marcas de
clase (xl)
55,0
65,0
75,0
90,0
130,0
N empleados
xi ni
12
20
18
15
5
n=70
660
1300
1350
1350
650
5310
5310
= 75,857 PQRS TS USV
70
Precaucin: En adelante nos referiremos de forma general con xi al valor i-simo de la variable, pero
hay que tener en claro que: a) si se trabaja con una distribucin simple o con una distribucin Tipo I con
clases numricas, xi corresponde a un valor medido y, b) si se trabaja con datos de una distribucin tipo
II, xi corresponde a la marca de clase o punto medio del intervalo i-simo. Con esta notacin, la
formulacin matemtica de las medidas puede parecer la misma, pero el significado puede llegar a ser
muy diferente
=
Inconvenientes
-Los valores extremos muy dispares influyen de
forma notable en su valor, hacindola menos
representativa.
A pesar de este inconveniente, por sus ventajas, se puede decir que es la medida de posicin
central ms utilizada.
Existe una variante importante de la media aritmtica, de aplicacin en aquellas circunstancias
en las que se conoce que los valores de la variable no tienen todos la misma importancia para su
tratamiento, sino que, por el contrario, existen observaciones que deben ser consideradas como ms
representativas que otras. A esta variante de la media aritmtica se la llama Media aritmtica
ponderada. Para su clculo se le asocia a cada valor de xi un peso wi , que nos medir su grado de
importancia o representatividad dentro de la distribucin. Estos pesos wi sern valores positivos que
representarn el nmero de veces que sus correspondientes valores xi son ms representativos que un
valor que tuviese peso asociado a la unidad.
Definicin 4.23
La media aritmtica ponderada de una distribucin de valores x1,x2,, xk cuyos pesos o
importancias relativas w1,w2,wk respectivamente, se define como
k
x
xw =
wi
i =1
k
i =1
68
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
g/l
0,7
0,7
1
3
Ponderacin
1
1
2
5
Como observamos en la tabla, hemos asignado a los vinos una misma importancia bsica de 1
hasta el ao, y una importancia 5 veces mayor a los dos aos. Bajo estos supuestos, si se quiere sacar
un valor promedio de la cantidad de tanino para una muestra de esas partidas de vino, sera:
xw =
0,7 1 + 0,7 1 + 1 2 + 3 5
1+1+ 2 + 5
4.8.2.1.2. Mediana
Cuando la distribucin se presenta en forma de tabla de tipo II, puesto que para este tipo de
tablas se asume que la variable evoluciona de una forma continua y uniforme, entonces tendremos que
encontrar el valor de la variable al que correspondera la frecuencia n/2. Ahora bien, dicho valor se
encontrar en el primer intervalo en que su frecuencia absoluta acumulada sea igual o supere a n/2.
Llamemos li (q2) al lmite inferior de tal intervalo, al que llamaremos intervalo mediano, y por lo tanto que
se lee:
Definicin 4.24
La mediana, en una distribucin de tipo II, es igual al lmite inferior del intervalo mediano li (q2) ms el
cociente que resulta de dividir el valor n/2 menos la frecuencia acumulada hasta el intervalo de clase
anterior al mediano F(q2 1), por la frecuencia absoluta del intervalo mediano, n(q2), multiplicado por la
longitud del intervalo de clase x.
xd = li ( q 2) +
n / 2 F( q2 1 )
n( q 2)
Inconvenientes
No puede expresarse mediante una frmula
matemtica sencilla que permita realizar grandes
desarrollos algebraicos con ella
No intervienen en su confeccin todos los valores
de la variable, sino slo los centrales. a pesar de
todo, este ltimo inconveniente lo es realmente
cuando todos los valores de la distribucin son
conocidos, cosa que no siempre ocurre, y es
precisamente en estos casos donde este
inconveniente se traduce a la tercera gran
ventaja de la mediana.
69
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
Frecuencia acumulada
Fi
n/2
Int. De clase
4.8.2.1.3. Moda.
Cuando los datos estn sin agrupar, se puede hablar de la moda en relacin al dato observado
con mayor frecuencia, pero cuando los datos estn
estn agrupados slo se puede hablar del intervalo con
mayor frecuencia o intervalo modal.
modal Una vez que los datos se han clasificado no es correcto hablar de la
moda porque el valor encontrado ser terico, y tericamente la poblacin es infinita (N
(N ), en otras
palabras la variable toma en cada en cada elemento un valor diferente. Para la variable continua, como
veremos en la Unidad de probabilidad, la probabilidad de ocurrencia de un determinado valor es igual a
cero, por tanto, hablar de que un valor de variable
variable continua es la moda (tiene la ms alta frecuencia)
resulta una seria contradiccin. Sin embargo, esto
esto no es reflejado por los datos muestrales, debido a
que la medicin tiene error y entonces aparecen datos repetidos.
Determinacin de la moda
Se identifica
entifica el (o los) intervalo modal donde se clasific el mayor nmero de datos y
podemos referirnos al punto medio de la clase modal,
modal, como el valor alrededor del cual se tiene el
mayor agrupamiento o densidad de datos.
clase
postmodal
clase modal
clase
premodal
Definicin 4.25
Inconvenientes
No puede expresarse de forma sencilla mediante
Es sencilla de calcular lo modal.
frmula matemtica que permita operar
En variables discretas es de fcil interpretacin, cmodamente con ella.
al ser siempre un valor propio de la variable.
No detecta ningn cambio en la distribucin que
se produzca ajeno al valor modal o in
intervalo
modal.
Resulta adecuada una visin integral de las tres medidas descriptas, media, mediana y moda,
pero la postergaremos hasta tratar el tema de simetra y sesgo de una distribucin.
80%
Grfico (a)
80%
20%
Grfico (b)
Los cuantiles se pueden clasificar en cuatro clases de medidas, de las cuales en este curso, nos
interesa en especial la primera y la ltima:
Cuartiles: dividen la distribucin en cuatro partes de igual frecuencia (n/4) , lo que significa que
cada parte contiene del total de datos, es decir, un 25%.
Quintiles: dividen la distribucin en cinco partes de igual frecuencia (n/5), lo que significa que cada
parte contiene un 20% del total de datos.
Deciles: dividen la distribucin en diez partes de igual frecuencia (n/10), lo que significa que cada
parte contiene un 10% del total de datos.
Percentiles: dividen la distribucin en cien partes de igual frecuencia (n/100), lo que significa que
cada parte contiene un 1% del total de datos.
Notar que si los cuantiles dividen en k partes, la cantidad de cuantiles es igual a k-1.
Definicin 4.27
Un cuantil, que se representa por qr/c y se lee como cuantil r-simo de orden c, es aquel valor de
la variable xi, que en un arreglo de datos ordenados en forma creciente, permite dividir a la
distribucin del total de los datos dejando por debajo al menos r/c partes de datos, y por encima al
menos las (r/c)/c partes restantes.
Por ejemplo: sea el segundo cuantil de orden 4, esto es q2/4 . Primeramente entendemos que nos
estamos refiriendo a una distribucin dividida en 4 partes (cuartos o cuartiles), y un valor de variable que
deja por debajo 2 de esas 4 partes, es decir, la mitad de los datos y por encima el resto, que son otras 2
de esas 4 partes porque 1- (2/4) = 2/4. En otras palabras, nos estamos refiriendo a aqul valor de
variable por xi, que en un arreglo ordenado de menor a mayor, permite dividir la distribucin de
frecuencias dejando por debajo al menos la mitad de los datos de la distribucin, y por encima al menos
la otra mitad, o sea, que en definitiva al segundo cuartil, en smbolo q2/4, que es la mediana ya conocida
por nosotros.
En forma anloga a la dada para la mediana, se pueden desarrollar frmulas para el clculo del
primer y tercer cuartil.
Los percentiles sern muy utilizados en inferencia estadstica en relacin a conceptos
probabilsticos. En este contexto, las poblaciones de variables continuas se representan con curvas que
se definen mediante funciones f(x), una de las cuales es la curva normal o curva campanular. La funcin
de la normal, es de gran utilidad porque representa a la distribucin terica de muchas variables
continuas de inters en Agronoma y Bromatologa, y ya resulta familiar a quienes han estudiado la
teora de errores en Fsica. A partir de ella, mostraremos los grficos que indican los cuartiles, deciles y
percentiles:
71
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
Cuartiles
p1/100
Deciles
p50/100
p99/100
Percentiles
Ejemplo 4.7: Sea la variable peso de racimos de uva en gramos. Si se dice esta variable en la
poblacin se puede representar con la curva normal, y que q3/4 ,es decir el tercer cuartil (q3) es igual a
450 gramos, significa que el 75% de los valores poblacionales son cuando ms igual a 450 gramos, y
slo un 25% toma valores por encima. Ntese la equivalencia entre el q3/4 y el percentil 75, p75 .
CUARTILES
PERCENTILES
Varianza
Clculo por el procedimiento directo
k
(x
s2 =
x ) 2 ni
i =1
n 1
; siendo i = 1,2,,k
xi .ni
k
2
i =1
xi .ni
n
s 2 = i =1
n 1
; siendo i = 1,2,.,k
Desviacin tpica
La desviacin tpica, se obtiene segn ya se ha visto como la raz cuadrada positiva de la varianza
s = + s2
Insistiremos, por la importancia de estas medidas, en su interpretacin:
La varianza muestral se puede interpretar como casi un promedio de la suma de cuadrados de
desvos.
La desviacin tpica, puede ser comprendida examinando dos enunciados:
* la Regla emprica: aplicable a distribuciones de tipo campanular
* el teorema de Chebyshev: aplicable a cualquier distribucin
Regla emprica
El examen de muchos conjuntos de datos sugiere una regla emprica que se utiliza para la
interpretacin de la desviacin tpica o estndar. Esta regla describe exactamente la variabilidad de los
datos poblacionales de una distribucin con forma de campana o acampanada, que ya mencionamos es
conocida como distribucin normal y que se discutir en detalle en otro captulo ms adelante. Pero
tambin proporciona una descripcin bastante adecuada de la variacin de muchos otros tipos de
variables que poseen distribuciones de frecuencia relativa con forma de pico de montaa.
Adems, en la prctica, se puede utilizar la denominada Regla Emprica para explicar la
propiedad de variabilidad de los datos de una muestra, esto es: que porcentaje de datos observados se
encuentra comprendido por los siguientes intervalos: la media k veces la desviacin tpica.
Generalmente estamos interesados en k = 1, 2 3, esto es, la media l desviacin tpica, la media 2
desviacin tpica y la media 3 desviacin tpica, respectivamente, (x s) , (x 2s) y (x 3s) . Estos
porcentajes en la muestra se aproximan al 68%, 95% y 99%, respectivamente, en tanto que en la
poblacin normal estos porcentajes ocurren de manera exacta (Ver tabla 4.3). La aproximacin es tanto
mejor, cuanto ms grande sea la muestra y adems provenga de una distribucin normal o
aproximadamente normal, es decir, cuando no se da un sesgo extremo y se observa ese aglutinamiento
ms o menos central de datos. La siguiente Figura muestra los intervalos muestrales comprendidos
dentro de una, dos y tres desviaciones tpicas de la media y los valores porcentuales el rea del
histograma abarcada.
99.7%
95%
68%
XE
E
+ E
+ XE
E
+ E
Si una variable est distribuida normalmente, entonces hay un 68% de los datos, aproximadamente,
dentro de una desviacin estndar de la media. Dentro de dos desviaciones estndares hay un 95%
ms o menos, y dentro de tres desviaciones estndares de la media hay cerca de 99,7% de los
datos. Esta regla es aplicable especficamente a una distribucin normal (en forma de campana),
aunque con frecuencia se aplica como gua a cualquier distribucin de montculo.
73
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
Ejemplo 4.9: Ahora consideraremos un ejemplo donde se aplica la media y la desviacin tpica
muestrales,, para formar una imagen mental de la distribucin de frecuencias para la variable, sin
presuponer nada acerca de la poblacin (normal o no). La media y la variacin de una muestra con
n=25 mediciones, son datos son x=75 y s2=100. Por lo tanto, la desvi
desviacin tpica es s=100=10.
100=10. Para
una distribucin que se centra aproximadamente en
en x=75, el teorema de Chebysheff nos permite
afirmar lo siguiente:
Al menos de las 25 mediciones caen en el intervalo ((x 2s) = [75 2(10)],, es decir, el
intervalo de valores xi que va de 55 a 95.
Al menos 8/9 de las 25 mediciones caen en el intervalo (
(x 3s) = [75 3(10)],, es decir, de 45 a
105. Finalmente haremos un anlisis comparativo, analtico y grfico, acerca de lo expuesto.
Tabla 4.9:: Forma en la que varan los
los datos alrededor de la media
media.
Nmero
de
desviaciones
en unidades k; (x ks),
k=1
2
3
4
100%
Grfico 4.7
4.7: La distribucin campanular
74
Ctedra de Clculo Es
Estadstico y Biometra Facultad de Ciencias
ias Agrarias UNCUYO / Ciclo 2014
4.8.2.3.1. La simetra
En primer lugar, diremos que vamos a considerar distribuciones unimodales, y que la distribucin
es simtrica con respecto de algn punto a en el eje de abscisas, si lo es la representacin grfica de
sus frecuencias. Es decir, si al trazar una paralela al eje de ordenadas, pasando por el punto a, deja el
mismo nmero de observaciones a ambos lados, y adems, a puntos opuestos y equidistantes de a,
siempre les corresponden iguales frecuencias.
Utilizaremos para medirla un coeficiente que se basa en los desvos a la tercera potencia de los
valores de la variable respecto a su media, Z (o bien para la muestra, ), con el siguiente
criterio:
W
, y el ndice de asimetra
En una distribucin de frecuencias perfectamente simtrica
vale cero.
W , es decir, la moda es menor que la media, resulta que la
En una distribucin donde
distribucin se extiende hacia la derecha, tiene exceso hacia valores xi grandes sesgo positivo, o que
tiene cola hacia la derecha. El coeficiente debera tener signo positivo.
W , es decir, la moda es mayor que la media, resulta que la
En una distribucin donde
distribucin se extiende hacia la izquierda, tiene exceso hacia valores xi pequeos o sesgo negativo,
o simplemente tiene cola hacia la izquierda. El coeficiente debera tener signo negativo.
As pues los tres casos posibles son:
xm < x
Posicin Intervalo modal
a la izquierda de xd, de x
y xm
xm = x
Posicin Intervalo modal
en coincidencia con xd y x
x < xm
Posicin Intervalo modal
a la derecha de xd
75
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
= d = m
m <
Asimetra a la derecha
<
Simetra
a>0
Asimetra a la izquierda
a=0
a< 0
En Estadstica, la expresin
mr
(x
=
)r
i= 1, 2, , N
corresponde al momento verdadero del r-simo orden, esto quiere decir desvos respecto a la media
paramtrica.
El momento verdadero de primer orden es igual a cero, m1=0
El momento verdadero de segundo orden resulta ser igual a la varianza poblacional
m2 = 2 =
(x
)2
El momento verdadero de tercer orden, con desvos basados en la media y elevados a la tercera
potencia (xi -)3, se relaciona con la propiedad de simetra de un distribucin.
El momento verdadero de cuarto orden, anlogamente con desvos (xi -)4 ,se relaciona con la
propiedad de curtosis.
Para datos muestrales agrupados se tiene la expresin
k
x
mr =
r
i
.ni
g1 =
m3
s3
x x 3n / n
i
i
2
s .s
donde m3 son los momentos verdaderos (puntos medios menos la media) de tercer orden, basados
en (xi - )3.
g1 < 0 : asimetra negativa;
g1 = 0: simetra;
4.8.2.3.2. La curtosis
Como ya dijimos, con este coeficiente se trata de medir el grado en que los valores de la variable
tienden a agruparse en torno de la media, hay mayor agrupamiento cuanto ms elevada o apuntalada
sea la distribucin. La medida de esta propiedad se har por referencia a la curtosis que posee la
distribucin o curva normal, que recibe el nombre de distribucin normal, o tambin campana de Gauss.
Esta distribucin es simtrica con respecto a su media y verifica que el valor de las potencias cuartas de
las desviaciones de las observaciones a la media aritmtica, (xi - )4, vale precisamente tres veces lo
mismo que la potencia cuarta de su desviacin tpica, 3 4.
Se utiliza para medirla un coeficiente que se basa en la cuarta potencia de los desvos de los
valores de la variable respecto a su media, xi - (o bien para la muestra, xi -x ), con el siguiente
criterio:
76
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
Coeficiente de curtosis:
k
/ n
xi x
m4
=
g2 =
2
s4
s2
( )
donde m4 son los momentos verdaderos (puntos medios menos la media) de cuarto orden basados
en (xi - )4.
g2 < 3: platicrtica;
g2 = 3: mesocrtica;
g2 > 3: leptocrtica.
El ndice se lleva a valor cero para la mesocrtica, restndole 3 unidades, como:3-3 = 0. De este
modo, el ndice en una platicrtica resultar menor a 0 y en una leptocrtica mayor a 0.
Contenido informativo
Permite visualizar, para un conjunto de datos,
informacin con relacin a las cuatro propiedades
estadsticas de los datos:
a) Posicin o tendencia central
b) Dispersin general y presencia de datos atpicos.
c) Asimetra
d) Curtosis
77
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
xmx
q3
xmx
q3
xmx
Ejemplo 4.10. Se trata de construir un diagrama de caja con los datos de una muestra de datos de
peso, en kg (n=20)
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
q2 =
xd
5) Interpretacin grfica
Muestra 1
Muestra 2
Notar que claramente se muestra que los valores extremos de las muestras son
algo diferentes y que la distribucin general de los datos tambin lo es: en la
muestra 1 la divisin de la caja indica mayor variabilidad para los datos por
encima de la mediana, mientras que en la muestra 2 ocurre esto con los datos
inferiores a la mediana.
Ejemplo 4.11: Supngase que adems de la muestra de pesos analizada precedentemente, se dispone
de los datos de una segunda muestra
35 38 32 28 30 29 27 19 48 40
39 24 24 34 26 41 29 48 28 22
y al representar los datos del anlisis resulta el siguiente diagrama de caja
79
Ctedra de Clculo
culo Estadstico y Biometra Facultad de Cien
iencias Agrarias UNCUYO / Ciclo 2014
Para finalizar, cabe explicar el caso de los diagramas de caja que muestran valores atipicos (outliers).
El cuerpo principal de un diagrama de caja muestra el patrn general de comportamiento que tienen los
datos, pero a veces resulta que se tienen algunos datos con un valor inusual, esto es, datos muy
grandes o muy pequeos con relacin al patrn general de los datos. Estos datos con valores que se
alejan de los restantes pueden deberse a efectos de causas extraas, como algn error de medicin o
registro pero tambin pueden tener otra explicacin. Por tanto su eliminacin no debe ser precipitada y
se justifica recurrir al diagrama de caja para mostrarlos en forma particular. A tal efecto, se requiere
agregar otra informacin al diagrama de caja: la correspondiente a dos tipos de bordes o barreras,
internos y externos, que se definen teniendo en cuenta el recorrido intercuartlico (RI), que se calcula
como la diferentica entre el cuartil superior y el cuartil inferior del siguiente modo:
Barreras internas
Barrera interior inferior = Primer cuartil 1,5 RI
Barrera interior superior =Tercer cuartil + 1,5 RI
Barreras externas
Barrera exterior inferior = Primer cuartil 3 RI
Barrera exterior superior = Tercer cuartil + 3 RI
80
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014
Barrera
interior
superior
Borarrera
interior
inferior
Barrera
exterior
superior
Datos atpicos
q3 +1,5 RI
q1 -1,5 RI
Cola
Izquierda
(25% datos)
Datos atpicos
extremos
q1 q2
q3
Cola
Derecha
(25% datos)
Recorrido
Intercuartlico
q1 -3 RI
RI = q3 q1
(50% datos)
q3 +3 RI
Si existen valores de la variable atpicos, segn la magnitud de sus desvos, se los encontrar
comprendidos entre las barreras interiores y exteriores.
Un valor atpico sospechoso o leve, se marca en la grfica con un crculo relleno (), en
cambio un valor atpico extremo o severo se suele indicar con un crculo vaco (o) o un
asterisco (*).
Los bordes internos y externos se muestran en el grfico 4.8. con lneas discontinuas, pero
usualmente no se dibujan en el diagrama de caja. Cualquier medicin que est entre los bordes interno y
externo se llama valor atpico sospechoso, y cualquier medicin que est ms all de los bordes
externos es u valor atpico extremo. Las mediciones que quedan al ubicarse dentro de los bordes, no
son raras. El diagrama de caja tambin marca el rango de las mediciones dentro del borde al localizar
los valores adyacentes, es decir las mediciones ms grande y ms pequea antes de los bordes
internos.
Algunas preguntas que conviene formularse para una mejor interpretacin y comprensin del
comportamiento de la variable observada, son:
Cules son los conceptos del anlisis descriptivo (estadgrafos) que pueden analizarse en este
tipo de grfico?
Qu valores han tomado esos estadgrafos?
Qu porcentaje de datos representa la caja?
Qu porcentaje representa cada uno de los bigotes?
Siempre se encuentra la mediana en el centro de la caja?
Puede ser un bigote ms largo que otro?. Qu estara indicando, si as fuera?
Para qu sirven las barreras?
81
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014