Sunteți pe pagina 1din 43

UNIDAD I: ESTADSTICA DESCRIPTIVA

ANLISIS DESCRIPTIVO

TEMA

DE VARIABLES CUANTITATIVAS
4.1.Introduccin
4.2.Propiedades estadsticas de las variables cuantitativas
4.3. Descripcin de muestras pequeas
4.3.1. Herramientas para el anlisis grfico
4.3.2. Herramientas para el anlisis numrico
4.4. Descripcin de muestras grandes
4.5. Distribuciones de frecuencias de variables cuantitativas
(datos agrupados)
4.6. Propiedades de las distribuciones de variables
cuantitativas en muestras grandes
4.7. Variables discretas
4.7.1.Herramientas para el anlisis grfico
4.7.2.Herramientas para el anlisis numrico (estadgrafos)
4.7.2.1. Medidas de posicin
4.7.2.2. Medidas de dispersin
4.7.2.3. Medidas de forma: asimetra y curtosis
4.8. Variables continuas
4.8.1. Herramientas para el anlisis grfico
4.8.2. Herramientas para el anlisis numrico (estadgrafos)

4.1. INTRODUCCIN
Continuando con la descripcin estadstica de conjuntos de datos empricos, que se
corresponden con los valores de una variable observada, que generalmente en el caso de una variable
cualitativa se obtienen mediante la observacin y que para el caso de una variable cuantitativa surgen
por recuento o medicin instrumental de una caracterstica o propiedad (datos univariados) o de dos
(datos bivariados) o ms (datos multivariados) en las unidades de anlisis que componen una muestra,
este captulo y el siguiente enfocarn el anlisis numrico y grfico de los datos de naturaleza
cuantitativa.
Se vio la sencillez de la descripcin estadstica en el caso de las variables cualitativas, tanto a
travs de las herramientas grficas como las numricas. Contrariamente, la descripcin estadstica de
las variables cuantitativas, dado que los datos surgen de aplicar los niveles de medicin ms altos
(escala de intervalo o escala de razones), presenta un mayor grado de dificultad y requiere un
tratamiento previo del significado del concepto propiedades estadsticas de los datos cuantitativos en
masa o simplemente de las propiedades estadsticas. Estas propiedades se deben a la naturaleza
aleatoria que presentan los datos empricos correspondientes a fenmenos que resulta de inters
estudiar en el campo del futuro desempeo profesional, y permiten describir diferentes aspectos que
presentan las distribuciones de frecuencias muestrales para poder comprender el comportamiento
emprico general, y a partir de esto poder desarrollar modelos tericos explicativos que representan las
leyes generales que rigen la ocurrencia de los hechos naturales, ecolgicos, productivos, econmicos,
etc.
Lo que antecede justifica plenamente el estudio de las propiedades estadsticas que presentan
las muestras de datos cuantitativos cuando se los analiza en masa. Siguiendo el enfoque ya
presentado, para esto se puede recurrir a herramientas grficas (visualizacin: diagramas y grficos) y
numricas (cuantificacin: medidas descriptivas o estadgrafos), que se elegirn teniendo en cuenta el
tipo de variable y el tamao muestral.

4.2. PROPIEDADES ESTADSTICAS DE LAS VARIABLES CUANTITATIVAS


Los fenmenos que resultan de inters en el campo de las ciencias con pertinencia en las
carreras de la Facultad, presentan una caracterstica comn: no tienen un comportamiento constante. Al
registrar datos relacionados resulta que siempre muestran variacin y esto lleva a su caracterizacin
estadstica mediante el anlisis descriptivo y el anlisis inferencial, que se realizan respectivamente, en
una etapa inicial y en una etapa a posteriori. El anlisis completo permite establecer leyes, denominadas
39
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


leyes estocsticas o probabilsticas,
probabilsticas que son explicaciones acerca de una clase de hechos posibles (idea
poblacional), que se inducen a partir del conocimiento obtenido por medicin de ocurrencias singulares
(realidad particular o muestra). Significa que las leyes
l
que verdaderamente explican los hechos de la
vida real son esquemas objetivos sujetos los procesos existentes que son regulados por ciertas
relaciones constantes, en otras palabras, son formas generales que se descubren y representan la
variacin de los procesos reales y sus propiedades.
propie
A esta clase de ley, que rige independientemente de
nuestra voluntad o nuestra conciencia, porque son inherentes a la naturaleza y la sociedad, es
denominada Iey objetiva. Ahora bien, cuando el hombre descubre una ley objetiva, trata de expresarla
en
n forma racional mediante la forma de una ley cientfica. La ley cientfica se construye, tanto mejor
cuanto sea el conocimiento que el cientfico posee sobre los hechos reales, pero nunca llega a coincidir
por completo con la ley objetiva. Sin embargo la gran ventaja de disponer de leyes cientficas es que el
hombre puede transformar los efectos de una ley cambiando las condiciones de los procesos afectados.
Las leyes cientficas no determinan como ocurren Ios procesos, sino que expresan lo que
ocurrir en un cierto proceso cuando se cumplan tales y cuales condiciones. En este sentido, las leyes
cientficas desempean la funcin de predecir lo desconocido,
desconocido, con base en lo conocido. Es decir que las
leyes cientficas sirven como instrumentos
instrumentos de las investigaciones posteriores, y de esta manera,
posibilitan el avance del conocimiento de las ciencias al aportar explicaciones acerca del qu, el dnde,
el cundo, el cmo y el por qu de Ios procesos existentes. A modo de resumen
resumen, se puede decir que las
funciones de la ley son las propias del conocimiento cientfico: explicar y predecir el curso de los
fenmenos o hechos que son de inters en el mundo real.
Al desarrollar la unidad de probabilidad e inferencia, se comprender el fundamental papel que
tienen los mtodos estadsticos en la formulacin de las leyes cientficas. En este captulo comenzar a
visualizarse la idea del comportamiento de datos, que varan con regularidad estadstica. Naturalmente
al tratarse del estudio descriptivo de
d muestras, no se satisfacer la condicin de generalidad que tienen
las leyes, las explicaciones que puedan construirse a partir de datos particulares tendrn un alcance
acotado: sern explicaciones vlidas para la muestra en cuestin, que solamente servi
servirn
rn de base para
comenzar a vislumbrar algo posible para la poblacin, un conocimiento que se aprender a formalizar a
mediante el enunciado de hiptesis.
hiptesis
Con esta finalidad, se har una introduccin general de las propiedades de la distribucin de los
datos, que pueden ser examinadas
examina
en una muestra; ellas son las siguientes
siguientes:
El posicionamiento
La dispersin
La forma
Solamente se pretende que el alumno tome una idea general de los aspectos que deben ser
analizados cuando dispone de datos de una muestra univariada donde la variable es de naturaleza
cuantitativa, y comience a juzgar frente a cada uno de los casos que ser
sern
n presentados, cules
corresponde describir y cules no, por el alcance que tienen los datos.

4.2.1. El posicionamiento
La primera propiedad estadstica a analizar con el objetivo de caracterizar el patrn de
variabilidad general de las masas de datos muestrales,
muestrales, es el posicionamiento. Se ha visto que al
definir el recorrido de una variable cuantitativa, que se debe dejar en claro el campo de variacin
numrico que tiene dicha variable, y que se ha recurrido en referencia a los conjuntos de los nmeros
naturales (datos de conteo) y reales (datos de medicin), asociados respectivamente a variables
discretas y variables continuas. La propiedad de posicionamiento se refiere a como se ubican o toman
posicin los datos en masa de la variable en una escala numrica, que por lo general se representa en
el eje de las abscisas de un sistema cartesiano.
cartesiano Estadsticamente se la cuantifica con los denominados
estadgrafos de posicin,, que pueden clasificarse como estadgrafos de centralizacin y estadgrafos
no centrados.
En
n general los datos de las distribuciones empricas suelen presentar tendencia a ubicarse a lo
largo del recorrido de la variable, en un mayor o menor grado, en una posicin ms o menos central
central; una
propiedad de distribucin general que se conoce como tendencia
encia central
central,, y en correspondencia se
habla de las medidas
edidas de la tendencia central que en general son las medidas promedios
promedios. Un promedio
se toma como punto tpico de los datos, es un valor alrededor del cual se agrupan los dems valores de
la variable. Adems
ems se completa la descripcin del posicionamiento general de los datos a travs de los
estadgrafos no centrados, que se refieren a la mayora de los percentiles, cuartiles y deciles
deciles,, y de una
medida que puede resultar centralizada o no, denominada la mediana.
mediana.

4.2.2. La dispersin
La segunda propiedad estadstica a analizar con el objetivo de caracterizar el patrn de
variabilidad general de las masas de datos muestrales, es la dispersin. Cualquiera sea el caso, la
descripcin estadstica de variables cuantitativas debe incluir una medida de la posicin y una de
dispersin.
40
Ctedra de Clculo Es
Estadstico y Biometra Facultad de Ciencias
ias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


El concepto de dispersin en Estadstica, se refiere a que los datos empricos no varan en forma
catica, sino a que fluctan con cierta regularidad con relacin a alguna medida de posicin tomada
como referencia (generalmente el valor de la media), y por ende
ende, las medidas de dispersin contienen
informacin acerca del grado en que los datos se aproximan o alejan con respecto a ella
ella,, en otras
palabras si los valores estn prximos entre s o si por el contrario estn o muy dispersos.

4.2.3. La forma
Cuando se dispone de muestras grandes, resulta de inters analizar otras dos propiedades en
relacin al colectivo de datos, que dan informacin sobre el aspecto de forma de la distribucin, ellas
son: la asimetra y la curtosis.
curtosis Ambas propiedades se miden numricamente a travs de sendas clases
de coeficientes.
s refiere a que los datos se distribuyen de forma similar a
a) Asimetra: la condicin de simetra se
derecha e izquierda del punto central.
central Esto
sto es como imaginar un eje perpendicular ubicado en el valor
central y hacer una comparacin de la partes laterales, encontrando la mitad izquierda de su
distribucin es la imagen especular de su mitad derecha. E
Es decir que hace referencia
ncia a la
caracterstica de una reparticin de datos equilibradamente por encima y por debajo de la tendencia
central. Contrariamente la condicin de asimetra o sesgo, hace referencia a que los datos tienden a
repartirse de modo diferente, en correspondencia
correspondencia a los valores inferiores al promedio y los valores
superiores a ste. La consecuencia de la falta de simetra es que afecta la inferenci
inferencia
a con respecto al
valor central, de modo que un valor medio tomado como representativo del conjunto puede no serlo
tanto.
Las posibilidades que pueden presentarse con relacin a la propiedad de asimetra son:
Caso de distribucin asimtrica positiva; cuando la distribucin se extiende marcadamente
hacia el lado de valores que se encuentran por encima del valor central por la existencia de
unidades de anlisis con valores que se posicionan en la parte muy alta de la escala (cola
derecha pesada)),
Caso de distribucin simtrica:
sim
cuando se distribuyen aproximadamente la misma cantidad de
valores en ambos lados del
de valor central
Caso de distribucin asimtrica negativa: cuando la distribucin se extiende marcadamente
hacia el lado de valores que se encuentran por debajo del valor central por existencia de
unidades de anlisis con valores que se posicionan en la parte muy baja de la escala (cola
izquierda pesada),
pesada
As por ejemplo, si un monte frutal no es bien conducido, es de esperarse que la distribucin de
frecuencias del rendimiento por planta (kg) resulte con sesgo positivo,, puesto que la mayora de
los de los frutales producirn poca fruta y unos pocos darn mucha
mucha.. Si por el contrario el monte
es bien conducido, se puede esperar una distribucin del rendimiento con sesgo negativo,
vo, dado
que la mayora de las plantas produciran
produci
mucha fruta y unas pocas darn bajo
o rendimiento.
rendimiento Si
el monte presenta una situacin normal en la conduccin, lo ms probable es que la distribucin
resulte simtrica.
b) Curtosis: el nombre de esta propiedad se deriva etimolgicamente del trmino griego kurtos,que
significa convexo, y que comenz
omenz a utilizarse en el contexto de la matemtica significando
curvatura. La
a propiedad se relaciona con dos aspectos que hacen a la forma de la distribucin: 1) el
grado de apuntalamiento que posee una distribucin de frecuencias en su parte central, y, 2) las
colas, o partes extremas de la distribucin,
distribuci
en cuanto a si se extienden hacia valores alejados del
central o no. La consecuencia de una alta curtosis es que afecta la inferencia con respecto a las
medidas de dispersin.
Las posibilidades que pueden
pueden presentarse con relacin a la propiedad de curtosis se establecen
tomando como referencia una distribucin que grficamente posee una forma campanular armnica:
Caso de distribucin leptocrtica; cuando la distribucin muestra gran alzada o un aspecto
puntiagudo en el entorno al valor central y adems posee colas estiradas,, esto es, la
distribucin de los datos se extiende marcadamente tanto hacia el lado de valores que se
encuentran muy por debajo del valor central como hacia el lado de valores ubicados muy por
encima del mismo. En general el grfico de la distribucin ttiene una forma estilizada.
Caso de distribucin mesocrtica: cuando se distribuyen aproximadamente la misma cantidad
de valores en ambos lados del
de valor central
Caso de distribucin platicrtica: cuando la distribucin muestra un aspecto aplastado o de
meseta en el entorno al valor central y adems posee colas cortas, esto es, la distribucin de
los datos se extiende poco tanto hacia el lado de valores que se encuentran muy por debajo del
valor central como hacia el lado de valores ubicados muy por encima del mismo. En general el
grfico de la distribucin tomar una forma estilizada
La descripcin estadstica de las distribuciones de frecuencias, a travs de las propiedades del
colectivo de datos muestrales, permitir el primer acercamiento hacia la modelizacin del
comportamiento de las variables en el contexto poblacional, el cual se aprender a expresar utilizando
leyes probabilsticas o estocsticas que sirven para dar sustento a las leyes cientficas.
41
Ctedra de Clculo
culo Estadstico y Biometra Facultad de Cien
iencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA

4.3. DESCRIPCIN MUESTRAS PEQUEAS (UNIVARIADAS)


A diferencia de los datos categricos respecto a los cuales siempre se dispone de una muestra
grande, se ha visto que en el caso de los datos cuantitativos se pueden presentar dos situaciones: el
caso de muestras pequeas y el caso de muestras grandes, y en cada caso corresponder realizar la
descripcin que corresponda, recordando lo expuesto al inicio de este captulo, para caracterizar el
patrn de variabilidad que posee la variable en estudio.
Propiedades estadsticas a describir en:
muestras pequeas de datos cuantitativos
Tamao

Propiedades
Posicionamiento (tendencia central y otra)
Dispersin

Pequeo

4.3.1. Herramientas para el anlisis grfico


4.3.1.1. Presentacin tabulares
En el caso de muestras pequeas este tipo de descripcin no es utilizada. La organizacin de los
datos solo puede arrojar una distribucin simple.

4.3.1.2. Representacin grfica


4.3.1.2.1. Diagrama de puntos o puntigrama.
Un diagrama elemental que resulta muy til para visualizar global e individualmente un conjunto
pequeo de datos, o razonablemente pequeo con pocos datos diferentes, es el diagrama de puntos, o
puntigrama. Se trata de un tipo de graficacin que es muy utilizada en el anlisis exploratorio de datos.
Definicin 4.1.
El diagrama de puntos, consiste sencillamente, en representar los valores observados de la
variable en estudio como puntos sobre un eje horizontal.
Construccin: cada dato se representa con un punto encima de la correspondiente localizacin en una
escala horizontal de medida. Cuando existen valores repetidos, se dibuja un punto por cada ocurrencia
en formato vertical.
Interpretacin: se deber analizar donde se produce la mayor concentracin de datos (tendencia) y la
dispersin que presenta la muestra. Esto ltimo significa identificar si el patrn de variacin es ms o
menos regular o no, identificar los valores extremos y detectar datos atpicos, que son datos que tienen
la particularidad de tomar valores muy alejados (numricamente distantes) del grupo general de datos
Esto es importante porque las medidas estadsticas derivadas de conjuntos de datos que incluyen
valores atpicos suelen arrojar informacin engaosa.
De la bibliografa se han extrado datos que corresponden a residuos de cloro (ppm) en un
depsito de agua de lluvia despus de haber sido tratada para su potabilizacin: 1,8-0,9-1,2-1,4-1,5-1,41,7-1,1-1,2. Los datos se muestran en el grfico 4.1, que corresponde a un diagrama de puntos. En l se
pueden analizar con rapidez y facilidad las principales caractersticas de los datos muestrales, esto es su
posicionamiento en la recta de los nmeros reales y adems, se puede observar cul es la tendencia
central y la variabilidad que presentan.

0,7

0,8

0,9

1,1

1,2

1,3

1,4

1,5

1,6 1,7 1,8 1,9


Residuos de Cloro (ppm)

Grfico 4.1: Diagrama de puntos para residuos de cloro en tratamientos de un depsito de agua

Por ejemplo, se nota que la parte media de los datos se encuentra entre 1,2 y 1,4, aunque ms
cerca de 1,4 ppm. Tambin se observa que los valores mnimo y mximo han sido, respectivamente, 0,9
y 1,8, por lo tanto la amplitud de los valores es de 0,9 ppm (1,8-0,9).
A menudo se puede presentar la necesidad de comparar dos o ms conjuntos pequeos de
datos, como ocurre en el campo de la experimentacin donde se trabaja con muestras pequeas. Por
ejemplo, se ha realizado un experimento para comprobar si la aplicacin de tratamiento fitosanitario para
prevenir ataque de peronspora en vid tiene un efecto fitotxico, que se traduce en una disminucin de
la expresin vegetativa. Para esto al momento de la poda, se pesa el material eliminado en diez plantas
sin tratar (testigo) y en diez tratadas, que se seleccionan, en ambos casos, al azar. Los resultados
obtenidos, en kg/planta, son:
42
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Testigo

17,50 - 17,63 - 18,25 - 18,00 - 17,86 - 17,75 - 18,22 - 17,90 17,96 17,80

Tratada

16,85 - 16,40 - 17,21 - 16,35 - 16,52 - 17,04 - 16,96 - 17,15 16,59 16,10

El diagrama de puntos del grfico 4.2 muestra los dos conjuntos de mediciones, donde los
asteriscos corresponden a las plantas tratadas y los puntos a las plantas testigo. Ntese que
rpidamente el diagrama de puntos revela que las plantas tratadas han producido menos material de
poda, y puede esperarse que el valor medio se encuentre ms o menos centrado, mientras que en el
caso de las plantas testigo, este valor estara un poco desplazado hacia la izquierda. Continuando con el
anlisis comparativo, se puede ver que adems los resultados han sido ms variables en el caso de las
plantas tratadas.

16,00

16,50

17,00

17,50

18,00

18,50
Kg/pl
Grfico 4.2: Diagrama de puntos para produccin de material de poda (kg/pl),
en vides tratadas () y no tratadas ()

No obstante, cabe aclarar que cuanto ms pequeo sea el nmero de datos, ms difcil se puede
hacer la tarea de identificar patrones de variacin especficos a travs de estos diagramas. Tambin
resulta claro ver, que no son representaciones adecuadas para conjuntos numerosos de datos.

4.3.1.2.2. Diagrama de tallo-hoja


El diagrama de tallo y hoja es una buena manera de hacer una descripcin grfica de conjuntos
de datos que no son demasiado pequeos y que adems estn formados por al menos dos dgitos.
Definicin 4.2
El diagrama de tallo-hoja, consiste en representar los valores observados de la variable en diferentes
renglones y en relacin a una lnea vertical, de tal modo que: a la izquierda de la misma se colocan
los primeros dgitos o dgitos principales, constituyendo el tallo y, a la derecha, en correspondencia se
ubica ordenadamente de menor a mayor el ltimo dgito de cada nmero, de tal modo que cada uno de
ellos se considera como una hoja.
Para construir un diagrama de tallo y hoja (del ingls, Stem-and-Leaf Diagram), supngase que
los datos de la variable estn formados por dos dgitos (12-18-12-15-26-27-30-30-39), luego solo basta
separar en cada dato el ltimo dgito de la derecha (que constituye la hoja) del bloque de los primeros
dgitos (que formarn el tallo), esto es:
Tallo
1
2
3

Hoja
2258
67
009

El grfico es doblemente informativo: no se pierden los datos brutos y, adems muestra el perfil como
se distribuyen en general los datos es decir, permite tomar una idea acerca del patrn de variabilidad de
la variable. A continuacin se dan algunos ejemplos ilustrativos:
a) Horarios de llegada de los trenes que cubren el trayecto entre dos ciudades

Tabla de datos ordenados


5.03
6.02
6.18
6.37
6.48
6.55
7.02
7.07
7.20
7.25
22.3

7.32
7.37
7.50
8.02
8.05
8.20
8.24
8.32
8.37
8.51

9.02 11.07 13.32 15.07 16.50 18.32 20.07


9.07 11.32 13.37 15.20 17.02 18.37 20.20
9.24 11.37 13.50 15.32 17.07 18.50 20.32
9.32 12.02 14.02 15.37 17.20 19.02 20.37
9.37 12.07 14.07 15.50 17.32 19.07 20.50
10.02 12.32 14.20 16.02 17.37 19.20 21.02
10.07 12.37 14.32 16.07 17.50 19.32 21.07
10.32 13.02 14.37 16.20 18.02 19.37 21.20
10.37 13.07 14.50 16.32 18.07 19.50 21.32
11.02 13.20 15.02 16.37 18.20 20.02 21.37

43
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Diagrama de tallo y hoja
05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32
08 | 02 05 20 24 32
09 | 02 07 24 32 37
10 | 02 07 32 37
11 | 02 07 32 37
12 | 02 07 32 37
13 | 02 07 20 32 37
14 | 02 07 20 32 37
15 | 02 07 20 32 37
16 | 02 07 20 32 37
17 | 02 07 20 32 37
18 | 02 07 20 32 37
19 | 02 07 20 32 37
20 | 02 07 20 32 37
21 | 02 07 20 32 37
22 | 38

37 50
37 51

50
50
50
50
50
50
50
50

En el diagrama de tallo y hoja, est representada la hora a la izquierda de la barra de separacin |


y los minutos a la derecha. Se desprende que la cantidad de trenes en las diferentes horas est
reflejada por la longitud de las filas y adems, es muy fcil ver que hay coincidencia en los minutos de
cada hora en que pasan.
b) Muestra de 25 observaciones del rendimiento de un proceso qumico, que genera un precipitado
cuyo peso es medido, en mg. En el diagrama (a) se observa que los valores extremos han sido 61 y
95 mg, as como que los rendimientos ms comunes estuvieron entre 70 y 80 mg; en tanto, en el
diagrama (b) se puede captar mejor la informacin contenida en los datos observados porque los
valores correspondientes a cada decena se dividen en dos partes, L (del ingl. lower) indica el rengln
donde los valores del ltimo dgito son menores a 5, y U (del ingl. upper) indica el rengln con los
valores igual o superior a 5.
Tallo

Hoja

Tallo

Hoja

6
7
8
9

134556
011357889
1344788
235

6L
6U
7L
7U
8L
8U
9L
9U

134
556
0113
57889
1344
788
23
5

(a)

(b)

Hasta aqu hemos visto que la decisin de recopilar datos, que sean relevantes y
conformen una muestra aleatoria, es slo el comienzo indispensable para empezar a desentraar una
situacin problema de inters. Tambin ya conocemos que cuando las muestras son pequeas (n 30),
en la mayora de los casos, se trabaja directamente con los datos tal cual fueron recolectados, tanto
para su representacin grfica como para el clculo de las medidas descriptivas. Se describe el patrn
de datos, a partir de la obtencin de una distribucin simple o distribucin de datos no agrupados.
Contrariamente, cuando las muestras grandes, los datos brutos o datos sin procesar no resultan de
mucha utilidad, hay que darles una forma comprensible que ponga en evidencia el patrn de
comportamiento que tiene la variable considerada. Para esto, se requiere un tratamiento previo a su
anlisis, que en trminos generales hemos llamado organizacin de los datos, y que muchas veces
consiste en someterlos a un ordenamiento y clasificacin. Luego, el patrn de datos, se describe a partir
de la obtencin de distribucin de datos agrupados.

4.3.2. Anlisis numrico


Se vio que cuando las variables son cualitativas, la descripcin numrica prcticamente se
limita al concepto de frecuencias o proporciones. Si las variables son cuantitativas el espectro se
ampla, de acuerdo a lo siguiente:

44
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Medidas para describir muestras pequeas
Medidas

Propiedades

Media aritmtica, 
Media geomtrica, 
Mediana (*), 
Cuartiles, qi
Deciles, di
Cuantiles
Percentiles, pi
Amplitud o recorrido, 
Varianza, 
Desviacin tpica, 

Tendencia
central
Posicionamiento
Otras

Dispersin

Absolutas

(*) q2 = 

Coeficiente de variacin,  (%)

Relativas

4.3.2.1. Medidas de posicionamiento: Promedios


4.3.2.1.1. Media aritmtica
La media aritmtica, y desde ahora simplemente la media, es la medida de posicin ms
utilizada. Pertenece al grupo de estadgrafos conocido como promedios, y es por excelencia el promedio
pero como se ver no en exclusividad, razn por la cual se aconseja no utilizar el trmino promedio
como sinnimo de media. Se la denota con el smbolo x , y su valor se obtiene matemticamente a
travs de una suma y un cociente

x=

x 1 + x 2 + ... + x n 1 + x n
, donde el numerador x1,x2, ..., xn-1, xn, representa la
n

suma de las n observaciones muestrales.


Esta expresin constituye la frmula explcita o expandida de la media. Comnmente se utiliza una
frmula abreviada que emplea el operador suma, representado con el smbolo griego sigma mayscula
, acompaado de:
a) un subndice que individualiza los trminos que deben sumarse. A saber i=1 expresa que se
suma desde el primer valor de la variable x, esto es  
b) un superndice que indica el ltimo sumando representado genricamente por n, esto es
 


As por ejemplo para una muestra de n=10, la frmula aplicada de la media resultar  =   10.
Definicin 4.3
), de un conjunto de n datos es igual a la suma, desde la i-sima
La media aritmtica muestral (
observacin de la variable estadstica x hasta la n-sima, divida por el tamao muestral n
n

x
x=

i=1

La media como medida de posicin, tiene una importante interpretacin fsica: si cada
observacin se piensa como una unidad de masa colocada sobre el filo de una fina cuchilla (que
representa el recorrido de la variable), y que se coloca un punto de apoyo exactamente en el valor de la
media, resultar que el sistema de masas queda perfectamente equilibrado, de ah la consideracin de
la media como un punto de equilibrio (el peso de las masas a la izquierda de la media iguala al peso de
las posicionadas a su derecha). El concepto se ilustra en el grfico 4.3.


16.0

16.5

17.0

17.5

18.0

kg/planta

x = 16.717 kg/planta
Grfico 4.3: La media muestral como punto de quilibrio de un sistema de pesos.

Al interpretar la informacin grfica, deber prestarse atencin a lo siguiente:


1) la media es un valor calculado de la variable
2) la media tiene la misma unidad de medida que los datos originales.
45
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


3) la media se ha expresado con un decimal ms del que tenan los datos originales
A continuacin se presentar formalmente la media poblacional, . Anlogamente a lo visto
para la media muestral, la frmula de la media poblacional indica que es el promedio aritmtico de todas
las N observaciones de una poblacin1.
Definicin 4.4: Se lee La media aritmtica poblacional (), de un conjunto de N datos es igual a la
suma, desde la i-sima observacin de la variable X, hasta la N-sima, divida por el tamao
poblacional N
N

i=1

Propiedades de la media

Propiedad 1. La suma de los desvos de los valores de la variable x, con respecto a la media, para
el conjunto de n obsercaciones es igual a cero.

(x

x) = 0

i =1

Significa que la suma de desvos negativos (xi <

x ) es igual a la suma de los desvos positivos

(xi > x ). Esto explica de otra forma, por qu la media se interpreta fsicamente como un punto de
equilibrio.
 Propiedad 2. La suma del cuadrado de los desvos de la variable x, con respecto a la media, para el
conjunto de n observaciones es un valor mnimo.
n

(x

x ) 2 = mnimo

i =1

Propiedad 3. La media de la suma de varias variables, o media general, es igual a la suma de las
medias de cada variable

(x + y + z ) = x + y + z

Propiedad 4. Si cada una de las n observaciones muestrales es multiplicada por una constante c,
la media de los datos transformados (c.x), es igual a la constante multiplicada por la media de los datos
originales

cx1 + cx2 + ... + cxn = c.x




Propiedad 5. La media conjunta, x c , de dos series simples est dada por:


x +x
si la cantidad de datos es igual (n1 = n2)
xc = 1 2
2
x1 n1 + x 2 n2
si los conjuntos tienen diferente tamao (n1 n2)
xc =
n1 + n 2

Ntese que se trata de una media ponderada. En el primer caso, no se observa la ponderacin en la
frmula porque al ser idnticos los tamaos muestrales (n1 = n2) ambas medias tienen idntico peso
(ponderacin unitaria). En el segundo las medias se deben multiplicar por los correspondientes
tamaos muestrales (ponderaciones), dado que el valor de la media se ha calculado con diferente
cantidad de informacin. El caso anterior es slo una situacin particular del caso general para k series,
donde la media de medias o media general, x g , para series de igual tamao est dad por:

xg =

x1 + x 2 + .... + x k
k

La media es un valor de variable y por tanto debe expresarse numricamente,


acompaada con las mismas unidades que tiene la variable.
El valor de la media no es un valor de variable observado.

4.3.2.1.2. Mediana

Otra medida de posicin bastante utilizada es la mediana, denotada con  . Este estadgrafo
posee un nombre que hace referencia a una posicin media bajo ordenamiento, relacionada con igual
cantidad de datos a su izquierda ( <  ) y a su derecha ( >  ).

Para la definicin formal de la mediana, y por ende para su clculo, hay que considerar si la
serie de datos es par o impar:

En las situaciones prcticas resultar imposible (o poco prctico o poco econmico) examinar las N unidades que componen
una poblacin, por lo tanto el valor verdadero de la media en la prctica nunca ser conocido. Al desarrollar la unidad de
probabilidad, se estudiarn modelos para representar poblaciones finitas e infinitas y se introducir el concepto de variable
aleatoria y el de esperanza matemtica , como el concepto relacionado con la media poblacional. En la unidad de inferencia
estadstica se darn mtodos para poder inferir o estimar la media poblacional, a partir del conocimiento de la  .

46

Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


a) La mediana de una serie simple que tiene un nmero impar de observaciones, en un arreglo
ordenado por magnitud, toma el valor de la observacin que ocupa la posicin central.
b) La mediana de una serie simple que tiene un nmero par de observaciones, en un arreglo ordenado
por magnitud, toma el valor que corresponde a la media de las dos observaciones centrales
En consecuencia, se requieren dos definiciones formales de la mediana, segn la muestra tenga
un tamao impar, definicin 4.3, o bien par, definicin 4.4.

 = 


Definicin 4.5: Cuando el tamao de la muestra es impar,


la mediana toma el valor numrico que corresponde a la observacin
que ocupa la posicin (n+1)/2, en una serie ordenada por magnitud.

Definicin 4.4: Cuando el tamao de la muestra es par


!" + !"
la mediana, toma el valor de la semisuma de los valores que
corresponden a las dos observaciones centrales, en una serie
 =

ordenada por magnitud
A continuacin se ilustrarn estos conceptos:

Muestra con n impar :


Sea la serie de datos ordenados (n=5)

500

donde las observaciones ocupan el orden

570

590

600

690

El punto de posicionamiento de la mediana es (n+1) / 2, o sea [(5+1) / 2] = 3, es decir que la mediana en


esta serie toma el valor de variable que tiene la unidad de anlisis que se ubica en en centro de la serie
ordenada, por tanto 3 lugar: x d = 590, con la unidad de medida correspondiente.
Muestra con n par :
Sea la serie de datos ordenados (n=6)
donde las observaciones ocupan el orden

12
1

15
2

17
3

25
5

23
4

28
6

El punto de posicionamiento de la mediana est entre (n / 2) y (n / 2) + 1, por reemplazo (6/2) y (6/2) +


1, o sea entre 3 y 4, luego, la mediana para esta serie toma el valor de la semisuma (17+23) /2 , es
decir 20, con la unidad de medida correspondiente.
Una importante aclaracin acerca de la mediana
No confundir nmero de orden con valor de la mediana. El siguiente esquema pretende clarificar el
concepto:

1) Ordenamiento de las unidades de anlisis por


magnitud
2) Asignacin del nmero de orden a las unidades

1 2

3) Identificacin de la unidad/des que ocupa/n en la


serie la/s unidad/es central/les, segn n sea impar o
4) Obtener la mediana (valor que tom la variable en
la unidad central, x(n+1)/2, o valor correspondiente a la
semisuma de los datos que tom la variable en las dos
unidades centrales,

xn / 2 + x( n / 2)+1
2

n impar

x(n+1)/2 = x d

x1 x2 x3 x4

x5 x6

x7

x d = x4

La mediana es un valor de variable observado en el caso de n impar

Cabe aclarar tambin que en el clculo de la mediana, si la muestra tiene observaciones xi


repetidas, se las debe incluir tal cual en la serie ordenada repitiendo el valor las veces que sea
necesario. Por ejemplo, sea el conjunto de datos arreglados el siguiente: 19,8 20,5 21,6 21,6 22,7
23,1 25,0. Como n=7, resulta que la mediana ocupa el 4 lugar, y entonces es igual a 21,6.
La mediana presenta la siguiente ventajas:
1) para el clculo de su valor intervienen las n observaciones y,
47
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


2) a diferencia de lo que acontece con la media, no es afectada por la magnitud que puedan
tener los valores extremos de la serie
Para aclarar, supngase que las observaciones muestrales han sido 1, 3, 4, 2, 7, 6 y 8, en tanto
la media resulta ser igual a 4,4 en tanto que la mediana resulta ser igual a 4. Ambas medidas dan una
idea razonable de la tendencia central de los datos. Ahora supngase que la penltima observacin de
la serie fue 2450. Recalculando se tiene que la media vale 353,6 y que la mediana sigue valiendo 4. En
este ltimo caso, una serie con un valor muy extremo, la media no dice mucho con respecto a la
tendencia central de la mayora de los datos, mientras que la mediana resulta ms adecuada para
representarlos.
Del mismo modo que ocurri con la media, media muestral y media poblacional, adems de la
mediana muestral se puede definir :
Definicin 4.6
La mediana poblacional, como el valor de variable que deja a la mitad de los valores poblacionales
por debajo y a la otra mitad por encima.

4.3.2.1.3. Media geomtrica


En ocasiones se trabajan con cantidades que cambian en un cierto perodo, y se necesita
conocer una tasa promedio de cambio, como por ejemplo, la tasa de crecimiento promedio de un rgano
vegetativo o del crecimiento poblacional en una ciudad o de la inflacin monetaria. En tales caso se
utiliza como medida de la tendencia central la media geomtrica, denotada como  , una medida que
tiene como inconveniente la dificultad que presenta para entender su significado.
Definicin 4.7:
n

xg = n

$ , de un conjunto de n datos muestrales es igual a la raz nque se lee La media geomtrica 


sima del producto de las xi, desde la i-sima observacin de la variable estadstica x, hasta la nsima
i

i =1

Por ejemplo, sea el crecimiento de una cuenta de ahorros que en cinco aos ha tenido las
siguientes tasas: 1,07-1,08-1,10-1,12 y 1,18. Luego, el valor de la media geomtrica est dada por
ejemplo 1,1093 y respresenta el factor de crecimiento promedio que ha tenido el depsito hecho en la
cuenta de ahorro.


 = 5&'  = 5(1,07 1,08 1,10 1,12 1,18 = 1,1093




log x

Mediante la transformacin logartmica, la frmula queda expresada como log x g =

4.3.2.2. Medidas de dispersin


El posicionamiento o la tendencia central es una propiedad que no proporciona informacin
suficiente para describir datos de manera adecuada. Por ejemplo, sean dos muestras en que se ha
determinado la presencia de un cierto componente en ppm:
Muestra 1:
Muestra 2:

130
98

140
128

145
140

150
160

158
165

165
205

En ambos casos la media es igual a 148 ppm. Sin embargo, si se recurre al diagrama de puntos
del Grfico 4.4, se observa que los patrones de variabilidad o dispersin son diferentes, la muestra 2
posee ms variabilidad que la de la muestra 1.

90

110
130
150
170
190
210
Grfico 4.4: Datos de composicin, en ppm, de dos muestras
Referencias: *, datos de la Muestra 1 y, , datos de la Muestra 2

4.3.2.2.1. Amplitud
La medida ms simple de variabilidad es la amplitud de la muestra, tambin conocida como
rango o recorrido de la muestra. La amplitud muestral, es una medida de la extensin o recorrido de la
muestra en la recta de los reales.
48
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Definicin 4.8:
amplitud = x mx - x mn
que se lee La amplitud, de un conjunto de n datos muestrales es igual a la diferencia entre el
mximo y mnimo valor que toma la variable observada.
En el par de muestras donde se midieron las ppm de un cierto componente, la amplitud de la
primera es igual a 165 ppm 130 ppm = 35 ppm, mientras que el de la segunda es 205 ppm 90 ppm =
115 ppm. Segn estos resultados se declara la muestra 1 menos variable, con las precauciones que
implica basarse en una medida absoluta derivada de slo dos valores. Por ejemplo sean ahora los
esquemas de las tres siguientes muestras.
Muestra 1
Muestra 2
Muestra 3



*
******
++++ +++ +

*
+

*
+

Si bien los tres conjuntos son bastante diferentes en su variabilidad, poseen la misma amplitud.
El primero tiene un patrn de dispersin bastante regular a lo largo de toda la escala, el segundo tiene
una alta concentracin de los datos en la parte central pero muestra dos puntos extremos y, el tercero
muestra una concentracin de valores bajos y uno atpicamente alto. Sin embargo, como la amplitud
ignora toda la informacin que existe en la muestra entre las dos observaciones ms extremas, tiene un
uso limitado. Por ejemplo se lo usa mucho en el control estadstico de calidad, donde por lo general se
trabaja con muestras pequeas (n< 10). Pero, para la mayora de las situaciones se prefiere medir la
variabilidad con medidas donde intervengan todas las observaciones, que son las que se describirn
seguidamente.

4.3.2.2.2. Varianza y desviacin tpica


Las medidas ms importantes de la variabilidad son la varianza y la desviacin tpica. Estas
medidas toman en consideracin la forma en que se distribuyen todos los valores de la variable con
respecto a la media.
La varianza muestral, denotada por s2, es un concepto estadstico muy importante, cuya
interpretacin ofrece grandes dificultades. En principio, hay que pensar en nuevos valores de la variable,
los desvos con respecto a la media, (  ). Como se tienen n desvos muestrales, habr que pensar
en un promedio de desvos, esto es (  )1, pero, si se recuerda la primera propiedad de la media,
el resultado de esta expresin siempre ser igual a cero. El problema se puede resolver elevando al
cuadrado los desvos, (  ) , y colocando en el numerador la suma de cuadrados de los desvos
de los valores de la variable con respecto a la media muestral, esto es: (  ) 1. Sin embargo,
esta expresin slo sirve para introducir una interpretacin intuitiva al verdadero concepto de la varianza
muestral y, aunque errtica sirve al efecto de entender que la varianza muestral se aproxima a la idea de
un promedio de los cuadrados de los desvos de los valores de la variable respecto a la media. Para
llegar a la varianza muestral hay que definir previamente otro concepto que es el de grados de libertad.
Los grados de libertad indican porciones de informacin independiente. Si la muestra tiene n
observaciones, se pueden calcular n desvos con respecto a la media. Nuevamente, recordando la
propiedad de la suma de estos desvos, acerca de que su suma es igual a cero, si se tiene una serie de
n desvos, slo n-1 de ellos podrn tomar valores con libertad, pero el restante desvo est obligado a
tomar un valor tal que se cumpla tal propiedad. Por ejemplo, sean los valores de la variable 1,2,3,4, y 5,
por tanto la media es igual a 3. La correspondiente serie de desvos es -2, -1, 0, +1 y ?. El ltimo desvo,
conociendo la citada propiedad, se puede escribir sin necesidad de calcularlo como +2, porque (-2) + (1) + (0) + (1) + (2) = 0. Es decir, que si la muestra tiene un tamao de n, se hablar de que sus grados
de libertad, para calcular la varianza muestral, son igual a n-1.
(  ) + (  ) + + (  )
11
Procedimiento directo para el clculo: se basa en los valores de los desvos (  ), y las frmulas que
se obtienen son frmulas de definicin, pero su uso no es prctico, por lo que posteriormente se
presentar el procedimiento abreviado para el clculo. La varianza muestral es igual a la suma de
cuadrados de desvos respecto a la media muestral dividida por los grados de libertad de donde, resulta
la definicin formal de la varianza muestral.
 =

Definicin 4.9:
n

( x - x )

2
s =

i=1

n-1
que se lee La varianza muestral, s , de un conjunto de n datos es igual a la suma de cuadrados
de desvos (de los valores xi de la variable estadstica x con respecto a su mediax) dividida por
los grados de libertad dados por n-1.
2

Por su parte, la desviacin tpica muestral, tambin denominada desviacin estndar muestral,
representada con s, se deriva directamente de la varianza.
49
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Definicin 4.10:
n

( x - x )

s = s2 =

i=1

n-1
que se lee La desviacin tpica muestral, s, es igual a la raz cuadrada (positiva) de la
varianza.
De las frmulas, tanto para la varianza como para la desviacin tpica muestral, se desprende
que ambas medidas al ser aplicadas arrojan un valor numrico acompaado por la unidad en que se
midi la variable en estudio, y que adems, para el caso de la varianza, esta unidad queda elevada al
cuadrado, por ejemplo cm2, g2, kg2, etc. sta es una de las paticularidades por las que se hace ms dfcil
la interpretacin de esta importante medida, contrariamente la desviacin tpica tiene la deseable
propiedad de medir la variabilidad con la misma unidad de medida de los datos recolectados y en
consecuencia, con la misma unidad de medida que tiene la media, entonces se la puede interpretar
como una distancia en el eje de abscisas o eje x.
Algo ms que se debe notar, a partir de las frmulas, es que ni la varianza ni la desviacin tpica
pueden ser negativas y tomaran el valor cero cuando todas las observaciones fueran exactamente
iguales, es decir en una franca ausencia de variabilidad.
A continuacin se har una ilustracin, para facilitar la comprensin de los clculos utilizando la
frmula definicional de la varianza. La tabla 4.1 muestra los datos de una muestra de n=6,
correspondiente a mediciones de resistencia a la tensin de aleaciones de aluminio-litio.
Tabla 4.1: Clculos para la varianza y la desviacin tpica muestral,por el procedimiento directo.



N medicin
1
2
3
4
5
6

(  )

 

90
128
205
140
165
160

-58
-20
57
-8
17
12

4(  ) = 0

4  = 888


3364
400
3249
64
289
144

4(  ) = 7510





de modo que la varianza muestral y la desviacin tpica resultan iguales a


n

( x - x )

2
s =

i=1

n-1

7510
= 1502 gramos 2
6 -1

en tanto que,

s = s 2 = 1502 = 38,8 gramos

Finalmente se har la interpretacin grfica del concepto de variabilidad. El Grfico 4.5 ilustra los
desvos (  ) sobre la resistencia a la tensin y en ella se observa que se trata de valores de
distancias desde xi al centro de la distribucin. Entre ms grande sea la variabilidad en los datos mayor
ser la magnitud absoluta de estas distancias. Ms claramente, cuanto ms separados o dispersos
estn los datos, mayor ser el valor que tome la amplitud muestral, la varianza y la desviacin tpica,
mientras que cuanto ms concentrados resulten, menores sern los valores de estas medidas. Al elevar
al cuadrado las desviaciones (  ), se magnifican los pequeos y grandes valores, de este modo
existe una estrecha relacin con el valor que muestra la varianza: si es pequea, existe una pequea
variabilidad de los datos, pero si es grande, entonces tambin lo es la variabilidad de los datos
muestrales. En forma anloga la desviacin tpica, relacionada directamente con la varianza, cuanto
mayor resulte, mayor ser la variabilidad de los datos. Luego, s2 y s, miden algo as como la dispersin
promedio en torno a la media; es decir, alrededor de la media las observaciones con valores mayores a
los de la media y con valores menores a sta.
X1

60

80

X2

100

120

X4

X6 X5

140

160

X3

180

200

220

x = 148
Grfico 4.5: Manera en que las desviaciones (xi -x) miden la variabilidad a travs de la varianza

Procedimiento abreviado para el clculo: se basa en los valores de la variable (xi ). La media muy pocas
veces resulta un valor entero, su redondeo arrastra errores al calcular los desvos, por otra parte el
procedimiento directo es poco prctico, en consecuencia las frmulas dadas para s2 y s servirn para
definir los respectivos conceptos, pero en situaciones prcticas se recurrir al procedimiento abreviado
de clculo.
50
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Las frmulas abreviadas son equivalentes a las frmulas de definicin. Los denominadores son
exactamente iguales y se modifican slo los numeradores, que se obtienen desarrollando la suma de
cuadrados de desvos del siguiente modo:


4(  ) = 4(  2  +   ) =






4 


2 4   + 4  




Si se reemplaza  por su igual, y se contina operando algebraicamente, se llega a la frmula buscada


para el clculo de la suma de cuadrados por el procedimiento abreviado.


4( 


Definicin 4.11:

)

= 4 


(  )
1

( xi )2

x
2
s =

2
i

i=1

i=1

n -1
que se lee La varianza muestral, s2, de un conjunto de n datos es igual a un cociente, que tiene:
a) por numerador a la suma total de cuadrados de los valores de la variable estadstica x
menos el cuadrado de la suma de los valores observados xi , dividida por el tamao
muestral n, y
b) como denominador a los grados de libertad.
Por su parte, la desviacin tpica muestral, como ya se vio, se obtiene a partir de   .

Para ilustrar los clculos se usarn los datos muestrales ya presentados en la tabla 4.1, obteniendo su
suma o total, y la que corresponde a sus cuadrados segn se puede ver en la tabla 4.2
Tabla 4.2:. Clculos para la varianza y la desviacin tpica muestral,por el procedimiento abreviado
2
N de medicin
xi
xi
1
2
3
4
5
6

90
128
205
140
165
160

8100
16384
42025
19600
27225
25600

x = 888
( x ) = 888
i

= 138.934

Reemplazando, resulta:

(888)
6 = 7510 = 1502 (:) ;,
 =
 = (  = 1502 = 38,8 :
61
5
Se observa que estos resultados concuerdan exactamente con los obtenidos por el procedimiento
directo.
138.934

Frmulas para el clculo de la varianza


Con frecuencia los alumnos suelen cometer errores al aplicar las frmulas de la varianza, por reemplazos
numricos incorrectos. Notar lo siguiente:
Procedimiento directo

Procedimiento abreviado

( x - x )

2
s =

( xi )2

i=1

n-1

Se utilizan los valores observados de la variable


para calcular los desvos (  ) que aparecen
en la frmula.

2
s =

2
i

i=1

i=1

n -1

Se utilizan los valores observados de la variable (xi).


Adems:
n

a) el trmino

2
i

se lee suma de los cuadrados

i= 1

de los valores observados.


2

n
b) el trmino xi se lee cuadrado de la suma
i=1
de los valores observados

51
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA

Propiedades de la varianza
Como en el caso de la media, se enunciarn las propiedades de la varianza, que debern ser
tenidas en consideracin en varias oportunidades a lo largo del curso.

Propiedad 1. La varianza de una constante c es igual a cero, esto es s c = 0

Propiedad 2. La varianza del producto (o cociente) de una constante por una variable es igual al
producto (o cociente) del cuadrado de la constante por la varianza de la variable

Propiedad 3. La varianza de la suma de una constante y una variable es igual a la varianza de la


variable original
2
var (c + x) = s x

 Propiedad 4. La varianza de la suma de dos variables X e Y, cada una basada en n datos


expresados en la misma unidad de medida, es igual a la suma de las varianzas de cada grupo ms dos
veces la variacin conjunta de las variables X e Y, o covarianza

var (x + y) = s2x + s2y + 2 cov (x,y)


La varianza, al igual que la media, debe expresarse numricamente, acompaada con las unidades
en que se ha medido la variable

4.3.2.2.3. Varianza y desviacin tpica poblacional


Anlogo a la varianza de la muestra s2, existe una medida de variabilidad en la poblacin,
conocida como varianza poblacional. Utilizaremos para su identificacin la letra griega 2 (sigma
cuadrada). Cuando la poblacin es finita y est formada por N valores, la varianza poblacional puede
definirse como:
Definicin 4.12:
N

2=

( xi - ) 2

i =1

que se lee La varianza poblacional, , de un conjunto de N datos poblacionales es igual a la


suma de los cuadrados de los desvios (de los valores xi de la variable X con respecto a su media
), desde el i-simo valor de la variable X, hasta el N-simo, dividida por el tamao poblacional
N.
La raz cuadrada positiva de 2 , esto es , denota la desviacin estndar poblacional.
2

= 2
que se lee La varianza poblacional, 2 , de un conjunto
Anteriormente se dijo que la media muestral puede emplearse para hacer inferencias sobre la
media poblacional. De manera similar, la varianza muestral puede utilizarse para hacer inferencias sobre
la varianza poblacional.
Ntese que el denominador para la varianza muestral es el tamao de la muestra menos (n 1),
mientras que para la varianza poblacional es el tamao de la poblacin N.
Si se utiliza n como denominador en la varianza muestral, entonces se obtendr una medida de
2
variabilidad que es, en promedio, ms pequea que la verdadera varianza poblacional , se tendra una
2
estimacin sesgada de .

Si fuese posible conocer el verdadero valor de la media poblacional , entonces la varianza


muestral podra calcularse como el promedio de los cuadrados de las desviaciones alrededor de de las
observaciones de la muestra. En la prctica el valor de casi nunca se conoce, de modo que en lugar
de lo anterior debe emplearse la suma de los cuadrados de las desviaciones alrededor del promedio de
la muestra, x. Sin embargo, las observaciones xi tienden a estar ms cerca del promedio de la
muestra,x, que de la media poblacional, . Por consiguiente, para compensar esto se utiliza n -1 como
denominador, en lugar de n.
Otra manera de pensar lo anterior es considerar la varianza muestral s2 como basada en  
grados de libertad. El trmino grados de libertad proviene del hecho de que la suma de las n
52
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA

), ( 
), , ( 
), siempre es cero, de modo que la especificacin de
desviaciones ( 
cualesquiera   de estas cantidades determina de manera automtica la restante. Por lo tanto, slo
), estn determinadas de manera arbitraria.
  de las n desviaciones, (= 

>=: @ =  , ABCDAE E =

ED
@

O sea, se puede decir que la varianza muestral es igual a la suma de cuadrados (de desvos) dividida
los grados de libertad.

4.3.2.2.4. Coeficiente de variacin


A diferencia de las anteriores medidas de dispersin, el coeficiente de variacin es una medida
de dispersin, relativa y adimensional, que en trminos porcentuales indica, la dispersin de una serie
de datos respecto al valor medio.
Definicin 4.13:
El coeficiente de variacin, representado con el smbolo CV, mide la dispersin relativa de los datos
respecto a la media. Se lo puede calcular de la siguiente manera:

CV =

s
x

donde s es la desviacin tpica o estndar de un conjunto de datos muestrales, y x x raya es su


media. Adems se lo suele expresar en forma porcentual

s
%CV = 100
x
Como medida relativa, el coeficiente de variacin es til:
a) sobre todo cuando se compara la variabilidad de dos o ms conjuntos de datos expresados en
diferentes unidades de medicin.
b) cuando se comparan dos o ms conjuntos de datos que se miden en las mismas unidades, pero que
difieren mucho.
El coeficiente de variacin poblacional es igual a:
%CVpob =

100

Desde el punto de vista prctico, para interpretar el coeficiente de variacin en trminos generales se
puede utilizar el siguiente criterio:
Valores del CV
Ensayos en laboratorio

Interpretacin

Pruebas de campo

0 < %CV < 10%

Bajo

0 < %CV < 10%

10 < %CV < 15%

Aceptable

15 < %CV < 25%

> 15%

Alto

> 25%

Se deduce que siempre deben esperarse valores de coeficientes de variacin menores asociados a los
ensayos donde se ejerce mayor control (laboratorio).

4.4. DESCRIPCIN PARA MUESTRAS GRANDES


Cuando se dispone de una muestra pequea de datos cuantitativos se ha visto que el anlisis
grfico y numrico se aplica sobre una distribucin simple de frecuencias. Particularmente en este
captulo se presentar el anlisis grfico y numrico relacionado con distribuciones de frecuencias de
datos agrupados, referidos a los dos tipos de variables cuantitativas: discreta y continua. Dado que al
tratarse de variables que en muestras de tamao grande pueden tomar numerosos valores de la
variable, la etapa inicial del anlisis descriptivo estar destinada a obtener tales distribuciones de
frecuencias, y la siguiente etapa a aplicar las herramientas grficas y numricas que en este caso
presentan muchas posibilidades.

4.5. DISTRIBUCIONES DE FRECUENCIAS DE VARIABLES CUANTITATIVAS


En muestras grandes, el objetivo de la organizacin, esencialmente es resumir la cantidad de
datos. El criterio a aplicar es: a) agrupar los datos en clases cualitativas o numricas y, b) contar la
cantidad de datos que resulta clasificado en cada grupo; esos conteos reciben el nombre de
frecuencias. La serie completa de clases puestas en correspondencia con los conteos o frecuencias, se
denomina distribucin de frecuencias.
53
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


El trmino frecuencias es de carcter general, segn el objetivo, ser el tipo de frecuencias que
utilicemos: frecuencias absolutas, frecuencias relativas, frecuencias acumuladas o frecuencias
expresadas en porcentaje.
Las distribuciones de frecuencias de variables cualitativas y cuantitativas pueden ser
presentadas en forma analtica a travs de una tabla de distribucin de frecuencias, o bien en forma
grfica a travs de representaciones grficas. En este ltimo caso los grficos son diferenciados.
Cuando la variable es cualitativa se utilizarn: diagramas de sectores y diagramas de barras. A las
variables cuantitativas se les aplicar: a) diagramas de frecuencias o diagramas de lneas (variables
discretas) o b) grficos varios: histograma, polgono de frecuencias o polgonos de frecuencias
acumuladas (variables continuas).
Con las distribuciones de frecuencias, puede decirse, que se cumple la primer etapa del proceso
de dar sentido a los datos. Una distribucin de frecuencias pone en evidencia a diversos aspectos
sumamente importantes, referidos a las propiedades de los datos en masa, que permiten comprender el
comportamiento de las variables, las cuales en el captulo siguiente sern cuantificadas mediante las
correspondientes medidas descriptivas o estadgrafos.
Resulta conveniente recordar la estructura que poseen las tablas utilizadas para sintetizar la
clasificacin de una muestra de tamao n, en el caso de tener los datos de una variable cualitativa y de
una cuantitativa (discreta y continua), a travs del Cuadro 4.1.
Cuadro 4.1. Sntesis comparativa de la estructura de los datos agrupados segn tipo de variable

Caso: Distribucin de
una variable
cualitativa (clases
categricas)
Clase
( )


.
.
F

Conteo
(1 )
1
1
.
.
1F

Caso: Distribucin de una variable cuantitativa (clases numricas)


Tipo I
Valor observado
de la variable,
( )


.
.
F

Tipo II
Conteo
(1 )
1
1
.
.
1F

Intervalos de
Clases
G ;  )I
G ; J )I
.
.
GFK ; F )I

Conteo
(1 )
1
1
.
.
1F

En todos los casos el conteo hace referencia al nmero de observaciones o mediciones


clasificadas en la clase i-sima de una variable. En el caso de variables cuantitativas discretas esa clase
es de tipo puntual (valor puntual) mientras que en variables continuas se trata de un intervalo de
valores. Con la claridad de este significado, se pasar a formalizar algunos conceptos frecuentistas.
Definicin 4.15.
La serie de clases (cualitativas o cuantitativas) asociadas a sus correspondientes frecuencias, se llama
distribucin de frecuencias, e indica como la frecuencia total o cantidad total de datos se reparte entre
los k agrupamientos realizados.
Segn el tipo de frecuencia considerada se tendr una distribucin de frecuencias (absolutas), una
distribucin de frecuencias relativas o una distribucin de frecuencias acumuladas. Cualquiera de ellas,
se puede presentar tanto en forma tabular como grficamente.
Definicin 4.16
En datos agrupados, la frecuencia absoluta de una clase (cualitativa o cuantitativa), o simplemente
frecuencia, simbolizada con ni, est dada por el nmero de unidades de anlisis clasificado en la clase
i-sima. La serie de frecuencias absolutas, para las k clases, se indica como
n1, n2,,nk

tanto en el caso de datos categricos como cuantitativos

Es fcil notar que las frecuencias absolutas cumplen con la siguiente propiedad: n = n1+n2++nk, por
tanto
1 = F 1 ,

es decir, la suma total de las frecuencias absolutas es igual al tamao muestral.

54
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Definicin 4.17.
La proporcin dada por el cociente entre la frecuencia absoluta de la clase i-sima y el tamao
muestral, denotada por L , recibe el nombre de frecuencia relativa de la i-sima clase.
1
L =
1
La serie de frecuencias relativas, para las k clases, se indica como
f1, f2, ,

fk

en el caso de datos categricos como cuantitativos

Las frecuencias relativas tienen la siguiente propiedad: su suma es igual a la unidad,


F

L = 1



Con un sentido prctico suele hablarse de frecuencias porcentuales, cuando las fi se las expresa en
por ciento, y entonces resulta que su suma es igual al 100%.
Definicin 4.18.
Las frecuencias absolutas acumuladas, se definen como la frecuencia que resulta de la acumulacin,
fila por fila, de las correspondientes frecuencias absolutas. La acumulacin puede hacerse de dos
formas, y segn esto resultan:
a) Frecuencias acumuladas ascendentes, simbolizadas por Fi: para la i-sima clase, la frecuencia
acumulada ascendente se obtiene sumando a la correspondiente frecuencia, las frecuencias de todas
las clases que anteceden a la considerada
F1 = n1
F2 = n1 + n2,
F3 =n1 + n2 + n3, y as sucesivamente hasta la ltima clase
Fk = n1 + n2 +......+ nk = ni = n , para k < n.
b) Frecuencias acumuladas descendentes, simbolizadas por Fi (que se lee F comilla sub- i): para la isima clase, se obtienen restando a la correspondiente frecuencia, las frecuencias de todas las clases
que anteceden a la considerada
F1 = n
F2= n n1,
F3= n (n1 + n2)

y as sucesivamente hasta la ltima clase

Fk = n (n1 + n2 + . + nk-1 )
Las frecuencias acumuladas ascendentes tambin son llamadas frecuencias menor que, y
las descendentes, frecuencias mayor que. Con un criterio anlogo se pueden obtener tambin las
correspondientes frecuencias relativas acumuladas.
A continuacin se desarrollar el anlisis estadstico descriptivo de las distribuciones de datos
cuantitativos agrupados.

4.6. PROPIEDADES DE LA DISTRIBUCIN DE VARIABLES CUANTITATIVAS


EN MUESTRAS GRANDES
En el caso de muestras pequeas de variables cuantitativas, se vio que las medidas descriptivas
estuvieron referidas a dos propiedades de los colectivos de datos: la posicin y la dispersin. En
muestras grandes, el hecho de tener una distribucin de datos agrupados, lleva a la utilizacin de un
nmero mayor de propiedades. Las mismas se indicaron en la presentacin integrada que se hizo sobre
las propiedades estadsticas de las variables cuantitativas.

Propiedades estadsticas a describir en: muestras grandes de datos cuantitativos


Tamao
Grande

Propiedades
Posicin (tendencia central y otra)
Dispersin
Forma: Asimetra y Curtosis

Estas propiedades se miden objetivamente a travs de los estadgrafos correspondientes:


55
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


1) Medidas de posicin: apuntan a los datos ms tpicos de la distribucin, como por ejemplo, los
que ms se repiten y los que ocupan los lugares centrales.
2) Medidas de dispersin: describen si los datos son homogneos o sea si se diferencianpoco entre
s (variacin pequea) o, si por el contrario, son heterogneos o muy dispares (variacin grande), y
tambin si el patrn de variacin presenta regularidad estadstica o no.
3) Medidas de asimetra: miden en qu grado las distribuciones son asimtricas, a partir de tomar
como referencia la media aritmtica y considerar si los datos se reparten anlogamente a ambos lados
de ella. La falta de simetra lleva a hablar de distribuciones sesgadas.
4) Medidas de curtosis: cuantifican el grado de agudeza o apuntalamiento de la distribucin en la
parte central, dada por una concentracin de los datos (frecuencias ms altas) alrededor de la media, y
el grado de alejamiento que poseen los valores extremos.
En general estas medidas han sido establecidas procurando que cumplan, lo cual logran en
mayor o menor grado, ciertas condiciones entre las cuales se tienen las siguientes:
Deben tener una definicin objetiva, para que distintas personas puedan llegar a partir
de un mismo conjunto de datos a un mismo resultado numrico y conclusiones.
Deben basarse en lo posible en todos los datos de la variable, de forma que la medida
no sea inestable, esto es que cambie sustancialmente con slo variar un valor de
variable

POSICIONAMIENTO

Deben ser fciles de calcular e interpretar.


Cuadro 4.2: Sntesis de las propiedades estadsticas para muestras grandes de datos cuantitativos
Propiedad
Concepto
Ilustracin
Medida
Propensin de los datos (valores
Estadgrafos de
de la variable) a ubicarse en el
tendencia
entorno de un punto central de la
central, por ej.:
distribucin, correspondiente al
la media
Central
recorrido de la variable, donde se
(Promedios)
ubica el punto de equilibrio.
x

Otro
(cuantiles)

Ubicacin de puntos en la escala


correspondiente al recorrido de la
variable (valores de variable),
relacionados con la particin de la
distribucin de datos de modo de
dejar en cada una de las partes
igual
cantidad
de
datos
(comnmente 1%, 5%, 10%, 25%
o el 50%).
Grado de fluctuacin de los datos,
referenciada a un valor central de la
variable, de modo aproximado o
distante entre s.

Estadgrafos de
posicin, por ej.:
cuartiles (1/4 =
25% en cada
parte)
x
Estadgrafos de
dispersin, por
ej.: amplitud.

DISPERSIN
x

FORMA

Asimetra

Forma de distribucin de los


datos, a ambos lados de un eje
ubicado en el centrado de la
distribucin.

Estadgrafos de
asimetra,
por
ej.:
coeficiente
de asimetra.

Curtosis

Forma de concentrarse los datos,


alrededor del centrado de la
distribucin, que determina un
mayor o menor apuntalamiento de
la distribucin.

Estadgrafos de
curtosis, por ej.:
coeficiente
de
curtosis.

56
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA

4.7. VARIABLES DISCRETAS


Se partir de un conjunto de datos muestrales, correspondientes a un experimento donde se
registr el nmero de flores por planta, en 50 plantas seleccionadas al azar. Primeramente se proceder
a identificar algunos aspectos que definen las caractersticas del problema que conducen a la eleccin
del camino a seguir.
Variable
observada

Unidad de muestra y anlisis

Tipo de dato

Tamao muestral

N de
flores/planta

planta

Cuantitativo
discreto

n=50

Tabla auxiliar. Registros del recuento de flores (datos de campo)


10

10

10

4.7.1. Herramientas de anlisis grfico


4.7.1.1. Presentacin tabular
A continuacin se presenta la estructura mnima de una tabla de distribucin de frecuencias para
una variables discreta (tabla modelo). En ella se pueden reconocer: una primera columna que muestra
los posibles valores de la variable (xi, donde i=1,2,,k) y otra para los datos de frecuencia absolutas
(ni), aunque podran haberse utilizado las frecuencias relativas o las porcentuales.
Tabla bsica de distribucin de frecuencias para una variable discreta
xi
x1
x2
.
.
xk

ni
n1
n2
.
.
nk
n

A continuacin se muestra la tabla completa de distribucin de frecuencias que se utilizara


para presentar los resultados del trabajo.
Tabla 4.3. Distribucin del nmero de flores por planta

N de flores,
(1)

Cantidad de
plantas
(2)

Cantidad de plantas acumulada


n menor o
igual que

n mayor o
igual que

(3)

(4)

Proporcin de
plantas

Proporcin
porcentual

(5)

(6)

50

0,02

2,0

49

0,02

2,0

48

0,06

6,0

11

45

0,12

12,0

15

39

0,08

8,0

19

35

0,08

8,0

28

31

0,18

18,0

36

22

0,16

16,0

43

14

0,14

14,0

47

0,08

8,0

10

50

0,06

6,0

50

1,00

100,0

57
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Construccin
(1) valores observados de la variable.(x i)
(2) frecuencia absoluta (n i). Notar el total, n= 50
(3) frecuencias acumuladas ascendentes ( F i)
(4) frecuencias acumuladas descendentes ( F i)
(5) frecuencias relativas (f i). Notar el total, sum (f i)= 1
(6) frecuencias relativas porcentuales (% f i). Notar el total, sum (% f i)= 100
Cul es la informacin se puede obtener de la tabla de frecuencias as construida?
Se puede ver que el nmero total de datos es 50, que las plantas tuvieron entre 0 y 10 flores.
Las plantas con menos de 3 flores y con ms de 9 son poco frecuentes, que plantas que tienen
entre 6 y 8 flores son las tpicas (mayores frecuencias), y que el valor ms repetido ha sido 7.
El 18% de las plantas presentaron 6 flores, un 2% fueron plantas sin flores y un 6% (3 plantas)
fueron muy florferas, para ellas se registr un valor mximo de 10 flores
Un 10% de las plantas tuvieron 2 o menos flores, 30% tuvo 4 o menos flores y, casi la mitad de
las plantas tuvo entre 0 y 6 flores/planta.
Se deja al alumno, el ejercicio de realizar otras interpretaciones, a partir de la lectura de esta
tabla de frecuencias. Realmente extraer esta informacin a partir de los datos sin procesar, hubiera sido
extremadamente dificultosa.

4.7.1.2. Representaciones grficas


4.7.1.2.1. Grfica de lneas

Proporcin de plantas (fi)

Cantidad de plantas (ni)

Para el ejemplo de variable discreta que se est analizando se tiene lo siguiente:


10
8
6
4
2
0

0,20
0,15
0,10
0,05

0 1 2 3 4 5 6 7 8 9 10

N de flores / planta

Grfico de lneas con frecuencias absolutas

0 1 2 3 4 5 6 7 8 9 10

N de flores / planta

Grfico de lneas con frecuencias relativas

Construccin: Si en el eje de las abscisas se consideran los distintos valores que toma la variable y,
en el eje de las ordenadas se consideran las frecuencias absolutas (o las frecuencias relativas) y, por
los puntos resultantes se bajan lneas hasta las abscisas, se obtiene un grfico de lneas para
frecuencias absolutas (o de frecuencias relativas).

4.7.1.2.2. Grfica escalonada

Existe tambin la posibilidad de utilizar representaciones que permitan obtener informacin de


tipo integral, por ejemplo, que permitan encontrar la respuesta al siguiente interrogante cuntas
unidades de anlisis muestrales presentan un valor igual o menor a un cierto xi?. Es decir grficas que
se basen en los valores de frecuencias acumuladas, que para el caso de una variable discreta
mostrarn un patrn escalonado de frecuencias. Sea por ejemplo, una muestra de datos
correspondientes al nmero de hijos/familia de cierta zona rural y la correspondiente tabla de
frecuencias.
Nmero de hijos (xi)

Cantidad de
familias (ni)

Valor de
variable

Frec.
absolutas

Frec. acum.
ascendentes

Frec.
relativas

xi

ni

Fi

fi

0,083

0,250

0,416

12

0,250

Total

12

1,000

58
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Cantidad
de
familias

Cantidad
acumulada
de familias

o
Proporcin i
de familias

N de hijos

o
o
i

N de hijos

Diagramas de barras para frecuencias


absolutas y frecuencias relativas.

N de hijos

Diagrama de frecuencias acumuladas m


meno
enor
que o diagrama escalonado ascendente

Resumen. Grficos para distribuciones de frecuencias de variables


estadsticas cuantitativas discretas

Diagrama de lneas para valores puntuales de la variable observada segn su frecuencia.


Muestra para cada valor observado (xi) de la variable, la correspondiente frecuencia de
presentacin en la muestra.
muestra

y pueden utilizarse
y,

Eje y

Eje

ni : frecuencias absolutas
fi : frecuencias relativas
100 fi : porcentajes

Variable X
Grfico (a)

Grfico escalonado.. Distribucin de frecuencias acumulados: El grfico (b) de frecuencias


ascendentes muestra al producirse el salto en cada escaln la cantidad de unidades observadas
con valores iguales o menores al correspondiente xi. El ltimo escaln (quinto escaln) indica el
total de los datos menor o igual al valor mximo observado (x4), por lo que al mismo tiempo se
refiere a todas las unidades medidas (n, o 100%). En forma anloga se puede interpretar un
grfico de frecuencias descendentes.
Eje
Fi
Fi

y pueden utilizarse
y,

frecuencias absolutas acumuladas


ascendentes
: frecuencias absolutas acumuladas
descendentes

Tambin
pueden
usarse
relativas
acumuladas
y
acumulados.

frecuencias
porcentajes

Grfico (b)

4.7.2. Herramientas de anlisis numrico (Estadgrafos)


4.7.2.1. Medidas de posicin
Se analizarn a continuacin las medidas de posicin, recordando que stas pueden representar
la centralizacin en torno a la cual se distribuyen la mayora de las mediciones o bien a otras
posiciones. Entre las primeras se tienen aquellas que en general reciben el nombre de promedios
(diferentes tipos de medias) y otras como la mediana y la moda. Entre las segundas estn medidas que
mayoritariamente se refieren a posicionamientos no centrales (cuartiles, deciles y percentiles).

59
Ctedra de Clculo
culo Estadstico y Biometra Facultad de Cien
iencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA

4.7.2.1.1. Media aritmtica


En el caso en que los datos estuviesen agrupados en una tabla de Tipo I, es decir, si existen k
valores distintos de la variable X, esto es x1, x2, ..., xk, se tienen k clases numricas, tales que cada valor
xi se repite ni veces, entonces, la expresin para la media aritmtica es:
Definicin 4.19. La media muestral de una variable discreta se calcula como
k

x
x=

. ni

i=1

n
k

xi : dato observado, ni la frecuencia absoluta correspondiente de modo que n = ni y

siendo:

i =1

k, el nmero de valores diferentes que toma la variable observada


Ejemplo 4.1: Si medimos el nmero de hijos de 15 obreros rurales de una cierta Industria, y los
resultados arrojan la siguiente tabla de tipo I, entonces, el nmero medio de hijos por empleado es:

x=

k
xi ni
i =1

N de hijos (xi)
0
1
2
3
4

N de obreros (ni)
2
4
8
5
1

xi ni
0
4
16
15
4

Total

n=20

=39

= ( 39 / 20 ) = 1.95 hijo s 2 hijos

Debe notarse que en el clculo de la media intervienen todos los valores de la variable, de ah que resulte por
excelencia la medida promedio que caracteriza el lugar central de la distribucin.

4.7.2.1.2. Mediana
A diferencia de la media, la mediana es una medida que trata de caracterizar un posicionamiento
que equilibre la cantidad de frecuencias observadas a uno y otro lado. Para encontrar cual es el valor
mediano de una distribucin de frecuencias discretas, se trabaja con una tabla de frecuencias
acumuladas de menor a mayor. La mediana es igual al primer valor de variable, que acumulando las
frecuencias, deja por debajo un 50% de las observaciones. En el siguiente ejemplo se observa que la
mediana es igual a 2: hay 50 fbricas con valores menores o iguales a ella, y tambin 50 fbricas con
valores igual o mayores a ella.
Ejemplo 4.2: Nmero de empleados de 100 pequeas fbricas
N de empleados
(xi)
2
2
3
4
5

N de fbricas
(ni)
20
30
25
15
10

Fi
20
50
75
90
100

Total

n=100

---

Esta es, como ya vimos, una medida de posicin, generalmente central, que se fundamenta en
las frecuencias de la distribucin. Pero, conviene en este momento tener una visin amplia que aclare
cuando corresponde utilizarla, por cuanto, muchas veces se la aplica mal. Para ello hay que tener en
cuenta el tamao muestral y el tipo de variable:
1) en principio, la moda tiene no tiene sentido en muestras pequeas y s, en muestras grandes,
porque su valor es muy inestable
2) a su vez, siendo la muestra grande, la moda tiene sentido en los siguientes casos:

4.7.2.1.3. Moda

La moda es el valor de la variable que ms se repite. Cuando la variable es discreta, solo se


necesita observar en su distribucin de frecuencias cual es el valor de variable que tiene la mayor
frecuencia absoluta.

60
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Determinacin de la moda
En distribuciones tipo I con clases numricas: su determinacin es inmediata, solo basta
observar el valor o valores de la variable que tengan mximas frecuencias con relacin a las restantes
frecuencias de la distribucin.
Evidentemente, cualquier moda absoluta ser, pues, una moda relativa. Sin embargo, lo
contrario no es en absoluto siempre cierto. Veamos algunos ejemplos ilustrativos, utilizando diferentes
distribuciones muestrales de una variable discreta.
Muestra 1
Muestra 2
Muestra 3


1

0
7

1
10

2
12

3
25

4
20

5
13

6
5


1

0
3

1
17

2
12

3
20

4
35

5
10

6
6

0
4

1
15

2
15

3
12

4
28

5
15

6
5


1

Se puede identificar lo siguiente:


Muestra 1: se destaca una sola frecuencia, la cual es igual a 25, por tanto se tiene una moda absoluta
igual a 3,
Muestra 2: se tienen dos frecuencias que llaman la atencin, 17 y 35, los valores correspondientes de
variable 1 y 4 son modas relativas, y adems 4 es una moda absoluta (distribucin bimodal),
Muestra 3, se tienen tres modas relativas que son 1,2 y 4, en correspondencia con las frecuencias
destacadas en la serie 15 y 18, pero slo 4 es moda absoluta (distribucin trimodal). Ntese que el valor
5, asociado a una frecuencia igual a 15, no es moda porque no se destaca entre los valores contiguos.
Ejemplo 4.3: Sea el nmero de salames con principio de enranciamiento en ristras de tamao 5,
seleccionadas aleatoriamente de estanteras comerciales de almacenes mayoristas.
0
5

Nmero de salamines rancios, xi


Cantidad de salamines, ni

1
18

2
18

3
9

4
3

5
2

Se observa que la distribucin tiene dos modas relativas, ya que la mxima frecuencia, igual a
18, corresponde tanto al valor de variable 1 como 2.

4.7.2.2. Medidas de dispersin


4.7.2.2.1. Amplitud muestral
Tambin se denomina rango o recorrido. Es vlido lo visto para muestras pequeas.

4.7.2.2.2. Varianza muestral


En el caso de variables discretas, se tienen k diferentes valores xi, La frmula (a) se basa en los
cuadrados de k desvos respecto a la media (  ), mientras que la frmula (b) se basa en los k
valores observados de la variable xi
(b) Procedimiento abreviado

(a) Procedimiento directo


k

(x
s2 =

x ) 2 ni

i =1

n 1

x i .n i
k
2
i =1

x i ni

n
s 2 = i =1
n 1

; siendo i = 1,2,,k

Frmula definicional: suma de cuadrados


de desvos ponderados por las frecuencias
absolutas, dividida por los grados de
libertad.

Notar:

4 = =
=
M

N4 = = O
=

; i = 1,2,.,k

suma de k productos, y se
ponderan los cuadrados de
los valores observados de la
variable =
cuadrado de la suma de k
productos, y se ponderan los
valores observados de la
variable =

4.7.2.2.3. Desviacin tpica muestral


La desviacin tpica, se obtiene segn ya se ha visto como la raz cuadrada positiva de la
varianza

s = + s2
61
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA

4.7.2.2.4. Coeficiente de variacin muestral


Es vlido lo visto para muestras pequeas: cv =

s
_

o bien

4.7.2.3.

s
% cv = 100 _

x

Medidas de forma: asimetra y curtosis

Estas medidas sern desarrolladas en forma integrada para el caso de las variables discretas y
continuas, despus de presentar el anlisis descriptivo de las variables continuas.

4.8. VARIABLE CONTINUA


4.8.1. Herramientas de anlisis grfico
4.8.1.1. Presentacin tabular
Para describir la distribucin de frecuencia correspondiente a una variable continua, es
indispensable agrupar los valores registrados mediante un conjunto de intervalos de clase.
Ejemplo 4.4: La siguiente es la tabla primaria correspondiente a un estudio sobre el permetro, en
centmetros, a la altura de la primera ramificacin, de troncos de damasco variedad Royal, de un monte
frutal de 4 aos, realizado en Lavalle en 1974.
35
48
42
42
36
38
42
44
39
43

38
48
42
49
43
58
39
48
45
43

48
38
39
40
33
40
30
40
33
42

45
45
39
35
43
45
31
30
41
35

43
31
42
53
46
45
49
42
34
33

28
29
34
31
32
49
45
56
27
52

42
54
28
29
40
45
55
44
50
48

54
58
55
28
36
33
25
27
24
37

41
46
36
35
41
34
37
48
46
42

49
36
40
54
36
46
45
44
43
40

36
26
49
49
33
36
34
41
45
49

58
46
52
36
40
43
53
40
36
41

Trabajando como se vio en el Tema 2, para esta muestra se tiene lo siguiente:


1) Amplitud muestral, a partir de los lmites reales de la muestra,
m = xmax - xmin = 58 cm - 24 cm = 34 cm
2) Nmero de intervalos de clase, utilizando la frmula de Sturges
k = 1 + 3,3 . log 120 = 7,86
En principio, el n de intervalos que debera usarse en este caso sera 8. Sin embargo,
recordemos que es aconsejable que este nmero sea impar, en consecuencia podra decidirse usar 7
9 intervalos. Se optar por el primer nmero porque el tamao muestral no es grande y adems porque
7 se aproxima ms al valor calculado segn la frmula.
3) Longitud de los intervalos de clase
x = m / k = 34 cm / 7 5 cm
4) Clasificacin de los datos
Tabla 4.4. Tabla auxiliar para la clasificacin de los datos
Intervalo de clase
discreto
(25-29]
(30-34]
(35-39]
(40-44]
(45-49]
(50-54]
(55-59]

Clasificacin del dato


////
////
////
////
////
////
////

///
////
////
////
////
////
////

///
//// //// /
//// //// ////
//// //// ///
///

//// ///

Nmero de
troncos (ni)
8
13
21
33
23
13
9

Definicin 4.20.
El valor promedio entre los lmites del intervalo se llama punto medio del intervalo o marca
de clase. Este valor es un promedio que se usa para representar a todos los datos que se
clasificaron en el intervalo, por lo tanto, constituye un valor de variable no observado, pero muy til
para realizar los clculos posteriores. Como es un valor de variable, se lo denota con xi.
62
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


La distribucin de frecuencia se puede presentar en una tabla bsica, donde los intervalos se
ponen en correspondencia con las frecuencias absolutas. Sin embargo, para mejorar el anlisis, casi
siempre es deseable elaborar la distribucin de frecuencia relativa o la distribucin porcentual,
dependiendo de si se prefieren las proporciones o los porcentajes.
Tabla de distribucin de frecuencias completa
Tabla 4.5. Distribucin de frecuencias de permetros de troncos de damascos (en cm ), variedad Royal, de
4 aos. Lavalle, 1994.
Intervalo de clase Punto
continuo
medio
24,5 29,5
27,0
29,5 34,5
32,0
34,5 39,5
37,0
39,5 44,5
42,0
44,5 49,5
47,0
49,5 54,5
52,0
54,5 -59,5
57,0
-

Frec.
Absoluta
8
13
21
33
23
13
9
120

Frec. Acumulada.
Ascen.
Desc.
8
120
21
112
42
99
75
78
98
45
111
22
120
9
-

Frec.
relativa
0,067
0,108
0,175
0,275
0,192
0,108
0,075
1,000

Frec. relativa
acumulada
0,067
0,175
0,350
0,625
0,817
0,925
1,000
-

Tabla de distribucin porcentual


Como se anticip, la utilidad de la distribucin de frecuencia relativa o de la distribucin
porcentual es grande cuando se comparan muestras diferentes, especialmente si el tamao muestral no
es igual. Se emplean los valores de las frecuencias relativas multiplicados por 100, de modo parcial
(Tabla 4.6) o bien acumuladas.
Ejemplo 4.5: A partir de los datos del censo nacional agropecuario se ha analizado la distribucin la
cantidad de hectreas incultas por finca en una cierta zona, con el siguiente resultado:
Tabla 4.6. Distribucin porcentual de las
hectreas incultas por finca en cierta
zona (n=240).
Hectreas incultas/finca
(n=240)

Porcentaje
de fincas

10,5 a menos de 20,5


20,5 a menos de 30,5
30,5 a menos de 40,5
40,5 a menos de 50,5
50,5 a menos de 60,5
60,5 a menos de 70,5
70,5 a menos de 80,5

48,9
26,7
12,8
6,4
3,0
1,5
0,7

Total

100,0

Tabla 4.7. Distribucin porcentual


acumulada de las hectreas incultas por
finca, menor al valor dado (n=240)
Hectreas
Porcentaje de fincas
incultas/
menor que
finca
<20,5
48,9
<30,5
75,6
<40,5
88,4
<50,5
94,8
<60,5
97,8
<70,5
99,3
<80,5
100,0
Ref.: el valor mnimo de la variable fue
10,5 hectreas

Interpretaciones:
La tercera fila en la Tabla 4.6 indica que un 12,8 % de las 240 fincas poseen una superficie inculta
mayor o igual a 30,5 hectreas y no mayor a 40,5
La tercera fila en la Tabla 4.7 indica que hay un 75,6% de fincas con una superficie inculta menor a
30,5 hectreas.
En forma anloga, se puede construir una tabla que muestre la distribucin porcentual
acumulada mayor que el lmite inferior de la variable.
Tabla 4.8. Distribucin porcentual acumulada de
las hectreas incultas por finca, mayor al valor
dado (n=240)
Porcentaje de fincas
Lmite inferior
mayor que
>10,5
100,0
>20.5
51,1
>30.5
24,4
>40,5
11,6
>50,5
5,2
>60,5
2,2
>70,5
0,7
>80.5
0.0

63
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Una importante observacin
En las tablas puede observarse que la frecuencia relativa tiene dos aspectos de gran inters:
1) expresada en % resulta muy fcil de interpretar el significado y adems facilita la
comparacin entre muestras que tienen diferente tamao.
2) desde un punto de vista ms terico, se la puede considerar como una estimacin emprica
de la probabilidad de ocurrencia de algn suceso emprico. Por tratarse de proporciones, una
propiedad que cumplen las frecuencias relativas es que sus valores varan en el intervalo [0 ; 1]
y, del mismo la funcin probabilidad que se estudiar en la Unidad de Probabilidad se define
numricamente en un intervalo [0 ; 1]. En el caso de las probabilidades, el 0 indica que un
suceso es imposible (por ejemplo, que al tirar un dado de seis caras, resulte una cara con siete
puntos) en tanto que el 1 indica que el suceso va a ocurrir con certeza (por ejemplo, que al tirar
un dado de seis caras, resulte una cara con 1 a 6 puntos). En la realidad cuanto ms probable
es que ocurra un suceso, por lo general la frecuencia relativa correspondiente a lo observado
resultar ms cercana a 1, y cuanto menos probable sea su ocurrencia, por lo general la
frecuencia relativa correspondiente a lo observado resultar ms cercana a 0.
La frecuencia relativa, permite intuir algunas propiedades fundamentales de la probabilidad.

4.8.1.2. Representacin grfica


4.8.1.2.1. Histograma
Definicin 4.21.
Un histograma consiste en una serie de rectngulos adyacentes (en el diagrama de barras
son no adyacentes), cuyo ancho es proporcional al alcance de los datos que se encuentran dentro
de una clase, y cuya altura es proporcional al nmero de elementos que caen dentro de la clase.
Si las clases que utilizamos en la distribucin de frecuencias son del mismo ancho, lo ms
comn, entonces que las barras verticales del histograma tambin tengan el mismo ancho. La altura de
la barra correspondiente a cada clase representa el nmero de observaciones de la clase o frecuencia.
Como consecuencia de lo anterior, el rea de cada barra del histograma puede ser:
Proporcional a la frecuencia de clase, si en ordenadas se
representan las frecuencias (ni )

ni ,
hi

A=b.h
A = x . ni
xi

xi+1

Igual a la frecuencia de clase, si en ordenadas se representa la altura o


densidad de clase (hi ), que es xi /x.
A = x . hi ; hi = ni / x
A = x (ni / x)
A= ni
Un histograma que utiliza las frecuencias relativas de los puntos de datos de cada una de las
clases, en lugar de usar el nmero de puntos, se conoce como histograma de frecuencias relativas.
Este tipo de histograma tiene la misma forma que un histograma de frecuencias absolutas construido a
partir del mismo conjunto de datos. Esto es as debido a que en ambos, el tamao relativo de cada
rectngulo es la frecuencia de esa clase comparada con el nmero total de observaciones.

Frecuencia relativa

0,4

0,36

0,3
0,2

0,2

0,1

0,17
0,1

0,1

0,07

0
15,15 - 15,45 15,45 - 15,75 15,75 - 16,05 16,05 - 16,35 16,35 - 16,65 16,65 - 16,95
Nivel de produccin, en metros

Grfico 4.1. Distribucin de frecuencias relativas de los niveles de produccin, en metros.

64
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Ventajas de un histograma de frecuencias relativas:
Presentar los datos en trminos de la frecuencia relativa de las observaciones, ms que en
trminos de la frecuencia absoluta, es de utilidad ya que mientras los nmeros absolutos pueden sufrir
cambios, la relacin entre las clases permanece estable.
Resulta fcil comparar los datos de muestras de diferentes tamaos cuando utilizamos
histogramas de frecuencias relativas. Sin embargo, cuando se comparan dos o ms conjuntos de datos,
no es posible construir los diversos histogramas en la misma grfica, porque la superposicin de barras
verticales dificulta su interpretacin. Para ese caso, es necesario construir polgonos porcentuales o de
frecuencia relativa.

4.8.1.2.2. Polgono de frecuencias


Los polgonos de frecuencias son otra forma de representar grficamente distribuciones, tanto de
frecuencias simples como relativas.
Construccin. Para construir un polgono de frecuencias, en el eje de abscisas sealamos, como
en el histograma, los valores de la variable pero en este caso corresponde usar los puntos medios.
A continuacin, graficamos los puntos en correspondencia a las frecuencias de clase (proyectando
por sobre el valor del punto medio) y conectamos los puntos resultantes sucesivos con segmentos,
de modo que resulta una lnea irregular (quebrada) abierta. Finalmente se cierran los extremos
(lmite inferior y lmite superior) formando un polgono (una figura con muchos lados).
14

frecuencia

12
10
8
6
4
2
0
15.0

15.3

15.6

15.9

16.2

16.5

16.8

17.1

Nivel de produccin en metros

Si se compara la figura que representa un polgono de frecuencias con el grfico del histograma
anterior, se dar cuenta que se han aadido dos clases, una en cada extremo de la escala de valores
observados. Estas dos nuevas clases contienen cero observaciones, pero permiten que el polgono
alcance el eje horizontal en ambos extremos de la distribucin (100% rea ).

50
45
40
35
30
25
20
15
10
5
0

porcentaje de fbricas

porcentaje de fbricas

El polgono porcentual se forma haciendo que el punto medio de cada clase represente los
datos de esa clase y despus conectando la secuencia de sus respectivos porcentajes de clase.

15

25

35

45

55

65

75

85

Produccin en miles de pesos

50
45
40
35
30
25
20
15
10
5
0
5

15

25

35

45

55 65 75 85
Produccin en miles de pesos

Polgonos de frecuencia porcentual


Construccin de un polgono de frecuencias relativas: Un polgono de frecuencias que utiliza
frecuencias relativas de puntos de datos en cada una de las clases, en lugar del nmero real de
puntos, se conoce como polgono de frecuencias relativas. Este polgono tiene la misma forma que
el polgono de frecuencias construido a partir del mismo conjunto de datos, pero con una escala
diferente en los valores del eje vertical. Ms que el nmero absoluto de observaciones, la escala es
el nmero de observaciones de cada clase como una fraccin del nmero total de observaciones.

65
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Anlisis comparativo de ventajas
Histograma

Polgonos de frecuencias

Los rectngulos muestran cada clase de la


distribucin por separado.
El rea de cada rectngulo, en relacin con el
resto, muestra la proporcin del nmero total de
observaciones que se encuentran en esa clase.

El polgono de frecuencia es ms sencillo que


su correspondiente histograma.
Traza con ms claridad el perfil del patrn de
los datos.
El polgono se vuelve cada vez ms liso y
parecido a una curva conforme aumentamos el
nmero de clases y el nmero de
observaciones.

4.8.1.2.3. Polgonos de frecuencias acumuladas u ojivas.


Una distribucin de frecuencias acumuladas nos permite ver cuntas observaciones estn por
encima, o por debajo, de ciertos valores.
Polgono de frecuencias acumuladas menor que u ojiva ascendente: Los puntos representados
en la grfica indican la cantidad de datos que tienen un valor de variable igual o menor que el valor
correspondiente al lmite superior del intervalo de clase (eje de abscisas). Observar lo siguiente: el
polgono comienza con ordenada cero en el lmite superior de un intervalo imaginario anterior (coincide
con el inferior del primer intervalo de clase para los valores observados) y termina con ordenada igual a
n, en el lmite superior de la ltima clase.

Nmero acumulado de rboless


muestreados

Polgono de frecuencias acumuladas mayor que u ojiva descendente: Los puntos representados
en la grfica indican la cantidad de datos que tienen un valor de variable igual o maqyor que el valor
correspondiente al lmite inferior del intervalo de clase (eje de abscisas). En este caso el polgono
comienza con ordenada igual a n en coincidencia con el lmite inferior de un intervalo imaginario anterior
(coincide con el inferior del primer intervalo de clase para los valores observados) y termina con
ordenada igual a n, en el lmite superior de la ltima clase.
350
300

Clasificacin
Kg de manzana Cantidad de
/rbol
rboles
45.2 45.4
20
45.5 45.7
50
45.8 46.0
110
46.1 46.3
60
46.4 46.6
30
30
46.7 46.9
300

250
200
150
100
50
0
45.2

45.5

45.8

46.1

46.4

46.7

47.0

Nivel de produccin en kilogramos


Menor que 45,2
no hay datos

Menor que 47
toda la muestra

Distribucin de niveles de produccin menor que de una muestra de rboles de manzana.

66
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


que.

En forma anloga podra construirse un polgono de frecuencias relativas acumuladas mayor


Grficos para distribuciones de frecuencias de variables estadsticas
cuantitativas
antitativas continuas
Grfico (a)
ni
Muestra superpuesta, la
silueta del histograma
con el
polgono de
frecuencias. Notar,
1) que las frecuencias
corresponden
respectivamente a los
Variable x
intervalos de clase y a los
Grfico (a)
Fi
puntos medios, y
2) los puntos de cierre del
polgono.

Variable x

Grfico (b)
Polgono de frecuencias
acumuladas
menor
que,
con
lmites
superiores del intervalo
(ojiva ascendente)

Grfico (b)

Tablas versus grficos de distribuciones de frecuencias


Las tablas proporcionan datos numricos ms exactos, mientras que los grficos solo
permiten una lectura aproximada.
La interpretacin de tablas con abundantes datos numricos suele resultar compleja y
requiere una buena preparacin, en tanto que las representaciones grficas suelen permitir tomar
una idea rpida del fenmeno en estudio. Por ejemplo, la grfica de una di
distribucin
stribucin de
frecuencias pone en evidencia los patrones de comportamiento de los datos muestrales, con
mayor facilidad que las correspondientes tablas.
Las grficas de variables continuas permiten tomar rpidamente idea acerca del patrn de
la distribucin
n poblacional (dado que para sta se tienen infinitos valores de variable, se tendran
infinitos intervalos de clases, k,
k
y entonces x 0).
0). Esto se hace creando una curva de
frecuencias, f(x), para lo cual se procede a elaborar un polgono de frecuenci
frecuencias
as relativas, y luego
se le hace un suavizado al trazo irregular del polgono.
polgono

Figura II.33. rea para el ejemplo


II.38.

4.8.2. Herramientas de anlisis numrico: Estadgrafos


4.8.2.1. Medidas de tendencia central y otras
4.8.2.1.1. Media aritmtica
En esta situacin, siempre haremos la suposicin de que, en cada intervalo de la tabla la
frecuencia que le corresponde,
corresponde, se encontrar repartida de forma uniforme a lo largo del intervalo, lo que,
como consecuencia, da lugar a que el valor medio de cada intervalo coincida exactamente con el punto
medio del mismo, y que hemos denominado en un captulo anterior marca de lla
a clase o del intervalo
correspondiente, o bien punto medio.
67
Ctedra de Clculo
culo Estadstico y Biometra Facultad de Cien
iencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Bajo esta hiptesis, la suma del conjunto de valores de un intervalo dado ser, pues, igual al
producto de su frecuencia por el valor de su marca de clase, sin ms que tener en cuenta la
interpretacin de la media aritmtica para los puntos de tal intervalo.
As, pues, cuando la tabla de datos es de Tipo II y los datos estn repartidos entre k intervalos
contiguos, cuyas marcas de clase y frecuencias asociadas son, respectivamente, xi y ni, la media puede
ser obtenida por el siguiente procedimiento.
Definicin 4.22
La media en distribuciones Tipo II, es igual a:
k

x
x=
Siendo: n =

. ni

i=1

xi : punto medio del i-simo intervalo

i =1

Es de notar que, en este caso, para poder disponer de la marca de clase de cada intervalo, se
requiere que los intervalos estn perfectamente, determinados por unos extremos concretamente
definidos. As, pues, no podramos calcular la media de una distribucin de datos que nos midiera el
nmero de habitantes de los municipios de una provincia, si el grupo de municipios ms poblados
estuviese definido ambiguamente, diciendo slo, por ejemplo, que tiene ms de 200.000 habitantes.
Ejemplo 4.5: Supongamos que estudiamos el salario anual de los empleados de una fbrica de
automviles y tenemos los datos de dichos salarios recogidos en la siguiente tabla de tipo II:
Miles de
Pesos
50,5 60,5
60,5 70,5
70,5 80,5
80,5 100,5
100,5 120,5

Marcas de
clase (xl)
55,0
65,0
75,0
90,0
130,0

N empleados

xi ni

12
20
18
15
5
n=70

660
1300
1350
1350
650
5310

5310
= 75,857 PQRS TS USV
70
Precaucin: En adelante nos referiremos de forma general con xi al valor i-simo de la variable, pero
hay que tener en claro que: a) si se trabaja con una distribucin simple o con una distribucin Tipo I con
clases numricas, xi corresponde a un valor medido y, b) si se trabaja con datos de una distribucin tipo
II, xi corresponde a la marca de clase o punto medio del intervalo i-simo. Con esta notacin, la
formulacin matemtica de las medidas puede parecer la misma, pero el significado puede llegar a ser
muy diferente
 =

Ventajas y desventajas de la media


Ventajas
- Es sencilla de calcular
-Est perfectamente definida de forma objetiva,
y es nica
-Tiene un claro significado interpretativo
-Para su clculo se utilizan todos los valores de
su distribucin

Inconvenientes
-Los valores extremos muy dispares influyen de
forma notable en su valor, hacindola menos
representativa.

A pesar de este inconveniente, por sus ventajas, se puede decir que es la medida de posicin
central ms utilizada.
Existe una variante importante de la media aritmtica, de aplicacin en aquellas circunstancias
en las que se conoce que los valores de la variable no tienen todos la misma importancia para su
tratamiento, sino que, por el contrario, existen observaciones que deben ser consideradas como ms
representativas que otras. A esta variante de la media aritmtica se la llama Media aritmtica
ponderada. Para su clculo se le asocia a cada valor de xi un peso wi , que nos medir su grado de
importancia o representatividad dentro de la distribucin. Estos pesos wi sern valores positivos que
representarn el nmero de veces que sus correspondientes valores xi son ms representativos que un
valor que tuviese peso asociado a la unidad.
Definicin 4.23
La media aritmtica ponderada de una distribucin de valores x1,x2,, xk cuyos pesos o
importancias relativas w1,w2,wk respectivamente, se define como
k

x
xw =

wi

i =1
k

i =1

68
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Obsrvese que la media aritmtica ponderada puede considerarse como una media aritmtica
de una distribucin hipottica con los mismos valores que la real, pero en lo que un peso wi de un valor
xi correspondera a que ese valor xi se repitiese wi veces y, por lo tanto, pesase wi veces ms que un
valor que slo apareciese una vez. Tal distribucin hipottica estara, entonces caracterizada por
valores x1, x2, xk con pesos o importancias w1, w2,., wk respectivamente.
Sin embargo, aunque para comprender intuitivamente el significado de la media aritmtica
ponderada este razonamiento es vlido y es por otra parte, importante remarcar que en l nos hemos
referido al caso particular en que los pesos wi eran nmeros enteros, mientras que en general, dichos
pesos pueden ser nmeros reales positivos cualesquiera.
Ejemplo 4.6: Sea el caso de un vino que durante su aejamiento aumenta las cantidades de taninos se
tiene una partida de vinos de distintos aos, de modo que se pueden otorgar las siguientes importancias
relativas.
Tiempo
Cantidad de taninos a los 6 meses
Cantidad de taninos a los 12 meses
Cantidad de taninos a los 15 meses
Cantidad de taninos a los 2 aos

g/l
0,7
0,7
1
3

Ponderacin
1
1
2
5

Como observamos en la tabla, hemos asignado a los vinos una misma importancia bsica de 1
hasta el ao, y una importancia 5 veces mayor a los dos aos. Bajo estos supuestos, si se quiere sacar
un valor promedio de la cantidad de tanino para una muestra de esas partidas de vino, sera:
xw =

0,7 1 + 0,7 1 + 1 2 + 3 5
1+1+ 2 + 5

4.8.2.1.2. Mediana
Cuando la distribucin se presenta en forma de tabla de tipo II, puesto que para este tipo de
tablas se asume que la variable evoluciona de una forma continua y uniforme, entonces tendremos que
encontrar el valor de la variable al que correspondera la frecuencia n/2. Ahora bien, dicho valor se
encontrar en el primer intervalo en que su frecuencia absoluta acumulada sea igual o supere a n/2.
Llamemos li (q2) al lmite inferior de tal intervalo, al que llamaremos intervalo mediano, y por lo tanto que
se lee:
Definicin 4.24
La mediana, en una distribucin de tipo II, es igual al lmite inferior del intervalo mediano li (q2) ms el
cociente que resulta de dividir el valor n/2 menos la frecuencia acumulada hasta el intervalo de clase
anterior al mediano F(q2 1), por la frecuencia absoluta del intervalo mediano, n(q2), multiplicado por la
longitud del intervalo de clase x.

xd = li ( q 2) +

n / 2 F( q2 1 )
n( q 2)

Ventajas e inconvenientes de la mediana


Ventajas
Es sencilla de calcular
Es de fcil interpretacin al ser siempre un valor
propio de la variable
No influye en ella ms que los datos centrales de
la distribucin por lo que se puede calcular an
desconociendo los valores extremos de la
distribucin, siempre que tengamos suficiente
informacin acerca de sus frecuencias.

Inconvenientes
No puede expresarse mediante una frmula
matemtica sencilla que permita realizar grandes
desarrollos algebraicos con ella
No intervienen en su confeccin todos los valores
de la variable, sino slo los centrales. a pesar de
todo, este ltimo inconveniente lo es realmente
cuando todos los valores de la distribucin son
conocidos, cosa que no siempre ocurre, y es
precisamente en estos casos donde este
inconveniente se traduce a la tercera gran
ventaja de la mediana.

La determinacin grfica puede hacerse rpidamente utilizando el polgono de frecuencias


acumuladas, y teniendo en cuenta la definicin de mediana. La ordenada mxima en este grfico
representa la frecuencia total, o sea n. Dado que la mediana se relaciona con la mitad de los individuos,
se individualiza el valor correspondiente a n/2 en el eje vertical. A partir de ese valor se prolonga una
lnea paralela al eje de abscisas hasta intersectar el polgono de frecuencias acumuladas en el punto A.
Desde el punto A luego se baja una perpendicular hasta el eje de abscisas, donde se puede leer el valor
de la mediana.

69
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

Frecuencia acumulada

UNIDAD I: ESTADSTICA DESCRIPTIVA


F'i

Fi

n/2

Int. De clase

4.8.2.1.3. Moda.
Cuando los datos estn sin agrupar, se puede hablar de la moda en relacin al dato observado
con mayor frecuencia, pero cuando los datos estn
estn agrupados slo se puede hablar del intervalo con
mayor frecuencia o intervalo modal.
modal Una vez que los datos se han clasificado no es correcto hablar de la
moda porque el valor encontrado ser terico, y tericamente la poblacin es infinita (N
(N ), en otras
palabras la variable toma en cada en cada elemento un valor diferente. Para la variable continua, como
veremos en la Unidad de probabilidad, la probabilidad de ocurrencia de un determinado valor es igual a
cero, por tanto, hablar de que un valor de variable
variable continua es la moda (tiene la ms alta frecuencia)
resulta una seria contradiccin. Sin embargo, esto
esto no es reflejado por los datos muestrales, debido a
que la medicin tiene error y entonces aparecen datos repetidos.
Determinacin de la moda
Se identifica
entifica el (o los) intervalo modal donde se clasific el mayor nmero de datos y
podemos referirnos al punto medio de la clase modal,
modal, como el valor alrededor del cual se tiene el
mayor agrupamiento o densidad de datos.

clase
postmodal

clase modal

clase
premodal

En el caso de variable continua, tambin puede hablarse de un intervalo premodal y uno


posmodal, como se muestra en el siguiente diagrama:

Definicin 4.25

W , a aquel valor de la variable cuya frecuencia


Se llama moda absoluta,, representada por 
absoluta no es superada por ningn otro valor de la variable en la muestra.
Definicin 4.26
Se llama moda relativa a aquel valor de la variable cuya frecuencia absoluta asociada no es
superada por las de sus valores contiguos.
Ventajas e inconvenientes de la moda
Ventajas

Inconvenientes
No puede expresarse de forma sencilla mediante
Es sencilla de calcular lo modal.
frmula matemtica que permita operar
En variables discretas es de fcil interpretacin, cmodamente con ella.
al ser siempre un valor propio de la variable.
No detecta ningn cambio en la distribucin que
se produzca ajeno al valor modal o in
intervalo
modal.
Resulta adecuada una visin integral de las tres medidas descriptas, media, mediana y moda,
pero la postergaremos hasta tratar el tema de simetra y sesgo de una distribucin.

4.8.2.1.4. Cuantiles o fractiles


Las medidas que vamos a ver ahora se llaman
llaman medidas de posicin no central, porque, an
tratndose de posicionar sobre la escala de posibles valores de la variable algn punto caracterstico de
la distribucin, ese punto de inters generalmente no es el central. La combinacin de estas medidas de
posicin no necesariamente centrales, con las medidas de posicin central, nos permitir evaluar el
comportamiento de la distribucin de frecuencias desde un punto de vista general, a lo largo de todos
los valores de la variable, y no concentrndonos en unos
unos pocos de ellos que dicen mucho sobre la
70
Ctedra de Clculo Es
Estadstico y Biometra Facultad de Ciencias
ias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


tendencia central pero nada acerca de las colas de la distribucin, esto es, los valores que se
posicionan por debajo de los centrales y por encima de los centrales).
La idea es anloga a la que nos permiti definir la mediana, que, recordemos es un valor de la
variable que deja a cada uno de sus lados igual cantidad de datos muestrales (50% por debajo y 50%
por encima). Ahora, siempre con los datos de la variable ordenados en forma creciente, nos interesa
encontrar cul de los xi, deja a su izquierda (incluyndolo a l) cierta proporcin generalmente diferente
al 50% de la distribucin. Un grfico dar luz a este nuevo concepto. En (a) se indica el cuantil que deja
por debajo (incluyndolo a l) un 20% de los valores de la variable X y, por encima (incluyndolo a l)
un 80%, mientras que en (b) se da la situacin inversa.

80%
Grfico (a)

80%

20%

Grfico (b)

Los cuantiles se pueden clasificar en cuatro clases de medidas, de las cuales en este curso, nos
interesa en especial la primera y la ltima:
Cuartiles: dividen la distribucin en cuatro partes de igual frecuencia (n/4) , lo que significa que
cada parte contiene del total de datos, es decir, un 25%.
Quintiles: dividen la distribucin en cinco partes de igual frecuencia (n/5), lo que significa que cada
parte contiene un 20% del total de datos.
Deciles: dividen la distribucin en diez partes de igual frecuencia (n/10), lo que significa que cada
parte contiene un 10% del total de datos.
Percentiles: dividen la distribucin en cien partes de igual frecuencia (n/100), lo que significa que
cada parte contiene un 1% del total de datos.
Notar que si los cuantiles dividen en k partes, la cantidad de cuantiles es igual a k-1.
Definicin 4.27
Un cuantil, que se representa por qr/c y se lee como cuantil r-simo de orden c, es aquel valor de
la variable xi, que en un arreglo de datos ordenados en forma creciente, permite dividir a la
distribucin del total de los datos dejando por debajo al menos r/c partes de datos, y por encima al
menos las (r/c)/c partes restantes.
Por ejemplo: sea el segundo cuantil de orden 4, esto es q2/4 . Primeramente entendemos que nos
estamos refiriendo a una distribucin dividida en 4 partes (cuartos o cuartiles), y un valor de variable que
deja por debajo 2 de esas 4 partes, es decir, la mitad de los datos y por encima el resto, que son otras 2
de esas 4 partes porque 1- (2/4) = 2/4. En otras palabras, nos estamos refiriendo a aqul valor de
variable por xi, que en un arreglo ordenado de menor a mayor, permite dividir la distribucin de
frecuencias dejando por debajo al menos la mitad de los datos de la distribucin, y por encima al menos
la otra mitad, o sea, que en definitiva al segundo cuartil, en smbolo q2/4, que es la mediana ya conocida
por nosotros.
En forma anloga a la dada para la mediana, se pueden desarrollar frmulas para el clculo del
primer y tercer cuartil.
Los percentiles sern muy utilizados en inferencia estadstica en relacin a conceptos
probabilsticos. En este contexto, las poblaciones de variables continuas se representan con curvas que
se definen mediante funciones f(x), una de las cuales es la curva normal o curva campanular. La funcin
de la normal, es de gran utilidad porque representa a la distribucin terica de muchas variables
continuas de inters en Agronoma y Bromatologa, y ya resulta familiar a quienes han estudiado la
teora de errores en Fsica. A partir de ella, mostraremos los grficos que indican los cuartiles, deciles y
percentiles:

71
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA

q1/4 q2/4 q3/4

d1/10 d2/10 d3/10 d4/10 d5/10 d6/10 d7/10 d8/10 d9/10

Cuartiles

p1/100

Deciles

p50/100

p99/100

Percentiles

Ejemplo 4.7: Sea la variable peso de racimos de uva en gramos. Si se dice esta variable en la
poblacin se puede representar con la curva normal, y que q3/4 ,es decir el tercer cuartil (q3) es igual a
450 gramos, significa que el 75% de los valores poblacionales son cuando ms igual a 450 gramos, y
slo un 25% toma valores por encima. Ntese la equivalencia entre el q3/4 y el percentil 75, p75 .

CUARTILES

Primer cuartil, q1/4


O bien q1
Segundo cuartil, q2/4
o bien q2
Tercer cuartil, q3/4
o bien q3

PERCENTILES

Resumen para interpretar los cuantiles

Primer percentil, q1/100


o bien p1
Segundo percentil,
q2/100
o bien p2, p3 , p4 ,
p98
99 avo percentil, q99/100
o bien p99

deja a su izquierda el 25% de la distribucin y el 75% a


su derecha
deja a su izquierda el 50% de la distribucin y el 50% a
su derecha
deja a su izquierda el 75% de la distribucin y el 25% a
su derecha.
deja a su izquierda el 1% de la distribucin y el 99% a su
derecha
deja a su izquierda el 2 % de la distribucin y el 98% a su
derecha
deja a su izquierda el 99% de la distribucin y el 1% a su
derecha.

4.8.2.2. Medidas de dispersin.


Las medidas de posicin central, por s solas sabemos que son insuficientes para describir una
variable relacionada con un fenmeno de inters, de modo que tengamos una correcta comprensin del
mismo. Para reforzar esta idea, recordemos la situacin ms simple que se nos puede presentar al
estudiar una muestra de variables cuantitativas: el caso de muestras pequeas. Para ellas, vimos que
era obligatorio utilizar al menos una medida promedio y una medida de la variabilidad.

4.8.2.2.1. Amplitud muestral (recorrido o rango), m o bin A


Es vlido lo visto para muestras pequeas.

4.8.2.2.2. Recorrido intercuartlico q o bin RI


Para evitar situaciones en que los valores extremos anormales distorsionan la realidad ms
comn, esta medida de dispersin absoluta se define como:
Definicin 4.28
El rango intercuartlico es la diferencia entre el tercer cuartil y el primer cuartil.
q = RI = q3/4 - q1/4
Las dos medidas de dispersin descriptas, insistimos, adolecen de un gran defecto: no
consideran la totalidad de los valores observados, con lo cual es fcil que distribuciones
sustancialmente distintas puedan dar las mismas medidas de dispersin al no acusar stas cambios en
la mayora de los valores de la variable.
Para evitar estos problemas se recurre a la idea intuitiva de medir alejamientos medios, de los
valores de la variable a las distintas medidas de posicin central de la distribucin, y surgen las medidas
de dispersin absolutas que se describen a continuacin.

4.8.2.2.3. Varianza y desviacin tpica


En variables continuas, xi es el valor del punto medio que representa a todos los datos
clasificados en la clase i-sima o i-simo intervalo de clase.
72
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA

Varianza
Clculo por el procedimiento directo
k

(x
s2 =

x ) 2 ni

i =1

n 1

; siendo i = 1,2,,k

Clculo por el procedimiento abreviado.

xi .ni
k
2
i =1

xi .ni

n
s 2 = i =1
n 1

; siendo i = 1,2,.,k

Desviacin tpica
La desviacin tpica, se obtiene segn ya se ha visto como la raz cuadrada positiva de la varianza

s = + s2
Insistiremos, por la importancia de estas medidas, en su interpretacin:
La varianza muestral se puede interpretar como casi un promedio de la suma de cuadrados de
desvos.
La desviacin tpica, puede ser comprendida examinando dos enunciados:
* la Regla emprica: aplicable a distribuciones de tipo campanular
* el teorema de Chebyshev: aplicable a cualquier distribucin
Regla emprica
El examen de muchos conjuntos de datos sugiere una regla emprica que se utiliza para la
interpretacin de la desviacin tpica o estndar. Esta regla describe exactamente la variabilidad de los
datos poblacionales de una distribucin con forma de campana o acampanada, que ya mencionamos es
conocida como distribucin normal y que se discutir en detalle en otro captulo ms adelante. Pero
tambin proporciona una descripcin bastante adecuada de la variacin de muchos otros tipos de
variables que poseen distribuciones de frecuencia relativa con forma de pico de montaa.
Adems, en la prctica, se puede utilizar la denominada Regla Emprica para explicar la
propiedad de variabilidad de los datos de una muestra, esto es: que porcentaje de datos observados se
encuentra comprendido por los siguientes intervalos: la media k veces la desviacin tpica.
Generalmente estamos interesados en k = 1, 2 3, esto es, la media l desviacin tpica, la media 2
desviacin tpica y la media 3 desviacin tpica, respectivamente, (x s) , (x 2s) y (x 3s) . Estos
porcentajes en la muestra se aproximan al 68%, 95% y 99%, respectivamente, en tanto que en la
poblacin normal estos porcentajes ocurren de manera exacta (Ver tabla 4.3). La aproximacin es tanto
mejor, cuanto ms grande sea la muestra y adems provenga de una distribucin normal o
aproximadamente normal, es decir, cuando no se da un sesgo extremo y se observa ese aglutinamiento
ms o menos central de datos. La siguiente Figura muestra los intervalos muestrales comprendidos
dentro de una, dos y tres desviaciones tpicas de la media y los valores porcentuales el rea del
histograma abarcada.
99.7%
95%
68%

 XE 
 E 
 + E 
 + XE

 E 
+ E


Se formalizar ahora el enunciado la regla en discusin.


REGLA EMPRICA :

Si una variable est distribuida normalmente, entonces hay un 68% de los datos, aproximadamente,
dentro de una desviacin estndar de la media. Dentro de dos desviaciones estndares hay un 95%
ms o menos, y dentro de tres desviaciones estndares de la media hay cerca de 99,7% de los
datos. Esta regla es aplicable especficamente a una distribucin normal (en forma de campana),
aunque con frecuencia se aplica como gua a cualquier distribucin de montculo.

73
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Ejemplo 4.8:: La regla emprica puede utilizarse para determinar si se puede considerar que la
distribucin de frecuencias de una muestra aproximadamente se distribuye, o no, de manera normal.
Supongamos una muestra, referida a rendimientos en kg/parcela, que tiene un
una media x
x y una
desviacin tpica s, cuyos valores son 82,9 y 24,3, respectivamente. Utilizando la tabla de la distribucin
de frecuencias, a travs de las frecuencias relativas acumuladas, podramos encontrar que: el intervalo
comprendido desde una desviacin
desviacin tpica por debajo de la media hasta una desviacin estndar por
arriba, esto es [x s, x+s]
+s] = [(82,9 24,3); ( 82,9 + 24,3)] = [58,6; 107,2
107,2] comprende el 64% de los
datos centrados en la media. Adems podramos
podramos encontrar que:
G 2 ;  + 2YY G34,2 ; 131,5Y ; G 3 ;  + 3Y G10 ; 155,8Y
incluyen el 98% del total de datos y el 100%, respectivamente, de los datos muestrales. Esta
informacin nos lleva a decir que resulta bastante probable que la variable tenga una distrib
distribucin
ucin
normal, lo que posteriormente puede ser comprobado a travs de la Estadstica Inferencial.
Teorema de Chebyshev
La idea asociada al teorema de Chebysheff, para la distribucin de datos en una poblacin
cualquiera es la siguiente: construir un intervalo
intervalo fijando una distancia de k a ambos lados de la media ,
con la condicin de que k sea por lo menos igual a 1. Entonces, al calcular la fraccin 1 (1/k2), el
teorema de Chebysheff afirma que por lo menos esta fraccin, del nmero total de n mediciones, caer
dentro del intervalo determinado.
Tomemos algunos valores numricos para k. Cuando k=1, el teorema afirma que por lo menos
11/(1)2=0 de las mediciones caen dentro del intervalo de - a + , un resultado poco informativo y
sin uso prctico, por eso,
so, el teorema resulta til si k>1. Cuando k=2, resulta que al menos 1
11/(2)2 =
de las mediciones caern en el intervalo [(
[( -2) ; ( +2)],
)], y cuando k=3, al menos 8/9 de las
mediciones estarn en el intervalo de [(
[( -3) ; ( + 3)],
)], es decir, dentro de tres desviaciones tpicas
respecto de la media.
Haremos ahora el enunciado formal de la regla en discusin.
TEOREMA DE TCHEBYSCHEFF
La proporcin de cualquier distribucin situada dentro de k desviaciones estndares de la media es,
por lo menos la fraccin , 1 (1/k2), donde k es cualquier nmero positivo mayor que 1
1.

Ejemplo 4.9: Ahora consideraremos un ejemplo donde se aplica la media y la desviacin tpica
muestrales,, para formar una imagen mental de la distribucin de frecuencias para la variable, sin
presuponer nada acerca de la poblacin (normal o no). La media y la variacin de una muestra con
n=25 mediciones, son datos son x=75 y s2=100. Por lo tanto, la desvi
desviacin tpica es s=100=10.
100=10. Para
una distribucin que se centra aproximadamente en
en x=75, el teorema de Chebysheff nos permite
afirmar lo siguiente:
Al menos de las 25 mediciones caen en el intervalo ((x 2s) = [75 2(10)],, es decir, el
intervalo de valores xi que va de 55 a 95.
Al menos 8/9 de las 25 mediciones caen en el intervalo (
(x 3s) = [75 3(10)],, es decir, de 45 a
105. Finalmente haremos un anlisis comparativo, analtico y grfico, acerca de lo expuesto.
Tabla 4.9:: Forma en la que varan los
los datos alrededor de la media
media.
Nmero
de
desviaciones
en unidades k; (x ks),
k=1
2
3
4

Porcentaje de valores de la variable, contenidas entre la media y


k desviaciones tpicas, para la poblacin
Regla de
Distribucin
Chebyshev
de Gauss
No es calculable
Exactamente 68,26% (68%)
Al menos 75,00%
Exactamente 95,44% (95%)
Al menos 88,89%(89%)
89%)
Exactamente 99,73% ( 100%)
Al menos 93,75%(94%)
Exactamente 99,99%

100%

Grfico 4.6 Ilustracin del teorema de Chebyshev

Grfico 4.7
4.7: La distribucin campanular

74
Ctedra de Clculo Es
Estadstico y Biometra Facultad de Ciencias
ias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


Para concluir, ntese que:
* el teorema de Chebyshev es un hecho que se puede demostrar matemticamente, y que se
aplica a cualquier conjunto de datos (Tabla 4.9 y Grfico 4.6). Proporciona una cota inferior para la
fraccin de mediciones que se pueden encontrar en un intervalo (x ks), donde k es un nmero mayor
que o iguala uno.
* la Regla emprica, por el contrario, es una afirmacin arbitraria acerca del comportamiento de
los datos. Aunque los porcentajes contenidos en la regla vienen del rea bajo la curva normal, los
mismos porcentajes son vlidos aproximadamente para distribuciones con forma diferente, en tanto
tienden a tener forma de pico de montaa (o sea, los datos tienden a acumularse cerca del centro de la
distribucin).

4.8.2.2.4. Coeficiente de variacin


Es vlido lo visto para muestras pequeas.

4.8.2.3. Medidas de asimetra y curtosis.


Hasta ahora, con las medidas de posicin hemos situado sobre la escala de valores de la
variable las posiciones centrales o ms importantes de la distribucin y, a travs de las medidas de
dispersin, hemos medido en promedio el alejamiento o cercana de los valores de la variable a las
medidas de posicin central. Sin embargo, aunque a travs de estas medidas podemos deducir algo
acerca de la forma de la distribucin de frecuencias, la mayor parte de la informacin en tal sentido la
obtenemos de la observacin de las representaciones grficas de la misma.
Parece, pues, necesario definir una serie de medidas que permitan cuantificar en lo posible la
forma de la distribucin. Esta cuantificacin se realiza en dos sentidos principales:
Propiedad de simetra: simetra o asimetra de la distribucin de frecuencias, centrndola en su
media, evaluada con las medidas de asimetra.
Propiedad de curtosis: la concentracin o apuntalamiento ms o menos acusada de los valores
centrales de la distribucin en torno de las medidas de posicin central, evaluada con las medidas
de curtosis.
La simetra y la curtosis, son caractersticas propiamente ligada a la forma de la distribucin y no
a sus valores o unidades de medida. Por ello, cualquier medida que trate de cuantificar exclusivamente
algn aspecto de la forma de la distribucin debe ser, lgicamente, adimensionales, y en lo posible no
influenciables por cualquier transformacin de escala o cambio de origen de la escala.

4.8.2.3.1. La simetra
En primer lugar, diremos que vamos a considerar distribuciones unimodales, y que la distribucin
es simtrica con respecto de algn punto a en el eje de abscisas, si lo es la representacin grfica de
sus frecuencias. Es decir, si al trazar una paralela al eje de ordenadas, pasando por el punto a, deja el
mismo nmero de observaciones a ambos lados, y adems, a puntos opuestos y equidistantes de a,
siempre les corresponden iguales frecuencias.
Utilizaremos para medirla un coeficiente que se basa en los desvos a la tercera potencia de los
valores de la variable respecto a su media,  Z (o bien para la muestra,   ), con el siguiente
criterio:
 
W 
 , y el ndice de asimetra
En una distribucin de frecuencias perfectamente simtrica 
vale cero.

W , es decir, la moda es menor que la media, resulta que la
En una distribucin donde 
distribucin se extiende hacia la derecha, tiene exceso hacia valores xi grandes sesgo positivo, o que
tiene cola hacia la derecha. El coeficiente debera tener signo positivo.

W , es decir, la moda es mayor que la media, resulta que la
En una distribucin donde 
distribucin se extiende hacia la izquierda, tiene exceso hacia valores xi pequeos o sesgo negativo,
o simplemente tiene cola hacia la izquierda. El coeficiente debera tener signo negativo.
As pues los tres casos posibles son:

xm < x
Posicin Intervalo modal
a la izquierda de xd, de x
y xm

xm = x
Posicin Intervalo modal
en coincidencia con xd y x

x < xm
Posicin Intervalo modal
a la derecha de xd
75

Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA

= d = m

m <
Asimetra a la derecha

<

Simetra

a>0

Asimetra a la izquierda

a=0

a< 0

En Estadstica, la expresin

mr

(x
=

)r

i= 1, 2, , N

corresponde al momento verdadero del r-simo orden, esto quiere decir desvos respecto a la media
paramtrica.
El momento verdadero de primer orden es igual a cero, m1=0
El momento verdadero de segundo orden resulta ser igual a la varianza poblacional

m2 = 2 =

(x

)2

El momento verdadero de tercer orden, con desvos basados en la media y elevados a la tercera
potencia (xi -)3, se relaciona con la propiedad de simetra de un distribucin.
El momento verdadero de cuarto orden, anlogamente con desvos (xi -)4 ,se relaciona con la
propiedad de curtosis.
Para datos muestrales agrupados se tiene la expresin
k

x
mr =

r
i

.ni

i= 1, 2, , k donde xi se refiere al desvo entre el i-simo punto medio y la


media muestral.

Coeficiente de asimetra de Charlier:

g1 =

m3
s3

x x 3n / n
i
i

2
s .s

donde m3 son los momentos verdaderos (puntos medios menos la media) de tercer orden, basados
en (xi - )3.
g1 < 0 : asimetra negativa;

g1 = 0: simetra;

g1 > 0 : asimetra positiva.

4.8.2.3.2. La curtosis
Como ya dijimos, con este coeficiente se trata de medir el grado en que los valores de la variable
tienden a agruparse en torno de la media, hay mayor agrupamiento cuanto ms elevada o apuntalada
sea la distribucin. La medida de esta propiedad se har por referencia a la curtosis que posee la
distribucin o curva normal, que recibe el nombre de distribucin normal, o tambin campana de Gauss.
Esta distribucin es simtrica con respecto a su media y verifica que el valor de las potencias cuartas de
las desviaciones de las observaciones a la media aritmtica, (xi - )4, vale precisamente tres veces lo
mismo que la potencia cuarta de su desviacin tpica, 3 4.
Se utiliza para medirla un coeficiente que se basa en la cuarta potencia de los desvos de los
valores de la variable respecto a su media, xi - (o bien para la muestra, xi -x ), con el siguiente
criterio:

76
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


En una distribucin de frecuencias con un grado de concentracin similar a la normal, se dir
que la distribucin es mesocrtica y el ndice de curtosis debe valer cero.
En una distribucin donde los datos centrales se concentran ms que en el caso de la
mesocrtica se dir que la distribucin es leptocrtica y su ndice de curtosis deber valer
ms de cero.
En una distribucin donde los datos centrales se concentran menos que en el caso de la mesocrtica
se dir que la distribucin es platicrtica y su ndice de curtosis deber valer menos de cero.
Grficamente, las tres situaciones, considerando las poblaciones normales son:

Coeficiente de curtosis:

k
/ n

xi x



m4
=
g2 =
2
s4
s2

( )

donde m4 son los momentos verdaderos (puntos medios menos la media) de cuarto orden basados
en (xi - )4.
g2 < 3: platicrtica;

g2 = 3: mesocrtica;

g2 > 3: leptocrtica.

El ndice se lleva a valor cero para la mesocrtica, restndole 3 unidades, como:3-3 = 0. De este
modo, el ndice en una platicrtica resultar menor a 0 y en una leptocrtica mayor a 0.

4.9. COMUNICACIN Y PRESENTACIN DE RESULTADOS


Realizado el anlisis estadstico descriptivo (etapa de clculos) se deber realizar un informe
tcnico para comunicar los resultados, en el que se debern considerar los siguientes aspectos:
1) Acerca de los resultados numricos:
Se debern redactar conclusiones aplicando la terminologa y simbologa estadstica, y adems se
deber proceder a interpretar los resultados en trminos del problema. En el caso de variables
cuantitativas es muy utilizada la expresin x s y, en correspondencia resultados del siguiente tipo: 2,1
0,17, sin olvidar el acompaamiento de las unidades en que se haya medido la variable.
2) Acerca de los resultados grficos:
En general se utilizarn grficos (tablas y representaciones grficas) de presentacin, no
corresponde acompaar con tablas auxiliares de clculo, salvo que se adjunten en un anexo separado.
Adems de las representaciones grficas vistas, conocida la descripcin numrica, estamos en
condiciones de presentar un nuevo grfico, el denominado diagrama de caja o bien diagrama de caja y
bigotes (respectivamente, boxplot y box and whiskers) que es un grfico muy simple en su forma pero
muy informativo en su contenido (describe varias caractersticas importantes). El esquema general
responde a lo siguiente
Estructura general

Contenido informativo
Permite visualizar, para un conjunto de datos,
informacin con relacin a las cuatro propiedades
estadsticas de los datos:
a) Posicin o tendencia central
b) Dispersin general y presencia de datos atpicos.
c) Asimetra
d) Curtosis

77
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


El paso a paso para
ara construir un diagrama de caja es:
1) Identifique los lmites muestrales (xmn , xmx),
posicinelos en la recta de los reales, y nalos para
definir un segmento horizontal (o vertical) con longitud
xmn
igual a la amplitud muestral,
2) Calcule los cuartiles (q1, q2 = xd , q3) y posicinelos en
el eje anteriormente trazado. Con los cuartiles 1 y 3
dibuje una caja y particinela en dos partes trazando una xmn q1 q2 = xd
lnea en correspondencia al cuartil 2.
3) Puede agregar la representacin de la media,
agregando una cruz
xmn q1 q2 = xd

xmx

q3

xmx

q3

xmx

Ejemplo 4.10. Se trata de construir un diagrama de caja con los datos de una muestra de datos de
peso, en kg (n=20)
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40

1) Ordenacin de los datos


20
0 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
2) Identificacin de los valores extremos: mn 20 kg y mx 45 kg
kg.
3) Clculo de los cuartiles
q1=(24 + 25) / 2 = 24,5 kg ;

q2 =

xd

= (33 + 34)/ 2 =33,5 kg; q3 = (39 + 39) / 2 = 39,0 kg

4) Dibujar la caja y los bigotes

5) Interpretacin grfica

muestra, y el cuartil 1 (25% de los datos


El bigote izquierdo informa sobre el menor valor de la muestra
son menores o igual a q1 y, el 75% son mayores o iguales
iguales)
La caja informa sobre los tres cuartiles: a) el borde izquierdo indica el valor del cuartil inferior y el
derecho
echo el valor del cuartil superior, y representa el 50% de los datos posicionados
centradamente. La divisin interna definida por el cuartil mediano, determina dos compartimentos
desiguales, cada uno contiene 25% de los datos centrales, pero se observa may
mayor
or variabilidad
(mayor amplitud) en el primero, y menor variabilidad en el segundo. Ntese tambin el diferente
largo de los bigotes. Puede constatarse en la serie ordenada de datos
20
0 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
xmn
q1
q2
q3
xmx
El bigote derecho informa sobre el cuartil 3 (75% de los datos son menores o igual al q3 y el 25%
son mayores o iguales)
iguales y el mayor valor de la variable observada en la muestra.

6) Descripcin de las propiedades estadsticas:


estadsticas
Posicionamiento de la distribucin:
distribucin
a1. La mediana tom el valor 33,5 kg, por tanto un 50% de los datos muestrales correspondieron a
pesos menores y un 50% a pesos mayores.
a2. El primero y segundo cuartil, indican que hay un 25% de datos que son inferiores a 24,5 kg (ms
precisamente, entre
e 20 y 24,5 kg) y un 25 % que son superiores a 39 kg (ms precisamente entre 39
y 45 kg); el 50% restante de los datos presenta valores intermedios a stos.
a3. Dado que la primera parte de la caja es mayor que la segunda, hay que interpretar que la
distribucin tiene cola izquierda, con lo cual se induce que el valor de la media es inferior al de la
mediana ( x < xd ).
Dispersin de la distribucin:
distribucin
b1. Amplitud. m = xmx - xmn = 45 20= 25 kg; significa que el recorrido total fue de 25 kg, la variacin
total de la muestra fluctu entre 20 y 45 kg.
b2. Recorrido intercuartlico.
intercuartlico RI = q3 - q1 = 14,5 kg; es decir, el 50% de los datos muestrales est
comprendido entre 24,5 y 39 kg.
b3. Con relacin a los valores de la variable comprendidos en el recorrido intercuartlico, se observa que
los datos se han distribuido con mayor dispersin a la izquierda de la mediana (la primera parte de la
caja es mayor) y menor a su derecha (la segunda
segunda parte de la caja se extiende menos). Quiere decir
78
Ctedra de Clculo Es
Estadstico y Biometra Facultad de Ciencias
ias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA


que los pesos variaron ms entre 24,3 y 33,5 kg (a la izquierda del valor mediano) que entre 33,5 y
39 kg (a la derecha del valor mediano).
b4. Con relacin a los valores comprendidos en los extremos del recorrido total, resulta que el bigote de
la izquierda o cola izquierda es ms corta que la derecha; por ello el 25% de los pesos inferiores
estn ms concentrados que el 25% de los pesos mayores.
b5. En la muestra no hay datos muy atpicos (desviaciones individuales muy grandes, es decir, pesos
excesivamente pequeos o excesivamente grandes). Un valor atpico puede resultar de transponer
los dgitos al registrar una medicin, de leer incorrectamente la cartula de un instrumento, del mal
funcionamiento de
e una parte del equipo, y de otros problemas. Incluso cuando no hay errores de
registro o de observacin, un conjunto de datos puede contener una o ms mediciones vlidas que,
por una razn u otra, difieren notablemente de las otras en el conjunto. Estos vvalores
alores atpicos pueden
causar una marcada distorsin en los valores de los estadgrafos, de modo que aislarlos es un paso
importante en cualquier anlisis preliminar de un conjunto de datos (anlisis exploratorio de datos),
pero nunca se deber proceder a simplemente eliminarlos, de hecho los valores atpicos por s
mismos, podran estar llamando la atencin sobre lo siguiente: que contienen informacin importante
no compartida con las otras mediciones del conjunto.
Asimetra de la distribucin:
distribucin este grfico tambin proporciona informacin con respecto a la simetra o
asimetra de la distribucin general de los datos. Para la interpretacin se utilizan los siguientes criterios:
a) si la mediana est en el centro de la caja o cerca de l, constituye un indic
indicio
io de simetra de los datos,
b) si la mediana est a la izquierda del centro de la caja o sea se aproxima al primer cuartil,
cuartil la
distribucin est sesgada a la derecha (asimetra positiva) y, c) si la mediana est a la derecha del
centrode la caja, la distribucin
ribucin est sesgada a la izquierda (asimetra negativa. Asimismo, la longitud
relativa de los bigotes se puede emplear como un indicio de su asimetra
asimetra:: el bigote del lado sesgado de
la caja tiende a ser ms largo que el opuesto. Para el caso de la muestr
muestra
a estudiada, tomando el
centrado en la mediana, se observa que las dos partes de la caja tienen diferente tamao, lo cual indica
una falta de simetra. Por ser mayor la primera parte, se interpreta que se trata de una distribucin con
asimetra negativa (mayor
mayor dispersin en cola izquierda).
Curtosis de la distribucin:
distribucin: el ancho total de la caja abarca gran parte del recorrido total, por tanto la
concentracin de los datos no es importante y se trata de una distribucin con escaso apuntalamiento,
es decir, que es de tipo platicrtico.
Para finalizar, y comprobar la gran utilidad del diagrama de caja como grfico resumen de las
propiedades estadsticas de los datos en masa, se considerar que se dispone de ms de una muestra.
Un resultado posible podra ser
se el siguiente:

Muestra 1

Muestra 2

Notar que claramente se muestra que los valores extremos de las muestras son
algo diferentes y que la distribucin general de los datos tambin lo es: en la
muestra 1 la divisin de la caja indica mayor variabilidad para los datos por
encima de la mediana, mientras que en la muestra 2 ocurre esto con los datos
inferiores a la mediana.

Ejemplo 4.11: Supngase que adems de la muestra de pesos analizada precedentemente, se dispone
de los datos de una segunda muestra
35 38 32 28 30 29 27 19 48 40
39 24 24 34 26 41 29 48 28 22
y al representar los datos del anlisis resulta el siguiente diagrama de caja

Dejamos al alumno la tarea de realizar un anlisis comparativo de las distribuciones correspondientes a


los datos de las dos muestras.
Ejemplo 4.12. Intente ahora obtener informacin acerca de cinco muestras. La variable estudiada es el
tiempo que demora un corredor, que se est preparando para una carrera, en recorrer 100m. Su
entrenador le ha tomado los tiempos desarrollados en varias corridas realizadas el 1 da de
entrenamiento,
enamiento, el 2, el 3, el 4 y el 10. Qu puede decir acerca de los logros del corredor?

79
Ctedra de Clculo
culo Estadstico y Biometra Facultad de Cien
iencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA

Ejemplo 4.13. Seguidamente le proporcionamos dos distribuciones referidas al crecimiento de plantas,


en cm, sometidas durante un perodo de tiempo bajo diferentes condiciones. Realice el anlisis
comparativo de los resultados.

Para finalizar, cabe explicar el caso de los diagramas de caja que muestran valores atipicos (outliers).
El cuerpo principal de un diagrama de caja muestra el patrn general de comportamiento que tienen los
datos, pero a veces resulta que se tienen algunos datos con un valor inusual, esto es, datos muy
grandes o muy pequeos con relacin al patrn general de los datos. Estos datos con valores que se
alejan de los restantes pueden deberse a efectos de causas extraas, como algn error de medicin o
registro pero tambin pueden tener otra explicacin. Por tanto su eliminacin no debe ser precipitada y
se justifica recurrir al diagrama de caja para mostrarlos en forma particular. A tal efecto, se requiere
agregar otra informacin al diagrama de caja: la correspondiente a dos tipos de bordes o barreras,
internos y externos, que se definen teniendo en cuenta el recorrido intercuartlico (RI), que se calcula
como la diferentica entre el cuartil superior y el cuartil inferior del siguiente modo:
Barreras internas
Barrera interior inferior = Primer cuartil 1,5 RI
Barrera interior superior =Tercer cuartil + 1,5 RI

Barreras externas
Barrera exterior inferior = Primer cuartil 3 RI
Barrera exterior superior = Tercer cuartil + 3 RI

80
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

UNIDAD I: ESTADSTICA DESCRIPTIVA

Cuerpo principal del grfico


Barrera
exterior
inferior

Barrera
interior
superior

Borarrera
interior
inferior

Barrera
exterior
superior


Datos atpicos

q3 +1,5 RI

q1 -1,5 RI
Cola
Izquierda
(25% datos)

Datos atpicos
extremos

q1 q2

q3

Cola
Derecha
(25% datos)

Recorrido
Intercuartlico

q1 -3 RI

RI = q3 q1
(50% datos)

q3 +3 RI

Grfico 4.8. Diagrama de caja con barreras

Si existen valores de la variable atpicos, segn la magnitud de sus desvos, se los encontrar
comprendidos entre las barreras interiores y exteriores.
Un valor atpico sospechoso o leve, se marca en la grfica con un crculo relleno (), en
cambio un valor atpico extremo o severo se suele indicar con un crculo vaco (o) o un
asterisco (*).
Los bordes internos y externos se muestran en el grfico 4.8. con lneas discontinuas, pero
usualmente no se dibujan en el diagrama de caja. Cualquier medicin que est entre los bordes interno y
externo se llama valor atpico sospechoso, y cualquier medicin que est ms all de los bordes
externos es u valor atpico extremo. Las mediciones que quedan al ubicarse dentro de los bordes, no
son raras. El diagrama de caja tambin marca el rango de las mediciones dentro del borde al localizar
los valores adyacentes, es decir las mediciones ms grande y ms pequea antes de los bordes
internos.
Algunas preguntas que conviene formularse para una mejor interpretacin y comprensin del
comportamiento de la variable observada, son:

Cules son los conceptos del anlisis descriptivo (estadgrafos) que pueden analizarse en este
tipo de grfico?
Qu valores han tomado esos estadgrafos?
Qu porcentaje de datos representa la caja?
Qu porcentaje representa cada uno de los bigotes?
Siempre se encuentra la mediana en el centro de la caja?
Puede ser un bigote ms largo que otro?. Qu estara indicando, si as fuera?
Para qu sirven las barreras?

81
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2014

S-ar putea să vă placă și