Documente Academic
Documente Profesional
Documente Cultură
TEMA
ORGANIZACIÓN DE DATOS ESTADÍSTICOS
2.1. Introducción
2.2. Medición y calidad de los datos
2.3. Procesamiento estadístico de Datos
2.4. Organización de datos
2.4.1. Recolección de datos
2.4.2. Preparación de datos
2.4.3. ¿Cómo preparar los datos de una muestra para su análisis?
2.4.4. ¿Cómo clasificar los datos de una variable cuantitativa en el caso de
muestras grandes?
2.1. INTRODUCCIÓN
Los conjuntos de datos empíricos utilizados para indagar los fenómenos que acontecen en el
mundo real, suelen ser de naturaleza muy variada. En coincidencia la problemática puede requerir
métodos de análisis de datos estadísticos de diversa complejidad sin embargo, cualquiera sea ésta,
siempre los procedimientos tendrán un aspecto en común, que es el de atravesar por dos etapas: la del
análisis estadístico descriptivo y la del análisis estadístico inferencial.
Presentados los conceptos básicos, con este capítulo se inicia el desarrollo de las herramientas
que proporciona la Estadística Descriptiva para la organización, el análisis y la interpretación de
conjuntos de datos. El objetivo fundamental es entrañar las propiedades que presentan los datos en
conjunto o en masa, denominadas en general propiedades estadísticas de los datos1 y, también
conocer algunos aspectos particulares. La planificación de la recolección de los datos referentes a una
problemática, puede conducir a una investigación por muestreo o a una investigación mediante el
diseño experimental lo que da origen, respectivamente, a conjuntos de datos muestrales y datos
experimentales, temas que serán tratados en capítulos que se desarrollarán más adelante después de
presentar los conceptos básicos de la inferencia estadística.
Las herramientas que brinda la Estadística Descriptiva permiten hacer: a) una descripción
gráfica en forma tabular (con tablas) o bien con representaciones gráficas (diagramas, y gráficos en un
sistema cartesiano) y, b) una descripción numérica, a través de medidas de las propiedades
estadísticas calculadas con los datos muestrales, denominadas estadígrafos. Ambas descripciones
permiten expresar en términos cuantitativos, las características que presentan las muestras con relación
a las propiedades estadísticas de las variables observadas. La complejidad de la descripción está en
función del nivel de medición de la variable, el tamaño muestral y el objetivo del análisis. En general,
cuanto menor sea el nivel de medición y la cantidad de datos, menor será la dificultad y la gama de
estadígrafos a utilizar.
En cuanto al objetivo de la descripción estadística, se debe decidir cuál es el tipo de información
que interesa tener, parcial o sea respecto a una muestra en particular o bien poblacional que, como se
verá al avanzar en el desarrollo de la asignatura, será lo común. También se considerará el destinatario
de la información, y en este sentido se podrá apuntarse a una comunicación para un público general
(periódicos, boletines de divulgación, etc.) para lo cual deberá emplearse un estilo simple, o bien a un
destinatario más preparado con lo cual se requiere un estilo comunicacional más riguroso (informes
técnicos o informes científicos, reservando para estos últimos las herramientas que comunican con
mayor exactitud y precisión los resultados).
Las herramientas para analizar datos muestrales se pueden clasificar, en primera instancia, en
dos tipos: procedimientos de análisis exploratorio y, los procedimientos de análisis clásico. Los
primeros como lo indica su nombre, se aplican en la etapa inicial del análisis con el objetivo principal de
tomar un conocimiento ligero sobre la calidad de los datos y algunos aspectos que son relevantes para
definir el posterior análisis, y suelen llevarse a cabo utilizando diagramas o medidas simples. En cambio
el análisis tradicional es empleado para un conocimiento acabado sobre las propiedades que poseen los
datos y para la comunicación de los resultados definitivos, y se valen de herramientas gráficas como las
tablas y las representaciones gráficas denominadas generalmente gráficos, así como de una gran
gama de estadígrafos.
---1 Se refiere a propiedades generales que presentan los conjuntos de datos empíricos, que son cuatro y se conocen como:
Posicionamiento/Tendencia central, Dispersión, Apuntalamiento (curtosis) y Asimetría.
17
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
calidad de los datos medidos, así como de los datos procesados, van en contra de su utilidad. Contar
con datos de calidad, por tal razón, se constituye en un objetivo, y asegurarse de que realmente los
datos la tienen,
en, es un desafío inicial en el análisis de los datos para poder obtener información útil.
Resulta importante dejar en claro que una genuina calidad en los datos, se logra interviniendo en
el sistema de la medición y no sobre ellos en sí. Para esto el el pro
proceso
ceso de medición se inicia con la
identificación y delimitación correcta de la problemática y los objetivos de su estudio, y continúa con: a)
la definición de los datos relevantes, b) la captación (medición o búsqueda), c) su depuración mediante
controles preventivos (detección de errores) y correctivos (adecuación), y d) su organización del modo
más eficiente para el posterior análisis.
Entre las múltiples dimensiones para establecer la calidad de los datos, se considerarán la
pertinencia,
rtinencia, la exactitud, la precisión, la cantidad, y la oportunidad. Las ideas correspondientes son:
Ilustración de la diferencia
iferencia
entre
exactitud y precisión
Exactitud:
Ubicación respecto al blanco de tiro Baja Alta Alta
(u objetivo)
Precisión:
Alta Baja Alta
Variabilidad en la repetición del tiro
• Pertinencia: se refiere a que únicamente se deben emplear datos que resulten adecuados para alcanzar la
finalidad por la cual se recolectaron y, al deber que se tiene de no usarlos cuando carecen de esta
propiedad, tal el caso de que carezcan de relevancia, exactitud, vigencia, consist
consistencia, autenticidad, etc.
• Oportunidad:: se deben optimizar
optimizar los procesos de medición para disponer de los datos en conveniencia de
formato, tiempo y lugar. En esto presta gran apoyo el uso de tecnologías de la información y comunicación
(TIC), para contar con
on los datos necesarios en el momento que se los necesite (captura automática de
datos, bases de datos informatizadas, software especializado, etc.).
Desde
de el punto de vista de la cantidad de variables medidas, se puede hablar de una medición
univariada, bivariada y multivariada (Cuadro 2.1).
Cuadro 2.1: Tipo de medición según dimensionalidad
Caso/NºVariables Ejemplo
Estudio del número de plantas vivas de maleza Wedelia glauca por parcela (X), al aplicar
Univariado (1)
un herbicida.
Estudio del aumento del peso corporal de cerdos (Y, en kg), en la etapa de destete, en
Bivariado (2)
función del peso de la ración alimenticia (X, en kg).
Estudio del efecto de la humedad relativa ambiente (X1, en %) y la temperatura media del
Multivariado (≥3)
suelo (X2, en ºC), en el rendimiento de un híbrido de tomate (Y, en T/ha).
En esta primer unidad de estudio, se centrará el interés en la descripción estadística d dee muestras
univariadas y se introducirán algunas ideas acerca del caso bivariado que será retomado en la unidad de
análisis de la relación entre variables.
variables
EL PROCESAMIENTO DE DATOS
1º) Recolección (Diseño y toma)
2º) Organización (Depuración, Ordenamiento, Clasificación)
3º) Análisis (exploratorio y tradicional)
Es muy importante internalizar que la aplicación de los métodos estadísticos, desde el inicio del
procedimiento de datos muestra una gran diferencia con la capacitación adquirida al resolver problemas
en Matemática. En esta última, los datos se toman puros sin analizar aspectos que hacen a su toma y
diagnóstico de calidad pero, en la aplicación en de la Estadística, antes de entrar propiamente en el
análisis, se requiere trabajar con los datos para asegurar que tienen la calidad necesaria que requiere el
análisis posterior. Esto se debe a dos razones: a) que se trata de datos empíricos que provienen de una
realización física, y por tanto pueden estar afectados por diversos tipos de errores y, b) que la aplicación
de los métodos estadísticos inferenciales se basa en que las poblaciones de las que se tomaron los
datos cumplen con ciertos supuestos o enunciados proposicionales en los que se funda la correcta
aplicación de cada método, por lo tanto hay que comprobar el cumplimiento de tales proposiciones que
se consideran verdaderas.
Para finalizar, antes del abordaje de las diferentes etapas del procesamiento de datos, se quiere
advertir sobre lo siguiente: la resolución de problemas de Estadística descriptiva se necesita combinar el
arte y la ciencia, a fin de alcanzar los mejores resultados. Así por ejemplo el concepto de muestra
pequeña y de muestra grande, que en Estadística inferencial estará referenciado al número 30, resulta
flexible cuando se hace la descripción de un conjunto de datos, y puede requerirse un tamaño muestral
de n=50 para poder construir los gráficos indicados para muestras grandes.
Finalmente, se apela a un llamado de atención acerca de lo siguiente: el alumno mientras trabaje
con los datos de una muestra en el contexto de esta primera unidad temática del programa de la
asignatura, estará considerando una situación en particular con características y condiciones específicas
para esa muestra, de modo que será incorrecto hacer generalizaciones directamente a otras situaciones
con mayor alcance, es decir, en ningún caso podrán emitirse conclusiones poblacionales.
• Tipo de variable: si la variable es cualitativa siempre se trabajará con muestras grandes, pero
en el caso de variables numéricas se presenta la situación de muestras pequeñas y muestras
grandes.
Cuadro 2.2. Proceso de ordenación y clasificación de datos muestrales
Tipo de variable Tamaño muestral Ordenación Clasificación
Cualitativa Grande No Sí
Pequeño Sí No
Discreta
Grande Sí Sí
Cuantitativa
Pequeño Sí No
Continua
Grande Sí Sí
Definición 2.1.
Una distribución tipo I con clases categóricas, es una serie apareada de datos
estadísticos unidimensional, a cada clase o categoría la asocia con el número de veces que se ha
presentado en la muestra , y así, exhaustivamente para todas las clases. Esto es:
a1, a2 , …, ak apareadas respectivamente con n(a1), n(a2), …, , n(ak).
2
--- "Per se" es una expresión derivada del latin, que significa "de por si", "por si mismo". Recordar que variables originalmente
numéricas, pueden por ciertas razones ser expredas en niveles de medición más bajos (Escala nominal y ordinal).
20
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Ejemplo 2.1: En un pueblo se ha tomado una muestra de 500 habitantes, para analizar los grupos sanguíneos, a
fin de estudiar el posible origen de sus antecesores.
En ninguno de los dos ejemplos, podemos hablar de una distribución simple de datos, porque
cada “dato” (A, B, AB, O, o bien: Ninguno, Primario, Secundario, Terciario, Universitario, Superior) está
asociado a más de una observación.
a. Muestras pequeñas
El ordenamiento de los datos, que en el contexto de problemas de ciencias agronómicas o
similares suele hacerse por magnitud en orden creciente y en el de las ciencias económicas en orden
decreciente, conduce a una distribución simple de datos, un concepto que implica en el caso univariado
un listado de los n datos muestrales. El criterio es válido tanto para variables discretas como continuas.
Definición 2.2.
Una distribución simple, es una serie de datos estadísticos no agrupados, que suele
presentarse ordenada por magnitud como
(x1 , x2 , x3 , ... , xi , ... , xn ), donde x1 < x2 < x3 < ... < xi < ... < xn
En la práctica la etapa de ordenamiento, que pone en evidencia la posición que ocupa cada
dato en una escala numérica (conjunto de datos de menor a mayor o bien de mayor a menor), resulta
relevante cuando se trata de una muestra pequeña, en cambio cuando la muestra es de tamaño grande
la etapa relevante es la de clasificación.
Ejemplo 2.3: Un ecólogo está interesado en el efecto de los detergentes de uso doméstico. Uno de sus estudios
ha sido analizar la cantidad de fosfatos, en gramos, que una familia tipo (tres miembros) vuelca al sistema cloacal,
al lavar automáticamente la vajilla utilizada en el día, en un único lavado. Para la prueba ha empleado los diez
detergentes de mayor venta en los supermercados del gran Mendoza. Los datos han sido: 35-37-29-40-53-44-39-
48-50-42 gramos/día.
La distribución simple de los datos de esta muestra pequeña (n=10), se puede indicar como:
Gramos de fosfato 29 35 37 39 40 42 44 48 50 53
Pese a la simpleza del proceso, un ordenamiento de datos de menor a mayor, es clara la ganancia lograda
en la comprensión general y particular de los n datos. Algunos aspectos observables son:
a) los valores extremos de la serie: 29 y 53 gramos (mínima y máxima contaminación)
b) la sucesión de valores no muestra aspectos llamativos (distanciamiento entre valores adyacentes más o
menos uniforme)
c) no hay ningún valor que parezca no pertenecer a esta serie, es decir, ningún valor extraño o atípico.
b. Muestras grandes
Como en el caso de las variables categóricas, cuando se dispone de muestras grandes, las
etapas de ordenamiento y de clasificación deben conducir a la condición de datos agrupados, con la
finalidad de poner en evidencia los valores observados de la variable apareados con la cantidad de
unidades que los tuvieron (variable discreta) o bien agrupamientos de valores de la variable (variable
continua) en relación a su presentación (Cuadro 2.3).
Cuadro 2.3 a. Criterios para abordar la descripción estadística de muestras pequeñas.
Tamaño
Tipo de variable Datos sin agrupar
muestral
Discreta
Pequeña Cuantitativa Distribución simple con datos ordenados por magnitud
Continua
21
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Cuadro 2.3 b. Criterios para abordar la descripción estadística de muestras grandes
Tamaño Datos agrupados
Tipo de variable
muestral (Distribuciones de frecuencias)
Distribución tipo I
Cualitativa
Cantidad de unidades clasificadas por categoría
a) Pocos valores diferentes de variable
Distribución tipo II: Cantidad de unidades
clasificadas por valor de variable
Discreta
Grande b) Muchos valores diferentes de variable:
Cuantitativa Distribución tipo III: Cantidad de unidades
clasificadas por intervalo de clase
Distribución tipo III
Continua Cantidad de unidades clasificadas por intervalo de
clase
Generalizando, la expresión “cantidad de unidades clasificadas” es, en términos estadísticos, una
frecuencia, y el conjunto total apareado de categorías (variable cualitativa) o bien valores puntuales de
variable (variable cuantitativa discreta) o de agrupamiento de valores (variable cuantitativa continua) de
la variable observada con sus frecuencias de presentación, reciben la denominación general de:
distribuciones de frecuencias observadas. En un capítulo siguiente se ampliará y profundizará este
fundamental concepto estadístico.
Ejemplo 2.4: Para evaluar el daño que producen los grillos en un campo cultivado, un estudio ha consistido en
contar el número de grillos en 100 cuadrículas del terreno. En el plano llevado a campo se registró lo siguiente:
DIRECCIÓN E-O
1 2 3 4 5 6 7 8 9 10
D 1 XX X X X
I 2 X XXX XX XXX XX X
R 3 XXX X X XX X
E 4 XX X XX X X X
C 5 X XXXX XXX XXX XX XXX
C 6 X XX X X
I 7 XX XX X XXXX XX XXX X
Ó 8 XXX XXXX X X X XXXXX XX
N 9 X XX X XXX
N-S 10 X X
Una rápida inspección de los registros, permite reconocer que las cuadrículas han presentado entre 0 y 5
grillos/ parcela, por tanto, el recorrido de la variable observada es X=0, 1, 2, 3, 4, 5. Ahora hay que determinar
cuántas veces la variable ha tomado esos valores, para lo cual se debe hacer el recuento de las cuadrículas que
tuvieron cada una de esas cantidades de grillos. Nos facilitará la tarea la construcción de una tabla auxiliar:
0 //// //// //// //// //// //// //// //// //// ///
1 //// //// //// //// ////
2 //// //// ///
3 //// ///
4 ///
5 /
3
--- Cuando la cantidad de valores de la variable discreta es muy grande como puede ocurrir en un censo, a los efectos de la
comprensión general se la puede tratar como una variable continua, de modo de obtener también una distribución de tipo II pero
esta situación no se dará en este curso.
22
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Finalmente, el resultado se puede mostrar de la siguiente forma:
Nº de grillos por cuadrícula 0 1 2 3 4 5
Cantidad de cuadrículas 48 25 13 9 3 1
Resulta conveniente prestar atención a lo siguiente: la variable discreta “número de grillos por cuadrícula”
ha tomado muy pocos valores (0,1,2,3,4 ó 5), y como la muestra es grande resulta que se han repetido mucho, lo
cual se refleja sobre todo para el caso de 0, 1 y 2 grillos/cuadrícula.
---4 Ensayo donde no se aplica ningún tipo de tratamiento y se procede a medir en el estado de situación natural.
---5 Las tablas de rendimientos parcelarios son tablas primarias, en ellas se tienen los registros de campo o datos brutos.
23
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Tabla secundaria de datos parcelarios ordenados.
1,2 1,9 2,0 2,1 2,2 2,2 2,3 2,4 2,4 2,4 25 2,6 2,6 2,7 2,8 2,9
1,4 1,9 2,0 2,1 2,2 2,3 2,3 2,4 2,4 2,5 2,5 2,6 2,6 2,7 2,8 2,9
1,5 1,9 2,0 2,1 2,2 2,3 2,3 2,4 2,4 2,5 2,5 2,6 2,6 2,7 2,8 2,9
1,6 1,9 2,0 2,1 2,2 2,3 2,3 2,4 2,4 2,5 2,5 2,6 2,6 2,7 2,8 3,0
1,6 1,9 2,0 2,1 2,2 2,3 2,3 2,4 2,4 2,5 2,5 2,6 2,9 2,7 2,8 3,0
1,8 1,9 2,0 2,1 2,2 2,3 2,3 2,4 2,4 2,5 2,5 2,6 2,4 2,7 2,8 3,1
1,8 2,0 2,0 2,1 2,2 2,3 2,3 2,4 2,4 2,5 2,5 2,6 2,7 2,7 2,8 3,2
1,8 2,0 2,1 2,2 2,2 2,3 2,4 2,4 2,4 2,5 2,5 2,6 2,7 2,8 2,8 3,2
1,8 2,0 2,1 2,2 2,2 2,3 2,4 2,4 2,4 2,5 2,5 2,6 2,7 2,8 2,9 3,2
1,8 2,0 2,1 2,2 2,2 2,3 2,4 2,4 2,4 2,5 2,6 2,6 2,7 2,8 2,9 3,3
1,8 2,0 2,1 2,2 2,2 2,3 2,4 2,4 2,4 2,5 2,6 2,6 2,7 2,8 2,9 3,5
1,8 2,0 2,1 2,2 2,2 2,3 2,4 2,4 2,4 2,5 2,6 2,6 2,7 2,8 2,9 3,8
De esta nueva tabla, con datos que también estaban disponibles en la tabla primaria,
seguramente Ud. va a extraer mucha más información que la revelada por la tabla original. Por ejemplo
podría concluir:
a) que es más fácil detectar valores extraños o atípicos de la variable (muy diferente al resto),
como lo fueron 2 y 12,7,
b) que rápidamente se puede identificar que 1,2 es el menos valor numérico y 3,8 es el mayor.
c) que se observan valores repetidos, pero que los valores inferiores y los superiores no se
repiten tanto como los valores centrales y, particularmente que el valor más repetido es 2,4.
d) que la distancia entre valores sucesivos prácticamente es una constante igual a 0,1 o 0,2 así
como también que hay continuidad (no se observan saltos o vacíos entre números sucesivos)
e) que se pueden reconocer subconjuntos de valores correspondientes a: parcelas con bajo
rendimiento (aproximadamente el tercio inferior de la serie ordenada, 1,2-2,2), parcelas con buen
rendimiento (tercio medio, 2,3-2,5) y parcelas con alto rendimiento (tercio superior, 2,6-3,8)
A pesar de las ventajas vistas, el ordenamiento de datos en muestras grandes de variables
continuas, suele ser engorroso cuando se trabaja manualmente, entonces la subetapa de ordenación
generalmente se pasa por alto, ya que la laboriosidad que implica no se ve muy bien recompensada y
además en la siguiente subetapa (clasificación), como se verá enseguida, va implícito el ordenamiento.
Pero, si disponemos de una computadora podemos ayudarnos con una planilla de cálculo como Excel,
la única tarea pesada será cargar los datos.
Pasemos ahora a la etapa final de la organización de los datos de una variable continua: la
clasificación. El objetivo, recordemos, es reducir la información todo lo que sea posible, pero sin perder
los aspectos esenciales, para que siga siendo útil, a la hora de valernos para la toma de decisiones, de
la interpretación de la información reducida. ¿ Qué criterio utilizaremos para hacer los agrupamientos?:
uno que ya comenzamos a aplicar en el caso del inciso e) al tratar de interpretar los datos de la variable
rendimiento parcelario en la tabla secundaria (ejemplo I.5), esto es, agrupar datos tratando de armar con
ellos subconjuntos que tengan cierto significado.
En variables cualitativas habíamos visto que las clases eran modalidades o categorías de la
variable, mientras que en variables discretas la clase era un único valor. En variables continuas, una
clase es una subdivisión del dominio de la variable, es un subconjunto o intervalo de valores. Para la
clasificación, el total de las clases constituye una serie de intervalos consecutivos que son exhaustivos y
mutuamente excluyentes entre sí. Esto permite que todos los datos puedan ser clasificados sin
ambigüedad: todos los valores resultan clasificados (condición de exhaustiva) y cada valor pasa a
pertenecer a una y solo una clase (condición de mutuamente excluyente).
Ahora, vamos a los aspectos operativos de cómo armar esas clases o intervalos de clase:
1º) Hallar los límites reales de la muestra: Los valores extremos de la muestra, denominados límite
inferior y límite superior muestra, se simbolizan como, xinf y xsup, y constituyen los límites reales de
la muestra. Ya es conocido que en esta muestra estos valores son xinf = 1,2 y xsup = 3,8 kg/parcela.
2º) Calcular la amplitud muestral, ∆m : la diferencia entre los límites reales de la muestra da el valor de
la amplitud muestral
∆m = xsup − xinf
Luego, para el ejemplo ∆m = 3,8 kg/parcela – 1,2 kg/parcela = 2,6 kg/parcela. Esta amplitud es un
intervalo grande, que pretendemos subdividirse en intervalos más pequeños, denominados intervalos
de clase.
3º) calcular el número de intervalos de clase, k: recomendamos aplicar la fórmula de Sturges, donde n
es el tamaño de la muestra
= 1 + 3,3 ∗ log
Para el ejemplo en estudio, resulta: k = 1 + 3,3. Log (192) = 8,53. Como el número de intervalos
es un entero, redondeamos, así k=9. (Siempre es aconsejable que este número sea impar, porque la
existencia de un intervalo central facilita, como veremos más adelante, los cálculos posteriores) Si n no
es muy grande podemos disminuir el nº de intervalos; en nuestro ejemplo trabajaremos con 7 intervalos.
24
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
4º) calcular la longitud o amplitud real de los intervalos de clase, ∆x (o con ∆xi si no es constante)
como
∆x = ∆m k
En el ejemplo nuestro resultó ∆x = 2,6 kg / 7 = 0,37 kg, luego por redondeo ∆x = 0,4 kg/parcela
5º) Definir los intervalos de clase a partir de los límites reales: a partir del límite inferior de la muestra,
se va sumando una longitud constante (∆x) igual a 0,4 resultando la serie de 7 intervalos cerrados6.
1,2 + 0,4 = 1,6 luego, [1,2 – 1,6]
1,6 + 0,4 = 2,0 [1,6 – 2,0]
2,0 + 0,4 = 2,4 [2,0 – 2,4]
2,4 + 0,4 = 2,8 [2,4 – 2,8]
2,8 + 0,4 = 3,2 [2,8 – 3,2]
3,2 + 0,4 = 3,6 [3,2 – 3,6]
3,6 + 0,4 = 4,0 [3,6 – 4,0]
Comprobamos que los límites reales de la muestra quedan abarcados por estos intervalos y que
la longitud de los intervalos se mantiene constante e igual a 0,4.
6º) Definir los intervalos de clase discretos para la clasificación de los datos: un mismo dato no
puede ser clasificado en dos intervalos al mismo tiempo, es lo que ocurriría, por ejemplo, con los datos
parcelarios que son igual a 1,6 que podrían pertenecer simultáneamente al primer y segundo intervalo
de clase de la serie recién construida. Tampoco es correcto razonar que al clasificar, la unidad
correspondiente se debe repartir mitad en el primer intervalo y mitad en el segundo, porque se
desnaturaliza el concepto de unidad. Para evitar esta complicación se puede construir una serie de
intervalos de clase semiabiertos7.
[1,2 – 1,6) luego, 1,2 – 1,5
[1,6 – 2,0) 1,6 – 1,9
[2,0 – 2,4) 2,0 – 2,3
[2,4 – 2,8) 2,4 – 2,7
[2,8 – 3,2) 2,8 – 3,1
[3,2 – 3,6) 3,2 – 3,5
[3,6 – 4,0) 3,6 – 3,9
Conviene notar la diferencia entre esta nueva serie de intervalos y la obtenida en el punto
anterior, con relación a la naturaleza de la variable, en el primer caso la variable era continua y en este
otro se produce una discontinuidad, que resulta un artificio para permitir una correcta clasificación de las
unidades.
7º) Definir los intervalos exactos de clase: una vez clasificados los datos, corresponde que los
resultados del conteo o cantidades vuelvan a referirse a una serie de intervalos continuos por la
naturaleza de la variable medida.
Sea el primer intervalo que va de 1,2 a 1,6, si consideramos un decimal más podemos armar la
siguiente escala
1,1 1,2 1,3 ... 1,4 1,5 1,6
↑⊥⊥⊥⊥⊥⊥⊥⊥⊥↑⊥⊥⊥⊥⊥⊥⊥⊥⊥↑ ↑⊥⊥⊥⊥⊥⊥⊥⊥⊥↑⊥⊥⊥⊥⊥⊥⊥⊥⊥↑
↑ ↑ ↑ ↑
1,15 1,25 1,45 1,55
donde 1,2 ó 1,20 y 1,5 ó 1,50 son puntos intermedios de los correspondientes intervalos creados.
Luego el primer intervalo exacto de clase comienza en 1,15 y termina en 1,55, y así sucesivamente
hasta obtener la serie completa.
Como resultado luego de aplicar el procedimiento dado, se obtiene una distribución tipo III.
6
--- Intervalo indicado con corchetes, y significa que sus extremos pertenecen al mismo (incluye los extremos).
Simbólicamente: x ∈ [a,b], denota al conjunto al conjunto de valores de la variable x en un recorrido delimitado por a y b, tal
que a ≤ x ≤ b.
7
--- Intervalo que se indica con un corchete y un paréntesis, el primero indica que el correspondiente valor extremo pertenece al
intervalo y el segundo que no pertenece. Ej.: x ∈ (a,b] denota al conjunto a < x ≤ b, esto es un intervalo semiabierto por
izquierda, esto es abarca a todos los números mayores que a y menores o iguales que b; en tanto que x ∈ [a,b) denota al
conjunto a ≤ x < b o sea un intervalo semiabierto por derecha o sea que es el conjunto de todos los números mayores o iguale
que a y menores que b. Respectivamente se grafican
25
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Tabla auxiliar para la clasificación de los datos
Rendimientos Cantidad de
Clasificación del rendimiento
(*) parcelas
1,2 – 1,5 /// 3
1,6 - 1,9 //// //// //// 15
2,0 – 2,3 //// //// //// //// //// //// //// //// //// //// //// //// / 61
2,4 – 2,7 //// //// //// //// //// //// //// //// //// //// //// //// //// //// //// //// //// 84
2,8 – 3,1 //// //// //// //// /// 23
3,2 – 3,5 //// 5
3,6 – 3,9 / 1
(*) Notar que el agrupamiento de los rendimientos se presenta bajo un formato de intervalos de clase
discretos.
De modo sintético, se logra lo siguiente:
Tabla de distribución de los datos de rendimientos de ajo
Rendimientos Cantidad de
(**) parcelas
1,15 – 1,55 3
1,55 - 1,95 15
1,95 – 2,35 61
2,35 – 2,75 84
2,75 – 3,15 23
3,15 – 3,55 5
3,55 – 3,95 1
Total 192
Intervalos Cantidad de
Definición 2.4. de clase unidades (ni)
Una distribución tipo III con clases numéricas, es una serie [x 1 , x 2 ) n1
apareada de datos estadísticos, donde a cada intervalo de valores [x 2 , x 3 ) n2
de la variable continua se lo asocia con el número de veces que se . .
.
han presentado valores del intervalo en la muestra. .
[x k--1 , x k ) nk
26
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015