Sunteți pe pagina 1din 10

UNIDAD I: ESTADÍSTICA DESCRIPTIVA

TEMA
ORGANIZACIÓN DE DATOS ESTADÍSTICOS
2.1. Introducción
2.2. Medición y calidad de los datos
2.3. Procesamiento estadístico de Datos
2.4. Organización de datos
2.4.1. Recolección de datos
2.4.2. Preparación de datos
2.4.3. ¿Cómo preparar los datos de una muestra para su análisis?
2.4.4. ¿Cómo clasificar los datos de una variable cuantitativa en el caso de
muestras grandes?

2.1. INTRODUCCIÓN
Los conjuntos de datos empíricos utilizados para indagar los fenómenos que acontecen en el
mundo real, suelen ser de naturaleza muy variada. En coincidencia la problemática puede requerir
métodos de análisis de datos estadísticos de diversa complejidad sin embargo, cualquiera sea ésta,
siempre los procedimientos tendrán un aspecto en común, que es el de atravesar por dos etapas: la del
análisis estadístico descriptivo y la del análisis estadístico inferencial.
Presentados los conceptos básicos, con este capítulo se inicia el desarrollo de las herramientas
que proporciona la Estadística Descriptiva para la organización, el análisis y la interpretación de
conjuntos de datos. El objetivo fundamental es entrañar las propiedades que presentan los datos en
conjunto o en masa, denominadas en general propiedades estadísticas de los datos1 y, también
conocer algunos aspectos particulares. La planificación de la recolección de los datos referentes a una
problemática, puede conducir a una investigación por muestreo o a una investigación mediante el
diseño experimental lo que da origen, respectivamente, a conjuntos de datos muestrales y datos
experimentales, temas que serán tratados en capítulos que se desarrollarán más adelante después de
presentar los conceptos básicos de la inferencia estadística.
Las herramientas que brinda la Estadística Descriptiva permiten hacer: a) una descripción
gráfica en forma tabular (con tablas) o bien con representaciones gráficas (diagramas, y gráficos en un
sistema cartesiano) y, b) una descripción numérica, a través de medidas de las propiedades
estadísticas calculadas con los datos muestrales, denominadas estadígrafos. Ambas descripciones
permiten expresar en términos cuantitativos, las características que presentan las muestras con relación
a las propiedades estadísticas de las variables observadas. La complejidad de la descripción está en
función del nivel de medición de la variable, el tamaño muestral y el objetivo del análisis. En general,
cuanto menor sea el nivel de medición y la cantidad de datos, menor será la dificultad y la gama de
estadígrafos a utilizar.
En cuanto al objetivo de la descripción estadística, se debe decidir cuál es el tipo de información
que interesa tener, parcial o sea respecto a una muestra en particular o bien poblacional que, como se
verá al avanzar en el desarrollo de la asignatura, será lo común. También se considerará el destinatario
de la información, y en este sentido se podrá apuntarse a una comunicación para un público general
(periódicos, boletines de divulgación, etc.) para lo cual deberá emplearse un estilo simple, o bien a un
destinatario más preparado con lo cual se requiere un estilo comunicacional más riguroso (informes
técnicos o informes científicos, reservando para estos últimos las herramientas que comunican con
mayor exactitud y precisión los resultados).
Las herramientas para analizar datos muestrales se pueden clasificar, en primera instancia, en
dos tipos: procedimientos de análisis exploratorio y, los procedimientos de análisis clásico. Los
primeros como lo indica su nombre, se aplican en la etapa inicial del análisis con el objetivo principal de
tomar un conocimiento ligero sobre la calidad de los datos y algunos aspectos que son relevantes para
definir el posterior análisis, y suelen llevarse a cabo utilizando diagramas o medidas simples. En cambio
el análisis tradicional es empleado para un conocimiento acabado sobre las propiedades que poseen los
datos y para la comunicación de los resultados definitivos, y se valen de herramientas gráficas como las
tablas y las representaciones gráficas denominadas generalmente gráficos, así como de una gran
gama de estadígrafos.

2.2. MEDICIÓN Y CALIDAD DE LOS DATOS


El importante acto de toma de decisiones, puede estar basado en información o bien en la
intuición que tienen las personas. Pero, mientras más se utilice la información que brindan los hechos, y
menos se use la intuición, con mayor seguridad se arribará a la toma de mejores decisiones. La pobre

---1 Se refiere a propiedades generales que presentan los conjuntos de datos empíricos, que son cuatro y se conocen como:
Posicionamiento/Tendencia central, Dispersión, Apuntalamiento (curtosis) y Asimetría.
17
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
calidad de los datos medidos, así como de los datos procesados, van en contra de su utilidad. Contar
con datos de calidad, por tal razón, se constituye en un objetivo, y asegurarse de que realmente los
datos la tienen,
en, es un desafío inicial en el análisis de los datos para poder obtener información útil.
Resulta importante dejar en claro que una genuina calidad en los datos, se logra interviniendo en
el sistema de la medición y no sobre ellos en sí. Para esto el el pro
proceso
ceso de medición se inicia con la
identificación y delimitación correcta de la problemática y los objetivos de su estudio, y continúa con: a)
la definición de los datos relevantes, b) la captación (medición o búsqueda), c) su depuración mediante
controles preventivos (detección de errores) y correctivos (adecuación), y d) su organización del modo
más eficiente para el posterior análisis.
Entre las múltiples dimensiones para establecer la calidad de los datos, se considerarán la
pertinencia,
rtinencia, la exactitud, la precisión, la cantidad, y la oportunidad. Las ideas correspondientes son:

ALGUNAS PROPIEDADES DE LA BUENA MEDICIÓN


• Exactitud:: se refiere a cuan cerca está el resultado de una medición xi del valor verdadero. El grado de
exactitud depende del instrumento de medición; como regla general, cuando más se podrá medir con una
exactitud igual a la mitad de la diferencia entre dos unidades contiguas. Por ejemplo si se tiene una escala
graduada en unidadesdes de gramos, al medir solo se podrá tener una exactitud al nivel de ± 0,5, es decir que
podrán tenerse los resultados 6,5 o 7,0 o 7,5 al tratar de medir unidades de análisis que tienen un valor
verdadero igual a 7,0. Los datos
d de alta calidad, con un sistema
tema de medición capaz, a través de sucesivas
mediciones, tomarán valores suficientemente próximos al valor verdadero de la variable en estudio. Cuando no
hay exactitud se dice que la medición tiene sesgo o que es sesgada.

• Precisión:: se refiere a cuan cerca


cerca los valores medidos se aproximan entre sí unos de otros, y se la vincula
con el concepto estadístico de dispersión. La falta de precisión es una de una de las razones más comunes de
baja calidad de datos: la dispersión debe ser reflejo solamente de ca cambios
mbios intrínsecos y propios de la
característica medida y no de otro factor.

Ilustración de la diferencia
iferencia
entre
exactitud y precisión

Exactitud:
Ubicación respecto al blanco de tiro Baja Alta Alta
(u objetivo)
Precisión:
Alta Baja Alta
Variabilidad en la repetición del tiro
• Pertinencia: se refiere a que únicamente se deben emplear datos que resulten adecuados para alcanzar la
finalidad por la cual se recolectaron y, al deber que se tiene de no usarlos cuando carecen de esta
propiedad, tal el caso de que carezcan de relevancia, exactitud, vigencia, consist
consistencia, autenticidad, etc.
• Oportunidad:: se deben optimizar
optimizar los procesos de medición para disponer de los datos en conveniencia de
formato, tiempo y lugar. En esto presta gran apoyo el uso de tecnologías de la información y comunicación
(TIC), para contar con
on los datos necesarios en el momento que se los necesite (captura automática de
datos, bases de datos informatizadas, software especializado, etc.).

Desde
de el punto de vista de la cantidad de variables medidas, se puede hablar de una medición
univariada, bivariada y multivariada (Cuadro 2.1).
Cuadro 2.1: Tipo de medición según dimensionalidad
Caso/NºVariables Ejemplo
Estudio del número de plantas vivas de maleza Wedelia glauca por parcela (X), al aplicar
Univariado (1)
un herbicida.
Estudio del aumento del peso corporal de cerdos (Y, en kg), en la etapa de destete, en
Bivariado (2)
función del peso de la ración alimenticia (X, en kg).
Estudio del efecto de la humedad relativa ambiente (X1, en %) y la temperatura media del
Multivariado (≥3)
suelo (X2, en ºC), en el rendimiento de un híbrido de tomate (Y, en T/ha).

En esta primer unidad de estudio, se centrará el interés en la descripción estadística d dee muestras
univariadas y se introducirán algunas ideas acerca del caso bivariado que será retomado en la unidad de
análisis de la relación entre variables.
variables

2.3. PROCESAMIENTO ESTADÍSTICO DE DATOS


Cualquiera sea la situación, el procesamiento de datos arranca con el diseño para la
recolección. En principio los datos para ser sometidos al análisis estadístico pueden obtenerse de
diferente modo. Así se tiene el caso de la obtención por participación directa
directa,, que es cuando la
18
Cátedra de Cálculo Esta
stadístico y Biometría – Facultad de Cienci
ncias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
persona interviene la persona en el proceso de la observación o medición de las unidades físicas, y por
participación indirecta que es cuando los datos han sido tomados por un tercero. En el segundo no.
Además los datos estadísticos se pueden obtener a través de diferentes medios: a) fuentes de emisión y
b) fuentes documentales. El primer medio hace referencia a que los sujetos que son de interés (objetos,
hechos o fenómenos) son observados o medidos por quien hará su análisis, en tanto que el segundo
medio recurre a la información documental, es decir, a datos que son ajenos o de tercera parte. La
información documental se puede clasificar como: a) fuentes primarias, que son aquellas que
contienen información original es decir que solamente ha pasado a través del filtro de quien la aporta
(libros, tesis, disertaciones, datos de organismos oficiales como los datos censales, etc.), b) fuentes
secundarias, que son aquellas que aportan datos derivados de un procesamiento (reorganización,
síntesis, etc.) de los datos primarios, de modo que se los mismos están afectados por algún tipo de
filtrado (revistas que comentan libros, otras revistas, artículos científicos, etc.) y, c) fuentes terciarias,
que dan información en base a fuentes secundarias. Se espera, obviamente, que las fuentes primarias
proporcionen datos con mayor carga de objetividad (más confiables) que las secundarias y que las
terciarias, ya que la información tiende a desvirtuarse a lo largo de una cadena de transmisión.
El paso siguiente a la recolección de datos es su preparación para que muestren o pongan en
evidencia propiedades y aspectos notables, y también para facilitar el análisis posterior, que podrá
hacerse en forma manual o mediante una computadora. Esto es lo que se denomina proceso de
organización de datos. Este proceso, puede requerir un ordenamiento de los datos y muchas veces
va acompañado de una clasificación o agrupamiento de datos, con lo cual se crean subconjuntos de
datos o clases de naturaleza cualitativa o cuantitativa, con el objetivo fundamental de reducir el número
de datos para facilitar la comprensión de las características generales y particulares de los datos. En
tercer lugar, asegurada su calidad, los datos son analizados.

EL PROCESAMIENTO DE DATOS
1º) Recolección (Diseño y toma)
2º) Organización (Depuración, Ordenamiento, Clasificación)
3º) Análisis (exploratorio y tradicional)

Es muy importante internalizar que la aplicación de los métodos estadísticos, desde el inicio del
procedimiento de datos muestra una gran diferencia con la capacitación adquirida al resolver problemas
en Matemática. En esta última, los datos se toman puros sin analizar aspectos que hacen a su toma y
diagnóstico de calidad pero, en la aplicación en de la Estadística, antes de entrar propiamente en el
análisis, se requiere trabajar con los datos para asegurar que tienen la calidad necesaria que requiere el
análisis posterior. Esto se debe a dos razones: a) que se trata de datos empíricos que provienen de una
realización física, y por tanto pueden estar afectados por diversos tipos de errores y, b) que la aplicación
de los métodos estadísticos inferenciales se basa en que las poblaciones de las que se tomaron los
datos cumplen con ciertos supuestos o enunciados proposicionales en los que se funda la correcta
aplicación de cada método, por lo tanto hay que comprobar el cumplimiento de tales proposiciones que
se consideran verdaderas.
Para finalizar, antes del abordaje de las diferentes etapas del procesamiento de datos, se quiere
advertir sobre lo siguiente: la resolución de problemas de Estadística descriptiva se necesita combinar el
arte y la ciencia, a fin de alcanzar los mejores resultados. Así por ejemplo el concepto de muestra
pequeña y de muestra grande, que en Estadística inferencial estará referenciado al número 30, resulta
flexible cuando se hace la descripción de un conjunto de datos, y puede requerirse un tamaño muestral
de n=50 para poder construir los gráficos indicados para muestras grandes.
Finalmente, se apela a un llamado de atención acerca de lo siguiente: el alumno mientras trabaje
con los datos de una muestra en el contexto de esta primera unidad temática del programa de la
asignatura, estará considerando una situación en particular con características y condiciones específicas
para esa muestra, de modo que será incorrecto hacer generalizaciones directamente a otras situaciones
con mayor alcance, es decir, en ningún caso podrán emitirse conclusiones poblacionales.

2.4. ORGANIZACIÓN DE DATOS

2.4.1. Recolección de datos


En un censo se ha visto que, para alcanzar el objetivo del estudio o sea la descripción de la
población, se realiza una observación exhaustiva midiendo las N unidades de análisis posibles. Pero,
la situación más común consiste en la observación parcial de la población a través de una muestra
representativa. Se presentarán innumerables situaciones, sin embargo cualquiera sea el caso, al diseñar
la recolección de datos o toma de la muestra siempre conviene, de acuerdo a la complejidad del
problema, dedicar un tiempo al diseño de la planilla que servirá para registrar los datos
correspondientes. Esta debe contener una mínima información identificatoria (tema, fecha, instrumento
de medición, personal que mide, etc.) y además debe procurarse un formato que facilite el posterior
tratamiento de los datos (por ejemplo, según requerimiento del software a utilizar para el
procesamiento), a fin de evitar un retrabajo posterior.
19
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA

2.4.2. Preparación de datos


Obtenidos los registros o datos estadísticos, existe una instancia previa a su análisis, que es la
de preparación de los datos, que requiere el pasaje por tres etapas: la depuración, la ordenación y la
clasificación de los datos.

PREPARACIÓN DE LOS DATOS PARA EL ANÁLISIS


1º) Depuración: se trata de asegurarse que se dispone de datos que son correctos, y consiste en
controlar si los datos brutos (registros) tienen algún problema, por ejemplo, un posible error de
medición. Esto se hace antes y después de la carga de los datos, y puede llevar a una corrección que
puede consistir en una nueva toma de datos, retipeo, transformaciones, etc. Recién cuando se pueda
dar garantía de la calidad de los datos (datos correctos al 100 %) corresponde pasar a la siguiente
etapa.
2º) Ordenación: procura facilitar el tratamiento posterior de los datos. Por ejemplo es muy útil contar
con una tabla donde los datos estén ordenados por magnitud, ya que esta simple operación ya pone
en evidencia aspectos del patrón general de variación de los datos, lo es difícilmente visualizado en el
caso de los datos en bruto.
3º) Clasificación: como su nombre lo indica, tiene por objeto formar agrupamientos de datos, esto es
clases o grupos en asociación, por ejemplo, a las modalidades de una variable cualitativa o de los
valores de una tipo cuantitativa.

2.4.3.¿Cómo preparar los datos de una muestra para su análisis?


Una vez que los datos han sido depurados, el criterio general es organizar el conjunto de datos
en bruto de modo que la masa de datos organizados comience a revelar el patrón general de datos
(comportamiento de la variable en estudio) y también aspectos particulares. Hay dos criterios base para
decidir cómo abordar la tarea: el tamaño muestral y el tipo de variable (Cuadro 2.2). Respecto a:
• Tamaño muestral: si las muestras son pequeñas se trabaja directamente con los datos pero
si son grandes se utiliza la modalidad de datos agrupados.

Referencia para clasificar muestras de acuerdo al tamaño:


 < 30, muestra pequeña
 ≥ 30, muestra grande

• Tipo de variable: si la variable es cualitativa siempre se trabajará con muestras grandes, pero
en el caso de variables numéricas se presenta la situación de muestras pequeñas y muestras
grandes.
Cuadro 2.2. Proceso de ordenación y clasificación de datos muestrales
Tipo de variable Tamaño muestral Ordenación Clasificación
Cualitativa Grande No Sí
Pequeño Sí No
Discreta
Grande Sí Sí
Cuantitativa
Pequeño Sí No
Continua
Grande Sí Sí

2.4.3.1. CASO 1: Variables cualitativas


El análisis del comportamiento de las variables cualitativas per se2 siempre se basa en muestra
de tamaño grande, dado que las variables de esta naturaleza tienen una medición que no es compleja ni
costosa por cuanto, generalmente, consiste en una simple observación visual de las unidades físicas. En
este caso se suele pasar por alto la etapa de ordenación de los datos, procediendo directamente a la
clasificación de las unidades en correspondencia con las modalidades o categorías de la variable, esto
lleva a un recuento final de la cantidad de veces que se presentó cada modalidad. La condición es que
la clasificación sea exhaustiva y mutuamente excluyente.

Definición 2.1.
Una distribución tipo I con clases categóricas, es una serie apareada de datos
estadísticos unidimensional, a cada clase o categoría la asocia con el número de veces que se ha
presentado en la muestra , y así, exhaustivamente para todas las clases. Esto es:
a1, a2 , …, ak apareadas respectivamente con n(a1), n(a2), …, , n(ak).

2
--- "Per se" es una expresión derivada del latin, que significa "de por si", "por si mismo". Recordar que variables originalmente
numéricas, pueden por ciertas razones ser expredas en niveles de medición más bajos (Escala nominal y ordinal).
20
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Ejemplo 2.1: En un pueblo se ha tomado una muestra de 500 habitantes, para analizar los grupos sanguíneos, a
fin de estudiar el posible origen de sus antecesores.

Grupo sanguíneo Total


A AB B O

195 80 45 180 500


Ejemplo 2.2: Se ha hecho una encuesta a una muestra de 80 alumnos ingresantes de la Facultad, para conocer el
grado de instrucción educativa que alcanzó a completar el padre.
Nivel educativo
Total
Ninguno Primario Secundario Terciario Universitario Superior
5 11 35 10 16 3 80

En ninguno de los dos ejemplos, podemos hablar de una distribución simple de datos, porque
cada “dato” (A, B, AB, O, o bien: Ninguno, Primario, Secundario, Terciario, Universitario, Superior) está
asociado a más de una observación.

2.4.3.2. CASO 2: Variables cuantitativas


Cuando las variables son numéricas, hay dos posibilidades tanto con relación al tipo de variable
(discreta-continua), como al tamaño muestral (pequeño-grande).

a. Muestras pequeñas
El ordenamiento de los datos, que en el contexto de problemas de ciencias agronómicas o
similares suele hacerse por magnitud en orden creciente y en el de las ciencias económicas en orden
decreciente, conduce a una distribución simple de datos, un concepto que implica en el caso univariado
un listado de los n datos muestrales. El criterio es válido tanto para variables discretas como continuas.

Definición 2.2.
Una distribución simple, es una serie de datos estadísticos no agrupados, que suele
presentarse ordenada por magnitud como
(x1 , x2 , x3 , ... , xi , ... , xn ), donde x1 < x2 < x3 < ... < xi < ... < xn

En la práctica la etapa de ordenamiento, que pone en evidencia la posición que ocupa cada
dato en una escala numérica (conjunto de datos de menor a mayor o bien de mayor a menor), resulta
relevante cuando se trata de una muestra pequeña, en cambio cuando la muestra es de tamaño grande
la etapa relevante es la de clasificación.
Ejemplo 2.3: Un ecólogo está interesado en el efecto de los detergentes de uso doméstico. Uno de sus estudios
ha sido analizar la cantidad de fosfatos, en gramos, que una familia tipo (tres miembros) vuelca al sistema cloacal,
al lavar automáticamente la vajilla utilizada en el día, en un único lavado. Para la prueba ha empleado los diez
detergentes de mayor venta en los supermercados del gran Mendoza. Los datos han sido: 35-37-29-40-53-44-39-
48-50-42 gramos/día.
La distribución simple de los datos de esta muestra pequeña (n=10), se puede indicar como:

Gramos de fosfato 29 35 37 39 40 42 44 48 50 53

Pese a la simpleza del proceso, un ordenamiento de datos de menor a mayor, es clara la ganancia lograda
en la comprensión general y particular de los n datos. Algunos aspectos observables son:
a) los valores extremos de la serie: 29 y 53 gramos (mínima y máxima contaminación)
b) la sucesión de valores no muestra aspectos llamativos (distanciamiento entre valores adyacentes más o
menos uniforme)
c) no hay ningún valor que parezca no pertenecer a esta serie, es decir, ningún valor extraño o atípico.

b. Muestras grandes
Como en el caso de las variables categóricas, cuando se dispone de muestras grandes, las
etapas de ordenamiento y de clasificación deben conducir a la condición de datos agrupados, con la
finalidad de poner en evidencia los valores observados de la variable apareados con la cantidad de
unidades que los tuvieron (variable discreta) o bien agrupamientos de valores de la variable (variable
continua) en relación a su presentación (Cuadro 2.3).
Cuadro 2.3 a. Criterios para abordar la descripción estadística de muestras pequeñas.
Tamaño
Tipo de variable Datos sin agrupar
muestral
Discreta
Pequeña Cuantitativa Distribución simple con datos ordenados por magnitud
Continua

21
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Cuadro 2.3 b. Criterios para abordar la descripción estadística de muestras grandes
Tamaño Datos agrupados
Tipo de variable
muestral (Distribuciones de frecuencias)
Distribución tipo I
Cualitativa
Cantidad de unidades clasificadas por categoría
a) Pocos valores diferentes de variable
Distribución tipo II: Cantidad de unidades
clasificadas por valor de variable
Discreta
Grande b) Muchos valores diferentes de variable:
Cuantitativa Distribución tipo III: Cantidad de unidades
clasificadas por intervalo de clase
Distribución tipo III
Continua Cantidad de unidades clasificadas por intervalo de
clase
Generalizando, la expresión “cantidad de unidades clasificadas” es, en términos estadísticos, una
frecuencia, y el conjunto total apareado de categorías (variable cualitativa) o bien valores puntuales de
variable (variable cuantitativa discreta) o de agrupamiento de valores (variable cuantitativa continua) de
la variable observada con sus frecuencias de presentación, reciben la denominación general de:
distribuciones de frecuencias observadas. En un capítulo siguiente se ampliará y profundizará este
fundamental concepto estadístico.

2.4.4.¿Cómo clasificar los datos de una variable cuantitativa en el caso de


muestras grandes?

2.4.4.1. Caso: Variable discreta


En forma análoga a las variables cualitativas, la organización y la clasificación de los datos de
variables discretas se cumplimentan en simultáneo. Se deben identificar los valores de la variable
estadística, y se hace el conteo de la cantidad de unidades de la muestra que presentó cada uno de los
valores de la serie3. Significa que la diferencia se da en que, en el caso de variables cualitativas las
clases son de carácter cualitativo y en el de variables discretas son de carácter numérico.
Valor de Cantidad de
Definición 2.3. variable unidades
 
Una distribución tipo II con clases numéricas, es una serie 


apareada de datos estadísticos, donde a cada valor de la variable  


discreta se lo asocia con el número de veces que se ha . .
presentado en la muestra  

Ejemplo 2.4: Para evaluar el daño que producen los grillos en un campo cultivado, un estudio ha consistido en
contar el número de grillos en 100 cuadrículas del terreno. En el plano llevado a campo se registró lo siguiente:

DIRECCIÓN E-O
1 2 3 4 5 6 7 8 9 10
D 1 XX X X X
I 2 X XXX XX XXX XX X
R 3 XXX X X XX X
E 4 XX X XX X X X
C 5 X XXXX XXX XXX XX XXX
C 6 X XX X X
I 7 XX XX X XXXX XX XXX X
Ó 8 XXX XXXX X X X XXXXX XX
N 9 X XX X XXX
N-S 10 X X

Una rápida inspección de los registros, permite reconocer que las cuadrículas han presentado entre 0 y 5
grillos/ parcela, por tanto, el recorrido de la variable observada es X=0, 1, 2, 3, 4, 5. Ahora hay que determinar
cuántas veces la variable ha tomado esos valores, para lo cual se debe hacer el recuento de las cuadrículas que
tuvieron cada una de esas cantidades de grillos. Nos facilitará la tarea la construcción de una tabla auxiliar:

0 //// //// //// //// //// //// //// //// //// ///
1 //// //// //// //// ////
2 //// //// ///
3 //// ///
4 ///
5 /

3
--- Cuando la cantidad de valores de la variable discreta es muy grande como puede ocurrir en un censo, a los efectos de la
comprensión general se la puede tratar como una variable continua, de modo de obtener también una distribución de tipo II pero
esta situación no se dará en este curso.
22
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Finalmente, el resultado se puede mostrar de la siguiente forma:
Nº de grillos por cuadrícula 0 1 2 3 4 5
Cantidad de cuadrículas 48 25 13 9 3 1
Resulta conveniente prestar atención a lo siguiente: la variable discreta “número de grillos por cuadrícula”
ha tomado muy pocos valores (0,1,2,3,4 ó 5), y como la muestra es grande resulta que se han repetido mucho, lo
cual se refleja sobre todo para el caso de 0, 1 y 2 grillos/cuadrícula.

2.4.4.2. Caso: Variable continua


Cuando se mide en una escala continua, podría llegarse al caso extremo en que, con un
instrumento adecuado, se logre una medida diferente para cada unidad o elemento de la muestra. La
situación general es que la variable estadística toma muchos valores diferentes, de modo que cada uno
de ellos generalmente no se repite tanto, a diferencia de lo que sucede en el caso de la variable discreta.
Ejemplo 2.5. Con el objeto de establecer el tamaño conveniente de parcela, para realizar experimentos
en cultivos de ajo, integrantes de la Cátedra de Cálculo Estadístico midieron rendimientos en un ensayo
en blanco4. Para esto en el momento de cosecha, el terreno se consideró fraccionado en parcelas y, se
pesaron las plantas producidas por cada una de ellas, registrando los kg/parcela.
Tabla primaria de rendimientos parcelarios de un cultivo de ajo5
3,3 2,7 2,6 2,9 2,3 2,4 2,4 2,8 2,4 2,1 3,8 2,5 3,0 2,1 2,3 1,2 ⇒
3,2 2,6 2,4 2,3 2,5 2,2 2,5 2,8 1,9 2,3 2,7 2,5 2,8 2,2 2,4 2,0 Oeste
2,9 2,1 2,2 2,4 2,7 2,1 2,2 2,8 2,3 1,8 2,6 2,4 2,6 2,0 2,2 1,6
2,9 2,5 2,3 2,2 2,5 1,7 2,5 2,2 2,4 2,1 2,5 2,6 2,6 2,1 2,6 1,8
2,4 2,5 2,6 2,9 2,8 1,6 2,9 2,5 2,6 2,3 2,5 2,5 2,9 2,0 2,7 1,8
2,2 3,0 2,5 2,7 2,7 2 2,4 2,6 2,6 2,3 1,4 2,1 2,4 2,0 12,7 2,2
2,8 2,4 2,8 2,5 2,4 1,8 2,3 2,5 2,4 2,0 2,6 2,2 2,8 2,1 2,6 2,0
2,6 2,8 2,5 2,3 2,4 2,2 2,4 1,9 2,7 2,3 2,2 2,0 2,6 2,3 2,4 2,5
2,5 3,2 3,2 2,4 2,0 1,9 2,1 2,5 2,4 2,2 2,1 2,4 2,7 1,8 2,5 2,2
2,7 2,8 2,2 2,8 2,1 1,7 1,7 2,4 2,4 1,9 2,4 2,4 2,6 1,8 2,3 2,0
2,5 2,4 2,8 2,8 2,0 2,2 1,8 2,2 3,1 2,0 2,3 2,3 2,7 2,0 2,3 2,4
2,3 2,6 2,9 3,5 2,4 2,7 1,5 1,9 2,4 2,4 2,3 2,1 2,4 1,9 2,6 2,2
⇓Norte
Tratar de comprender rápido de modo particular y general, la problemática en estudio, a saber,
¿cuáles fueron los datos menor y mayor?, ¿cuáles fueron los datos más comunes?, ¿cuántas parcelas
tuvieron un dato menor 2,0 kg?, etc. no resulta simple. ¿Se anima Ud. a volver a la tabla de rendimientos
y tratar de extraer algún otro tipo de información sobre cómo fueron los rendimientos del cultivo de ajo,
antes de seguir avanzando en el capítulo?
Con esta propuesta, se espera que Ud. se enfrente a estas dos situaciones:
1º) Duda frente a ciertos datos: Primeramente, la casilla que es intersección de la fila 6 (horizontal)
con la columna 6, es la única que tiene un dato que es un número entero, igual a 2. El resto de las
casillas tienen registros con un decimal. Esto da dos posibilidades: el dato está incompleto o bien
realmente se midió 2,0 y el registro se indicó como 2. Pero, en este momento ¿cuál de estos
hechos ocurrió realmente? En segundo lugar, en la casilla que es intersección de la fila 6 con la
columna 15, aparece un registro 12,7, es decir, con tres cifras cuando el resto solamente tiene dos.
Nuevamente, ¿qué ocurrió en verdad? La verdad es que estos datos fueron colocados
deliberadamente, y los valores reales, respectivamente fueron 2,0 y 2,7. Simplemente esperamos
que este ejercicio promueva a la reflexión sobre lo siguiente: antes de trabajar con los datos,
analizar cuidadosamente la calidad de los datos brutos, asegurarse que no tienen errores y que
son lógicos.
2º) Búsqueda de información útil, en un conjunto de datos que es grande y aparece
desordenadamente: esperamos que hayan descubierto que la única información, a la cual se
puede acceder rápidamente, es:
- la cantidad total de datos parcelarios (12 N-S x 16 E-O) es igual a 192
- el valor mínimo es 1,2 y el valor máximo es 3,8. Se puede decir que la variable toma valores
que varían en el intervalo 1,2 a 3,8, es decir, que los rendimientos por parcela han variado
entre 1,2 a 3,8 kg/parcela.
Después de esta experiencia, pasaremos por la etapa de depuración de datos: la ordenación. Un
ordenamiento ascendente (de menor a mayor) lleva a los datos contenidos en la tabla secundaria de
datos.

---4 Ensayo donde no se aplica ningún tipo de tratamiento y se procede a medir en el estado de situación natural.
---5 Las tablas de rendimientos parcelarios son tablas primarias, en ellas se tienen los registros de campo o datos brutos.
23
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Tabla secundaria de datos parcelarios ordenados.
1,2 1,9 2,0 2,1 2,2 2,2 2,3 2,4 2,4 2,4 25 2,6 2,6 2,7 2,8 2,9
1,4 1,9 2,0 2,1 2,2 2,3 2,3 2,4 2,4 2,5 2,5 2,6 2,6 2,7 2,8 2,9
1,5 1,9 2,0 2,1 2,2 2,3 2,3 2,4 2,4 2,5 2,5 2,6 2,6 2,7 2,8 2,9
1,6 1,9 2,0 2,1 2,2 2,3 2,3 2,4 2,4 2,5 2,5 2,6 2,6 2,7 2,8 3,0
1,6 1,9 2,0 2,1 2,2 2,3 2,3 2,4 2,4 2,5 2,5 2,6 2,9 2,7 2,8 3,0
1,8 1,9 2,0 2,1 2,2 2,3 2,3 2,4 2,4 2,5 2,5 2,6 2,4 2,7 2,8 3,1
1,8 2,0 2,0 2,1 2,2 2,3 2,3 2,4 2,4 2,5 2,5 2,6 2,7 2,7 2,8 3,2
1,8 2,0 2,1 2,2 2,2 2,3 2,4 2,4 2,4 2,5 2,5 2,6 2,7 2,8 2,8 3,2
1,8 2,0 2,1 2,2 2,2 2,3 2,4 2,4 2,4 2,5 2,5 2,6 2,7 2,8 2,9 3,2
1,8 2,0 2,1 2,2 2,2 2,3 2,4 2,4 2,4 2,5 2,6 2,6 2,7 2,8 2,9 3,3
1,8 2,0 2,1 2,2 2,2 2,3 2,4 2,4 2,4 2,5 2,6 2,6 2,7 2,8 2,9 3,5
1,8 2,0 2,1 2,2 2,2 2,3 2,4 2,4 2,4 2,5 2,6 2,6 2,7 2,8 2,9 3,8
De esta nueva tabla, con datos que también estaban disponibles en la tabla primaria,
seguramente Ud. va a extraer mucha más información que la revelada por la tabla original. Por ejemplo
podría concluir:
a) que es más fácil detectar valores extraños o atípicos de la variable (muy diferente al resto),
como lo fueron 2 y 12,7,
b) que rápidamente se puede identificar que 1,2 es el menos valor numérico y 3,8 es el mayor.
c) que se observan valores repetidos, pero que los valores inferiores y los superiores no se
repiten tanto como los valores centrales y, particularmente que el valor más repetido es 2,4.
d) que la distancia entre valores sucesivos prácticamente es una constante igual a 0,1 o 0,2 así
como también que hay continuidad (no se observan saltos o vacíos entre números sucesivos)
e) que se pueden reconocer subconjuntos de valores correspondientes a: parcelas con bajo
rendimiento (aproximadamente el tercio inferior de la serie ordenada, 1,2-2,2), parcelas con buen
rendimiento (tercio medio, 2,3-2,5) y parcelas con alto rendimiento (tercio superior, 2,6-3,8)
A pesar de las ventajas vistas, el ordenamiento de datos en muestras grandes de variables
continuas, suele ser engorroso cuando se trabaja manualmente, entonces la subetapa de ordenación
generalmente se pasa por alto, ya que la laboriosidad que implica no se ve muy bien recompensada y
además en la siguiente subetapa (clasificación), como se verá enseguida, va implícito el ordenamiento.
Pero, si disponemos de una computadora podemos ayudarnos con una planilla de cálculo como Excel,
la única tarea pesada será cargar los datos.
Pasemos ahora a la etapa final de la organización de los datos de una variable continua: la
clasificación. El objetivo, recordemos, es reducir la información todo lo que sea posible, pero sin perder
los aspectos esenciales, para que siga siendo útil, a la hora de valernos para la toma de decisiones, de
la interpretación de la información reducida. ¿ Qué criterio utilizaremos para hacer los agrupamientos?:
uno que ya comenzamos a aplicar en el caso del inciso e) al tratar de interpretar los datos de la variable
rendimiento parcelario en la tabla secundaria (ejemplo I.5), esto es, agrupar datos tratando de armar con
ellos subconjuntos que tengan cierto significado.
En variables cualitativas habíamos visto que las clases eran modalidades o categorías de la
variable, mientras que en variables discretas la clase era un único valor. En variables continuas, una
clase es una subdivisión del dominio de la variable, es un subconjunto o intervalo de valores. Para la
clasificación, el total de las clases constituye una serie de intervalos consecutivos que son exhaustivos y
mutuamente excluyentes entre sí. Esto permite que todos los datos puedan ser clasificados sin
ambigüedad: todos los valores resultan clasificados (condición de exhaustiva) y cada valor pasa a
pertenecer a una y solo una clase (condición de mutuamente excluyente).
Ahora, vamos a los aspectos operativos de cómo armar esas clases o intervalos de clase:
1º) Hallar los límites reales de la muestra: Los valores extremos de la muestra, denominados límite
inferior y límite superior muestra, se simbolizan como, xinf y xsup, y constituyen los límites reales de
la muestra. Ya es conocido que en esta muestra estos valores son xinf = 1,2 y xsup = 3,8 kg/parcela.
2º) Calcular la amplitud muestral, ∆m : la diferencia entre los límites reales de la muestra da el valor de
la amplitud muestral
∆m = xsup − xinf
Luego, para el ejemplo ∆m = 3,8 kg/parcela – 1,2 kg/parcela = 2,6 kg/parcela. Esta amplitud es un
intervalo grande, que pretendemos subdividirse en intervalos más pequeños, denominados intervalos
de clase.
3º) calcular el número de intervalos de clase, k: recomendamos aplicar la fórmula de Sturges, donde n
es el tamaño de la muestra
= 1 + 3,3 ∗ log 
Para el ejemplo en estudio, resulta: k = 1 + 3,3. Log (192) = 8,53. Como el número de intervalos
es un entero, redondeamos, así k=9. (Siempre es aconsejable que este número sea impar, porque la
existencia de un intervalo central facilita, como veremos más adelante, los cálculos posteriores) Si n no
es muy grande podemos disminuir el nº de intervalos; en nuestro ejemplo trabajaremos con 7 intervalos.

24
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
4º) calcular la longitud o amplitud real de los intervalos de clase, ∆x (o con ∆xi si no es constante)
como
∆x = ∆m k
En el ejemplo nuestro resultó ∆x = 2,6 kg / 7 = 0,37 kg, luego por redondeo ∆x = 0,4 kg/parcela
5º) Definir los intervalos de clase a partir de los límites reales: a partir del límite inferior de la muestra,
se va sumando una longitud constante (∆x) igual a 0,4 resultando la serie de 7 intervalos cerrados6.
1,2 + 0,4 = 1,6 luego, [1,2 – 1,6]
1,6 + 0,4 = 2,0 [1,6 – 2,0]
2,0 + 0,4 = 2,4 [2,0 – 2,4]
2,4 + 0,4 = 2,8 [2,4 – 2,8]
2,8 + 0,4 = 3,2 [2,8 – 3,2]
3,2 + 0,4 = 3,6 [3,2 – 3,6]
3,6 + 0,4 = 4,0 [3,6 – 4,0]
Comprobamos que los límites reales de la muestra quedan abarcados por estos intervalos y que
la longitud de los intervalos se mantiene constante e igual a 0,4.
6º) Definir los intervalos de clase discretos para la clasificación de los datos: un mismo dato no
puede ser clasificado en dos intervalos al mismo tiempo, es lo que ocurriría, por ejemplo, con los datos
parcelarios que son igual a 1,6 que podrían pertenecer simultáneamente al primer y segundo intervalo
de clase de la serie recién construida. Tampoco es correcto razonar que al clasificar, la unidad
correspondiente se debe repartir mitad en el primer intervalo y mitad en el segundo, porque se
desnaturaliza el concepto de unidad. Para evitar esta complicación se puede construir una serie de
intervalos de clase semiabiertos7.
[1,2 – 1,6) luego, 1,2 – 1,5
[1,6 – 2,0) 1,6 – 1,9
[2,0 – 2,4) 2,0 – 2,3
[2,4 – 2,8) 2,4 – 2,7
[2,8 – 3,2) 2,8 – 3,1
[3,2 – 3,6) 3,2 – 3,5
[3,6 – 4,0) 3,6 – 3,9
Conviene notar la diferencia entre esta nueva serie de intervalos y la obtenida en el punto
anterior, con relación a la naturaleza de la variable, en el primer caso la variable era continua y en este
otro se produce una discontinuidad, que resulta un artificio para permitir una correcta clasificación de las
unidades.
7º) Definir los intervalos exactos de clase: una vez clasificados los datos, corresponde que los
resultados del conteo o cantidades vuelvan a referirse a una serie de intervalos continuos por la
naturaleza de la variable medida.
Sea el primer intervalo que va de 1,2 a 1,6, si consideramos un decimal más podemos armar la
siguiente escala
1,1 1,2 1,3 ... 1,4 1,5 1,6
↑⊥⊥⊥⊥⊥⊥⊥⊥⊥↑⊥⊥⊥⊥⊥⊥⊥⊥⊥↑ ↑⊥⊥⊥⊥⊥⊥⊥⊥⊥↑⊥⊥⊥⊥⊥⊥⊥⊥⊥↑
↑ ↑ ↑ ↑
1,15 1,25 1,45 1,55
donde 1,2 ó 1,20 y 1,5 ó 1,50 son puntos intermedios de los correspondientes intervalos creados.
Luego el primer intervalo exacto de clase comienza en 1,15 y termina en 1,55, y así sucesivamente
hasta obtener la serie completa.
Como resultado luego de aplicar el procedimiento dado, se obtiene una distribución tipo III.

6
--- Intervalo indicado con corchetes, y significa que sus extremos pertenecen al mismo (incluye los extremos).
Simbólicamente: x ∈ [a,b], denota al conjunto al conjunto de valores de la variable x en un recorrido delimitado por a y b, tal
que a ≤ x ≤ b.
7
--- Intervalo que se indica con un corchete y un paréntesis, el primero indica que el correspondiente valor extremo pertenece al
intervalo y el segundo que no pertenece. Ej.: x ∈ (a,b] denota al conjunto a < x ≤ b, esto es un intervalo semiabierto por
izquierda, esto es abarca a todos los números mayores que a y menores o iguales que b; en tanto que x ∈ [a,b) denota al
conjunto a ≤ x < b o sea un intervalo semiabierto por derecha o sea que es el conjunto de todos los números mayores o iguale
que a y menores que b. Respectivamente se grafican

25
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Tabla auxiliar para la clasificación de los datos
Rendimientos Cantidad de
Clasificación del rendimiento
(*) parcelas
1,2 – 1,5 /// 3
1,6 - 1,9 //// //// //// 15
2,0 – 2,3 //// //// //// //// //// //// //// //// //// //// //// //// / 61
2,4 – 2,7 //// //// //// //// //// //// //// //// //// //// //// //// //// //// //// //// //// 84
2,8 – 3,1 //// //// //// //// /// 23
3,2 – 3,5 //// 5
3,6 – 3,9 / 1
(*) Notar que el agrupamiento de los rendimientos se presenta bajo un formato de intervalos de clase
discretos.
De modo sintético, se logra lo siguiente:
Tabla de distribución de los datos de rendimientos de ajo
Rendimientos Cantidad de
(**) parcelas
1,15 – 1,55 3
1,55 - 1,95 15
1,95 – 2,35 61
2,35 – 2,75 84
2,75 – 3,15 23
3,15 – 3,55 5
3,55 – 3,95 1
Total 192

(**) Notar que hecha la clasificación, el agrupamiento de los rendimientos


se presenta bajo un formato de intervalos de clase continuos.

Intervalos Cantidad de
Definición 2.4. de clase unidades (ni)
Una distribución tipo III con clases numéricas, es una serie [x 1 , x 2 ) n1
apareada de datos estadísticos, donde a cada intervalo de valores [x 2 , x 3 ) n2
de la variable continua se lo asocia con el número de veces que se . .
.
han presentado valores del intervalo en la muestra. .
[x k--1 , x k ) nk

Es importante observar lo siguiente en las tablas:


a) cuando se ha presentado el caso general se han utilizado expresiones (términos y simbología)
acorde a la utilizada para definir los conceptos en forma teórica (Intervalos de clase, ni, etc.).
b) cuando se han dado ejemplos, las tablas muestran la información referida al caso práctico en
particular (rendimientos, número de parceles, etc.). En este caso, se muestra que se han
interpretado los conceptos teóricos, cuando se los ha aplicado o llevado al caso práctico.
Este criterio deberá ser respetado, cuando se realice la resolución de los teórico-prácticos.

RELEVANCIA DEL PROCESO DE REDUCCIÓN DE DATOS


1º) Esencialmente, el objetivo que se persigue con la organización y clasificación
de datos muestrales es resumir la cantidad de datos, para poner de manifiesto el
patrón de variabilidad que tienen los datos de las variables en estudio.
2º) Es bueno visualizar que la reducción de datos, en esencia es un proceso de
identificación de patrones válidos, potencialmente útiles, que no se encuentran
explícitos en los datos brutos y, que bajo el nuevo formato sí resultan
comprensibles”.

26
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2015

S-ar putea să vă placă și