Sunteți pe pagina 1din 37

Estadística Descriptiva

1 Introducción

Tema II

Estadística Descriptiva

1

La Estadística Descriptiva se utiliza para describir las características básicas de los datos de un estudio. Proporciona información simplificada sobre la muestra y las medidas. Ésta junto con el análisis de gráficos simples, constituyen la base de prácticamente todos los análisis cuantitativos de datos.

No debemos confundir la estadística descriptiva con la inferencia estadística . En el caso de la estadística descriptiva se describe simplemente cuáles son los datos o qué muestran. Por el contrario, la inferencia estadística pretende alcanzar conclusiones que van más allá de la simple descripción de los datos. Por ejemplo, podemos usar la inferencia estadística para intentar predecir el estado de opinión de la población a partir de una muestra de datos (intención de voto previo a comicios). Por lo tanto, la inferencia estadística se usa para, a partir de una colección de datos, establecer conclusiones a situaciones más generales, y será estudiado en próximos temas.

Una ventaja que proporciona la estadística descriptiva es la de presentar descripciones cuantitativas de los datos en un formato manejable. Un ejemplo claro es el desarrollo de una investigación científica/técnica en la que podemos recoger una cantidad considerable de información (datos), pudiendo representar algún tipo de medida tomada de un gran número de individuos. Es aquí donde la estadística descriptiva despliega todo su potencial ya que nos ayuda a mostrar una gran cantidad de datos de forma sencilla. Como ejemplo podemos considerar el valor que representa la tasa de piezas defectuosas que se producen en un proceso industrial, es decir el promedio de fallos. Este valor se determina simplemente como el cociente entre el número de piezas defectuosas y el número total de piezas producidas. Si este promedio, en términos porcentuales, fuese del 11,5% indicaría que de cada muestra de 200 unidades producidas 23 tendrían defectos. Como podrás comprobar una simple cifra describe un gran número de eventos discretos.

2 Conceptos básicos

2.1. Población estadística o Universo

Conjunto de elementos (sujetos, objetos, entidades abstractas, etc.) que comparten una o más características en común.

2.2. Unidad estadística o individuo

Cada elemento que forma parte de la población estadística o universo.

2.3. Muestra

Tema II

Estadística Descriptiva

2

Subconjunto de elementos del universo o la población. El número de elementos de la misma recibe el nombre de tamaño muestral .

2.4. Caracteres

Cualidades o propiedades de los individuos de la población bajo estudio, que pueden, a su vez, ser de dos tipos:

2.4.1. Cuantitativas : Son aquellas que pueden ser cuantificables o expresarse a través

Reciben el nombre de variables estadísticas

cuantitativas o simplemente “variables”. A su vez, las variables cuantitativas pueden clasificarse en:

2.4.1.1. Discretas: Pueden tomar una cantidad finita o infinita, pero numerable, de posibles valores. Ejemplos: miembros de la unidad familiar, de plantas de un edificio, de fallecidos por accidente laboral, etc.

2.4.1.2. Continuas : Pueden tomar cualquier valor de entre los infinitos valores encerrados en un intervalo dado. Ejemplos: la presión atmosférica, el peso, la temperatura, etc.

de un número (altura, peso, edad,

).

2.4.2. Cualitativas ( o categóricas ): Son aquellas que no se pueden cuantificar (estado

Reciben el nombre de variables estadísticas

civil, nacionalidad, profesión,

cualitativas o “atributos” y adoptan modalidades.

).

Las variables, a su vez, se pueden clasificar atendiendo a su nivel de medición :

Nominal: los individuos se clasifican por categorías. Por ejemplo, el género (masculino, femenino), el estado civil (casado/a, soltero/a, viudo/a, divorciado/a), especialidades de titulación (Mecánica, Electrónica, Eléctrica, Organización Industrial, entre otros), etc.

Ordinal: cuando es posible establecer una relación de orden entre las distintas modalidades de la variable: curso de estudios dentro del grado (1º, 2º, 3º, 4º), clasificación en un examen (matrícula de honor, sobresaliente, notable, aprobado, suspenso), etc.

Intervalo: cuando se posee una unidad de medida constante y arbitraria en la que existe un cero arbitrario o relativo, que no indica la ausencia de la característica que se está midiendo. Suele prevalecer la relación de orden “mayor que” (>). Por ejemplo, temperatura, altitud en relación al nivel del mar, etc.

Tema II

Estadística Descriptiva

3

Razón: cuando se posee una unidad de medida constante y arbitraria en la que existe un cero “absoluto”. Suele prevalecer la relación de orden “mayor que” (>): peso, edad, estatura, ingresos familiares, etc.

2.5. Dato

Es el resultado de la observación de un determinado carácter en cada uno de los individuos de la muestra.

Con el fin de ilustrar los distintos conceptos introducidos en este apartado se presenta el siguiente ejemplo, donde la población (universo) son los trabajadores de una empresa en la que se seleccionaron cuatro individuos como muestra:

Nivel de medición

Nivel nominal

Nivel ordinal

Nivel cuantitativo discreto

Nivel cuantitativo continuo

 

Martín es

Elena terminó la secundaria

 

María tiene 70 pulsaciones por minuto

DATO

electricista

Juan tiene 32 dientes

Unidad de análisis

Martín

Elena

Juan

María

Variable

Oficio

Nivel de instrucción

Cantidad de piezas dentarias

Frecuencia cardíaca

Categoría o valor

Electricista

Secundaria completa

32

70

Unidad de medida

‐‐‐‐‐‐‐‐‐‐‐‐‐

‐‐‐‐‐‐‐‐‐‐‐‐

Diente

Pulsaciones por minuto

3 Medidas y representaciones gráficas para variables unidimensionales

Una vez definida la población (universo), la selección de individuos mediante una muestra, las variables estadísticas y la recogida de datos, la Estadística Descriptiva se centra en estructurar, organizar y resumir dichos datos para que éstos sean comprensibles y significativos. Por lo que serán organizados en tablas que recogerán de forma sistemática y ordenada toda la información procedente de las distintas observaciones sobre los individuos que forman parte de la muestra objeto de estudio. A continuación, para una mejor interpretación de la información obtenida, ésta será organizada mediante tablas de frecuencias y serán diseñadas diferentes representaciones gráficas como ayuda fundamental, y en ocasiones imprescindible, tanto para poder interpretar los datos como para presentar la información que aportan.

3.1. Ordenación y organización de los datos

Dependiendo del tipo de variable estadística bajo estudio, los datos podrán organizarse de las siguientes maneras:

3.1.1. Caso discreto: Supongamos que se tiene una variable estadística discreta, que representa la “edad de los alumnos de clase” y que puede tomar los valores , ,…, 17,18,19, … ,24,25 . Se toma una muestra de tamaño 10 , obteniéndose datos (19,22,21,20,22,22,19,20,21,22 ) que son los valores

Tema II

Estadística Descriptiva

4

que toma la variable para cada uno de los 10 individuos de la muestra. Definimos ahora los indicadores más frecuentes que pueden usarse para organizar los datos

3.1.1.1. Recorrido: Diferencia entre el mayor y el menor de los valores que puede tomar la variable cuantitativa. En el ejemplo anterior: 25 17=8.

3.1.1.2. Frecuencia absoluta de un valor : Número de veces ( ) que aparece repetido dicho valor en el conjunto de las observaciones. En nuestro ejemplo: 2.

3.1.1.3. Frecuencia relativa de un valor : Es el cociente ( ) entre la frecuencia absoluta del valor y el número de observaciones. En el ejemplo:

2

0.2.

10

3.1.1.4. Frecuencia absoluta acumulada de un valor : Suma de las frecuencias

absolutas de los valores inferiores o iguales a . Se expresa como

y se cumple que .

3.1.1.5. Frecuencia relativa acumulada de un valor : Suma de las frecuencias relativas de los valores inferiores o iguales a . Se expresa como

, cumpliéndose que 1.

3.1.1.6. Tanto por ciento de un valor : Porcentaje de las observaciones que se corresponde con el valor (cuantitativas) o modalidad (cualitativas) . Se denota por % x100 .

3.1.1.7. Tabla de frecuencias: Para construir la tabla de frecuencias de una

variable discreta se deben ordenar de menor a mayor los distintos valores de la misma, y anotar sus correspondientes frecuencias.

   

 

 

 

 

En el ejemplo:

 
   

 

 
 

19

 

2

1/5

2

1/5

20

2

1/5

4

2/5

21

2

1/5

6

3/5

22

4

2/5

10

1

(c)

(b)

(a)

1

;∑ 1

(d)

, 2, … ,

Tema II

Estadística Descriptiva

5

3.1.2. Caso continuo: Aquel en el que las variables pueden tomar cualquier valor dentro de un intervalo definido. Normalmente se aplica cuando se han realizado muchas observaciones y el campo de variabilidad de la variable estadística es muy amplio. Ante tal situación, trataremos de agrupar los valores de la variable en intervalos, que reciben el nombre de intervalos de clase o clase, y que son elegidos apropiadamente para no perder demasiada información. En este caso, se realizan recuentos de las observaciones que caen dentro de cada uno de los intervalos. No cabe duda que el tomar como unidad de estudio el intervalo y no cada uno de los valores de la variable representa una simplificación del trabajo estadístico, pero a costa de una pérdida de parte de la información. Precisamente por este último motivo es aconsejable elegir un número de intervalos que equilibre ambos criterios: simplificación, pérdida de información. Pasaremos a continuación a definir aspectos concretos de los intervalos:

3.1.2.1. Amplitud del intervalo : Diferencia entre el extremo superior y el inferior del intervalo, pudiéndose distinguir dos casos: intervalos de amplitud constante e intervalos de amplitud variable. Por comodidad se suele realizar el reparto de información en intervalos de amplitud fija.

3.1.2.2. Elección de los intervalos de clase: Se suelen tener en cuenta los siguientes criterios a la hora de elegir los intervalos:

(i)

Ningún valor de la variable debe coincidir con los extremos de los intervalos o límites de las clases.

(ii)

Los límites han de ser sencillos (con pocas cifras decimales).

(iii)

La unión de todas las clases debe recorrer el conjunto total de posibles valores que puede tomar la variable.

(iv)

Las clases no deben solaparse, con lo que cada observación se clasificará en una única clase. Para ello los intervalos suelen ser semiabiertos del tipo , o , . En ocasiones los intervalos nos vienen dados de forma que no se solapan: 120 139, 140 149, 150159, 160 169. En estas circunstancias es aconsejable elegir adecuadamente nuevos intervalos que contengan a los anteriores y que no modifiquen

el número de observaciones en cada uno de los primeros: 119’5 139’5,

139’5 149’5, 149’5 159’5,159’5169’5; de manera que se satisfaga (iii).

A este tipo de intervalos se les da el nombre de intervalos con límites

reales de clase.

Tema II

Estadística Descriptiva

6

(v) Las clases suelen ser de igual amplitud, evitando desequilibrios entre el número de observaciones de unas y el de otras.

3.1.2.3. Marcas de clase: Si bien cada clase viene determinada por sus límites

(intervalo , o , ) es

represente la información que contiene cada clase. Es por ello que definimos como marca de clase al punto medio del intervalo . Pasamos ahora a definir distintos indicadores relativos a las variables continuas:

de utilidad considerar un valor que

(i)

Frecuencia absoluta de la clase : Se define como el número de observaciones que se encuentran dentro de la clase .

(ii)

Frecuencia relativa de la clase : Se calcula como el cociente entre la frecuencia absoluta y el número total de observaciones.

(iii)

Frecuencias absoluta y relativa acumulada de la clase : En caso de que las clases estén ordenadas de forma creciente, se definirán como el resultado de sumar a la correspondiente frecuencia absoluta o relativa de la clase las frecuencias absolutas o relativas de las clases anteriores. La siguiente tabla ilustra cómo debe recogerse esta información.

,

2

,

2

,

2

,

2

Veamos, mediante un ejemplo, cómo se pueden definir intervalos de clase. En la siguiente tabla se recoge el rendimiento de 42 lotes consecutivos de un sustrato cerámico, en el que se ha aplicado un recubrimiento metálico mediante un proceso de sedimentación por vapor. Se pide que construyamos una distribución de frecuencias.

94.1

87.3

94.1

92.4

84.6

85.4

93.2

84.1

92.1

90.6

84.1

86.6

90.6

90.1

95.9

89.1

85.4

91.7

91.4

95.2

88.2

88.8

89.7

87.5

88.2

86.1

86.4

86.4

87.6

84.2

86.1

94.3

85.0

85.1

85.1

85.1

95.1

93.2

84.9

84.1

89.6

90.5

De los datos se comprueba que el menor valor observado es 84.1, que el mayor valor observado es 95.9, y que por lo tanto el recorrido es 95.9 84.1=11.8 12 . Supongamos que queremos intervalos de

Tema II

Estadística Descriptiva

7

amplitud 2, entonces tendríamos 12⁄2 6 intervalos con lo que la tabla de frecuencias quedaría como:

84,86

85

12

0.2857

12

0.2857

86,88

87

8

0.1904

20

0.4761

88,90

89

6

0.1428

26

0.6189

90,92

91

6

0.1428

32

0.7617

92,94

93

4

0.0952

36

0.8569

94,96

95

6

0.1428

42

1

3.2. Representaciones gráficas

A continuación mostramos distintos métodos gráficos que nos facilitarán la tarea de describir los datos ya que muestran rápidamente una imagen visual de estos.

3.2.1. Diagrama de barras: método adecuado para representar las frecuencias de una variable discreta. En el eje de abscisas se disponen los distintos valores que toma la variable y sobre cada uno de ellos se traza una línea perpendicular, cuya altura es la frecuencia (absoluta o relativa) de dicho valor. A continuación mostramos una tabla que recoge la altura, la edad y el sexo de una muestra de 10 individuos que acuden a revisión médica de rutina.

Altura

Edad

Sexo: “Hombre” 0, “Mujer” 1

1,70

21

1

1,80

24

0

1,50

16

0

1,95

27

0

1,55

16

1

1,40

12

1

1,41

12

0

1,80

25

1

1,67

17

0

1,65

20

1

0 1,80 25 1 1,67 17 0 1,65 20 1 Gráfica 1. Diagrama de barra de

Gráfica 1. Diagrama de barra de frecuencias absolutas

Tema II

Estadística Descriptiva

8

3.2.2. Histograma: método gráfico adecuado para representar las frecuencias de una variable agrupada en intervalos. En este caso, las frecuencias se representan mediante áreas de rectángulos, cuyas bases se corresponderán con la amplitud del intervalo y la altura será tal que el área coincida con la frecuencia de la clase (absoluta o relativa).

con la frecuencia de la clase (absoluta o relativa). 3.2.3. Polígono de frecuencias: Distinguimos dos

3.2.3. Polígono de frecuencias: Distinguimos dos casos:

3.2.3.1. Variable discreta: Se obtiene uniendo los extremos superiores de las barras del diagrama de barras.

superiores de las barras del diagrama de barras. 3.2.3.2. Variable agrupada en intervalos: Se obtiene

3.2.3.2. Variable agrupada en intervalos: Se obtiene uniendo los puntos medios de los extremos superiores de cada rectángulo del histograma.

superiores de cada rectángulo del histograma. 3.2.4. Diagrama de frecuencias acumuladas (o diagrama

3.2.4. Diagrama de frecuencias acumuladas (o diagrama de barras acumulativo):

Representación para variables discretas en la que mostraremos en el eje de abscisas los distintos valores de la variable. Para cada uno de ellos proyectaremos verticalmente un segmento de recta cuya longitud se

Tema II

Estadística Descriptiva

9

corresponderá con la frecuencia (absoluta o relativa) acumulada relativa a ese valor. Es decir, el valor en el eje de abscisas tendrá una ordenada .

en el eje de abscisas tendrá una ordenada . 3.2.5. Polígono de frecuencias acumuladas: Método

3.2.5. Polígono de frecuencias acumuladas: Método gráfico usado para variables agrupadas en clases o intervalos. En el eje de abscisas se mostrarán concatenados los distintos intervalos de clase. En el extremo superior de cada intervalo ( , ,…, ) se proyectará verticalmente un segmento de recta con longitud igual a la frecuencia acumulada (relativa o absoluta) del mismo. Si elegimos frecuencias acumuladas absolutas la altura máxima se consigue el último intervalo, que tendrá frecuencia . Por el contrario, si nos decidimos por polígono de frecuencias acumuladas relativas la altura máxima alcanzada será la unidad (o, equivalentemente, el 100%).

será la unidad (o, equivalentemente, el 100%). Otros tipos de representaciones gráficas

Otros tipos de representaciones gráficas frecuentemente usados en las ciencias sociales o de la salud son los diagramas circulares o por sectores que aparecen en las encuestas o estudios clínicos.

3.3. Representaciones numéricas

En ocasiones es conveniente extraer un único valor o un número reducido de valores de la información obtenida para facilitar la comparación entre distintas muestras o poblaciones. Estos valores o medidas descriptivas tratan de reflejar ciertos aspectos globales del conjunto de datos y son principalmente de dos tipos: medidas de tendencia central o de posición y las medidas de dispersión o variabilidad. Para definir las más usuales, admitiremos que la variable estadística toma los valores , ,…, con las frecuencias , ,…, , respectivamente.

Tema II

Estadística Descriptiva

3.3.2. Medidas de tendencia central o de posición

3.3.2.1. Media aritmética ( )

10

La media aritmética (también llamada promedio o simplemente media) de un conjunto finito de números es igual a la suma de todos sus valores dividida entre el número de sumandos. Cuando el conjunto es una muestra aleatoria recibe el nombre de media muestral siendo uno de los principales estadísticos muestrales. Expresada de forma más intuitiva, podemos decir que la media (aritmética) es la cantidad total de la variable distribuida a partes iguales entre cada observación. Por ejemplo, si en una habitación hay tres personas, la media de dinero que tienen en sus bolsillos sería el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre cada uno de ellos. Es decir, la media es una forma de resumir la información de una distribución (dinero en el bolsillo) suponiendo que cada observación (persona) tuviera la misma cantidad de la variable. También la media aritmética puede ser denominada como centro de gravedad de una distribución, el cual no está necesariamente en la mitad. Una de las limitaciones de la media aritmética es que se trata de una medida muy sensible a los valores extremos: valores muy altos tienden a aumentarla mientras que valores muy bajos tienden a reducirla, lo que implica que puede dejar de ser representativa de la población.

3.3.2.2. Media geométrica ( ) o (G )

Suele utilizarse en negocios y economía para calcular las tasas de cambio promedio, las tasas de crecimiento promedio o tasas promedio.

Para simplificar los cálculos se suele tomar logaritmos:

log log

Tema II

Estadística Descriptiva

log log log log

1

1

10,

11

Esta medida es menos sensible que la media aritmética a los valores extremos. Sin embargo, es de significado estadístico menos intuitivo que la media aritmética, su cálculo es más difícil y en ocasiones no queda determinada; por ejemplo, con que sólo un valor de la variable sea cero entonces la media geométrica se anula. Solo es relevante la media geométrica si todos los números son positivos. Como hemos visto, si uno de ellos es 0, entonces el resultado es 0. Si hubiera un número negativo (o una cantidad impar de ellos) entonces la media geométrica sería o bien negativa, o bien inexistente en los números reales. La media geométrica es relevante cuando varias cantidades son multiplicadas para producir un total.

3.3.2.3. Media cuadrática ( )

Es la raíz cuadrada de la media aritmética de los cuadrados de los valores. A veces la variable toma valores positivos y negativos, como ocurre, por ejemplo, en los errores de medida. En tal caso se puede estar interesado en obtener un promedio que no recoja los efectos del signo. Este problema se resuelve, mediante la denominada media cuadrática. Consiste en elevar al cuadrado todas las observaciones (así los signos negativos desaparecen), en obtener después su media aritmética y en extraer, finalmente, la raíz cuadrada de dicha media para volver a la unidad de medida original. Suele utilizarse en aplicaciones de física. Por ejemplo, en los sistemas de distribución de energía, los voltajes y las corrientes suelen expresarse en términos de sus valores

3.3.2.4. Media armónica ( o (H )

Al igual que la media geométrica, esta medida carecerá de sentido si algún valor de la variable es cero. Por eso no es aconsejable su empleo

Tema II

Estadística Descriptiva

12

en distribuciones donde existan valores muy pequeños. La media armónica es poco sensible a la existencia de determinados valores mucho más grandes que el conjunto de los otros, estando en cambio influida por valores mucho más pequeños que el conjunto. La media armónica con frecuencia se utiliza como una medida de tendencia central para conjuntos de datos que consisten en tasas de cambios, como la rapidez (aceleración).

3.3.2.5. Mediana ( )

Es la medida central que, supuestos los valores de la variable ordenados en forma creciente, deja igual número de observaciones inferiores que superiores a ella.

Si el número de observaciones es impar, la mediana se

correspondería con el valor que ocupa la posición de la lista

ordenada de valores ( es el operador valor entero superior o ceil en inglés, y devuelve el menor de los enteros mayores o iguales a ). Por ejemplo, si 1,3,7,10,15,22,36 , entonces la mediana sería el

valor que ocupa la posición 4, es decir, el 10. En caso contrario, si

el número de observaciones es par, la mediana se obtendría como la media aritmética de los dos valores centrales, es decir,

⁄2 . Por ejemplo, si añadimos una observación más al

conjunto definido anteriormente: 1,3,7,10,15,22,36,42 , la mediana sería 10 15 ⁄2 12.5

Para el caso general de una distribución de frecuencias, existen dos estrategias para calcular la mediana dependiendo del tipo de variable aleatoria: discreta o agrupada en intervalos de clase. Veamos cada una de ellas.

Variable discreta

a) Dividimos el número de observaciones entre 2.

b) Comprobamos si el número calculado, , se encuentra en la tabla de frecuencias absolutas acumuladas . En este caso, el valor coincide con la frecuencia absoluta acumulada de algún

valor y, por tanto, ésta ordenada corresponde a los infinitos puntos del intervalo , . Como quiera que la mediana debe ser un único punto, tomamos el punto medio de dicho intervalo:

.

Tema II

Estadística Descriptiva

variable que corresponda al mayor, es decir, la abscisa que corresponde a la ordenada .

decir, la abscisa que corresponde a la ordenada . Ejemplo: Se administró la vacuna de la

Ejemplo: Se administró la vacuna de la gripe estacional a una

13

muestra de 42 individuos, a los que, pasado un periodo de cinco horas, se les tomó la temperatura obteniendo los siguientes datos:

Temperatura en grados

37

37.2

37.5

38

38.1

38.5

39

Número de individuos

1

5

15

6

10

5

0

Se pide que a) calcules los valores de todas las posibles medias y b) la mediana.

Está claro que la variable estadística temperatura en grados es continua aunque, debido a que toma muy pocos valores distintos, podemos tratarla como discreta. Lo primero que haremos es completar la tabla de frecuencias:

log log

37

1

1

1369

1.568

1.568

37.2

5

6

6919.2

1.570

7.850

37.5

15

21 21093.75

1.574

23.610

38

6

27

8664

1.579

9.474

38.1

10

37

14516.1 1.580

15.800

38.5

5

42

7411.25

1.585

7.925

39

0

42

0

1.591

0

 

59973.3

66.227

a)

1587

42

.

37.78

10 37.74

59973.3

42

37.78

42

1.111 37.78

b)

Tema II

Estadística Descriptiva

14

b) Tema II Estadística Descriptiva 14 Variable agrupada en intervalos de clase a) Dividimos el número

Variable agrupada en intervalos de clase

a) Dividimos el número de observaciones entre 2.

b) Llevamos el valor a la columna de frecuencias absolutas acumuladas ( ).

c) Si este valor se encuentra en la tabla, es que será la frecuencia absoluta acumulada de un cierto intervalo de clase [ , ) y, por tanto, la mediana será el extremo superior del mismo .

d) En caso contrario, estará comprendido entre dos valores y , que corresponderá a las frecuencias absolutas acumuladas de dos intervalos , y , , respectivamente. En consecuencia, la mediana se haya en el intervalo , , y su posición exacta se calcula mediante semejanza de triángulos en el histograma o polígono de

frecuencias acumuladas empleando la siguiente interpolación:

2

Ejemplo: Las estaturas (en centímetros) de un grupo (muestra) Las estaturas (en centímetros) de un grupo (muestra)

de dieciséis alumnos de la asignatura se recogen en la siguiente tabla:

160

172.4 168

167

175

179

180

198

164

166

174

177

182.5

185

191

173.5

Se pide que:

a) Agrupes los datos en cuatro intervalos de amplitud constante.

b) Calcules las medias aritmética, geométrica y armónica.

Tema II