Sunteți pe pagina 1din 15

Estadistica

descriptiva
1. Introduccin.

a Estadstica se ocupa del estudio de los experimentos aleatorios, es decir, aquellos cuyos
resultados no pueden predecirse de antemano.
El experimento generalmente consiste en la observacin de alguna caracterstica sobre los
elementos de cierto conjunto. Por ejemplo:

queremos saber la estatura media de los alumnos del Instituto.


queremos saber el porcentaje de votantes que estn a favor de un determinado partido
poltico para las prximas elecciones.

queremos saber cul es la duracin media de las bombillas que se producen en una determinada fbrica; etc.

Cuando una investigacin va referida a un conjunto de elementos (personas, bombillas, etc),


estadsticamente a este conjunto se le llama poblacin:
POBLACIN: es el conjunto de todos los individuos (o elementos) que poseen una determinada caracterstica objeto de un estudio estadstico.
Cuando la poblacin es muy grande no se suele hacer una observacin exhaustiva de todos
sus elementos (sera un proceso difcil, costoso, lento, o incluso imposible). Por ello, normalmente
se elige una parte de la poblacin, llamada muestra, y se realiza el estudio sobre los elementos de
la misma, para posteriormente extender los resultados obtenidos sobre toda la poblacin.
MUESTRA: es la parte o subconjunto de la poblacin que se selecciona para realizar un
estudio estadstico.
Ahora bien, para que el estudio realizado sobre la muestra sea fiable, y nos permita extender las
conclusiones a toda la poblacin, dicha muestra debe de estar elegida de modo que realmente sea
representativa de la poblacin. El proceso mediante el cual se extrae una muestra representativa
de una poblacin se denomina muestreo aleatorio: en dicho tipo de muestreo, cada individuo de la
poblacin tiene la misma probabilidad de ser incluido en la muestra. Las muestras as obtenidas
se denominan muestras aleatorias.
En un muestreo no aleatorio no se usa el azar, sino el criterio subjetivo del que hace el
muestreo, o bien las muestras estn condicionadas por el propio proceso de muestreo (por ejemplo,
encuestas telefnicas realizadas en horario laboral, etc). Este tipo de muestreo suele conducir a la
obtencin de muestras sesgadas, no representativas de la poblacin.
Una vez recogidos los datos de la muestra, el proceso que sigue consta de dos fases:
1. En primer lugar hay que ordenar, organizar y simplificar la informacin recogida. De esto
se ocupa la ESTADSTICA DESCRIPTIVA (objeto de este tema).
1

E stadstica descriptiva
2. En segundo lugar, hay que realizar un anlisis de la informacin contenida en la muestra,
y obtener conclusiones y predicciones que puedan extenderse a toda la poblacin. De esta
fase se ocupa la INFERENCIA ESTADSTICA.

2. Caracteres y variables estadsticas.

omo se mencion anteriormente, cada uno de los individuos de una poblacin o muestra
pueden describirse segn uno o varios caracteres.
CARCTER ESTADSTICO: es una propiedad que permite clasificar a los individuos de la
poblacin o muestra.
Se distinguen dos tipos generales de caracteres estadsticos:
Cualitativos: son aquellos que no pueden ser medidos. Por ejemplo: color de ojos, sexo,
profesin, etc.
Cuantitativos: son aquellos que se pueden medir o contar. Por ejemplo: peso, talla, nmero
de hermanos, dimetro de una pieza, temperatura, etc. A todos ellos se les puede asignar un
valor numrico.
VARIABLE ESTADSTICA: es el conjunto de todos los valores numricos que puede tomar
un carcter estadstico cuantitativo.
A su vez, las variables estadsticas pueden ser discretas o continuas:
Discretas: son las que toman valores numricos exactos (generalmente nmeros enteros),
y suelen ser resultado de un recuento. Por ejemplo: nmero de empleados de una fbrica,
nmero de discos vendidos durante un da en una tienda, nmero de hijos en las familias
de una ciudad, etc.
Continuas: son las que pueden tomar, al menos tericamente, todos los valores posibles
dentro de un cierto intervalo de la recta real; suelen ser el resultado de una medicin. Por
ejemplo: velocidad de un coche en km/h, presin sangunea de los enfermos de un hospital,
peso de los habitantes de Gijn, dimetro de las piezas producidas por una mquina, etc.

3. Ordenacin de los datos. Distribuciones de frecuencias.

omenzamos con un ejemplo.


Un profesor tiene anotada las notas en Matemticas de 40 alumnos, que se distribuyen del
siguiente modo:
Notas ( xi )
0
1
2
3
4
5
6
7
8
9
10

No alumnos ( fi )
1
2
1
4
6
15
4
3
2
1
1
Total: N = 40

hi
1/40
2/40
1/40
4/40
6/40
15/40
4/40
3/40
2/40
1/40
1/40
40/40 = 1

E stadstica descriptiva
La variable estadstica nota la representaremos por X , y toma los valores:

X = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
Se trata, por tanto, de una variable discreta.
A cada uno de los valores que toma la variable estadstica se le representa por x1 , x2 ,. . . xn , en
general, por xi .
Cada uno de estos valores puede repetirse un determinado nmero de veces. Por ejemplo, xi = 4
se repite 6 veces.
FRECUENCIA ABSOLUTA del valor xi es el nmero de veces que se repite. Se representa
por fi .
Observemos que: f1 + f2 + + fn = N , o abreviadamente:

fi = N

Es decir, la suma de todas las frecuencias absolutas es igual al nmero total de datos.
FRECUENCIA RELATIVA del valor xi es el cociente entre la frecuencia absoluta fi y el
nmero total de datos. Se representa por hi .

hi =

fi
N

Observemos que:

hi = 1

(ver la tabla anterior)

Las frecuencias relativas pueden darse en forma de fraccin, en forma decimal o en tanto por
ciento. Por ejemplo:
4
1
=
= 0, 1 = 10 %
40
10
DISTRIBUCIN DE FRECUENCIAS: es el conjunto de todos los posibles valores de la variable, ordenados de menor a mayor, con sus correspondientes frecuencias.
La representacin de las distribuciones de frecuencias puede hacerse de forma tabular, o de
forma grfica.

3.1. Representaciones tabulares.


En el caso de la distribucin de frecuencias de una variable discreta, la disposicin de los
datos se realiza como hemos visto antes para el ejemplo de las notas de 40 alumnos:

xi
x1
x2
..
.

fi
f1
f2
..
.

xn

fn

En el caso de la distribucin de frecuencias de una variable continua, o tambin cuando la


variable es discreta pero toma muchos valores distintos, se recurre a la agrupacin de los valores
de la variable en subconjuntos o intervalos llamados clases.
Por ejemplo: se ha medido la talla de 40 alumnos de Bachillerato, obtenindose los siguientes
resultados agrupados en intervalos de igual tamao:

E stadstica descriptiva
Talla (m)

no alumnos ( fi )

marcas de clase

[1, 55 1, 60)
[1, 60 1, 65)
[1, 65 1, 70)
[1, 70 1, 75)
[1, 75 1, 80)

4
18
14
3
1
N = 40

1,575
1,625
1,675
1,725
1,775

En este caso, la variable estadstica talla es continua, y toma valores dentro del intervalo

[1, 55 1, 80) de la recta real.

A los extremos de los intervalos se les llama lmites inferior y superior; la amplitud de la
clase es la diferencia entre el lmite superior y el inferior (0,05 m en el ejemplo). Normalmente se
tiende a formar intervalos de igual amplitud. Esta amplitud depender del nmero de datos y de
la precisin que se requiera en el estudio; en general, cuanto ms estrechos sean los intervalos,
mayor precisin se obtendr, pero el tratamiento de los datos ser ms trabajoso.
Los lmites superior de un intervalo e inferior del siguiente no deben solaparse. As, en el
ejemplo, un individuo de talla 1,60 m sera asignado al segundo intervalo, no al primero.
Al punto medio de cada intervalo se le llama marca de clase (ver tabla anterior). Este valor ser
el que se utilice como representacin del intervalo para el clculo de los parmetros estadsticos,
segn veremos ms adelante.

3.2. Representaciones grficas.


An cuando las tablas de frecuencias encierran toda la informacin disponible, a veces es
conveniente traducir esta informacin mediante un grfico, con el fin de hacerla ms expresiva.
Los tipos de grficos ms frecuentes son los diagramas de barras para datos discretos, y los
histogramas para datos continuos.
diagramas de barras: se representa sobre el eje de abscisas los valores de la variable, y
sobre el eje de ordenadas las frecuencias (absolutas o relativas); a continuacin, por los
puntos marcados en el eje de abscisas se levantan trazos gruesos o barras de longitud igual
a la frecuencia correspondiente.
Por ejemplo, para la distribucin de frecuencias de las notas de 40 alumnos tendremos:

fi

15
10
5

xi
La suma de las longitudes de las barras ser N o 1, dependiendo de si las frecuencias
representadas son absolutas o relativas.
histogramas: se representan sobre el eje de abscisas las amplitudes de los intervalos, y
despus se construyen unos rectngulos que tienen de base la amplitud del intervalo, y de
altura, la frecuencia del mismo.
Por ejemplo, para la distribucin de frecuencias de las tallas de 40 alumnos tendremos:

E stadstica descriptiva
fi 20
15
10
5

1,55

1,60

1,65

1,70

1,75

1,80

xi

Mediante una representacin grfica es posible observar ciertos patrones de comportamiento


de las distribuciones de frecuencias, como por ejemplo, la simetra de la distribucin.
As, si unimos mediante una curva suave los extremos superiores de las barras, o de los
rectngulos del histograma, podemos obtener resultados como los siguientes:

Dependiendo de la forma de la curva, las distribuciones pueden ser:

simtricas:

La mayor parte de los individuos se concentran alrededor


de unos valores intermedios de la variable, y el resto
se reparten aproximadamente por igual entre los valores
ms altos y ms bajos.

asimtricas hacia la derecha (asimetra positiva):

La mayor parte de los individuos se concentran alrededor


valores bajos de la variable; las frecuencias descienden
ms lentamente por la derecha.

asimtricas hacia la izquierda (asimetra negativa):

La mayor parte de los individuos se concentran alrededor


de valores altos de la variable; las frecuencias descienden
ms lentamente por la izquierda.

******************************
An cuando las tablas estadsticas y las representaciones grficas dan una idea exhaustiva del
comportamiento de una distribucin de frecuencias, resulta conveniente resumir el conjunto de
datos mediante unos valores numricos que caractericen a la distribucin. Estos valores son los
parmetros estadsticos.
Hay dos grandes grupos de parmetros estadsticos:
medidas de tendencia central o centralizacin.
medidas de dispersin.
Tambin veremos otras medidas llamadas de posicin, relacionadas con los dos tipos anteriores.

E stadstica descriptiva

4. Medidas de centralizacin.

e llaman as porque representan un valor alrededor del cual se acumulan u oscilan los
valores de la variable. Las tres ms empleadas son: media aritmtica, mediana y moda.

4.1. Moda.
Se llama moda de una distribucin de frecuencias al valor de la variable que presenta mayor
frecuencia absoluta. Para el caso de una variable continua, con los valores agrupados en clases,
hablaremos de intervalo modal. Se representa por Mo .
Para los dos ejemplos anteriores:

Notas: Mo = 5.
Estaturas: Mo = [1, 60; 1, 65).

La moda no tiene por qu ser nica, y la distribucin puede ser bimodal, trimodal, etc, segn
tenga dos, tres, etc, modas.
La moda es el nico parmetro que tiene sentido en el caso del estudio de caracteres cualitativos.

4.2. Media aritmtica.


La media aritmtica se define como el cociente entre la suma de todos los datos y el nmero
total de datos.
Si los datos corresponden a una poblacin entera, la media se representa por . Si los datos
corresponden a una muestra, como es el caso ms frecuente, la media se representa por x. En
general, la media de una poblacin, , es desconocida, y la media muestral, x , se usa como
estimacin de la media poblacional.
Si la variable es discreta, la media se calcula del siguiente modo:

x1 f1 + x2 f2 + + xk fk
x =
=
N

xi fi
N

Para calcular la media, conviene aadir en la tabla de frecuencias una columna con los
valores de los productos xi fi .
Ejemplo
La tabla adjunta muestra la distribucin de notas de los alumnos de una clase:

xi

fi

xi fi

5
6
7
8
9
10

1
2
4
7
4
2

5
12
28
56
36
20

N = 20

x =

xi fi 157
=
= 7, 85
N
20

xi fi = 157

Para datos de variable continua, agrupados en clases, se toma la marca de clase como valor
representativo de la misma (es decir, como valor de xi ) para calcular la media. Con ello,
se realiza la simplificacin de asumir que todos los individuos de cada clase presentan el
mismo valor de la variable; de todos modos, el error que se comete con ello es pequeo,
especialmente si los datos son numerosos.

E stadstica descriptiva

Ejemplo
La tabla adjunta muestra la distribucin de pesos de los alumnos de una clase:
Peso (kg)
[50 56)
[56 62)
[62 68)
[68 74)
[74 80)

marcas xi
53
59
65
71
77

fi

xi fi

12
25
18
9
6

636
1475
1170
639
462
P
= 4382

N = 70

x =

xi fi 4382
=
= 62, 6 kg.
N
70

4.3. Mediana.
La mediana es el valor que ocupa la posicin central cuando el conjunto de datos se ordena
en forma creciente; por tanto existe igual nmero de observaciones mayores que menores que la
mediana. Se representa por Me .
Si la variable es discreta y el nmero de observaciones no es elevado, el clculo de la
mediana se realiza del siguiente modo: se ordenan los datos de menor a mayor (incluyendo
las repeticiones si las hay); si su nmero es impar, la mediana es el valor central; si es par,
se toma como mediana la media aritmtica de los dos valores centrales.

Ejemplos
1. Sean los datos:

5 5 6

9
7+1
= 4 posicin 4a .
2

N = 7 (impar); el valor central ocupar la posicin


3

Me = 5

2. Sean los datos:

N = 8 (par); como

5 5 6

10

8+1
= 4, 5 los dos valores centrales son el 4o y el 5o .
2
3

10

Me = 5, 5

Cuando se trata de datos discretos dados mediante una tabla de frecuencias, para calcular la
mediana conviene aadir a la tabla otra columna con las llamadas frecuencias acumuladas.
La frecuencia acumulada de un valor xi es la suma de las frecuencias absolutas de todos
los valores de la variable inferiores o igual a xi . Se representa por Fi . Las frecuencias
acumuladas facilitan la localizacin del valor o valores que ocupan la posicin central.

E stadstica descriptiva

Ejemplos
1.

xi

fi

Fi

5
6
7
8
9

12
18
20
15
5
N = 70

12
30
50
65
70

N = 70 los dos valores centrales sern:


70 + 1
= 35, 5 el 35o y el 36o .
2

Del 31o al 50o individuos, el valor de la variable


es 7, por tanto, los individuos 35o y 36o tienen 7
como valor de la variable:

Me =

2.

3.

xi

fi

Fi

2
3
4
5
6
7

2
10
13
10
8
6
N = 49

2
12
25
35
43
49

xi

fi

Fi

3
6
7
8
9

15
20
15
40
10
N = 100

15
35
50
90
100

7+7
=7
2

N = 49 el valor central ser:


49 + 1
= 25.
2

El individuo 25o tiene como valor de la variable


4; luego: Me = 4.

N = 100 los dos valores centrales sern:


100 + 1
= 50, 5 el 50o y el 51o .
2

El individuo 50o tiene como valor de la variable


7, pero el 51o tiene 8 como valor de la variable.
Luego:
7+8
Me =
= 7, 5
2

Para el caso de datos de variable continua agrupados en intervalos o clases el clculo de la


mediana requiere construir previamente un grfico de frecuencias acumuladas: en unos ejes
de coordenadas se representan los puntos cuya abscisa es el extremo superior del intervalo,
y cuya ordenada es la frecuencia acumulada de dicho intervalo.

si estos puntos se unen mediante lneas rectas, se obtiene el llamado polgono de fre-

cuencias acumuladas. Con ello se hace la simplificacin de suponer que las frecuencias
acumuladas en el interior de cada intervalo se comportan de forma lineal.

si los puntos se unen mediante una curva suave, se obtiene la llamada curva de fre-

cuencias acumuladas. Es quiz ms realista, pero ms difcil de hacer bien (a no ser


que se haga con un programa informtico).

El grfico conviene hacerlo en papel milimetrado, pues as se obtiene mayor precisin.

E stadstica descriptiva
Ejemplo
La siguiente tabla representa los pesos de 120 individuos:
Kg

[55, 60)

[60, 65)

[65, 70)

[70, 75)

[75, 80)

[80, 85)

[85, 90)

[90, 95)

[95, 100)

[100, 105)

fi
Fi

2
2

3
5

12
17

14
31

19
50

37
87

22
109

8
117

2
119

1
120

Construimos el polgono de frecuencias acumuladas:


120 +

Fi
110 +

100 +

90 +

80 +

70 +

60 +

50 +

40 +

30 +

20 +

10 +

55

60

65

70

75

80

85

Me

90

95

100

105

Peso (kg)

Como N = 120 podemos tomar como mediana el peso correspondiente al 60o

individuo, ya que al tratarse de una variable continua, al 60o individuo no se le


asigna un valor concreto, sino un cierto intervalo. Por tanto:

Me 81, 5 kg
Cuntos individuos pesarn menos de 73 kg?
De la grfica se obtiene: 26 individuos.
Cuntos pesarn ms de 91 kg?
De la grfica se obtiene que 110 individuos pesan menos de 91 kg. Luego, ms
de 91 kg sern: 120 110 = 10 individuos.

10

E stadstica descriptiva

4.4. Comparacin entre media y mediana.


La media y la mediana, aunque proporcionan informacin complementaria, tienen propiedades
muy distintas:
la media utiliza todos los datos en su clculo, y es por tanto adecuada cuando los datos
son homogneos, es decir, estn repartidos de forma equilibrada (la distribucin es simtrica o aproximadamente simtrica). La media es muy sensible a valores atpicos; un valor
anormalmente alto (o bajo) puede modificarla considerablemente.
la mediana utiliza menos informacin que la media, ya que slo tiene en cuenta el orden
de los datos, no su magnitud. En contrapartida, no se ve alterada si un dato o una pequea
parte de los datos son atpicos.
Podemos ilustrar lo anterior con el siguiente ejemplo:
Sea el conjunto de datos:
61

63

63

64

66

Me =

69

66 + 69
2

70

70

71

72

= 67, 5

La media del conjunto de datos anterior es x = 66, 9.


Supongamos ahora que los datos son:
61

63

63

64

66

Me =

69

66 + 69
2

70

70

71

350

= 67, 5

Pero la media ahora es x = 94, 7. Para este segundo conjunto de datos, la mediana representa
mejor la tendencia central.
En general:

si la distribucin es simtrica, la media y la mediana son aproximadamente iguales.


si la distribucin es asimtrica hacia la derecha: mediana<media.

si la distribucin es asimtrica hacia la izquierda: media<mediana.

Me = x

Me

Me

5. Medidas de posicin.

as medidas de posicin son, en realidad, una generalizacin de la mediana. Las ms


usadas son los cuartiles y percentiles.

5.1. Cuartiles.
La mediana divide a los datos ordenados en dos mitades; a su vez, cada una de estas mitades
se dividen en dos partes iguales mediante los cuartiles:
el cuartil inferior o primer cuartil (Q1 ) es el valor de la variable que deja por debajo un 25 %
de los datos.

11

E stadstica descriptiva

el cuartil superior o tercer cuartil (Q3 ) es el valor de la variable que deja por debajo un 75 %
de los datos.
Por tanto, los cuartiles Q1 y Q3 y la mediana dividen al conjunto de datos en cuatro partes iguales:

25 %

25 %

25 %

25 %

Q1

Me

Q3

Por ello, podemos considerar a la mediana como el segundo cuartil.


Para el clculo de los cuartiles se sigue un procedimiento similar al del clculo de la mediana:
para datos discretos se utiliza la tabla de frecuencias acumuladas; para datos agrupados en clases
se utiliza el grfico de frecuencias acumuladas.

Ejemplos
1.

xi

fi

Fi

2
3
4
5
6
7
8
9

1
3
2
4
3
2
1
1

1
4
6
10
13
15
16
17

N = 17

La mediana se encuentra en la posicin 9a :


5

La primera mitad consta de 8 datos (del 1o al 8o ).


1+8
= 4, 5 los dos centrales sern el 4o y el
2

Como
5o :

3+4
= 3, 5
2
La segunda mitad consta de los datos 10o al 17o .

Q1 =

Como
el 14o :

10 + 17
= 13, 5 los dos centrales ser el 13o y
2

Q3 =

2.

xi

fi

Fi

2
3
4
5
6
7
8
9
10
11
13

2
1
2
2
2
2
3
1
1
1
1

2
3
5
7
9
11
14
15
16
17
18

Me =

6+7
= 6, 5
2

La mediana se encuentra en las posiciones 9a y 10a :

Me =

6+7
= 6, 5
2

La primera mitad consta de 9 datos (del 1o al 9o ).


Como

1+9
= 5 el central ser el 5o : Q1 = 4.
2

La segunda mitad consta de los datos 10o al 18o .


Como

10 + 18
= 14 el central ser el 14o : Q3 = 8.
2

N = 18

3. Para la distribucin de los pesos de 120 individuos (ver grfico en la pgina 9):

25 % de 120=30. A partir de la grfica se obtiene: Q1 75 kg.

75 % de 120=90. A partir de la grfica se obtiene: Q3 86 kg.

12

E stadstica descriptiva

5.2. Percentiles.
Se llama percentil P al valor de la variable que deja por debajo un % de los datos.
Por ejemplo, el percentil 90 es el valor de la variable tal que un 90 % de los datos son inferiores
o iguales a l.
En realidad, los cuartiles y la mediana son casos particulares de percentiles:

Q1 = P25

Me = P50

Q3 = P75

El clculo de los percentiles se realiza con la ayuda de la grfica de frecuencias acumuladas.


As para el ejemplo de los pesos de la pgina 9:

P90 90 % de 120 = 108 P90 = 90 kg.

6. Medidas de dispersin.

plo:

ara justificar la necesidad de las medidas de dispersin, consideremos el siguiente ejem-

Se ha aplicado a dos grupos de 8 alumnos cada uno un test de 100 preguntas sobre capacidad
numrica, obtenindose los siguientes resultados:
Grupo A
Grupo B

46
10

48
18

49
30

50
50

50
50

51
70

52
82

54
90

Si calculamos la media, mediana y moda de ambas distribuciones observaremos que son todas
iguales a 50:
Grupo A:

xA = Me = Mo = 50

Grupo B:

x B = Me = Mo = 50

En cambio, los dos grupos de alumnos son bien distintos: mientras que en el grupo A la mayora
de los alumnos han contestado prcticamente a la mitad de las preguntas, en el grupo B hay
alumnos que han contestado casi a la totalidad, y otros que han contestado muy pocas.
As pues, la investigacin acerca de una distribucin queda incompleta si slo se estudian las
medidas de centralizacin, siendo necesario conocer en qu medida los datos numricos estn
ms o menos agrupados o dispersos respecto de los valores centrales. A esto es a lo que se llama
dispersin.
Las medidas de dispersin ms utilizadas son: el rango o recorrido, el rango intercuartil, la
varianza y la desviacin tpica.

6.1. Rango o recorrido.


Se llama rango o recorrido de una distribucin a la diferencia entre el mayor y el menor valor
de la variable estadstica.
Por ejemplo, para el grupo A de alumnos el rango es: 54 46 = 8; para el grupo B el rango
es 90 10 = 80. Observamos cmo la distribucin del grupo A, con menor recorrido, est ms
concentrada o menos dispersa que la distribucin del grupo B.
El rango, aunque de clculo muy simple, presenta el inconveniente de que slo depende de los
dos valores extremos, bastando que uno de estos valores se separe mucho del resto para que el
recorrido se vea sensiblemente afectado.

13

E stadstica descriptiva
6.2. Rango intercuartil.

El rango intercuartil, o recorrido intercuartlico se define como la diferencia entre el tercer y


el primer cuartil:

R.I. = Q3 Q1

En este rango se encuentra, por tanto, el 50 % central de los datos:

50 %

25 %

25 %

Q1

Me

Q3

Una forma grfica de representar la mediana, los cuartiles y el rango de una distribucin, son
los llamados grficos de caja y bigotes. En ellos aparecen representados los cinco valores siguientes:
valor mnimo, primer cuartil, mediana, tercer cuartil y valor mximo.
Para trazarlos se marca una escala que cubra el recorrido del conjunto de datos. Segn dicha
escala se traza un rectngulo o caja que tiene por extremos los cuartiles, sealando en su interior
la mediana. Fuera de la caja se trazan dos segmentos que van hasta el valor mnimo y el mximo:

Min

Max

Q1

Me

Q3

La longitud de de la caja corresponde al rango intercuartil. Si la mediana est en el centro


de la caja la distribucin es simtrica. Si est prxima al extremo derecho, es asimtrica hacia la
izquierda, y cuando est prxima al extremo izquierdo la asimetra es hacia la derecha. Cuanto
ms alargado es el rectngulo, mayor es la dispersin respecto de la mediana.
Los grficos de caja y bigotes nos permiten contrastar y comparar valores de una variable en
distintos grupos o en distintas muestras.
Ejemplo
Se han anotado las edades de los padres y madres de un grupo de alumnos:
Padres:

35

39

41

41

43

43

43

44

46

48

48

50

53

55

57

Madres: 36

37

37

39

39

40

41

42

45

46

47

50

50

50

56

Para los padres:


Para las madres:

Q1 = 42
Q1 = 39

Me = 45
Me = 42

58

Q3 = 51, 5
Q3 = 50

Padres

Madres
|

25

30

35

40

45

50

55

60

65

En los dos casos hay asimetra a la derecha.


Hay ms concentracin de datos (menos dispersin) en las madres.
Las cajas son de amplitud semejante, pero ms a la izquierda en las madres (ms
jvenes), y su mediana es inferior en 3 aos a la de los padres.
El 50 % de edades fuera de la caja presenta ms amplitud (ms dispersin) en los padres.

14

E stadstica descriptiva

6.3. Varianza y desviacin tpica.


El rango y el rango intercuartil tienen el problema de que slo se utilizan dos valores en su
clculo. Por ello son ms utilizados unos parmetros de dispersin en cuyo clculo intervienen
todos los valores de la variable: la varianza y la desviacin tpica.
La varianza se define como la media aritmtica de las desviaciones al cuadrado de cada
valor de la variable respecto a la media:

la desviacin de cada valor xi de la variable respecto a la media est dado por xi x.


P
(xi x) fi
la media de todas ellas podra parecer ya una medida de dispersin:
. Sin
N
embargo, algunas desviaciones sern positivas y otras negativas, y al sumarlas podran
anularse mutuamente. Por ello, se elevan previamente al cuadrado (con lo que ya son
todas positivas), as obtenemos la frmula de la varianza (representada por s2 ):

s2 =

P
(xi x)2 fi
N

Cuanto ms alejados estn los datos de la media, mayores sern los valores (xi x)2 ,
y mayor ser la varianza.
La varianza tiene el inconveniente de que las unidades en que se mide la variable vienen
dadas al cuadrado, con lo cual, en algunas ocasiones, un mayor valor de la varianza no
significa una mayor dispersin de los datos, sino una mayor magnitud de los mismos.
Con objeto de rectificar la necesidad de elevar al cuadrado, y poder manejar la dispersin en
las mismas unidades y orden de magnitud que la variable a la que se refieren, se introduce
la llamada desviacin tpica, que se define como la raz cuadrada positiva de la varianza (se
representa por s):

rP
(xi x)2 fi
s=
N
La expresin de la varianza (y de la desviacin tpica) tiene el inconveniente de que con
frecuencia x no suele ser un nmero entero, y entonces las diferencias xi x son decimales; en
ese caso, las operaciones de elevar al cuadrado y multiplicar por la frecuencia se pueden hacer
muy laboriosas. No obstante, aplicando las propiedades de los sumatorios se puede demostrar que
la frmula de la varianza es equivalente a la siguiente:
2

s =

x2i fi
x2
N

s=

x2i fi
x2
N

En el caso de variables continuas agrupadas en clases, como valor de xi se toma la marca de


clase correspondiente.
Ejemplo

xi

fi

xi fi

1
2
3
4
5

1
2
4
2
1

1
4
12
8
5

N = 10

= 30

x2i fi

1
8
36
32
25
P
= 102

xi fi 30
=
=3
N
10
P 2
xi fi
102
2
s =
x2 =
9 = 1, 2
N
10

s = 1, 2 = 1, 10
x =

Igual que existe una diferencia de notacin entre la media de la poblacin () y la de la


muestra ( x), tambin la hay entre la desviacin tpica muestral ( s) y poblacional ().

15

E stadstica descriptiva
6.4. Significado del valor de la desviacin tpica

La desviacin tpica depende del valor de la media, y adems utiliza todos los valores de la
variable. Por tanto, datos muy extremos (anormalmente altos o bajos) pueden modificarla considerablemente.
As, al igual que ocurre con la media, es una medida de dispersin apropiada cuando las
distribuciones son simtricas o aproximadamente simtricas. Para distribuciones fuertemente asimtricas son ms representativos el rango intercuartil y los percentiles para medir la dispersin.
En el caso de distribuciones simtricas tomadas de muestras muy grandes (gran nmero de
datos) se verifica:

+ + 2

+ 3

68,2 %
95,4 %
99,7 %

aproximadamente el 68 % de los datos no se alejan de la media ms de una desviacin


tpica.
aproximadamente el 95 % de los datos caen entre dos desviaciones tpicas a ambos lados de
la media.
aproximadamente el 97,7 % de los datos no se alejan de la media ms de tres desviaciones
tpicas.

7. Uso de la calculadora grfica en estadstica

nstrucciones para la calculadora CASIO fx-9750G PLUS y similares.

Men STAT.
Introducir datos en List 1, y si hay frecuencias mayores que 1, introducir stas en List 2.
F2 (CALC) F6 (SET): comprobar en qu listas estn los datos de la variable y las frecuencias. Si las frecuencias son todas igual a 1, indicarlo en 1VarFreq. Despus: EXIT.

F1 (1VAR): aparecen calculados diversos parmetros estadsticos. Despus, EXIT dos veces.
F1 (GRPH) F6 (SET): indicar qu grfico vamos a usar (1, 2 o 3), el tipo de grfico y las
listas a usar.

F4 (SEL): seleccionar qu grficos se van a dibujar.


F1, F2 o F3: visualizar el grfico o los grficos.
Para hallar la columna de las frecuencias acumuladas:
ponemos el cursor en el nombre de la lista donde deseamos que aparezcan (por ejemplo,
List 3).

OPTN F1 (LIST) F6 (dos veces) F3 (Cuml) F6 F1 (List) introducir


nmero de la lista donde se encuentran las frecuencias absolutas EXE.

S-ar putea să vă placă și