Documente Academic
Documente Profesional
Documente Cultură
descriptiva
1. Introduccin.
a Estadstica se ocupa del estudio de los experimentos aleatorios, es decir, aquellos cuyos
resultados no pueden predecirse de antemano.
El experimento generalmente consiste en la observacin de alguna caracterstica sobre los
elementos de cierto conjunto. Por ejemplo:
queremos saber cul es la duracin media de las bombillas que se producen en una determinada fbrica; etc.
E stadstica descriptiva
2. En segundo lugar, hay que realizar un anlisis de la informacin contenida en la muestra,
y obtener conclusiones y predicciones que puedan extenderse a toda la poblacin. De esta
fase se ocupa la INFERENCIA ESTADSTICA.
omo se mencion anteriormente, cada uno de los individuos de una poblacin o muestra
pueden describirse segn uno o varios caracteres.
CARCTER ESTADSTICO: es una propiedad que permite clasificar a los individuos de la
poblacin o muestra.
Se distinguen dos tipos generales de caracteres estadsticos:
Cualitativos: son aquellos que no pueden ser medidos. Por ejemplo: color de ojos, sexo,
profesin, etc.
Cuantitativos: son aquellos que se pueden medir o contar. Por ejemplo: peso, talla, nmero
de hermanos, dimetro de una pieza, temperatura, etc. A todos ellos se les puede asignar un
valor numrico.
VARIABLE ESTADSTICA: es el conjunto de todos los valores numricos que puede tomar
un carcter estadstico cuantitativo.
A su vez, las variables estadsticas pueden ser discretas o continuas:
Discretas: son las que toman valores numricos exactos (generalmente nmeros enteros),
y suelen ser resultado de un recuento. Por ejemplo: nmero de empleados de una fbrica,
nmero de discos vendidos durante un da en una tienda, nmero de hijos en las familias
de una ciudad, etc.
Continuas: son las que pueden tomar, al menos tericamente, todos los valores posibles
dentro de un cierto intervalo de la recta real; suelen ser el resultado de una medicin. Por
ejemplo: velocidad de un coche en km/h, presin sangunea de los enfermos de un hospital,
peso de los habitantes de Gijn, dimetro de las piezas producidas por una mquina, etc.
No alumnos ( fi )
1
2
1
4
6
15
4
3
2
1
1
Total: N = 40
hi
1/40
2/40
1/40
4/40
6/40
15/40
4/40
3/40
2/40
1/40
1/40
40/40 = 1
E stadstica descriptiva
La variable estadstica nota la representaremos por X , y toma los valores:
X = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
Se trata, por tanto, de una variable discreta.
A cada uno de los valores que toma la variable estadstica se le representa por x1 , x2 ,. . . xn , en
general, por xi .
Cada uno de estos valores puede repetirse un determinado nmero de veces. Por ejemplo, xi = 4
se repite 6 veces.
FRECUENCIA ABSOLUTA del valor xi es el nmero de veces que se repite. Se representa
por fi .
Observemos que: f1 + f2 + + fn = N , o abreviadamente:
fi = N
Es decir, la suma de todas las frecuencias absolutas es igual al nmero total de datos.
FRECUENCIA RELATIVA del valor xi es el cociente entre la frecuencia absoluta fi y el
nmero total de datos. Se representa por hi .
hi =
fi
N
Observemos que:
hi = 1
Las frecuencias relativas pueden darse en forma de fraccin, en forma decimal o en tanto por
ciento. Por ejemplo:
4
1
=
= 0, 1 = 10 %
40
10
DISTRIBUCIN DE FRECUENCIAS: es el conjunto de todos los posibles valores de la variable, ordenados de menor a mayor, con sus correspondientes frecuencias.
La representacin de las distribuciones de frecuencias puede hacerse de forma tabular, o de
forma grfica.
xi
x1
x2
..
.
fi
f1
f2
..
.
xn
fn
E stadstica descriptiva
Talla (m)
no alumnos ( fi )
marcas de clase
[1, 55 1, 60)
[1, 60 1, 65)
[1, 65 1, 70)
[1, 70 1, 75)
[1, 75 1, 80)
4
18
14
3
1
N = 40
1,575
1,625
1,675
1,725
1,775
En este caso, la variable estadstica talla es continua, y toma valores dentro del intervalo
A los extremos de los intervalos se les llama lmites inferior y superior; la amplitud de la
clase es la diferencia entre el lmite superior y el inferior (0,05 m en el ejemplo). Normalmente se
tiende a formar intervalos de igual amplitud. Esta amplitud depender del nmero de datos y de
la precisin que se requiera en el estudio; en general, cuanto ms estrechos sean los intervalos,
mayor precisin se obtendr, pero el tratamiento de los datos ser ms trabajoso.
Los lmites superior de un intervalo e inferior del siguiente no deben solaparse. As, en el
ejemplo, un individuo de talla 1,60 m sera asignado al segundo intervalo, no al primero.
Al punto medio de cada intervalo se le llama marca de clase (ver tabla anterior). Este valor ser
el que se utilice como representacin del intervalo para el clculo de los parmetros estadsticos,
segn veremos ms adelante.
fi
15
10
5
xi
La suma de las longitudes de las barras ser N o 1, dependiendo de si las frecuencias
representadas son absolutas o relativas.
histogramas: se representan sobre el eje de abscisas las amplitudes de los intervalos, y
despus se construyen unos rectngulos que tienen de base la amplitud del intervalo, y de
altura, la frecuencia del mismo.
Por ejemplo, para la distribucin de frecuencias de las tallas de 40 alumnos tendremos:
E stadstica descriptiva
fi 20
15
10
5
1,55
1,60
1,65
1,70
1,75
1,80
xi
simtricas:
******************************
An cuando las tablas estadsticas y las representaciones grficas dan una idea exhaustiva del
comportamiento de una distribucin de frecuencias, resulta conveniente resumir el conjunto de
datos mediante unos valores numricos que caractericen a la distribucin. Estos valores son los
parmetros estadsticos.
Hay dos grandes grupos de parmetros estadsticos:
medidas de tendencia central o centralizacin.
medidas de dispersin.
Tambin veremos otras medidas llamadas de posicin, relacionadas con los dos tipos anteriores.
E stadstica descriptiva
4. Medidas de centralizacin.
e llaman as porque representan un valor alrededor del cual se acumulan u oscilan los
valores de la variable. Las tres ms empleadas son: media aritmtica, mediana y moda.
4.1. Moda.
Se llama moda de una distribucin de frecuencias al valor de la variable que presenta mayor
frecuencia absoluta. Para el caso de una variable continua, con los valores agrupados en clases,
hablaremos de intervalo modal. Se representa por Mo .
Para los dos ejemplos anteriores:
Notas: Mo = 5.
Estaturas: Mo = [1, 60; 1, 65).
La moda no tiene por qu ser nica, y la distribucin puede ser bimodal, trimodal, etc, segn
tenga dos, tres, etc, modas.
La moda es el nico parmetro que tiene sentido en el caso del estudio de caracteres cualitativos.
x1 f1 + x2 f2 + + xk fk
x =
=
N
xi fi
N
Para calcular la media, conviene aadir en la tabla de frecuencias una columna con los
valores de los productos xi fi .
Ejemplo
La tabla adjunta muestra la distribucin de notas de los alumnos de una clase:
xi
fi
xi fi
5
6
7
8
9
10
1
2
4
7
4
2
5
12
28
56
36
20
N = 20
x =
xi fi 157
=
= 7, 85
N
20
xi fi = 157
Para datos de variable continua, agrupados en clases, se toma la marca de clase como valor
representativo de la misma (es decir, como valor de xi ) para calcular la media. Con ello,
se realiza la simplificacin de asumir que todos los individuos de cada clase presentan el
mismo valor de la variable; de todos modos, el error que se comete con ello es pequeo,
especialmente si los datos son numerosos.
E stadstica descriptiva
Ejemplo
La tabla adjunta muestra la distribucin de pesos de los alumnos de una clase:
Peso (kg)
[50 56)
[56 62)
[62 68)
[68 74)
[74 80)
marcas xi
53
59
65
71
77
fi
xi fi
12
25
18
9
6
636
1475
1170
639
462
P
= 4382
N = 70
x =
xi fi 4382
=
= 62, 6 kg.
N
70
4.3. Mediana.
La mediana es el valor que ocupa la posicin central cuando el conjunto de datos se ordena
en forma creciente; por tanto existe igual nmero de observaciones mayores que menores que la
mediana. Se representa por Me .
Si la variable es discreta y el nmero de observaciones no es elevado, el clculo de la
mediana se realiza del siguiente modo: se ordenan los datos de menor a mayor (incluyendo
las repeticiones si las hay); si su nmero es impar, la mediana es el valor central; si es par,
se toma como mediana la media aritmtica de los dos valores centrales.
Ejemplos
1. Sean los datos:
5 5 6
9
7+1
= 4 posicin 4a .
2
Me = 5
N = 8 (par); como
5 5 6
10
8+1
= 4, 5 los dos valores centrales son el 4o y el 5o .
2
3
10
Me = 5, 5
Cuando se trata de datos discretos dados mediante una tabla de frecuencias, para calcular la
mediana conviene aadir a la tabla otra columna con las llamadas frecuencias acumuladas.
La frecuencia acumulada de un valor xi es la suma de las frecuencias absolutas de todos
los valores de la variable inferiores o igual a xi . Se representa por Fi . Las frecuencias
acumuladas facilitan la localizacin del valor o valores que ocupan la posicin central.
E stadstica descriptiva
Ejemplos
1.
xi
fi
Fi
5
6
7
8
9
12
18
20
15
5
N = 70
12
30
50
65
70
Me =
2.
3.
xi
fi
Fi
2
3
4
5
6
7
2
10
13
10
8
6
N = 49
2
12
25
35
43
49
xi
fi
Fi
3
6
7
8
9
15
20
15
40
10
N = 100
15
35
50
90
100
7+7
=7
2
si estos puntos se unen mediante lneas rectas, se obtiene el llamado polgono de fre-
cuencias acumuladas. Con ello se hace la simplificacin de suponer que las frecuencias
acumuladas en el interior de cada intervalo se comportan de forma lineal.
si los puntos se unen mediante una curva suave, se obtiene la llamada curva de fre-
E stadstica descriptiva
Ejemplo
La siguiente tabla representa los pesos de 120 individuos:
Kg
[55, 60)
[60, 65)
[65, 70)
[70, 75)
[75, 80)
[80, 85)
[85, 90)
[90, 95)
[95, 100)
[100, 105)
fi
Fi
2
2
3
5
12
17
14
31
19
50
37
87
22
109
8
117
2
119
1
120
Fi
110 +
100 +
90 +
80 +
70 +
60 +
50 +
40 +
30 +
20 +
10 +
55
60
65
70
75
80
85
Me
90
95
100
105
Peso (kg)
Me 81, 5 kg
Cuntos individuos pesarn menos de 73 kg?
De la grfica se obtiene: 26 individuos.
Cuntos pesarn ms de 91 kg?
De la grfica se obtiene que 110 individuos pesan menos de 91 kg. Luego, ms
de 91 kg sern: 120 110 = 10 individuos.
10
E stadstica descriptiva
63
63
64
66
Me =
69
66 + 69
2
70
70
71
72
= 67, 5
63
63
64
66
Me =
69
66 + 69
2
70
70
71
350
= 67, 5
Pero la media ahora es x = 94, 7. Para este segundo conjunto de datos, la mediana representa
mejor la tendencia central.
En general:
Me = x
Me
Me
5. Medidas de posicin.
5.1. Cuartiles.
La mediana divide a los datos ordenados en dos mitades; a su vez, cada una de estas mitades
se dividen en dos partes iguales mediante los cuartiles:
el cuartil inferior o primer cuartil (Q1 ) es el valor de la variable que deja por debajo un 25 %
de los datos.
11
E stadstica descriptiva
el cuartil superior o tercer cuartil (Q3 ) es el valor de la variable que deja por debajo un 75 %
de los datos.
Por tanto, los cuartiles Q1 y Q3 y la mediana dividen al conjunto de datos en cuatro partes iguales:
25 %
25 %
25 %
25 %
Q1
Me
Q3
Ejemplos
1.
xi
fi
Fi
2
3
4
5
6
7
8
9
1
3
2
4
3
2
1
1
1
4
6
10
13
15
16
17
N = 17
Como
5o :
3+4
= 3, 5
2
La segunda mitad consta de los datos 10o al 17o .
Q1 =
Como
el 14o :
10 + 17
= 13, 5 los dos centrales ser el 13o y
2
Q3 =
2.
xi
fi
Fi
2
3
4
5
6
7
8
9
10
11
13
2
1
2
2
2
2
3
1
1
1
1
2
3
5
7
9
11
14
15
16
17
18
Me =
6+7
= 6, 5
2
Me =
6+7
= 6, 5
2
1+9
= 5 el central ser el 5o : Q1 = 4.
2
10 + 18
= 14 el central ser el 14o : Q3 = 8.
2
N = 18
3. Para la distribucin de los pesos de 120 individuos (ver grfico en la pgina 9):
12
E stadstica descriptiva
5.2. Percentiles.
Se llama percentil P al valor de la variable que deja por debajo un % de los datos.
Por ejemplo, el percentil 90 es el valor de la variable tal que un 90 % de los datos son inferiores
o iguales a l.
En realidad, los cuartiles y la mediana son casos particulares de percentiles:
Q1 = P25
Me = P50
Q3 = P75
6. Medidas de dispersin.
plo:
Se ha aplicado a dos grupos de 8 alumnos cada uno un test de 100 preguntas sobre capacidad
numrica, obtenindose los siguientes resultados:
Grupo A
Grupo B
46
10
48
18
49
30
50
50
50
50
51
70
52
82
54
90
Si calculamos la media, mediana y moda de ambas distribuciones observaremos que son todas
iguales a 50:
Grupo A:
xA = Me = Mo = 50
Grupo B:
x B = Me = Mo = 50
En cambio, los dos grupos de alumnos son bien distintos: mientras que en el grupo A la mayora
de los alumnos han contestado prcticamente a la mitad de las preguntas, en el grupo B hay
alumnos que han contestado casi a la totalidad, y otros que han contestado muy pocas.
As pues, la investigacin acerca de una distribucin queda incompleta si slo se estudian las
medidas de centralizacin, siendo necesario conocer en qu medida los datos numricos estn
ms o menos agrupados o dispersos respecto de los valores centrales. A esto es a lo que se llama
dispersin.
Las medidas de dispersin ms utilizadas son: el rango o recorrido, el rango intercuartil, la
varianza y la desviacin tpica.
13
E stadstica descriptiva
6.2. Rango intercuartil.
R.I. = Q3 Q1
50 %
25 %
25 %
Q1
Me
Q3
Una forma grfica de representar la mediana, los cuartiles y el rango de una distribucin, son
los llamados grficos de caja y bigotes. En ellos aparecen representados los cinco valores siguientes:
valor mnimo, primer cuartil, mediana, tercer cuartil y valor mximo.
Para trazarlos se marca una escala que cubra el recorrido del conjunto de datos. Segn dicha
escala se traza un rectngulo o caja que tiene por extremos los cuartiles, sealando en su interior
la mediana. Fuera de la caja se trazan dos segmentos que van hasta el valor mnimo y el mximo:
Min
Max
Q1
Me
Q3
35
39
41
41
43
43
43
44
46
48
48
50
53
55
57
Madres: 36
37
37
39
39
40
41
42
45
46
47
50
50
50
56
Q1 = 42
Q1 = 39
Me = 45
Me = 42
58
Q3 = 51, 5
Q3 = 50
Padres
Madres
|
25
30
35
40
45
50
55
60
65
14
E stadstica descriptiva
s2 =
P
(xi x)2 fi
N
Cuanto ms alejados estn los datos de la media, mayores sern los valores (xi x)2 ,
y mayor ser la varianza.
La varianza tiene el inconveniente de que las unidades en que se mide la variable vienen
dadas al cuadrado, con lo cual, en algunas ocasiones, un mayor valor de la varianza no
significa una mayor dispersin de los datos, sino una mayor magnitud de los mismos.
Con objeto de rectificar la necesidad de elevar al cuadrado, y poder manejar la dispersin en
las mismas unidades y orden de magnitud que la variable a la que se refieren, se introduce
la llamada desviacin tpica, que se define como la raz cuadrada positiva de la varianza (se
representa por s):
rP
(xi x)2 fi
s=
N
La expresin de la varianza (y de la desviacin tpica) tiene el inconveniente de que con
frecuencia x no suele ser un nmero entero, y entonces las diferencias xi x son decimales; en
ese caso, las operaciones de elevar al cuadrado y multiplicar por la frecuencia se pueden hacer
muy laboriosas. No obstante, aplicando las propiedades de los sumatorios se puede demostrar que
la frmula de la varianza es equivalente a la siguiente:
2
s =
x2i fi
x2
N
s=
x2i fi
x2
N
xi
fi
xi fi
1
2
3
4
5
1
2
4
2
1
1
4
12
8
5
N = 10
= 30
x2i fi
1
8
36
32
25
P
= 102
xi fi 30
=
=3
N
10
P 2
xi fi
102
2
s =
x2 =
9 = 1, 2
N
10
s = 1, 2 = 1, 10
x =
15
E stadstica descriptiva
6.4. Significado del valor de la desviacin tpica
La desviacin tpica depende del valor de la media, y adems utiliza todos los valores de la
variable. Por tanto, datos muy extremos (anormalmente altos o bajos) pueden modificarla considerablemente.
As, al igual que ocurre con la media, es una medida de dispersin apropiada cuando las
distribuciones son simtricas o aproximadamente simtricas. Para distribuciones fuertemente asimtricas son ms representativos el rango intercuartil y los percentiles para medir la dispersin.
En el caso de distribuciones simtricas tomadas de muestras muy grandes (gran nmero de
datos) se verifica:
+ + 2
+ 3
68,2 %
95,4 %
99,7 %
Men STAT.
Introducir datos en List 1, y si hay frecuencias mayores que 1, introducir stas en List 2.
F2 (CALC) F6 (SET): comprobar en qu listas estn los datos de la variable y las frecuencias. Si las frecuencias son todas igual a 1, indicarlo en 1VarFreq. Despus: EXIT.
F1 (1VAR): aparecen calculados diversos parmetros estadsticos. Despus, EXIT dos veces.
F1 (GRPH) F6 (SET): indicar qu grfico vamos a usar (1, 2 o 3), el tipo de grfico y las
listas a usar.