Documente Academic
Documente Profesional
Documente Cultură
Conceptos bsicos:
Poblacin: Conjunto de individuos que presentan una o varias caractersticas en comn. Esto
es, el conjunto objeto de estudio. Por ejemplo:
Todos los habitantes de una determinada ciudad.
Las piezas fabricadas por una misma mquina.
Todos los enfermos de una misma enfermedad.
Cmo podemos estudiar las poblaciones?
mediante un censo o estudio exhaustivo que consiste en observar todos y cada uno de
los individuos que integran la poblacin.
por muestreo que consiste en estudiar un subconjunto representativo de la poblacin que
se llama muestra. Se suele considar una muestra porque no siempre es posible estudiar
exhaustivamente toda la poblacin por motivos de tiempo, coste econmico u otro tipo de
dificultad.
Caracterstica: Propiedad que deseamos observar entre los elementos de la poblacin. Los
diferentes estados o valores que presenta una caracterstica se suelen llamar modalidades de
la caracterstica.
Atendiendo a la caracterstica que se estudia, sta puede clasificarse en:
caracterstica cualitativa, categrica o atributo: representa una cualidad del individuo.
caracterstica cuantitativa: aquellas caracterstica que toman valores numricos. A las
caractersticas cuantitativas tambin se les llaman variables estadsticas y se dividen en:
variables estadsticas discretas: aquellas que toman un nmero finito o infinito
numerable de valores.
variables estadsticas continuas: aquellas que toman un nmero no numerable de
valores.
Ejemplo: Para los habitantes de una determinada ciudad se pueden estudiar las caractersticas:
sexo, estado civil, profesin, edad, estatura, nivel de estudios,....
Una vez que hemos clasificado la caracterstica que estudiamos, el siguiente paso es ordenar y
presentar los datos en tablas y grficos con el fin de resumir la informacin que contienen.
_______________________________________________________________________________________
Distribucin de frecuencias:
Supongamos que tenemos una muestra de tamao (que puede tomar ( ) modalidades
o valores):
1 2
Frecuencia absoluta de la modalidad , : nmero de veces que aparece en la muestra.
Se verifica que:
1 + 2 + + =
Frecuencia relativa de la modalidad , : proporcin de veces que aparece en la muestra,
esto es
frecuencia absoluta,
1
2
frecuencia relativa,
1
2
totales
Ejemplo: Clasificacin de las doradas del Mar Menor segn su sexo (atributo)
sexo frecuencia absoluta,
10
17
totales
27
frecuencia relativa,
1027 ' 037
1727 ' 063
1
Ejemplo: Clasificacin de las doradas del Mar Menor segn la longitud (variable cuantitativa
que toma pocos valores)
longitud fr. absoluta,
1
6
2
5
3
6
4
4
5
6
totales
27
fr. relativa,
022
019
022
015
022
1
_______________________________________________________________________________________
Ejemplo: Clasificacin de las doradas del Mar Menor segn el peso (variable cuantitativa que
toma muchos valores). En estos casos, para un mejor y ms cmodo manejo de datos se suele
agrupar los datos en intervalos de clase (con igual amplitud):
Nmero de intevalos de clase
El nmero entero ms prximo por exceso a
20.
Regla de Sturges:
= 1 + 2
Amplitud =
max min
1 +
, como representante de todas las observaciones de
2
_______________________________________________________________________________________
peso
[05 192]
(192 334]
(334 476]
(476 618]
(618 76]
(76 902]
totales
marcas de
clase,
121
263
405
547
689
831
frecuencia
absoluta,
6
5
2
4
4
6
27
fr. absoluta
acumulada,
6
11
13
17
21
27
frecuencia
relativa,
022
019
007
015
015
022
1
fr. relativa
acumulada,
022
041
048
063
078
1
Representaciones grficas
Las represntaciones grficas proporcinan una sntesis visual de la distribucin de frecuencias. Las
grficas ms utilizadas son las siguientes:
Caractersticas cualitativas:
Diagrama de Pareto: En el eje de abscisas se asocia a cada modalidad un rectngulo de
base constante y de altura proporcional a la frecuencia correspondiente (las modalidades
se suelen disponer en orden decreciente segn su frecuencia de aparicin).
m = 2 037
HISTOGRAMA
6
Frecuencia
5
4
3
2
1
0
0.50
1.92
3.34
4.76
PESO
6.18
7.60
9.02
Nota: A partir de ahora, salvo que se diga lo contrario, nos centraremos en datos cuantitativos no agrupados; esto es,
muestra de tamao n: 1 2
A continuacin vamos a definir medidas numricas que describen los aspectos ms relevantes de
la distribucin de frecuencias. Estas caractersticas se clasifican segn la informacin que tratan
de resumir en:
Medidas de posicin o localizacin: describen cmo se comportan globalmente los
datos y localizan la distribucin de frecuencias.
Medidas de dispersin: miden la variabilidad de los datos entre s o respecto de una
medida de centralizacin.
_______________________________________________________________________________________
4.1
4.1.1
Medidas de Posicin
Medidas de Posicin Central
=1
Si los datos estn agrupados en intervalos de clase, se toman como observaciones las marcas
de clase, esto es:
P
= 1
=1
_______________________________________________________________________________________
(dato central)
si es IMPAR
si es PAR
( +1 )
2
( )+ (( )+1)
2
Si los datos estn agrupados en intervalos de clase, hablamos de intervalo mediano como
el primer intervalo de clase cuya frecuencia absoluta acumulada es 2 . Si necesitamos un
valor numrico para la mediana, podemos tomar la marca de clase del intervalo mediano.
Moda, : Valor de la variable que presenta mayor frecuencia. Existe para datos cualitativos.
Si los datos estn agrupados en intervalos de clase, hablamos de intervalo modal como
aquel que presenta mayor frecuencia. Si necesitamos un valor numrico para la moda,
podemos tomar la marca de clase del intervalo modal.
Notar que puede existir ms de una moda, as como no existir.
Puede no situarse en el centro de la distribucin de frecuencias.
4.1.2
6.1
7 72
78 81
7.5
8.6
89 9
4.2
4.2.1
Medidas de Dispersin
Medidas de Dispersin Absoluta
Rango o recorrido: Amplitud del intevalo donde se encuentran distribuidas todas las
observaciones.
= max min
Es muy sensible a valores extremos.
Rango Intercuartlico: Amplitud del intevalo donde se encuentran distribuidas el 50%
de las observaciones.
= 3 1
Varianza: Medida de dispersin asociada la media aritmtica y se define por:
2 = () =
1
1
( )2 =
=1
(2
1
2 )
_______________________________________________________________________________________
Si los datos estn agrupados en intervalos de clase, se toman como observaciones las marcas
de clase, esto es:
2 = () =
1
1
( )2 =
=1
(2
1
2 )
La varianza viene dada en unidades al cuadrado, mientras que la desviacin tpica viene
en las mismas unidades fsicas de los datos.
Importante:
Como la media, es muy sensible a valores extremos.
No es sensible a traslaciones.
Es sensible a cambios de escala.
4.2.2
_______________________________________________________________________________________
10
4.3
Medidas de Forma
( )3
=1
Una distribucin de frecuencias es simtrica si su correspondiente representacin grfica (diagrama de barra o histograma) es simtrica respecto de un eje vertical ( ' 0).
240
160
80
0
0.5
1.5
2.5
3.5
4.5
5.5
6.5
7.5
8.5
9.5
10.5
11.5
_______________________________________________________________________________________
11
40
32
24
16
0
1.5
2.5
3.5
4.5
5.5
6.5
7.5
8.5
48
40
32
24
16
0
0.5
1.5
2.5
3.5
4.5
5.5
6.5
7.5
8.5
_______________________________________________________________________________________
12
Existencia o no de datos atpicos o anmalos que son datos que a simple vista se
encuentran muy alejados del resto de los datos (en el apartado siguiente veremos una forma
para identificarlos). Estos valores pueden ser debidos a un error de medida o de transcripcin de los datos o corresponde a un verdadero valor de la variable.
Distribucin asimtrica con existencia de valores extremos
60
40
20
0
0
35
28
21
14
0
41
44
47
50
53
56
59
62
65
68
71
74
77
80
83
86
89
92
95
_______________________________________________________________________________________
13
Es un resumen grfico que permite visualizar, para un conjunto de datos, la tendencia central,
la dispersin y la presencia de valores extremos. Otra caracterstica de este tipo de grfico es
que nos da informacin sobre la asimetra del conjunto de datos.
La mayor utilidad de los diagramas de caja y bigotes es para comparar dos o ms conjuntos de
datos.
Un diagrama de caja y bigotes se construye de la siguiente manera:
1. Ordenamos los datos de la muestra de menor a mayor y obtenemos los tres cuartiles.
2. Dibujamos un rectngulo cuyos extremos son 1 y 3 y dividimos el rectngulo por un
segmento central a la altura de la
3. Calculamos los lmites superior e inferior admisibles que nos servirn para identificar los
datos atpicos. stos son:
= 3 + 15
= 1 15
Clasificamos como datos atpicos aquellas observaciones situadas fuera del intervalo
[1 15 3 + 15 ]
4. Los segmentos 15 (llamados bigotes) se acortan hasta: el dato del conjunto inmediatamente superior a 1 15 para el bigote inferior, esto es, hasta el
tal que 1 15 ; y el dato inmediatamente anterior a 3 + 15 para el
bigote superior, esto es, hasta el tal que 3 + 15 .
_______________________________________________________________________________________
14
Max.{xi / xi Q3+1.5RIQ}
2.0
1.8
Q3
1.6
Me
1.4
1.2
1.0
Q1
Min.{xi / xi Q1-1.5RIQ}
RIQ = Q3 -Q1
Cuando existen datos atpicos en el conjunto, representamos los datos atpicos como puntos
Dato atpico
3.7
2.8
1.9
1.0
Diagrama de caja y bigote mltiple, cuando lo utilizamos para comparar dos o ms conjuntos de datos:
_______________________________________________________________________________________
15
104
97
90
X
_______________________________________________________________________________________
16
_______________________________________________________________________________________
17