Sunteți pe pagina 1din 19

Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg.

1
3 Caractersticas asociadas a una distribucin de frecuencias.
3.1 Medidas de tendencia central.
3.1.1 Mediana
3.1.1.a Caso no agrupado.
3.1.1.b Caso agrupado.
3.1.2 Moda.
3.1.3 Media aritmtica.
3.1.4 Relacin entre la media, mediana y moda.
3.1.5 Otras medidas de tendencia central.
3.1.5.a Media geomtrica.
3.1.5.b Media armnica.
3.1.5.c Media cuadrtica.
3.1.5.d Comparacin de las diversas medias.
3.2 Caractersticas de dispersin.
3.2.1 Desviacin absoluta media.
3.2.2 Varianza. Desviacin tpica. Cuasivarianza.
3.2.3 Coeficiente de variacin de Pearson.
3.2.4 Cuartiles. Recorrido intercuartlico. Recorrido.
3.2.5 Momentos.
3.2.6 ndice de diversidad.
3.3 Caractersticas de forma.
3.3.1 Coeficiente de simetra.
Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg. 2
3.3.2 Coeficiente de curtosis.
3.4 Introduccin a los outliers.
3.4.1 Errores en las observaciones muestrales.
3.4.2 Mtodos simples de identificacin de outliers.
3.4.2.a Mtodo basado en la desviacin tpica.
3.4.2.b Mtodo basado en el recorrido intercuartlico.
3.4.3 Mtodos simples de acomodacin de outliers.
3.4.3.a Mtodo de recorte.
3.4.3.b Mtodo de reemplazamiento.
3.4.4 Diagrama de caja y bigotes.
3.1 Medidas de tendencia central.
Intentan representar los valores de una muestra o poblacin indicando dnde se localizan pero no cmo se
localizan. El estadsitico Yule indic una serie de condiciones ideales que deben cumplir para ser buenas:
3.1.1 Mediana.
Es aquel valor de la variable estadstica que divide en dos efectivos iguales a los datos supuestos
ordenados por valor creciente. Deja el 50% de las observaciones a la izquierda y el otro 50% a la derecha.
Me =x
i
/ F
i
=05
Propiedades de Yule:
1. Debe ser definida objetivamente a partir de los datos.
2. Debe depender de todas las observaciones que tiene la muestra o la poblacin.
3. Debe de tener un significado concreto, sencillo y fcil de entender.
4. Debe de ser de clculo fcil y rpido.
5. Debe de ser poco sensible a las fluctuaciones del muestreo.
6. Debe ser adecuado a los clculos algebraicos posteriores.
Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg. 3
3.1.1.a Caso no agrupado en intervalos.
Con n impar: Me x
n
=
+ F
H
G
I
K
J
1
2
Ejemplo: 2, 6, 3, 10, 7, 4, 11, 8, 10 n = 9
2, 3, 4, 6, 7, 8, 10, 10, 11
Me = x
(5)
= x
(10/2)
Con n par: Me
x x
n n
=
+
F
H
G
I
K
J
+ F
H
G
I
K
J
2
1
2
2
Ejemplo: 6, 2, 10, 7, 4, 11, 8, 10 n = 8
2, 4, 6, 7, 8, 10, 10, 11 Me = 75
Caso tabla de frecuencias no agrupada.
(a) 05 = F
i
/ [x
i
, x
i+1
) Me
x x
i i
=
+
+1
2
Ej:
Edad n
i
N
i
F
i
3 8 8 011
4 10 18 026
7 9 27 039
9 8 35 05
15 20 55 079
25 10 65 093
40 5 70 1
Me Me
x x
=
+
= =
+
=
9 15
2
12
2
12
35 36
;
( ) ( )
(b) F
i-1
< 05 < F
i
( | N
i-1
< n05 < N
i
| )
Edad N
i
N
i
F
i
3 8 8 011
4 7 15 021
7 12 27 038
9 20 47 066
15 4 51 072
25 11 62 087
40 9 71 1
Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg. 4
Caso tabla de frecuencias agrupada.
X
i
? / F
i
= 05
F
i-1
< 05 F
i
N
n
n N
i i
< =
F
H
G
I
K
J 1
2
0 5 ,
La Me pertenece a Me (e
i-1
, e
i
] intervalo mediano.
AB
CB
AD
DE
Me e x e
F
F F
a
x
F
a
F F
x
F
F F
a
F
f
a
n
N
N N
a
n
N
h
a
i i
i
i i
i
i
i
i i
i
i i
i
i
i
i
i
i i
i
i
i
i
=
= + = +

=

=

1 1
1
1 1 1
1
1
1
1
1
1
0 5
0 5
0 5 0 5
2 2
,
,
, ,
Ejemplo:
Me
I
n
I
Me
i
i
= +

=
< <
=
< = =
= +

=
30
0 5 0 37
0 67 0 37
5 33 4
0 37 0 5 0 67
30 35
250
2
386 450 30 35
30
386 250
200
5 33 4
, ,
, ,
,
, , ,
( , ]
( , ]
,
Intervalo mediano
Propiedades:
1) Yule: P1, P3, P4, P5
2) Es el valor que divide al histograma en 2 partes iguales. rea = n/2
3) La desviacin absoluta media es mnima respecto de la mediana.
d a x a f
n
x a
d Me d a
abs i
i
k
i i
i
n
abs a R abs
( )
( ) min ( )
= =
=
= =


1 1
1
q
( ) Me a x x x Me x x a x x
x a x a x a
x Me x Me x Me
m m k k n
i
i
n
i
i
m
i
i m
k
i
i
n
i
i
m
i
i m
k
<
= +
= +

= =

= =



1 2 1 1
1 1
1 1
1 1
1 1
K K K
e
i 1
M e e
i
e
i+ 1
F
i + 1
F
i

0 5
F
i 1
I
e
i-1
Me

e
i
D
E
C
A B
x
Gastos ni Ni Fi
(20, 25] 100 100 0,1295
(25, 30] 150 250 0,3238
(30, 35] 200 450 0,5829
(35, 40] 180 630 0,8161
(40, 45] 142 772 1,0000
Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg. 5
x a x Me
a x Me x a x x Me x a x Me
a Me
i
i
n
i
i
n
i i
i
m
i
m
a Me
i
i m
k
i m
k
a x Me
i i
i k
n
i k
n
Me a
i
m
i
i m
k
i k
n
=
=

= =
=

+
= =

=
1 1
1
1
1
1 1 1
2
1
1 1
( ) ( ) ( ) ( ) ( ) ( )
( )
( ) ( ) ( )
1 2 4444 3 4444 1 2 4444 3 4444 1 2 4444 3 4444
se le suma y se le resta
i=m
k-1

= + + + + =
= + + =
=

=
=

( ) a Me a x Me a Me Me a
m a Me n m a Me a x
i
i m
k
i
m
i m
n
i
i m
k
2
1 1 2
1
1
1
1
b g b g
b gb g b gb g b g b g
Dos posibles situaciones:
(a) n es par
(b) n es impar
= +
=
= =
= + + = +
F
H
G
I
K
J

= +

= +


m n m x Me x
a x
Me x m n m
a Me a Me a x a Me a x
m n
i
i m
k
m
i
i m
k
i
i m n
k
1 1
2 0
1
2 2 2 0
1
1
1
1
0
1
0
( )
( )
,
b g
b g b g b g b g b g b g
12 4 3 4
1 2 44 3 44
n
3.1.2 Moda
La moda de una variable estadstica es el valor/es que tiene/n asociada la frecuencia mxima.
Mo x n n
i i j
j k
= =
=
max
1K
(a) Mo = 15, n
i
= 20
(b) Mo = 9, n
9
=20 Si hay 2 mximos pues es bimodal y ya est.
Tabla de frecuencias agrupadas en intervalos (unimodal)
Intervalo modal intervalo ms alto del histograma I
i
= (e
i-1
, e
i
] h
i
Mo = e
i1
+ x
Los tringulos APC y BPD son semejantes (ngulos iguales)

1
= h
i
h
i1

2
= h
i
h
i+1
AC
MP
BD
NP x a x
a x x x a
Mo e x e a
i
i
i i i
= =

= + =
= + = +
+


,
,


1
1 2 1 2 1 1
1 1
1
1 2
1
b g b g
C
h
i
h
i+1
h
i-1
D
A B
I
i-1
Mo I
i+1
e
i-1
e
i
Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg. 6
Ejemplo:
Edad N
i
a
i
h
i
= n
i
/a
i
(0, 5] 44,3 5 8,86
(5, 15] 910,5 10 91,05
(15, 30] 1099,1 15 73,27
(30, 45] 912,7 15 60,8
(45, 65] 1217,9 20 60,9
(65, 75] 426,5 10 42,65
(75, 95] 218,0 20 10,9
4829
I
i
/ h
i
= max h
j
j=1,,k

1
= h
i
h
i1

2
= h
i
h
i+1
(5, 15] int. Modal
Mo = +
+
=
= =
= =
5
82 19
82 19 17 78
10 13 2
91 05 8 86 82 19
91 05 73 27 17 78
1
2
,
, ,
,
, , ,
, , ,

La moda cumple las propiedades de Yule: P1, P3, P4.


3.1.3 Media aritmtica.
Es la suma ponderada de todas las modalidades de la variable por sus respectuvas frecuencias relativas.
x x f
n
x n
i i i i
i
k
i
k
= =
= =

1
1 1
Si la tabla de frecuencias est agrupada en intervalos, se calcula con las marcas de clase.
Propiedades:
(1) Yule: P1, P2, P3, P4, P6.
(2)
x x f
i i
i
k
=
=

b g 0
1
q
x f x f x x f
i i i
i
k
i
k
i
i
k
= =
= = =
=

1 1 1
1
0
123
n
(3)
d a x a f
d x d a
cua i i
i
k
cua
a R
cua
( )
( ) min ( )
=
=
=

b g
2
1
Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg. 7
q
d a x a f x x x a f
x x f x a f x x x a f
d x x a f x a x x f d x x a d x
cua i i
x
i
i
k
i
i
k
i
i
k
i
i
k
i i i
i
k
cua i
i
k
i i
i
k
cua cua
( ) ( )
( )
= + =
= + + =
= + + = +
= =
= = =
= =

=


2
2
1 1
2
1 1
2
1
2
1
1
1
0
2
0
2
2
b g
b g b gb g
b g b g b g b g b g b g b g
123 1 2 44 3 44
12 4 3 4
n
(4) Sean a b R Y aX b aX b , = + = +
q
Y y f ax b f a x f b f
i i
i
k
i
i
k
i i
i
k
i
X
i
i
k
= = + = +
= = = =

1 1 1 1
1
b g
123 123
n
(5) Sean a b R aX bY aX bY , + = +
Por verificar las propiedades 4 y 5 se dice que la media tiene la propiedad de la linealidad.
(6) Calcular grficamente la media
X A B A x f B x f
i i
i x
i
i x
i
i i
= = =
> <

donde
0 0
q
x x f x f
i i
i i
i
k
i i
i x
A
x
i x
B
i
i
i
x f
= = +
=

<


1 0 0
12 4 3 4 1 2 4 3 4
n
Tabla de frecuencias no agrupada (Curva acumulada)
Ej: 1, 1, 2, 2, 2, 3, 4, 6, 6, 7
x
x
n
x
x n
n
x x f
i
i
k
i i
i
k
i i
k
= = =
=

= =
= =
=
=

1
1
1
34
10
3 4
34
10
3 4
3 4
,
,
,
x
i
n
i
x
i
n
i
f
i
x
i
f
i
1 2 2 02 02
2 3 6 03 06
3 1 3 01 03
4 1 4 01 04
6 2 12 02 12
7 1 7 01 07
10 34 1 34
Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg. 8
3.1.4 Relacin entre media, mediana y moda.
Bajo distribuciones unimodales x Mo x Me 3( )
w w w
Mo Me Media
| | |
Media Me Mo
El caso es que cumplen una simetra. Tambin se puede dar el caso en que las 3 sean iguales.
3.1.5 Otras medidas de tendencia central.
3.1.5.a Media geomtrica.
Dadas x
1
,, x
k
(>0)
G x x x x x
n n
k
n
n
i
n
i
k n
i
f
i
k
k i i
= =
F
H
G
I
K
J
=
= =
1 2
1
1
1
1 2
...
log log log log G x
n
x
n
n x
i
n
i
k n
i
n
i
k
i i
i
k
i i
=
F
H
G
I
K
J
=
F
H
G
I
K
J
=
= = =

1
1
1 1
1 1
3.1.5.b Media armnica.
Dadas x
1
,, x
k
(>0)
H
n
x
n
H
x
n
n
i
i
i
k
i
i
i
n
= =
=
=

1
1
1
1
1
;
3.1.5.c Media cuadrtica.
Q
x n
n
i i
i
k
=
=

2
1
Propiedad:
Siempre se cumple que H G x Q <
Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg. 9
Ejemplo:
log x X n
i
0 1 2
0477 3 3
0602 4 1
0699 5 2
n=8
x
G
G G
H
Q
=
+ + +
= =
= + + + = =
=
+ + +
= =
=
+ + +
= =
=
+ + +
=
1 2 3 3 4 1 5 2
8
25
8
3125
1 3 4 5 2700 2 684
0 2 0 477 3 0602 1 0 699 2
8
0428875 2 684
8
1
2
2
1
3
3
1
4
1
1
5
2
8
365
21917
1 2 3 3 4 1 5 2
8
3446
2 2 2
1
8
1
8
2 2 2 2
'
'
log
' ' '
' '
'
'
'
c h
3.2 Caractersticas de dispersin.
Las medidas de tendencia central no siempre son fiables, a veces son un poco engaosas, por eso
recurrimos a las medidas de dispersin. Estas intentan medir hasta las medidas de tendencia central para ver
cmo son de representativas las medidas.
3.2.1 Desviacin absoluta media.
Dadas x
1
,, x
k
de X se define la desviacin absoluta media respecto a la media aritmtica como
D x x f
x i i
i
k
=
=

1
D x x
D
x i
x
= =

0
0
Desviacin absoluta media con respecto a la mediana.
D x Me f
Me i i
i
k
=
=

1
D x Me D D
D
Me i Me x
Me
= =

0
0
3.2.2 Varianza. Desviacin tpica. Cuasivarianza.
Varianza de X:
S x x f
x x n
n
S x x
S
i i
i
k i i
i
k
i
2 2
2
0
1
2
1
2
2
0
0
= = =

= =

=
=


b g
b g
12 4 3 4
Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg. 10
Desviacin tpica de X: S S = = +
2
Cuasivarianza de X:
S
x x n
n
C
i i
i
k
2
2
1
1
=

b g
Cuasidesviacin tpica de X: S S nS n S
C C C
= + =
2 2 2
1 ; b g
Nota: d a x a f d x S
cua i i cua
i
k
b g b g b g = =
=

2
1
2
Clculo alternativo:
S x x f x f x f x xf x f x x x f x
x n
n
x
i i i i i i i
i
k
i i
i
k
i i
i
k
i
k
i
k
i
k
i i
i
k
2
2
2 2
1
2 2 2
1
2 2
1 1 1 1
2
1 2
2 2 = = + = + = =
=
= = = = = =
=

b g
Propiedades:
(1) var (ax+b) = a
2
var (x), a,b R
q
var( ) y y y f ax b ax b f a x x f
i i
i
k
Y ax b ax b
i i
i
k
i i
i
k
= = = + / / =
=
= + = +
= =

b g b g b g
2
1
2
1
2
2
1
{
n
(2) var (c) = 0 c = cte.
(3) var( ) var( ) var( ) ( )
cov( , )
x y x y x y x y
i i
i
k
x y
+ = + +
=

2
1
1 2 44 3 44
q
( , ) ( , ) : , , ,
var( ) var( ) ( ) ( )
( ) ( ) ( )( )
x y x x z x y z x y z x y z x y
z x y
n
z z
n
x y x y
n
x x
n
y y
n
x x y y
n n n n n
i
i
n
i i
i
n
i
i
n
i
i
n
i i
i
n
1 1 1 1 1 2 2 2
2
1
2
1
2
1
2
1 1
1 1
1 1 2
K K = + = + = + = +
= + = = + =
= + +
= =
= = =


b g
n
(4) Desigualdad de Chebyshev:
f x x x k
k
k
k
f x x x k
k
r i i
r i i
>
= = =
<

m r d i
m r d i
1
0
3
1
9
1
3
0 11
1
1
2
2
2
,
,
Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg. 11
q
A x x x k
A x x x k
S x x f x x f x x f x x f k f
k f k f A f A
k
i i
i i
i i
i
k
i i
x A
i i
x A
i i
x A
i
x A
i
x A
r r
i i i i i
i
2
1
2
2
1
2 2 2 2 2
2 2 2 2
2 2 2
2 2 2
2
1
=
= <
= = + =
= =
=


m r
m r
b g ( ) ( ) ( )
( ), ( )
n
Ejemplo:
x
i
100 120 125 140
n
i
10 5 4 3 n=22
x
S
x x n
n
S S
S
n
n
S S S
i i
i
k
C C C
=
+ + +
=
=

=
+ + +
=
= + =
=

= = + =
=

100 10 120 5 125 4 140 3


22
11454
100 11454 10 120 11454 5 125 11454 4 140 11454 3
22
21116
1453
1
212 21 1487
2
2
1
2 2 2 2
2
2 2 2
'
( )
( ' ) ( ' ) ( ' ) ( ' )
'
'
' , '
3.2.3 Coeficiente de variacin de Pearson.
CV
S
x
CV
X X
= ( ) 0
Cuando la media es un valor cercano a 0 no debe emplearse Pearson.
Propiedad:
Y = aX CV
y
= CV
x
q
Y aX S a S S aS CV
S
y
aS
ax
CV
y x y x y
y
x
x
= = = = = =
2 2 2
,
n
Def: Se define el cuantil de nivel (0 1)
X F
x

=
3.2.4 Cuartiles. Recorrido intercuartlico. Recorrido.
Def:
Cuartiles: Q
1
= X
025
, Q
2
= X
05
= Me , Q
3
= X
075

]
X

25% Q
1
25% Q
2
25% Q
3
25%
| | | | |
Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg. 12
Deciles: D
1
= X
01
, D
2
= X
02
, , D
9
= X
09
Percentiles: P
1
= X
001
, , P
99
= X
099
Octiles: O
1
= X
0125
, , O
7
= X
0875
Clculo:
No agrupado en intervalos:
(A)
(B)
F x
x x
N n
F F x x N n N
i i d
i i
i
i i d i i i
= =
+
=
< < = < <
+



1
1 1
2
( )
( )
Agrupado en intervalos:
F F x e
F
f
a e
n N
n
a
i i
I e e
i
i
i
i i
i
i
i
i i i

< = +

= +

1 1
1
1
1
1,

( )
{
Definiciones:
Intervalo intercuartlico: Abarca el 50% de las observaciones centrales. [Q
1
, Q
3
]
Recorrido intercuartlico: IQR = Q
3
Q
1
IQR siempre es 0. Si el recorrido intercuartlico es 0 entonces
existe muy poca dispersin.
Recorrido: R = Max x
i
Min x
i
Ejemplo:
x
i
n
i
N
i
f
i
F
i
20 8 8 02 02
30 10 18 025 045
40 12 30 03 075
50 6 36 015 09
60 4 40 01 1
n=40 1
Q X
D X
n
P X
Q X
IQR
R
1 0 25
8 0 8
45 0 45
3 0 75
30
0 2 0 25 0 45
50
0 75 0 8 0 9
30 32 36
30 40
2
35
40 50
2
45
30 45
15
60 20 40
= =
< = <
= =
< = <
< = <
= =
+
=
= =
+
=
=
= =
'
'
'
'
, , ,
, , ,
[ , ]

3.2.5 Momentos.
Def:
- Momentos de orden r (r>0, entero) respecto al valor aR
( ) ( )
( )
a x a f
x a n
n
i
r
i
i
k i
r
i
i
k
= =

=
=


1
1
Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg. 13
- Momento central:
( ); ( )
( )
a x x x f
x x n
n
r i
r
i
i
r
i
k
i
k
= = =

1
1
- Momento no central:
( ); a m x f
x n
n
r i
r
i
i
k i
r
i
i
k
=
=

0
1
m x
S
S x f x m m
i i
k
1
1
2
2
2
2 2 2
2 1
2
1
0
=
=
=
= = =

3.2.6 ndice de diversidad de Shanon


Mide cmo de repartidas estn las observaciones en las modalidades.
H f f
H
n
n
n
n
n
n
n n
n
n n n n
n
n n n n
n n n n
n
H n n n k
i i
i
k
i i i
i i i i
i
k
i
k
i
k
i
k
i i
i
k
i i
i
k
i
=
= = =
L
N
M
O
Q
P
=
L
N
M
O
Q
P
=
=

= = =
=
= = = = =
=

log
log log log log log log log
log log
log ( , )
max
0
1 1
0
1
1
1 1 1 1 1
1
b g
ndice de diversidad:
0 1 = J
H
H
max
Ejemplo:
Color de pelo n
i
f
i
log f
i
Morenos 60 06 02218
Rubios 25 025 06021
Otros 15 015 08239
100
H f f
J
H
H
H
n
i i
i
k
=
= = = =
=

log
log
'
log
'
max
1
2
0 407210
100
0 203605
123
J es el ndice de diversidad, y, en este caso, existe poca diversidad porque est cercano a 0.
Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg. 14
3.3 Caractersticas de forma.
3.3.1 Coeficientes de simetra.
Diremos que una distribucin de frecuencias es simtrica cuando los valores de la variable equidistantes
de un valor central tienen las mismas frecuencias.
Se dir asimtrica a la izquierda o a la derecha segn presenten la cola (las frecuencias descienden ms
por la derecha o por la izquierda) por la derecha o por la izquierda.
Coeficiente de simetra de Pearson:
A
x Mo
S
S
=

Que es una frmula vlida para distribuciones unimodales.
Si A
S
0 entonces es simtrica.
Si A
S
< 0 entonces es asimtrica a la izquierda.
Si A
S
> 0 entonces es asimtrica a la derecha.
Coeficiente de simetra de Fisher:


1
3
1
3 3
3
1
3
3
1 1
=

=
F
H
G
I
K
J
=

=
x x f
S S n
x x n
S
i i
k
i i
i
k
b g
b g
Si
1
0 diremos que es simtrica.
Si
1
< 0 diremos que es asimtrica a la izquierda.
Si
1
> 0 diremos que es asimtrica a la derecha.
Valor central Valor central
Asimetra a la derecha Asimetra a la izquierda
Estadstica _________________ Tema 3. Caractersticas asociadas a una distribucin de frecuencias. Pg. 15
Ejemplo:
X n
i
-1897 1
-1265 2
-1632 3
0 4
0632 3
1265 2
1897 1
x
S
=
=
=
0
1
0
1

Simtrica
Y n
i
-2205 1
-1654 1
-1103 1
-0551 1
0 3
0551 4
1103 3
y
S
=
=
=
0
1
086
1
'
Asimtrica a la izquierda
Estadstica _________________ Tema 6. Medidas de dependencia estadstica entre 2 variables.. Pg. 16
Propiedad:
Si tengo Y = aX + b, a,b R entonces
1
(Y) =
2
(X)
3.3.2 Coeficiente de Curtosis.
Cuando una distribucin cualquiera se compara con la distribucin normal de la misma media y la
misma desviacin tpica interesa saber si es ms o menos puntiaguda que ella.
En el caso de que sea menos puntiaguda la vamos a
denominar platicrtica.
Si es igual que la campana de Gauss la
denominaremos mesocrtica.
Si es ms puntiaguda la llamaremos leptocrtica.
Coeficiente de curtosis de Fisher (coeficiente de apuntamiento)


2
4
1
4 3
3
1
4
4
3
1 1
3 3 =

=
F
H
G
I
K
J
=

=
x x f
S S n
x x n
S
i i
k
i i
i
k
b g
( )
Si
2
0 entonces es mesocrtica.
Si
2
< 0 entonces es platicrtica.
Si
2
> 0 entonces es leptocrtica.
Ejemplo:
X n
i
Y n
i
Z n
i
-3 1 -3 2 -3 0
-2 2 -2 0 -2 4
-1 3 -1 2 -1 4
0 8 0 12 0 4
1 3 1 2 1 4
2 2 2 0 2 4
3 1 3 2 3 0
x y z
S S S
= = =
= = =
= = =
0 0 0
2 2 2
0 0 0
1 1 1

En este caso todas son simtricas pero se diferencian por el apuntamiento:

2
= -01 0
2
=11
2
= -13
(mesocrtica) (leptocrtica) (platicrtica)
3.4 Introduccin a los outliers.
Ejemplo: X = Alturas en cm. de alumnos de 7 de E.G.B. n = 20
150, 151, 150, 147, 155, 145 151, 152, 150 149, 160, 142, 158, 153, 144, 190, 145, 147, 151, 156.
x
i
N
i
N
i
142 1 1
144 1 2
145 2 4
Estadstica _________________ Tema 6. Medidas de dependencia estadstica entre 2 variables.. Pg. 17
147 2 6
149 1 7
150 3 10
151 3 13
152 1 14
153 1 15
155 1 16
156 1 17
158 1 18
160 1 19
190 1 20
20
3.4.1 Errores en las observaciones muestrales.
Son los elementos que intervienen en la recogida de observaciones:
(1) , poblacin
(2) M, muestra
(3) X(M) variable recogida sobre la muestra
(4) E, experimentador.
Clasificacin de los errores:
(1) Variabilidad inherente o propia de la fuente.
(2) Errores del medio (Redondeo forzoso)
(3) Errores del experimentador.
(a) Error de informacin.
(b) Error de planificacin
(c) Error de realizacin (Redondeo equvoco, pasar mal los datos,)
Clasificacin de las observaciones extraas o anmalas:
(1) Observaciones atpicas: cuando existe una gran variabilidad inherente X(M)
(2) Observaciones errneas: cuando presentan un gran error de medio o del experimentador X(M)
Def: Llamamos outliers a aquella observacin que siendo atpica o errnea tiene un comportamiento muy
diferente al resto de los datos frente al anlisis que se desea realizar sobre las observaciones experimentales.
Cualquier observacin que no sea outlier la llamaremos inlier.
Estadstica _________________ Tema 6. Medidas de dependencia estadstica entre 2 variables.. Pg. 18
3.4.2 Mtodos simples de identificacin de outliers.
3.4.2.a Mtodo basado en la desviacin tpica.
Consiste en escoger un intervalo que albergue al menos un 8888% de las observaciones. El intervalo
ser el siguiente:
[ , ] x k x k +
Se suele escoger k = 3.
Las observaciones que caen dentro del intervalo sern INLIERS y representan al menos un 8888%
Las observaciones que caen fuera del intervalo sern OUTLIERS y son como mximo un 1112%
3.4.2.b Mtodo basado en el rango intercuartlico.
En este caso el intervalo es [Q
1
, Q
3
], que contiene el 50% de las observaciones ms centrales.
Recordamos que el recorrido intercuartlico es IQR = Q
3
Q
1
.
Def: Vallas interiores: f
1
= Q
1
15IQR
f
2
= Q
3
+15IQR
Las observaciones que caen fuera del intervalo [f
1
, f
2
] son OUTSIDE.
Vallas exteriores: F
1
= Q
1
3IQR
F
2
= Q
3
+3IQR
Las observaciones que caen fuera del intervalo [F
1
, F
2
] son FAR OUTSIDE.
Este mtodo no se ve afectado por las propias observaciones.
3.4.3 Mtodos simples de acomodacin de outliers.
3.4.3.a Mtodo de recorte (TRIMMING)
Las medias y varianzas recortadas para una proporcin
1
,
2
de valores mayores se calcula de manera
usual eliminando previamente del conjunto de datos una proporcin
1
de los valores ms pequeos y otra
2
de los valores mayores.
X
-7 1
0 10
1 10
2 10
100 1
200 1
33
De aqu se pasa a
X
0 10
1 10
2 10
30
Estadstica _________________ Tema 6. Medidas de dependencia estadstica entre 2 variables.. Pg. 19
3.4.3.b Mtodo de reemplazamiento (WINSORIZING)
La diferencia con el mtodo anterior es que las observaciones que componen
1
de valores ms pequeos
se sustituyen por el valor ms pequeo de las observaciones restantes, mientras que las observaciones
2
de
valores ms grandes se sustituyen por el valor mayor de las observaciones restantes.
En el ejemplo anterior pasaramos a la siguiente tabla:
X
0 11
1 10
2 12
33
3.4.4 Diagrama de caja y bigotes (BOX-AND-WHISKER)
Para construirlo hay que fijar la escala con los valores del mximo y el mnimo. Localizar la Me y los
cuartiles y dibujar un rectngulo que conecte estos ltimos y dentro de los mismos marcar la mediana con un
segmento.
A cada lado de la caja se trazan segmentos rectilneos hasta las observaciones ms extremas dentro de
las vallas interiores (valores adyacentes). Sobre dicha lnea se marcan los outside con cuadrados y los far
outside con asteriscos.
En el ejemplo anterior de las alturas de los nios de EGB el diagrama sera algo as: