Sunteți pe pagina 1din 49

Medidas de tendencia central

Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Estadstica descriptiva: Tendencia central y


dispersin
Giancarlo Sal y Rosas
Departmento de Ciencias
Pontificia Universidad Catlica del Per

October 31, 2015

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Outline

Medidas de tendencia central

Medidas de dispersin

Sesgo y asimetria

Grafico de cajas - Boxplot

Comparacin de distribuciones

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

En el histograma del ejemplo anterior, cul seria el


consumo tpico de electricidad que una familia tiene ?
Esta entre 350 y 400 kWh

Sin embargo si la distribucin de los datos tiene varios


picos (quiere decir multimodal), no es tal facil dar una
respuesta.

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

En el histograma del ejemplo anterior, cul seria el


consumo tpico de electricidad que una familia tiene ?
Esta entre 350 y 400 kWh

Sin embargo si la distribucin de los datos tiene varios


picos (quiere decir multimodal), no es tal facil dar una
respuesta.

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

En el histograma del ejemplo anterior, cul seria el


consumo tpico de electricidad que una familia tiene ?
Esta entre 350 y 400 kWh

Sin embargo si la distribucin de los datos tiene varios


picos (quiere decir multimodal), no es tal facil dar una
respuesta.

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Mediana
Informal: Es el valor que esa "literalmente" en el medio de
los datos.
Formal: Esl el valor que es mayor o igual que el 50% de
los datos. Matemticamente esta definido por

X((n+1)/2)
, n es impar

Xmed =
X
+ X(n/2+1)

(n/2)
, n es par
2
donde n es el nmero total de dato y X(i) representa el
dato que esta en la posicin "i-sima"
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

En el problema de consumo de electricidad, los datos


ordenados son:
300
430
466
497
531

355
432
468
501
555

372
432
469
502
567

384
438
477
508
577

392
439
478
509
580

398
452
481
520
589

403
457
484
521
596

415
459
488
522
617

425
462
488
525
620

426
464
493
525
650

Dado que el nmero de datos es par (n=50), la mediana esta


definida por
Xmed =

X(25) + X(26)
= (478 + 481)/2 = 479, 5
2

Interpretacin: El 50% de hogares entrevistados tienen un


consumo de electricidad menor o igual a 480 kWh.
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

En el problema de pacientes con tuberculosis, los datos


ordenados son:
1
1
2
3
4
5
6
7

1
2
2
3
4
5
6
7

1
2
2
3
4
5
6
8

1
2
2
3
4
5
6
8

1
2
3
3
4
5
6
12

1
2
3
3
4
5
7
12

1
2
3
3
4
5
7
13

1
2
3
4
4
6
7
14

1
2
3
4
5
6
7
16

1
2
3
4
5
6
7

Dado que el nmero de datos es impar (n=79), la mediana esta


definida por
Xmed = X((79+1)/2) = X(40) = 4
Interpretacin: El 50% de pacientes del estudio viven como
mximo con 4 personas en casa.
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Algunas propiedades de la mediana son:


El 50 % de los datos es menor o igual a la mediana
La mediana se calcula solo tomando en cuenta el (los)
valor(es) central(es).
La mediana no es fuertemente afectado por valores
atpicos 1
Si Yi = a + bXi , donde a y b son constantes. Entonces
Ymed = a + bXmed

Valores extremadamente pequeos o extremadamente grandes


EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Ejercicio
Consumo de celular (en minutos) de 43 personas que usan
servicio pre pago de Telefonica en un determinado mes
198
187
150
181
143

150
179
103
175
119

129
110
194
117
179

179
109
142
165
198

156
108
139
180

151
190
134
131

148
181
167
139

138
115
155
139

181
101
121
165

167
108
106
110

Si el costo de llamada por minuto es de S/.0,49. Cul es


la mediana de costo mensual del servicio para las persona
encuestadas?.
Sea X el consumo (en minutos) y sea Y el costo mensual
por ese consumo. Entonces Y = 0, 49X
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Los 43 datos (n = 43) ordenados son


101
119
143
167
190

103
121
148
175
194

106
129
150
179
198

108
131
150
179

108
134
151
179

109
138
155
180

110
139
156
181

110
139
165
181

115
139
165
181

117
142
167
187

La mediana de consumo (Xmed ) es


Xmed = X(43+1)/2 = X(22) = 148
La mediana de los costos es
Ymed = 0, 49 Xmed = S/.72, 52
Interpretacin: El 50% de personas encuestadas tienen un
gasto mensual (en su servicio pre pago) menor o igual a
S/.72,52 soles.
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Media
En el caso los datos sean medianamente simtricos, la
media es otra alternativa para describir el "dato tpico"
Formal: Es la suma de todos los datos dividido por el total
, entonces
de datos. Se le suele denotar por X
n

X
1
=1
X
Xi = (X1 + X2 + + Xn1 + Xn )
n
n
i=1

Es un valor representativo, debido a que es el centro de


gravedad o punto de equilibrio de un conjunto de
observaciones.
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Algunas propiedades de la media son:


La media se calcula tomando en cuenta todos los datos.
La media podria ser fuertemente afectado por valores
atpicos 2
Dado el conjunto de datos X1 , X2 , . . . , Xn
La suma de las desviaciones de los datos con respecto a la
media es igual a cero:
n
X

) = 0
(Xi X

i=1

Si Yi = a + bXi , donde a y b son constantes. Entonces


= a + bX

Y
2

Valores extremadamente pequeos o extremadamente grandes


EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

En el problema de consumo de electricidad, los datos son:


300
430
466
497
531

355
432
468
501
555

372
432
469
502
567

384
438
477
508
577

392
439
478
509
580

398
452
481
520
589

403
457
484
521
596

415
459
488
522
617

425
462
488
525
620

426
464
493
525
650

Dado que son 50 datos, la media esta definida por


50

X
1
= 1
X
Xi =
(300 + 355 + + 650) = 482, 8
50
50
i=1

Interpretacin: La media del consumo de electricidad en


las casas es de 483 kWh.
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

En el problema de pacientes con tuberculosis, los datos son:


1
1
2
3
4
5
6
7

1
2
2
3
4
5
6
7

1
2
2
3
4
5
6
8

1
2
2
3
4
5
6
8

1
2
3
3
4
5
6
12

1
2
3
3
4
5
7
12

1
2
3
3
4
5
7
13

1
2
3
4
4
6
7
14

1
2
3
4
5
6
7
16

1
2
3
4
5
6
7

79

X
1
= 1
X
Xi =
(1 + 1 + + 16) = 4, 4
79
79
i=1

Interpretacin: La media del nmero de personas que viven


con cada paciente es en las casas es 4.
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

La moda

Valor, clase o categoria que ocurre con mayor frecuencia


en un conjunto de datos.
Un conjunto de datos puede no tener, tener una, o mas de
una moda.
No esta afectada por valores extremos
Es la unica medida de tendencia central valida para datos
cualitativos nominales

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Recordando los datos en el estudio de tuberculosis:


1
1
2
3
4
5
6
7

1
2
2
3
4
5
6
7

1
2
2
3
4
5
6
8

1
2
2
3
4
5
6
8

1
2
3
3
4
5
6
12

1
2
3
3
4
5
7
12

1
2
3
3
4
5
7
13

1
2
3
4
4
6
7
14

1
2
3
4
5
6
7
16

1
2
3
4
5
6
7

Es sencillo ver que este conjunto de datos tiene dos modas: 2


y3

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Cuantiles
Sea X1 , X2 , . . . , Xn un conjunto de datos. Entonces
El cuantile de orden p (0 < p < 1) de este conjunto de
datos es el valor qp tal que el 100p% de los datos son
menores o iguales a este.
Definicin:
qp =

X(dnpe) +X(dnpe+1)
2

, np Z

X(dnpe)

, np
/Z

donde d e es la funcin "techo":


dxe = min {k Z : x k }
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Los cuantiles suelen usarse por grupos:


Los cuartiles: dividen a los datos en 4 partes iguales, se
denotan por Q1 , Q2 y Q3 que serian los cuantiles 0.25,
0.50 y 0.75.
Los deciles: dividen a los datos en 10 partes iguales, se
denotan por D1 , D2 , .... y D9 que serian los cuantiles 0.10,
0.20, ... y 0.90.
Los percentiles: dividen a los datos en 100 partes iguales,
se denotan por P1 , P2 , ... y P99 que serian los cuantiles
0.01, 0.02, ... y 0.99.
Note que se cumple
Xmed = Q2 = D5 = P50
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Recordemos el conjunto de datos de los pacientes con


tuberculosis:
1
1
2
3
4
5
6
7

1
2
2
3
4
5
6
7

1
2
2
3
4
5
6
8

1
2
2
3
4
5
6
8

1
2
3
3
4
5
6
12

1
2
3
3
4
5
7
12

1
2
3
3
4
5
7
13

1
2
3
4
4
6
7
14

1
2
3
4
5
6
7
16

Estamos interesados en:


Los cuartiles 1 y 2: Q1 y Q3
Los deciles 1 y 9: D1 y D9
Los percentiles 5 y 95: P5 y P95
EST 103

Estadstica descriptiva

1
2
3
4
5
6
7

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Dado que tenemos 79 datos:


Q1 = q0,25 = X(d0.7579e) = X(d19,75e) = X(20) = 2
Q3 = q0,75 = X(d0.2579e) = X(d59,25e) = X(60) = 6
Interpretacin: El 25% de los participantes encuestados viven
con 2 familiares o menos. El 50% de participantes cohabita
con un nmero que va entre 2 y 6 personas.
D1 = q0,10 = X(d0,179e) = X(d7,9e) = X(8) = 1
D9 = q0,90 = X(d0,979e) = X(d71,1e) = X(72) = 7
Interpretacin: El 10% de los participantes encuestados viven
como mximo con una persona en casa. El 80% de
participantes cohabita su casa con un nmero que va entre 1 y
7 personas.
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Dado que tenemos 79 datos:


P5 = q0,05 = X(d0,0579e) = X(d3,95e) = X(4) = 1
P95 = q0,95 = X(d0,9579e) = X(d75,02e) = X(76) = 12

Interpretacin: El 5% de los participantes encuestados


viven como mximo con una persona en casa. El 90% de
participantes cohabita con un nmero que va entre 1 y 12
personas.

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Algunas propiedades del cuantile qp son:


El 100p % de los datos es menor o igual a la mediana
Se calcula solo tomando en cuenta el (los) valor(es)
cercanos a ese porcentaje.
No es fuertemente afectado por valores atpicos 3
Si Yi = a + bXi , donde a y b son constantes. Entonces
qy p = a + b qx p
donde qxp y qyp son el cuantile p de las variables X e Y ,
respectivamente.
3

Valores extremadamente pequeos o extremadamente grandes


EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

La Varianza
La varianza mide la variabilidad de los valores de un
conjunto de datos con respecto a su media muestral. Esta
se define como:
n
P

S2 =

n
P

)2
(Xj X

j=1

n1

j=1

2
Xj2 nX
n1

La variancia considera el promedio de las distancias,


, al cuadrado.
Xj X
Las unidades de la varianza son las unidades al cuadrado
de la variable original.
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

La varianza de los datos para el ejemplo del estudio de


pacientes con tuberculosis es
S2 =
=

(7 4, 4)2 + (2 4, 4)2 + + (4 4, 4)2


79 1
742.3544
= 9, 517
78

Nota: La interpretacin de la varianza es un poco


complicada dado que sus unidades son el cuadrado de las
unidades originales

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Propiedades de la varianza
Se calcula para datos medidos en escala de intervalo o de
razn
Su valor numrico esta expresado en unidades al
cuadrado.
Son sensibles a la existencia de valores atpicos
Supongamos que tenemos los datos X1 , X2 , . . . , Xn y sea
Yi = a + bXi donde a y b son constantes. Entonces
SY2 = b2 SX2

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

La desviacin estndar
Definicin: Es la raz cuadrada de la varianza: SX
v
u
n
u 1 X
t
)2
(Xi X
SX =
n1
i=1

Tiene las mismas unidades que los datos originales


Son sensibles a la existencia de datos atpicos (al igual
que la media)
Supongamos que tenemos los datos X1 , X2 , . . . , Xn y sea
Yi = a + bXi donde a y b son constantes. Entonces
SY = |b|SX
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

La desviacin standar de los datos para el ejemplo del


estudio de pacientes con tuberculosis es
p
SX = 9, 517 = 3, 09
Interpretacin:
La variabilidad del nmero de personas que viven con el
participane del estudio, con respecto a su media muestral,
es 3 personas
En promedio, se espera que el nmero de personas que
viven en la casa (con un paciente dado) varie en 3 con
respecto a la media.

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

El Rango
Es la distancia entre el valor mnimo y el mximo
R = X(n) X(1)
donde X(n) y X(1) es el valor mximo y mnimo,
respectivamente.
Ejemplo: Considerando los datos de los pacientes con
tuberculosis, el rango es dado por
R = X(79) X(1) = 16 1 = 15
Interpretacin: El nmero de personas que cohabitan con
los pacientes varia entre 1 y 16 (R = 15) personas.
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Propiedades del rango:


Se calcula para datos medidos en escala de intervalo o de
razn
Solo usa dos observacin del total.
No es tan sensibles a la existencia de valores atpicos
Supongamos que tenemos los datos X1 , X2 , . . . , Xn y sea
Yi = a + bXi donde a y b son constantes. Entonces
RY = bRX
donde RY y RX son el rango de Y y X , respectivamente.
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

El Rango intercuartl
Definicin: Es la distancia entre el primer y tercer cuartil
RIC = Q3 Q1
Note que entre el primer y tercer cuartil estn contenidas
el 50% de las observaciones, donde hemos descartado el
25% de las observaciones ms grandes y el 25% de las
ms pequeas.
Esta es una medida alternativa al rango que no es
afectada por valores extremos y que puede ser utilizada
incluso en variables cualitativas ordinales
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Ejemplo: Considerando los datos de los pacientes con


tuberculosis, el rango es dado por
RIC = Q3 Q1
= X(60) X(20) = 6 2 = 4
Interpretacin: El 50 % de personas entrevistadas
reporta que comparte su casa con un nmero de personas
qeu va entre 2 y 6

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Propiedades del rango intercuartil:


Se calcula para datos medidos en escala de intervalo o de
razn
Se usan parcialmente los datos (no se usa la totalidad).
No es tan sensibles a la existencia de valores atpicos
Supongamos que tenemos los datos X1 , X2 , . . . , Xn y sea
Yi = a + bXi donde a y b son constantes. Entonces
RICY = a + b RICX
donde RICY y RICX son el rango de Y y X ,
respectivamente.
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Asimetria de Pearson
Es una forma de medir la asimetria de los datos: Este
puede ser positiva, negativa o 0.
Esta definido por


X Xmed
As = 3
SX
La distribucin puede ser:
Simtrica: As 0
Sesgo a la derecha (cola a la derecha): As > 0
Sesgo a la izquierda (cola a la izquierda): As < 0
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

X > Xmed

0 500

X Xmed

1500

Frecuencia

200 400 600 800

2500

Sesgo a la izquierda

frecuencia

Simtrica

60

80

100

120

600
200

X < Xmed

Frecuencia

1000

Sesgo a la derecha

10

Figure: Casos de asimetria


EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Es una manera eficiente de presentar la distribucin de los


datos y es una gran alternativa a los histogramas.
En estos se puede evaluar la tendencia central (mediana),
dispersin (rango intercuartil) y asimetria (de forma
grafica)
Reglas de construccin:
1. Dibujar un eje vertical que cubra la extensin de los datos.
2. Dibujar lineas horizontales en el primer y tercer cuartil y
conectelas para formar una caja
3. Dentro de la caja, trazar una linea horizontal en el segundo
cuartil (mediana)

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Construccin (continuacin)
4. Construya una linea vertical (imaginaria) superior (Ls) e
inferior (Li):
Ls

= Q3 + 1, 5 RIC

Li

= Q1 1, 5 RIC

5. Dibuje una linea vertical desde la caja hasta


el mximo dato que es menor o igual a Ls
el mnimo dato que es mayor o igual a Li

5. Dibuje una linea horizontal (misma longitud de la caja) en


esos dos puntos definidos en el paso previo.

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Estudio con pacientes con tuberculosis


Recordemos que
Q1 = 2 , Q2 = Xmed = 4 , Q3 = 6
entonces la caja estara entre 2 y 6.
Los limites superiores e inferiores (imaginaro) son
Ls = Q3 + 1, 5 RIC = 6 + 1, 5 (6 2) = 12
Li = Q1 1, 5 RIC = 2 1, 5 (6 2) = 4
Los valores atpicos estan definidos como aquellos que
son mayores que el limite superior o menores que el limite
inferior
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

16

14

13

10
5

Nmero de personas que viven en casa

15

Figure: Distribucin del nmero de personas que viven en la casa

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

15

10

Nmero de personas que viven en casa

Figure: Distribucin del nmero de personas que viven en la casa

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Interpretacin:
El 50% de personas respondieron que compartian su casa
con 4 personas o menos (Xmed = 4)
El 50% de los datos "centrales" se encuentran entre 2 y 6
(RIC = 44)
Dado que la linea vertical es mucho mas extensa hacia
arriba, la distribucin de los datos presenta una cola hacia
la derecha (asimetria positiva)
Se presentan 3 valores atpicos en nuestros datos: 13, 14
y 16

EST 103

Estadstica descriptiva

550
500
450
400
300

350

Consumo de electricidad en kWh

600

650

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Figure: Distribucin del consumo de electricidad

Qu nos puede decir sobre la tendencia central, dispersin y


asimetra de estos datos ?
EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Ejemplo: Pacientes con TB

La base de datos "tb" tiene varias variales entre las que


encuentran la variable "edad" (edad de los participantes) y
"sexo" (sexo de los participantes).
Es la distribucin de edades similar entre hombres y
mujeres ?
En base a las medidas de tendencia central ?
En base a las medidas de dispersin ?
En base a la asimetria ?

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Table: Edades de los participantes varones del estudio (n = 43)

26
19
20
78
19

36
82
24
26
20

19
35
29
45
69

19
69
32
39

26
20
22
39

25
54
18
21

37
20
39
27

45
19
19
49

98
24
19
22

64
57
22
23

Table: Edades de las participantes mujeres del estudio (n = 36)

18
42
54
21

18
19
47
21

38
37
21
18

18
23
57
58

37
21
77
31

EST 103

30
18
23
21

18
22
26

19
37
45

Estadstica descriptiva

30
30
70

34
21
28

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Algunas estadsticas en hombres son:


Mnimo
18

Q1
20

Xmed
26

n
X
35.23

Q3
42

Mximo
98

Algunas estadsticas en mujeres son:


Mnimo
18

Q1
21

Xmed
27

n
X
31.89

Q3
37.25

Mximo
77

Qu diferencias observan?
Qu grafico considera apropiado para describir las
diferencias y/o similitudes entre estas dos distribuciones ?

EST 103

Estadstica descriptiva

frecuencia

frecuencia

10

10

12

12

14

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

20

40

60

80

100

Edad en hombres

20

40

60

80

100

Edad en mujeres

Figure: Distribucin de edades por sexo de las personas


considerando intervalos de amplitud 10 aos
EST 103

Estadstica descriptiva

100

80

80

100

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

60
0

20

40

Edad en mujeres

60
40
0

20

Edad en hombres

Figure: Distribucin de edades por sexo de las personas


EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Conclusin:
La mediana es preferible a la media para ambas
distribuciones dado la presencia de asimetria y valores
atpicos. La mediana de edad en hombres es menor que
en mujeres (26 vs. 27)
La distribucin de edades en hombres tiene mayor
dispersin/variabilidad que la de mujeres (RIC: 22 vs. 16)
Ambas distribuciones tiene asimetria positiva (sesgo por la
derecha). Sim embargo la distribucin de los hombres
tiene mayor asimetria (1,38 vs. 0,95).

EST 103

Estadstica descriptiva

Medidas de tendencia central


Medidas de dispersin
Sesgo y asimetria
Grafico de cajas - Boxplot
Comparacin de distribuciones

Ejercicios adicionales

Se desea evaluar las diferencias en el tiempo que un


paciente esta en hospitales de atencin ambulatoria
(Ejercicio 23, captulo 4, Intro Stats).
Se desea evaluar las diferencias en edades entre
ciudadanos afroamericas y blancos de los Estados Unidos
(Ejercicio 24, captulo 4, Intro Stats).
Se desea evaluar los niveles de colesterol entre personas
que fuman y no fuman (Ejercicio 42, captulo 4, Intro Stats)

EST 103

Estadstica descriptiva

S-ar putea să vă placă și