Sunteți pe pagina 1din 90

Ing.

Sergio Castro Viloria


Especialista en Estadstica Aplicada

DEFINICIONES BSICAS
Estadstica: Ciencia que recoge, clasifica,
representa y resume los datos de muestras, as
como de establecer inferencias de las poblaciones
de las cuales ellas provienen.
Estadstica Descriptiva: Resumen muestras
Estadstica

Inferencial: Conclusiones
poblacin a partir de las muestras.

de

la

13/08/2015

CONCEPTOS GENERALES
Poblacin: Conjunto de individuos con propiedades

comunes sobre los cuales se realiza la investigacin


estadstica.
Muestra: Subconjunto de la poblacin
Tamao Muestral: # individuos de la muestra.
Muestreo: Proceso mediante el cual se obtienen muestras
representativas de la poblacin.
Variable: Propiedad que puede manifestarse bajo 2 o ms
formas distintas en un individuo en una poblacin.
Modalidades o categoras de una variable: Distintas formas
en que se manifiesta esta ltima.
13/08/2015

TIPOS DE VARIABLES
Multiestado: Pueden tomar ms de 2 valores
Binarias: Toman slo 2 valores (S o No)
Cualitativas: Expresan cualidades o atributos (Color)
Ordinales: Admiten ordenacin de menor a mayor, pero con resultados

no numricos (Percepciones de calidad)


Nominales: No admiten dicha ordenacin (Color)

Cuantitativas: Expresan cantidades resultados de medicin

con algn instrumento, conteos de eventos u operaciones


matemticas simples.
Discretas: Magnitud en nmeros enteros (Cantidad de hijos)
Continuas: # infinito de valores entre dos puntos de la escala de medida

utilizada (Peso)
Derivadas: Clculos simples de Variables discretas o continuas (IMC)

13/08/2015

ESCALAS DE MEDIDA
Nominal: La cantidad que se mide no tiene
secuencia lgica (Sexo)
Ordinal: Las observaciones pueden ordenarse de
menor a mayor, pero las distancias no tienen
sentido. (Calidad)

Intervalo: Las distancias tienen sentido, su


magnitud es igual a lo largo de la escala, se pueden
hacer comparaciones. Pero no productos o
divisiones. El cero es arbitrario. (Temperatura)
13/08/2015

La diferencia entre una temperatura de 14 y 16


grados es la misma que la existente entre una
diferencia de 25 y 27. Pero no se puede decir que
una temperatura de 20 equivale al doble de una de
10.
Razn: Con las mismas caractersticas de las

variables de intervalo, pero aqu el cero es


absoluto, e indica la ausencia de medida, por lo
que es posible realizar cualquier operacin
aritmtica (+,-,x,/) y lgica (Comparacin u
ordenamiento). Permiten el nivel ms alto de
medicin. Ej: Altura, peso.
13/08/2015

ELABORACIN DE TABLAS O CUADROS


Las tablas facilitan el anlisis y la presentacin de la informacin.
Lo primero que se debe hacer es identificar las caractersticas que se

investigaron, para clasificar mejor lo observado. (Caractersticas


cualitativas o atributos, y cuantitativas o variables).
Las tablas se clasifican segn el nmero de caractersticas que se
estudian, en unidimensionales, bidimensionales o pluridimensionales

13/08/2015

ALGUNAS REGLAS PARA ELABORAR CUADROS


Las

tablas son arreglos


sistemticos de datos, para
ello no debe olvidar:
Establecer un criterio de
ordenacin
(alfabtico,
cronolgico,
importancia,
proporcionales
o
por
intervalos)
El cuadro debe ser lo ms
sencillo posible.
Numeracin
El ttulo debe ser claro y
conciso, respondiendo al
qu, cmo y cundo se hizo.

13/08/2015

TABULACIN DE DATOS
Variables Cualitativas: Nacionalidad
Ejemplo 1: Datos cualitativos (no ordenados)
Espaol

Espaol

Espaol

Italiano

Espaol

Espaol

rabe

rabe

Mexicano

rabe

Chino

Chino

rabe

Mexicano

Chino

Mexicano

rabe

Mexicano

Chino

rabe

Chino

Chino

Mexicano

rabe

Chino

Chino

Espaol

Espaol

Chino

Chino

rabe

Espaol

Italiano

Espaol

rabe

Chino

Espaol

Chino

Chino

Espaol

13/08/2015

CONCEPTOS Y FRMULAS
Frecuencia Absoluta clase i-sima: = Cantidad de

observaciones dentro de la clase.


Frecuencia Relativa clase i-sima: =

con n el nmero
total de datos. Se puede expresar en forma decimal o en
porcentaje.
Propiedades:
1 + 2 + + =
1 + 2 + + = 1
Con kel nmero de clases.
Distribucin de frecuencias: Tabla que contiene las clases y
frecuencias correspondientes a cada una de ellas.

13/08/2015

Ejemplo distribucin de frecuencias para los datos

anteriores (Nacionalidad):
Nacionalidad

Frecuencia Frecuencia
Porcentaje
Absoluta
Relativa

rabe

0,225

22,50%

Chino

13

0,325

32,50%

Espaol

11

0,275

27,50%

Italiano

0,05

5,00%

Mexicano

0,125

12,50%

TOTAL

40

100,00%

13/08/2015

VARIABLES DISCRETAS
Ejemplo 2: La siguiente tabla recoge el nmero de

accidentes ocurridos en 30 empresas durante el mes de


junio de 2013:
1

13/08/2015

Se pueden calcular, adems de los mismos criterios

mostrados en el caso cualitativo, lo siguiente:


Frecuencia absoluta acumulada de la clase i-sima
= 1 + = 1 + 2 + +
Es igual al nmero de datos que caen en la clase y cualquier

clase anterior (despus de ordenar las clases de menor a


mayor)
Frecuencia relativa acumulada de la clase i-sima

= 1 + 2 + + =

13/08/2015

Para los datos discretos anteriores se tiene:

Nmero de
accidentes

Frecuencia Frecuencia
Absoluta
Relativa

Frecuencia Frecuencia
Absoluta
Relativa
Acumulada Acumulada

0,1

0,1

0,2

0,3

12

0,4

21

0,7

0,23

28

0,93

0,07

30

TOTAL

30

13/08/2015

VARIABLES CONTINUAS
Generalmente se divide el intervalo de valores posibles en

intervalos secuenciales llamados intervalos de clase.


Despus de agrupar los datos en intervalos, se tabulan de
manera similar a los casos de variable discreta.
Rango de las observaciones: =
Nmero de intervalos (Frmula de Sturges):
= 1 + 3,3()
Generalmente se aproxima al entero superior el resultado.
Amplitud de intervalo: =

Se expresa en la tabla as:

= +1 , indica lmites de intervalo


Marca de clases del intervalo: = (+1 + )/2

13/08/2015

Ejemplo 3 (Bencardino): Se toma una muestra de 30

cajas con el fin de investigar el peso de cada caja en Kg.

48

70

92

85

52

56

63

70

68

58

60

72

69

82

76

67

76

61

55

57

47

74

71

65

72

70

67

79

88

67

13/08/2015

Agrupando en intervalos de clase de igual amplitud:

Se calcula el Rango = = 92 47 = 45
2. Nmero
de
intervalos:
= 1 + 3,3 log = 1 +
3,3 log 30 = 5,87 6
3. La amplitud de cada intervalo es
45
= =
= 7,5 8

6
Como se tom una amplitud un poco mayor de los datos
originales, el nuevo rango sera:
= # = 6 8 = 48
El recorrido original es 45, con lo que sobran 3 unidades,
las cuales podemos distribuir sumando unas unidades al
lmite superior y restando otras al lmite inferior,
preferiblemente distribuyndolo de manera proporcional.
1.

13/08/2015

Para este caso, restamos una unidad a = 47 1 = 46 y

sumamos dos unidades a = 92 + 2 = 94, para tener el


Rango obtenido de 48.
Y as se obtienen los 6 intervalos de clase determinados por
los valores siguientes:
1 = 47 1 = 46
46 + 8 = 54
54 + 8 = 62
62 + 8 = 70
70 + 8 = 78
78 + 8 = 86
86 + 8 = 94 = + 2

13/08/2015

Los intervalos son:

(46;54],(54;62],(62;70],(70;78],(78;86],(86;94]
Se agrupan los datos en los intervalos de clase y se obtiene
su distribucin de frecuencias, como se muestra:
Intervalo de Marca de
clase
clase

Frecuencia Frecuencia
Absoluta
Relativa

Frecuencia Frecuencia
Absoluta
Relativa
Acumulada Acumulada

(46 ; 54]

50

0,1

0,1

(54 ; 62]

58

0,2

0,3

(62 ; 70]

66

10

0,33

19

0,63

(70 ; 78]

74

0,2

25

0,83

(78 ; 86]

82

0,1

28

0,93

(86; 94]

90

0,07

30

30

Total

13/08/2015

REPRESENTACIONES GRFICAS
Un grfico estadstico es

una
representacin
pictrica, cuyo objetivo es
expresar
el
comportamiento de una
variable en estudio.

Un grfico sirve tambin

para comparar visualmente


el comportamiento de dos
o ms variables similares o
relacionadas

13/08/2015

PARTES DE UN GRFICO ESTADSTICO


1. Numeracin : De los grficos.
2. Ttulo: Aqu se seala la poblacin en estudio y la variable.

3. Diagrama: Dado por el propio dibujo el cual representa el

comportamiento de los datos.


4. Escalas y/o leyendas: Son indicadores donde se precisa la
correspondencia entre los elementos del grfico y la
naturaleza de la medidas representadas.
5. Fuente: Aqu se seala de donde se obtuvo la informacin
que permiti obtener el respectivo grfico.

13/08/2015

Numeracin

GRFICO N 02

Ttulo

DISTRIBUCION DE ALUMNOS SEGN ESCUELA PROFESIONAL UPNTRUJILLO 2009


30

Diagrama

26,5
23,5

PORCENTAJE ALUMNOS

25
20,6
20

17,7

15
10

8,8

2,9

Escalas

0
CONTAB.

CC. COMUNIC.

NEG. INT.

INDUSTRIAL

SISTEMAS

DERECHO

ESCUELAS PROFESIONALES

Fuente: oficina de Admisin UPN

Fuente
13/08/2015

TIPOS DE GRFICOS ESTADSTICOS


Hay varias formas de hacer la representacin grfica de un conjunto de datos
estadsticos. Presentaremos aqu los ms importantes:
a. Histograma
b. Polgono de
frecuencias
c. Grfico de barras
d. Tallos y hojas
e. Pictograma.
f. Cartograma, etc.

Variable

Cualitativa

Nominal

Ordinal

BARRAS, SECTORES

13/08/2015

Cuantitativa

Discreta
BARRAS

Continua
HISTOGRAMA
OJIVAS
SERIES DE
TIEMPO
13/08/2015

VARIABLES CUALITATIVAS
Diagrama de barras: se sitan en el eje horizontal las clases y
sobre cada una de ellas se levanta un segmento rectilneo (o un
rectngulo) de altura igual a la frecuencia (absoluta o relativa) de
cada clase. A continuacin se muestra el diagrama de barra para el
ejemplo 1.
Nacionalidad
14
12
10
rabe
8

Chino
Espaol

Italiano
4

Mexicano

2
0
rabe

Chino

Espaol

Italiano

Mexicano

13/08/2015

BARRAS SIMPLES
GRAFICO N 09
DISTRIBUCIN DE LOS 28 TRABAJADORES DE LA EMPRESA X
SEGN SU TIPO DE RELIGIN QUE PRACTICA. Febrero de 2014.

fi, hi

Frecuencia

50
45
40
35
30
25
20
15
10
5
0

46,4 %

35,7 %

17,9%

Catlico

Fuente: Cuadro N 07

cristiano

Testigo de jehova
Cualidad
o
Atributo
13/08/2015

BARRAS DOBLES
GRAFICO N 10
DISTRIBUCIN DE LAS VIVIENDAS DEL PORVENIR SEGN TENENCIA DE
SERVICIOS BASICOS EN LOS AOS 1972 Y 1992. FONCODES

Leyenda
Frecuencia

Fuente: Censo INEI 2005

13/08/2015

GRFICO DE SECTORES
Se divide el rea de un crculo en sectores circulares de
ngulos proporcionales a las frecuencias absolutas de clases.
A continuacin se muestra la grfica de sectores para el
ejemplo 1.
Grfico de Sectores por Nacionalidad
13%
22%

5%
rabe
Chino
Espaol
Italiano
28%

Mexicano
32%

13/08/2015

GRFICO N 14

DEFUNCIONES DE MENORES DE 5 AOS POR


ENFERMEDADES INMUNOPREVENIBLES 2008

Fuente: Departamento de estadstica DANE.


13/08/2015

VARIABLES CUANTITATIVAS CON DATOS NO AGRUPADOS


EN INTERVALOS
Diagrama de barras: igual que en el caso de variables
cualitativas. A continuacin se muestra el diagrama de barra
para el ejemplo 2.
Diagrama de Barras para Accidentes
14
12

Frecuencia

10
8

Frecuencia

4
2
0
0

Nmero de accidentes

13/08/2015

Polgono de frecuencias:
Se ubican los puntos resultantes de tomar en el eje horizontal
los distintos valores de la variable y en el eje vertical sus
correspondientes frecuencias (absolutas o relativas), uniendo
despus los puntos mediante segmentos rectilneos. A
continuacin se muestra el polgono de frecuencia para el
ejemplo 2.
Frecuencia de Accidentes
14
12

10
8
Frecuencia

6
4
2
0
0

13/08/2015

GRFICO DE FRECUENCIAS ACUMULADAS


Es la representacin grfica de las frecuencias acumuladas
(absolutas o relativas), para todo valor numrico. Si la
frecuencia acumulada (absoluta o relativa) de un valor
numrico no aparece en la distribucin de frecuencias,
entonces ser igual a la frecuencia acumulada (absoluta o
relativa) de la observacin inmediatamente anterior
(ordenadas de menor a mayor). Por lo tanto, el grfico de
frecuencias acumuladas siempre tiene forma de escalera.

13/08/2015

VARIABLES CUANTITATIVAS CON DATOS AGRUPADOS EN


INTERVALOS
Histograma de frecuencias: Para su representacin se
sitan en el eje horizontal los intervalos de clase y sobre cada
uno se levanta un rectngulo de rea proporcional a la
frecuencia absoluta.
(a) Si todos los intervalos tienen la misma amplitud,
entonces basta con hacer los rectngulos con una altura igual
a la frecuencia absoluta o relativa.
En la diapositiva siguiente se muestran los histogramas
resultantes tanto en Excel como en Statgraphics

13/08/2015

Frecuencia

Histograma
12
10
8
6
4
2
0

120,00%
100,00%
80,00%
60,00%
40,00%
20,00%
0,00%

Frecuencia
% acumulado

Clase

13/08/2015

(b) Si los intervalos tienen distinta amplitud, la


construccin del histograma presenta una importante
variacin. Una vez marcados sobre el eje horizontal los
extremos de los intervalos, hay que calcular la altura de los
rectngulos de forma que su rea sea igual o proporcional a
la frecuencia absoluta del intervalo.
Ejemplo 4. Sea la siguiente distribucin de frecuencias:

13/08/2015

La formula del rea de un rectngulo es base x altura y

tambin se considera que los rectngulos del histograma


van a tener un rea igual a la frecuencia absoluta. Por
ejemplo, para averiguar la altura del primer rectngulo, se
tiene en cuenta que la base es igual a 3 y el rea del
rectngulo es igual a 11, por lo tanto la altura debe ser igual
a 11/3 = 3,6667. Del segundo rectngulo: 10/2,5 = 4, del
tercero: 2/1 = 2, del cuarto: 1/1,5 = 0,6667, del quinto: 1/2 =
0,5.

13/08/2015

Grfico N 05
DISTRIBUCIN DE 20 EMPRESAS PRODUCTORAS DE CALZADO DE VESTIR SEGN SU
CAPITAL EN MILES DE DOLARES EN EL DISTRITO. MARZO 2009

fi, hi
10
9

9
8

Frecuencias
absolutas

6
5

4
3
2
1
0
300 - 350

350 - 400

Fuente: Tabla N 04

400 - 450

450 - 500

500 - 550

550 - 600

Intervalos

13/08/2015

POLGONO DE FRECUENCIAS
Se sitan los puntos que resultan de tomar en el eje horizontal las
marcas de clase de los intervalos y en el eje vertical sus
correspondientes frecuencias (absolutas o relativas), uniendo despus
los puntos mediante segmentos rectilneos. A continuacin se muestra
el polgono de frecuencias para el ejemplo 3.
Polgono de Frecuencias
12
10
8
6

Frecuencia

4
2
0
50

58

66

74

82

90

13/08/2015

POLGONO DE FRECUENCIAS ACUMULADAS


Se sitan los puntos que resultan de tomar en el eje
horizontal los extremos superiores de los intervalos de clase y
en el eje vertical sus correspondientes frecuencias
acumuladas, uniendo despus los puntos mediante
segmentos rectilneos. A continuacin se muestra el polgono
de frecuencias acumuladas para el ejemplo 3.
Pol. Frec Acum Ej 3
35
30
Frecuencia

25
20
Frec Acumulada

15
10

5
0
54,0

62,0

70,0

78,0

86,0

94,0

13/08/2015

DISTRIBUCIN: TALLO Y HOJAS


En el diagrama de tallo y hojas los datos puntuales se agrupan de

tal modo que se puede visualizar la forma de la distribucin


mientras que se mantiene la individualidad de los datos
puntuales.
Un diagrama de tallos y hojas consiste en una serie de hileras

horizontales de nmeros. El numero utilizado para designar una


hilera es su tallo, el resto de nmeros de la hilera se denominan
hojas.
Pasos a seguir para disear el diagrama de tallo y hojas:

13/08/2015

DISEO DE UN DIAGRAMA DE TALLO Y HOJAS


SIMPLE
1. Se eligen algunos nmeros oportunos que puedan servir de tallos.
Para facilitar la determinacin de la forma se necesitan al menos 5
tallos. Los tallos elegidos generalmente son el primero o los dos
primeros dgitos de los nmeros del conjunto de datos.
2. Se nombran las hileras mediante los tallos elegidos.
3. Se reproducen grficamente los datos registrando el dgito,
siguiendo el tallo, como una hoja del tallo adecuado.
4. Se gira el grfico hacia un lado para ver como se distribuyen los
nmeros. En concreto, se intenta responder a preguntas como:
a. Los datos tienden a agruparse cerca de un tallo o tallos en
particular o se distribuyen de forma uniforme por el diagrama?

13/08/2015

b. Los datos tienden a juntarse hacia un extremo u otro del diagrama?


c. Si se traza una curva a lo largo de la parte superior del diagrama forma
ms o menos una campana? Es plana? Es simtrica?
Ejemplo: (Walpole, 8 ed.) Los siguientes datos representan la duracin de
vida, en aos, medida al decimal ms cercano, de 30 bombas de
combustible similares:
2

0,3

3,3

1,3

0,4

0,2

5,5

6,5

0,2

2,3

1,5

5,9

1,8

4,7

0,7

4,5

0,3

1,5

0,5

2,5

5,6

1,2

0,2

Construya un Diagrama de TyH para la vida, en aos, de las bombas de


combustible, utilizando el dgito a la izquierda del punto decimal como el
tallo para cada observacin.

13/08/2015

A continuacin se representan los datos grficamente representando el


nmero que aparece despus de la coma decimal como una hoja del
tallo apropiado.
En la siguiente figura se visualiza todo el conjunto de datos.
Tallo
0
1
2
3
4
5
6

2
0
0
0
0
0
0

2
2
3
3
5
5
0

2
3
5

7
6
0

Hojas
3 3
5 5

9
5

4
8

Frecuencia
8
6
3
2
3
4
4

Observando el diagrama, puede deducirse que estos datos se aproximan


al extremo inferior de la escala. Tambin se observa que el diagrama no
es simtrico. Hay ms bien una cola larga en el extremo superior, con
una cada en el centro y una ligera recuperacin hacia el extremo
derecho.

13/08/2015

Diseo de un diagrama de tallos dobles


Algunas veces, la utilizacin del primero o los dos primeros dgitos de

los datos puntuales como tallos no proporciona suficientes tallos como


para permitir detectar la forma. Una manera de solucionar este
problema es utilizar tallos dobles. Es decir, utilizar cada tallo dos veces:
una vez para trazar las hojas inferiores 0, 1, 2, 3, 4 y la siguiente para
trazar las hojas superiores 5, 6, 7, 8, 9.
Ejemplo (Walpole): Los siguientes datos representan la duracin de la
vida, en segundos, de 50 moscas frutales que se someten a un nuevo
aerosol en un experimento de laboratorio controlado:
17

20

10

23

13

12

19

18

24

12

14

13

10

13

16

18

13

32

10

11

13

18

10

27

19

16

10

14

15

10

15
13/08/2015

Cuatro tallos no son suficientes para detectar la forma. Se utilizarn dos

veces cada uno de los tallos y se formar un grfico de tallo doble con
hojas inferiores y hojas superiores. A continuacin se presenta el
diagrama obtenido:
Tallo

Hojas

Frecuencia
2

0*
0.

1*

1.

2*

2.

3*

17
16
10
3

Se observa que los datos tienden a agruparse en el tiempo entre 5 y 14

segundos, teniendo un ligero sesgo hacia la izquierda.

13/08/2015

MEDIDAS DE POSICIN
Son valores que nos sirven para indicar la posicin alrededor de la cual

se distribuyen las observaciones. Solo se calculan cuando la variable es


cuantitativa. Veamos las ms usuales:
Moda

Se denotar por Mo. No necesariamente es nica.


1. Datos no agrupados en intervalos.
Mo es el dato (o datos) con mayor frecuencia absoluta.
En el ejemplo 2: Mo = 2.
2. Datos agrupados en intervalos.
Intervalo modal: Aquel que tiene mayor frecuencia absoluta. No
necesariamente es nico.

13/08/2015

(a) Intervalo modal no nico.


Las modas son las marcas de clase de los intervalos modales
(b) Intervalo modal nico.
Intervalos de la misma amplitud.
1
= +
( )
2 +1 1 +1
donde ( , +1 ] es el intervalo modal, es su frecuencia absoluta, 1 es
la frecuencia absoluta del intervalo anterior al modal, y +1 es la
frecuencia absoluta del intervalo posterior al modal.
En el ejemplo del peso en Kg de las cajas: El intervalo modal es (62,70] y la
moda es
10 6
= 62 +
70 62 = 62 + 4 = 66
2 10 6 6

13/08/2015

Intervalos de distinta amplitud.

1
= +
( )
2 +1 1 +1
donde ( , +1 ] es el intervalo modal, es la altura del rectngulo del
histograma que tiene de base al intervalo modal, 1 es la altura del
rectngulo del histograma que tiene de base al intervalo anterior al
modal, y +1 es la altura del rectngulo del histograma que tiene de base
al intervalo posterior al modal.

En el ejemplo 4: El intervalo modal es [0; 3] y la moda es:

11

0
3
= 0 +
3 0 = 3 1,1 = 3,3
11
2
3 40

13/08/2015

MEDIANA
Se denotar por Me. Es el valor que tiene la propiedad de dejar a su

izquierda el 50% de las observaciones y a su derecha el 50% restante,


siempre que se hayan ordenado los datos de menor a mayor. Por
tanto, la frecuencia absoluta acumulada de la mediana es igual a n/2,
siendo n el numero total de datos.
Datos no agrupados en intervalos.
(a) Si en la distribucin de frecuencias no aparece ninguna
frecuencia absoluta acumulada igual a n/2 entonces se toma como
mediana el valor cuya frecuencia absoluta acumulada sea la ms
prxima a n/2 por exceso. Un caso en que esto ocurre es cuando el
numero total de datos es impar; en cuyo caso tambin se puede
hallar la mediana como el dato central, una vez que los datos estn
ordenados de menor a mayor.
1.

13/08/2015

En el ejemplo del nmero de accidentes en empresas:

n/2 = 30/2 = 15, por lo que no hay ningn dato cuya frecuencia
acumulada sea igual a n/2. Entonces, se toma como mediana el
siguiente dato; es decir, el dato cuya frecuencia acumulada es 21. Por
tanto, Me = 2.
(b) Si en la distribucin de frecuencias aparece la frecuencia absoluta
acumulada igual a n/2 entonces ocurre que hay todo un intervalo [a, b)
de valores cuya frecuencia absoluta acumulada es igual a n/2. En este
caso se toma como mediana el valor

Me = a + b
2
Donde a es el dato con la frecuencia acumulada igual a n/2 y b el dato
con la frecuencia acumulada siguiente.

13/08/2015

2. Datos agrupados en intervalos.


Intervalo mediano: intervalo que contiene a la mediana. Es el
primer intervalo cuya frecuencia absoluta acumulada (Fi) es igual o
mayor que n/2.

1
= + 2
(+1 )

donde ( , +1 ] es el intervalo mediano, es su frecuencia absoluta


y 1 es la frecuencia absoluta acumulada del intervalo anterior al
mediano.
En el ejemplo de las cajas: El intervalo mediano es (62,70] y la mediana es:
15 9
= 62 +
70 62 = 66,8
10

13/08/2015

PERCENTIL O CUANTIL
El percentil (o cuantil) al r% es aquel valor que deja a su izquierda el r% de
las observaciones y a su derecha el (100r)% restante, siempre que se
hayan ordenado los datos de menor a mayor. Se suele denotar por Pr (o por
Cr). El clculo de los percentiles se hace de modo similar al clculo de la
mediana, teniendo en cuenta que el percentil al r% verifica que su
frecuencia absoluta acumulada es igual a:

100
Calcule los percentiles 25 y 75 en el ejemplo 2 (Accidentes)
En el ejemplo de accidentes:

100

3025
100

= 7,5, por lo que no hay ningn

dato cuya frecuencia acumulada sea igual a


. Entonces, se toma como
100
percentil el siguiente dato; es decir, el dato cuya frecuencia acumulada es
9. Por tanto, P25 = 1. En forma anloga se determina que P75 = 3 ya que:

3075
=
= 22,5, y el siguiente dato tiene como frecuencia acumulada
100
100
28.
13/08/2015

Cuando los datos estn agrupados en intervalos de clase, la formula del


percentil al r % es:

1
100
= +
(+1 )

donde ( , +1 ] es el intervalo que contiene a , es su frecuencia


absoluta y 1 es la frecuencia absoluta acumulada del intervalo
anterior.
En el ejemplo de las cajas:
percentil 25 es (54,62) y

100

100

3025
100

3075
100

= 7,5, entonces el intervalo del

= 22,5, entonces el intervalo del

percentil 75 es (70,78). Por lo tanto, los percentiles son:


25 = 54 +
75 = 70 +

7,5 3
62 54 = 54 + 6 = 60
6

22,5 19
78 70 = 70 + 4,67 = 74,67
6
13/08/2015

Algunos percentiles especiales son:


Cuartiles: Primer cuartil = Q1 = P25, Segundo cuartil = Q2 = P50 = Me y

Tercer cuartil = Q3 = P75.


Deciles: Primer decil = D1 = P10, Segundo decil = D2 = P20, ...,

Noveno decil = D9 = P90.

MEDIA ARITMTICA
Si 1 , 2 , , son los n valores de la muestra, su media aritmtica es:
1 + 2 + +
=

13/08/2015

Si los valores de los datos son x1, x2, ..., xk, y ellos aparecen con frecuencias
absolutas respectivas f1, f2, ..., fk(con f1+f2+...+fk= n) entonces la expresin
de la media aritmtica es:

1 1 + 2 2 + +
=
=


=1

Si los datos estn agrupados en intervalos de clase, la frmula de la media


aritmtica es la misma, salvo que xi representa la marca de clase del
intervalo i-simo.
En el ejemplo 2 (Accidentes): La media es:
=

(0 3) + (1 6) + + (4 2) 59
=
= 1,9667
30
30

En el ejemplo 3 (Peso Kg de las cajas): La media es:


=

(50 3) + (58 6) + + (90 2) 2028


=
= 67,6
30
30
13/08/2015

Dado que la media aritmtica es la mas comn, en adelante se le


llamar solo media.
Si se dispone de los datos de toda la poblacin, entonces
representamos la media aritmtica por la letra griega (que se lee
miu).

Propiedades de la media
1. Si = + , siendo a y b constantes, entonces la media de la
nueva variable es = +
2. Si = , entonces = 0.

13/08/2015

OTRAS MEDIAS
Media ponderada:Consiste en asignar a cada valor xi de los datos un
peso pi que depende de su importancia relativa bajo algn criterio.
La definicin de la media ponderada es:

1 1 + 2 2 + +
=1
=
=
1 + 2 + +
=1
Si los datos de la muestra son x1, x2, ..., xk, y ellos aparecen con

frecuencias absolutas respectivas f1, f2, ..., fk (con f1+f2+...+ fk= n),
entonces se definen:
Media geomtrica:
=

1 1 2 2

13/08/2015

Media cuadrtica:

2
=1

12 1 + 22 2 + + 2
=

Media armnica:
=

1 2

+ + +
1 2


=1

En las tres definiciones anteriores, si los datos estn agrupados en


intervalos, entonces representa la marca de clase del interval i-simo.
Fijada una muestra cualquiera, siempre se verifica:

13/08/2015

MEDIDAS DE DISPERSIN
Son valores que miden el grado de separacin de las observaciones entre
s o con respecto a ciertas medidas de posicin. Solo se calculan cuando la
variable es cuantitativa.
Recorrido: Es una medida de dispersin global que se define como la
diferencia entre la observacin mayor, xmx, y la observacin menor, xmn, y
se denota por R; es decir:
=
Si el recorrido es pequeo entonces los datos estn poco dispersos.
En el ejemplo 2 (Accidentes): El recorrido es:
=40=4
En el ejemplo 3: (Peso de las cajas en Kg) El recorrido es:
R = 92 47 = 45.
13/08/2015

Recorrido intercuartlico
Se denota por RI y se define como la diferencia entre el tercer
cuartil y el primer cuartil; es decir:
RI = Q3 Q1.
Si el recorrido intercuartlico es pequeo entonces los datos estn
cerca de la mediana; en caso contrario, los datos estn alejados de
ella.
En el ejemplo 2: El recorrido intercuartlico es:
RI = 3 1 = 2.
En el ejemplo 3: El recorrido intercuartlico es:
RI = 74,67 60 = 14,67.

13/08/2015

DESVIACIN MEDIANA
Si los datos de la muestra son x1, x2, ..., xk, y ellos aparecen con
frecuencias absolutas respectivas f1, f2, ..., fk (con f1+f2+...+ fk= n),
entonces se define la desviacin mediana como:

=1
=

Si los datos estn agrupados en intervalos, representa la marca de


clase del intervalo i-simo.

Cuando DMe es pequea, entonces los datos estn cerca de la mediana,


en caso contrario, los datos estn alejados de la mediana.

13/08/2015

En el ejemplo 2 (Accidentes): La desviacin mediana es:

0 2 3 + 1 2 6 + + 4 2 2 23
=
=
= 0,7667
30
30
En el ejemplo 3 (Peso de las cajas): La desviacin mediana es:
50 66,8 3 + 58 66,8 6 + + 90 66,8 2
=
= 8,2133
30

13/08/2015

Desviacin media
Si los datos de la muestra son x1, x2, ..., xk y ellos aparecen con
frecuencias absolutas respectivas f1, f2, ..., fk (con f1+f2+...+ fk= n),
entonces:

=1
=

Si los datos estn agrupados en intervalos, xi representa la marca de


clase del intervalo i-simo.
Cuando es pequea, entonces los datos estn cerca de la media. En
caso contrario, los datos estn alejados de la media.

13/08/2015

En el ejemplo 2 (Accidentes): La desviacin media es:


0 1,9667 3 + 1 1,9667 6 + + 4 1,9667 2
=
30
= 0,5467
En el ejemplo 3 (Peso de las cajas): La desviacin media es:
50 67,6 3 + 58 67,6 6 + + 90 67,6 2
=
= 8,4267
30

Varianza y desviacin tpica


Si los datos de la muestra son x1, x2, ..., xk, y ellos aparecen con frecuencias
absolutas respectivas f1, f2, ..., fk (con f1+f2+...+ fk= n), entonces se definen:

13/08/2015

Varianza (algunos autores la llaman varianza sesgada o poblacional):

=1

2
2
=
=

En el ejemplo 2: La varianza es:

2
=1

2
2
2
0

3
+
1

6
+

+
4
2
2
=
1,96672 = 1,0989
30

En el ejemplo 3: La varianza es:


2
2
2
50

3
+
58

6
+

+
90
2
2 =
67,62 = 112,64
30

13/08/2015

Desviacin tpica: raz cuadrada de la varianza poblacional:

=1

2
=

2
=1

En el ejemplo 2: La desviacin tpica es


=

1,0989 = 1,0483

En el ejemplo 3: La desviacin tpica es


=

112,64 = 10,6132

13/08/2015

Cuasivarianza (algunos autores la llaman varianza insesgada, varianza


corregida, slo varianza o varianza muestral):
2

=1

2
=
1

=1

En el ejemplo 2: La Cuasivarianza es:


2
2
2
2
(0

3
+
1

6
+

+
4

2)

(30

1,9667
)
2
=
= 1,1368
29

En el ejemplo 3: La Cuasivarianza es:


2 3 + 582 6 + + 902 2) (30 67,62 )
(50
2 =
= 116,524
29

13/08/2015

Cuasidesviacin tpica: raz cuadrada de la cuasivarianza:

=1

2
=
1

=1

Ms conocida como desviacin estndar muestral.


En el ejemplo 2: La cuasidesviacin tpica es

1,1368 = 1,0662

En el ejemplo 3: La cuasidesviacin tpica es:


=

116,524 = 10,7946

13/08/2015

En consecuencia, la varianza y la cuasivarianza estn relacionadas de la


siguiente forma:
1 2 = 2
por lo cual se puede calcular una de ellas a partir de la otra.
Si los datos estn agrupados en intervalos de clase, las frmulas anteriores
son las mismas, salvo que representa la marca de clase del intervalo isimo.
Cuando la desviacin tpica (o la cuasidesviacin tpica) es pequea,
entonces los datos estn cerca de la media. En caso contrario, los datos
estn alejados de la media.
Si disponemos de los datos de toda la poblacin, la varianza se denota
por 2 y la desviacin tpica por (letra griega que se lee sigma).
13/08/2015

PROPIEDAD DE LA VARIANZA
Si = + , siendo a y b constantes, entonces la varianza de la nueva
variable es 2 = 2 2 , y por tanto la desviacin tpica es =
COEFICIENTE DE VARIACIN

= ;

= 100%

Algunos autores sustituyen por en la frmula anterior.


Si 0,15, la muestra se considera homognea; si 0,15 < 0,45 es
medianamente homognea y si 0,45, se considera heterognea

13/08/2015

Este coeficiente nos sirve para comparar la dispersin relativa de dos


muestras distintas. La muestra que tenga un coeficiente de variacin ms
grande es la ms heterognea (sus datos estn ms dispersos).

En el ejemplo 2: El coeficiente de variacin es


1,0662
=
= 0,542
1,9667
Estos datos son heterogneos
En el ejemplo 3: El coeficiente de variacin es

10,7946
=
= 0,1597
67,6
Los datos presentan mediana homogeneidad. (Igual es la
representatividad de la media aritmtica)

13/08/2015

PUNTAJE TPICO ESTANDARIZADO Z


Dada una variable X con media y desviacin
estndar S, la normalizacin consiste en realizar la
transformacin:
=

Esta nueva variable Z tiene media 0 y desviacin

estndar 1.
El uso ms importante de la normalizacin es para
comparar distintas distribuciones an en el caso
que sus unidades vengan expresadas en diferentes
unidades.
13/08/2015

Ejemplo (Schaum): Un estudiante obtuvo 84 puntos en el

examen final de Matemticas, en el que la nota media fue 76,


y la desviacin estndar 10. En el examen final de fsica obtuvo
90 puntos, siendo la media 82 y la desviacin estndar 16. En
qu examen sobresali ms?
Solucin: Para efectuar las comparaciones, podemos emplear
el puntaje tpico estandarizado Z para comparar las
distribuciones de matemticas y fsica:
=

8476
10

= 0,8, y =

9082
16

= 0,5

Se puede ver que la puntuacin tpica del estudiante en

matemticas est 0,8 veces sobre la media, mientras que para


fsica est 0,5 desviaciones tpicas por encima de la media. El
estudiante tuvo mejor desempeo en matemticas.

13/08/2015

DIAGRAMA DE CAJA Y BIGOTES


El diagrama de caja y bigotes (boxplot) es una representacin

grfica de un conjunto de datos que facilita la percepcin visual de


la posicin, extensin y el grado y la direccin del sesgo. Tambin
permite identificar los datos atpicos. Es especialmente til cuando
se desean comparar dos o ms conjuntos de datos.

Un diagrama de caja es un grfico, basado en cuartiles, mediante el

cual se visualiza un conjunto de datos. Est compuesto por un


rectngulo, la caja, y dos brazos, los bigotes. Suministra
informacin sobre los valores mnimo y mximo, los cuartiles Q1,
Q2 (o mediana) y Q3, y sobre la existencia de valores atpicos y la
simetra de la distribucin.

13/08/2015

PASOS PARA LA ELABORACIN DE UN DIAGRAMA DE


CAJA Y BIGOTES
1. Se ordenan los datos y se calculan el valor mnimo, el mximo, los
cuartiles Q1, Q2 y Q3 y el Rango Intercuartlico (RI).
En el ejemplo:(ver la figura del grfico de caja y bigotes)
Valor 7: es el Q1 (25% de los datos).
Valor 8,5: es el Q2 o mediana (el 50% de los datos).
Valor 9: es el Q3 (75% de los datos).
Rango Intercuartlico RI = (Q3 Q1) = 2.
2. Dibujar un rectngulo con Q1 y Q3 como extremos e indicar la
posicin de la mediana (Q2) mediante una lnea.

13/08/2015

3. Para dibujar los bigotes, las lneas que se extienden desde la caja,
hay que calcular los lmites superior e inferior, Li y Ls, que
identifiquen a los valores atpicos. Para ello se calcula cuando se
consideran atpicos los valores. Son aquellos inferiores a Q1 1,5RI o
superiores a Q3 + 1,5RI.
En el ejemplo: inferior: 7 (1,5x2) = 4;
superior: 9 + (1,5x2) = 12.
4. Ahora se buscan los ltimos valores que NO son atpicos, que sern
los extremos de los bigotes.
En el ejemplo: 5 y 10.
5. Marcar como atpicos todos los datos que estn fuera del intervalo
(Li, Ls).
En el ejemplo: 0,5 y 3,5.

13/08/2015

6. Adems, se pueden considerar valores extremadamente atpicos que


exceden Q1 3RI Q3 + 3RI.
De modo que, en el ejemplo: inferior: inferior: 7 (3x2) = 1;
superior: 9 + (3x2) = 15.
El valor 0,5 seria atpico extremo (se denota mediante asterisco) y el 3,5
ser atpico moderado (se denota mediante crculo abierto).

13/08/2015

Se observa en el grfico de caja y bigotes del ejemplo de la duracin de la


vida de las bombas, que la media (cruz de color rojo) es mayor que la
mediana (lnea azul dentro de la caja), lo cual indica una mayor
concentracin de los datos a la izquierda (vida baja para las bombas). Lo
anterior tambin se constata al comparar los datos rectngulos formados
al separar por la lnea mediana y el largo de los bigotes. No se observan
datos atpicos para estos datos, y las longitudes de los bigotes estn dadas
por los valores mnimo y mximo (0,2 y 6,5 aos).
13/08/2015

En el grfico de caja y bigotes del ejemplo de las moscas frutales se


observa que los valores de la mediana y media estn cercanos entre s.
La mayora de datos estn para valores bajos de la vida de la mosca
frutal, lo que muestra que el aerosol es efectivo. Existe un solo dato
atpico, para la vida de 32 segundos, ya que excede el valor 16 + 1,5(9) =
29,5 (Y el bigote derecho llega al dato 27).

13/08/2015

MOMENTOS
Si los datos de la muestra son x1, x2, ..., xk y ellos aparecen con frecuencias
absolutas respectivas f1, f2, ..., fk (con f1+f2+...+fk = n),
Entonces se definen:
Momento de orden k respecto del origen:

=1

, = 1,2,3

Momento de orden k respecto de la media:


=

=1


, = 1,2,3

13/08/2015

Algunos casos particulares son:


1 = = .
1 = 0
2 = 2 =
Desarrollando el binomio se puede comprobar que existe una
relacin entre los momentos respecto al origen y los momentos respecto
de la media; por ejemplo:
2 = 2 12

3 = 3 32 1 + 213

4 = 4 43 1 + 62 12 314

13/08/2015

MEDIDAS DE FORMA
A travs de las representaciones grficas (histogramas, diagramas de
barras, etc.) nos podemos hacer una idea sobre la forma de las
distribuciones, pero tambin resulta importante cuantificar esta
caracterstica a travs de las medidas de forma.

Las caractersticas bajo-ancho, alto-estrecho se miden respecto de una


curva modelo llamada curva Normal.

13/08/2015

Esta curva es la representacin grfica de la siguiente funcin:


=

1
2

1
2( )2

donde x, y son nmeros reales, siendo adems > 0; e es la base de los


logaritmos neperianos (e = 2, 7182818....) y es la relacin de la longitud de
una circunferencia a su dimetro (= 3,1415926...).
Para cada par de valores de y tendremos una curva Normal distinta.
Es decir, se tiene una familia de curvas. Pero todas ellas coinciden en
algunas propiedades, como, por ejemplo:
a) Tiene un nico mximo para x = .
b) Es simtrica respecto al eje vertical que pasa por x = .
c) Se acerca asintticamente al eje horizontal. En otras palabras, se acerca
ms y ms a ese eje, tanto por la derecha como por la izquierda, sin llegar a
tocarlo en ningn punto.

13/08/2015

ASIMETRA
Se dice que una distribucin presenta una asimetra positiva o por la
derecha cuando su polgono de frecuencias (absolutas o relativas) es
similar a la Figura (a). Anlogamente, se dice que una distribucin
presenta una asimetra negativa o por la izquierda cuando su polgono de
frecuencias (absolutas o relativas) tiene una forma parecida a la Figura
(b). Diremos que una distribucin presenta simetra cuando su polgono
de frecuencias (absolutas o relativas) es similar a la Figura de la curva
normal presentada en medidas de forma).

13/08/2015

Para las distribuciones unimodales, como medida de asimetra se suele


utilizar el coeficiente de asimetra de Pearson, que se define por la
expresin:

=

que permite distinguir los casos:


a) CA = 0 (distribucin simtrica),
b) CA > 0 (distribucin asimtrica por la derecha),
c) CA < 0 (distribucin asimtrica por la izquierda).
En el ejemplo 2: El coeficiente de asimetra es:
1,9667 2
=
= 0,0318 ( )
1,0483
En el ejemplo 3: El coeficiente de asimetra es:
67,6 66
=
= 0,1508 ( )
10,6132

13/08/2015

Cuando la distribucin no es unimodal no se puede emplear el anterior


coeficiente, por lo que se introduce el coeficiente de asimetra de Fisher,
que viene dado por:
3
1 = 3

que permite distinguir los casos:


a) 1 = 0 (distribucin simtrica),
b) 1 > 0 (distribucin asimtrica por la derecha),
c) 1 < 0 (distribucin asimtrica por la izquierda).
En el ejemplo 2:
(0 1,9667)3 3 + (4 1,9667)3 2 3,7022
1 =
=
= 0,1071
1,04833 30
34,5583
La distribucin es asimtrica por la izquierda.

13/08/2015

En el ejemplo 3:
(50 67,6)3 3 + (90 67,6)3 2 11304,96
1 =
=
= 0,3152
10,61323 30
35864,12
La distribucin es asimtrica por la derecha.
APUNTAMIENTO O KURTOSIS
Si el polgono de frecuencias (absolutas o relativas) es anlogo a la curva
Normal, entonces se dice que la distribucin es mesocrtica (ver la Figura
de la Curva normal); si es ms elevado y estrecho que la curva Normal,
entonces se llama distribucin leptocrtica (ver la Figura (a)); y si es
menos elevado y ms ancho que la curva Normal, entonces se llama
distribucin platicrtica (ver la Figura (b)).

13/08/2015

Como medida del apuntamiento de la distribucin se utiliza el


coeficiente de kurtosis, dado por:
4
2 = 4 3

permitiendo distinguir los casos:


a) g2 = 0 (distribucin mesocrtica),
b) g2 > 0 (distribucin leptocrtica),
c) g2 < 0 (distribucin platicrtica).

13/08/2015

En el ejemplo 2:
(0 1,9667)4 3 + (4 1,9667)4 2
92,2866
4 =
3=
3
1,04834 30
36,2267
= 0,4525
La distribucin es platicrtica.
En el ejemplo 3:
(50 67,6)4 3 + (90 67,6)4 2
981467,136
4 =

3
=
3
4
10,6132 30
380633,088
= 0,4215
La distribucin es platicrtica.

13/08/2015

Referencias
1.

G. C. Canavos. 1988. Probabilidad y Estadstica - Aplicaciones y


Mtodos. Mc. Graw Hill, Mxico.

2.

S. J. Milton. 1994. Estadstica para Biologa y Ciencias de la Salud.


Segunda edicin Interamericana-McGraw-Hill

3.

Martnez Bencardino, Ciro. Estadstica Bsica Aplicada. 3 ed.


ECOE Ediciones, 2008.

13/08/2015