Documente Academic
Documente Profesional
Documente Cultură
DEFINICIONES BSICAS
Estadstica: Ciencia que recoge, clasifica,
representa y resume los datos de muestras, as
como de establecer inferencias de las poblaciones
de las cuales ellas provienen.
Estadstica Descriptiva: Resumen muestras
Estadstica
Inferencial: Conclusiones
poblacin a partir de las muestras.
de
la
13/08/2015
CONCEPTOS GENERALES
Poblacin: Conjunto de individuos con propiedades
TIPOS DE VARIABLES
Multiestado: Pueden tomar ms de 2 valores
Binarias: Toman slo 2 valores (S o No)
Cualitativas: Expresan cualidades o atributos (Color)
Ordinales: Admiten ordenacin de menor a mayor, pero con resultados
utilizada (Peso)
Derivadas: Clculos simples de Variables discretas o continuas (IMC)
13/08/2015
ESCALAS DE MEDIDA
Nominal: La cantidad que se mide no tiene
secuencia lgica (Sexo)
Ordinal: Las observaciones pueden ordenarse de
menor a mayor, pero las distancias no tienen
sentido. (Calidad)
13/08/2015
13/08/2015
TABULACIN DE DATOS
Variables Cualitativas: Nacionalidad
Ejemplo 1: Datos cualitativos (no ordenados)
Espaol
Espaol
Espaol
Italiano
Espaol
Espaol
rabe
rabe
Mexicano
rabe
Chino
Chino
rabe
Mexicano
Chino
Mexicano
rabe
Mexicano
Chino
rabe
Chino
Chino
Mexicano
rabe
Chino
Chino
Espaol
Espaol
Chino
Chino
rabe
Espaol
Italiano
Espaol
rabe
Chino
Espaol
Chino
Chino
Espaol
13/08/2015
CONCEPTOS Y FRMULAS
Frecuencia Absoluta clase i-sima: = Cantidad de
con n el nmero
total de datos. Se puede expresar en forma decimal o en
porcentaje.
Propiedades:
1 + 2 + + =
1 + 2 + + = 1
Con kel nmero de clases.
Distribucin de frecuencias: Tabla que contiene las clases y
frecuencias correspondientes a cada una de ellas.
13/08/2015
anteriores (Nacionalidad):
Nacionalidad
Frecuencia Frecuencia
Porcentaje
Absoluta
Relativa
rabe
0,225
22,50%
Chino
13
0,325
32,50%
Espaol
11
0,275
27,50%
Italiano
0,05
5,00%
Mexicano
0,125
12,50%
TOTAL
40
100,00%
13/08/2015
VARIABLES DISCRETAS
Ejemplo 2: La siguiente tabla recoge el nmero de
13/08/2015
= 1 + 2 + + =
13/08/2015
Nmero de
accidentes
Frecuencia Frecuencia
Absoluta
Relativa
Frecuencia Frecuencia
Absoluta
Relativa
Acumulada Acumulada
0,1
0,1
0,2
0,3
12
0,4
21
0,7
0,23
28
0,93
0,07
30
TOTAL
30
13/08/2015
VARIABLES CONTINUAS
Generalmente se divide el intervalo de valores posibles en
13/08/2015
48
70
92
85
52
56
63
70
68
58
60
72
69
82
76
67
76
61
55
57
47
74
71
65
72
70
67
79
88
67
13/08/2015
Se calcula el Rango = = 92 47 = 45
2. Nmero
de
intervalos:
= 1 + 3,3 log = 1 +
3,3 log 30 = 5,87 6
3. La amplitud de cada intervalo es
45
= =
= 7,5 8
6
Como se tom una amplitud un poco mayor de los datos
originales, el nuevo rango sera:
= # = 6 8 = 48
El recorrido original es 45, con lo que sobran 3 unidades,
las cuales podemos distribuir sumando unas unidades al
lmite superior y restando otras al lmite inferior,
preferiblemente distribuyndolo de manera proporcional.
1.
13/08/2015
13/08/2015
(46;54],(54;62],(62;70],(70;78],(78;86],(86;94]
Se agrupan los datos en los intervalos de clase y se obtiene
su distribucin de frecuencias, como se muestra:
Intervalo de Marca de
clase
clase
Frecuencia Frecuencia
Absoluta
Relativa
Frecuencia Frecuencia
Absoluta
Relativa
Acumulada Acumulada
(46 ; 54]
50
0,1
0,1
(54 ; 62]
58
0,2
0,3
(62 ; 70]
66
10
0,33
19
0,63
(70 ; 78]
74
0,2
25
0,83
(78 ; 86]
82
0,1
28
0,93
(86; 94]
90
0,07
30
30
Total
13/08/2015
REPRESENTACIONES GRFICAS
Un grfico estadstico es
una
representacin
pictrica, cuyo objetivo es
expresar
el
comportamiento de una
variable en estudio.
13/08/2015
13/08/2015
Numeracin
GRFICO N 02
Ttulo
Diagrama
26,5
23,5
PORCENTAJE ALUMNOS
25
20,6
20
17,7
15
10
8,8
2,9
Escalas
0
CONTAB.
CC. COMUNIC.
NEG. INT.
INDUSTRIAL
SISTEMAS
DERECHO
ESCUELAS PROFESIONALES
Fuente
13/08/2015
Variable
Cualitativa
Nominal
Ordinal
BARRAS, SECTORES
13/08/2015
Cuantitativa
Discreta
BARRAS
Continua
HISTOGRAMA
OJIVAS
SERIES DE
TIEMPO
13/08/2015
VARIABLES CUALITATIVAS
Diagrama de barras: se sitan en el eje horizontal las clases y
sobre cada una de ellas se levanta un segmento rectilneo (o un
rectngulo) de altura igual a la frecuencia (absoluta o relativa) de
cada clase. A continuacin se muestra el diagrama de barra para el
ejemplo 1.
Nacionalidad
14
12
10
rabe
8
Chino
Espaol
Italiano
4
Mexicano
2
0
rabe
Chino
Espaol
Italiano
Mexicano
13/08/2015
BARRAS SIMPLES
GRAFICO N 09
DISTRIBUCIN DE LOS 28 TRABAJADORES DE LA EMPRESA X
SEGN SU TIPO DE RELIGIN QUE PRACTICA. Febrero de 2014.
fi, hi
Frecuencia
50
45
40
35
30
25
20
15
10
5
0
46,4 %
35,7 %
17,9%
Catlico
Fuente: Cuadro N 07
cristiano
Testigo de jehova
Cualidad
o
Atributo
13/08/2015
BARRAS DOBLES
GRAFICO N 10
DISTRIBUCIN DE LAS VIVIENDAS DEL PORVENIR SEGN TENENCIA DE
SERVICIOS BASICOS EN LOS AOS 1972 Y 1992. FONCODES
Leyenda
Frecuencia
13/08/2015
GRFICO DE SECTORES
Se divide el rea de un crculo en sectores circulares de
ngulos proporcionales a las frecuencias absolutas de clases.
A continuacin se muestra la grfica de sectores para el
ejemplo 1.
Grfico de Sectores por Nacionalidad
13%
22%
5%
rabe
Chino
Espaol
Italiano
28%
Mexicano
32%
13/08/2015
GRFICO N 14
Frecuencia
10
8
Frecuencia
4
2
0
0
Nmero de accidentes
13/08/2015
Polgono de frecuencias:
Se ubican los puntos resultantes de tomar en el eje horizontal
los distintos valores de la variable y en el eje vertical sus
correspondientes frecuencias (absolutas o relativas), uniendo
despus los puntos mediante segmentos rectilneos. A
continuacin se muestra el polgono de frecuencia para el
ejemplo 2.
Frecuencia de Accidentes
14
12
10
8
Frecuencia
6
4
2
0
0
13/08/2015
13/08/2015
13/08/2015
Frecuencia
Histograma
12
10
8
6
4
2
0
120,00%
100,00%
80,00%
60,00%
40,00%
20,00%
0,00%
Frecuencia
% acumulado
Clase
13/08/2015
13/08/2015
13/08/2015
Grfico N 05
DISTRIBUCIN DE 20 EMPRESAS PRODUCTORAS DE CALZADO DE VESTIR SEGN SU
CAPITAL EN MILES DE DOLARES EN EL DISTRITO. MARZO 2009
fi, hi
10
9
9
8
Frecuencias
absolutas
6
5
4
3
2
1
0
300 - 350
350 - 400
Fuente: Tabla N 04
400 - 450
450 - 500
500 - 550
550 - 600
Intervalos
13/08/2015
POLGONO DE FRECUENCIAS
Se sitan los puntos que resultan de tomar en el eje horizontal las
marcas de clase de los intervalos y en el eje vertical sus
correspondientes frecuencias (absolutas o relativas), uniendo despus
los puntos mediante segmentos rectilneos. A continuacin se muestra
el polgono de frecuencias para el ejemplo 3.
Polgono de Frecuencias
12
10
8
6
Frecuencia
4
2
0
50
58
66
74
82
90
13/08/2015
25
20
Frec Acumulada
15
10
5
0
54,0
62,0
70,0
78,0
86,0
94,0
13/08/2015
13/08/2015
13/08/2015
0,3
3,3
1,3
0,4
0,2
5,5
6,5
0,2
2,3
1,5
5,9
1,8
4,7
0,7
4,5
0,3
1,5
0,5
2,5
5,6
1,2
0,2
13/08/2015
2
0
0
0
0
0
0
2
2
3
3
5
5
0
2
3
5
7
6
0
Hojas
3 3
5 5
9
5
4
8
Frecuencia
8
6
3
2
3
4
4
13/08/2015
20
10
23
13
12
19
18
24
12
14
13
10
13
16
18
13
32
10
11
13
18
10
27
19
16
10
14
15
10
15
13/08/2015
veces cada uno de los tallos y se formar un grfico de tallo doble con
hojas inferiores y hojas superiores. A continuacin se presenta el
diagrama obtenido:
Tallo
Hojas
Frecuencia
2
0*
0.
1*
1.
2*
2.
3*
17
16
10
3
13/08/2015
MEDIDAS DE POSICIN
Son valores que nos sirven para indicar la posicin alrededor de la cual
13/08/2015
13/08/2015
1
= +
( )
2 +1 1 +1
donde ( , +1 ] es el intervalo modal, es la altura del rectngulo del
histograma que tiene de base al intervalo modal, 1 es la altura del
rectngulo del histograma que tiene de base al intervalo anterior al
modal, y +1 es la altura del rectngulo del histograma que tiene de base
al intervalo posterior al modal.
11
0
3
= 0 +
3 0 = 3 1,1 = 3,3
11
2
3 40
13/08/2015
MEDIANA
Se denotar por Me. Es el valor que tiene la propiedad de dejar a su
13/08/2015
n/2 = 30/2 = 15, por lo que no hay ningn dato cuya frecuencia
acumulada sea igual a n/2. Entonces, se toma como mediana el
siguiente dato; es decir, el dato cuya frecuencia acumulada es 21. Por
tanto, Me = 2.
(b) Si en la distribucin de frecuencias aparece la frecuencia absoluta
acumulada igual a n/2 entonces ocurre que hay todo un intervalo [a, b)
de valores cuya frecuencia absoluta acumulada es igual a n/2. En este
caso se toma como mediana el valor
Me = a + b
2
Donde a es el dato con la frecuencia acumulada igual a n/2 y b el dato
con la frecuencia acumulada siguiente.
13/08/2015
13/08/2015
PERCENTIL O CUANTIL
El percentil (o cuantil) al r% es aquel valor que deja a su izquierda el r% de
las observaciones y a su derecha el (100r)% restante, siempre que se
hayan ordenado los datos de menor a mayor. Se suele denotar por Pr (o por
Cr). El clculo de los percentiles se hace de modo similar al clculo de la
mediana, teniendo en cuenta que el percentil al r% verifica que su
frecuencia absoluta acumulada es igual a:
100
Calcule los percentiles 25 y 75 en el ejemplo 2 (Accidentes)
En el ejemplo de accidentes:
100
3025
100
3075
=
= 22,5, y el siguiente dato tiene como frecuencia acumulada
100
100
28.
13/08/2015
1
100
= +
(+1 )
100
100
3025
100
3075
100
7,5 3
62 54 = 54 + 6 = 60
6
22,5 19
78 70 = 70 + 4,67 = 74,67
6
13/08/2015
MEDIA ARITMTICA
Si 1 , 2 , , son los n valores de la muestra, su media aritmtica es:
1 + 2 + +
=
13/08/2015
Si los valores de los datos son x1, x2, ..., xk, y ellos aparecen con frecuencias
absolutas respectivas f1, f2, ..., fk(con f1+f2+...+fk= n) entonces la expresin
de la media aritmtica es:
1 1 + 2 2 + +
=
=
=1
(0 3) + (1 6) + + (4 2) 59
=
= 1,9667
30
30
Propiedades de la media
1. Si = + , siendo a y b constantes, entonces la media de la
nueva variable es = +
2. Si = , entonces = 0.
13/08/2015
OTRAS MEDIAS
Media ponderada:Consiste en asignar a cada valor xi de los datos un
peso pi que depende de su importancia relativa bajo algn criterio.
La definicin de la media ponderada es:
1 1 + 2 2 + +
=1
=
=
1 + 2 + +
=1
Si los datos de la muestra son x1, x2, ..., xk, y ellos aparecen con
frecuencias absolutas respectivas f1, f2, ..., fk (con f1+f2+...+ fk= n),
entonces se definen:
Media geomtrica:
=
1 1 2 2
13/08/2015
Media cuadrtica:
2
=1
12 1 + 22 2 + + 2
=
Media armnica:
=
1 2
+ + +
1 2
=1
13/08/2015
MEDIDAS DE DISPERSIN
Son valores que miden el grado de separacin de las observaciones entre
s o con respecto a ciertas medidas de posicin. Solo se calculan cuando la
variable es cuantitativa.
Recorrido: Es una medida de dispersin global que se define como la
diferencia entre la observacin mayor, xmx, y la observacin menor, xmn, y
se denota por R; es decir:
=
Si el recorrido es pequeo entonces los datos estn poco dispersos.
En el ejemplo 2 (Accidentes): El recorrido es:
=40=4
En el ejemplo 3: (Peso de las cajas en Kg) El recorrido es:
R = 92 47 = 45.
13/08/2015
Recorrido intercuartlico
Se denota por RI y se define como la diferencia entre el tercer
cuartil y el primer cuartil; es decir:
RI = Q3 Q1.
Si el recorrido intercuartlico es pequeo entonces los datos estn
cerca de la mediana; en caso contrario, los datos estn alejados de
ella.
En el ejemplo 2: El recorrido intercuartlico es:
RI = 3 1 = 2.
En el ejemplo 3: El recorrido intercuartlico es:
RI = 74,67 60 = 14,67.
13/08/2015
DESVIACIN MEDIANA
Si los datos de la muestra son x1, x2, ..., xk, y ellos aparecen con
frecuencias absolutas respectivas f1, f2, ..., fk (con f1+f2+...+ fk= n),
entonces se define la desviacin mediana como:
=1
=
13/08/2015
0 2 3 + 1 2 6 + + 4 2 2 23
=
=
= 0,7667
30
30
En el ejemplo 3 (Peso de las cajas): La desviacin mediana es:
50 66,8 3 + 58 66,8 6 + + 90 66,8 2
=
= 8,2133
30
13/08/2015
Desviacin media
Si los datos de la muestra son x1, x2, ..., xk y ellos aparecen con
frecuencias absolutas respectivas f1, f2, ..., fk (con f1+f2+...+ fk= n),
entonces:
=1
=
13/08/2015
13/08/2015
=1
2
2
=
=
2
=1
2
2
2
0
3
+
1
6
+
+
4
2
2
=
1,96672 = 1,0989
30
3
+
58
6
+
+
90
2
2 =
67,62 = 112,64
30
13/08/2015
=1
2
=
2
=1
1,0989 = 1,0483
112,64 = 10,6132
13/08/2015
=1
2
=
1
=1
3
+
1
6
+
+
4
2)
(30
1,9667
)
2
=
= 1,1368
29
13/08/2015
=1
2
=
1
=1
1,1368 = 1,0662
116,524 = 10,7946
13/08/2015
PROPIEDAD DE LA VARIANZA
Si = + , siendo a y b constantes, entonces la varianza de la nueva
variable es 2 = 2 2 , y por tanto la desviacin tpica es =
COEFICIENTE DE VARIACIN
= ;
= 100%
13/08/2015
10,7946
=
= 0,1597
67,6
Los datos presentan mediana homogeneidad. (Igual es la
representatividad de la media aritmtica)
13/08/2015
estndar 1.
El uso ms importante de la normalizacin es para
comparar distintas distribuciones an en el caso
que sus unidades vengan expresadas en diferentes
unidades.
13/08/2015
8476
10
= 0,8, y =
9082
16
= 0,5
13/08/2015
13/08/2015
13/08/2015
3. Para dibujar los bigotes, las lneas que se extienden desde la caja,
hay que calcular los lmites superior e inferior, Li y Ls, que
identifiquen a los valores atpicos. Para ello se calcula cuando se
consideran atpicos los valores. Son aquellos inferiores a Q1 1,5RI o
superiores a Q3 + 1,5RI.
En el ejemplo: inferior: 7 (1,5x2) = 4;
superior: 9 + (1,5x2) = 12.
4. Ahora se buscan los ltimos valores que NO son atpicos, que sern
los extremos de los bigotes.
En el ejemplo: 5 y 10.
5. Marcar como atpicos todos los datos que estn fuera del intervalo
(Li, Ls).
En el ejemplo: 0,5 y 3,5.
13/08/2015
13/08/2015
13/08/2015
MOMENTOS
Si los datos de la muestra son x1, x2, ..., xk y ellos aparecen con frecuencias
absolutas respectivas f1, f2, ..., fk (con f1+f2+...+fk = n),
Entonces se definen:
Momento de orden k respecto del origen:
=1
, = 1,2,3
=1
, = 1,2,3
13/08/2015
3 = 3 32 1 + 213
4 = 4 43 1 + 62 12 314
13/08/2015
MEDIDAS DE FORMA
A travs de las representaciones grficas (histogramas, diagramas de
barras, etc.) nos podemos hacer una idea sobre la forma de las
distribuciones, pero tambin resulta importante cuantificar esta
caracterstica a travs de las medidas de forma.
13/08/2015
1
2
1
2( )2
13/08/2015
ASIMETRA
Se dice que una distribucin presenta una asimetra positiva o por la
derecha cuando su polgono de frecuencias (absolutas o relativas) es
similar a la Figura (a). Anlogamente, se dice que una distribucin
presenta una asimetra negativa o por la izquierda cuando su polgono de
frecuencias (absolutas o relativas) tiene una forma parecida a la Figura
(b). Diremos que una distribucin presenta simetra cuando su polgono
de frecuencias (absolutas o relativas) es similar a la Figura de la curva
normal presentada en medidas de forma).
13/08/2015
13/08/2015
13/08/2015
En el ejemplo 3:
(50 67,6)3 3 + (90 67,6)3 2 11304,96
1 =
=
= 0,3152
10,61323 30
35864,12
La distribucin es asimtrica por la derecha.
APUNTAMIENTO O KURTOSIS
Si el polgono de frecuencias (absolutas o relativas) es anlogo a la curva
Normal, entonces se dice que la distribucin es mesocrtica (ver la Figura
de la Curva normal); si es ms elevado y estrecho que la curva Normal,
entonces se llama distribucin leptocrtica (ver la Figura (a)); y si es
menos elevado y ms ancho que la curva Normal, entonces se llama
distribucin platicrtica (ver la Figura (b)).
13/08/2015
13/08/2015
En el ejemplo 2:
(0 1,9667)4 3 + (4 1,9667)4 2
92,2866
4 =
3=
3
1,04834 30
36,2267
= 0,4525
La distribucin es platicrtica.
En el ejemplo 3:
(50 67,6)4 3 + (90 67,6)4 2
981467,136
4 =
3
=
3
4
10,6132 30
380633,088
= 0,4215
La distribucin es platicrtica.
13/08/2015
Referencias
1.
2.
3.
13/08/2015