Sunteți pe pagina 1din 70

INTRODUCCIN A LA

ESTADSTICA

JAIRO ALBERTO VILLEGAS
FLREZ

javi@utp.edu.co

https://sites.google.com/a/utp.edu.co/javi/
1


CONCEPTOS
BSICOS DE
ESTADSTICA
2
3
La palabra estadstica se origina, en
las tcnicas de recoleccin,
organizacin, conservacin, y
tratamiento de los datos propios de
un estado, con que los antiguos
gobernantes controlaban sus
sbditos y dominios econmicos.
4

La estadstica es la ciencia que estudia la
recoleccin, anlisis e interpretacin de
datos de una muestra representativa para
ayudar en la toma de decisiones o para
explicar condiciones de algn fenmeno o
estudio aplicado, de ocurrencia en
forma aleatoria o condicional.
Sin embargo, la estadstica es ms que eso,
es decir, es la herramienta fundamental que
permite llevar a cabo el proceso relacionado
con la investigacin cientfica.
5

La estadstica es una ciencia auxiliar
para todas las ramas del saber; su
utilidad se entiende mejor si tenemos en
cuenta que las decisiones diarias
embargan cierto grado
de incertidumbre y la Estadstica ayuda
en la incertidumbre, trabaja con ella y nos
orienta para tomar las decisiones con un
determinado grado de confianza.
6

La estadstica se divide en dos grandes
ramas de estudio que son:
La estadstica descriptiva, la cual se
encarga de la recoleccin, clasificacin y
descripcin de datos muestrales o
poblacionales.
La estadstica inferencial, que
desarrolla modelos tericos que se
ajusten a una determinada realidad con
cierto grado de confianza.
7

1. Planteamiento del problema.
2. Fijacin de los objetivos.
3. Formulacin de la hiptesis.
4. Definicin de la unidad de observacin y de la
unidad de medida.
5. Determinacin de la poblacin y de la muestra.
6. La recoleccin.
7. Crtica, clasificacin y ordenacin.
8. Tabulacin.
9. Presentacin.
10.Anlisis.
11.Publicacin
8

DATO: Un dato estadstico es cada uno de los valores
que se ha obtenido en la recoleccin de un estudio.

CONJUNTO DE DATOS: Es la recoleccin de varios
datos en una variable objeto de estudio.

VARIABLE: Una variable estadstica es cada una de
las caractersticas o cualidades que poseen los
individuos de una poblacin.




9

POBLACIN: en estadstica, tambin
llamada universo o colectivo, es el conjunto de
elementos de referencia sobre el que se realizan unas
de las observaciones, es el conjunto sobre el que
estamos interesados en obtener conclusiones (hacer
inferencia).
Normalmente es demasiado grande para poder
abarcarlo.

MUESTRA: Es una parte de la poblacin que se
selecciona para realizar el estudio. Una muestra debe
ser representativa, es decir, deba reflejar las
caractersticas esenciales de la poblacin que se
desea estudiar.


10

VARIABLE CUANTITATIVA: Registro de una
caracterstica a travs de un conteo o una medicin.
Ejemplo:
Edad, Peso, Estatura.

VARIABLE CUALITATIVA: Describe una cualidad o un
atributo
Ejemplo:
Sexo, Estrato
11

VARIABLE CUANTITATIVA: Registro de una
caracterstica a travs de un conteo o una medicin.
Ejemplo:
Edad, Peso, Estatura.
La variable cuantitativa puede ser continua o discreta

VARIABLE CUALITATIVA: Describe una cualidad o un
atributo
Ejemplo:
Sexo, Estrato
12

VARIABLE CUANTITATIVA DISCRETA:
Es aquella que solo puede tomar valores enteros.
En un sentido ms estricto es aquella que solo puede
tomar valores dentro de una escala predeterminada.

VARIABLE CUANTITATIVA CONTINUA:
Es aquella que puede tomar cualquier valor, ya sea
entero o continuo, no esta enmarcada dentro de una
escala predeterminada.
13

En estadstica, se le llama distribucin de frecuencias a
la agrupacin de datos en categoras mutuamente
excluyentes que indican el nmero de observaciones
en cada categora.

Una distribucin de frecuencias es un formato tabular
en la que se organizan los datos en clases, es decir, en
grupos de valores que describen una caracterstica de
los datos y muestra el nmero de observaciones del
conjunto de datos que caen en cada una de las clases.
14

Xi =Dato o valor de la variable
Yi =Son los posibles valores que puede tomar la variable
n=tamao de muestra
N=Tamao de la poblacin
ni=Nmero de veces que se repite el dato Xi en la muestra,
tambin es conocida como frecuencia absoluta.
Ni=Es la acumulacin de la columna ni, tambin se conoce
como frecuencia absoluta acumulada.
hi=Es el cociente entre la frecuencia absoluta y el total de
la muestra, tambin se conoce como frecuencia relativa
Hi=Es la acumulacin de la columna hi, tambin se conoce
como frecuencia relativa acumulada.
15

Li =Lmite inferior
Ls =Lmite superior
yi=marca de clase
m=Nmero de Intervalos.
C=Amplitud del Intervalo.
R=Rango de la variable R=Xmax-Xmin.
16

La siguiente tabla relaciona las ausencias al trabajo de
50 obreras, durante el mes de diciembre, en la fabrica
de confecciones "la hilacha".






Se pide:
Elaborar la tabla de frecuencias.
Elaborar el diagrama de frecuencias.
Que anlisis podemos obtener de la tabla de
frecuencias.
1 0 2 1 3 1 4 3 2 5
3 2 4 2 0 3 1 2 0 2
1 1 0 1 0 0 1 2 1 3
4 0 2 3 2 0 0 2 5 2
2 4 2 1 3 1 2 1 0 2
Tomado de MSp. Wilfredo Mormontoy 17
Yi ni Ni hi Hi
0 10 10 0,2 0,2
1 12 22 0,24 0,44
2 15 37 0,3 0,74
3 7 44 0,14 0,88
4 4 48 0,08 0,96
5 2 50 0,04 1,00
18
0
2
4
6
8
10
12
14
16
0 1 2 3 4 5
F
r
e
c
u
e
n
c
i
a

Numero de ausencias
Ausencias por mes al trabajo
19
0.2
0.24
0.3
0.14
0.08
0.04
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0 1 2 3 4 5
P
o
r
c
e
n
t
a
j
e

Numero de ausencias
Ausencias por mes al Trabajo en
Porcentaje
20

La tabla muestra los porcentajes por cada posible valor
de la variable, por ejemplo:
Podemos decir que el porcentaje ms alto de
ausencias equivale al 30% y es de 2 ausencias.

Que solamente el 20% de los trabajadores no tuvo
ninguna ausencia en el mes.


21

La siguiente tabla se relaciona los aos de experiencia
del personal de la fabrica de confecciones "la hilacha".






Se pide:
Elaborar la tabla de frecuencias.
Elaborar el diagrama de frecuencias.
Que anlisis podemos obtener de la tabla de
frecuencias.
4 6 5 6 4 6 5 5 6 5
5 5 8 8 8 6 9 5 5 7
7 9 3 2 7 4 5 7 7 3
6 7 7 7 8 3 6 6 7 6
4 6 8 5 6 6 7 5 7 4
22

En estadstica, un histograma de frecuencias es una
representacin grfica de una variable en forma de
barras, donde la base de cada barra es la amplitud del
intervalo y la altura es la frecuencia absoluta.
Sirven para obtener una "primera vista" general, o
panorama, de la distribucin de la poblacin, o la
muestra, respecto a una caracterstica, cuantitativa y
continua, de la misma y que es de inters para el
observador.
23

Es un grfico de lneas que las frecuencias absolutas
de los valores de una distribucin en el cual la altura
del punto asociado al valor de la variable es
proporcional a su frecuencia.
24

La siguiente tabla relaciona las calificaciones finales de
un grupo de estudiantes de estadstica.









Se pide:
Elaborar la tabla de frecuencias.
Elaborar el histograma y el polgono de frecuencias.
Que anlisis podemos obtener de la tabla de frecuencias.
25

La siguiente tabla relaciona el consumo en metros
cbicos de agua de 80 viviendas en un sector
residencial.









Se pide:
Elaborar la tabla de frecuencias.
Elaborar el histograma y el polgono de frecuencias.
Que anlisis podemos obtener de la tabla de frecuencias.
26

Medidas de Tendencia central
Medidas de Dispersin
Medidas de Asimetra
27
Intento de resumir la distribucin, expresando el
valor que se puede considerar mas tpico o
representativo de los datos.
El trmino tendencia central implica la idea de un
centro identificable en la distribucin. Tanto ms
til ser ese valor en tanto ms identificable sea
ese centro.
Veremos:
- Media Aritmtica
- Mediana
- Modo o moda

28
Es el promedio de las observaciones.
Se puede ver como un punto de equilibrio de la
distribucin, o como un centro de gravedad de la
misma.



Ojo: La suma de las diferencias de cada valor de la
muestra con la media es siempre cero, es decir:

n
x
X
N i
i
i
=
=
=
1
29

=
~
n
i
i
X x
1
0 ) (

n
x
X
N i
i
i
=
=
=
1
30
Es el punto medio de una distribucin ordenada
de los datos.
El 50% de los datos estn por encima o debajo
de este valor.
Es til cuando se quiere reducir o eliminar el
efecto de valores extremos en un conjunto de
datos (muy grandes o muy pequeos).


31
Ejemplo 1: Cantidad de observaciones impar
(n=11)
12 15 13 12 14 16 12 14 14 12 14
Ordenamos de menor a mayor y ubicamos el centro:


Ejemplo 2: Cantidad de observaciones par
(n=10)
5 8 8 5 9 6 8 2 9 6
Ordenamos de manera ascendente y ubicamos el
centro:


12 12 12 12 13 14 14 14 14 15 16



2 5 5 6 6 8 8 8 9 9
Mediana=(6+8)/2=7
32
Se ordenan los n valores en forma creciente:
x
1
< x
2
< x
3
< x
4
< x
5
< x
6
< ..x
n

Si n impar:


Si n par:
1
2
n
Md X
+
=
1
2 2
2
n n
X X
Md
+
+
=
33
Valor de la variable correspondiente al 0.50 en la
frecuencia relativa acumulada
0
10
20
30
40
50
60
70
80
90
100
15 20 25 30 35 40
Edad(aos)
F
r
e
c
u
e
n
c
i
a

a
c
u
m
u
l
a
d
a
%
34
Es el valor con mayor frecuencia en la
distribucin de datos.
Las distribuciones pueden ser unimodales,
bimodales, multimodales.
35
Ej: Variable cuantitativa: Aos de servicio
12 15 13 12 14 16 12 14 14 12 14
Moda:
12 y 14 (distribucin bimodal)
36
y
i
hace referencia a la marca de clase
n
i
hace referencia a las frecuencias absolutas

n
n y
Y
i i
Y
i-1
Y
i
n
i
h
i
N
i
H
i
y
i

12 14 2 0,05 2 0,05 13
14,1 16 7 0,175 9 0,225 15
16,1 18 3 0,075 12 0,30 17
18,1 20 9 0,225 21 0,5225 19
20,1 22 7 0,175 28 0,70 21
22,1 24 8 0,2 36 0,90 23
24,1 26 4 0,1 40 1,00 25
6 , 19
40
4 * 25 8 * 23 7 * 21 9 * 19 3 * 17 7 * 15 2 * 13
=
+ + + + + +
=

Y
39
Y
i-1
Y
i
n
i
N
i
12 14
2 2
14,1 16
7 9
16,1 18
3 12
18,1 20
9 21
20,1 22
7 28
22,1 24
8 36
24,1 - 26
4 40
87 . 19
9
12 20
* 2 1 , 18 =
|
.
|

\
|

+ = Me
n
j
N
j-1
n
j
=9 c=2
N
i-1
=12
n/2 = 20
Y
i-1
=18.1
|
|
.
|

\
|

+ =

j
j
i
n
N
n
c Y Me
1
'
1
2
N
j

Y
i-1
Y
i
n
i
N
i
12 14
2 2
14,1 16
7 9
16,1 18
3 12
18,1 20
9 21
20,1 22
7 28
22,1 24
8 36
24,1 - 26
4 40
5 , 19
3 7
7
* 2 1 , 18
*
1 1
1 '
1
=
|
.
|

\
|
+
+ =
|
|
.
|

\
|
+
+ =
+
+

Md
n n
n
c Y Md
j j
j
i
n
j
n
j-1
n
j+1
Cuantil: valor de la variable bajo el cual se encuentra
una cierta proporcin de los valores de la
distribucin.
Percentiles o centiles: C,100 partes
Deciles: D, 10 partes
Cuartiles: Q, 4 partes:
Q
1
(25%), Q
2
(50%), Q
3
(75%)
41
Mediana: Valor de la variable que deja por debajo al
50% de las observaciones

Percentil k: Valor de la variable que deja por debajo
el k% de las observaciones(Ej: P
23
, P
45
, P
50
)

Decil k: Valor de la variable que deja por debajo el
(k*10)% de las observaciones (Ej: P
10
=D
1
, P
20
=D
2
,etc.)

Cuartil k:Valor de la variable que deja por debajo el
(k*25)% de las observaciones (Ej: P
50
=Q
2
=Me,
Medidas de Posicin
42
INFORMAN ACERCA DE LA POSICIN QUE OCUPA UN DATO DENTRO
DE UNA SERIE ORDENADA EN FORMA CRECIENTE.
DECILES
Dividen el conjunto de datos ordenados en diez partes iguales. Nueve
deciles dividen las observaciones en diez partes iguales. Se denotan:
D
1
D
2
D
3
D
9 ;
D
5
= Mediana

PERCENTILES
Dividen el conjunto de datos ordenados en 100 partes iguales.
El percentil 90 es un valor tal que el 90% de todos los valores son
menores y el 10 son mayores que l. Se denotan: P
1 ,
P
2
P
3 ,
P
4
.
P
99 ;
P
50
= Mediana; P
25
Se corresponde con el primer cuartil
; P
75
Se corresponde con tercer cuartil


CUARTILES
Dividen el conjunto de datos ordenados en cuatro partes iguales. Los cuartiles
son: Q
1
; Q
2
; Q
3 .
Se necesitan solamente tres cuartiles para dividir los datos
en cuatro partes. El cuartil Q
2 =
Mediana
D
1
=P
10
Q
1
=P
25
Q
2
=Md=P
50

44
Datos
Q1 Q2=Me Q3
Ls
0% 25% 50% 100% 75%
CUARTILES
Li
Datos
DECILES
1
2
3
4 5 6 7 8 9 10
47
6 , 22
8
28 30
* 2 1 . 22
3
=
|
.
|

\
|

+ = Q
n
j
N
j-1
|
|
.
|

\
|

+ =

j
j
i
n
N
n
c Y Q
1
'
1 3
4
3
Y
i-1
Y
i
n
i
N
i
12 14
2 2
14,1 16
7 9
16,1 18
3 12
18,1 20
9 21
20,1 22
7 28
22,1 24
8 36
24,1 - 26
4 40
n
j
=8 c=2
N
i-1
=28
3n/4 = 30
Y
i-1
=22.1
48
|
|
.
|

\
|

+ =

j
j
i
n
N
n
c Y P
1
'
1 60
100
60
95 , 20
7
21 24
* 2 1 , 20
60
=
|
.
|

\
|

+ = P
n
j
= 7 c=2
N
i-1
=21
60n/100 = 24
Y
i-1
=20,1
Y
i-1
Y
i
n
i
N
i
12 14
2 2
14,1 16
7 9
16,1 18
3 12
18,1 20
9 21
20,1 22
7 28
22,1 24
8 36
24,1 - 26
4 40
N
j-1
n
j
49
|
|
.
|

\
|

+ =

j
j
i
n
N
n
c Y D
1
'
1 2
10
2
81 , 15
7
2 8
* 2 1 , 14
8
=
|
.
|

\
|

+ = D
n
j
=7 c=2
N
i-1
=2
2n/10 = 8
Y
i-1
=20,1
Y
i-1
Y
i
n
i
N
i
12 14
2 2
14,1 16
7 9
16,1 18
3 12
18,1 20
9 21
20,1 22
7 28
22,1 24
8 36
24,1 - 26
4 40
N
j-1
n
j
Deciles para datos Agrupados
La dispersin de un conjunto de observaciones se refiere
a la variabilidad que presentan estas.
Una medida de dispersin conlleva informacin respecto a
la cantidad total de variabilidad presente en el conjunto
de datos
Tres distribuciones normales con diferentes
dispersiones de los datos
x
La varianza es una medida de la dispersin que emplea todos los
valores de los datos. Se basa en la diferencia entre cada valor y la
media.
La diferencia entre cada valor del dato X
i
y el promedio ( x para
una muestra y para una poblacin) se llama desviacin respecto
al promedio.

Para una muestra la desviacin se expresa como: (Xi x); para una
poblacin: (Xi - )
Varianza Mide el promedio de las desviaciones (al cuadrado)
de las observaciones con respecto a la media.
( X
1
X )
2
+ ( X
2
X )
2
+ .......... ( Xi

X )
2


n
( Xi X )
2

S
2
=
La varianza de la muestra, es la
suma de los cuadrados de las diferencias de
los datos con relacin a la media aritmtica
divida entre el tamao de la muestra menos
1
( Xi )
2
N

2
=

VARIANZA
MUESTRAL
VARIANZA
POBLACIONAL
Unidades de la varianza son al
cuadrado.
S
2
=
n - 1
Dado un conjunto de observaciones, se llama varianza de dicho
conjunto a la sumatoria de las diferencias entre cada observacin y
la media aritmtica elevadas al cuadrado, y dividido por el nmero
de observaciones
2
2
2
2
2
2
2
S S
Y
n
n y
S
n
n y
n
n y
S
i i
i i i i
=
=
|
.
|

\
|
=


Es la raz cuadrada de la varianza
Indica como se agrupa o distribuye un conjunto de datos
alrededor de la media.
La desviacin estndar tambin se define como la raz
cuadrada positiva de la varianza.


=


2

s
2

s =
Desviacin estndar poblacin
Desviacin estndar muestra

El CV, relativo a un conjunto de datos, que se define como el cociente
entre la desviacin tpica y la media aritmtica, es evidentemente un
nmero adimensional. Siempre se expresa como porcentaje.
CV =
S
X
100 %
( )
S = Desviacin estndar de un conjunto de datos numricos
X = Media aritmtica
Permite establecer comparaciones vlidas entre las dispersiones relativas
expresadas en unidades de medida diferente
No debe usarse cuando la variable presenta valores negativos o donde el
valor 0 sea una cantidad fijada arbitrariamente. Por ejemplo 0C 0F
Tambin se la denomina variabilidad
relativa.
Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviacin tpica 20 entonces
CV = 20/80 = 0,25 = 25% (variabilidad relativa)
Es una cantidad adimensional. Interesante
para comparar la variabilidad de diferentes
variables.

Valor Z: Medida que indica la direccin y el grado en
que un valor se aleja de la media, en una escala de
unidades de desviaciones estndar
Z =
X
i
- X
S
X
i
= Puntuacin o el valor a transformar
X = Media de la distribucin
S = Desviacin estndar de la distribucin
Z = Puntuacin transformada en unidades de desviaciones estndar
Las puntuaciones Z, permiten estandarizar valores para comparar
puntuaciones de dos distribuciones diferentes. (la forma de medicin es la
misma, aunque se trata de distribuciones distintas).
Ejemplo:
Supongamos que en una distribucin de frecuencias (Conjunto de datos)
obtuvimos una media de 60 y una desviacin estndar de 10, deseamos
comparar una puntuacin de 50 con el resto de la distribucin, entonces:
X = 50 X = 60 S = 10
50 - 60
10
Z =
= - 1.00
El valor de 50 se encuentra localizado a una desviacin estndar por
debajo de la media de la distribucin. (el valor de 30 est a tres
desviaciones por debajo de la media.
Asimetra: Una distribucin es simtrica si la mitad
izquierda de su distribucin es la imagen especular
de su mitad derecha. La distribucin de los datos es
simtrica o no lo es. Si no lo es, recibe el nombre de
distribucin asimtrica o sesgada.
media > mediana>moda: Sesgo positivo o a la
derecha
media = mediana=moda: simetra o sesgo cero
media < medina< moda: sesgo negativo o a la
izquierda
En las distribuciones simtricas media, mediana y moda
coinciden.
Las discrepancias entre la media y la mediana indican
asimetra.
|
.
|

\
|
= = =

_
3
3
3
3
1
_
'
_
; ;
) ( * 3
Y y Z
n
n Z
m
S
m
g
S
M Y
A
S
M Y
A
i i
i i
e
s
d
s
g
1
=0 simtrica
g
1
>0 asimtrica positiva
g
1
<0 asimtrica negativa

La asimetra es positiva o negativa en
funcin de a qu lado se encuentra la cola
de la distribucin.
Sesgo (+)
Sesgo (-)
La simetra de una funcin de distribucin se mide por el
coeficiente de sesgo de la misma.
El coeficiente de sesgo no debe sobrepasar el valor de 2
(para considerarse una distribucin Normal)

n
n Z
m
S
m
g
i i
=
=
*
4
4
4
4
2
g
1
=3 mesocrtica
g
1
>3 leptocrtica o apuntada
g
1
<3 platicrtica o achatada


El coeficiente de curtosis mide el mayor o menor
aplanamiento de la curva de distribucin
Curtosis < 3 Curtosis = 3
Curtosis > 3
(Y
i-1

;Y
i
) ni Ni yi
(y
i
-Y)
2
(yi-Y)
2
*n
i

144 153
4 4 148,5
380.25 1521
153 162
8 12 157,5
110.25 882
162 -171,1
5 17 166,5
2.25 11.25
171 180
7 24 175,5
56.25 393.75
180 189
4 28 184,5
272.25 1089
189 - 198
2 30 193,5
650.25 1300.5
5197,5
(Y
i-1

;Y
i
) yi
(y
i
-Y)
3
(yi-Y)
3
*n
i
(y
i
-Y)
4
(y
i
-Y)
4
*n
i

144 153
148,5
-7414.875 -29659.5 144590.063 578360.25
153 162
157,5
-1157.625 -9261 12155.0625 97240.5
162 -171,1
166,5
-3.375 -16.875 5.0625 25.3125
171 180
175,5
421.875 2953.125 3164.0625 22148.4375
180 189
184,5
4492.125 17968.5 74120.0625 296480.25
189 - 198
193,5
16581.375 33162.75 422825.063 845650.125
15147 1839904.875
158
4 , 167
168
=
=
=

Md
Me
Y
387 , 13
224 , 179
224 , 179
1 30
5 , 5197
1
*
2
2
2
2
=
=
=

=

|
.
|

\
|

=


S
S
S
S
n
n Y y
S
i i
( )
210 , 0
356 , 2399
9 , 504
9 , 504
; ;
1344 , 0
387 , 13
4 , 167 168 * 3
) ( * 3
1
3
_
3
3
3
3
1
'
_
'
= =
=
|
.
|

\
|
= = =
=

g
m
Y y Z
n
n Z
m
S
m
g
A
S
M Y
A
i i
i i
s
e
s
1625 , 61330
*
909 , 1
2916 , 32121
1625 , 61330
4
4
4
4
2
= =
= = =

n
n Z
m
S
m
g
i i
g
1
=3 mesocrtica
g
1
>3 leptocrtica o apuntada
g
1
<3 platicrtica o achatada


70

S-ar putea să vă placă și