Documente Academic
Documente Profesional
Documente Cultură
Retamal
Estadstica Descriptiva
ESTADISTICA DESCRIPTIVA
La estadstica descriptiva es un procedimiento estadstico en el cual podemos recolectar,
organizar, resumir, analizar y presentar datos relativos a un conjunto de observaciones y
que nos permiten extraer conclusiones vlidas y efectuar decisiones basadas en dichos
anlisis. Los pasos en el diseo de tratamiento de datos consideran:
La definicin de objetivos y poblacin de estudio, bsqueda de la informacin disponible
(listado de condiciones y medios), elaboracin de instrumentos de medicin, definir las
variables y el diseo de muestreo, recoleccin de los datos, procesamiento estadstico de los
datos: tablas, grficos, medidas estadsticas, e interpretacin de los resultados y redaccin
del informe del estudio.
El objetivo de la estadstica descriptiva en una variable es analizar y sintetizar la
informacin contenida en los datos estadsticos mediante:
Tablas (distribuciones de frecuencias absolutas y relativas)
Grficos (de Barra, de sectores circulares, Histograma, Box plot,...)
Resmenes numricos (ndices de posicin y de dispersin).
Conceptos bsicos asociados son los siguientes:
Poblacin: Conjuntos de individuos o elementos que cumplen ciertas propiedades
comunes.
Censo: Coleccin de datos de cada uno de los miembros de la poblacin.
Muestra: Subconjunto representativo de la poblacin.
Parmetro: Medicin numrica que describe algunas caractersticas de una poblacin.
Estadstico: Medicin numrica que describe algunas caractersticas de una muestra.
Unidad Observable: Cualquier elemento que podamos extraerle informacin.
Variable: Caracterstica o propiedad asociada a una unidad observable de la poblacin.
Tipos de Variables
Variables Cualitativas o Categricas: Son las que presentan una caracterstica observada de
un atributo o cualidad, y tienen por valores cantidades no numricas. Se clasifican en
ordinal (el orden de las categoras es importante, ej: nivel de estudios, rendimiento
acadmico,..) y nominal (los nombre o etiquetas de la categora no denota jerarqua, ej:
color de ojos, religin,..). Para variables cualitativas se pueden elaborar tablas de
distribucin de frecuencias en categoras con frecuencias absolutas y relativas, aadiendo
grficos de barras y circular.
Variables Cuantitativas: Son las que tienen por valores cantidades numricas a cada
caracterstica de una unidad de observacin. Se clasifican en discretas (si los valores es un
conjunto finito o infinito numerable, ej: nmero de fallas de una mquina, cantidad de sillas
en el aula,.. ) y continuas (los valores que la componen es un subconjunto de la recta real,
ej: tiempo de vida de una ampolleta, largo de una mesa,..). Para variables cuantitativas se
pueden elaborar tablas de distribucin de frecuencias para datos agrupados en intervalos de
clase; complementadas con representaciones grficas de histograma, box plot, polgono de
frecuencias, entre otros, y la utilizacin de las medidas de tendencia central, de posicin y
de dispersin.
H. Alvarado L. Retamal
Estadstica Descriptiva
Escala de Medicin: Son cuatro los niveles de medicin: nominal, ordinal, de intervalo y
de razn. El nivel de medicin de intervalo se parece al nivel ordinal, pero con la propiedad
adicional de que la diferencia entre los valores de datos cualesquiera tiene un significado y
las razones no tienen un significado. Sin embargo, los datos en este nivel no tienen un
punto de partida inherente (natural) desde cero (donde nada de la cantidad est presente).
El nivel de medicin de razn tiene las mismas propiedades de las escalas de intervalos,
pero las razones, diferencias si tienen sentido. Tiene un punto de partida o cero inherente
(donde cero indica que nada de la cantidad est presente)
Distribucin de frecuencias
Una vez definida la variable de inters es necesario clasificar y ordenar los elementos de la
poblacin. As, una distribucin de frecuencias lista valores de datos u observaciones, ya
sea de manera individual o por grupos de intervalos, junto con sus frecuencias
correspondientes.
Primero a cada valor de la variable se le identifica por xi siendo el i-simo resultado
perteneciendo a una clase. Los resultados agrupados en cada una de estas clases se
resumen en una tabla de frecuencias, la cual contiene la siguiente informacin:
ni
fi
Ni
Fi
Se cumple que la
ni = N ; fi =
i =1
ni
;
N
f
i =1
=1
Debe tener presente en las variables Cuantitativas que si el nmero de datos poblacionales
distintos entre s es grande podemos obtener un gran nmero de clases con frecuencia
absoluta igual a 1 que estadsticamente no resulta relevante; en tal situacin podemos
agrupar las clases en intervalos. Se recomienda entre 5 y 20 intervalos de clase o utilizar la
regla de Sturge. Los elementos que conforman la elaboracin de la distribucin de
frecuencias por intervalos son los siguientes:
RX
H. Alvarado L. Retamal
Estadstica Descriptiva
mi
: Marca de clase del intervalo i (punto medio del intervalo i), en clculos
estadsticos es considerada como el valor ms representativo de las clases.
Fronteras: Es el punto medio entre el lmite superior de la clase de un intervalo y el lmite
inferior del intervalo siguiente.
K = 1 + 3.3 * log N.
Como N = 40, entonces K = 1 + 3.3* log 40 = 6.286
6.3 clases. As, deberamos tener 6 7 clases.
A=
R
1.83
=
= 0.305 0.31
K
6
Lmite
0.72 1.02
1.03 1.33
1.34 1.64
1.65 1.95
1.96 2.26
2.27 2.57
2
2
8
17
6
5
N = 40
0.05
0.05
0.20
0.425
0.15
0.125
1
0.87
1.18
1.49
1.80
2.11
2.42
2
4
12
29
35
40
0.05
0.10
0.30
0.725
0.875
1
ni mi
1.74
2.36
11.92
30.6
12.66
12.1
71.38
n i mi2
1.5138
2.7848
17.7608
55.08
26.7126
29.282
133.134
H. Alvarado L. Retamal
Estadstica Descriptiva
Ejercicio 1: Un Ingeniero Civil visita 15 condominios en una ciudad y en cada una registr
el nmero de casas que han sufrido daos ocasionados por un aluvin el invierno recin
pasado. Se obtuvo la siguiente informacin:
15
17
a)
b)
c)
d)
e)
f)
15
19
18
16
16
17
17
17
18
16
18
19
18
Grfico de Barra
Es usado en observaciones cualitativas o
cuantitativas discretas. Sobre cada clase se
levanta una barra de altura igual a la
frecuencia de la clase.
Eje horizontal: se representan las clases
Eje vertical: las frecuencias absolutas
ni ( f i )
20
15
10
5
0
51
52
53
54
H. Alvarado L. Retamal
Estadstica Descriptiva
X =
360 ni
N
8
1a5
6
5 a 15
15 a 33
33 a 50
50 a 60
0
60 a 72
EDAD
N alumnos
25
20
15
10
5
0
1
Npersonas
Histograma
Se utiliza en variables cuantitativas cuyas
observaciones han sido divididas en intervalos
de clases. Consiste en un conjunto de
rectngulos cada uno de los cuales representa
un intervalo de agrupacin o clase. Sus bases
son iguales a la amplitud del intervalo y la
altura se determinan de manera que su rea
sea proporcional a la frecuencia de cada clase.
Eje horizontal: intervalo de frontera FI-FS
Eje vertical: frecuencias absolutas
Polgono de Frecuencias
El tipo de representacin es un grfico de
lnea. Se construye uniendo con segmentos de
recta los puntos medios (marca de clase) de
los intervalos adyacentes. Se utiliza para
determinar la forma que sigue la distribucin
de frecuencias de las observaciones con el
propsito de ajustarle alguna
funcin
probabilstica determinada.
Eje horizontal: marcas de clases mi
Eje vertical: frecuencias absolutas
Ojiva
Es un polgono de frecuencias acumulativas,
comienza en cero y termina en 100%. Es un
polgono que parte de la frontera inferior del
primer intervalo de clase y en cada frontera
superior va indicando su frecuencia
acumulada.
Eje horizontal: intervalo de frontera FI-FS
Eje vertical: frec. acumuladas N i ( Fi )
Grfico Circular
Permite representar las frecuencias absolutas
o frecuencias relativas porcentuales en un
crculo. Se debe determinar la cantidad de
grados del crculo correspondiente a cada
frecuencia absoluta mediante la proporcin
4
Notas
30
25
20
15
10
5
0
1
15
33
50
60
Edades
52
5%
54
54%
53
38%
H. Alvarado L. Retamal
Estadstica Descriptiva
Tallo
0
1
2
3
5
6
7
Hoja
45
0013
257799
011146899
11367
006
11
Box & Whisker Plot
7,5
6,5
5,5
4,5
3,5
2,5
1,5
NOTAS
Max = 6,500000
Min = 2,000000
75% = 5,000000
25% = 3,500000
Median value:
Med = 4,750000
Medidas Estadsticas
En una distribucin descriptiva de una poblacin o muestra, es necesario recurrir a ciertos
valores numricos que permiten cuantificar ciertas caractersticas de la distribucin. Estas
son llamadas Medidas estadsticas o Estadgrafos, y dentro de las ms comunes se
encuentran las medidas de posicin o de tendencia central.
xi
i =1
ii) Para datos agrupados en k clases individuales con frecuencias absolutas respectivas
k
xi ni
i =1
n1 , n2 ,....., nk , entonces
x=
H. Alvarado L. Retamal
Estadstica Descriptiva
iii) Para datos agrupados en intervalos de clase: Sea m1 , m2 ,....., mk las marcas de clase y
mi ni
i =1
x=
i) A la diferencia xi - x
(x
i =1
x) = 0.
ii) Si cada valor xi se multiplica por una constante c y se calcula la media aritmtica de
estos nuevos valores el resultado es igual al producto de la constante por la media
aritmtica de los datos originales, es decir, cx = c x .
iii) Si cada valor xi se le suma o resta una constante c y se calcula la media aritmtica de
estos nuevos valores el resultado es igual al promedio original ms o menos la constante c,
es decir, x c = x c.
La Mediana: La media aritmtica no resulta ser adecuado cuando existe una concentracin
de valores en algunos de los extremos. En este caso es preferible utilizar la mediana como
estadgrafo de posicin, este valor divide a la distribucin de frecuencia en dos partes
iguales cada una conteniendo el 50% de los datos. Se denota por Me.
Geomtricamente la mediana es el valor de X (abscisa) que corresponde a la recta vertical
que divide un histograma en dos partes de reas similares.
i) Para datos individuales los datos son ordenados en forma creciente o decreciente.
Si el nmero de datos N es impar, la mediana corresponde al valor que ocupa el centro de la
ordenacin. Si el nmero de datos N es par, la mediana corresponde a la media aritmtica
de los dos valores que ocupan el centro de la ordenacin. Es decir, la mediana de un
conjunto de nmeros ordenados en magnitud X (1) X (2 ) ...... X ( N ) es o el valor central
X (N +1)
Me = X N + X N
2
+1
si N es impar
( )
si N es par
ii) Para datos en intervalos de clases: Primero se debe identificar el intervalo donde se
encuentra y enseguida aproximar el valor de la mediana a este intervalo llamado Intervalo
Mediano cuya frecuencia acumulada supere o sea igual al cuociente N/2. La mediana se
obtiene despus de la siguiente expresin.
Me = FI i +
FI i
N i 1
2
A
ni
H. Alvarado L. Retamal
Estadstica Descriptiva
ni
A
La Moda: Para datos aislados, la moda es el valor (o valores) que tiene la mayor
frecuencia relativa en una muestra extrada de cierta poblacin. Se utiliza cuando la
distribucin de frecuencias presenta una alta inestabilidad; existen agrupaciones de datos en
ciertas clases. Se define como el valor ms comn o ms frecuente de todo el conjunto de
datos. Es posible que una poblacin tenga dos o ms modas. En esos casos se suelen llamar
distribuciones bimodales o multimodales.
ni +1
A
n +n
i 1 i +1
Medidas de Dispersin
La media aritmtica es la ms representativa como medida de tendencia central en
distribuciones simtrica, sin embargo no es suficiente si queremos comparar dos
distribuciones. Las medidas estadsticas de variabilidad cuantifican la dispersin de los
datos en torno al centro de los datos. Mide cun esparcidos se encuentran stos o qu tan
heterogneos son. Las ms usuales son: el recorrido, el rango intercuartlico, la varianza,
desviacin estndar y el coeficiente de variacin.
Varianza: es la de mayor utilidad en aplicaciones estadsticas y se define segn la
agrupacin de los datos.
V ( X ) = (x i x ) / N
2
i)
ii)
V ( X ) = (xi x ) ni / N
2
iii)
mi 2 ni
V ( X ) = (mi x ) ni / N = i =1
2
Nota: Tambin utilizaremos la cuasi varianza que se diferencia en el denominador por n-1.
H. Alvarado L. Retamal
Estadstica Descriptiva
x
x 2
x 3
el 95%
el 100%
C.V . =
Regla emprica, si el C.V. 35%
heterogneo.
100%
i =1
(mi X )
i =1
; donde 3 =
[ V (X ) ]
ni
N 3
i =1
(mi X )
i =1
; donde 4 = [V ( X )]2
ni
N 4
H. Alvarado L. Retamal
Estadstica Descriptiva
percentil mediante i =
N k
100
X (i ) + X (i + 1)
2
N k
100
y obtenga Pk
x % N N i 1
ni
H. Alvarado L. Retamal
Estadstica Descriptiva
Se cumple que
n i j
=N
i j
r s
f i j
i
=1
donde,
nij es la frecuencia absoluta para los individuos que representan la modalidad conjunta xi
de X e yj de Y.
fij es la frecuencia relativa para los individuos que representan la modalidad conjunta xi de
X e yj de Y.
Las frecuencias absolutas (o relativas) se resumen en una tabla de frecuencias
bidimensional llamada tambin Tabla de Contingencia o tabla de doble entrada. En total
hay r s clases.
Y
Y1 Y2
Yj
Ys
Totales
_______________________________________________
X1
n11 n12
n1s
n1
X2
n21
Xi
Xr
nr1
nij
nis
ni
nrj
nrs
nr
_______________________________________________
n j
n s
N
Totales n1
s
ni = nij
j =1
n j = nij
i =1
xi y j nij
X Y =
i j
H. Alvarado L. Retamal
Estadstica Descriptiva
Observacin:
a) Si las variables son independientes entre s la covarianza es cero. El inverso no siempre
se cumple.
b) Si la Covarianza es distinto de cero entonces las variables son dependientes.
c) Si la Covarianza es positiva la dependencia es directa, es decir el aumento o
disminucin en una variable provoca el mismo efecto en la otra variable.
d) Si la Covarianza es negativa la dependencia es inversa
Un problema de la covarianza es que depende de las unidades de medida por lo que no
logramos cuantificar el grado de relacin lineal entre dos variables. Una medida
adimensional del grado de relacin lineal entre las variables X e Y es el Coeficiente de
correlacin de Pearson dada por:
r=
Cov ( X , Y )
[V ( X )V (Y )]1
El Coeficiente de correlacin mide la intensidad de una relacin lineal entre dos variables.
En general podemos decir: (para interpretar)
r=0
no hay correlacin lineal (no estn relacionadas linealmente)
0 < rXY 0.5
existe correlacin lineal dbil
rXY = 1
H. Alvarado L. Retamal
Estadstica Descriptiva
Y
1,3
1,8
2,3
2,8
3,3
300 - 350
2
0
3
0
0
350 - 400
1
2
2
1
0
400 - 450
1
1
0
1
2
450 - 500
0
0
1
1
2
No sectores de la comuna
6,000
5,000
4,000
3,000
2,000
1,000
0,000
<= 300
(300|350]
(350|400]
(400|450]
(450|500]
> 500
b)
X
ni
mi
0.8 1.3
1.3 1.8
1.8 2.3
2.3 2.8
2.8 3.3
1
2
2
1
0
1.05
1.55
2.05
2.55
3.05
mi ni 10.8
=
= 1 .8
N
6
H. Alvarado L. Retamal
Estadstica Descriptiva
c) N i N
X
Ni
ni
0.8 1.3
1.3 1.8
1.8 2.3
2.3 2.8
2.8 3.3
2
3
2
2
2
= 5 .5
5 .5 5
2
M e = 1 .8 +
0,5 = 1,925 km
2
2
5
7
9
11
11
Y
300 350
350 400
400 450
450 500
mi
ni
325
375
425
475
5
6
5
4
d) V (Y ) =
3177500
(395) 2 = 2,850
20
se pide
V (1,03Y ) = (1,03) V (Y ) = 3,0236 ton 2
2
20
3
99
6
104
5
151
6
129
6
142
3
111
4
74
4
91
5
3
119 91
a) Construir una tabla de doble entrada. Considere la variable cantidad gastada en alimentos
dividida en tres intervalos de clases.
b) Interprete los valores de n21 , f12 , n. 2 y n3.
c) Calcular e interpretar el coeficiente de variacin de gastos en alimentos.
d) Obtener la distribucin condicional de los gastos en alimentos dado que el tamao
familiar lo componen cuatro personas.
e) Calcular e interpretar el promedio de los gastos en alimentos dado que el tamao
familiar lo componen cinco personas.
f) Determinar la varianza del tamao familiar dada la cantidad gastada en alimentos.
g) Determine si existe relacin entre la cantidad gastada por semana en alimentos y el
tamao de una familia.
H. Alvarado L. Retamal
Estadstica Descriptiva
1 =
Cov( X , Y )
2X
xy x y
N
xi2 x 2
N
0 = y 1 x
Y = 0+ 1 X
xi , y ,
i
donde
y i = 0 + 1 xi
; i = 1, n
a)
b)
c)
d)
e)
f)
g)
Estadstica Descriptiva
H. Alvarado L. Retamal
Ejercicio 5. Se ha comprobado que las aleaciones amorfas tienen una excelente resistencia
a la corrosin. Se inform de la resistividad de una aleacin amorfa de hierro, boro y silicio
despus de la cristalizacin. Se reconocieron cinco especimenes de la aleacin a 700 C,
cada uno durante un intervalo de tiempo distinto. Despus se midi el potencial de
pasivacin- una medida de la resistividad de la aleacin cristalizada para cada espcimen:
Tiempo de recocido Potencial de pasivacin
x, minutos
y, mV
10
-408
20
-400
45
-392
90
-379
120
-385
a) Construya un diagrama de dispersin para los datos.
b) Suponiendo que la mejor forma de describir la relacin entre las variables es con
una lnea recta, utilice el mtodo de mnimos cuadrados para estimar la ordenada al
origen y la pendiente de la lnea.
c) Segn la lnea de mnimos cuadrados, cul es el potencial de pasivacin esperado
y, cuando el tiempo de recocido es de x = 30 minutos?
d) Verifique que la suma de los errores es cero.
e) Mediante planilla excel obtenga el modelo ajustado y los valores de los errores.