Analisis Estadistico de Datos Muestrales

Anlisis estadstico de datos muestrales
M. en A. Vctor D. Pinilla Morn

Facultad de Ingeniera, UNAM
Resumen
Representacin de los datos de una muestra: tablas de frecuencias,
frecuencias relativas y frecuencias relativas acumuladas.
Representacin grfica de dichas tablas: Histogramas y polgonos de
frecuencias. Analogas de estos polgonos con las funciones de
probabilidad segn el concepto frecuentista de la probabilidad:
distribuciones empricas de probabilidad.
Medidas de tendencia central, de dispersin de la muestra, de sesgo y
aplanamiento de la muestra, cuando los datos de ella estn o no
agrupados. Analoga de estas medidas con las correspondientes a la
funcin de probabilidad de la variable aleatoria discreta.
1.1 La poblacin y la muestra. Relacin entre

la
probabilidad
y
la
estadstica.
Clasificaciones de la estadstica.
De esta definicin pueden percibirse dos grandes

reas de accin de la Estadstica, la Descriptiva y
la Inferencial.
Estadstica: En el lenguaje comn es conocida

como un conjunto de datos. Se refiere a un
conjunto de mtodos para manejar la obtencin,
presentacin y el anlisis de observaciones
numricas. Sus fines son: Describir al conjunto
de datos obtenidos y tomar decisiones, o bien,
realizar generalizaciones acerca de las
caractersticas
de
todas
las
posibles
observaciones bajo consideracin.
Estadstica Descriptiva. Se refiere a aquella

parte del estudio que incluye la obtencin,
organizacin, presentacin y descripcin de la
informacin numrica.
Probabilidad y Estadstica
Noviembre 2009
Estadstica Inferencial. Es una tcnica de la

cual se obtienen generalizaciones o se toman
decisiones con base a informacin parcial o
incompleta
obtenida
mediante
tcnicas
descriptivas.
M.A. Vctor Damin Pinilla Morn.

1
Es necesario determinar que todas las ciencias

sin importar la disciplina tienen como
denominador comn al mtodo cientfico, por
ende, la Estadstica al ser una herramienta
necesaria ara el mtodo cientfico, forma parte
tambin de todas las ciencias.
Desde el punto de vista de la naturaleza de la
informacin manipulada, la Estadstica puede
clasificarse como Paramtrica y No Paramtrica.
Estadstica Paramtrica. Son todas aquellas
tcnicas y herramientas estadsticas que utilizan
variables cuantitativas, es decir, medibles.
Estadstica No Paramtrica. Son todas aquellas
tcnicas y herramientas estadsticas que utilizan
variables cualitativas.
Desde el punto de vista del nmero de variables
sobre las cuales se basa el anlisis matemtico
respectivo, siendo la estadstica univariable la
que utiliza una sola variable, mientras que la
estadstica multivariable analiza dos o ms
variables.
Poblacin. Conjunto de todas las posibles
observaciones. Sinnimo de Conjunto Universal
se le define como la totalidad de todas las
posibles
mediciones
observables,
bajo
consideracin en una situacin dada por
determinado problema, circunstancias diferentes
implican situaciones diferentes.
Noviembre 2009
Las Poblaciones se clasifican en funcin a su

cardinalidad.
Poblacin Finita. Es aquella que incluye un
nmero limitado de medidas y observaciones.
Poblacin Infinita. Es aquella que por incluir un
gran nmero de medidas y observaciones no es
posible determinar la cantidad de stas.
En lo general, las caractersticas medibles de una
poblacin son denominadas Parmetros.
Muestra. Conjunto de observaciones o medidas
tomadas a partir de una poblacin dada, es decir,
es un subconjunto de la poblacin. Desde luego,
la cardinalidad de la muestra depende de la
cardinalidad de la poblacin. Las muestras deben
ser representativas para evitar un sesgo u error.
Estadsticos Muestrales1. En lo general, son las
caractersticas medibles de una muestra
El muestreo es la tcnica seguida para obtener o
extraer una muestra. Su ventaja radica en que
nos permite conocer, con un grado de
aproximacin aceptable, a partir de sus
caractersticas, las caractersticas propias de la
poblacin de la cual proviene. Esto resulta
En la literatura suelen denominarse por
igual estadsticos o estadsticas a las
caractersticas de las muestras.
1

2
invaluable, tomando en cuenta que en la mayora

de los casos, las caractersticas de las muestras
son desconocidas.
El sesgo es la diferencia que existe entre los
datos obtenidos a travs de una muestra y los
datos reales (normalmente desconocidos)
pertenecientes a la poblacin. Puede interpretarse
como un error absoluto entre un valor real y uno
aproximado. Cuando se denomina como sesgado
a determinado resultado se pretende establecer
que su valor es diferente al real.
Las tcnicas de muestreo pueden clasificarse de
la siguiente forma:
Muestreo Estratificado. Esta tcnica implica

dividir a la poblacin en clases o grupos
denominados Estratos. Se supone que las
unidades que componen al estrato, son
relativamente homogneas, con respecto a las
caractersticas que vayan a estudiarse. A menudo
se toma una razn de muestreo igual para todos
los estratos generalmente en proporcin; a una
muestra seleccionada as, se le llama Muestra
Estratificada Proporcional. (Se estudia slo el
estrato)
Cuando la proporcin de rastreo est
directamente relacionada con la homogeneidad
es decir entre ms homogneo sea el estrato
menor ser su proporcin incluida en la muestra.
A una muestra obtenida de esta forma se le
denomina:
Muestra
estratificada
Desproporcionada. (De una poblacin normal se
toma una muestra proporcional)
Muestreo
por
Conglomerados.
Este
procedimiento implica la seleccin de grupos
(conglomerados) a partir de la poblacin, las
diferencias
entre
conglomerados
son
generalmente pequeas, aunque internamente sus
unidades son heterogneas. Cada conglomerado
es una miniatura de la poblacin.
Muestreo Probabilstico. Es aquel en donde en

la eleccin de una muestra interviene el azar.
Muestreo No Probabilstico. Es aquel en donde
en la seleccin de una muestra no interviene el
azar.
Muestreo sistemtico. Se selecciona una

muestra tomada cada k-sima unidad de la
poblacin a la vez, una vez que las unidades de
la poblacin estn arregladas de alguna forma. k,
es la razn del muestreo. (En el metro, preguntar
a cada 5 personas que pasan.)
Muestreo Aleatorio Simple. Cada uno de los

componentes de la muestra tienen la misma
probabilidad de ser elegido. Puede ser:
Con Reemplazo logra un nmero infinito
de las muestras, lo que asegura la
independencia estadstica entre ellas.
Sin Reemplazo logra un nmero finito de
las
muestras
las
cuales
son
estadsticamente dependientes.
Noviembre 2009

3
Representacin de los datos de una

muestra. La Estadstica Descriptiva se
encarga de la obtencin, organizacin,
representacin y descripcin de los datos.
general se coincide que no sean tan pocos

que no resulte apropiada la agrupacin de
datos ni tantos que la haga poco prctica. En
general, se recomienda que el nmero de
intervalos no sea ni menor de cinco ni mayor
a quince.
La obtencin de los datos se logra a travs de

las tcnicas de muestreo, conforme al diseo
del experimento seleccionado.
Por otra parte, ciertos autores han establecido

algunas reglas matemticas para determinar
el nmero de intervalos. Dos de ellas son:
1.2 Estadstica descriptiva.
Como se podr observar ms adelante,

existen expresiones que permiten trabajar
con la totalidad de los datos de la muestra; al
arreglo que utiliza la totalidad de los datos se
le conoce como datos no agrupados.
Antes de la evolucin tecnolgica o bien,
cuando los recursos de cmputo son
limitados, trabajar con un nmero alto de
datos resulta complicado. Por tal motivo, se
conform un arreglo de datos basado en
intervalos conocido como tabla de
frecuencias. Cuando se utiliza la tabla de
frecuencias se dice que se trabaja con datos
agrupados.
Ahora bien, con el avance en los recursos de
cmputo resulta ahora de lo ms sencillo
trabajar con datos no agrupados, lo que evita
errores numricos y los propios ocasionados
por el agrupamiento de los datos en las tablas
de frecuencia. No obstante, las tablas de
frecuencias son necesarias para construir las
representaciones grficas de las muestras.
Intervalos de clase. Se refiere a los
intervalos en los cuales sern agrupados los n
datos obtenidos en el muestreo. Una tabla de
frecuencias se compone de un nmero finito
de intervalos continuos, todos del mismo
ancho. El nmero de intervalos es variable y
su eleccin depende de la experiencia de
quin construye la tabla. No existe consenso
por parte de los autores para determinar el
nmero ptimo de intervalos, pero en lo
Noviembre 2009
Ley de Sturges: # intervalos = 1 +

3.322 Log (n)
# intervalos = n
En ambos casos, n es el nmero total de
datos.
Lo que resulta importante, ms que
determinar el nmero de intervalos, es que
estos cumplan con una serie de
caractersticas:
1. Todos los intervalos deben tener el
mismo ancho.
2. Un dato slo puede pertenecer a un
solo intervalo.
3. No debe haber intervalos vacos.
Ilustremos lo anterior con un ejemplo.
Ejemplo. Los siguientes datos corresponden
a 80 mediciones de la longitud de un
travesao parte de un chasis. Sus
dimensiones son en centmetros.
50.1
50.6
50.7
51.1
52.0
50.8
51.4
49.9
51.8
51.3
50.6
49.1
51.4
51.8
51.3
51.5
51.0
50.9
50.3
51.2
51.1
51.8
51.9
50.3
51.1
51.1
51.7
50.2
50.5
51.6
50.8
51.0
50.4
51.5
50.8
51.2
50.1
51.5
51.7
51.9
52.2
50.8
51.7
51.7
49.4
50.3
52.1
51.0
51.7
51.9
51.9
51.8
51.0
50.3
50.3
51.3
51.0
50.2
50.4
51.6
51.2
51.1
49.5
49.9
51.1
51.7
52.8
49.6
49.6
53.1
52.0
49.7
52.0
49.7
51.2
51.8
51.1
51.3
51.2
51.8

4
El primer paso para construir los intervalos de

clase consiste en ordenar los datos de menor a
mayor, sin eliminar ninguno de ellos.
49.1
49.4
49.5
49.6
49.6
49.7
49.7
49.9
49.9
50.1
50.1
50.2
50.2
50.3
50.3
50.3
50.3
50.3
50.4
50.4
50.5
50.6
50.6
50.7
50.8
50.8
50.8
50.8
50.9
51.0
51.0
51.0
51.0
51.0
51.1
51.1
51.1
51.1
51.1
51.1
51.1
51.2
51.2
51.2
51.2
51.2
51.3
51.3
51.3
51.3
51.4
51.4
51.5
51.5
51.5
51.6
51.6
51.7
51.7
51.7
51.7
51.7
51.7
51.8
51.8
51.8
51.8
51.8
51.8
51.9
51.9
51.9
51.9
52.0
52.0
52.0
52.1
52.2
52.8
53.1
Rango. Es la diferencia entre el dato mayor y el

menor.
Rango = 53.1 49.1 = 4.0
Nmero de intervalos. Es atribucin del
diseador del experimento definir el nmero de
intervalos con la recomendacin de que no sean
ni menos de cinco ni ms de quince. No obstante,
es posible utilizar como gua las siguientes
expresiones:
# intervalos = 1 + 3.322 Log (80) = 7.32
# intervalos =
n =
80 = 8.94
Se conviene en establecer ocho intervalos
Ancho del intervalo. Se define como:
menor. Para motivos de nuestro ejemplo,

comenzaremos en el dato menor.
Clase
1
2
3
4
5
6
7
8
4.0
8
Uno de estos recursos consiste en aprovechar la

uniformidad de los datos producto del diseo del
experimento. En nuestro caso, el muestreo arroj
datos uniformes en el sentido de que todos ellos
son compuestos por dos cifras enteras y una cifra
decimal. Se puede proceder de dos formas:
1. Iniciar los intervalos un poco antes que

el dato menor, por ejemplo en 49.05. Al
establecer un lmite de intervalos con
una cifra decimal ms, se minimiza la
probabilidad de que algn dato coincida
con alguna frontera. Sin embargo, el dato
mayor quedar excluido del ltimo
intervalo, por lo que se deber aumentar
el ancho del intervalo.
= 0.5
Todos los intervalos medirn 0.5 cm de ancho.

Ahora bien, el primer intervalo puede comenzar
justo en el dato ms pequeo, aunque esto no es
regla general; si al diseador le conviene, puede
empezar con un lmite inferior menor al dato
2
Noviembre 2009
49.6
50.1
50.6
51.1
51.6
52.1
52.6
53.1
A este respecto, algunos autores en apego fiel a

la definicin de intervalos expresan a los
intervalos de clase en forma de intervalos
abiertos por un extremo y cerrados por el otro (el
extremo cerrado o abierto es decisin del
diseador)2. Sin embargo, por usos y costumbres
y pensando en las representaciones grficas de
los datos, se utilizan algunos recursos para evitar
esta eventualidad.
Para nuestro ejemplo:
49.1
49.6
50.1
50.6
51.1
51.6
52.1
52.6
Puede observarse que tanto el dato menor como

el mayor son incluidos en algn intervalo; sin
embargo, se produce un conflicto ya que algunos
datos coinciden con las fronteras compartidas de
los intervalos, lo cual no satisface la segunda
caracterstica de los intervalos de clase.
W : Ancho del Intervalo

Rango
W=
# intervalos
Intervalos de Clase
Lmite
Lmite
Inferior
Superior
Se les denomina Lmites Reales de Clase.

5
2. Aumentar el ancho de intervalo en una

cifra decimal ms que la que contienen
los datos, por ejemplo, 0.55. Debe
tomarse en cuenta que en determinado
momento, la suma de los anchos de
intervalo pueden hacer coincidir un dato.
Resulta ms conveniente utilizar 0.51
Clase
1
2
3
4
5
6
7
8
Intervalos de Clase
Lmite
Lmite
Inferior
Superior
49.10
49.61
50.12
50.63
51.14
51.65
52.16
52.67
49.61
50.12
50.63
51.14
51.65
52.16
52.67
53.18
Marcas de clase. Son los puntos intermedios de

cada intervalo de clase.
Clase
1
2
3
4
5
6
7
8
Ti =
Lsup Linf
Intervalos de Clase
Lmite
Lmite
Inferior
Superior
49.10
49.61
49.61
50.12
50.12
50.63
50.63
51.14
51.14
51.65
51.65
52.16
52.16
52.67
52.67
53.18
50.1
50.2
50.2
50.3
50.3
50.3
50.3
50.3
50.4
50.4
50.5
50.6
50.6
50.7
50.8
50.8
50.8
50.8
50.9
51.0
51.0
51.0
51.0
51.0
51.1
51.1
51.1
51.1
51.1
51.1
51.1
51.2
51.2
51.2
51.2
51.2
51.3
51.3
51.3
51.3
51.4
51.4
51.5
51.5
51.5
51.6
51.6
51.7
51.7
51.7
51.7
51.7
51.7
51.8
51.8
51.8
51.8
51.8
51.8
51.9
51.9
51.9
51.9
52.0
52.0
52.0
52.1
52.2
52.8
53.1
Naturalmente, la suma de todas las frecuencias

debe coincidir con el nmero total de datos (n).
Este ltimo arreglo garantiza el cumplimiento de

las tres caractersticas de los intervalos de clase.
Ti : Marca de Clase
49.1
49.4
49.5
49.6
49.6
49.7
49.7
49.9
49.9
50.1
Frecuencia Relativa. Se refiere a la frecuencia

de cada una de las clases dividida entre el
nmero total de datos (n). De aqu se deriva la
interpretacin frecuentista de la probabilidad.
F 'i : Frecuencia relativa de la i-sima clase

F
F 'i = i
n
Comprobando el axioma de la probabilidad para
variables aleatorias discretas:
P( x) = 1 , la
Marcas de
Clase
49.36
49.87
50.38
50.89
51.40
51.91
52.42
52.93
suma de todas las frecuencias relativas debe ser

la unidad.
Frecuencia Acumulada. Son los datos

acumulados desde el primer dato hasta la i-sima
clase.
Faci : Frecuencia Acumulada de la i-sima

clase.
Frecuencia. Es el nmero de datos que pertenece

a cada intervalo de clase.
Fi : Frecuencia de la i-sima clase
Noviembre 2009
Este concepto coincide con el particular de

Funcin de Distribucin o Funcin de
Probabilidad Acumulada. Debe destacarse que la
Frecuencia Acumulada de la ltima clase debe
coincidir con el nmero total de datos (n).

6
Frecuencia Acumulada Relativa. En la

frecuencia acumulada de la clase i-sima entre el
numero total de datos (n).
F ' aci : Frecuencia Acumulada Relativa

F ' aci =
Faci
n
El polgono de frecuencias es una lnea

quebrada que une los puntos de interseccin de la
abscisa que corresponde a la marca de clase con
la ordenada que puede ser la frecuencia o la
frecuencia relativa. El polgono se cierra con el
eje horizontal al iniciarlo en el lmite inferior del
primer intervalo de clase y concluirlo en el lmite
superior del ltima intervalo de clase.
De la misma forma, se comprueba que

P( x) = 1 ya que la frecuencia relativa de la
ltima clase, debe ser la unidad.

La tabla completa queda de la siguiente forma:
Clase
1
2
3
4
5
6
7
8
Intervalos de Clase
Lmite
Lmite
Inferior
Superior
49.10
49.61
49.61
50.12
50.12
50.63
50.63
51.14
51.14
51.65
51.65
52.16
52.16
52.67
52.67
53.18
Marcas de
Clase
49.36
49.87
50.38
50.89
51.40
51.91
52.42
52.93
Esta tabla se conoce como Distribucin de

Frecuencias.
Representacin grfica de la distribucin de
frecuencias. Una forma muy rpida y efectiva de
interpretar la informacin contenida en una
distribucin de frecuencias consiste en graficar
sus elementos.
Bsicamente
existen
representaciones:
tres
tipos
El Histograma en una grfica de barras o

columnas que se construye en un sistema
coordenado en cuyo eje horizontal o de abscisas
se detallan los intervalos de clase y en el eje
vertical o de ordenadas se ubican las frecuencias
o las frecuencias relativas.
Frecuencia
Frecuencia
Relativa
5
6
12
18
16
20
2
1
80
0.06
0.08
0.15
0.23
0.20
0.25
0.03
0.01
1.00
Frecuencia
Frecuencia
Acumulada
Acumulada
Relativa
5
0.06
11
0.14
23
0.29
41
0.51
57
0.71
77
0.96
79
0.99
80
1.00
Cuando un polgono se dibuja sobre un

histograma de la misma distribucin, la lnea
quebrada une los centros de las bases superiores
de los rectngulos del histograma.
Las ojivas de frecuencias son lneas quebradas
que se trazan por los puntos de interseccin de
las coordenadas que corresponden a las marcas
de clase y sus respectivas frecuencias
acumuladas o frecuencias acumuladas relativas.
de
Histograma
Representaciones
Grficas
Polgono de
frecuencias
Ojiva de frecuencias
Noviembre 2009

7
20
18
20
16
12
15
10
5
6
2
0
49 . 1 0
49. 61
50. 12
50. 63
5 1. 14
5 1. 65
52. 16
52. 67
5 3. 18
Histograma
20
20
18
16
15
12
10
6
2
0
49.36
49.87
50.38
50.89
51.40
51.91
52.42
1
52.93
Polgono de frecuencias
100
80
60
77
79
80
51.91
52.42
52.93
57
41
40
23
20
5
0
49.36
11
49.87
50.38
50.89
51.40
Ojiva de frecuencias
Noviembre 2009

8
Medidas descriptivas. Estos ndices permiten

caracterizar a las distribuciones de frecuencias
para poder hacer una interpretacin acertada de
la misma.
representar de la mejor forma a los datos de los

cuales proviene. Esta representacin puede
lograrse de varias formas.
Media Aritmtica
En lo general, todas estas medidas pueden ser
calculadas para datos no agrupados y para datos
agrupados.
Cuando se datos agrupados se trata, se utiliza la
informacin contenida en la distribucin de
frecuencias lo que realmente implica una
simplificacin, ya que se considera que todos los
datos que se ubican en un mismo intervalo de
clase (frecuencia) son iguales y se ubican sobre
la marca de clase respectiva. Naturalmente, esta
simplificacin origina un error en los clculos,
mismo que no se considera significativo y que
puede reducirse utilizando intervalos de
confianza angostos.
Medidas de Tendencia Central. Son aquellas
medidas que nos proporcionan un dato que, con
ciertos matices, puede considerarse representante
de los n datos obtenidos del muestreo.
Media. Tradicionalmente se considera a la media
como un promedio aritmtico de n datos. En
realidad es ms que esto. La media pretende
Noviembre 2009
X =
Para datos no agrupados:
X
i =1
donde n es el nmero total de datos.

Para datos agrupados:
X=
F T
i
i =1
= F 'i Ti
i =1
Donde:
Fi es la frecuencia de la i-sima clase

Ti es la marca de clase de la i-sima clase
F 'i es la frecuencia relativa de la i-sima
clase
k representa el total de clases de la
distribucin
9
Como dato representante de una muestra, la

media aritmtica presenta el problema de los
datos ubicados en los extremos de la muestra, los
ms pequeos y los ms grandes, que en la
generalidad suelen ser pocos, sesgan o inducen
un error en el resultado. La media aritmtica
nunca debe utilizarse por s sola para hacer
alguna conclusin sobre la muestra, resulta
conveniente acompaarla de alguna medida de
dispersin como se ver ms adelante.
Media Ponderada. A diferencia del promedio
aritmtico, el promedio ponderado toma en
cuenta la existencia de los elementos adems de
su valor a promediar. Es decir, al tomar en
cuenta el nmero de elementos repetidos
minimiza la posibilidad de uno o dos datos
extremos modifiquen dramticamente el
resultado. La media ponderada corresponde
directamente al valor esperado o esperanza
matemtica estudiado en Probabilidad.
Para calcular la media ponderada de n datos
(datos no agrupados) es necesario contar todos
ellos para establecer cuantos de ellos se repiten.
En la prctica, esto implica ordenarlos, motivo
por el cual no se acostumbra su clculo en esta
modalidad. Por otra parte, como puede
observarse, la media ponderada para datos
agrupados coincide con la media aritmtica para
datos agrupados, si consideramos un punto de
vista frecuentista de la probabilidad, ya que la
frecuencia de la clase i-sima dividida entre el
nmero total de datos es la probabilidad de que
un dato pertenezca a la clase respectiva, mientras
que la marca de clase representa el valor
especfico del dato.
X=
F T
i
i =1
= F 'i Ti
i =1
Media geomtrica.
En la prctica suele obtenerse a travs de

logaritmos.
Log (G ) =
1
[Log ( X 1 ) + Log ( X 2 ) + Log ( X 3 ) + ... + Log ( X n )]
n
Media armnica. La media armnica de una

serie de nmeros es el recproco de la media
aritmtica de los recprocos de los nmeros.
X=
1
n
1
1
n i =1 X i
n
n
n
i =1
en la prctica se utiliza:
n
1
=
X
X
i =1
Mediana. Es el dato que divide exactamente a la

mitad a la muestra.
n impar
n par
Se muestran los dos posibles casos de la mediana

con datos no agrupados, en el primer caso la
muestra est compuesta por un nmero non de
observaciones. La mediana es el dato que se
encuentra exactamente a la mitad de la muestra
ordenada. (de menor a mayor por ejemplo); esto
se puede entender considerando una balanza que
contiene los datos; para que est equilibrada debe
existir el mismo nmero de datos de cada lado,
por lo que la mediana ser la que quede situada
en el centro de la balanza.
X = n X 1 X 2 X 3 ... X n
Noviembre 2009

10
El segundo caso cuando la muestra est

compuesta por un nmero par de observaciones.
En este caso, la mediana es el promedio de los
dos valores centrales.
Para su clculo como dato no agrupado es
necesario ordenar los datos en forma descendente
o ascendente y atender la siguiente regla, de
acuerdo a la naturaleza del nmero total de datos
n:
Si n es impar:
med = X n +1
2
Xn +Xn
Si n es par: med =
+1
Como puede observarse, cuando el nmero de

elementos es par no hay un valor que se
encuentre exactamente a la mitad de la muestra;
en este caso se pueden promediar los dos valores
ms cercanos a la mitad.
Para nuestro caso, n es par e igual a 80. De tal

forma:
X 80 + X 80
med =
+1
X 40 + X 41 51.1 + 51.1
=
= 51.1
2
2
Para su clculo como dato agrupado, la mediana

se obtiene determinando cual es la clase que
incluye a la mediana, la cual se distingue porque
tiene una frecuencia acumulada relativa mayor o
igual a 0.5 (50% de los datos).
Para obtener una expresin que permita su
clculo, a partir de la ojiva de frecuencias
acumuladas relativas se puede aproximar su
mediana trazando una lnea horizontal a partir de
la ordenada 0.5 (o 50%) hasta cortar la grfica y
en dicho punto localizar el correspondiente en el
eje de las abscisas.
Fac
n
2
Fk
Fack-1
Linfk
Noviembre 2009
Med
Lsupk

11
A partir de una interpolacin lineal, se utiliza la

ecuacin de la recta:
y = y0 + m( x x0 )
de acuerdo con la anterior figura:
y = 0.5
y = F ' ack 1
x = med x 0 = Liminf
m=
f 'k
w
donde:
k : Clase donde se ubica a la mediana
F ' ack : Frecuencia acumulada relativa de
la clase anterior a la en que se encuentra la
mediana
f 'k : frecuencia de la clase donde se ubica
la median
w : ancho del intervalo
Liminf : Lmite inferior de la clase donde se
ubica la mediana.
Sustituyendo los valores:
0.5 = F ' ac k 1 +
f 'k
(me Lminf )
w
para nuestro ejemplo, la clase mediana (o la que

incluye a la mediana) es la clase 4, ya que su
frecuencia acumulada relativa es de 0.51. De tal
forma:
80
23
(0.51) = 51.11
med = 50.63 + 2
18
Moda. Es el elemento de la muestra que ms se

repite. Una muestra puede tener una o ms
modas. Cuando todos los elementos de la
muestra son diferentes, no tiene sentido hablar de
ella.
Para datos no agrupados, la moda se determina
por inspeccin, mientras que para datos
agrupados se puede aproximar con la marca de
clase del intervalo de la clase modal, que es la
que tenga la mayor frecuencia.
En algunos casos se puede mejorar la
aproximacin considerando que la moda es la
abscisa del mximo de una curva hipottica que
pasa por las marcas de clase, como se observa:
R
D1
S
P
D2
despejando:
med = Liminf
w
(0.5 F ' ac k 1 )
+
f 'k
No obstante, por motivos generalistas, resulta

mejor expresar a la mediana en funcin de
frecuencias absolutas en lugar de relativas:
X
Linf
med = Liminf
Lsup
Fac k 1
w
+ 2
Fk
Noviembre 2009
mod

12
Medidas de dispersin. Estas medidas reflejan

la separacin o alejamiento de los elementos de
una muestra. Estas medidas deben acompaar a
las medidas de tendencia central, particularmente
a la media, para evitar los efectos que los datos
extremos tienen sobre ellas.
De acuerdo con lo anterior, se puede considerar

que la moda debe pertenecer al intervalo de clase
con mxima frecuencia, pero proporcionalmente
ms cercano al intervalo adyacente que le siga en
frecuencia, de esta manera se puede plantear la
proporcin (tringulos semejantes):
EP PF
=
RQ ST
La medida de dispersin ms sencilla es el

Rango, amplitud o recorrido, que como ya se
mencion es la diferencia entre el dato mayor y
del menor.
Mod Linf Lsup Mod

=
D1
D2
(Mod Linf )D2 = (Lsup Mod )D1
Varianza. Tal y como la define la probabilidad,

la varianza de una variable aleatoria es el
segundo momento de la misma con respecto a la
media. Asimismo, se interpreta de la misma
forma, como un promedio de las distancias de
cada dato hacia la media.
Mod (D1 D2 ) = Linf D2 + Lsup D1

Si: w = Lsup Linf
Lsup = Linf + w
sustituyendo
Momentos
Mod (D1 D2 ) = Linf D2 + (Linf + w)D1
mk =
L (D + D2 ) + wD1
Mod = inf 1
D1 + D2
Mod = Linf
para
mk =
agrupados:
para
datos
1
k
Fi (Ti X )
n i =1
agrupados:
Para datos no agrupados la varianza se define

como:
donde:
(X
X)
Linf : Lmite inferior de la clase modal

w : ancho del intervalo
D1 :diferencia de las frecuencias de la
=
2
clase modal y la premodal

D2 : diferencia de las frecuencias de la clase
modal y la postmodal
i =1
Esta frmula puede expresarse de una forma ms

sencilla a partir del desarrollo del binomio al
cuadrado:
para nuestro ejemplo, la clase modal es la

nmero 6. Dado lo anterior:
(X
=
2
4
mod = 51.65 +
(0.51) = 51.7
4 + 18
=
2
A partir de la inspeccin de la muestra, el dato

que ms se repite es 51.1 con siete repeticiones.
no
1
(X i X )
n i =1
Momentos
D1
w
+
D1 + D2
datos
k
i =1
X)
i =1
i =1
(X
n
i =1
X i2 2 X X i + n X
n
2
i
2X i X + X
n
n
1 n
= X i2 2 X
n i =1
X
i =1
3 En este caso r representa el total de clases, haciendo

una distincin con k, que es el orden del momento.
Noviembre 2009

13
+X
ya que X =
X
i =1
sustituyendo
2 =
1
2
2
X i2 2 X X
Desviacin media. Ciertos autores opinan que

para obtener el promedio de las distancias de
cada dato con respecto a la media debe obtenerse
el valor absoluto de la distancia entre ambos
puntos y despus obtenerse su promedio. De tal
forma, la desviacin media (para datos no
agrupados) se define como:
n
2 =
1
2
X i2 X
n i =1
Para datos agrupados:
Desviacin Media =
X
i =1
Utilizando esta ltima expresin, para nuestro

ejemplo la varianza es de:
2 = 0.6564
Por otra parte, utilizando la frmula para datos
no agrupados:
2 = 0.6308
Desviacin estndar. Es fcil de percibir, a
partir de un anlisis dimensional, que la varianza
posee las unidades de la variable muestreada
elevada al cuadrado. Esta situacin no permite
una rpida visualizacin o interpretacin de la
dispersin de los datos.
En virtud de lo anterior, la desviacin estndar es
la raz cuadrada de la varianza:
= 2
La desviacin estndar tambin es conocida
como desviacin tpica o error estndar.
Noviembre 2009
Asimismo, algunos autores utilizan como

referencia a la mediana en lugar de la media.
n
r
1 r
2
2
2 = Fi (Ti X ) = F ' i (Ti X )
n i =1
i =1
Desviacin Media =
X
i =1
med
Es necesario comentar que debido a las

complejidades que implica el manejo del valor
absoluto, estos conceptos no son muy socorridos.
Asimetra. Esta medida, tambin llamada sesgo,

tiene como finalidad mostrar hacia qu lado de le
media se ubican ms datos. Corresponde al tercer
momento con respecto a la media determinar esta
situacin. No obstante, en situacin similar a lo
que ocurre con la varianza, el tercer momento
posee las unidades de la variable muestreada
elevada al cubo.
Con el fin de volver adimensional al tercer
momento, se define al coeficiente de asimetra
de la siguiente forma:
3 =
m3
m2
m3
) ( )
3
3
2 2
Este coeficiente tiene como referencia al valor

cero.
Si: 3 = 0 La distribucin es simtrica,
es decir, existe la misma cantidad de
datos a ambos lados de la media.

14
Esto implica que debe cumplirse la

siguiente relacin:
X = med = mod
Si: 3 < 0 La distribucin es asimtrica
negativa, es decir, existen ms datos a
derecha de la media.
Datos no agrupados:
3 = 0.28
Datos agrupados:
3 = 0.2382
Implica que se trata de una curva asimtrica

negativa. Comprobando lo anterior:
X = 51.0571 med = 51.1117

mod = 51.7423

siguiente relacin:
mod = med = X
mod < med < X

Si: 3 > 0 La distribucin es asimtrica
positiva, es decir, existen ms datos a
izquierda de la media.
siguiente relacin:
X > med > mod
3 = 0
Apuntamiento. Corresponde al cuarto momento

con respecto a la media identificar a una medida
que auxiliar directamente a las medidas de
dispersin. El apuntamiento o curtosis4 detalla lo
puntiagudo o aplastado de una distribucin.
Una distribucin puntiaguda implica que los
datos estn ms cercanos a la media lo que a su
vez arroja una varianza pequea. En caso
contrario, una distribucin aplastada implica que
los datos se alejan de la media, lo que implica
una varianza grande.
El cuarto momento con respecto a la media posee
las unidades de la variable muestreada elevadas a
la cuarta potencia. Para mejorar una posible
interpretacin, se define al coeficiente de
apuntamiento o coeficiente de curtosis:
3 > 0
3 < 0
4 =
m4
(m2 )
m4
( )
2 2
El valor de referencia de este coeficiente es tres.

Algunos autores, para homologar el uso de este
coeficiente con el de simetra, disminuyen en tres
unidades el valor obtenido y as logran que el
valor de referencia sea cero.
4 =
m4
(m2 )
3=
m4
( )
2 2
Noviembre 2009
Kurtosis en Ingls
15
El lector deber estar atento a esta situacin, ya

que la gran mayora de los programas de
computadoras realizan su comparacin contra el
cero.
La interpretacin es la siguiente:
Si 4 = 0 (o tres), se trata de una
distribucin mesocrtica.
Si 4 > 0 (o tres), se trata de una
distribucin Leptocrtica (o puntiaguda).
Si 4 < 0 (o tres), se trata de una
distribucin Platicrtica (o aplastada).
Fractiles. Si una serie de datos que se colocan en

orden de magnitud, el valor medio (o la media
aritmtica de los dos valores medios) que divide
al conjunto de datos en dos partes iguales es la
mediana. Por extensin, de esta idea se puede
pensar en aquellos valores que dividen a los
datos en cuatro partes iguales. Estos valores se
llaman primero, segundo y tercer cuartl,
respectivamente; el segundo cuartl corresponde
a la mediana de la distribucin.
Anlogamente, los valores que dividen a la
distribucin en diez partes iguales se denominan
deciles, mientras que aquellos que lo hacen en
cien partes iguales se llaman percentiles.
El quinto decl y el quincuagsimo percentil
corresponden a la mediana.
= 0.1121
4
Para datos no agrupados:
Para datos agrupados: = 0.4986
El clculo de los fractiles es bajo el mismo

procedimiento utilizado para la mediana.
n fraccin Fac k 1
w
Fractil = Liminf +
Fk
donde:
Noviembre 2009

16
Liminf :
n:
fraccin :
Fack 1 :
Fk :
w:
Lmite inferior de la clase en que

se ubica el fractil buscado.
Total de datos de la distribucin.
Porcentaje de la muestra
buscado.
Frecuencia acumulada de la clase
anterior a aquella en que se ubica
el fractil buscado.
Frecuencia de la clase en la cual
se ubica el fractil buscado.
Ancho del intervalo.
Asimismo, si se restan el tercer y primer cuartl

estaremos acotando el 50% de la distribucin,
pero centrada en torno a la mediana. A esta
distancia se le conoce como distancia
intercuartlica.
Anlogamente, a la diferencia entre el noveno y
el primer decl se le conoce como distancia
interdeclica y acta al 80% de la poblacin
centrada en torno a la mediana.
Para el ejemplo desarrollado, los clculos son los
siguientes:
Primer cuartl (ubicado en la tercera clase)
El procedimiento es anlogo al utilizado para

calcular la mediana. Con auxilio de la frecuencia
acumulada relativa debe ubicarse la clase en la
cual se ubica el fractil buscado.
Por ejemplo, si de desea calcular el primer cuartl
debe ubicarse la clase que incluye a la frecuencia
acumulada relativa al 0.25 o 25%; para el tercer
cuartl corresponde al 0.75 o 75% de la
distribucin; para noveno decl ocurre a .90 o
90%.
La fraccin corresponde a la parte de la
distribucin en la que se desea dividir, por
ejemplo, para la mediana o mitad de la
distribucin la fraccin fue
primer
cuartl
ser
1
4
1
o 0.5, para el
2
o
0.25
Una forma de interpretar la informacin que nos

entregan los fractiles consiste en ubicar los
lmites que comprenden las fronteras mismas que
son los fractiles.
Por ejemplo, la mediana nos ubica a la frontera
que divide en dos partes iguales a la muestra.
Pero adems implica que la primer parte de la
muestra inicia en el lmite inferior de la primera
clase y concluye en la mediana, as como que la
segunda parte inicia en la mediana y concluye en
el lmite superior del ltimo intervalo de clase.
Noviembre 2009
Tercer cuartl (ubicado en la sexta clase)
(80)(.75) 57
Q3 = 51.65 +
(0.51) = 51.7265
20
Distancia intercuartlica: 51.7265 50.5025 =

1.224
Primer decl (ubicado en la segunda clase)
as
consecutivamente.
(80 )(.25) 11
Q1 = 50.12 +
(0.51) = 50.5025
12
(80(0.1) 5)
D1 = 49.61 +
(0.51) = 49.8650
6
Noveno decl (ubicado en la sexta clase)
(80 )(0.9 ) 57
D9 = 51.56 +
(0.51) = 52.0325
20
Distancia interdeclica: 52.0325 49.8650 =

2.1675
17
Como conclusin de este captulo, se muestra

una tabla resumen con las medidas descriptivas
del ejemplo que se ha desarrollado a lo largo del
mismo.
Datos
no agrupados
n
Rango
Sturges
80
4.0
7.32
8.94
51.0625
media=
mediana=
moda=
Varianza=
0.6308
Desv. Est.=
0.7943
Asimetra=
-0.2800
Apuntamiento= -0.1121
Primer cuartil=
50.4750
Tercer cuartil=
51.7000
Primer decil=
49.9000
Noveno decil=
51.9
Datos
Agrupados
media=
mediana=
moda=
Varianza=
Desv. Est.=
Asimetra=
Apuntamiento=
Primer cuartil=
Tercer cuartil=
Primer decil=
Noveno decil=
51.0571
51.1117
51.7427
0.6564
0.8102
-0.2382
-0.4986
50.5025
51.7265
49.8650
52.0325
Bibliografa
Taro Yamane, Estadstica, Editorial Harla,
Mxico 1999.
Spiegel, Estadstica Serie Schaum, Edit. Mc.
Graw Hill, Mxico 1999.
Frontana et al, Apuntes de Probabilidad y
Estadstica, Facultad de Ingeniera, Mxico
1985
Berk & Carey, Anlisis de datos con
Microsoft Excel, Edit. Thompson Learning,
Mxico 2001
Canavos, Probabilidad y Estadstica, Mc.
Graw Hill, Mxico 1994.
Captura y Edicin:
M.A. Mara Torres Hernndez.
Noviembre 2009

18

Analisis Estadistico de Datos Muestrales

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analisis Estadistico de Datos Muestrales

Încărcat de

Drepturi de autor:

Formate disponibile

Anlisis estadstico de datos muestrales

M. en A. Vctor D. Pinilla Morn

1.1 La poblacin y la muestra. Relacin entre

De esta definicin pueden percibirse dos grandes

Estadstica: En el lenguaje comn es conocida

Estadstica Descriptiva. Se refiere a aquella

Estadstica Inferencial. Es una tcnica de la

M.A. Vctor Damin Pinilla Morn.

Es necesario determinar que todas las ciencias

Las Poblaciones se clasifican en funcin a su

M.A. Vctor Damin Pinilla Morn.

invaluable, tomando en cuenta que en la mayora

Muestreo Estratificado. Esta tcnica implica

Muestreo Probabilstico. Es aquel en donde en

Muestreo sistemtico. Se selecciona una

Muestreo Aleatorio Simple. Cada uno de los

M.A. Vctor Damin Pinilla Morn.

Representacin de los datos de una

general se coincide que no sean tan pocos

La obtencin de los datos se logra a travs de

Por otra parte, ciertos autores han establecido

1.2 Estadstica descriptiva.

Como se podr observar ms adelante,

Ley de Sturges: # intervalos = 1 +

M.A. Vctor Damin Pinilla Morn.

El primer paso para construir los intervalos de

Rango. Es la diferencia entre el dato mayor y el

Se conviene en establecer ocho intervalos

Ancho del intervalo. Se define como:

menor. Para motivos de nuestro ejemplo,

Uno de estos recursos consiste en aprovechar la

1. Iniciar los intervalos un poco antes que

Todos los intervalos medirn 0.5 cm de ancho.

A este respecto, algunos autores en apego fiel a

Para nuestro ejemplo:

Puede observarse que tanto el dato menor como

W : Ancho del Intervalo

Se les denomina Lmites Reales de Clase.

2. Aumentar el ancho de intervalo en una

Marcas de clase. Son los puntos intermedios de

Naturalmente, la suma de todas las frecuencias

Este ltimo arreglo garantiza el cumplimiento de

Frecuencia Relativa. Se refiere a la frecuencia

F 'i : Frecuencia relativa de la i-sima clase

suma de todas las frecuencias relativas debe ser

Frecuencia Acumulada. Son los datos

Faci : Frecuencia Acumulada de la i-sima

Frecuencia. Es el nmero de datos que pertenece

Fi : Frecuencia de la i-sima clase

Este concepto coincide con el particular de

M.A. Vctor Damin Pinilla Morn.

Frecuencia Acumulada Relativa. En la

F ' aci : Frecuencia Acumulada Relativa

El polgono de frecuencias es una lnea

De la misma forma, se comprueba que

ltima clase, debe ser la unidad.

Esta tabla se conoce como Distribucin de

El Histograma en una grfica de barras o

Cuando un polgono se dibuja sobre un

M.A. Vctor Damin Pinilla Morn.

M.A. Vctor Damin Pinilla Morn.

Medidas descriptivas. Estos ndices permiten

representar de la mejor forma a los datos de los