Documente Academic
Documente Profesional
Documente Cultură
2
INTRODUCCIÓN A LA ESTADÍSTICA
INFERENCIAL
INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL
Puede dar respuestas a muchas de las necesidades que la sociedad actual puede
requerir. Su tarea fundamental es el
análisis de los datos que se obtienen a
partir de experimentos, con el objetivo de
representar la realidad y conocerla. La
estadística inferencial se centra en tomar
una pequeña muestra representativa de la
3
población y a partir de ésta, infiere que el resto de la población tiene el mismo
comportamiento.
Muestreo probabilístico
Los métodos de muestreo probabilísticos son aquellos que se basan en el principio
de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la
misma probabilidad de ser elegidos para formar parte de una muestra y,
consiguientemente, todas las posibles muestras de tamaño n tienen la misma
probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos
nos aseguran la representatividad de la muestra extraída y son, por tanto, los más
recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los
siguientes tipos:
5
Muestreo aleatorio simple: Para obtener una muestra, se numeran los elementos
de la población y se seleccionan al azar los n elementos que contiene la muestra. El
procedimiento empleado es el siguiente: 1) se
asigna un número a cada individuo de la población
y 2) a través de algún medio mecánico (bolas
dentro de una bolsa, tablas de números aleatorios,
números aleatorios generados con una calculadora
u ordenador, etc.) se eligen tantos sujetos como
sea necesario para completar el tamaño de
muestra requerido. Este procedimiento, atractivo
por su simpleza, tiene poca o nula utilidad práctica
cuando la población que estamos manejando es
muy grande.
El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la
población ya que al elegir a los miembros de la muestra con una periodicidad
constante (k) podemos introducir una homogeneidad que no se da en la población.
6
Muestreo aleatorio estratificado:
Ejemplo: En una fábrica que consta de 600 trabajadores queremos tomar una
muestra de 20. Sabemos que hay 200 trabajadores en la sección A, 150 en la B,
150 en la C y 100 en la D.
7
Muestreo por etapas múltiples: Esta técnica es la única opción cuando no se
dispone de lista completa de la población de referencia o bien cuando por medio de
la técnica de muestreo simple o estratificado se obtiene una muestra con unidades
distribuidas de tal forma que resultan de difícil acceso. En el muestreo a estadios
múltiples se subdivide la población en varios niveles ordenados que se extraen
sucesivamente por medio de un procedimiento de embudo. El muestreo se
desarrolla en varias fases o extracciones sucesivas para cada nivel. (Otra muestra si
se necesitan más datos).
8
En el muestreo por conglomerados la unidad muestral es un grupo de elementos de
la población que forman una unidad, a la que llamamos conglomerado. Las
unidades hospitalarias, los departamentos universitarios, una caja de determinado
producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar
conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los
conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". El
muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto
numero de conglomerados (el necesario para alcanzar el tamaño muestral
establecido) y en investigar después todos los elementos pertenecientes a los
conglomerados elegidos.
9
Ejemplo: En un estudio en donde el
investigador quiere comparar el rendimiento
académico de los diferentes niveles de
clases del secundario, su relación con el
género y la situación socioeconómica, el
investigador identifica primero los
subgrupos. Por lo general, los subgrupos
son las características o variables del
estudio. El investigador divide a toda la
población en niveles de clase, cruzados con
el género y el nivel socioeconómico. Luego,
toma nota de las proporciones de estos subgrupos en toda la población y a
continuación hace un muestreo de cada subgrupo.
10
Muestreo subjetivo por decisión razonada
En este caso las unidades de la
muestra se eligen en función de
algunas de sus características de
manera racional y no casual. Una
variante de esta técnica es el
muestreo compensado o equilibrado,
en el que se seleccionan las unidades
de tal forma que la media de la
muestra para determinadas variables
se acerque a la media de la población.
La cual funciona en base a referencias o por recomendación después se reconoce
por medio de la estadística.
11
Muestreo de Conveniencia: Consiste en seleccionar a los individuos que
convienen al investigador para la muestra. Esta conveniencia se produce porque al
investigador le resulta más sencillo
examinar a estos sujetos, ya sea por
proximidad geográfica, por ser sus
amigos, etc. Es el tipo de muestreo que
pretende seleccionar unidades de análisis
que cumplen los requisitos de la población
objeto de estudio, sin embargo, no son
seleccionadas al azar. Se utiliza
preferentemente en estudios exploratorios.
Las pruebas pilotos, también usan con
frecuencia éste tipo de muestreo.
El teorema del límite central o teorema central del límite indica que, en condiciones
muy generales, la distribución de la suma de variables aleatorias tiende a una
distribución normal cuando la cantidad de variables es muy grande. Este teorema,
perteneciente a la teoría de la probabilidad, encuentra aplicación en muchos
campos relacionados, tales como la inferencia estadística o la teoría de renovación.
12
Datos:
𝑍=𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝑋̅=𝑚𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙
𝜇=𝑚𝑒𝑑𝑖𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝜎=𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟
𝑛=𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
Ejemplo: Una empresa eléctrica industrial fabrica focos que tienen una duración que
se distribuye aproximadamente en forma normal, con media de 800 horas y
desviación estándar de 40 horas.
Encuentre la probabilidad de que una muestra aleatoria de 16 focos tenga una vida
promedio de menos de 775 horas.
Solución:
De acuerdo con el enunciado, se conoce la variable 𝑋𝑖 como la duración del i-esimo
foco en la muestra tomada. Así la variable aleatoria 𝑋𝑖 proviene de una población
con media 𝜇=800 Horas y desviación 𝜎=40 ℎ𝑜𝑟𝑎𝑠. De esta forma por el teorema del
límite central, si se toman muestras de esta población de tamaño n = 16 y se
calculan sus promedios la variable aleatoria 𝑋̅ se distribuye aproximadamente
normal con media 𝜇𝑋̅=800 y desviación 𝜎𝑋̅=40. El problema requiere el cálculo de la
probabilidad.
Datos:
𝑋̅=725
𝜇=800
𝜎=40
𝑛=16
13
DISTRIBUCIONES FUNDAMENTALES PARA EL MUESTREO
14
Cuando la distribución de X es normal la distribución de la media muestral es normal
σ
con media m y desviación estándar sin importar el tamaño de la muestra:
√n
El tamaño de la muestra depende del grado de no normalidad de la población. Sin
embargo, una regla empírica señala que una muestra de tamaño 30 es suficiente,
en la mayoría de las situaciones, para aplicar el teorema del límite central.
15
Suponga que se eligen muestra ordenadas de tamaño 2, con reemplazo, de la
población de valores 0, 2, 4 y 6.
Proporción de éxitos en la
muestra.
p xn
Numero de exitos en la muestra
s
s
Tamaño de la muestra
La desviación de la proporción
p1 p
p n
17
Y al suponer que la distribución muestral de la proporción tiene una
distribución normal se tiene que:
x
Z x
x
p s
p
Z
p(1 p )
n
p s1
ps 2
pp 1 2
p 1 p p 1 p
p ps 2
1
1 2 2
s1
n 1 n 2
Distribución t-student
Es una distribución de probabilidad. Se utiliza para hacer estimaciones de la media
de una variable, (que está distribuida normalmente), en una población, cuando el
tamaño de la muestra es pequeño. También se utiliza para hacer estimaciones de
parámetros de las poblaciones a partir de los valores de los estadísticos
correspondientes en las muestras, cuando desconoce el valor de la varianza o la
desviación estándar de la población.
20
Definición de Grados de Libertad: Los valores de los estadísticos en una muestra
deben ser valores cercanos a los parámetros correspondientes en las poblaciones.
Los grados de libertad representan al número de datos independientes que se
pueden tomar de la población para construir la muestra, de tal manera que los
valores de los estadísticos en la muestra sean cercanos a los valores de los
parámetros correspondientes en la población.
El valor de la media es 0
Tiene forma de campana y es simétrica con respecto a la media
La distribución t tiene una varianza mayor que 1, pero en la medida en que
aumentan los grados, el valor de la varianza se aproxima a 1, lo cual lleva a
que la distribución t se aproxime a la distribución normal estándar en la
medida en que aumenta el valor de los grados de libertad.
x i x
n 2
21
n 1 s 2
2
i 1
2 2
Es la variable aleatoria con la distribución chi-cuadrada con el parámetro v=n-
1(grados de libertad).
Es un valor de una variable aleatoria
que tiene la distribución x-cuadrada
con el parámetro v = n -1
Ver tabla que contiene valores
seleccionados de x2 para distintos
valores de v, llamado de nuevo,
numero de grados de libertad, donde
x2 es tal que el área bajo la curva de
la distribución x – cuadrada(tomada
a la derecha) es igual a 𝛼.
En la tabla la columna de la
izquierda contiene valores de v, los valores que encabezan las columnas son áreas
de la cola derecha de la curva de la distribución x- cuadrada y las entradas son
valores de 𝑥𝛼2. A diferencia de la distribución t, es necesario tabular valores de 𝑥𝛼2
𝑝𝑎𝑟𝑎 𝛼>0.50, que la distribución x – cuadrada no es simétrica.
2
S
F 1
2
S 2
Cuando se obtienen los valores S21 y S22 a partir de las muestras y se calcula el
cociente se concluye que la hipótesis de varianzas iguales es falsa si el valor de
este cociente es de manera suficiente, distinto de 1 (1 + .1) Se consideran las
varianzas iguales si se encuentran dentro de este rango.
22
Hipótesis:
H 0 : 1 2
2 2
H A : 1 2
2 2
ESTIMACION
A los estimadores generalmente se les denota con la misma letra que al parámetro,
pero con un acento circunflejo o “gorrito”; esto es, si el parámetro fuese q , su
ˆ
estimador sería . Cabe hacer notar que también se acostumbra usar letras griegas
para parámetros y letras latinas para estimadores. Así, por ejemplo, como estimador
de la media m se usa ̂ , o X o Y ; de la varianza se usa s o ̂ , etcétera.
2 2 2
23
CARACTERÍSTICAS DE UN ESTIMADOR
s n2 para estimar la varianza de una muestra, entonces E s n2 2 . Esto se
puede demostrar fácilmente como se ve a continuación
(X i X )2 n 1 (X i X )2 n 1
E s E
2
n
n
E
n 1
E s n21
n 1 2
2
2
n n n n
2
El sesgo en este caso es n , el cual desaparecerá cuando n tienda a
infinito.
24
ˆ ˆ
Eficiencia o precisión: Un estimador 1 es más eficiente que 2 de q , si la
2 2ˆ2
varianza del primero es menor que la del segundo ( ˆ1 ). Como se vio
en el ejemplo 9.3 X y Md son estimadores insesgados de y también
consistentes; sin embargo, X Md , de donde X es un estimador más
2 2
E STIMACIÓN PUNTUAL
25
Proporción muestral, para estimar una proporción p:
Siendo (x1,…,xn) una muestra aleatoria simple de
la variable
es decir, son unos o ceros.
Varianza muestral: para estimar la varianza teórica de una población, se
puede usar la varianza de una muestra:
Cuasi-varianza muestral :
que corresponde a la
varianza de la muestra,
pero dividiendo por n−1, en lugar de dividir por n. En el capítulo de estadística
descriptiva, ya comentamos que el R, por defecto, al calcular la desviación
típica de una muestra, mediante el comando sd, calcula directamente la
cuasi-varianza y luego obtiene la raíz cuadrada.
Por una vez, y sin que sirva de precedente, vamos a ver cómo es la construcción
matemática del intervalo de confianza. Consideremos la variable X ∈ N (μ,σ) que
26
representa a la característica que estamos midiendo (altura, peso…). Supongamos
que σ es conocida.
27
Siendo Δ el entero más próximo a (Corrección de Welch)
28
CONCLUSION
29
REFERENCIAS DE CONSULTA
31