Sunteți pe pagina 1din 15

INSTITUTO TECNOLÓGICO DE ALVARADO

ALUMNO:
ELIEZER CASTRO CRUZ

EXPERIENCIA EDUCATIVA:
ESTADISTICA INFERENCIAL

DOCENTE:
HEIDI ELIZABETH GARCIA FERRANDO

TEMA:
UNIDAD I INTRODUCCION A LA ESTADISTICA INFERENCIAL

GRUPO: TF
TLALIXCOYAN, VERACRUZ 08 DE NOVIEMBRE DEL AÑO
2017.
1.1 INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL

Esta asignatura ha sido orientada a entender los principios en los que se basa la estadística inferencial.
Entender significa que es posible saber, en primer lugar, qué razones han llevado a elegir un determinado
cálculo y, no menos importante, la relevancia real de los resultados de ese cálculo. La estadística
inferencial no es más que un argumento. Un buen argumento hace creíble una afirmación. En nuestro
caso, cualquier estudio necesitará, al menos dos argumentos sólidos: el estadístico y el relativo al diseño
de investigación (lo que se puede aprender en Métodos I y II). Desde este punto de vista, nuestra tarea es
poder entender (y calibrar) los argumentos estadísticos y también poder construirlos nosotros mismos.

La estadística inferencial es necesaria cuando queremos hacer alguna afirmación sobre más elementos de
los que vamos a medir. La estadística inferencial hace que ese sal‐ to de la parte al todo se haga de una
manera “controlada”. Aunque nunca nos ofrecerá seguridad absoluta, sí nos ofrecerá una respuesta
probabilística. Esto es importante: la estadística no decide; sólo ofrece elementos para que el investigador
o el lector decidan. En muchos casos, distintas personas perciben diferentes conclusiones de los mismos
datos. El proceso será siempre similar.

La estadística dispone de multitud de modelos que están a nuestra disposición. Para poder usarlos hemos
de formular, en primer lugar, una pregunta en términos estadísticos. Luego hemos de comprobar que
nuestra situación se ajusta a algún modelo (si no se ajusta no tendría sentido usarlo). Pero si se ajusta, el
modelo nos ofrecerá una respuesta estadística a nuestra pregunta esta‐ dística. Es tarea nuestra devolver a
la psicología esa respuesta, llenándola de contenido psicológico.

1.2 MUESTREO: INTRODUCCIÓN AL MUESTREO Y TIPOS DE MUESTREO

MUESTREO: En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los
elementos de una población), se selecciona una muestra, entendiendo por tal una parte representativa de
la población. El muestreo es por lo tanto una herramienta de la investigación científica, cuya función
básica es determinar que parte de una población debe examinarse, con la finalidad de hacer inferencias
sobre dicha población. La muestra debe lograr una representación adecuada de la población, en la que se
reproduzca de la mejor manera los rasgos esenciales de dicha población que son importantes para la
investigación. Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar las similitudes
y diferencias encontradas en la población, es decir ejemplificar las características de ésta. Los errores más
comunes que se pueden cometer son:

1.- Hacer conclusiones muy generales a partir de la observación de sólo una parte de la Población,
se denomina error de muestreo.

2.- Hacer conclusiones hacia una Población mucho más grandes de la que originalmente se tomo
la muestra. Error de Inferencia. En la estadística se usa la palabra población para referirse no sólo a
personas si no a todos los elementos que han sido escogidos para su estudio y el término muestra se usa
para describir una porción escogida de la población.

TIPOS DE MUESTREO

Existen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general
pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no
probabilísticos. I. Muestreo probabilístico Los métodos de muestreo probabilísticos son aquellos que se
basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la
misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las
posibles muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de
muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más
recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos: 1.-
Muestreo aleatorio simple: El procedimiento empleado es el siguiente:

1) se asigna un número a cada individuo de la población y


2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios,
números aleatorios generados con una calculadora u ordenador, etc.)

Se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este
procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que
estamos manejando es muy grande.

2.- Muestreo aleatorio sistemático: Este procedimiento exige, como el anterior, numerar todos los
elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de
ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los
que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el
resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que
empleamos como punto de partida será un número al azar entre 1 y k. El riesgo este tipo de muestreo está
en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra
con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población.
Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5
primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10
siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos
sexos.
3.- Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya
que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra.
Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad
respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de
residencia, el sexo, el estado civil, etc.).

Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés
estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo
aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos
que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues
exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,...).

La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede


ser de diferentes tipos: Afijación Simple: A cada estrato le corresponde igual número de elementos
muéstrales.

Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población


en cada estrato.

Afijación Optima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se
considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la
desviación.
4.- Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora están pensados
para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los
elementos de la población. En el muestreo por conglomerados la unidad muestral es un grupo de
elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades
hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son
conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por
ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de
"muestreo por áreas".

El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de


conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos
los elementos pertenecientes a los conglomerados elegidos. II. Métodos de muestreo no probabilísticos A
veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude a
métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones
(estimaciones inferenciales sobre la población), pues no se tiene certeza de que la muestra extraída sea
representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos.

En general se seleccionan a los sujetos siguiendo determinados criterios procurando, en la medida


de lo posible, que la muestra sea representativa. En algunas circunstancias los métodos estadísticos y
epidemiológicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no
probabilístico, por ejemplo los estudios de caso-control, donde los casos no son seleccionados
aleatoriamente de la población. Entre los métodos de muestreo no probabilísticos más utilizados en
investigación encontramos:

1.- Muestreo por cuotas: También denominado en ocasiones "accidental". Se asienta generalmente
sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más
"representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el
muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. En este tipo de
muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas determinadas
condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en Gijón. Una
vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. Este
método se utiliza mucho en las encuestas de opinión.
2.- Muestreo intencional o de conveniencia: Este tipo de muestreo se caracteriza por un esfuerzo
deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos
supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en
anteriores votaciones han marcado tendencias de voto. También puede ser que el investigador seleccione
directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento
el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad
emplean con mucha frecuencia a sus propios alumnos).

3.- Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y
así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen
estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc.

4.- Muestreo Discrecional · A criterio del investigador los elementos son elegidos sobre lo que él
cree que pueden aportar al estudio.

1.3 TEOREMA DE LIMITE CENTRAL

El Teorema del Límite Central o Teorema Central del Límite indica que, bajo condiciones muy generales,
la distribución de la suma de variables aleatorias tiende a una distribución gaussiana cuando la cantidad
de variables es muy grande.

Existen diferentes versiones del teorema, en función de las condiciones utilizadas para asegurar la
convergencia. Una de las más simples establece que es suficiente que las variables que se suman sean
independientes, idénticamente distribuidas, con valor esperado y varianza finitas.

La aproximación entre las dos distribuciones es en general mayor en el centro de las mismas que en sus
extremos o colas, motivo por el cual se prefiere el nombre “Teorema del Límite Central” (“central”
califica al límite, más que al teorema).
Esta relación entre la forma de la distribución de la población y la forma de la distribución de muestreo se
denomina teorema del límite central, que es tal vez el más importante de toda la inferencia estadística.
Nos asegura que la distribución de muestreo de la media se aproxima a la normal al incrementarse el
tamaño de la muestra. Hay situaciones teóricas en las que el teorema del límite central no se cumple, pero
casi nunca se encuentran en la toma de decisiones práctica. Una muestra no tiene que ser muy grande para
que la distribución de muestreo de la media se acerque a la normal.

Los estadísticos utilizan la distribución normal como una aproximación a la distribución de muestreo
siempre que el tamaño de la muestra sea al menos de 30, pero la distribución de muestreo de la media
puede ser casi normal con muestras incluso de la mitad de ese tamaño. La importancia del teorema del
límite central es que nos permite usar estadísticas de muestra para hacer inferencias con respecto a los
parámetros de población sin saber nada sobre la forma de la distribución de frecuencias de esa población
más que lo que podamos obtener de la muestra.

1.4.1 DISTRIBUCIÓN MUESTRAL MEDIA

Si tenemos una muestra aleatoria de una población N (ms), se sabe (Teorema del límite central) que
la fdp de la media muestral es también normal con media m y varianza s2/n. Esto es exacto para
poblaciones normales y aproximado (buena aproximación con n>30) para poblaciones cualesquiera. Es

decir es el error típico, o error estándar de la media.


¿Cómo usamos esto en nuestro problema de estimación?
1º problema: No hay tablas para cualquier normal, sólo para la normal m=0 y s=1 (la llamada z); pero
haciendo la transformación (llamada tipificación)

una normal de media m y desviación s se transforma en una z.


1.4.2 DISTRIBUCIÓN MUESTRAL DE LA DIFERENCIA DE MEDIAS

Y la variable tipificada viene dada por la expresión:

El responsable de la sede central de una empresa afirma que las edades de sus empleados siguen una
distribución normal con una media de 41 años y una desviación típica de 5 años. Por otro lado, el
responsable de una sede de las sucursales de dicha empresa en otro país, ha determinado que sus
empleados también tienen edades que se ajustan a una distribución normal con una media de 39 años y
desviación típica de 3 años.
Con el fin de hacer un estudio comparativo se seleccionan muestras de 40 personas de cada sede de la
empresa.
a) Determina la distribución para la diferencia de las medias muéstrales.
b) ¿Cuál es la probabilidad de que los empleados de la sede central tengas una media de edad de al
menos 3 años mayor que los de la sucursal extranjera?

1.4.3 DISTRIBUCIÓN MUESTRAL DE PROPORCIÓN


Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos
investigar la proporción de artículos defectuosos o la proporción de alumnos reprobados en la muestra. La
distribución muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta
distribución se genera de igual manera que la distribución muestral de medias, a excepción de que al
extraer las muestras de la población se calcula el estadístico proporción (p=x/n en donde "x" es el número
de éxitos u observaciones de interés y "n" el tamaño de la muestra) en lugar del estadístico media.

Una población binomial está estrechamente relacionada con la distribución muestral de proporciones; una
población binomial es una colección de éxitos y fracasos, mientras que una distribución muestral de
proporciones contiene las posibilidades o proporciones de todos los números posibles de éxitos en un
experimento binomial, y como consecuencia de esta relación, las afirmaciones probabilísticas referentes a
la proporción muestral pueden evaluarse usando la aproximación normal a la binomial, siempre que y
n(1-p) >5. Cualquier evento se puede convertir en una proporción si se divide el número obtenido entre el
número de intentos.
EJEMPLO:

En una empresa está establecido que si una máquina opera correctamente, como máximo un 5% de su
producción es defectuosa. Si se elige aleatoriamente una muestra de 40 artículos producidos por una
máquina y 15 de ellos son defectuosos, ¿existe razón para pensar que la máquina está averiada?
Las proporciones muéstrales para muestras de tamaño 40 en una máquina normal se distribuyen según, es
decir se distribuyen de forma "normal" alrededor del 5% con una d.t. del 3'4%.
En consecuencia, la probabilidad de valores como el registrado y podemos asegurar "estadísticamente"
que la máquina está averiada.

Ahora que sabemos cómo se distribuyen las proporciones muéstrales, por un proceso similar al utilizado
para estimar la media poblacional, podremos realizar estimaciones sobre la proporción poblacional de un
carácter, conociendo la proporción en una muestra.

ESTIMACIÓN DE UNA PROPORCIÓN

Imaginemos que hemos tomado una muestra aleatoria de 500 personas, y que les preguntamos si creen
que el Presidente del Gobierno debe dimitir, obteniendo el SÍ un 70%. Supongamos que nos planteamos
un intervalo de confianza del 90% para poder estimar el porcentaje p de toda la población que diría SÍ
Según todo lo dicho, las proporciones del SÍ en las muestras, se distribuirán según:

Como quiera que no conocemos la verdadera proporción p, no podemos conocer la desviación típica de la
distribución muestral por lo que utilizaremos como sustituto para p, la proporción muestral p'=0,7, que
causará poco cambio en los resultados finales.
En consecuencia, las proporciones muéstrales, siguen la distribución N (p, 0,02) (Nota: puesto que
utilizamos tantos por uno, deberemos utilizar en los cálculos una precisión de al menos centésimas,
mejorando el resultado si precisamos más)

Llevando a cabo los mismos pasos que en el caso de la estimación de medias, vemos que un 90% de las
proporciones muéstrales que se obtengan estarán a como máximo 1,65 desviaciones típicas de p (es decir
a) , y en consecuencia, si suponemos que p' es una de tales proporciones ( y será acertado suponerlo en
un 90% de los casos ), la verdadera proporción quedará siempre en el intervalo (p'-0'033 ,
p'+0'033)=(0'667,0'733).
Esto lo podemos expresar como: "Con un nivel de confianza del 90%, la proporción de españoles que
creen que el Presidente del Gobierno debe dimitir es de un 70%, con un error máximo de ± 3,3 %”

Para entender mejor el proceso, observa el gráfico interactivo en el que se supone que la verdadera
proporción es p=0.72 Comenzamos con el valor k=1.65, que corresponde a una confianza del 90%. Luego
hallamos el área roja, que corresponde a las proporciones muéstrales que tienen una probabilidad de
aparición del 90%. Si la proporción muestral (p´) obtenida es, como en el caso que nos ocupa, p´=0.7,
puedes comprobar como el intervalo de confianza contiene a la verdadera proporción.

Varía el nivel de confianza, y anota que le ocurre al intervalo de confianza. Así mismo, puedes variar el
valor de la proporción muestral, e investigar, qué valores dan lugar a intervalos que no contienen a la
media de la población y cuál es la probabilidad de ocurrencia de dichos

1.4.4 DISTRIBUCIÓN MUESTRAL DE DIFERENCIA DE PROPORCIONES

Sea X1, X2,…, Xn1 una muestra aleatoria extraída de una población Bernoulli. Del mismo modo sea Y1,
Y2,…, Yn2 una muestra aleatoria extraída de una población Bernoulli.
Si definimos a X = ∑(Xi) y Y = ∑ (Yi como el número de éxitos en la primera y segunda muestra,
respectivamente, entonces ambas variables tendrán distribución Binomial de parámetros π1 y π2.
Si definimos a p1 = X/n1 como la proporción muestral de éxitos en la primera muestra y p2= Y/n2 como
la proporción muestral de éxitos en la segunda muestra, entonces diremos que p1 - p2 es una variable
aleatoria muestral definida como la diferencia de proporciones muestrales cuya distribución muestral
viene dada por su media y su varianza; es decir, por μ(p1 - p2 ) y σ2(p1 - p2)

EJEMPLO:

Los hombres y mujeres adultos radicados en una ciudad grande del norte difieren en sus opiniones sobre
la promulgación de la pena de muerte para personas culpables de asesinato. Se cree que el 12% de los
hombres adultos están a favor de la pena de muerte, mientras que sólo 10% de las mujeres adultas lo
están. Si se pregunta a dos muestras aleatorias de 100 hombres y 100 mujeres su opinión sobre la
promulgación de la pena de muerte, determine la probabilidad de que el porcentaje de hombres a favor
sea al menos 3% mayor que el de las mujeres.
Solución:
Datos:
PH = 0.12
PM = 0.10
nH = 100
nM = 100

p(pH-pM <!--[if !vml]--> <!--[endif]--> 0.03) = ?

Se recuerda que se está incluyendo el factor de corrección de 0.5 por ser una distribución binomial y se
está utilizando la distribución normal.

Se concluye que la probabilidad de que el porcentaje de hombres a favor de la pena de muerte, al menos
3% mayor que el de mujeres es de 0.4562

1.4.5 DISTRIBUCION T -STUDENT

En probabilidad y estadística, la distribución t-Student es una distribución de probabilidad que surge del
problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra
es pequeño.

Una variable aleatoria se distribuye según el modelo de t-Student con n grados de libertad, donde n es un
entero positivo, si su función de densidad es la siguiente:
F(x)=
La gráfica de esta función de densidad es simétrica respecto del eje de ordenadas, con independencia del
valor de n, y de forma semejante a la distribución normal.

Propiedades:

La media es 0 y su varianza , n>2.


La gráfica de la función de densidad es en forma de campana.
Los datos están más disperso que la curva normal estándar.
A medida que n aumenta, la gráfica se aproxima a la normal N(0,1).
La gráfica es muy parecida a la de la normal estándar diferenciándose en que las colas de t están por
encima de la normal, y el centro se encuentra por debajo del de la normal.
Cuando los grados de libertad son altos, los valores de t coinciden con los de la normal.

EJEMPLO:
Una empresa especifica que el peso medio de uno de sus productos debe ser de 2 Kg. Sabiendo que la
desviación estándar de una muestra de 17 unidades es 0.1.
a. ¿Cuál es la probabilidad de que la media sea:
lmenos de 1.9666 Kg.?
lmás de 2.0646 Kg.?
lentre 1.9935 y 2.053 Kg.?
b. ¿Qué valor de promedio genera una probabilidad de 0.15 a su izquierda?

=2 Kg. sxbarra=0.1/16 = 0.025 Kg.


con 16 grados de libertad
a. P(xbarra1.9666)=?

La probabilidad de que la media sea menor a 1.9666 Kg. es 0.1.

1.4.6 DISTRIBUCIÓN MUESTRAL DE LA VARIANZA

El supuesto fundamental es que la población tiene distribución normal con media y varianza. De esta

población se obtiene una muestra aleatoria de tamaño n.


La varianza de la muestra se define como:
Si se multiplica por n/ se obtiene:

La expresión (1.1) es similar a:


que tiene distribución chi-cuadrado con n grados de libertad. La única diferencia es que en el uno
interviene la media muestral (x) y en el otro la media poblacional . Por lo tanto, la pregunta es si la
expresión (1.1) también tiene distribución chi-cuadrado con n grados de libertad.
que tiene distribución chi-cuadrado con n grados de libertad. La única diferencia es que en el uno
interviene la media muestral (x) y en el otro la media poblacional. Por lo tanto, la pregunta es si la
expresión (1.1) también tiene distribución chi-cuadrado con n grados de libertad.
Recordemos que una variable aleatoria con distribución normal estándar, elevada al cuadrado, tiene
distribucion chi-cuadrado y sus grados de libertad dependen del número de observaciones.
Si una variable aleatoria X tiene distribución normal, N, por el teorema central del límite:

Para hacer la demostración partimos de la expresión (1.2), a la que se le resta y se le suma la media
muestral:

Es decir que la sustitución de la media poblacional por la media muestral reduce en 1 los grados de
libertad de la chi-cuadrado. Lo anterior nos indica que cada vez que se reemplaza un parámetro por un
estimador, se reduce en 1 los grados de libertad de la distribución chi-cuadrado.
Si se utiliza la varianza corregida,
En caso de ser iguales se trabaja con el 3 y si son diferentes se trabaja con el caso 4 de los casos
especiales

1.4.7 DISTRIBUCIÓN MUESTRAL DE LA RELACIÓN DE VARIANZAS.

En el caso de pequeñas muestras (n < 30) podemos formular ensayos de


hipótesis y significación utilizando otras distribuciones además de la normal. Como la t de Student, chi-
cuadrado, F, etc. Estas distribuciones incluyen la teoría de muestreo exacto y lógicamente son válidas aún
cuando las muestras son grandes, en cuyo caso se reducen a las dadas anteriormente.
Para ensayar la hipótesis H0 de que una población normal tiene varianza σ2consideramos la variable
aleatoria:

Figura 7.4.1 Distribución Chi Cuadrado (n-1) º de libertad.

Relaciones de Varianzas
En algunos problemas deseamos decidir si dos muestras de tamaños m y n respectivamente, cuyas
varianzas medidas son s21 y s22, provienen o no de la misma población normal. En este caso utilizamos
el estadístico...

Figura 7.4.1 Relaciones de Varianzas.


Donde σ21 y σ22 son las varianzas de las dos poblaciones normales de donde se extraen las muestras. Si
H0 denota la hipótesis nula de que no hay diferencia entre las varianzas poblacionales, es decir σ21
= σ22.

S-ar putea să vă placă și