Sunteți pe pagina 1din 21

Curso

Estadística Aplicada

Contenido
Intervalo de Confianza
Prueba de Hipótesis

Lic. Jessica Oliva Gastulo


INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

La palabra inferir significa extraer consecuencias, o deducir un conocimiento a partir de otro. La


Inferencia Estadística es la parte de la estadística que se encarga de deducir características de la
población a partir de los resultados obtenidos en muestras de esta población. Las decisiones se basan
en la información contenida en muestras extraídas de ella.

En muchas circunstancias hay que tomar decisiones basándose sólo en la información contenida en
una muestra: Un gerente de Control de Calidad debe determinar si un proceso funciona
correctamente. Para ello, cada cierto tiempo, analiza la calidad de una pequeña cantidad de productos
fabricados por este proceso. Con esta información debe decidir si continúa fabricando nuevas piezas,
o si debe realizar algún ajuste o reparación de la maquinaria de la fábrica antes de continuar el proceso
de fabricación. Un gerente de Marketing debe determinar si una nueva estrategia de mercado
aumentará las ventas. Para ello se basará fundamentalmente en encuestas realizadas a unos cuantos
clientes potenciales, etc. Para adoptar estas decisiones se toma toda la información posible de la
muestra seleccionada y se estudia, en términos de probabilidad, el grado de fiabilidad de las
decisiones adoptadas. Podemos distinguir de modo general dos grandes métodos dentro de la
Inferencia Estadística:

Métodos Paramétricos.- Se supone que los datos provienen de una familia de distribuciones
conocida (Normal, Poisson,. . .) y que lo único que se desconoce es el valor concreto de alguno de
los parámetros que la definen (μ y σ para la Normal, λ para la Poisson,. . .).

Se pueden hacer inferencias acerca de los parámetros poblacionales de dos maneras. Dando valores
aproximados para los parámetros (Estimación) o tomando decisiones con respecto a ellos (Contrastes
de Hipótesis).

Métodos No Paramétricos.- No suponen conocida la distribución, y solamente suponen hipótesis


muy generales respecto a las mismas. Estos métodos se aplican en los tests de bondad de ajuste,
que prueban la adecuación de los datos a ciertos modelos de distribuciones teóricas, los test de
independencia, etc.

Evidentemente, las conclusiones que obtengamos y que generalizaremos para toda la población
dependerán de los valores concretos que se hayan observado en la muestra. Muchas personas
manifiestan su desconfianza y su recelo sobre las conclusiones obtenidas con métodos estadísticos,
debido, entre otras causas, a que estas conclusiones dependen de la muestra extraída, y que las
muestras presentan fluctuaciones aleatorias. Sin embargo, en la vida cotidiana, nuestras opiniones y
nuestros comportamientos se basan en generalizaciones que hacemos a partir de muestras. Así, es
muy frecuente que manifestemos que los productos de una determinada marca son mejores que los
de la competencia. Dicha afirmación no la hacemos, evidentemente, tras un análisis exhaustivo de
todos los productos de una y otra marca, sino basándonos en nuestra propia experiencia personal,
que es claramente muy limitada. Es decir, generalizamos a partir de observaciones realizadas en
muestras pequeñas.
TIPOS DE ESTIMACIÓN

Cuando se desean estimar los parámetros de la población a partir de los de la muestra se consideran
dos formas de realizar dicha estimación.

Estimación puntual.- En la estimación puntual damos un solo punto como valor estimado del
parámetro. Por ejemplo, si queremos estimar la altura media, μ, de los varones españoles de 20 años,
obtendremos una muestra aleatoria de cierto tamaño de esta población, hallaremos la altura media
de las personas seleccionadas en esta muestra y diremos que este valor, el de la media muestral, es
una estimación puntual de la altura media de la población de varones de 20 años.

Estimación por intervalos.- En realidad, cuando realizamos una estimación puntual, nos damos
cuenta que es muy difícil que ésta estimación sea realmente el verdadero valor del parámetro
desconocido. Tendremos más oportunidades de acertar si indicamos que el parámetro desconocido
pertenece a un cierto intervalo. En el ejemplo de la altura media de los varones de 20 años, si la media
muestral resultara 1.75 m., podríamos decidir manifestar que la media verdadera pertenece al intervalo
(1.75 − 0.05, 1.75 + 0.05). El intervalo en el que se afirma que se encuentra el parámetro poblacional
se denomina intervalo de confianza. Tampoco en este caso podemos estar seguros de que el valor
real pertenezca a dicho intervalo. Por este motivo suele decirse que el valor real del parámetro
pertenece a dicho intervalo con un cierto “grado de confianza”. La cuantificación de la confianza que
se tiene en que el parámetro desconocido esté verdaderamente en el intervalo dado se denomina
grado de confianza y es una medida relacionada con la función de distribución de probabilidad del
parámetro en estudio.

Estadísticos y Estimadores

Un estadístico es una función de los elementos de la muestra. Si tenemos una población en la que
estamos observando una característica que se distribuye según una variable aleatoria X, y
consideramos una muestra aleatoria simple de tamaño n x1, x2, . . . , xn podemos calcular el siguiente
estadístico x:

x1  x2  ...  xn
x
n
Evidentemente, el valor del estadístico dependerá de los valores que hayan tomado los elementos de
la muestra. Si repetimos el experimento de tomar una muestra y calculamos de nuevo el valor del
mismo estadístico, obtendremos, por lo general, otro valor distinto. Tenemos por tanto que el
estadístico es una variable aleatoria. La distribución que seguirá dicha variable aleatoria dependerá
de la distribución de la variable X. En determinados casos podremos calcular la distribución del
estadístico.

Un estimador de un parámetro poblacional es un estadístico que se utiliza para obtener un valor


aproximado de ese determinado parámetro de la población. Por ejemplo, la media muestral es el
estadístico que suele usarse más frecuentemente para estimar la media poblacional. Entonces, la
media muestral es un estimador de la media poblacional. La mediana y la moda son también
estimadores de la media poblacional. Para indicar que T es un estimador del parámetro poblacional θ

se indicará T = 
El valor que toma este estimador en la muestra concreta que estamos considerando es una estimación
del parámetro desconocido.

Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona
información sobre el valor del parámetro. Por ejemplo la media muestral es un estimador de la media
poblacional, la proporción observada en la muestra es un estimador de la proporción en la población.

Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los estimadores más
probables en este caso son los estadísticos obtenidos en la muestra, aunque es necesario cuantificar
el riesgo que se asume al considerarlos. Recordemos que la distribución muestral indica la
distribución de los valores que tomará el estimador al seleccionar distintas muestras de la población.
Las dos medidas fundamentales de esta distribución son la media que indica el valor promedio del
estimador y la desviación típica, también denominada error típico de estimación, que indica la
desviación promedio que podemos esperar entre el estimador y el valor del parámetro.

Más útil es la estimación por intervalos en la que calculamos dos valores entre los que se encontrará
el parámetro, con un nivel de confianza fijado de antemano.

Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al
parámetro que se está estimando.

Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del
parámetro. Se indica por 1- habitualmente se da en porcentaje (1-)100%. Hablamos de nivel de
confianza y no de probabilidad ya que una vez extraída la muestra, el intervalo de confianza contendrá
al verdadero valor del parámetro o no, lo que sabemos es que si repitiésemos el proceso con muchas
muestras podríamos afirmar que el (1-)% de los intervalos así construidos contendría al verdadero
valor del parámetro. Por lo general los niveles de confianza más utilizados son: 99, 95 y 90%, a estos
se les denominan coeficientes de confianza: es el nivel de confianza que se tiene en el que el
intervalo contenga el valor desconocido del parámetro; estos son simplemente convencionales.

Un intervalo de confianza tiene un límite inferior de confianza (LIC) y un límite superior de confianza
(LSC). Esos limites se encuentran calculando primero la media muestral,X . Luego se suma una
cierta cantidad a X para obtener el LSC y la misma cantidad se resta a X para obtener el LIC,
estos valores que se suman y restan a la media muestral se les denominan errores de estimación.

ESTIMACIÓN POR INTERVALOS DE CONFIANZA

Lo dicho hasta ahora se refiere a una estimación puntual, es decir, estimar un parámetro a través de
un único valor. Esta estimación no es muy conveniente pues con ella no se puede determinar el error
de muestreo, ni la precisión de la estimación, ni la confianza que merece tal estimación. Existen otros
métodos para estimar parámetros poblacionales que son mucho más precisos. Por ejemplo:

* Método de los mínimos cuadrados.

* Método de los momentos.

* Método de la máxima verosimilitud se basa en el principio de que generalmente ocurre lo más


probable.

* Método de estimación por intervalos de confianza, este será el que desarrollaremos en este
curso.
El procedimiento de determinar un intervalo (a, b) que comprenda un parámetro de población θ con
cierta probabilidad 1-, se llama estimación por intervalos. Se verán los casos paramétricos, es decir,
aquellos en los que se tiene conocimiento del tipo de distribución de la población (Binomial, Normal,
etc.).

DISTRIBUCIÓN DE MUESTREO DE MEDIAS

Es una distribución probabilística que consta de una lista de todas las medias muestrales posibles de
un tamaño dado de una población y la probabilidad de ocurrencia asociada con cada media muestral.
Si tomamos varias muestras de una población con el objetivo de obtener la media poblacional,
observaríamos que cada una de ellas posiblemente nos da diferentes valores de dicha media. Si se
organizaran las medias de todas las muestras posibles de un tamaño específico tomadas de una
población se obtendría lo que se conoce como una distribución muestral de medias.

Para muestras de tamaño N, sin reposición, de una población finita de tamaño Np>N tenemos,

 NP  N
X   y X 
n NP 1

Si la población es infinita o si el muestreo es con reposición, los resultados anteriores se reducen a:


X   y X 
n

Para valores grandes de N (N30), la distribución de muestreo de medias, es aproximadamente


normal con media X y desviación típica X , independientemente de la población (en tanto en
cuanto la media poblacional y la varianza sean finitas y el tamaño de la población sea al menos doble
que el de la muestra). Este resultado para una población infinita es un caso especial del teorema del
límite central de teoría avanzada de probabilidades, que afirma que la precisión de la aproximación
mejora al crecer N. Esto se indica en ocasiones diciendo que la distribución de muestreo es
asintóticamente normal.

Debemos anotar que las características de la población serán las mismas que tendrán las diferentes
muestras de la misma:

Si la población no tiene distribución normal, la distribución muestral de medias de cualquier manera


tenderá a aproximarse a la forma normal.

La dispersión en la distribución de las medias muestrales es siempre menor que la dispersión de la


población y será mucho más pequeña mientras más grande sea el tamaño de la muestra.
 INTERVALO DE CONFIANZA PARA LA MEDIA 

PRIMER CASO: Varianza 2 supuesta conocida y no se conoce el tamaño de la población N:

Si x es el valor de la media para una muestra aleatoria de tamaño n escogida de una población con
varianza 2 supuesta conocida, el intervalo de confianza del (1 - ) x100% para  es:

 
[ x  z1 / 2    x  z1 / 2 ]  = media poblacional
n n
x = media muestral
 = desviación estándar poblacional

Error estándar de la muestra (E.S): x  s = desviación estándar muestral
n 2 = varianza poblacional
s2 = varianza muestral
 N = tamaño de la población
Error máximo de estimación de  : e  z1 / 2 n = tamaño de la muestra
n

Tamaño de muestra para estimar ,

x como una estimación de , se tiene una confianza del (1 - ) x100% de que el error
Si se utiliza
( z1 / 2 ) 2
no será mayor que el valor dado e se tiene un tamaño de muestra de: n 
e2
NOTA: Cuando menor sea el error de la estimación mayor es el tamaño de la muestra requerida.

SEGUNDO CASO:

Varianza 2 supuesta conocida, se conoce el tamaño de la población N y n  30:

Si x es el valor de la media para una muestra aleatoria de tamaño n escogida de una población con
varianza 2 supuesta conocida, e intervalo de confianza del (1 - ) x100% para  es:

 N n  N n
[ x  z1 / 2    x  z1 / 2 ]
n N 1 n N 1

 N n
Error estándar de la muestra (E.S): x 
n N 1

 N n
Error máximo de estimación de  : e  z1 / 2
n N 1

Tamaño de muestra para estimar :

Si se utiliza x como una estimación de , y se conoce N y se tiene una confianza del (1 - ) x100%
de que el error no será mayor que el valor dado e se tiene un tamaño de muestra de:
z 2 1 / 2 2 N
n
z 2 1 / 2 2  e 2 ( N  1)

TERCER CASO: Varianza 2 supuesta desconocida y n  30:

Cuando no se conoce la desviación estándar de la población (), se utiliza la desviación estándar de


la muestra (s) como su estimador.  = s

s s
[ x  z1 / 2    x  z1 / 2 ]
n n
CUARTO CASO: Varianza 2 supuesta desconocida, n  30 y se conoce N:

s N n s N n
[ x  z1 / 2    x  z1 / 2 ]
n N 1 n N 1

QUINTO CASO: Varianza 2 supuesta desconocida, n < 30:

Si x y s son la media y la desviación estándar respectivamente para una muestra aleatoria n < 30
escogida de una población normal con varianza 2 supuesta desconocida, entonces el intervalo de
confianza de (1 - ) x100% para  es:

s s
[ x  t1 / 2, n 1    x  t1 / 2, n 1 ]
n n
El valor t1 / 2,n1 se encuentra en la tabla t-student con n-1 grados de libertad

 INTERVALO DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS MEDIAS

PRIMER CASO: Varianzas 12 y 22 supuestamente conocidas:

Si x1 y x2 son las medias que resultan de dos muestras aleatorias independientes de tamaño n 1 y n2
escogidas aleatoriamente con varianzas 12 y 22 supuestamente conocidas, entonces el intervalo de
confianza de (1 - ) x100% de 1 - 2 es:

 12  22  12  22
[( x1  x 2 )  z1 / 2   1   2  ( x1  x 2 )  z1 / 2  ]
n1 n2 n1 n2
SEGUNDO CASO: Varianzas 12 y 22 supuestamente desconocidas:

Varianzas supuestas iguales 12 = 22 = 2

Si x1 y x2 son las medias que resultan de dos muestras aleatorias independientes de tamaño n1 y n2
escogidas aleatoriamente con varianzas 12 y 22 supuestamente desconocidas e iguales, entonces
el intervalo de confianza de (1 - ) x100% de 1 - 2 es:

2 2 2 2
sc s sc s
[( x1  x 2 )  t(1 / 2;n1 n2 2)  c  1   2  ( x1  x 2 )  t(1 / 2;n1 n2 2)  c ]
n1 n2 n1 n2

Donde Sc2 es la varianza común definida por:

(n1  1) S12  (n2  1) S 22


S 
2

n1  n2  2
c

Varianzas supuestas distintas 12  22

Si x1 y x2 son las medias que resultan de dos muestras aleatorias independientes de tamaño n 1 y n2
escogidas aleatoriamente con varianzas 12 y 22 supuestamente desconocidas y diferentes, entonces
el intervalo de confianza de (1 - ) x100% de 1 - 2 es:

2 2 2 2
s1 s s1 s
[( x1  x 2 )  t(1 / 2;r )  2  1   2  ( x1  x 2 )  t(1 / 2;r )  2 ]
n1 n2 n1 n2

Donde r son los grados de libertad de la distribución t – student, siendo:

2
 S12 S 22 
  
r   12
n n2 
2
Dado que r rara vez es un entero, se redondea al entero más cercano.
 S12   S 22 
   
 n1    n2 
n1  1 n2  1

DISTRIBUCIÓN DEL MUESTREO DE PROPORCIONES

Supongamos que una población es infinita y que la probabilidad de ocurrencia de un suceso (su éxito)
es p, mientras la probabilidad de que no ocurra es q = 1 – p. Por ejemplo, la población puede ser la
de todas las posibles tiradas de una moneda, en la que la probabilidad del suceso <<cara>> es p =
½. Consideremos todas las posibles muestras de tamaño N de tal población, y para cada una de ellas
determinemos la proporción de éxitos P. En el caso de una moneda, P sería la proporción de caras
en N tiradas. Obtenemos así una distribución de muestreo de proporciones cuya media p y cuya
desviación típica p viene dada por:
pq p(1  p)
p  p y p  
n n

Para valores grandes de N (N30), la distribución de muestreo está, muy aproximadamente,


normalmente distribuida, Nótese que la población está binomialmente distribuida. Las ecuaciones
anteriores son válidas también para una población en la que se hace muestreo con reposición. Para
poblaciones finitas en que se haga muestreo sin reposición, dichas ecuaciones quedan sustituidas por
=py= pq .

 INTERVALO DE CONFIANZA PARA UNA PROPORCION


El estimador puntual de p es la estadística proporción de éxitos en la muestra definida por:

x
p ; Donde x es el número de éxitos en la muestra.
n
PRIMER CASO: Si p es la proporción de éxitos en una muestra aleatoria de tamaño n, entonces, el
intervalo de confianza (1 - ) x100% para p es:

p(1  p) p(1  p)
[ p  z1 / 2  p  p  z1 / 2 ]
n n

p(1  p)
Error estándar de p (E.S): p 
n

p(1  p)
Error máximo de estimación de p: e  z1 / 2
n

( z1 / 2 ) 2 p(1  p)
Tamaño de muestra para estimar p: n 
e2
SEGUNDO CASO: Si p es la proporción de éxitos en una muestra aleatoria de tamaño n, y se conoce
el tamaño de la población N , entonces, el intervalo de confianza es:

p(1  p) N  n p(1  p) N n
[ p  z1 / 2 .  p  p  z1 / 2 ]
n N 1 n N 1

p(1  p) N n
Error estándar de p (E.S): P 
n N 1

Tamaño de muestra para estimar p:


Si se utiliza p como una estimación de P, y se conoce N y se tiene una confianza del (1 - ) x100%
de que el error no será mayor que el valor dado e se tiene un tamaño de muestra de:

z 21 / 2 p(1  p) N
n Si no se tiene el dato p, se puede utilizar el valor p = 0.5
z 21 / 2 p(1  p)  e 2 ( N  1)

 INTERVALO DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS


PROPORCIONES
Si p1 y p2 son las proporciones de éxitos en dos muestras aleatorias independientes n 1 y n2
respectivamente, entonces, el intervalo de confianza del (1 - ) x100% del parámetro p1 - p2 es

[( p1  p 2 )  z1 / 2 P1P2  p1  p2  ( p1  p 2 )  z1 / 2 P1P2 ]

p 1 (1  p 1 ) p 2 (1  p 2 )
Error estándar de la estadística (p1 – p2) (E.S):  P P  
1 2
n1 n2

CONCEPTOS BÁSICOS

 Estimación: valor específico de un estimador, calculado en base a una muestra dada.

 Estimación puntual: un solo número que se utiliza para estimar un parámetro de población
desconocido.

 Estimación de intervalo: intervalo de valores utilizado para estimar un parámetro de población


desconocido.

 Estimación de parámetros: Aproximación del valor de parámetros poblacionales desconocidos


mediante el empleo de estadísticos muestrales.

 Estimador: estadístico de muestra utilizada para estimar un parámetro de población.


Conceptualmente es una variable aleatoria.

 Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que incluya
el valor real del parámetro de la población.

 Límites de confianza: límites inferior y superior de un intervalo de confianza.

 Nivel de confianza: probabilidad que los estadísticos asocian con una estimación de intervalo de
un parámetro de población, ésta indica qué tan seguros están de que la estimación de intervalo
incluirá el parámetro de la población. Probabilidad, designada de antemano, de que un intervalo
de confianza incluya al valor del parámetro desconocido.
PRUEBA DE HIPÓTESIS

INTRODUCCIÓN

Un Contraste o Test de Hipótesis es una técnica de Inferencia Estadística que permite comprobar
si la información que proporciona una muestra observada concuerda (o no) con la hipótesis estadística
formulada sobre el modelo de probabilidad en estudio y, por tanto, se puede aceptar (o no) la hipótesis
formulada. Llamaremos hipótesis estadística a una afirmación respecto a una característica de una
población. Contrastar una hipótesis es comparar las predicciones que se deducen de ella con la
realidad que observamos: si hay coincidencia, dentro del margen de error admisible, mantendremos
la hipótesis; en caso contrario, la rechazaremos. La hipótesis estadística puede ser:

Paramétrica: es una afirmación sobre los valores de los parámetros poblacionales desconocidos. Las
hipótesis paramétricas se clasifican en:

Simple: si la hipótesis asigna valores únicos a los parámetros

Compuesta: si la hipótesis asigna un rango de valores a los parámetros poblacionales desconocidos

No Paramétrica: es una afirmación sobre alguna característica estadística de la población en estudio.


Por ejemplo, las observaciones son independientes, la distribución de la variable en estudio es normal,
la distribución es simétrica.

La hipótesis que se contrasta se denomina hipótesis nula y, normalmente, se denota por H0. Si se
rechaza la hipótesis nula es porque se asume como correcta una hipótesis complementaria que se
denomina hipótesis alternativa y se denota por H1 o Ha.

Rechazar una hipótesis implica sustituirla por otra capaz de explicar los datos observados.
Es interesante tener en cuenta que la veracidad de una hipótesis no puede ser probada nunca
Lo que se puede hacer es afirmar que tiene tal o cual probabilidad de ser falsa
Si esa probabilidad es muy alta (95% o 99%) por ejemplo, se concluye que la hipótesis es poco creíble
y se califica provisoriamente como falsa. Si no se consigue "falsar" (rechazar) la hipótesis, se acepta
provisionalmente como verdadera. Esta calidad de provisorias de las conclusiones estadísticas no
debería sorprender a nadie: toda la ciencia es un constructo provisorio. La verificación de hipótesis es
el proceso que lleva a juzgar la credibilidad de afirmaciones (hipótesis) relativas a las poblaciones
(habitualmente a sus parámetros) de las que fueron extraídas las muestras.

Ejemplificando

La Hipótesis nula puede ser: un parámetro θ que tiene un valor k y la Hipótesis alternativa será su
negación. Es decir:

Ho: θ = k

H1: θ ≠ k

Si se toma una muestra y en ella se calcula un estadístico  cuya distribución en el muestreo en el
caso de que Ho sea verdadera se conoce, se puede determinar qué Probabilidad (P) hay de que si el

verdadero valor del parámetro es k se obtenga un valor observado del estadístico  , tan alejado (o
más) de k. Ver grafica siguiente:

Si P es muy baja la probabilidad de que la muestra no


pertenezca a una población con θ = k es muy alta, por lo
tanto se rechaza Ho. Consecuentemente se acepta H 1.

Una hipótesis es una afirmación acerca de algo. En estadística, puede ser una suposición acerca del
valor de un parámetro desconocido. Una hipótesis estadística es una afirmación respecto a alguna
característica de una población. Contrastar una hipótesis es comparar las predicciones con la
realidad que observamos. Si dentro del margen de error que nos permitimos admitir, hay coincidencia,
aceptaremos la hipótesis y en caso contrario la rechazaremos.

La prueba de hipótesis comienza con una suposición, llamada hipótesis, que hacemos con respecto
a un parámetro de población. Después recolectamos datos de muestra, producimos estadísticos de
muestra y usamos esta información para decidir qué tan probable es que sea correcto nuestro
parámetro de población acerca del cual hicimos la hipótesis. Debemos establecer el valor supuesto o
hipotetizado del parámetro de población antes de comenzar a tomar la muestra. La suposición que
deseamos probar se conoce como hipótesis nula, y se simboliza H 0. Siempre que rechazamos la
hipótesis, la conclusión que sí aceptamos se llama hipótesis alternativa y se simboliza H 1.

 La hipótesis emitida se suele designar por H0 y se llama Hipótesis nula porque parte del supuesto
que la diferencia entre el valor verdadero del parámetro y su valor hipotético es debida al azar, es
decir no hay diferencia.
 La hipótesis contraria se designa por H1 y se llama Hipótesis alternativa.

Los contrastes pueden ser unilaterales o bilaterales (también llamados de una o dos colas) según
establezcamos las hipótesis, si las definimos en términos de igual y distinto estamos ante una hipótesis
unilateral, si suponemos una dirección (en términos de mayor o menor) estamos ante uno bilateral.

PASOS A SEGUIR EN UNA PRUEBA DE HIPÓTESIS:

Se trata, de extraer conclusiones a partir de una muestra aleatoria y significativa, que permitan
aceptar o rechazar una hipótesis previamente emitida, sobre el valor de un parámetro desconocido
de la población. El método que seguiremos es el siguiente:

1. Definir la hipótesis nula: suponer una hipótesis acerca de una población. Se determina si es una
prueba de una o dos cola.

2. Formular una hipótesis alternativa: es una contra-hipótesis.

3. Elegir un nivel de significación  y construir la zona de aceptación, intervalo fuera del cual sólo
se encuentran el 100% de los casos más raros. A la zona de rechazo la llamaremos Región
Crítica, y su área es el nivel de significación o aceptación.

4. Verificar la hipótesis extrayendo una muestra cuyo tamaño se ha decidido en el paso anterior y
obteniendo de ella el correspondiente estadístico. Decida que distribución (t o z) es la más
apropiada y encuentre los valores críticos adecuados para el nivel de significancia escogido de la
tabla adecuada.

5. Recabar datos de la muestra.

6. Calcule el error estándar del estadístico de la muestra y utilice el error estándar para
convertir el valor observado del estadístico de la muestra a un valor estandarizado.
Determine si el valor calculado en la muestra cae dentro de la zona de aceptación de ser así se
acepta la hipótesis y si no se rechaza.

7. Utilice el estadístico de la muestra para evaluar la hipótesis.

HIPÓTESIS NULA Y ALTERNATIVA

Llamaremos hipótesis nula, y la representaremos por H0, a la hipótesis que se desea contrastar. La
hipótesis nula es en general un supuesto simple que permite hacer predicciones sin ambigüedad. La
hipótesis alternativa (H1 o Ha) da una suposición opuesta a aquella presentada en la hipótesis nula. El
experimento se lleva a cabo para conocer si la hipótesis alternativa puede ser sustentada.

La hipótesis H0 nunca se considera probada, aunque puede ser rechazada por los datos. Por ejemplo,
la hipótesis de que todos los elementos de una población tienen el mismo valor de una variable puede
ser rechazada encontrando un elemento que no lo contenga, pero no puede ser “demostrada” más
que estudiando todos los elementos de la población, tarea que puede ser imposible. De igual manera,
la hipótesis de que la media de una población es diez puede ser rechazada fácilmente si la media
verdadera está muy lejos de diez analizando una muestra suficientemente grande. Sin embargo, no
puede ser “demostrada” mediante muestreo, ya que es posible que la media difiera de diez en un valor
pequeño imperceptible en el muestreo). Por esta razón no afirmamos que aceptamos H0, sino que no
podemos rechazarla.

Los tests ( o pruebas) asociados con las hipótesis pueden ser uni o bi laterales, según las hipótesis
planteadas

Ho : θ = k Ho : θ  k Ho : θ ≤ k

H1 : θ ≠ k H1 : θ < k H1 : θ > k

ESTADÍSTICO DE LA PRUEBA

Los datos se deben sintetizar en un estadístico de la prueba. Dicho estadístico se calcula para ver si
es razonablemente compatible con la hipótesis nula. En las pruebas de hipótesis es necesario trazar
una línea entre los valores del estadístico de la prueba que son relativamente probables dada la
hipótesis nula y los valores que no lo son. ¿En qué valor del estadístico de la prueba comenzamos a
decir que los datos apoyan a la hipótesis alternativa? Para contestar a esta pregunta se requiere
conocer la distribución muestral del estadístico de la prueba. Los valores del estadístico de la prueba
que son sumamente improbables bajo la hipótesis nula (tal como los determina la distribución
muestral) forman una región de rechazo para la prueba estadística.

INTERPRETACIÓN DEL NIVEL DE SIGNIFICANCIA.

El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico de la muestra,


sino hacer un juicio respecto a la diferencia entre ese estadístico de muestra y un parámetro de
población hipotetizado. El siguiente paso después de establecer la hipótesis nula y alternativa consiste
en decidir qué criterio utilizar para decidir si aceptar o rechazar la hipótesis nula. Si suponemos que
la hipótesis es correcta, entonces el nivel de significancia indicará el porcentaje de medias de muestra
que está fuera de ciertos límites. Siempre que afirmemos que aceptamos la hipótesis nula, en realidad
lo que queremos decir es que no hay suficiente evidencia estadística para rechazarla. El empleo
del término aceptar, en lugar de rechazar, se ha vuelto de uso común. Significa simplemente que
cuando los datos de la muestra n hacen que rechacemos una hipótesis nula, nos comportamos como
si fuera cierta.

SELECCIÓN DEL NIVEL DE SIGNIFICANCIA.

Nuestra elección del estándar mínimo para una probabilidad aceptable, o el nivel de significancia, es
también el riesgo que asumimos al rechazar una hipótesis nula cuando es cierta. Mientras más alto
sea el nivel de significancia que utilizamos para probar una hipótesis, mayor será la probabilidad de
rechazar una hipótesis nula cuando es cierta.
LOS VALORES MÁS COMUNES PARA NIVELES DE SIGNIFICACIÓN

Nivel de significación () 0.10 0.05 0.01 0.005 0.002


Nivel de confianza 90% 95% 99% 99.5% 99.8%
Valores críticos de z para una cola  1.2817  1.645  2.327  2.575  2.88
Valores críticos de z para dos colas  1.645  1.96  2.575  2.81  3.08

ERROR TIPO I Y TIPO II EN CONTRASTE DE HIPÓTESIS

Error tipo I: Llamado también nivel de significación, denotado por , es la probabilidad de rechazar
la Ho cuando ésta es cierta. Es la probabilidad de que le valor de la Estadística caiga en la Región de
Rechazo.

Error tipo II: Denotado por , es la probabilidad de aceptar la Ho cuando ésta es falsa. Donde (1 - )
se conoce como la potencia de la prueba.

Minimizar los errores no es una cuestión sencilla, un tipo suele ser más grave que otro y los intentos
de disminuir uno suelen producir el aumento del otro. La única forma de disminuir ambos a la vez es
aumentar el tamaño de la muestra.

Decisión Ho Cierta Ho Falsa

Decisión correcta Error tipo II


Aceptar Ho
(1 - ) ()
Error tipo I Decisión correcta
Rechazar Ho
() (1 - )

El rechazo de una hipótesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que
es también el nivel de significancia) se simboliza como .

El hecho de que P sea muy bajo no califica el acontecimiento


como imposible. Simplemente que tiene poca probabilidad de
ocurrir al azar. A la probabilidad de cometer error tipo I se la
denomina nivel de significación . Habitualmente el
investigador fija a priori el nivel de significación crítico para
rechazar Ho (). Si P es menor que , se rechaza. En caso
contrario, se acepta Ho.

El hecho de aceptar una hipótesis nula cuando es falsa se denomina error de tipo II, y su
probabilidad se simboliza como . La probabilidad de cometer un tipo de error puede reducirse
sólo si deseamos incrementar la probabilidad de cometer el otro tipo de error. Con el propósito de
obtener una  baja, tendremos que tolerar una  alta. Los responsables de la toma de decisiones
deciden el nivel de significancia adecuado, al examinar los costos o desventajas vinculadas con
ambos tipos de errores
Las hipótesis nula y alternativa son aseveraciones sobre la población que compiten entre sí. O la
hipótesis nula H0 es verdadera, o lo es la hipótesis alternativa H1, pero no ambas. En el caso
ideal, el procedimiento de prueba de hipótesis debe conducir a la aceptación de H0 cuando sea
verdadera y al rechazo de H0 cuando H1 sea verdadera. Desafortunadamente no siempre son
posibles las conclusiones correctas. Como las pruebas de hipótesis se basan en información de
muestra, debemos considerar la posibilidad de errores.

Debe tenerse en cuenta que sólo se puede cometer uno de los dos tipos de error y, en la mayoría
de las situaciones, se desea controlar la probabilidad de cometer un error de tipo I. Fijar el nivel
de significación equivale a decidir de antemano la probabilidad máxima que se está dispuesto a
asumir para rechazar la hipótesis nula cuando es cierta. El nivel de significación lo elige el
experimentador y tiene por ello la ventaja de tomarlo tan pequeño como desee (normalmente se
toma  = 0.10, 0.05 o 0.01)

TIPOS DE PRUEBAS

Prueba de cola derecha: Si la región de rechazo está a la derecha del puntaje crítico

Prueba de cola izquierda: Si la región de rechazo está a la izquierda del puntaje crítico

Prueba de dos colas o bilateral: Si la región de aceptación es un intervalo abierto entre dos puntajes
críticos.

OBSERVACIÓN IMPORTANTE

En ocasiones pueden surgir dudas en el planteamiento de cuál debe ser la hipótesis


H0 y cuál la hipótesis H1, en estos casos debemos tener presente las siguientes reglas:

Cuando el problema de manera expresa pide que se contraste una hipótesis con
determinado nivel de significación, la hipótesis que contrastamos es la hipótesis H0.

Cuando el problema pide explícitamente que seamos nosotros quienes planteemos


las hipótesis, para decidir qué poner en H0 y qué en H1, se pueden tener en cuenta
las siguientes indicaciones:

En H1 siempre debemos colocar lo que realmente queremos investigar con seguridad,


pues el error , el que fijamos de antemano, se comete cuando optamos por H1 y nos
equivocamos.

En caso de duda, siempre elegir un contraste de hipótesis con dos colas.


PRUEBA DE HIPÓTESIS ACERCA DE LA MEDIA POBLACIONAL ()

El estadístico de prueba se basa en la media muestral x , por lo que también se supondrá que la
población está distribuida de manera normal o que se aplican las condiciones del teorema del límite
central. Esto significa que la distribución de x es aproximadamente normal con una media μ y una
varianza σ2/n.

Reglas de decisión (o regiones óptimas) para docimar

Ho:  = o. Para un nivel de significancia 

Tipos de prueba Hipótesis alternante Se rechaza Ho, si

Cola izquierda Ha :  < o Zc < -Z1- tc < -t1-,n-1

Cola derecha Ha :  > o Zc > Z1- tc > t1-,n-1

Dos colas Ha :   o |Zc| > Z1-/2 |tc| > t1-/2,n-1

x  0 x  0
Estadísticas: Zc  tc  , n-1 grados de libertad
/ n s/ n

Se usa la Estadística Z, si:

- La muestra es grande, varianza poblacional conocida y población normal o no.

- La muestra es grande, varianza poblacional desconocida (s  ) y población normal o no.

- La muestra es pequeña, varianza poblacional conocida y poblacional normal.

Se usa la estadística t, si:

- La muestra es pequeña

- Varianza poblacional desconocida

- Poblacional Normal

PRUEBA DE HIPÓTESIS ACERCA DE LA DIFERENCIA DE DOS MEDIAS

Se tienen dos poblaciones y se toman muestras aleatorias independientes de tamaños n1 y n2 , se


puede comparar el comportamiento de dichas poblaciones a través de los promedios.

La estadística de trabajo depende de las características de las poblaciones y del tamaño de las
muestras.
Reglas de decisión (o regiones óptimas) para docimar

Ho: 1 - 2 = 0. Para un nivel de significancia 

Tipos de prueba Hipótesis alternante Se rechaza Ho, si

Cola izquierda Ha :  1 - 2 < 0 Zc < -Z1- tc <  t1 / 2; n1  n2  2

Cola derecha Ha :  1 - 2 > 0 Zc > Z1- tc > t1 / 2; n1  n2  2

Dos colas Ha : 1 - 2  0 |Zc| > Z1-/2 |tc| > t1 / 2; n1  n2  2

Estadísticas:

Varianzas conocidas, muestras grandes

x1  x 2
z
2 2
s1 s
 2
n1 n2

Varianzas desconocidas,
-
Varianzas supuestas iguales 12 = 22 = 2

x1  x 2 (n1  1) S12  (n2  1) S 22


t , S c2  , (n1+ n2 – 2) grados de libertad
sc
2
s
2
n1  n2  2
 c
n1 n2

-
Varianzas supuestas distintas 12  22

2
 S12 S 22 
x1  x 2   
t , r  n1 n2  grados de libertad
2 2 2 2
s1 s  S12   S 22 
 2    
n1 n2  n1    n2 
n1  1 n2  1

Se usa la Estadística Z, si:

- La muestra es grande, varianza poblacional conocida y población normal o no.

- La muestra es grande, varianza poblacional desconocida (s  ) y población normal o no.

- La muestra es pequeña, varianza poblacional conocida y poblacional normal.


Se usa la estadística t, si:

- La muestra es pequeña

- Varianza poblacional desconocida

- Poblacional Normal

PRUEBA DE HIPÓTESIS DE DOS MUESTRAS EMPAREJADAS

En este caso se trata de comparar dos métodos o tratamientos, pero se quiere que las unidades
experimentales donde se aplican los tratamientos sean las mismas, ó los más parecidas posibles,
para evitar influencia de otros factores en la comparación, como por ejemplo cuando se desea
comparar dos medicamentos para curar una enfermedad es bastante obvio que el sujeto al cual se
aplica los medicamentos influye sustancialmente en la comparación de los mismos. Otro ejemplo es
en educación, supongamos que se da un seminario sobre un tópico en particular y queremos luego
evaluar la efectividad del seminario. Es natural pensar que algunos individuos entenderán mejor el
material que otra tal vez, debido a la preparación que tienen de antemano. Así que lo más justo es dar
un test antes y después del seminario y comparar estos resultados individuo por individuo.

Reglas de decisión (o regiones óptimas) para docimar


Ho: d = 0. Para un nivel de significancia 

Tipos de prueba Hipótesis alternante Se rechaza Ho, si

Cola izquierda Ha : d < 0 tc < -t,n-1

Cola derecha Ha : d > 0 tc > t,n-1

Dos colas Ha : d  0 |tc| > t/2,n-1

Estadística de prueba

d d  nd
2 2
d
t d sd 
i i
, , , n-1 grados de libertad
sd n n 1
n
PRUEBA DE HIPÓTESIS ACERCA DE LA PROPORCIÓN POBLACIONAL (p)

Las pruebas de hipótesis con proporciones son necesarias en muchas áreas del conocimiento. Se
considerará el problema de probar la hipótesis de que la proporción de éxito en un experimento
binomial sea igual a un cierto valor especifico. Es decir, se probará la hipótesis nula de que p = p0,
donde p es el parámetro de la distribución binomial. La información de que suele disponerse para la
x
estimación de una porción real o verdadera (porcentaje o probabilidad) es una proporción muestral
n
, donde x es el número de veces que ha ocurrido un evento en n ensayos. Por ejemplo, si una muestra
aleatoria de 600 compras realizadas en una tienda y 300 se realizan con tarjeta de crédito, entonces
x 300
  0.50 se puede utilizar esa cifra como estimación de punto de la proporción real de
n 600
compras realizadas en ese negocio que se abonaron a tarjetas de crédito. De la misma forma muchas
compañías podrían estimar las proporciones de muchas transacciones. La hipótesis alterna puede ser
una de las alternativas usuales unilateral o bilateral tales como: p  p0 , p  p0 ,..o.. p  p0 .

Reglas de decisión (o regiones óptimas) para docimar


Ho: p = po. Para un nivel de significancia 
Tipos de prueba Hipótesis alternante Se rechaza Ho, si

Cola izquierda Ha : p < p o Zc < -Z1-

Cola derecha Ha : p > p o Zc > Z1-

Dos colas Ha : p  po |Zc| > Z1-/2

p  p0
Estadísticas: Z c  ó
p o (1  p o )
n
p  p0
Zc  Cuando se conoce el tamaño de N
po (1  po )  N  n 
 
n  N 1 
PRUEBA DE HIPÓTESIS ACERCA DE LA DIFERENCIA ENTRE PROPOCIONES

Reglas de decisión (o regiones óptimas) para docimar

Ho: p1 – p2 = 0. Para un nivel de significancia 

Tipos de prueba Hipótesis alternante Se rechaza Ho, si

Cola izquierda Ha : p 1 – p 2 < 0 Zc < -Z1-

Cola derecha Ha : p 1 – p 2 > 0 Zc > Z1-

Dos colas Ha : p 1 – p 2  0 |Zc| > Z1-/2

p1  p 2 x1 x2
Estadísticas: Zc  p1  , p2 
1 1 n1 n2
p(1  p)  
 n1 n2 

x1  x2 n1 p1  n2 p 2
p  ó p 
n1  n2 n1  n2

S-ar putea să vă placă și