Sunteți pe pagina 1din 37

ESTADÍSTICA

CÁTEDRA I

 UNIDAD 6
UNIDAD 6:
Muestreo. Prueba de hipótesis.

Contenidos

 Muestra representativa. Ventajas que ofrece la muestra. Tipos de


muestra.
 La media y la varianza muestrales como variables.
 Estadísticos y parámetros. Estimación. Error de muestreo. Estimador.
 Concepto de hipótesis en estadística. Prueba de hipótesis. Hipótesis nula y
alternativa. Errores tipo I y II. Estadístico de prueba. Zona de rechazo.
Diferencia significativa.
 Prueba de hipótesis para la media de una población normal con varianza
conocida.
 Prueba de hipótesis para la media de una población normal con varianza
desconocida
 Prueba de hipótesis para la diferencia de medias de dos poblaciones
normales independientes con varianzas desconocidas pero iguales.

 Prueba de hipótesis para una proporción y para la diferencia de


proporciones.
Unidad 6: Muestreo y Prueba de Hipótesis

Comentarios para la organización de la lectura/estudio


del módulo bibliográfico 6

1) Cea D’Ancona: Muestreo - Armar resumen en base a temas

marcados en estas diapositivas

2) Reuchlin: Inferencia estadística y Muestreo - En particular

‘Muestreo para la organización de las experiencias’

3) Galibert y Pano: Media y Varianza muestrales como variables

aleatorias.

4) Aguerri: Prueba de Hipótesis

5) Welkowitz: Prueba de hipótesis – No se evaluará lo referido a

intervalos de confianza.
MUESTREO

IMPORTANCIA
De cómo se seleccionen las unidades de observación depende la calidad de la información que se
recoja. Por eso deben invertirse el tiempo y el esfuerzo necesarios en la planificación y ejecución del
diseño de la muestra.

DEFINICIÓN Y ACOTACIÓN DE LA POBLACIÓN


Consiste en mencionar las características esenciales que ubican a la población en un espacio y tiempo
concretos. Para ello han de tenerse en cuenta el problema y los objetivos principales de la
investigación.

MARCO DE MUESTREO
Es el listado que comprende las unidades de la población. Se utiliza para buscar la documentación que
ayuda a la identificación de la población de estudio. Sus requisitos son:
 comprehensividad
 actualización
 sin duplicidad
 sin unidades que no pertenezcan a la población que se analiza
 con información suplementaria que ayude a la localización de las unidades.
 fácil de utilizar

TAMAÑO DE LA MUESTRA
Está determinado por los siguientes factores:
 Tiempo y recursos disponibles.
 Modalidad de muestreo seleccionada.
 Tipo de análisis de datos previstos.
 Varianza poblacional.
 Error máximo admisible para la estimación de los parámetros.
 Nivel de confianza de la estimación.

ERROR MUESTRAL
Es la diferencia existente entre las estimaciones (obtenidas a partir de la muestra) y los parámetros
(características poblacionales). Una estimación es más precisa cuando su error muestral es menor.
NIVEL DE CONFIANZA: Expresa el grado de confianza que el investigador tiene en que su
estimación se ajuste a la realidad. Proviene del nivel de probabilidad utilizado en el método de
estimación.

TIPOS DE MUESTREO: PROBABILÍSTICO Y NO PROBABILÍSTICO

* PROBABILÍSTICO  Utiliza la aleatorización como criterio esencial de selección muestral.

 Cada unidad tiene una probabilidad igual (o establecida a priori) de ser seleccionada para la
muestra.
 La elección de cada unidad es independiente de las demás.
 Permite controlar el error muestral.

Algunos de ellos: aleatorio simple – sistemático – estratificado – por conglomerados

* NO PROBABILÍSTICO  Utiliza criterios diferentes de la aleatorización como la conveniencia o


criterios subjetivos. Ello puede producir:

 Que algunas unidades de la población tengan mayor probabilidad que otras de ser
seleccionadas para la muestra.
 Dificultad para calcular el error muestral.
 Introducción de sesgos.

Algunos de ellos: por cuotas – estratégico – bola de nieve

MUESTREO PARA LA ORGANIZACIÓN DE LAS EXPERIENCIAS (ver Reuchlin)


Media y Varianza como
variables aleatorias
Población ficticia de individuos que reciben Terapia
psicológica semanal

Laura Matías

Inés
Claudia
X: “Cantidad de sesiones semanales de Terapia que recibe
la persona elegida”

1 3

1 2

=(1+1+2+3)/4 =1.75

2= [(1-1.75)2+(1-1.75)2+(2-1.75)2+(3-1.75)2]/4 = 0.6875


Supongamos que ignoramos el valor de estos parámetros y queremos
estimarlos a partir de muestras de tamaño 2.

Se eligen, con reposición, todas las muestras de tamaño 2 


1ra 2da
elección elección X1 X2 x
s2
Laura Laura 1 1 1 0
Laura Inés 1 1 1 0
Laura Claudia 1 2 1,5 0,5
Laura Matías 1 3 2 2
Inés Laura 1 1 1 0
Inés Inés 1 1 1 0
Inés Claudia 1 2 1,5 0,5
Inés Matías 1 3 2 2
Claudia Laura 2 1 1,5 0,5
Claudia Inés 2 1 1,5 0,5
Claudia Claudia 2 2 2 0
Claudia Matías 2 3 2,5 0,5
Matías Laura 3 1 2 2
Matías Inés 3 1 2 2
Matías Claudia 3 2 2,5 0,5
Matías Matías 3 3 3 0

Promedio
Luego X es un estimador insesgado de  1.75 0.6875

Varianza 0.34375
0.6211
Se cumple que: μX  μ y

σ 2X  σ 2 / n , o sea σ X  σ / n
Error típico
de la media

El programa CenLimit de Hans Lohningen de la Universidad Tecnológica de


Viena (http://www.vias.org/simulations/simusoft_cenlimit.html) presenta
simulaciones para visualizar los resultados mencionados.
Corolario del Teorema Central del Límite

Dada una variable X con media  y varianza 2, la variable


media muestral X , de muestras de tamaño n, se
distribuye de manera aproximadamente normal con la
misma media, , y varianza igual a la enésima parte de la
varianza, 2/n.
1ra 2da
x s2
elección elección X1 X2
Laura Laura 1 1 1 0
Laura Inés 1 1 1 0
Laura Claudia 1 2 1,5 0,5
Laura Matías 1 3 2 2
Inés Laura 1 1 1 0
Inés Inés 1 1 1 0
Inés Claudia 1 2 1,5 0,5
Inés Matías 1 3 2 2
Claudia Laura 2 1 1,5 0,5
Claudia Inés 2 1 1,5 0,5
Claudia Claudia 2 2 2 0
Claudia Matías 2 3 2,5 0,5
Matías Laura 3 1 2 2
Matías Inés 3 1 2 2
Matías Claudia 3 2 2,5 0,5
Matías Matías 3 3 3 0

Luego s2 es un estimador insesgado de 2 Promedio 0.6875


Inferencia Estadística

Hipótesis en Estadística Inferencial

 Una PRUEBA DE HIPÓTESIS es un conjunto de operaciones


estadísticas que permite mediante la utilización del muestreo,
rechazar o no la hipótesis formulada, posibilitando el cálculo de la
probabilidad de cometer error en la decisión adoptada.

 Hipótesis Nula. Simbolizada con H0


 Hipótesis Alternativa. Simbolizada con H1

 Ejemplo de hipótesis formuladas para el valor de un parámetro:

si H0:   0, puede ser H1:  >  0 Prueba unilateral derecha

H1:  <  0 Prueba unilateral izquierda

H1:    0 Prueba bilateral


La decisión entre la HIPÓTESIS NULA y la HIPÓTESIS ALTERNATIVA, se hace en base
a un estadístico, llamado ESTADÍSTICO DE PRUEBA, que vincula el estimador con el
parámetro.
Suponiendo que la hipótesis nula es verdadera el ESTADÍSTICO DE PRUEBA tiene una
distribución conocida que permite calcular la probabilidad de cometer error.
α

α c
 Zona de Rechazo
o Región crítica
c α/2
α/2
Contiene los valores poco
probables de ocurrir si H0
es verdadera. c1 c2

 Regla de Decisión

 ¿Qué puede
ocurrir con la H0 es verdadera H0 es Falsa
decisión?
Rechazo H0
Decisión
Error de Tipo I Decisión Correcta
No Rechazo H0
Decisión Correcta Error de Tipo II

 Nivel de significación de una Prueba de Hipótesis es la probabilidad de


cometer el Error de Tipo I. Se simboliza con α.
Prueba de Hipótesis sobre la media de una población normal con
varianza conocida

H0: µ  µ0

Puede considerarse como Estadístico de Prueba a la variable media muestral ( X) o


a su estandarizada (Z)


Bajo H0 : X  N 0 ;  n  Bajo H0 : Z 
X - μ0
σ n
 N0,1

Bajo H0 significa suponiendo que H0 es verdadera

 n se denomina Error Típico de la media


Acerca de la Resolución de una Prueba de Hipótesis
(ver Ficha Materiales para la Cursada, página 42)
Acciones presentes

1.- Nombrar la/s variable/s. [Especificar la/s población/ciones de individuos y la/s


población/ciones de obsevaciones]

2.- Plantear las hipótesis: Hipótesis nula e Hipótesis alternativa. [Mencionar los supuestos
necesarios para realizar la prueba de hipótesis]

3.- Indicar el nivel de significación.

4.- Especificar el estadístico de prueba y su distribución bajo H0.

5.- Realizar cálculos: (1) obtener el valor observado del estadístico de prueba,
(2) precisar la zona de rechazo o calcular el valor p.

6.-Establecer la Regla de Decisión y formular la Decisión en base a la información muestral


(según la pertenencia del valor observado del estadístico de prueba a la zona de rechazo o
bien de la comparación del valor p con el nivel de significación).

7.- Expresar la Conclusión en términos del problema.

Supuestos necesarios

*En todas las pruebas de hipótesis la/s muestra/s debe/n ser aleatoria/s.
*En las pruebas para la media, o para la diferencia de medias, las poblaciones de observaciones
intervinientes tienen que estar normalmente distribuidas o bien contar con tamaños suficientemente grandes
que aseguren la normalidad de la respectiva variable Media Muestral por el Teorema Central del Límite.
*En las pruebas para una proporción o diferencia de proporciones, la cantidad de observaciones debe ser
grande, las observaciones independientes y con la misma probabilidad de éxito.
Problema 1
Una muestra de 23 adultos del municipio A obtuvo, este año, una media de 34
en el estilo de humor Mejoramiento Personal de la Escala Sentido del Humor
(Casullo, 2004). Según investigaciones realizadas anteriormente se sostiene que,
a nivel poblacional, esas puntuaciones estaban normalmente distribuidas con
media 32 y desvío 3.

¿Es la media de la muestra de este año significativamente mayor que 32 al nivel


del 5%? Suponga que el actual desvío poblacional se mantuvo igual al histórico.
Resolución:
1 Nombrar la variable
La variable X del problema es “Puntaje en Mejoramiento Personal de un adulto del municipio A
en este año”.
Su media poblacional es  y el desvío poblacional es  = 3.
 Población de individuos: Todos los adultos del municipio A de este año. Es una población real.
 Población de observaciones: Puntuaciones en Mejoramiento Personal de todos los adultos del
municipio A de este año. Es una población hipotética.
Plantear las hipótesis: Hipótesis Nula e Hipótesis
2 alternativa.
Las hipótesis son: H0:   32
H1:  > 32
Para realizar la prueba de hipótesis es necesario suponer que
la variable X se distribuye normalmente y que la muestra es aleatoria.

3 Indicar el nivel de significación


4 Especificar el estadístico de prueba y su distribución bajo H0

Realizar cálculos: (1) obtener el valor observado del estadístico de prueba,


5
(2) precisar la zona de rechazo o calcular el valor p.

α  0,05
(2) Se opta por precisar la zona de rechazo.

-3 -2 -1
32
0 xc=33,03
1 2
X
3

Del Excel 33,03=DISTR.NORM.INV(0,95;32;3/RAIZ(23))

La zona de rechazo son los valores del estadístico de prueba X mayores que 33,03.
6 Establecer la Regla de Decisión y formular la decisión en base a la información
muestral.

Regla de Decisión: se rechaza H0 si el valor observado del estadístico de


prueba pertenece a la zona de rechazo, o sea si es mayor que 33,03, y
no se rechaza en caso contrario.

7 Expresar la Conclusión en términos del problema

Conclusión: Se rechaza H0. Luego, la evidencia muestral sostiene la hipótesis


de que el puntaje medio en Mejoramiento Personal de los adultos de ese
municipio de este año es mayor que 32. Por tanto la media de la muestra de
este año es significativamente mayor que 32 al nivel del 5%.
Las acciones 1 a 3 y la conclusión (acción 7) son idénticas a las del desarrollo anterior. Veamos
las acciones 4), 5) y 6)

4 Especificar el estadístico de prueba y su distribución bajo H0

Realizar cálculos: (1) obtener el valor observado del estadístico de prueba,


5 (2) precisar la zona de rechazo o calcular el valor p.

α  0.05

-3 -2 -1
00 Z1 c=1.642 Z3

Del Excel 1,64=DISTR.NORM.INV(0,95;0;1)


(2) La zona de rechazo son los valores Z mayores que 1,64
Establecer la Regla de Decisión y formular la decisión en base a la información
6 muestral.

Regla de Decisión: se rechaza H0 si el valor observado del estadístico de


prueba pertenece a la zona de rechazo, o sea si es mayor que 1,64 y
no se rechaza en caso contrario.
Acerca del valor p
(ver Ficha Materiales para la Cursada, página 41)

Sea U un estadístico de prueba; es decir, un estadístico con distribución


conocida bajo la hipótesis nula y sea Uobs su valor observado en la muestra
que se escogió para realizar la prueba de hipótesis. Considerando la
distribución de U bajo la hipótesis nula, el valor p se calcula:

 P(U  Uobs) si la prueba es unilateral a derecha.


 P(U  Uobs) si la prueba es unilateral a izquierda,

2P( U  Uobs ) si la prueba es bilateral, la distribuci ón de U es simétrica y
Valor p  
 Uobs es mayor que la media de U, o
2P( U  Uobs ) si la prueba es bilateral, la distribuci ón de U es simétrica y

 Uobs es menor que la media de U.
O sea, considerando la distribución de U, bajo la hipótesis nula,
el valor p es la probabilidad asociada al valor observado del estadístico de prueba según la Hipótesis alternativa.

Regla de Decisión usando el valor p


Se rechaza H0 si el valor p <  y no se rechaza H0 en caso contrario.

Pues que el valor p sea menor que el nivel de significación es equivalente a que el
valor observado del estadístico de prueba pertenezca a la zona de rechazo de H0.
OTRA FORMA: Si se utiliza el cálculo el valor p en lugar de construir la zona de rechazo
Las acciones 1 a 5-(1) y la conclusión (acción 7) son idénticas a las de los desarrollos
anteriores. Veamos las acciones 5-(2) y 6)

5 Realizar cálculos: (2) precisar la zona de rechazo o calcular el valor p.

p  0.0007

-3 -2 -1 0 1 2 3

de Excel 0.0007=1-DISTR.NORM(34;32;3/RAIZ(23);1)
Establecer la Regla de Decisión y formular la decisión en base a la información
6 muestral.

Regla de Decisión: se rechaza H0 si el valor p<0,05 y no se rechaza en caso


contrario.

Decisión: Como p=0,0007<0,05 se rechaza H0

Análogamente si se considera el estadístico prueba Z

Pues el valor p=P(Z>3,20)=0,0007 y sigue como el desarrollo anterior


Prueba de Hipótesis sobre la media de una población normal
con varianza desconocida
El Estadístico de Prueba es

X  0
t Bajo H0 se distribuye como una t de Student
µµ0 con n-1 grados de libertad
s/ n
Problema 2
Se administró la Escala sobre Sentido del Humor a 6 adultos de la ciudad
de Rosario resultando las siguientes puntuaciones en Descalificación
Personal: 23-13-16-28-21-14. Con un nivel de significación del 1% puede
afirmarse que la media de esta muestra difiere significativamente de la
media de Descalificación Personal de los adultos con que se construyó la
base de datos Psicología y Humor? Considere a ésta última como
poblacional.

Statistix 8.0
One-Sample T Test

Null Hypothesis: mu = 25.725


Alternative Hyp: mu <> 25.725
Conf Interval
Variable Mean SE Lower Upper T DF P
DP 19.167 2.3863 13.032 25.301 -2.75 5 0.0404

Cases Included 6 Missing Cases 0


Problema 3

Un equipo de investigadores propuso un taller con el objetivo de


desarrollar estrategias que permitan disminuir el agotamiento emocional
en personas afectadas por el síndrome de Burnout. Para evaluar la
efectividad de la propuesta se realizó un taller con 25 pacientes con dicho
diagnóstico elegidos al azar de los Servicios de Salud Mental de la
C.A.B.A. Luego de transcurrido un tiempo se evaluó el puntaje en
Agotamiento emocional de los individuos que asistieron al taller,
obteniéndose las siguientes observaciones:

33 26 29 27 9 20 31 38 22 13 34 25 34 19 19 23 27 24 26
22 28 43 22 21 19

Si los datos históricos informan que los puntajes en Agotamiento


emocional de pacientes con Burnout se distribuyen normalmente con
media 28 ¿puede considerarse que el taller fue efectivo? Use un nivel de
significación 0,05.
Statistix 8.0

One-Sample T Test

Null Hypothesis: mu = 28
Alternative Hyp: mu < 28
95% Conf Interval
Variable Mean SE Lower Upper T DF P
AF 25.360 1.5098 22.244 28.476 -1.75 24 0.0466

Cases Included 25 Missing Cases 0


Distribución de la variable Diferencia de medias muestrales

Welkowitz, J. ; Ewen, R.t B. & Cohen, J. Estadística Aplicada a los Ciencias de la


Educación. Cap. 10, p. 183. Madrid: Santillana
Prueba de Hipótesis sobre la diferencia de medias de muestras
independientes de poblaciones normales con igual varianza

H0: 1-2=d

El Estadístico de Prueba es

t=
(X 1
- X2 ) - d
donde s 
2 n1  1s12  n2
 1s22
c
1 1 n1  n2  2
Sc2 ( + )
n1 n2

Bajo H0
1-2=d se distribuye como una t de Student con n1+n2-2 grados de
libertad
Problema 4
Se ha realizado un estudio acerca de los factores psicosociales que intervienen en el

comportamiento tabáquico de adolescentes españoles. Se eligieron al azar dos grupos

(Grupo 1 y Grupo 2) de tamaño 10, uno de la población de adolescentes que fuman o

han probado el cigarrillo y otro de la población de adolescentes que nunca han

probado el cigarrillo. Entre otras variables de personalidad, se registró el puntaje

de ansiedad rasgo obtenido mediante el Cuestionario de Autoevaluación de Ansiedad

Estado /Rasgo en niños (STAIC). Se obtuvieron los siguientes puntajes:

Grupo 1: 39 36 40 35 34 37 31 32 32 36

Grupo 2: 34 33 36 38 35 32 35 30 36 32

Ponga a prueba la hipótesis de que el nivel medio de ansiedad rasgo difiere entre

estos dos grupos de adolescentes. Se supone que los puntajes de ansiedad rasgo se

distribuyen normalmente y que la variabilidad es la misma en las dos poblaciones

hipotéticas de las que estas muestras provienen. Usar un nivel de significación del 5%.
Statistix 8.0

Two-Sample T Tests for Grupo1 vs Grupo2

Variable Mean N SD SE
Grupo1 35.200 10 3.0111 0.9522
Grupo2 34.100 10 2.3781 0.7520
Difference 1.1000

Null Hypothesis: difference = 0


Alternative Hyp: difference <> 0
95% CI for Difference
Assumption T DF P Lower Upper
Equal Variances 0.91 18 0.3766 -1.4492 3.6492
Unequal Variances 0.91 17.1 0.3772 -1.4590 3.6590

Test for Equality F DF P


of Variances 1.60 9,9 0.2465

Cases Included 20 Missing Cases 0


Prueba de Hipótesis sobre una proporción

El Estadístico de Prueba es

p  0 Bajo H0
Z
0 1  0  / n 0
Se distribuye como una normal estándar

Prueba de Hipótesis sobre dos proporciones independientes


El Estadístico de Prueba es

p1  p2 n1p1  n 2 p 2
Z donde p c 
pc 1  pc 1 n1  1 n2  n1  n 2

Bajo H0
12 Se distribuye como una normal estándar
Problema 5

El tratamiento que se utiliza habitualmente para cierto defecto de pronunciación

es efectivo en el 75% de los casos. Un especialista en trastornos del lenguaje

oral quiere poner a prueba otro tratamiento, lo utiliza en 80 pacientes que

presentan dicho defecto y registra que 68 se curan. Desea saber si el nuevo

tratamiento es más efectivo que el tradicional. Realice la prueba de hipótesis

conveniente con un nivel de significación del 5% para concluir al respecto.


Statistix 8.0
One-Sample Proportion Test

Sample Size 80
Successes 68
Proportion 0.85000

Null Hypothesis: P = 0.75


Alternative Hyp: P > 0.75

Difference 0.10000
Standard Error 0.03992
Z (uncorrected) 2.07 P 0.0194
Z (corrected) 1.94 P 0.0264

95% Confidence Interval


Uncorrected (0.77175, 0.92825)
Corrected (0.76550, 0.93450)
Problema 6

Una muestra de 600 docentes de escuelas de la Provincia de Buenos Aires


está integrada por 200 docentes seleccionados al azar de zonas rurales y 400
de zonas urbanas. Presentaron síntomas de Burnout 84 docentes de las
zonas rurales y 220 de zonas urbanas. ¿Es la proporción de docentes con
síntomas de Burnout en zonas rurales menor que en zonas urbanas al nivel
del 1%?.
Statistix 8.0

Two-Sample Proportion Test

Sample 1 Sample 2
Sample Size 200 400
Successes 84 220
Proportion 0.42000 0.55000

Null Hypothesis: P1 = P2
Alternative Hyp: P1 < P2

Difference -0.13000
SE (diff) 0.04330
Z (uncorrected) -3.00 P 0.0013
Z (corrected) -2.92 P 0.0018

95% Confidence Interval of Difference


Lower Limit -0.21400
Upper Limit -0.04600
Referencias:

Cátedra I de Estadística. (2015). Acerca de la resolución de una


prueba de hipótesis. En Materiales para la Cursada. Documento interno
de la Cátedra I de Estadística. Facultad de Psicología, Universidad de
Buenos Aires.

Cátedra I de Estadística. (2015). Acerca del valor p. En Materiales


para la Cursada. Documento interno de la Cátedra I de Estadística.
Facultad de Psicología, Universidad de Buenos Aires.

Lohningen, H. (2001) CenLimit. Obra de Software. Disponible en


http://www.vias.org/simulations/simusoft_cenlimit.html

S-ar putea să vă placă și