Sunteți pe pagina 1din 84

ESTADÍSTICA APLICADA A LA MODULO III

Dra. MARLENE
INVESTIGACIÓN EMPRESARIAL ASTUDILLO VICENTE.
PRUEBA DE HIPÓTESIS

VIDEOCONFERENCIA 3
 Hipótesis Estadística
 Prueba de hipótesis
 Regresión lineal y Correlación
 Chi cuadrado

Bioestadística. U. Málaga. Tema 6: Muestreo 3


HIPÓTESIS ESTADÍSTICA

En una
investigación la
hipótesis alterna
Una hipótesis se denota por Ha,
estadística es es un enunciado
una sobre la población
afirmación a investigar.
acerca de un
La hipótesis
parámetro La hipótesis nula sometida a
poblacional se denota por H0, prueba se llama
es la negación de hipótesis nula y
la hipótesis se denota H0
alterna.
EJEMPLO
H0: el ingreso medio de las mujeres es igual al ingreso medio de
los hombres.
Ha: el ingreso medio de las mujeres es diferente que el de los
hombres.
H0: XM = XH
Ha: XM ≠ XH
H0: el ingreso medio de las mujeres es mayor al ingreso medio de
los hombres.
Ha: el ingreso medio de las mujeres es menor que el de los
hombres.
H0: XM ≥ XH
Ha: XM < XH
EJEMPLO
1. El tiempo promedio de duración de una determinada marca
de pilas es de 96 horas. NS= 5%=0.05 Z= 1,96
_ _
H0 : X = 96 Ha : X < 96

Curva de distribución
normal

0,025
0,025
-1,96 1,96
EJEMPLO

2. Más del 90% de los estudiantes de Estadística aplicada


a la investigación empresarial presentaron sus tareas.
H0 : X > 90 Ha : P ≤ 90

Curva de distribución
normal
NS= 1%=0.01 Z= 2,57

Una prueba es de una cola


cuando la hipótesis alterna, 0,10=
Ha, establece la dirección.

-1,64
EJEMPLO

3. Un fabricante de detergentes afirma que, en promedio el


contenido de cada bolsa pesa al menos 500gramos.
H0 : X ≤ 500 Ha : X > 500

NS= 10%=0.10 Z= 1,64


Curva de distribución
= 0,10 normal

2,57
PRUEBA DE HIPÓTESIS
Una empresa fabrica miles de focos de luz,
diariamente, se espera que los focos tengan una vida
de 1 000 horas ya que cuando se venden, eso es lo que
se ofrece a los compradores.
ALGUNAS QUEJAS DE
DUDAS CLIENTES

NO ES POSIBLE
SE TOMA UNA
PROBAR TODOS
MUESTRA
LOS FOCOS
Entonces lo que la empresa quiere probar es que:

La vida media de los focos es 1 000 horas

V F
Esta afirmación cuya veracidad se Prueba se llama
HIPÓTESIS

El procedimiento para realizar esta operación se llama


PRUEBA DE HIPÓTESIS
Entonces podemos definir
En este caso :

HIPÓTESIS NULA:
La vida media de los focos es 1 000 horas

HIPÓTESIS ALTERNATIVA:
La vida media de los focos es menor que 1 000 horas

Simbólicamente se representa:
H0 : µ = 1 000
Ha : µ < 1 000
Si m = 24
Se prueban
Se calcula la vida media

X = 970 horas
En base a estos resultados:

Se puede concluir que :

La vida media de los focos es menor a 1 000 horas


Partiendo de este principio

Es así
Si a partir de la población se extraen 3 muestras y en cada
muestra se halla la media

Dado que las


muestras se
obtienen al
azar, las
medias son
distintas
Luego se selecciona un estadístico de prueba.

El valor de Z depende del grado de confianza o nivel de


significancia.

NS = 10% Z = 1,64
NS= 5% Z= 1,96
NS= 1% Z= 2,57
TIPOS DE ERRORES
EMPRESARIO DISTRIBUIDOR DE
ELECTRODOMESTICOS

CUESTIONARIO

COMPRAS ONLINE
n= 50
30 realizaron compras

P= ?

¿Son estos datos evidencia suficiente para afirmar que el 74%


de los internautas de esta zona realizan compras por
internet?

¿O el porcentaje es menor?
PRUEBA DE HIPÓTESIS

Se plantean las hipótesis:


Ho : P = 74 %
Ha : P < 74%

Luego se selecciona un estadístico de prueba.

Existen pruebas de hipótesis

Para la media Para la proporción


PASOS PARA LA PRUEBA DE HIPÓTESIS

Paso 1: Plantear la hipótesis nula y alterna

Paso 2: Seleccionar un nivel de significancia

Paso 3: Identificar el valor estadístico de prueba

Paso 4: Se formula la regla para tomar decisiones

Paso 5: Se toma una muestra y se llega a una decisión

Se acepta la hipótesis nula Rechazar la hipótesis nula y


aceptar la alterna
Paso 1: Plantear la hipótesis nula y alterna

3 situaciones

H0 : X = µ H0: X ≥ µ H0: X ≤ µ
Ha: X < µ Ha: X < µ Ha: X > µ

H0: P = p H0: P ≥ p H0: P ≤ p


Ha: P < p Ha: P < p Ha: P > p
Paso 2: Seleccionar un nivel de significancia

NIVEL DE SIGNIFICANCIA
Es la probabilidad de cometer el error tipo I, este
valor debe ser pequeño

Los valores mas usados para la prueba de


hipótesis son:
1%, 5% y 10%

Si el grado de confianza es 99% el nivel de


significancia es 1%, es decir:

Nivel de significancia= 100 – grado de confianza


Paso 3: Identificar el valor del estadístico de prueba

Un ESTADÍSTICO DE PRUEBA es aquel valor calculado a


partir de los datos muéstrales en una prueba de hipótesis
para establecer si se rechaza o no se rechaza la hipótesis
nula.

1
2
3
El valor de Z depende del grado de confianza

NS= 10% Z = 1,64

NS= 5% Z= 1,96

NS= 1% Z= 2,57
Valor de t se busca en la tabla de la siguiente
manera:

Ejemplo

Si n = 20
α= 0,025

gl = n- 1 = 19

Tc = 2,093
Paso 5: llegar a una decisión

Una vez establecido el sistema de hipótesis y el estadístico de prueba


adecuado, se debe determinar una regla de decisión que nos indique
si se rechaza o no la hipótesis nula. Esta regla de decisión especifica
un valor del estadístico tan diferente del valor del parámetro
contenido en la hipótesis, que excluya atribuir la diferencia al error
muestral. La regla de decisión específica valores crítico
PRUEBA DE HIPÓTESIS PARA LA MEDIA

Para z:

Si |Zc | > | Zt |
- Se rechaza la hipótesis nula H0 y
se acepta la hipótesis alternativa H1.
Si |Zc | ≤ | Zt |
- Se acepta la hipótesis nula H0
PRUEBA DE HIPÓTESIS PARA LA MEDIA

Para t :

Si |tc | > | tt |
- Se rechaza la hipótesis nula H0 y
se acepta la hipótesis alternativa H1.
Si |tc | ≤ | tt |
- Se acepta la hipótesis nula H0
EJEMPLO

Un convenio trabajadores- dirección de una fábrica, exige una


producción media diaria de 50 unidades. Una muestra de 150 días
revela una media de 47,3unidades con una desviación típica de 5,7
unidades. NS α = 5% y determinar si se cumple esta cláusula del
contrato.
µ = 50 MEDIA POBLACIONAL

α = 5%
DATOS X = 47,3 MEDIA MUESTRAL

S = 5,7 DESVIACIÓN ESTANDAR DE LA


MUESTRA
n = 150
Plantear la hipótesis nula y alterna
PASO 1

PASO 2 Seleccionar un nivel de significancia

Nivel de significancia del 5%.

Grado de confianza 95%


PASO 3

NS= 5%=0.05 Z= 1,96

0,025
0,025
-1,96 1,96
PASO 4 Paso 4: Identificar el valor estadístico de prueba

= σ /√n
Z = 47,3 – 50
5,7 / √150 µ = 50
α = 5%
Z= -2,7 X = 47,3
5,7 / 12,25 S = 5,7
Z = -2,7 n = 150
0,47
Z= -5,74
DATOS
PASO 5 Z= -5,74

0,25
0,25
-1,96 1,96

INTERPRETACIÓN.

Z= .5,74 está en la región de rechazo. Debe rechazarse la


hipótesis nula lo que indica que no se está cumpliendo la
cláusula del contrato.
ESTIMACIÓN DEL COEFICIENTE DE CORRELACIÓN

r
INTERPRETACIÓN.
DIAGRAMA DE DISPERSIÓN
ANÁLISIS DE REGRESIÓN SIMPLE

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

y= α + ßx + e
Donde:
Y es la variable dependiente
X es la variable independiente.
ß es el coeficiente de regresión
α es el intercepto
e es una variable aleatoria con media 0 y varianza σ²y/x.
INTERPRETACIÒN DEL COEFICIENTE DE
CORRELACIÓN

Si b>0; indica que por cada unidad que se incremente en X, Y


aumenta en promedio en b unidades.

Si b<0; indica que por cada unidad que se incremente en X, Y


disminuye en promedio en b unidades.
COEFICIENTES “a” y “b” .
COEFICIENTE DE DETERMINACIÓN .

R2 = r²*100
Mide la bondad de ajuste de los
puntos a la recta

0≤ R2 ≤ 100%
ERROR ESTÁNDAR DE LA ESTIMACIÓN.
EJEMPLO 4

Un centro comercial sabe en función de la distancia, en


kilómetros, a la que se sitúe de un núcleo de población,
acuden los clientes, en cientos.
a) GRAFICAR: Pueden utilizar Excel
1º Copiar los datos en una hoja de Excel, como se muestra en la figura:
2º Clic en insertar, luego clic en insertar gráficos de dispersión :
Automáticamente sale el gráfico:
b) Desarrollar una ecuación de estimación que describa los
datos

Se colocan los
datos en la
siguiente
tabla
Xi * Yi X 2 Y2

Se colocan los
siguientes
datos
Xi * Yi

Se suman
las
columnas

∑=
Se halla el valor de “a” y “b”
Y = a + bX aplicando las formulas

∑XY - (∑X) ( ∑Y) 603 - 28 (156)


n 6
b= _____________ = _______________ = -3,17
( ∑ X2 ) – ( ∑X )2 170 - 282
n 6

a= ∑Y - b ∑ x 156 - -3,1774 28
___ ___ = ----- --- = 40,827
n n 6 6

y = a + bX ( se reemplaza a y “b”)
Y = 40,827 - 3,17 X
C) Calcular el coeficiente de correlación.
d) Coeficiente de determinación

R2 = (-0,96)2 = 0,9216
e) Pronosticar la distancia si el numero de clientes es 10

Y =

Y = 40,83 – 3,17 ( 10)


Y = 40,83 – 31,7
Y = 9,13
Se utiliza para variables cualitativas con escala de medición nominal
APLICACIONES DE CHI CUADRADO

Mide el grado de concordancia entre los pares de frecuencias observadas y esperadas de las
celdas, dado que la Ho sea verdadera.
PRUEBA DE INDEPENDENCIA

FORMULA DE TRABAJO

con (r-1)(k-1) grados de libertad.


( Filas y columnas)
Ei = frecuencia esperada
Oi = frecuencia observada
NS
Grado de libertad horizontal
vertical
EJEMPLO 5
Para estudiar la dependencia entre la práctica de algún
deporte y la depresión, se seleccionó una muestra aleatoria
simple de 100 jóvenes, con los siguientes resultados:
Determinar si existe independencia entre la actividad del sujeto y su
estado de ánimo. Nivel de significación (5%)
1° Hipótesis:
H0 : La actividad del sujeto es independiente de su estado de ánimo
Ha : La actividad del sujeto depende del estado de ánimo

2° Nivel de significancia
α= 5% = 0,05
3° Estadístico : chi cuadrado
con v= ( r-1) ( K-1)
( 2-1) (2-1) = 1 grados de libertad
4° Se halla la región critica
Para nivel de significancia 0,05 y 1 grado de libertad
X20,95 = se busca en la tabla
5% = 0,05
Grado de libertad
X20,95 = 3,8415
Se rechazará H0 si el valor calculado del

estadístico chi cuadrado es mayor que 3,8415.

5° Se calculan las frecuencias esperadas.


SIN DEPRESIÓN CON DEPRESIÓN TOTAL
DEPORTISTA 38 9 47
NO DEPORTISTA 31 22 53
TOTAL 69 31 100

FRECUENCIA ESPERADA = TOTAL FILA x TOTAL DE COLUMNA


Gran total
FRECUENCIA ESPERADA = TOTAL FILA x TOTAL DE COLUMNA
Gran total

e1 = 47 x 69 = 32,43 e2 = 53 x 69 = 36,57
100 100
SIN DEPRESIÓN CON DEPRESIÓN TOTAL Suma de
DEPORTISTA 38 9 47 la fila

NO DEPORTISTA 31 22 53
TOTAL 69 31 100
gran
Suma de la total
columna

e3 = 47 x 31 = 14,57 e4 = 53 x 31 = 16,43
100 100
La tabla quedaría de la siguiente manera:

SIN DEPRESIÓN CON DEPRESIÓN TOTAL


DEPORTISTA 38 ( 32,43 ) 9 ( 14,57) 47
NO DEPORTISTA 31 ( 36,57) 22 ( 16,43 ) 53
TOTAL 69 31 100

6° Se calcula el chi cuadrado


7° Interpretación
X2 > Valor crítico
5,82 > 3,84
Por lo tanto como el valor del estadístico es superior al
valor crítico, concluimos que debemos rechazar la hipótesis
de independencia y por lo tanto asumir que existe relación
entre la depresión e los hábitos deportistas del individuo.
PRUEBA DE INDEPENDENCIA
EJEMPLO 6
Una muestra de 500 estudiantes de bachillerato participó en un
estudio diseñado con el fin de evaluar el nivel de sus conocimientos
respecto a un cierto grupo de enfermedades comunes. La tabla
siguiente presenta la clasificación de los estudiantes de acuerdo con
su principal campo de estudio y el nivel de conocimientos sobre el
grupo de enfermedades.

ÁREA DE ESTUDIO BUENO MALO TOTAL


MEDICINA 31 91 122
OTRA 19 359 378
TOTAL 50 450 500
¿Sugieren estos datos que existe una relación entre el conocimiento
del grupo de enfermedades y el principal campo de estudio de los
estudiantes de bachillerato de los cuales se extrajo la muestra?.
1° Se plantean las hipótesis
H0 = El conocimiento del grupo de enfermedades es independiente
del principal campo de estudio de los estudiantes de bachillerato
H1 = El conocimiento del grupo de enfermedades es dependiente del
principal campo de estudio de los estudiantes de bachillerato
2° Nivel de significancia ( cuando no se indica se asume
5%)
α= 5% = 0,05

3° Estadístico : chi cuadrado


con v= ( r-1) ( K-1)
( 2-1) (2-1) = 1 grados de libertad

4° Se halla la región critica


Para nivel de significancia 0,05 y 1 grado de libertad
X20,95 = se busca en la tabla
5% = 0,05
Grado de libertad
X20,95 = 3,8415 Se rechazará H0 si el valor calculado del

estadístico chi cuadrado es mayor que 3,8415.

5° Se calculan las frecuencias esperadas.

ÁREA DE ESTUDIO BUENO MALO TOTAL


MEDICINA 31 91 122
OTRA 19 359 378
TOTAL 50 450 500

FRECUENCIA ESPERADA = TOTAL FILA x TOTAL DE COLUMNA


Gran total

e1 = 122 x 50 = 12,2 e2 = 378 x 50 = 37,8


500 500
6°Se calcula el chi cuadrado

X2c = (31 – 12,2)2 + (91- 109,8)2 + (19 – 37,8 )2 + (359 - 340,2 )2


12,2 109,8 37,8 340,2

X2c = 42,579
7° Interpretación
X2 > Valor crítico
42,579 > 3,84
Por lo tanto como el valor del estadístico es superior al
valor crítico, concluimos que debemos rechazar la hipótesis
de independencia y por lo tanto asumir: hay evidencia
estadística para concluir que el conocimiento del grupo de
enfermedades depende del principal campo de estudio de los
estudiantes de bachillerato.
PRUEBA DE HOMOGENEIDAD

Con (n-1)(k – 1) grados de libertad.


EJEMPLO 7 PRUEBA DE HOMOGENEIDAD

En un proceso de fabricación de tornillos, el fabricante quería


determinar si la proporción de tornillos defectuosos producidos
por tres máquinas variaba de una máquina a otra. Para verificar
esto se seleccionaron muestras de 400 tornillos de la producción
de cada máquina y se contó el número de tornillos defectuosos
en cada una, obteniendo la siguiente tabla de frecuencias.
1 2 3 TOTAL

DEFECTUOSOS 16 24 9 49

NO DEFECTUOS 384 376 391 1151

TOTAL 400 400 400 1200


Pregunta: Realizando la prueba de hipótesis adecuada, verifique si
la proporción de tornillos defectuosos no varía entre las diferentes
máquinas. Use un nivel de significación de 0.05.
1° Hipótesis:
H0 : La proporción de tornillos defectuosos es homogénea en
las diferentes máquinas.
Ha : La proporción de tornillos defectuosos no es homogénea
en las diferentes máquinas

2° Nivel de significancia
α= 5% = 0,05
3° Estadístico : chi cuadrado
con v= ( r-1) ( K-1)
( 2-1) (3-1) = 2 grados de libertad

4° Se halla la región critica


Para nivel de significancia 0,05 y 2 grado de libertad
X20,95 = se busca en la tabla
5% = 0,05
Grado de libertad
X20,95 = 5,9915 Se rechazará H0 si el valor calculado del

estadístico chi cuadrado es mayor que 5,9915.

5° Se calculan las frecuencias esperadas.

FRECUENCIA ESPERADA = TOTAL FILA x TOTAL DE COLUMNA


Gran total

e1 = 49 x 400 = 16,33 e2 = 1151 x 1400 = 383,66


1200 1200
e3 = 49 x 400 = 16,33 e4 = 1151x 400 = 383,66
1200 1200
e5 = 49 x 400 = 16,33 e6 = 11513 x 400 = 383,66
1200 1200

La tabla quedaría de la siguiente manera:


1 2 3 TOTA
L
DEFECTUOSOS 16 (16,33) 24(16,33) 9 (16,33) 49

NO DEFECTUOS 384 ( 383,66) 376( 383,66) 391( 383,66) 1151

TOTAL 400 400 400 1200


6° Se calcula el chi cuadrado

J0 = ( 16 – 16,33) 2 + (24 – 16,33)2 + …… (391 -383,66)2


16,33 16,33 383,66

J0 = 9,7683
.
7° Interpretación
X2 > Valor crítico
J0 > 5,99
9,7683 > 5,9915
Por lo tanto como el valor del estadístico es superior al
valor crítico, concluimos que debemos rechazar la hipótesis
de homogeneidad.
EJEMPLO 8
Estamos interesados en estudiar la fiabilidad de cierto componente informático
con relación al distribuidor que nos lo suministra. Para realizar esto, tomamos
una muestra de 100 componentes de cada uno de los 3 distribuidores que nos
sirven el producto comprobando el número de defectuosos en cada lote. La
siguiente tabla muestra el número de defectuosos en para cada uno de los
distribuidores.

Realizar un contraste de homogeneidad y obtener las conclusiones sobre la relación entre las
variables.
SOLUCIÓN:
Debemos realizar un contraste de homogeneidad para concluir si entre los
distribuidores existen diferencias de fiabilidad referente al mismo componente.
5% = 0,05
Grado de libertad
X2 = 8,96

X2 >Valor crítico
8,96 > 5,9915
j

Este valor del estadístico Ji-cuadrado es mayor que el valor


para el nivel de significación del 5%, por lo tanto debemos
concluir que no existe homogeneidad y por lo tanto que hay
diferencias entre los tres distribuidores.

S-ar putea să vă placă și