Sunteți pe pagina 1din 87

UNIVERSIDAD NACIONAL MAYOR

DE SAN MARCOS

CURSO: Estadística Industrial

DOCENTE: Ing. Victor Perez Quispe

Grupo: 1

INTEGRANTES:

- Barros Retuerto Jairo


- Espinoza Luque Jhon Erick
- Espinoza Sanchez Diego Fernando Alexander

Lima, 30 de junio de 2016


LABORATORIO DE ESTADISTICA INDUSTRIAL
PRUEBA DE HIPOTESIS PARA LA MEDIA
OBJETIVOS:
 Describir el significado de una hipótesis nula y una alternativa.
 Transformar una declaración verbal en una hipótesis nula o alternativa, e
incluso determinar si es adecuada una prueba de dos colas o de una cola.
 Describir qué significan los errores de tipo I y de tipo II, y explicar cómo
pueden reducirse en una prueba de hipótesis.
 Efectuar una prueba de hipótesis para la media o la proporción
poblacional, interpretar los resultados de la prueba y determinar la
decisión de negocios correcta que debe aplicarse.
 Determinar y aplicar el valor de p para una prueba de hipótesis.
 Explicar cómo se relacionan los intervalos de confianza con las pruebas
de hipótesis.
LA HIPOTESIS NULA (𝑯𝟎 ) :
 La hipótesis nula es una afirmación acerca del valor de un parámetro
poblacional y se postula para ser probada según la evidencia numérica.
Una hipótesis nula se rechaza o no se rechaza.
LA HIPOTESIS ALTERNATIVA (𝑯𝟏 ) :
 Es la afirmación que se sustenta si la hipótesis es falsa. Para una prueba
específica, las hipótesis nula y alternativa incluyen todos los valores
posibles de un parámetro de la población, de modo que una de las dos
tiene que ser falsa
Existen tres opciones posibles para plantear las hipótesis nula y alternativa:
Hipótesis nula Hipótesis alternativa
𝐻0 : 𝜇 = $10 𝐻1 : 𝜇 ≠ $10 𝜇 es $10 o no lo es
𝐻0 : 𝜇 ≥ $10 𝐻1 : 𝜇 < $10 𝜇 es cuando menos $10, o es menos.
𝐻0 : 𝜇 ≤ $10 𝐻1 : 𝜇 > $10 𝜇 no es mas de $10, o es mas

PRUEBA DIRECCIONAL Y PRUEBA NO DIRECCIONAL:


Una declaración o afirmación direccional sostiene que un parámetro poblacional
es mayor que (>), al menos (≥), no mayor que (≤) o menor que (<).
Una declaración o afirmación no direccional sostiene que un parámetro es igual
a alguna cantidad.
ERRORES EN LA PRUEBA DE HIPOTESIS
El rechazo de una hipótesis nula que es verdadera se conoce como error tipo I ,
y nuestra probabilidad de cometer tal error se representa mediante la letra griega
alfa ( α ). Esta probabilidad, que se denomina nivel de significancia de la prueba,
es muy importante en una prueba de hipótesis.
Por otra parte, podemos cometer el error de no rechazar una hipótesis nula que
es falsa; éste es un error tipo II. La probabilidad de cometerlo se representa
mediante la letra griega beta (β).
PROCEDIMIENTOS BASICOS
1.- Formular las hipótesis nula y alternativa.
2.- Seleccionar el nivel de significancia.
3.- Seleccionar el estadístico de prueba y calcular su valor.
4.- Identificar los valores críticos para el estadístico de prueba y establecer la
regla de decisión.
5.- Comparar los valores calculados y críticos y llegar a una conclusión acerca
de la hipótesis nula. 6.- Tomar la decisión de negocios correspondiente.
ESTADISTICO DE LA PRUEBA, PRUEBA Z PARA LA MEDIA MUESTRAL:

𝑥 − 𝜇0
𝑍=
𝜎𝑥

𝜎 𝑠
𝜎𝑥 = =
√𝑛 √𝑛
TRES FORMAS DE RECHAZAR 𝑯𝟎
1. Comparación del valor critico de Z a un determinado nivel de significancia
con el valor del estadístico de prueba

2. Mediante el valor de P

El valor de p es menor al Si No
Nivel de significancia Rechazar la hipótesis No rechazar la hipótesis
Especificado? nula nula

3. Mediante el intervalo de confianza:

σ
x ± Zα⁄2
√n

Se rechaza si 𝜇 no pertenece al intervalo de confianza, mientras que no


se rechaza si 𝜇 pertenece al intervalo de confianza.

¿Pero qué significa rechazar?

Rechazar significa que la diferencia entre la media muestral y la media


poblacional es significativa.

¿Pero qué significa no rechazar?

Rechazar significa que la diferencia entre la media muestral y la media


poblacional es no significativa.
Problema Considere la prueba de hipótesis siguiente:

𝐻0 : 𝜇 ≤ 25
𝐻1 : 𝜇 > 25
En una muestra de 40, la media muestral fue 26.4. La desviación estándar es
6.
a) Calcule el valor del estadístico de prueba.
b) ¿Cuál es el valor de p?
c) Use ∝= 0.01, ¿Cuál es su conclusión?
d) ¿Cuál es la regla de rechazo si usa el método del valor critico? ¿Cuál es
su conclusión?

Solución
De los datos del problema se tiene:
𝑛 = 40 𝑠=6 ∝= 0.01 𝑥̅ = 26.4

a) Haciendo uso de la ecuación del estadístico de prueba Z para la media


muestral tenemos:

𝑥 − 𝜇0 26.4 − 25
𝑍= = = 1.4757
𝑠⁄√n 6⁄√40
b) Calculo del valor de p

𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.5 − 𝑃(𝑍 = 1.4757)


𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.5 − 0.4292
𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.0708

c) Se observa que el 𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.0708 es mayor que el nivel de significancia


∝= 0.01 por lo que no se rechaza la hipótesis nula, con lo que concluimos
que la diferencian entre la media muestral y la media población no es
significativa.

d) Haciendo uso del valor crítico del estadístico de Z se tiene:


Se observa que el valor crítico de Z es 2.326, por lo que la regla de rechazo es:
“Se rechaza la hipótesis nula si el estadístico de prueba es mayor a 2.326”
Del resultado expuesto en el ítem (a) se observa que el estadístico de prueba es
1.4757 por lo que no se rechaza la hipótesis nula ya que 1.4757 es menor que
el valor crítico del estadístico de prueba, de esta manera se concluye que se
obtiene el mismo resultado vía el valor de p o mediante el método del valor crítico.

Ahora analizaremos la solución del problema anterior mediante el uso del


paquete estadístico Minitab.

Para ello se muestra a continuación los pasos necesarios para resolver el


problema.

En primer lugar ingresamos a la pestaña Estadisticas, luego a estadisticas


basicas y por ultimo a Z de 1 muestra, como se muestra en la siguiente imagen:
Luego de hacer clic en la opción Z de 1 muestra nos muestra la siguiente
ventana, en el cual ingresamos los datos resumidos necesarios para realizar la
prueba.

Luego nos vamos a opciones y digitamos el valor del nivel de significancia y


elegimos la hipótesis alterna correspondiente:
Luego en aceptar y aceptar nuevamente, mostrándonos el siguiente reporte:

Z de una muestra

Prueba de μ = 25 vs. > 25


La desviación estándar supuesta = 6

Error
estándar Límite
de la inferior
N Media media de 99% Z P
40 26,400 0,949 24,193 1,48 0,070

Para emitir una conclusión observamos el reporte anterior nos damos cuenta que
tenemos el valor de p, por lo que con dicho valor tomaremos la decisión
respectiva, es decir, no se rechaza la hipótesis nula ya que el valor de p es mayor
que el valor del nivel de significancia, por lo que la diferencia entre la media
muestral y la media poblacional hipotética no es significativa.

Problema En 2001, el U.S. Department Labor informó que el salario por hora
promedio para los trabajadores de la producción en Estados Unidos era $14.32
por hora (The World Almanac 2003). En 2003, en una muestra de 75
trabajadores de la producción, la media muestral fue $14.68 por hora. Si la
desviación estándar poblacional es $1.45, ¿se puede concluir que ha habido un
aumento en la media del salario por hora? Use α = 0.05

Solución

Para resolver este problema seguiremos los pasos indicados en el marco teórico
expuestos anteriormente, pero antes de ello ordenamos los datos del problema:
𝑛 = 75 𝑠 = 1.45 ∝= 0.05 𝑥̅ = 14.68

1.- Formulación de la hipótesis nula y alternativa.

𝐻0 : 𝜇 ≤ 14.32
𝐻1 : 𝜇 > 14.32

2.- Selección del nivel de significancia.


Según los datos del problema el nivel de significancia es ∝= 0.05

3.- Seleccionar el estadístico de prueba y calcular su valor.


Para este problema haremos uso del estadístico de prueba z y su cálculo se
muestra a continuación:
𝑥 − 𝜇0 14.68 − 14.32
𝑍= = = 2.1501
𝑠⁄√n 1.45⁄√75
4.- Identificar los valores críticos para el estadístico de prueba y establecer la
regla de decisión.

Regla de rechazo: “Se rechaza la hipótesis nula si el valor del estadístico de


prueba es mayor 1.645”
5.- Comparar los valores calculados y críticos y llegar a una conclusión acerca
de la hipótesis nula.
Se observa que el estadístico de prueba es mayor que 1.645 por lo que se
rechaza la hipótesis nula.
6.- Tomar la decisión de negocios correspondiente.
Al rechazar la hipótesis nula se concluye que ha habido un aumento en la
media del salario por hora.

Ahora analizaremos la solución del problema anterior mediante el uso del


paquete estadístico Minitab.
En primer lugar ingresamos a la pestaña Estadisticas, luego a estadisticas
basicas y por ultimo a Z de 1 muestra
Luego de hacer clic en la opción Z de 1 muestra nos muestra la siguiente
ventana, en el cual ingresamos los datos resumidos necesarios para realizar la
prueba, el cual se muestra a continuación:

Luego nos vamos a opciones y digitamos el valor del nivel de significancia y


elegimos la hipótesis alterna correspondiente:

Luego en aceptar y aceptar nuevamente, mostrándonos el siguiente reporte:


Z de una muestra

Prueba de μ = 14,32 vs. > 14,32


La desviación estándar supuesta = 1,45

Error
estándar Límite
de la inferior
N Media media de 95% Z P
75 14,680 0,167 14,405 2,15 0,016

Para emitir una conclusión observamos el reporte anterior nos damos cuenta que
tenemos el valor de p, por lo que con dicho valor tomaremos la decisión
respectiva, es decir, se rechaza la hipótesis nula ya que el valor de p es menor
que el valor del nivel de significancia, por lo que la diferencia entre la media
muestral y la media poblacional hipotética no es significativa, además se
concluye que ha habido un aumento en la media del salario por hora.

Pruebas de hipótesis: Proporciones


Las pruebas de proporciones son adecuadas cuando los datos que se están
analizando constan de cuentas o frecuencias de elementos de dos o más clases.
El objetivo de estas pruebas es evaluar las afirmaciones con respecto a una
proporción (o porcentaje) de población. Las pruebas se basan en la premisa de
que una proporción muestral (es decir, 𝑥 ocurrencias en 𝑛 observaciones, o 𝑥/𝑛)
será igual a la proporción verdadera de la población si se toman márgenes o
tolerancias para la variabilidad muestral. Las pruebas suelen enfocarse en la
diferencia entre un número esperado de ocurrencias, suponiendo que una
afirmación es verdadera, y el número observado realmente. La diferencia se
compara con la variabilidad prescrita mediante una distribución de muestreo que
tiene como base el supuesto de que 𝐻0 es realmente verdadera.

En muchos aspectos, las pruebas de proporciones se parecen a las pruebas de


medias, excepto que, en el caso de las primeras, los datos muestrales se
consideran como cuentas en lugar de como mediciones. Por ejemplo, las
pruebas para medias y proporciones se pueden utilizar para evaluar
afirmaciones con respecto a:

1) Un parámetro de población único (prueba de una muestra)


2) La igualdad de parámetros de dos poblaciones (prueba de dos muestras)
3) La igualdad de parámetros de más de dos poblaciones (prueba de 𝑘
muestras).

Además, para tamaños grandes de muestras, la distribución de muestreo


adecuada para pruebas de proporciones de una y dos muestras es
aproximadamente normal, justo como sucede en el caso de pruebas de medias
de una y dos muestras.
Pruebas de proporciones de una muestra
Cuando el objetivo del muestreo es evaluar la validez de una afirmación con
respecto a la proporción de una población, es adecuado utilizar una prueba de
una muestra. La metodología de prueba depende de si el número de
observaciones de la muestra es grande o pequeño.

Como se habrá observado anteriormente, las pruebas de grandes muestras de


medias y proporciones son bastante semejantes. De este modo, los
valores estadísticos de prueba miden la desviación de un valor estadístico de
muestra a partir de un valor propuesto. Y ambas pruebas se basan en la
distribución normal estándar para valores críticos. Quizá la única diferencia real
entre las ambas radica en la forma corno se obtiene la desviación estándar de la
distribución de muestreo.

Esta prueba comprende el cálculo del valor estadístico de prueba 𝑍:

𝑝̅ −𝑝 𝑝(1−𝑝)
𝑍= 𝛿𝑝̅ = √
𝛿𝑝
̅ 𝑛

Donde:

𝑝̅ = la proporción de la muestra
𝑝 = la proporción poblacional de la hipótesis
𝑛 = tamaño de la muestra
𝛿𝑝̅ = error estándar de la distribución de la proporción muestral.

Problema de ejemplo:
El dueño de la famosa cadena de cafeterías Starbucks desea saber si la
proporción de mujeres que acuden a su negocio es mayor o igual al 60% del total
de personas para que lleve a cabo una campaña de marketing dirigida
principalmente a ellas. Para comprobarlo realiza un muestreo de 40 personas en
la que se encontró que la cantidad de mujeres que acudían a sus cafeterías era
del 23. Si la prueba fue realizada bajo un nivel de significancia del 0.1, ¿el
empresario debe llevar a cabo esta campaña de marketing?

Solución:
Mediante el método clásico

Planteamos, en primer lugar, nuestra hipótesis nula y alternativa


𝐻0 : 𝑝 ≥ 0.6
𝐻1 : 𝑝 < 0.6

Ahora elegimos el nivel de significancia, por dato del problema éste debe ser
de 0.1
𝛼 = 0.1

Seleccionamos el estadístico de prueba. Como es una prueba de porción con


𝑛 = 40 > 30, elegimos el 𝑍 como estadístico de prueba.

Identificamos el valor crítico para nuestro estadístico de prueba, como 𝛼 =


0.1 buscamos en la tabla y encontramos que 𝑍𝑐𝑟í𝑡𝑖𝑐𝑜 = −1.28.

Elaboramos la regla de rechazo:

“Rechazar la hipótesis nula si el valor de Z es menor que el valor crítico de -1.28”

Ahora calculamos el valor de nuestro estadístico de prueba

𝑝̅ − 𝑝 𝑝̅ − 𝑝 0.575 − 0.60
𝑍= = = = −0.32
𝛿𝑝̅
√𝑝(1 − 𝑝) √0.6(1 − 0.6)
𝑛 40

Comparamos ambos valores. Vemos que Z es mayor que su valor crítico, por
lo tanto no se rechaza la hipótesis nula.

Ahora tomamos la decisión de negocios correspondiente. Como vemos que


no se rechaza la hipótesis nula, esto nos indica que, para dicho nivel de
significancia, el empresario debería realizar la campaña de marketing que
planea para atraer mayor público a su cadena de cafeterías.

Mediante Minitab

El proceso de resolución mediante el uso del software especializado es muy


similar, lo que varía es la forma de calcular el valor de Z y la precisión con la
que se lleva a cabo.
Primero entramos a Minitab y elegimos:
Estadísticas/Estadística básica/1 Proporción

Después llenamos los datos y nos arrojará el siguiente resultado:


Prueba e IC para una proporción

Prueba de p = 0.6 vs. p < 0.6


Límite
Muestra X N Muestra p superior 90% Valor Z Valor P
1 23 40 0.575000 0.675169 -0.32 0.373

Uso de la aproximación normal.

Observamos que el valor de Z es -0.32 el cual es mayor al valor crítico por lo


que no debe rechazar la hipótesis nula y la decisión de negocios será la misma
que la indicada mediante el método clásico.
Un aspecto importante que hay que resaltar es que el software, además, nos
entrega un valor de p igual a 0.373 con el cual llegamos a la misma decisión
de no rechazar la hipótesis nula pues es mayor que el nivel de significancia.

La prueba de Z para comparar las medias de dos muestras


independientes

La prueba z se presenta como una alternativa de la prueba t con varianzas


desiguales cuando n1 y n2 son ≥ 30. Además de no requerir suposiciones
respecto a la forma de las distribuciones poblacionales, ofrece la ventaja de una
simplicidad ligeramente mayor y evita la complicada fórmula de corrección de los
df utilizada en la prueba t con varianzas desiguales; por lo tanto, puede ser útil
para quienes no disponen de una computadora y un software para estadística.
Esta prueba ha sido popular durante muchos años como método para comparar
las medias de dos muestras grandes, independientes, cuando se desconocen 𝜎1
y 𝜎2 , y de dos muestras independientes de cualquier tamaño cuando se conocen
𝜎1 y 𝜎2 y las dos poblaciones tienen una distribución normal. Igual que la prueba
t con varianzas desiguales, la prueba z no supone que son iguales las
desviaciones estándar poblacionales, y se utilizan s1 y s2 para estimar las
respectivas desviaciones estándar poblacionales 𝜎1 y 𝜎2 .

Para comparar las medias de dos muestras independientes, 𝜎1 y 𝜎2 , son


desconocidas y cada 𝑛 ≥ 30:

(𝑥̅1 − 𝑥̅2 ) − (𝜇1 − 𝜇2 )0


𝑧=
𝑠2 𝑠2
√ 1+ 2
𝑛1 𝑛2
donde:
𝑥̅1 y 𝑥̅2 : medias muestrales 1 y 2
(𝜇1 − 𝜇2 )0 : diferencia hipotética entre las medias poblaciones
𝑛1 y 𝑛2 : tamaños de las muestras 1 y 2
𝑠1 y 𝑠2 : desviaciones estándar de las muestras 1 y 2.

Además se sabe que el intervalo de confianza para este tipo de pruebas es:
𝑠2 𝑠2
(𝑥̅1 − 𝑥̅2 ) ± 𝑧𝛼/2 √ 1 + 2
𝑛1 𝑛2
Problema de ejemplo:
Los profesores del curso de Estadística Industrial de la UNMSM desean saber si
las medias de los promedios finales de sus alumnos de dos facultades distintas
son iguales. Para ello toman muestras de 32 y 36 alumnos de las cuales se
obtiene que la nota de la facultad 1 era 15 y de la segunda era 13, con
desviaciones estándar de 1.2 y 1.5, respectivamente.
Solución:
Mediante el método clásico

Planteamos, en primer lugar, nuestra hipótesis nula y alternativa

𝐻0 : 𝜇1 − 𝜇2 = 0
𝐻1 : 𝜇1 − 𝜇2 ≠ 0

Ahora elegimos el nivel de significancia, tomamos un nivel de significancia


convencional de
𝛼 = 0.05

Identificamos el valor crítico para nuestro estadístico de prueba, como 𝛼 =


0.05 y es una prueba no direccional buscamos en la tabla y encontramos que
𝑍𝑐𝑟í𝑡𝑖𝑐𝑜 = −1.96 ∨ +1.96.

Elaboramos la regla de rechazo:

“Rechazar la hipótesis nula si el valor de Z es menor que el valor crítico de -1.96 o


mayor de +1.96”

Ahora calculamos el valor de nuestro estadístico de prueba

(𝑥̅1 − 𝑥̅2 ) − (𝜇1 − 𝜇2 )0 (15 − 13) − 0


𝑧= = = 6.1
2 2
𝑠2 𝑠22 √1.2 + 1.5
√ 1 32 36
𝑛1 + 𝑛2

Comparamos ambos valores. Vemos que Z es mayor que su valor crítico, por
lo tanto se rechaza la hipótesis nula.

Esto nos indica que sí existe una diferencia significativa entre las medias de
los promedios de las notas del curso de Estadística Industrial entre dos
facultades distintas de la UNMSM.
Mediante Minitab

Ahora calculemos el valor de z en Minitab 16:


Como Minitab 16 no posee un comando predeterminado para llevar a cabo
una prueba de este tipo se debe hacer mediante una macro,seguimos las
instrucciones indicadas en la página del fabricante.
Después llenamos los datos, ejecutamos la macro y nos arrojará el siguiente
resultado:
Two-Sample Z-Test and CI: C1, C2

Group Sample Pop.


Fila Variable N Mean StDev SE Mean
1 C1 32 15 1.2 0.212132
2 C2 36 13 1.5 0.250000

Difference: mu (C1) - mu (C2)


Estimate for difference: 2.00000
95% CI for difference: (1.35738, 2.64262)

Two Sample Z test of Diff. = 0 (vs not =):

Z-Value 6.09994
P-Value 0.000000001

Observamos que el valor de Z es 6.09994 el cual es mayor al valor crítico por


lo cual se debe rechazar la hipótesis nula y la conclusión será idéntica a la
descrita al resolverlo mediante el método clásico.
Un aspecto importante que hay que resaltar es que el software, además, nos
entrega un valor de p igual a 0.000000001 con el cual llegamos a la misma
decisión de rechazar la hipótesis nula pues es menor que el nivel de
significancia.

Comparación de dos proporciones muestrales

Las siguientes son algunas situaciones posibles:

1. Comparar el porcentaje de piezas defectuosas entre embarques de dos


proveedores diferentes.

2. Determinar si la proporción de pacientes con dolor de cabeza que sienten


alivio con un nuevo medicamento es significativamente mayor que
quienes emplean aspirina.

3. Comparar el porcentaje de alumnos de último año de enseñanza media


enrolados en el servicio militar que vieron la versión A de una película
sobre el reclutamiento comparado con quienes vieron la versión B.
En esta sección, las pruebas suponen que ambos tamaños de muestras son
grandes (cada uno 𝑛 ≥ 30) .Además, n1p1, n1(1 – p1), n2p2 y n2(1 – p2), todos
deben ser ≥ 5. Estos requisitos son necesarios para que la distribución normal
utilizada sea una aproximación cercana a la distribución binomial. Igual que la
comparación de medias de muestras independientes, las pruebas relacionadas
con proporciones pueden ser direccionales o no direccionales.

Cuando la diferencia hipotética es cero:

𝑝1 − 𝑝2
𝑍=
1 1
√𝑝̅ (1 − 𝑝̅) (
𝑛1 + 𝑛2 )
donde:
𝑝1 y 𝑝2 : proporciones muestrales
𝑛1 y 𝑛2 : tamaños de las muestras
𝑝̅ : Estimación combinada de la proporción poblacional

𝑛1 𝑝1 + 𝑛2 𝑝2
𝑝̅ =
𝑛1 + 𝑛2
Cuando la diferencia hipotética es 1 − 𝜋2 )0 ≠ 0
(𝜋

(𝑝1 − 𝑝2 ) − (𝜋1 − 𝜋2 )0
𝑍=
𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
√ −
𝑛1 𝑛2

Con un intervalo de confianza de

𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
(𝑝1 − 𝑝2 ) ± 𝑍𝛼/2 √ −
𝑛1 𝑛2
Problema de ejemplo:
En un sondeo de opinión 60 de 200 estudiantes del sexo masculino han
expresado su disgusto sobre la forma de dirigir el directivo de la institución, de la
misma forma han opinado 75 de 300 alumnos del sexo femenino. Se quiere
saber si existe una diferencia real de opinión entre los alumnos y las alumnas.
Para realizar el contraste de hipótesis de las proporciones utilice un nivel de
significancia de 5%
Solución:
Mediante el método clásico

Planteamos, en primer lugar, nuestra hipótesis nula y alternativa

𝐻0 : 𝜋1 − 𝜋2 = 0
𝐻1 : 𝜋1 − 𝜋2 ≠ 0
Ahora elegimos el nivel de significancia, el problema ya nos asigna un nivel
de significancia
𝛼 = 0.05

Identificamos el valor crítico para nuestro estadístico de prueba, como 𝛼 =


0.05 y es una prueba no direccional buscamos en la tabla y encontramos que
𝑍𝑐𝑟í𝑡𝑖𝑐𝑜 = −1.96 ∨ +1.96.

Elaboramos la regla de rechazo:

“Rechazar la hipótesis nula si el valor de Z es menor que el valor crítico de -1.96 o


mayor de +1.96”

Ahora calculamos el valor de nuestro estadístico de prueba:

60 75
𝑝1 = = 0.3 , 𝑝2 = = 0.25
200 300

𝑛1 𝑝1 + 𝑛2 𝑝2 200 ∗ 0.30 + 300 ∗ 0.25


𝑝̅ = = = 0.27
𝑛1 + 𝑛2 200 + 300

𝑝1 − 𝑝2 0.30 − 0.25
𝑍= = = 1.23
1 1
√𝑝̅(1 − 𝑝̅ ) ( + ) √0.27(1 − 0.27) ( 1 + 1 )
𝑛1 𝑛2 200 300

Comparamos ambos valores. Vemos que Z es menor que su valor crítico, por
lo tanto no se rechaza la hipótesis nula.

Esto nos indica que no existe una diferencia significativa entre las opiniones
sobre la forma de dirigir del directivo de la institución por parte de los
estudiantes de distintos sexos.

Mediante Minitab

Ahora calculemos el valor de z en Minitab 16:


Primero entramos a Minitab y elegimos:
Estadísticas/Estadística básica/2 Proporciones

Después llenamos los datos y nos arrojará el siguiente resultado:

Prueba e IC para dos proporciones

Muestra X N Muestra p
1 60 200 0.300000
2 75 300 0.250000
Diferencia = p (1) - p (2)
Estimado de la diferencia: 0.05
IC de 95% para la diferencia: (-0.0302150; 0.130215)
Prueba para la diferencia = 0 vs. no = 0: Z = 1.23 Valor P = 0.217

Prueba exacta de Fisher: Valor P = 0.219

Observamos que el valor de z es 1.23 y el de p es 0.217. Con ambos valores


podemos concluir que no se debe rechazar la hipótesis nula pues z es menor
que su valor crítico y p es mayor que el nivel de significancia.

Otro hecho resaltante, y que demuestra aún más la utilidad del programa, es
que nos da el intervalo de confianza: -0.030 y 0.13 para la diferencia de
proporciones. Vemos que en ella se contiene el valor de cero, la cual es otra
forma de comprobar que no se debe rechazar 𝐻0 .

PRUEBAS T STUDENT: MUESTRA PEQUEÑA

Por lo general, no se conoce la verdadera desviación estándar de una población.


La prueba t es adecuada para las pruebas de hipótesis en las cuales se utiliza la
desviación estándar de la muestra (s) para estimar el valor de la desviación
estándar de la población. La prueba t se basa en la distribución t (con un número
de grados de libertad, df = n -1) y en la suposición de que la población tiene una
distribución aproximadamente normal. Conforme crece el tamaño de la muestra,
la suposición de normalidad de la población se vuelve menos importante.
La distribución t es una familia de distribuciones (una para cada número de
grados de libertad, df). Cuando los df son pequeños, la distribución t es más
plana y más dispersa que la distribución normal, pero para una mayor cantidad
de grados de libertad, los integrantes sucesivos de la familia se acercan cada
vez más a la distribución normal. Cuando el número de grados de libertad se
acerca a infinito, las dos distribuciones se vuelven idénticas.

ESTADISTICO DE PRUEBA T:

𝑥 − 𝜇0
𝑡=
𝑠𝑥

𝑠
𝑠𝑥 =
√𝑛
INTERVALO DE CONFIANZA:
s
x ± tα⁄2
√n
Prueba de dos colas:

Prueba de cola izquierda:

Prueba de cola derecha:

Ejemplo A continuación se considera un ejemplo de prueba de una cola para la


media poblacional en el caso de σ desconocida. Una revista de viajes de
negocios desea clasificar los aeropuertos internacionales de acuerdo con una
evaluación hecha por la población de viajeros de negocios. Se usa una escala
de evaluación que va desde un mínimo de 0 hasta un máximo de 10, y aquellos
aeropuertos que obtengan una media mayor que 7 serán considerados como
aeropuertos de servicio superior. Para obtener los datos de evaluación, el
personal de la revista entrevista una muestra de 28 viajeros de negocios de cada
aeropuerto. En la muestra tomada en el aeropuerto Heathrow de Londres la
media muestral 7.38 y la desviación estándar muestral 1.052. De acuerdo con
estos datos muéstrales, ¿deberá ser designado Heathrow como un aeropuerto
de servicio superior?
Solución
La idea es realizar una prueba de hipótesis para que la decisión de rechazar Ho
permita concluir que la media poblacional en la evaluación del aeropuerto de
Heathrow es mayor que 7. Entonces, se requiere una prueba de la cola superior
en la que H1: μ > 7. Las hipótesis nulas y alternativa en esta prueba de la cola
superior son las siguientes:
𝐻0 : 𝜇 ≤ 7
𝐻1 : 𝜇 > 7
En esta prueba se usa como nivel de significancia ∝= 0.05

(𝑥−𝜇0 )√𝑛
Al aplicar la ecuación 𝑡= con 𝑛 = 28 𝑠 = 1.052 𝑥̅ = 7.38, el valor
𝑠
del estadístico de prueba es:

(𝑥 − 𝜇0 )√𝑛 (7.38 − 7)√28


𝑡= = = 1.911
𝑠 𝑠
Identificar los valores críticos para el estadístico de prueba t con 27 grados de
libertad y establecer la regla de decisión.

Regla de rechazo: “Se rechaza la hipótesis nula si el valor del estadístico de


prueba es mayor que 1.703”
En vista de que el estadístico de prueba es mayor que 1.703 se rechaza la
hipótesis nula concluyéndose que Heathrow se debe considerar como
aeropuerto de servicio superior.
Ahora analizaremos la solución del problema anterior mediante el uso del
paquete estadístico Minitab.
En primer lugar ingresamos a la pestaña Estadisticas, luego a estadisticas
basicas y por ultimo a t de 1 muestra
Luego de hacer clic en la opción t de 1 muestra nos muestra la siguiente ventana,
e1n el cual ingresamos los datos resumidos necesarios para realizar la prueba,
el cual se muestra a continuación:

Luego nos vamos a opciones y digitamos el valor del nivel de significancia y


elegimos la hipótesis alterna correspondiente:
Luego en aceptar y aceptar nuevamente, mostrándonos el siguiente reporte:

T de una muestra

Prueba de μ = 7 vs. > 7

Error
estándar Límite
de la inferior
N Media Desv.Est. media de 95% T P
28 7,380 1,052 0,199 7,041 1,91 0,033

Para emitir una conclusión observamos el reporte anterior nos damos cuenta que
tenemos el valor de p, por lo que con dicho valor tomaremos la decisión
respectiva, es decir, se rechaza la hipótesis nula ya que el valor de p es menor
que el valor del nivel de significancia, se concluye que Heathrow se debe
considerar como aeropuerto de servicio superior.

LA PRUEBA t CON VARIANZAS COMBINADAS PARA COMPARAR LAS


MEDIAS DE DOS MUESTRAS INDEPENDIANTES:

Supones que:
 Las desviaciones estándar poblacionales (que se desconocen son
iguales).
 Las poblaciones tienen una distribución aproximadamente normal.

Estadístico de prueba:

(𝑥1 − 𝑥2 ) − (𝜇1 − 𝜇2 )
𝑡=
1 1
√𝑠 2 𝑝 ( + )
𝑛1 𝑛2
(𝑛1 − 1)𝑠 21 + (𝑛2 − 1)𝑠 2 2
𝑠𝑝2 =
𝑛1 + 𝑛2 − 2

𝑔𝑙 = 𝑛1 + 𝑛2 − 2
Intervalo de confianza para 𝜇1 − 𝜇2

1 1
(𝑥1 − 𝑥2 ) ± tα⁄2 √𝑠𝑝2 ( + )
𝑛1 𝑛2

Problema En las zonas costeras de Estados Unidos, Cape Cod, Outer Banks,
las Carolinas y la costa del Golfo, hubo, durante los años noventa, un crecimiento
relativamente rápido de la población. Los datos recolectados son sobre las
personas que viven tanto en zonas costeras como en zonas no costeras de todo
Estados Unidos (USA Today, 21 de julio de 2000). Suponga que se obtuvieron
los resultados muéstrales siguientes sobre las edades de estas dos poblaciones
de personas.
Zona costera Zona no costera

𝑛1 = 150 𝑛2 = 175
𝑥1 = 39.3 𝑥2 = 35.4
𝑠1 = 16.8 𝑠2 = 15.2

Pruebe la hipótesis de que no hay diferencia entre las dos medias poblacionales.
Use α = 0.05.
a. Formule las hipótesis nula y alternativa.
b. ¿Cuál es el valor del estadístico de prueba?
c. ¿Cuál es el valor critido de t? y formule la regla de rechazo.
d. ¿Aqué conclusión llega?
Solucion
a) Formulacion de la hipotesis nula y alternativa:
𝐻0 : 𝜇1 − 𝜇1 = 0
𝐻1 : 𝜇1 − 𝜇1 ≠ 0
b) Calculo del estadístico de prueba con

𝑛1 = 150 𝑛2 = 175 𝑠1 = 16.8 𝑠2 = 15.2


∝= 0.05 𝑥̅1 = 39.3 𝑥̅2 = 35.4

Se tiene:
(𝑛1 − 1)𝑠 21 + (𝑛2 − 1)𝑠 2 2
𝑠𝑝2 =
𝑛1 + 𝑛2 − 2
(150 − 1)16.82 + (175 − 1)15.22
𝑠𝑝2 = = 254.6586
150 + 175 − 2

Luego:

(𝑥1 − 𝑥2 ) − (𝜇1 − 𝜇2 )
𝑡=
1 1
√𝑠 2 𝑝 ( + )
𝑛1 𝑛2

(39.3 − 35.4) − 0
𝑡= = 2.1964
√254.65862 ( 1 + 1 )
150 175

c) Calculo del valor critico de t:

Para ello calculamos los grados de libertad:

𝑔𝑙 = 𝑛1 + 𝑛2 − 2

𝑔𝑙 = 150 + 175 − 2 = 323

Regla de rechazo: “Se rechaza la hipótesis nula si el estadístico de


prueba es mayor que 1.967 o menor que -1.967”

d) En vista de que el estadístico de prueba es mayor que 1.967 se rechaza


la hipótesis nula concluyéndose que hay diferencias entre las dos medias
poblacionales de la edades en las zonas costeras de Estados Unidos,
Cape Cod, Outer Banks, las Carolinas y la costa del Golfo, hubo, durante
los años noventa.
Ahora analizaremos la solución del problema anterior mediante el uso del
paquete estadístico Minitab.
En primer lugar ingresamos a la pestaña Estadisticas, luego a estadisticas
basicas y por ultimo a t de 2 muestras

Luego de hacer clic en la opción t de 2 muestras nos muestra la siguiente


ventana, en el cual ingresamos los datos resumidos necesarios para realizar la
prueba, el cual se muestra a continuación:
Luego nos vamos a opciones y digitamos el valor del nivel de significancia y
elegimos la hipótesis alterna correspondiente:

Luego en aceptar y aceptar nuevamente, mostrándonos el siguiente reporte:

Prueba T de dos muestras e IC

Error
estándar
de la
Muestra N Media Desv.Est. media
1 150 39,3 16,8 1,4
2 175 35,4 15,2 1,1

Diferencia = μ (1) - μ (2)


Estimación de la diferencia: 3,90
IC de 95% para la diferencia: (0,41; 7,39)
Prueba T de diferencia = 0 (vs. ≠): Valor T = 2,20 Valor p = 0,029 GL = 323
Ambos utilizan Desv.Est. agrupada = 15,9580

Para emitir una conclusión observamos el reporte anterior nos damos cuenta que
tenemos el valor de p, por lo que con dicho valor tomaremos la decisión
respectiva, es decir, se rechaza la hipótesis nula ya que el valor de p es menor
que el valor del nivel de significancia, se concluye que hay diferencias entre las
dos medias poblacionales de la edades en las zonas costeras de Estados
Unidos, Cape Cod, Outer Banks, las Carolinas y la costa del Golfo, hubo, durante
los años noventa.
COMPARACION DE DOS MEDIAS CUANDO LAS MUESTRAS SON
DEPENDIENTES:
Hay ocasiones en las que necesitamos poner a prueba hipótesis concernientes
a muestras que no son independientes. Por ejemplo, tal vez necesitamos
examinar la productividad de los empleados antes y después de un cambio en el
diseño de su puesto de trabajo, o comparar las velocidades de lectura de las
personas que participan en un curso de lectura rápida antes y después del curso.
En tales casos, en realidad no tenemos dos muestras diferentes de personas,
sino mediciones de antes y después de las mismas personas. Como resultado,
sólo habrá una variable: la diferencia registrada para cada persona.
Las hipótesis nula y alternativa será una de las siguientes, con el valor calculado
del estadístico de la prueba como se aprecia aquí:
Hipótesis nula Hipótesis alternativa Tipo de prueba
𝐻0 : 𝜇𝑑 = 0 𝐻1 : 𝜇𝑑 ≠ 0 Dos colas
𝐻0 : 𝜇𝑑 ≥ 0 𝐻1 : 𝜇𝑑 < 0 Cola izquierda
𝐻0 : 𝜇𝑑 ≤ 0 𝐻1 : 𝜇𝑑 > 0 Cola derecha

Estadístico de prueba para comparar la medias de observaciones pareadas:

𝑑
𝑡=
𝑠𝑑 ⁄√𝑛
𝑑 = 𝑥1 − 𝑥2 es la diferencia entre las dos mediciones para cada unidad de la
prueba.

∑ 𝑑𝑖
𝑑=
𝑛
2
√ ∑ 𝑑𝑖2 − 𝑛𝑑
𝑠𝑑 =
𝑛−1
𝑔𝑙 = 𝑛 − 1
Intervalo de confianza pada 𝜇𝑑 :

𝑑 ± tα⁄2 𝑠𝑑 ⁄√𝑛

Ejemplo Se tiene una muestra aleatoria de seis trabajadores. En la siguiente


tabla se muestran los tiempos que requirieron los trabajadores para realizar la
tarea. Observe que de cada trabajador se obtuvieron dos datos, uno con cada
método de producción, también que en la última columna se da, para cada
trabajador de la muestra, la diferencia di entre los tiempos para realizar la tarea.
Existen diferencias entre los dos métodos? Use un nivel de confianza del 95%.
Solución
Sea μd la media de las diferencias en la población de trabajadores. Con esta
notación, las hipótesis nula y alternativa se expresan como sigue:
𝐻0 : 𝜇𝑑 = 0
𝐻1 : 𝜇𝑑 ≠ 0
Si se rechaza Ho, se concluye que difieren las medias poblacionales de los
tiempos requeridos para realizar la tarea con los dos métodos. La notación d
sirve para recordar que las muestras pareadas proporcionan datos que son
diferencias. A continuación se calcula la media y la desviación estándar de las
seis diferencias que se presentan en la tabla.
∑ 𝑑𝑖 1.8
𝑑= = = 0.30
𝑛 6
2
√∑ 𝑑𝑖2 − 𝑛𝑑 1.1 − 6 ∗ 0.302
𝑠𝑑 = = √ = 0.335
𝑛−1 6−1

Como la muestra es pequeña, n = 6, es necesario suponer que la población de


las diferencias tiene una distribución normal. Esta suposición es necesaria para
usar la distribución t en la prueba de hipótesis y para calcular una estimación por
intervalo. Con esta suposición, el estadístico de prueba siguiente tiene una
distribución t con n - 1 grados de libertad.
A continuación se procede a calcular el estadístico de prueba:

𝑑 0.30 − 0
𝑡= = = 2.20
𝑠𝑑 ⁄√𝑛 0.335⁄√6

Luego calculamos el valor crítico del estadístico de prueba t para 5 grados de


libertad y 0.05 nivel de significancia.
Regla de rechazo: “Se rechaza la hipótesis nula si el estadístico de prueba es
mayor que 2.571 o menor que -2.571.”
En vista de que el estadístico de prueba es menor que 2.571 no se rechaza la
hipótesis nula por lo que se concluye que no existen diferencias en los tiempos
entre los dos métodos para realizar la tarea.
Ahora analizaremos la solución del problema anterior mediante el uso del
paquete estadístico Minitab.
En primer lugar ingresamos a la pestaña Estadisticas, luego a estadisticas
basicas y por ultimo a t pareada.

Luego de hacer clic en la opción t pareada nos muestra la siguiente ventana, en


el cual ingresamos los datos necesarios para realizar la prueba, el cual se
muestra a continuación, pero antes digitamos los datos respectivos:
Luego en aceptar y aceptar nuevamente, mostrándonos el siguiente reporte:

IC y Prueba T pareada: Metodo 1; Metodo 2

T pareada para Metodo 1 - Metodo 2

Error
estándar
de la
N Media Desv.Est. media
Metodo 1 6 6,100 0,654 0,267
Metodo 2 6 5,800 0,460 0,188
Diferencia 6 0,300 0,335 0,137

IC de 95% para la diferencia media: (-0,051; 0,651)


Prueba t de diferencia media = 0 (vs. ≠ 0): Valor T = 2,20 Valor p = 0,080

Para emitir una conclusión observamos el reporte anterior nos damos cuenta que
tenemos el valor de p, por lo que con dicho valor tomaremos la decisión
respectiva, es decir, no se rechaza la hipótesis nula ya que el valor de p es
mayor que el valor del nivel de significancia, se concluye que no existen
diferencias en los tiempos entre los dos métodos para realizar la tarea.
DISTRIBUCION F
Esta distribución probabilística se utiliza como estadístico de prueba en varias
situaciones. Sirve para demostrar si dos varianzas muéstrales provienen de la
misma población o de poblaciones iguales.
También se aplica cuando se desean comparar simultáneamente tres o más
medias poblacionales. En estos dos casos, las poblaciones deben ser normales
y los datos deben estar al menos medidos en escala de intervalo.

COMPARACION DE DOS VARIANZAS POBLACIONALES

La distribución F se utiliza para demostrar la hipótesis de que la varianza de


una población normal es igual a la varianza de otra poblacional normal. Así, la
prueba es útil para determinar si una población normal tiene o no más variación
que otra.
DISTRIBUCION MUESTRAL DE 𝑺𝟐𝟏 ⁄𝑺𝟐𝟐 CUANDO 𝝈𝟐𝟏 = 𝝈𝟐𝟐

Siempre que se seleccionan muestras aleatorias simples de tamaño 𝑛1 y 𝑛2 a


partir de poblaciones normales con varianzas iguales, la distribución de las
muestras 𝑆12 ⁄𝑆22 tiene distribución F con 𝑛1 − 1 grados de libertad para el
numerador y 𝑛2 − 1 grados de libertad para el denominador; 𝑆12 es la varianza de
la muestra de los 𝑛1 artículos procedentes de la población 1 y 𝑆22 es la de los 𝑛2
artículos procedentes de la población 2.
Por lo que el estadístico de prueba es:

F = 𝑆12 ⁄𝑆22

Donde se denota a la población que tiene la mayor varianza de la muestra como


población 1.

Prueba bilateral de la varianza de dos poblaciones

𝐻0 : 𝝈𝟐𝟏 = 𝝈𝟐𝟐
𝐻1 : 𝝈𝟐𝟏 ≠ 𝝈𝟐𝟐
Estadístico de prueba
F = 𝑆12 ⁄𝑆22
Regla de rechazo:

 Con el estadístico de prueba: Rechazar 𝐻0 si 𝐹 > 𝐹∝⁄2 ; donde 𝐹∝⁄2 se


basa en una distribución F con F con 𝑛1 − 1 grados de libertad para el
numerador y 𝑛2 − 1 grados de libertad para el denominador.
 Con el valor de 𝑝: Rechazar 𝐻0 si el valor de 𝑝 <∝

Ejemplo La compañía Daniel Associates realizó un estudio acerca de los hábitos


de los radioescuchas, tanto de hombres como mujeres. Un aspecto del estudio
comprendió el tiempo promedio de audición. Se descubrió que el tiempo
promedio para los varones es de 35 minutos al día. La desviación estándar en la
muestra de los 10 hombres que se estudiaron, fue 10 minutos por día. El tiempo
promedio de audición para las 12 mujeres estudiadas fue también 35 minutos,
pero la desviación estándar fue 12 minutos. Al nivel de significancia 0.10, ¿es
posible concluir que existe diferencia entre la variación de los tiempos de
audición de hombres y mujeres?

Solución:

Formulación de la hipótesis nula y alternativa:

Ho: ℺ 2 (ℎ) = ℺ 2 (𝑚);


H1: ℺ 2 (ℎ) ≠ ℺ 2 (𝑚)
α = 0.10
Luego procedemos a hallar el valor critico del estadistico de prueba F, para ello
mostramos a continuacion la siguiente figura:

Para un nivel de significancia de 0.10 en una prueba de dos colas, se presenta


a continuación la regla de rechazo:
𝑅𝐶: < 0 , 0.3453 > 𝑈 < 3.102, ∞ >
Calculo del estadistico de prueba:

122
𝐹= = 1.44
102

En vista de que el estadístico de prueba es menor que 3.102 y mayor que 0.3453
no se rechaza la hipótesis nula.
Interpretación:
Se concluye que no existe diferencia entre la variación de los tiempos de audición
de hombres y mujeres.

ANOVA

El segundo uso de la distribución F comprende la técnica del análisis de


varianza, que se simboliza por ANOVA. Básicamente, en ese análisis se emplea
información muestral para determinar si tres o más tratamientos producen o no
resultados diferentes.

Tratamiento: Causa o fuente específica de variación en un conjunto de datos.

Consideraciones en que se basa la prueba ANOVA

 Las tres o más poblaciones de interés están distribuidas normalmente.


 Tales poblaciones tienen desviaciones estándares iguales.
 Las muestras que se seleccionan de cada una de las poblaciones son
aleatorias e independientes.

Tabla ANOVA en un sentido

Fuente de Suma de Grados de Cuadrados medios


Variación cuadrados libertad
Entre SST K-1 SST/(K-1) = MSTR
tratamientos
Error(en los SSE N-K SSE/(N-K) = MSE
tratamientos)
Total Total SS

Donde el estadístico de prueba es:

𝑺𝑺𝑻
𝑴𝑺𝑻𝑹
𝑭= 𝑲−𝟏 =
𝑺𝑺𝑬 𝑴𝑺𝑬
𝑵−𝑲
Donde:

 Grados de libertad del numerador = K-1


 Grados de libertad del denominador = N-K
 K: Numero de tratamientos.
 N: Numero de observaciones.
 MSTR: cuadrado medio entre tratamientos.
 MSE: cuadrado medio debido al error.
 SST: suma de cuadrados de tratamiento.
𝑇𝐶2 (∑ 𝑥)2
𝑆𝑆𝑇 = ∑ [ ]−
𝑛𝑐 𝑁
 𝑇𝐶 : Indica elevar al cuadrado el total de cada columna.
 𝑛𝑐 : es el número de observaciones para cada tratamiento
respectivo (columna).
 ∑ 𝑥: es la suma de todas las observaciones.
 𝑁: número total de observaciones.

 SSE: suma de los errores en los tratamientos.

𝑇𝐶2
𝑆𝑆𝐸 = ∑ 𝑋 2 − ∑ [ ]
𝑛𝑐
Luego:

SST SSE
MSTR = MSE =
K−1 N−K

𝑇𝑜𝑡𝑎𝑙 𝑆𝑆 = 𝑆𝑆𝑇 + 𝑆𝑆𝐸

Inferencias acerca de las medias de tratamiento

Supóngase que al aplicar el procedimiento ANOVA, se decide rechazar la


hipótesis nula. Esto permite concluir que todas las medias de tratamiento no son
iguales. Algunas veces esta conclusión puede considerarse satisfactoria, pero
en otros casos se desea saber cuáles medias de tratamiento son diferentes.
Existen varios procedimientos para responder esta pregunta. Tal vez el más
sencillo es mediante el uso de niveles de confianza.
La distribución t se utiliza como base para esta prueba. Recuérdese que una
suposición básica de ANOVA es que las varianzas poblacionales son iguales
para todos los tratamientos. Como se observó, este valor poblacional común se
denomina error cuadrado medio (MSE) que se obtiene mediante SSE/(N-k)
Un intervalo de confianza para la diferencia entre dos medias poblacionales se
logra mediante:
1 1
(𝑥̅1 − 𝑥̅ 2 ) ± 𝑡√𝑀𝑆𝐸 ( + )
𝑛1 𝑛2
𝑥̅1 : es la media del primer tratamiento
𝑥̅2 : es la media del segundo tratamiento
𝑡: Se obtiene a partir de la tabla t. Los grados de libertad son N – k.
𝑀𝑆𝐸: es el error cuadrado medio que se obtiene a partir de la tabla ANOVA.
𝑛1 : es el número de observaciones en el primer tratamiento.
𝑛2 : es el número de observaciones en el segundo tratamiento.

Si el intervalo de confianza contiene al cero, se concluye que no hay diferencia


en el par de medias de tratamiento. Sin embargo, si ambos extremos del intervalo
de confianza tienen el mismo signo, esto indica que las medias de tratamiento
son diferentes.

Ejemplo: Se diseña un experimento para evaluar la durabilidad de cuatro tipos


de alfombra experimentales. Se colocó una muestra de cada una de las
alfombras en cuatro viviendas y se midió la durabilidad después de 60 días. Los
datos se muestran a continuación:

Como se desea probar la igualdad de las medias y evaluar las diferencias de las
medias, se utilizará el procedimiento ANOVA de un factor (datos apilados) con
comparaciones múltiples. Además se van a seleccionar un método para
demostrar las capacidades.
1 Ingresar los datos en dos columnas.
2 Elija (Estadísticas) > ANOVA > (Un solo factor.)

3 En (Respuesta), ingrese Durabilidad. En Factor, ingrese Alfombra.


4 Haga clic en Comparaciones.
Marque MCB de Hsu, tasa de error por familia e ingrese 10.
5 Haga clic en OK en cada cuadro de diálogo.
Salida de la ventana Sesión ANOVA unidireccional: DURABILIDAD vs. ALFOM

Interpretación de los resultados

ANOVA unidireccional: DURABILIDAD vs. ALFOMBRA En la tabla de ANOVA el


valor p (0.047) para Alfombra indica que hay suficiente evidencia de que no todas
las medias son iguales cuando alfa se establece en 0.05. Por lo tanto existe una
diferencia entre la durabilidad de las alfombras.
Para explorar las diferencias entre las medias, examinemos los resultados de las
comparaciones múltiples.
MCB de Hsu (comparaciones múltiples con el mejor)

Comparaciones MCB de Hsu MCB de Hsu (Comparaciones múltiples con el


Mejor)
compara cada media con la mejor (la más grande) de las otras medias. Se
compara las medias de las alfombras 1, 2 y 3 con la media de la alfombra 4,
porque es la más grande. La alfombra 1 o la 4 podrían ser la mejor debido que a
los intervalos de confianza correspondientes contienen valores positivos. No hay
evidencia que indique que la alfombra 2 ó 3 es la mejor porque las cotas del
intervalo superiores son 0, el valor más pequeño posible.
Nota Se puede describir la ventaja o la desventaja potencial de cualquiera de los
productos que compiten para ser el mejor, examinando los intervalos de
confianza superiores e inferiores. Por ejemplo, si la alfombra 1 es la mejor, no es
más de 1.246 mejor que el producto más cercano, y podría ser hasta 8.511 peor
que la mejor de las otras medias de nivel.
ANOVA en dos sentidos

El mismo formato que sirve para el caso de ANOVA en un sentido se utiliza para
la tabla ANOVA en dos sentidos. Los totales de SST y SS se calculan igual que
antes. SSE se obtiene por sustracción (SSE = Total SS – SST – SSB). Donde
SSB se denomina variable de bloque. En consecuencia, se tiene variación
debida al tratamiento y debida a los bloques. La suma de cuadrados debida a
los bloques (SSB) se calcula como sigue:

𝐵𝑟2 (∑ 𝑥)2
𝑆𝑆𝐵 = ∑ [ ] −
𝑘 𝑁

En donde 𝐵𝑟 se refiere al total del bloque, es decir, al total de cada renglón, y k


es el número de elementos en cada bloque. En la siguiente tabla se muestran
los cálculos necesarios:

Fuente de Suma de Grados de Cuadrados medios


Variación cuadrados libertad
Entre SST k-1 SST/(K-1) = MSTR
tratamientos
Bloque SSB n-1 SSB/( n-1) = MSB
Error(en los SSE (k-1)( n-1) SSE/(k-1)( n-1) =
tratamientos) MSE
Total Total SS

Por lo que se tiene dos estadísticos de prueba:

Para los tratamientos Para los bloques


𝑺𝑺𝑻 𝑺𝑺𝑩
𝑲 −𝟏 𝑴𝑺𝑻𝑹 𝒏 −𝟏 𝑴𝑺𝑩
𝑭= = 𝑭= =
𝑺𝑺𝑬 𝑴𝑺𝑬 𝑺𝑺𝑬 𝑴𝑺𝑬
(𝐤 − 𝟏)( 𝐧 − 𝟏) (𝐤 − 𝟏)( 𝐧 − 𝟏)

COEFICIENTE DE DETERMINACION PARCIAL

Los coeficientes son una medida de la porción de la variación en la variable


dependiente que es explicada por cada variable explicativa, mientras se controla
o se mantiene constante a las demás variables explicativas.
Así pues, en un modelo de regresión múltiple con dos variables explicativas
tenemos:
2
𝑆𝑆𝑅(𝑥1 ⁄𝑥2 )
𝑟𝑦12 =
𝑆𝑆𝑇 − 𝑆𝑆𝑅(𝑥1 𝑦 𝑥2 ) + 𝑆𝑆𝑅(𝑥1 ⁄𝑥2 )

2
𝑆𝑆𝑅(𝑥2 ⁄𝑥1 )
𝑟𝑦21 =
𝑆𝑆𝑇 − 𝑆𝑆𝑅(𝑥1 𝑦 𝑥2 ) + 𝑆𝑆𝑅(𝑥2 ⁄𝑥1 )

En la que:

𝑆𝑆𝑅(𝑥1 ⁄𝑥2 ): suma de cuadrados de la contribución de la variable X1 al modelo


de regresión dado que la variable X2 ha sido incluida en el modelo.
𝑆𝑆𝑇: Suma total de cuadrados para Y
𝑆𝑆𝑅(𝑥1 𝑦 𝑥2 ): suma de cuadrados de regresión cuando las variables X1 y X2
están incluidas en el modelo de regresión múltiple
𝑆𝑆𝑅(𝑥2 ⁄𝑥1 ): suma de cuadrados de la contribución de la variable X2 al modelo
de regresión dado que la variable X1 ha sido incluida en el modelo.

Ejemplo Un biólogo, se encuentra estudiando la vida del zooplancton en dos


lagos. Coloca doce tanques en su laboratorio, seis tanques llenos con el agua
de un lago, y seis tanques con agua del otro lago. Se agrega uno de tres
suplementos de nutrientes en cada tanque y después de 30 días se realiza un
conteo del zooplancton en un volumen de agua.

Utilice un ANOVA de dos factores para probar si las medias de las poblaciones
son iguales, o equivalentemente,
1.- Establecer Hipótesis Tenemos que establecer hipótesis para cada uno de los
tratamientos y para la interacción de ambos:

a) Respecto al primer tratamiento: Ha: “Los suplementos de nutrientes


influyen de manera diferente en la vida de los Zooplancton” Ho: “Los
suplementos de nutrientes no influyen de manera diferente en la vida de
los Zooplancton”

b) Respecto al segundo tratamiento: Ha: “El tipo de agua de los lagos


influyen de manera diferente en la vida de los Zooplancton” Ho: “El tipo de
agua de los lagos no influyen de manera diferente en la vida de los
Zooplancton”

c) Respecto a la interacción de los dos tratamientos Ha: ”La combinación de


las eventos suplementos de nutrientes y tipo de agua de los lagos afecta
de manera significativa en la vida de los Zooplancton” Ho: ”La
combinación de las eventos suplementos de nutrientes y tipo de agua de
los lagos no afecta de manera significativa en la vida de los Zooplancton”

2.- Realizar los cálculos con el Minitab

1 Ingrese los datos en tres columnas.


2 Elija (Estadísticas) > ANOVA > (Dos factores).

3 En Respuesta, ingrese Zooplancton.


4 En Factor de fila, ingrese Suplemento. Marque Mostrar medias.
5 En Factor de columna, ingrese Lago. Marque Mostrar medias. Haga clic en
Aceptar.
Salida de la ventana Sesión ANOVA de dos factores:
ZOOPLANCTON vs. SUPLEMENTO, LAGO

3.- Interpretación de los resultados

La salida predeterminada para el ANOVA de dos factores es la Tabla de análisis


de varianza para los datos del zooplancton, Como el grado de significancia es
0.015 para un nivel de significancia de 0.05, rechazamos la hipótesis nula, por lo
que existe evidencia significativa de que los suplementos de nutrientes influyen
de manera diferente en la vida de los Zooplancton.

Como el grado de significancia es 0.666 para un nivel de significancia de 0.05,


no rechazamos la hipótesis nula, por lo que no existe evidencia significativa de
que el tipo de agua de los lagos influyen de manera diferente en la vida de los
Zooplancton.

Como el grado de significancia es 0.145 para un nivel de significancia de 0.05,


no rechazamos la hipótesis nula, por lo que no existe evidencia significativa de
que la combinación de los eventos suplementos de nutrientes y tipo de agua de
los lagos afecta de manera significativa en la vida de los Zooplancton.
El suplemento 2 parece haber contribuido de manera más efectiva con el
crecimiento del plancton en este experimento.

Modelo de Regresión Lineal Simple


La regresión lineal o ajuste lineal es un modelo matemático usado para
aproximar la relación de dependencia entre una variable dependiente Y, las
variables independientes Xi y un término aleatorio ε. La ecuación que describe
cómo se relaciona Y con X y con un término de error se llama modelo de
regresión.
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜀

En este modelo, Y es una función lineal de X (la parte 𝛽0 + 𝛽1 𝑥) más 𝜀. 𝛽0 + 𝛽1


son los parámetros del modelo, y 𝜀 (letra griega épsilon) es una variable
aleatoria. El término de error explica la variabilidad en Y que no se puede explicar
con la relación lineal entre X y Y.

𝐸(𝑦) = 𝛽0 + 𝛽1 𝑥

En la regresión lineal simple, la gráfica de la ecuación de regresión es una línea


recta; 𝛽0 es la ordenada al origen de esa recta, 𝛽1 es su pendiente y 𝐸(𝑦) es la
media o valor esperado de Y para determinado valor de X.

Como no conocemos los parámetros 𝛽0 y 𝛽1 calculamos estadísticos de la


muestra (denotados por b0 y b1) como estimados de dichos parámetros, con lo
cual obtenemos una ecuación de regresión estimada o, simplemente, ecuación
de regresión.
𝑦̂ = 𝑏0 + 𝑏1 𝑥

Diagrama de dispersión
El diagrama de dispersión permite observar gráficamente los datos y hacer
conclusiones preliminares acerca de la relación posible entre las variables. En
base de este diagrama podemos intuir si es pertinente usar el modelo de
regresión lineal.

Método de mínimos cuadrados


El método de cuadrados mínimos es un procedimiento para encontrar la
ecuación de regresión estimada usando datos de una muestra.

En el método de los cuadrados mínimos se emplean los datos de la muestra para


determinar los valores de b0 y b1 que minimizan la suma de los cuadrados de las
desviaciones entre los valores observados de la variable dependiente, Yi, y los
valores estimados de la variable dependiente, 𝑦̂𝑖 . El criterio del método de los
cuadrados mínimos se expresa en la ecuación:
2
min ∑(𝑦𝑖 − 𝑦̂𝑖 )

∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)


𝑏1 = , 𝑏0 = 𝑦̅ − 𝑏1 𝑥̅
∑(𝑥𝑖 − 𝑥̅ )2

A partir de esta la ecuación de regresión podemos predecir valores de Y al


asignarle valores a X.

Coeficiente de determinación

El coeficiente de determinación nos indica qué tan bien se ajusta a los datos la
ecuación de regresión, evalúa la bondad del ajuste. Se puede mediante:

𝑆𝑆𝑅
𝑟2 =
𝑆𝑆𝑇
donde:
SSR: suma de cuadrados debida a la regresión
SST: suma de cuadrados del total

Como se podrá notar, asume valores entre 0 y 1.

Coeficiente de correlación
El coeficiente de correlación es una medida descriptiva de la intensidad de la
asociación lineal entre dos variables, X y Y. Los valores del coeficiente de
correlación siempre están entre -1 y +1. Un valor de +1 indica que las dos
variables, X y Y, tienen una relación lineal positiva perfecta. Esto es, todos los
puntos de datos están en una línea recta con pendiente positiva. Un valor de -1
indica que X y Y tienen una relación lineal negativa perfecta, y que todos los
puntos de datos están en una recta con pendiente negativa. Los valores del
coeficiente de correlación cercanos a cero indican que X y Y no tienen relación
lineal.

El coeficiente de correlación se puede calcular de la siguiente manera:

𝑟𝑥𝑦 = (𝑠𝑖𝑔𝑛𝑜 𝑑𝑒 𝑏1 )√𝑟 2

Pruebas de significancia
Para probar si hay alguna relación importante de regresión debemos efectuar
una prueba de hipótesis para determinar si el valor de 𝛽1 es cero. Existen dos
pruebas que se usan con más frecuencia. En ambas se requiere una estimación
de 𝜎 2 , la varianza 𝜀 de en el modelo de regresión.

A partir del modelo de regresión y sus supuestos podemos concluir que 𝜎 2 , la


varianza de 𝜀, también representa la varianza de los valores de Y respecto a la
línea de regresión. Recordemos que las desviaciones de los valores de Y
respecto a la línea de regresión estimada se llaman residuales. Así, la suma de
los residuales al cuadrado, SSE, es una medida de la variabilidad de las
observaciones reales respecto a la línea de regresión. El error cuadrado medio
(MSE, por sus siglas en inglés) es la estimación de 𝜎 2 ; es igual a la SSE dividida
entre sus grados de libertad.

Si tomamos como referencia la ecuación de regresión estimada podemos decir


que:
𝑆𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̂1 )2 = ∑(𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 )2

Cada suma de cuadrados tiene asociado un número, que llamamos sus grados
de libertad. Se ha demostrado que la SSE tiene n -2 grados de libertad, porque
se deben estimar dos parámetros, 𝛽0 y 𝛽1, para calcular la SSE. Así, el cuadrado
medio se calcula dividiendo SSE entre n – 2. El MSE da un estimador insesgado
de 𝜎 2 . Debido a esto, también se usa la notación s2 en vez de MSE.

𝑆𝑆𝐸
𝑠 2 = 𝑀𝑆𝐸 =
𝑛−2

Para estimar 𝜎 sacamos la raíz cuadrada a s2, s, llamado error estándar de la


estimación.

Prueba t de significancia en la regresión lineal simple

𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
Estadístico de prueba:
𝑏1
𝑡=
𝑠𝑏1
La regla de rechazo es análoga a la de las pruebas vistas anteriormente
La desviación estándar es:
𝑠
𝑠𝑏1 =
√∑(𝑥𝑖 − 𝑥̅ )2

Además podemos utilizar un intervalo de confianza de la forma:


𝑏1 ± 𝑡𝛼/2 𝑠𝑏1
Problema de ejemplo:
Una compañía desea hacer predicciones del valor anual de sus ventas totales
en cierto país a partir de la relación de éstas y la renta nacional. Para investigar
la relación cuenta con los siguientes datos:

X Y
189 402
190 404
208 412
227 425
239 429
252 436
257 440
274 447
293 458
308 469
316 469

Donde X representa la renta nacional en millones de soles y Y representa las


ventas de la compañía en miles de soles en el periodo que va desde 1990 hasta
2000 (ambos inclusive). Si en 2001 la renta nacional del país fue de 325 millones
de soles. ¿Cuál será la predicción para las ventas de la compañía en este año?
Solución:
Primero hacemos un diagrama de dispersión para ver si podemos asumir una
relación entre las variables:

Vemos claramente que se puede intuir una relación lineal entre la renta
nacional y las ventas de la compañía.

Ahora calculamos los parámetros estimados de la ecuación de regresión, para


ello introducimos los datos en el programa y nos arroja el siguiente resultado:

Análisis de regresión: Y vs. X

La ecuación de regresión es
Y = 302 + 0.535 X
Predictor Coef SE Coef T P
Constante 301.654 2.544 118.57 0.000
X 0.53498 0.01002 53.38 0.000

S = 1.41488 R-cuad. = 99.7% R-cuad.(ajustado) = 99.7%

Análisis de varianza

Fuente GL SC CM F P
Regresión 1 5704.7 5704.7 2849.68 0.000
Error residual 9 18.0 2.0
Total 10 5722.7

Observaciones poco comunes

EE de Residuo
Obs X Y Ajuste ajuste Residuo estándar
10 308 469.000 466.429 0.719 2.571 2.11R

R denota una observación con un residuo estandarizado grande.

La ecuación de regresión es:


𝑦 = 302 + 0.535𝑥
De donde podemos observar:
𝑏1 = 0.535 , 𝑏0 = 302
Podemos, además, expresar dicha ecuación en forma gráfica sobre el gráfico
de dispersión:

Evaluemos la bondad del ajuste mediante el coeficiente de determinación y


correlación

5704.7
𝑟2 = = 0.9969 , 𝑟 = 0.9984
5722.7
Vemos que para el caso del coeficiente de determinación es muy cercano a
1, lo que indica que existe una fuerte relación entre ambas variables. Por su
parte 𝑟 está aún más cerca de +1 lo que indica que hay una correlación
positiva entre ambas variables, lo que significa que un aumento en la renta
nacional implicaría casi necesariamente un aumento de las ventas de la
compañía.

Por otro lado, la desviación estándar estimada es:


𝑆 = 1.41
La cual también nos indica que la regresión se ajustó muy bien pues el error
estimado es pequeño.

Ahora hacemos una prueba de hipótesis que confirme lo dicho:

𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0

Establecemos un nivel de significancia del 95%: 𝛼 = 0.05 y 𝑛 – 2 = 9 grados


de libertad

Identificamos nuestro valor crítico para el estadístico de prueba:


𝑡𝑐𝑟í𝑡𝑖𝑐𝑜 = 2.262

Establecemos la regla de rechazo:


“Rechazar la hipótesis nula si el valor de t es mayor de 2.262.”

Encontramos el valor del estadístico de prueba, según el programa:


𝑡 = 53.38

Como se puede apreciar, este valor es muy superior a 2.262, por lo tanto se
rechaza la hipótesis nula. Esto indica que sí existe una correlación entre las
variables, lo cual concuerda con nuestro análisis anterior.

Prueba F
También se puede usar una prueba F, basada en la distribución F de
probabilidad, para probar si la regresión es significativa. Como sólo hay una
variable independiente, la prueba F debe indicar la misma conclusión que la
prueba t; esto es, si la prueba t indica que 𝛽1 ≠ 0 y que en consecuencia hay una
relación significativa, la prueba F también indicará una relación significativa. Pero
cuando hay más de una variable independiente, sólo se puede usar la prueba F
para ver si hay una relación significativa general.

Se calcula de la siguiente manera:


𝑀𝑆𝑅
𝐹=
𝑀𝑆𝐸
Y la regla de rechazo se plantea de la misma forma como se ha venido
desarrollando hasta ahora.
Problema de ejemplo:
Corroboraremos nuestro ejemplo anterior utilizando la prueba F.
Solución:

Planteamos las hipótesis:


𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0

Establecemos un nivel de significancia del 95%: 𝛼 = 0.05 y 1 grado de libertad


para el numerador y 𝑛 – 2 = 9 grados de libertad para el denominador

Identificamos nuestro valor crítico para el estadístico de prueba:


𝐹𝑐𝑟í𝑡𝑖𝑐𝑜 = 5.12
Establecemos la regla de rechazo:
“Rechazar la hipótesis nula si el valor de F es mayor de 5.12”
Calculamos el valor del estadístico de prueba:

5704.7
𝐹= = 2849.68
2

Notamos que, evidentemente, es mucho mayor que 5.12, por lo tanto se


rechaza la hipótesis nula llegando a la conclusión de que ambas variables se
encuentran relacionadas linealmente.

Uso de la ecuación para evaluar y predecir


Ahora que ya comprobamos que nuestras variables están relacionadas podemos
usar la ecuación estimada para evaluar y predecir valores futuros de nuestras
variables. Se trata simplemente de reemplazar el valor de la variable
independiente en la ecuación de regresión estimada para encontrar el valor
estimado de la variable dependiente.

Problema de ejemplo:
Terminemos con nuestro problema de regresión anterior prediciendo las ventas
de la compañía en el año 2001 si en ese año la renta nacional fue de 325 millones
de soles.

Solución:

𝑦 = 302 + 0.535(325)
𝑦 = 475.88
Esto significa que en el 2001 se espera que las ventas de la compañía
asciendan a 475.88 miles de soles.
Estimación de intervalo
La estimación hecha en el ejemplo anterior constituye una estimación puntual
pero las estimaciones puntuales no dan ninguna información de la precisión
asociada con la estimación. Para este fin debemos determinar estimaciones de
intervalo. El primer tipo de estimaciones de intervalo es la estimación de intervalo
de confianza; es una estimación de intervalo del valor medio de Y para
determinado valor de X. El segundo tipo es la estimación de intervalo de
predicción, que se usa cuando deseamos una estimación de intervalo de un valor
individual de Y que corresponde a determinado valor de X.

La estimación puntual del valor medio de Y es la misma que la correspondiente


a un valor individual de Y. No obstante, son diferentes las estimaciones de
intervalo que obtenemos para estos dos casos.

La ecuación de regresión determina una estimación puntual del valor medio de


y para determinado valor de x. Al describir el procedimiento de estimación del
intervalo de confianza usaremos la siguiente notación:

𝑥𝑝 = valor particular o dado de la variable independiente x


𝐸(𝑦𝑝 ) = valor medio o esperado de la variable dependiente y que corresponde a
𝑥𝑝 la dada
𝑦̂𝑝 = 𝑏0 + 𝑏1 𝑥𝑝 = estimación puntual de 𝐸(𝑦𝑝 ) cuando 𝑥 = 𝑥𝑝

En general, no podemos esperar que 𝑦̂𝑝 sea exactamente igual a 𝐸(𝑦𝑝 ). Si


queremos hacer una inferencia acerca de lo aproximado que está 𝑦̂𝑝 al valor
medio verdadero 𝐸(𝑦𝑝 ), tendremos que estimar la varianza de 𝑦̂𝑝 . La fórmula de
para estimar la varianza de 𝑦̂𝑝 dada 𝑥𝑝 , denotada por 𝑠𝑦2̂𝑝 , es

2 2
1 (𝑥𝑝 − 𝑥̅ ) 1 (𝑥𝑝 − 𝑥̅ )
𝑠𝑦2̂𝑝 2
=𝑠 [ + ] 𝑦 𝑠𝑦̂𝑝 = 𝑠√ +
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2 𝑛 ∑(𝑥𝑖 − 𝑥̅ )2

Con este valor se estima el intervalo de confianza de 𝐸(𝑦𝑝 ):

𝑦̂𝑝 ± 𝑡𝛼/2 𝑠𝑦̂𝑝

Para determinar una estimación de intervalo de predicción debemos determinar


primero la varianza asociada al empleo de 𝑦̂𝑝 como estimación de un valor
individual de Y cuando 𝑥 = 𝑥𝑝 . Esta varianza está formada por la suma de los
dos componentes siguientes:
1. La varianza de los valores individuales de y respecto al promedio
𝐸(𝑦𝑝 ),cuyo estimado es 𝑠 2
2. La varianza asociada con el uso de 𝑦̂𝑝 para estimar 𝐸(𝑦𝑝 ), cuya estimación
es 𝑠𝑦2̂𝑝
La fórmula para estimar la varianza de un valor individual de 𝑦𝑝 , denotado por
2
𝑠𝑖𝑛𝑑 , es

2 2
1 (𝑥𝑝 − 𝑥̅ ) 1 (𝑥𝑝 − 𝑥̅ )
2
𝑠𝑖𝑛𝑑 2
=𝑠 + 𝑠𝑦2̂𝑝 2
=𝑠 +𝑠 [ + 2
2
] = 𝑠 2 [1 + + ]
𝑛 ∑(𝑥𝑖 − 𝑥̅ ) 𝑛 ∑(𝑥𝑖 − 𝑥̅ )2

Por consiguiente, una estimación de la desviación estándar de un valor individual


de 𝑦𝑝 es
2
1 (𝑥𝑝 − 𝑥̅ )
𝑠𝑖𝑛𝑑 = 𝑠√1 + +
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
Y el intervalo de predicción será:
𝑦̂𝑝 ± 𝑡𝛼/2 𝑠𝑖𝑛𝑑
Problema de ejemplo:
Para el ejemplo anterior calculamos su intervalo de confianza al 95%.

Solución:

Al introducir los datos en Minitab y pedir que nos arroje el intervalo de


confianza y de predicción nos arroja el siguiente resultado:

Valores pronosticados para nuevas observaciones

EE de
Nueva obs Ajuste ajuste IC de 95% IP de 95%
1 475.52 0.86 (473.59; 477.46) (407.65; 543.40)

Con lo cual notamos que el intervalo de confianza está en ±1.935 y el intervalo


de predicción ±67.875.

Análisis de residuales
El residual en la observación i es la diferencia entre el valor observado de la
variable dependiente (𝑦𝑖 ) y el valor estimado de esa variable (𝑦̂𝑖 ).

𝑦𝑖 − 𝑦̂𝑖

Los residuales proporcionan la mejor información acerca de 𝜀 ; por consiguiente,


un paso importante para describir si las hipótesis acerca de 𝜀 son adecuadas,
es realizar un análisis de residuales. La mayor parte de este análisis se basa en
el examen de diferentes gráficas. Describiremos las siguientes gráficas de
residuales:
1. Una gráfica de residuales en función de los valores de la variable
independiente x.
2. Una gráfica de residuales en función de los valores predichos de la
variable dependiente 𝑦̂
3. Una gráfica de residuales estandarizados.

Muchas de las gráficas de residuales que se obtienen con los programas de


cómputo trabajan con una versión estandarizada de los residuales. Con el
método de los cuadrados mínimos, el promedio de los residuales es cero. Así,
tan sólo con dividir cada residual entre su desviación estándar se obtiene el
residual estandarizado.
𝑠𝑦𝑖 −𝑦̂𝑖 = 𝑠√1 − ℎ𝑖
donde:
𝑠𝑦𝑖 −𝑦̂𝑖 = desviación estándar del residual i
𝑠 = error estándar estimado
1 (𝑥𝑖 − 𝑥̅ )2
ℎ𝑖 = +
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2

Una vez calculada la desviación estándar de cada residual, se puede calcular el


residual estandarizado dividiéndolo entre su desviación estándar.

𝑦𝑖 − 𝑦̂𝑖
𝑠𝑦𝑖 −𝑦̂𝑖

La gráfica de residuales normalizados puede suministrar una perspectiva acerca


de la hipótesis de que el términos de error 𝜀 tiene distribución normal. Si se
satisface esa hipótesis, la distribución de los residuales estandarizados debería
aparecer como si proviniera de una distribución de probabilidad normal estándar.
En vista de que se usa 𝑠 en lugar de 𝜎 en la ecuación 𝑠𝑦𝑖 −𝑦̂𝑖 = 𝑠√1 − ℎ𝑖 , la
distribución de probabilidad de los residuales estandarizados no es,
técnicamente, normal. Sin embargo, en la mayoría de los estudios de regresión,
el tamaño de la muestra es lo suficientemente grande como para que sea una
buena aproximación normal.

Así, al trabajar en una gráfica de residuales estandarizados cabe esperar que,


aproximadamente, 95% de los residuales estandarizados están entre -2 y +2.

A continuación presentamos la gráfica de residuales estandarizados en función


de la variable independiente x, para nuestro ejemplo.
Todos los residuales estandarizados están entre -2 y +2, excepto por uno muy
cercano que vale 2.1 para x = 466.429. Por consiguiente, con base en los
residuales estandarizados, prácticamente no tenemos motivos para dudar de la
hipótesis de que 𝜀 tiene una distribución normal. Debido a que se requieren
bastantes cálculos para determinar los valores estimados de 𝑦̂, los residuales y
los residuales estandarizados, la mayoría de los paquetes estadísticos calculan
esos valores como resultado opcional de la regresión. Por consiguiente, se
pueden obtener con facilidad las gráficas de residuales. Para problemas
grandes, esos paquetes de cómputo son la única forma práctica de trazar las
gráficas de residuales.

MODELO DE REGRESION MULTIPLE

Como la Estadística Inferencial nos permite trabajar con una variable a nivel de
intervalo o razón, así también se puede comprender la relación de dos o
más variables y nos permitirá relacionar mediante ecuaciones, una variable en
relación de la otra variable llamándose Regresión Lineal y una variable en
relación a otras variables llamándose Regresión múltiple.
Casi constantemente en la práctica de la investigación estadística, se
encuentran variables que de alguna manera están relacionados entre si, por lo
que es posible que una de las variables puedan relacionarse matemáticamente
en función de otra u otras variables.
1. MARCO TEORICO
REGRESIÓN.-
Se define como un procedimiento mediante el cual se trata de determinar si
existe o no relación de dependencia entre dos o más variables. Es decir,
conociendo los valores de una variable independiente, se trata de estimar
los valores, de una o más variables dependientes.
La regresión en forma gráfica, trata de lograr que una dispersión de las
frecuencias sea ajustada a una línea recta o curva.
Clases de Regresión
La regresión puede ser Lineal y Curvilínea o no lineal, ambos tipos de regresión
pueden ser a su vez:
a. Esta regresión se utiliza con mayor frecuencia en las ciencias económicas,
y sus disciplinas tecnológicas. Cualquier función no lineal, es linealizada
para su estudio y efectos prácticos en las ciencias económicas, modelos no
lineales y lineales multiecuacionales.
Objetivo: Se utiliza la regresión lineal simple para:
1.- Determinar la relación de dependencia que tiene una variable respecto
a otra.
2.- Ajustar la distribución de frecuencias de una línea, es decir, determinar
la forma de la línea de regresión.
3.- Predecir un dato desconocido de una variable partiendo de
los datos conocidos de otra variable.
Por ejemplo: Podría ser una regresión de tipo lineal:
En una empresa de servicio de Internet busca relacionar las ganancias que
obtiene cada computadora con el numero de usuarios que ingresan a dicha
cabina diariamente. En la tabla representa Y (Ganancias S/.) e X (Numero
de usuarios)

Y 100 98 99 102 102 111 97 104 102 96

X 116 96 110 105 99 106 100 109 98 108

Coeficiente de Regresión
Indica el número de unidades en que se modifica la variable dependiente
"Y" por efecto del cambio de la variable independiente "X" o viceversa en
una unidad de medida.
Clases de coeficiente de Regresión:
El coeficiente de regresión puede ser: Positivo, Negativo y Nulo.
Es positivo cuando las variaciones de la variable independiente X son
directamente proporcionales a las variaciones de la variable dependiente
"Y"
Es negativo, cuando las variaciones de la variable independiente "X" son
inversamente proporcionales a las variaciones de las variables
dependientes "Y"
Es nulo o cero, cuando entre las variables dependientes "Y" e
independientes "X" no existen relación alguna.
Procedimiento para hallar el Coeficiente de Regresión
Para determinar el valor del coeficiente de regresión de una manera fácil y
exacta es utilizando el método de los Mínimos Cuadrados de dos maneras:
1.- Forma Directa
De la ecuación de la recta:

Si y , se obtienen a partir de las ecuaciones normales:


Aplicando normales Y sobre X tenemos:

El Coeficiente de Regresión es

De la misma manera la recta de regresión de "X" sobre "Y" será dada de la


siguiente manera:

Dónde: y se obtienen a partir de las ecuaciones normales:

Aplicando normales X sobre Y tenemos:

2.- Forma Indirecta del Método de los Mínimos Cuadrados.


El fundamento de este método es de las desviaciones de X respecto a su
media aritmética. X
Ecuación de y sobre x Ecuación de y sobre x
Donde:

x, y = desviaciones
X = media aritmética
Y = media aritmética
b. Regresión Simple: Este tipo se presenta cuando una variable
independiente ejerce influencia sobre otra variable dependiente. Ejemplo: Y
= f(x)
c. Regresión Múltiple: Este tipo se presenta cuando dos o más variables
independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x,
w, z).

Por ejemplo: Podría ser una regresión de tipo múltiple:


Una Empresa de desarrollo de software establece relacionar sus Ventas en
función del número de pedidos de los tipos de software que desarrolla (Sistemas,
Educativos y Automatizaciones Empresariales), para atender 10 proyectos en el
presente año.
En la Tabla representa Y (Ventas miles de S/.) e X (Nº pedidos de sistemas), W
(Nº de pedidos de Aplicaciones Educativas) y Z (Nº de pedidos de
Automatizaciones empresariales).

Y 440 455 470 510 506 480 460 500 490 450

X 50 40 35 45 51 55 53 48 38 44

W 105 140 110 130 125 115 100 103 118 98

Z 75 68 70 64 67 72 70 73 69 74

Objetivo: Se presentara primero el análisis de regresión múltiple al desarrollar y


explicar el uso de la ecuación de regresión múltiple, así como el error estándar
múltiple de estimación. Después se medirá la fuerza de la relación entre las
variables independientes, utilizando los coeficientes múltiples de determinación.
Análisis de Regresión Múltiple
Dispone de una ecuación con dos variables independientes adicionales:

Se puede ampliar para cualquier número "m" de variables independientes:

Para poder resolver y obtener y en una ecuación de regresión múltiple


el cálculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se
generan por el método de mínimo de cuadrados:

Para poder resolver se puede utilizar programas informáticos como AD+, SPSS
y Minitab y Excel.

El error estándar de la regresión múltiple


Es una medida de dispersión la estimación se hace más precisa conforme el
grado de dispersión alrededor del plano de regresión se hace mas pequeño.
Para medirla se utiliza la fórmula:

Y: Valores observados en la muestra

: Valores estimados a partir a partir de la ecuación de regresión


n : Número de datos
m : Número de variables independientes
El coeficiente de determinación múltiple

Mide la tasa porcentual de los cambios de Y que pueden ser explicados por

, y simultáneamente.

2. APLICACION

Una familia desea estimar los gastos en alimentación (Y) en base a la


información que proporcionan las variables regresoras x1=”ingresos
mensuales” y x2=”número de miembros de la familia”. Para ellos se recoge
una muestra aleatoria simple de 20 familias cuyos resultados son los de la
tabla adjunta. (El gasto e ingreso esta dado en cientos de miles de pesetas).
El modelo esta expresado como:
GASTO = -17.067 + 1.40333 INGRESO + 8.93792 TAMAÑO

Observamos que los valores calculados de los coeficientes de la regresión son


de

𝑏0 = −17.067 𝑏1 = 1.403333 𝑏2 = 8.93792

Podemos interpretar que al aumento o decremento de una unidad de ingreso


abra un incremento o decremento de 1.40333 en el gasto lo mismo para el
tamaño.
COEFICIENTE DE DETERMINACION MULTIPLE
Este coeficiente representa la porción de la variación en Y que se puede explicar
mediante el conjunto de variables elegidas.
𝑆𝑆𝑅
En el ejemplo seria: 𝑟 2 = 𝑆𝑆𝑇

De MINITAB obtenemos que: R-cuad. = 83.5%

Esto nos quiere decir que el 83.5% de la muestra, puede ser explicada por las
variables ingreso y tamaño.
Pero los investigadores sugieren que se calcule el coeficiente r^2 ajustado que
refleje tanto el número de variables explicatorias del modelo como el tamaño de
la muestra.
De MINITAB obtenemos el R-cuad(ajustado) = 81.6%

ANALISIS RESIDUAL EN REGRESION MULTIPLE

1. RESIDUOS ESTANDARIZADOS CONTRA Y

En esta grafica examinamos el patrón de residuos estandarizados parecen variar


para los distintos valores del valor que vamos a predecir.
Como en el grafico podemos observar que no hay patrones entonces podemos
concluir que para el modelo de recesión múltiple es apropiado para predecir el
gasto de la familia.
2. RESIDUOS ESTANDARIZADOS CONTRA X1

3. RESIDUOS ESTANDARIZADOS CONTRA X2

PRUEBA DE IMPORTANCIA DE LA RELACION ENTRE LA VARIABLE


DEPENDIENTE Y LAS VARIABLES EXPLICATIVAS

1. OBJETIVO:
Determinar si existe una relación significativa entre la variable
dependiente y el conjunto de variables explicativas.
2. PRUEBAS

2.1 PRUEBA DE PORCIONES DEL MODELO DE REGRESION


MULTIPLE

El objetivo consiste en emplear solamente aquellas variables que


son de utilidad en la predicción del valor de una variable
dependiente.

Emplearemos el estadístico de prueba F parcial. Explica la


determinación de la contribución a la suma de cuadrados de
regresión hecha por cada variable independiente después de que
todas ellas han sido incluidas en el modelo.

Antes de ver si las variables influyen o no, recordaremos toda la


información brindada por el Minitab.

Análisis de regresión: GASTO vs. INGRESO; TAMAÑO

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 2 13540 6769.8 43.14 0.000
INGRESO 1 13537 13536.8 86.27 0.000
TAMAÑO 1 1451 1450.9 9.25 0.007
Error 17 2668 156.9
Total 19 16207

2.1.2 CONTRIBUCION DE LA VARIABLE X1 SABIENDO QUE


X2 ESTA INCLUIDA

SSR(X1/X2) = SSR (X1YX2)-SSR(X2)

Análisis de regresión: GASTO vs. INGRESO

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 1 12089 12088.8 52.84 0.000
INGRESO 1 12089 12088.8 52.84 0.000
Error 18 4118 228.8
Total 19 16207

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
15.1262 74.59% 73.18% 69.00%

Coeficientes

EE del
Término Coef coef. Valor T Valor p VIF
Constante 20.43 6.32 3.23 0.005
INGRESO 1.247 0.172 7.27 0.000 1.00

Ecuación de regresión

GASTO = 20.43 + 1.247 INGRESO

Ajustes y diagnósticos para observaciones poco comunes

Resid
Obs GASTO Ajuste Resid est.
9 129.00 131.38 -2.38 -0.22 X
15 78.00 37.88 40.12 2.78 R

Residuo grande R
X poco común X

A la variable ingreso le asignamos X2.

SSR(X2)= 12089 y por consiguiente de la ecuación tenemos:

SSR(X1/X2) =SSR (X1YX2)-SSR(X2)

SSR(X1/X2) = 13540-12089 SSR(X1/X2) = 1451

FUENTE G.L SUMA DE CUADRADO F


CUADRADOS MEDIO(VARIANZA)

REGRESION 2 13540 6769.8 9.2455

X1 1 12089 12089

X1/X2 1 1451 1451

ERROR 17 2668 156.94

TOTAL 19 16208

La hipótesis nula y la alternativa para probar la contribución de X1 al modelo


serian.

Ho: la variable x1 no mejora significamente el modelo ya que se ha incluido la


variable x2.

H1: la variable x1 mejora signicativaamente el modelo ya que se ha incluido la


variable x2.

𝑥1
𝑆𝑆𝑅(𝑥2)
𝐹=
𝑀𝑆𝐸
1451
𝐹= = 9.4255
156.94

Puesto que se tienen respectivamente uno y 17 grados de libertad, si se


seleccionan con un nivel de significancia de 0.05 podemos observar que el valor
critico de 4.35

Como el valor de F calculado es mayor que este valor de F crítico (9.4255 mayor
que 4.35), muestra decisión sería rechazar H0.

Concluimos que la variable x1 (tamaño) mejora signicativamente el modelo de


regresión que ya tiene incluida la variable x2(ingreso).

2.1.3 CONTRIBUCION DE LA VARIABLE X2 SABIENDO QUE


X1 ESTA INCLUIDA

Ahora analizaremos la contribución de x2 y x1


SSR(x2/x1)=SSR(x1yx2)-SSR(x1)

Análisis de regresión: GASTO vs. TAMAÑO

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 1 2,8 2,811 0,00 0,956
TAMAÑO 1 2,8 2,811 0,00 0,956
Error 18 16204,4 900,244
Falta de ajuste 3 1526,4 508,796 0,52 0,675
Error puro 15 14678,0 978,533
Total 19 16207,2

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
30,0041 0,02% 0,00% 0,00%

Coeficientes

EE del
Término Coef coef. Valor T Valor p FIV
Constante 60,5 25,1 2,41 0,027
TAMAÑO -0,37 6,62 -0,06 0,956 1,00

Ecuación de regresión

GASTO = 60,5 - 0,37 TAMAÑO

Ajustes y diagnósticos para observaciones poco comunes


Resid
Obs GASTO Ajuste Resid est.
5 125,0 59,1 65,9 2,26 R
7 52,0 58,3 -6,3 -0,26 X
9 129,0 59,4 69,6 2,40 R

Residuo grande R
X poco común X

SSR(X2/X1)= 13540-2.8=13537.2

FUENTE G.L SUMA DE CUADRADO F


CUADRADOS MEDIO(VARIANZA)

REGRESION 2 13540 6769.8 86.257

X1 1 2.8 2.8

X1/X2 1 13537.2 13537.2

ERROR 17 2668 156.94

TOTAL 19 16208

La hipótesis nula y la alternativa para probar la contribución de X1 al modelo


serian.

Ho: la variable x2 no mejora significamente el modelo ya que se ha incluido la


variable x1.

H1: la variable x2 mejora signicativaamente el modelo ya que se ha incluido la


variable x1.

𝑥2
𝑆𝑆𝑅(𝑥1)
𝐹=
𝑀𝑆𝐸

1353.2
𝐹= = 86.257
156.94

Puesto que se tienen respectivamente uno y 17 grados de libertad, si se


seleccionan con un nivel de significancia de 0.05 podemos observar que el valor
critico de 4.35

Como el valor de F calculado es mayor que este valor de F crítico (86.257 mayor
que 4.35), muestra decisión sería rechazar H0.
Concluimos que la variable x2 (ingreso) mejora signicativamente el modelo de
regresión que ya tiene incluida la variable x1(tamaño).

MODELO DE REGRESION CURVILINEO

En nuestro análisis de la regresión simple y en el de regresión múltiple, hemos


supuesto que la relación entre Y y cada variable explicativa es lineal.
Sin embargo, existen varios tipos diferentes de relaciones entre variables. Una
de las relaciones no lineales más comunes es la relación polinomial curvilínea
entre dos variables en la que Y aumenta (o disminuye) con una rapidez variable
para diferentes valores de X
Este modelo de una relación polinomial entre X y Y puede expresarse como:
2
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽11 𝑋1𝑖 + 𝜀𝑖

En la que:

𝛽0: Intersección Y
𝛽1: Efecto lineal en Y
𝛽11: Efecto curvilíneo en Y.
𝜀𝑖 : Error aleatorio en Y para la observación i.

Este modelo de regresión es parecido al modelo de regresión múltiple con dos


variables explicativas, excepto en que la segunda variable explicativa, en este
caso, es justamente el cuadrado de la primera variable.

Los coeficientes de regresión de muestra (𝑏0 , 𝑏1 , 𝑏11) se utilizan como


estimadores de los parámetros de la población. La ecuación de regresión para
el modelo polinomial curvilíneo con una variable explicativa (X1) y una variable
dependiente (Y) es:
2
𝑦̂𝑖 = 𝑏0 + 𝑏1 𝑋1𝑖 + 𝑏11 𝑋1𝑖

Un planteamiento alternativo al modelo de regresión curvilíneo expresado en la


anteriormente consiste en centrar los datos mediante la sustracción de la media
de la variable explicativa de cada valor del modelo.
Este modelo de regresión centrada se presenta en la siguiente ecuación:
2
𝑦̂𝑖 = 𝑏̀0 + 𝑏̀1 (𝑋1𝑖 − 𝑋1 ) + 𝑏11 ((𝑋1𝑖 − 𝑋1 )

Matemáticamente hablando, la ecuación (1) y la ecuación (2) son equivalentes.


Dan los mismos valores para 𝑦̂𝑖 y para 𝑏11 , y explican la misma cantidad de la
variación total.
La diferencia entre los dos métodos se presenta en los términos
correspondientes a la intersección y al efecto lineal.
Ejemplo A partir de los siguientes datos referentes a horas trabajadas en un
taller (X), y a unidades producidas (Y), determinar la recta de regresión de Y sobre
X, el coeficiente de correlación lineal e interpretarlo.

Solución

En primer lugar digitamos los datos en minitab como se muestra:

Luego seguimos los pasos indicados en la siguiente imagen:


Mostrándonos el siguiente reporte:

Análisis de regresión: PRODUCCION vs. HORAS; HORAS*HORAS

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor


p
Regresión 2 9258,03 4629,02 58,63
0,000
HORAS 1 99,35 99,35 1,26
0,291
HORAS*HORAS 1 185,50 185,50 2,35
0,160
Error 9 710,63 78,96
Falta de ajuste 6 576,13 96,02 2,14
0,284
Error puro 3 134,50 44,83
Total 11 9968,67

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
8,88590 92,87% 91,29% 87,18%

Coeficientes

EE del
Término Coef coef. Valor T Valor p FIV
Constante 490 300 1,63 0,137
HORAS -9,50 8,47 -1,12 0,291 683,80
HORAS*HORAS 0,0901 0,0588 1,53 0,160 683,80

Ecuación de regresión

PRODUCCION = 490 - 9,50 HORAS + 0,0901 HORAS*HORAS

PRUEBA CHI CHUADRADO


1. MARCO TEORICO

Esta prueba puede utilizarse incluso con datos medibles en una escala nominal.
La hipótesis nula de la prueba Chi-cuadrado postula una distribución de
probabilidad totalmente especificada como el modelo matemático de la población
que ha generado la muestra.

Para realizar este contraste se disponen los datos en una tabla de frecuencias.
Para cada valor o intervalo de valores se indica la frecuencia absoluta observada
o empírica (Oi). A continuación, y suponiendo que la hipótesis nula es cierta, se
calculan para cada valor o intervalo de valores la frecuencia absoluta que cabría
esperar o frecuencia esperada (Ei=n·pi , donde n es el tamaño de la muestra y
pi la probabilidad del i-ésimo valor o intervalo de valores según la hipótesis nula).
El estadístico de prueba se basa en las diferencias entre la Oi y Ei y se define
como:
Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad
si n es suficientemente grande, es decir, si todas las frecuencias esperadas son
mayores que 5. En la práctica se tolera un máximo del 20% de frecuencias
inferiores a 5.

Si existe concordancia perfecta entre las frecuencias observadas y las


esperadas el estadístico tomará un valor igual a 0; por el contrario, si existe una
gran discrepancia entre estas frecuencias el estadístico tomará un valor grande
y, en consecuencia, se rechazará la hipótesis nula. Así pues, la región crítica
estará situada en el extremo superior de la distribución Chi-cuadrado con k-1
grados de libertad.

La prueba χ² de Pearson se considera una prueba no paramétrica que mide la


discrepancia entre una distribución observada y otra teórica (bondad de ajuste),
indicando en qué medida las diferencias existentes entre ambas, de haberlas, se
deben al azar en el contraste de hipótesis. También se utiliza para probar la
independencia de dos variables entre sí, mediante la presentación de los datos
en tablas de contingencia.
La fórmula que da el estadístico es la siguiente:

Cuanto mayor sea el valor de , menos verosímil es que la hipótesis sea


correcta. De la misma forma, cuanto más se aproxima a cero el valor de chi-
cuadrado, más ajustadas están ambas distribuciones.
Los grados de libertad gl vienen dados por:

Donde r es el número de filas y k el de columnas.

 Criterio de decisión:
No se rechaza cuando . En caso contrario sí se rechaza.
Donde t representa el valor proporcionado por las tablas, según el nivel
de significación estadística elegido.
Tablas de contingencia Se sabe que la información proporcionada por una
tabla bidimensional puede expresarse en términos diversos: frecuencias
absolutas conjuntas, relativas conjuntas, condicionadas de una variable a
valores de la otra. Además puede derivarse el comportamiento
unidimensional de las variables implicadas mediante las distribuciones
marginales. La tabla bidimensional recibe el nombre de tabla de contingencia
cuando las características en estudio no son cuantitativas. Una tabla de doble
entrada para las variables X e Y con p filas y k columnas:

X1 X2 X3 xj

Y1

Y2

yi

Donde nij expresa la frecuencia absoluta observada en las modalidades Xi e


Yj refleja la distribución conjunta de X e Y. La misma tabla puede expresarse
en frecuencias relativas o proporciones sin más que dividir cada casilla nij
por el total N.
La bondad de ajuste de un modelo estadístico describe lo bien que se ajusta
un conjunto de observaciones. Las medidas de bondad en general resumen la
discrepancia entre los valores observados y los que valores esperados en el
modelo de estudio. Tales medidas se pueden emplear en el contraste de
hipótesis, e.g. el test de normalidad de los residuos, comprobar si dos muestras
se obtienen a partir de dos distribuciones idénticas, o si las frecuencias siguen
una distribución específica.

2. APLICACION

PROB. 29 200 hombres de diversos niveles gerenciales, seleccionados al


azar, fueron entrevistados con respecto a su interés o preocupación acerca
de asuntos ambientales. La respuesta de cada persona se registró en una
de tres categorías: interés nulo, algo de interés y gran preocupación. Los
resultados fueron:
Utilice el nivel de significancia 0.01 para determinar si existe relación entre
el nivel directivo o gerencial y el interés en asuntos ambientales.

Sin interes Algo de Bastante total


interes preocupacion
Nivel 1 15 13 12 40
Nivel 2 20 19 21 60
Nivel 3 7 7 6 20
Nivel 4 28 21 31 80
total 70 60 70 200
Planteamos nuestra hipótesis nula y alternativa
Ho: las muestras no son dependientes.
H1: las muestras son dependientes.

Utilizando el software tendremos el cuadro de las frecuencias esperadas y


observadas, porque hacerlo manualmente nos demoraría un poco de tiempo,
pero como nosotros sabemos manejar el software entonces podemos hacer uso
de tal.

Como el valor de p está en la zona de aceptación, aceptamos la hipótesis nula y


decimos que las muestras no son dependientes.
Métodos no paramétricos
En general, para que un método estadístico sea clasificado como no paramétrico
debe satisfacer al menos una de las siguientes condiciones:

 El método se puede usar con datos nominales


 El método se puede usar con datos ordinales
 El método se puede usar con datos de intervalo o de razón cuando no cabe
supuesto alguno sobre la distribución de probabilidad de la población.

Si el nivel de medición de datos es de intervalo o de razón, y si son adecuados


los supuestos necesarios acerca de la distribución de probabilidad de la
población, los métodos paramétricos permiten aplicar métodos estadísticos más
certeros o con más discernimiento. En muchos casos, cuando se puede aplicar
tanto un método no paramétrico como uno paramétrico, el primero es casi tan
bueno como el segundo.

En casos en los que los datos son nominales u ordinales, o cuando son
inadecuados los supuestos requeridos por los métodos paramétricos, sólo se
dispone de métodos no paramétricos. Por los requisitos menos restrictivos sobre
medición de datos, y por la menor cantidad de supuestos necesarios acerca de
la distribución de la población, se considera que los métodos no paramétricos
tienen aplicación más general que los paramétricos.

Prueba del signo


Una aplicación común de la prueba del signo en investigación de mercados
consiste en emplear una muestra de n clientes potenciales para identificar una
preferencia hacia una de dos marcas de un producto, como café, refrescos o
detergentes. Las n expresiones de la preferencia son datos nominales, porque
el consumidor tan sólo nombra o identifica una preferencia.

Con estos datos, el objetivo es determinar si hay una diferencia entre las
preferencias hacia los dos artículos que se comparan. Como veremos, la prueba
de signo es un procedimiento estadístico no paramétrico para contestar
preguntas como ésta.

Caso muestra pequeña


Se debe considerar que, en una prueba de signo, se tiene el caso de muestra
pequeña cuando 𝑛 ≤ 20.

Problema de ejemplo:
Toyota quiere probar que el último modelo de auto que ha fabricado da la mayor
comodidad al conductor que cualquier otro auto de la misma línea en el mercado,
para ello decide compararlo con el último modelo fabricado por Chevrolet. Toma
una muestra de 8 personas a las cuales les hace manejar los dos autos sin que
sepa cuál de los dos es el de la competencia. Después de la experiencia los
individuos indicaron cuál de los dos autos preferían.

Individuo Marca preferida Dato registrado


1 Toyota +
2 Chevrolet -
3 Toyota +
4 Toyota +
5 Toyota +
6 Toyota +
7 Toyota +
8 Toyota +

Solución:

Primero se plantean las hipótesis:


𝐻0 : 𝑝 = 0.5
𝐻1 : 𝑝 ≠ 0.5

Usamos el signo + para referirnos a la preferencia hacia Toyota.

Hallamos las probabilidades binomiales para la cantidad de signos positivos:

Probabilidades binomiales con n = 8 y p = 0.5


N° de signos positivos Probabilidad
0 0.003906
1 0.031250
2 0.109375
3 0.218750
4 0.273438
5 0.218750
6 0.109375
7 0.031250
8 0.003906

Utilizando un nivel de significancia 𝛼 = 0.1 establecemos la regla de rechazo:

“Rechazar la hipótesis nula si la cantidad de signos negativos es menor de 2 o


mayor de 6”

Al observar los datos notamos que la cantidad de signos negativos es 1, por


lo tanto se debe rechazar la hipótesis nula. Esto significa que sí existe una
preferencia por la marca Toyota.

Para emplear este tipo de pruebas en el programa debemos ir a:


Estadísticas/No paramétricos/Prueba de signo para 1 muestra
Nos arrojará el siguiente resultado:

Prueba de signos para mediana: C1

Prueba del signo de la mediana = 0.00000 vs. no = 0.00000

N Debajo Igual Arriba P Mediana


C1 8 1 0 7 0.0703 1.000

De donde vemos que el valor de p es menor que el nivel de significancia de la


prueba y por ello se rechaza, llegando a la misma conclusión.

Caso muestra grande


Con la hipótesis nula 𝐻0 : p = 0.50 y un tamaño de muestra n > 20, se puede
aproximar la distribución muestral del número de signos positivos mediante una
distribución de probabilidad normal.

En este caso utilizaremos:


𝜇 = 0.50 𝑛
𝜎 = √0.25𝑛
𝑥−𝜇
𝑧=
𝜎
Problema ejemplo:
Se debe hacer la siguiente prueba de hipótesis:
𝐻0 : 𝜇 = 1800
𝐻1 : 𝜇 ≠ 1800
Una muestra de tamaño 150 produce 100 casos con valor mayor que 1800, 20
con valor exacto de 1800 y 30 con menos de 1800. Use 𝛼 = 0.01 para esta
prueba de hipótesis.

Solución:

Como ya nos dan las hipótesis y el nivel de significancia pasamos


directamente a encontrar el valor crítico de nuestro estadístico:

𝑧𝑐𝑟í𝑡𝑖𝑐𝑜 = 1.28

Establecemos la regla de rechazo:


“Rechazar la hipótesis nula si el valor de Z es mayor que 1.28”
Ahora calculamos el valor de nuestro estadístico, para ello primero hallamos
sus parámetros:

𝜇 = 0.50(130) = 65
𝜎 = √0.25(130) = 5.70
100 − 65
→𝑍= = 6.14
5.70

Vemos que el valor de Z es mayor que 1.28, por lo tanto se rechaza la


hipótesis nula. Lo que significa que la mayoría de casos tienen una media
distinta de 1800.

Prueba de rango con signo de Wilcoxon


La prueba de rango con signo de Wilcoxon es la alternativa no paramétrica de la
prueba de muestra paramétrica pareada. En el caso de la muestra pareada, cada
unidad experimental genera dos observaciones pareadas o ajustadas, una de la
población 1 y otra de la población 2. Las diferencias entre las observaciones
pareadas permiten tener una perspectiva acerca de las diferencias entre las dos
poblaciones.

La metodología del análisis paramétrico de muestra pareada requiere de datos


de intervalo y del supuesto de que la población de las diferencias entre los pares
de observaciones tengan distribución normal. Con este supuesto se puede usar
la distribución t para probar la hipótesis nula: no hay diferencia entre las medias
poblacionales. Si no es adecuado el supuesto de diferencias con distribución
normal, se puede aplicar la prueba de rango con signo de Wilcoxon.

Se considera en esta prueba:


𝜇𝑇 = 0

𝑛(𝑛 + 1)(2𝑛 + 1) 𝑇 − 𝜇𝑇
𝜎𝑇 = √ , 𝑍=
6 𝜎𝑇

Siempre y cuando 𝑛 ≥ 10

Problema de ejemplo
En una planta industrial se está probando un nuevo método de producción que
se espera sea más eficiente que el anterior en términos de tiempos de
fabricación. El método de producción empleado primero por cada trabajador se
determinó en forma aleatoria. Así, cada trabajador de la muestra produjo un par
de observaciones, como se pude observar en la siguiente tabla:

Empleado Método nuevo Método antiguo Diferencia


1 1.23 1.52 -0.29
2 2.50 2.00 0.50
3 1.75 1.85 -0.10
4 1.64 1.90 -0.26
5 2.01 2.35 -0.34
6 1.90 2.26 -0.36
7 1.55 1.84 -0.29
8 1.40 1.30 +0.10
9 1.90 2.25 -0.35
10 1.75 1.84 -0.09
Una diferencia positiva entre los tiempos de terminación del lote indica que el
método nuevo requirió más tiempo, y la diferencia negativa indica que el método
antiguo requirió más tiempo.

Solución:

Planteamos las hipótesis

𝐻0 : 𝑙𝑎𝑠 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑠𝑜𝑛 𝑖𝑑é𝑛𝑡𝑖𝑐𝑎𝑠


𝐻1 : 𝑙𝑎𝑠 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑛𝑜 𝑠𝑜𝑛 𝑖𝑑é𝑛𝑡𝑖𝑐𝑎𝑠

Consideramos un nivel de significancia 𝛼 = 0.05 con lo cual tenemos un


𝑍𝑐𝑟í𝑡𝑖𝑐𝑜 = ±1.96

Establecemos nuestra regla de rechazo:

“Rechazar la hipótesis nula si Z es menor que -1.96 o mayor a +1.96”

Ahora completamos la tabla

Empleado Diferencia Valor absoluto Rango Con signo


1 -0.29 0.29 5.5 -5.5
2 0.50 0.50 10 +10
3 -0.10 0.10 2.5 -2.5
4 -0.26 0.26 4 -4
5 -0.34 0.34 7 -7
6 -0.36 0.36 9 -9
7 -0.29 0.29 5.5 -5.5
8 +0.10 0.10 2.5 +2.5
9 -0.35 0.35 8 -8
10 -0.09 0.09 1 -1
Suma -30
Calculamos el estadístico:

𝑛(𝑛 + 1)(2𝑛 + 1)
𝜎𝑇 = √ = 19.62
6
𝑇 − 𝜇 𝑇 −30 − 0
→𝑍= = = −1.53
𝜎𝑇 19.62

Notamos que Z es mayor que -1.96, por lo tanto no rechazamos 𝐻0 . Lo que


significa que las poblaciones son idénticas, es decir que no existe diferencia
significativa entre el antiguo y el nuevo método de producción.

Con Minitab simplemente se ingresan los datos y se va a:

Estadísticas/No paramétricos/Wilcoxon de 1 muestra

Con lo cual se obtiene:


Prueba de clasificación con signos de Wilcoxon: Diferencia

Prueba de la mediana = 0.000000 vs. la mediana no = 0.000000

Número
de Estadística Mediana
N prueba de Wilcoxon P estimada
Diferencia 10 10 12.5 0.139 -0.1950

De aquí podemos notar que el valor p es 0.139 el cual es mayor que el nivel
de significancia, por lo tanto no se rechaza la hipótesis nula y se llega a la
misma conclusión.

Prueba de Mann-Whitney-Wilcoxon
1. MARCO TEORICO

En estadística la prueba U de Mann-Whitney (también llamada de Mann-


Whitney-Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de Wilcoxon-
Mann-Whitney) es una prueba no paramétrica aplicada a dos muestras
independientes. Es, de hecho, la versión no paramétrica de la habitual prueba t
de Student.
Fue propuesto inicialmente en 1945 por Frank Wilcoxon para muestras de igual
tamaños y extendido a muestras de tamaño arbitrario como en otros sentidos
por Henry B. Mann y D. R. Whitney en 1947.
La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de dos
muestras ordinales. El planteamiento de partida es:

1. Las observaciones de ambos grupos son independientes


2. Las observaciones son variables ordinales o continuas.
3. Bajo la hipótesis nula, la distribución de partida de ambos grupos es la
misma y,
4. Bajo la hipótesis alternativa, los valores de una de las muestras tienden a
exceder a los de la otra: P(X > Y) + 0.05 P(X = Y) > 0.05.

Para calcular el estadístico U se asigna a cada uno de los valores de las dos
muestras su rango para construir

donde n1 y n2 son los tamaños respectivos de cada muestra; R1 y R2 es la


suma de los rangos de las observaciones de las muestras 1 y 2
respectivamente.
El estadístico U se define como el mínimo de U1 y U2.
Los cálculos tienen que tener en cuenta la presencia de observaciones
idénticas a la hora de ordenarlas. No obstante, si su número es pequeño, se
puede ignorar esa circunstancia.
La prueba calcula el llamado estadístico U, cuya distribución para muestras con
más de 20 observaciones se aproxima bastante bien a la distribución normal.
La aproximación a la normal, z, cuando tenemos muestras lo suficientemente
𝑢−𝑚𝑈
grandes viene dada por la expresión: z= 𝜎𝑢

Donde mU y σU son la media y la desviación estándar de U si la hipótesis nula


es cierta, y vienen dadas por las siguientes fórmulas:

1. El presidente ejecutivo de CEO Airlines, noto un aumento en el


número de pasajeros no registrados, en vuelos que salen de Atlanta.
Esta particularmente interesado en determinar si hay más pasajeros
no registrados en vuelos que salen de Atlanta que en los vuelos que
parten de Chicago. La tabla 16.4 presenta una muestra de 9 vuelos
de Atlanta y ocho de Chicago. Al nivel de significancia 0.05 ¿se
puede concluir que hay más pasajeros no registrados en los vuelos
que salen de Atlanta?
Planteamos nuestra hipótesis nula:
Ho: la distribución de pasajeros no registrados es la misma en Atlanta que en
Chicago.
H1: la distribución de pasajeros no registrados es mayor en Atlanta que en
Chicago.

Como ya tenemos los datos, entonces tenemos que ordenar o darle el rango
respectivo. Así obtenemos un cuadro donde colocamos el rango y los datos ya
dados.

Nuestro estadístico de prueba sería el de Wilcoxon para una muestra grande.


El algoritmo seria el siguiente:
Hallamos la media y desviación estándar.
𝜇 = .5 ∗ 𝑛1(𝑛1 + 𝑛2 + 1) 𝜇 = .5 ∗ 9(9 + 8 + 1)  𝜇 = 81

1 1
𝜎 = √12 ∗ 𝑛1 ∗ 𝑛2 ∗ (𝑛1 + 𝑛2 + 1) 𝜎 = √12 ∗ 9 ∗ 8 ∗ (9 + 8 + 1)𝜎 = 10.3923

Y tomamos el valor de W=96.5

𝑊−𝜇 96.5−81
𝑧= 𝑧 =  𝑧 = 1.49
𝜎 10.3923
Puesto que el valor calculado z(1.49) es menor que 1.65, no se rechaza la
hipótesis nula. La evidencia no muestra diferencia en el número típico de
pasajeros no registrados.

2. PRUEBA DE KRUSWALL-WALLIS

Esta prueba estadística de análisis de varianza de entrada simple de Kruskal-


Wallis es una extensión de la prueba de U Mann-Whitney, en razón de que se
usan rangos para su aplicación; por otra parte, este procedimiento se emplea
cuando el modelo experimental contiene más de dos muestras independientes.
Dicha prueba se define matemáticamente de la forma siguiente:
𝑘
12 𝑅𝑖 2
𝑊=[ ∑ ] − 3(𝑛𝑡 + 1
𝑛𝑡(𝑛𝑡 + 1) 𝑛𝑖
𝑖=1

Se utiliza cuando:
 Cuando son diferentes tratamientos o condiciones.

 Muestras pequeñas.

 Se utiliza escala ordinal.

 Si las muestras se seleccionaron de las diferentes poblaciones.

 Contrastar hipótesis (direccional o no direccional).

Pasos:
1. Ordenar las observaciones en rangos de todos los grupos, del más
pequeño al mayor.

2. Asignar el rango para cada observación en función de cada grupo de


contraste, elabora la sumatoria de rangos, elevar al cuadrado este valor y
dividirlo entre el número de elementos que contiene (ni).

3. Detectar las ligas o empates entre los rangos de cada grupo y aplicar la
ecuación (L) para obtener el ajuste.

4. Aplicar la ecuación de Kruskal-Wallis y obtener el estadístico H.

5. Calcular los rangos de libertad (gl): gl = K grupos - 1.

6. Comparar el estadístico H, de acuerdo con los grados de libertad, en la


tabla de distribución de ji cuadrada en razón de distribuirse de forma
similar.
7. Decidir si se acepta o rechaza la hipótesis.

Ejemplo:
Un investigador estudia el efecto benéfico de cuatro sustancias
anticonvulsionantes (fenobarbital, difenilhidantoinato -DFH-, diacepam y
clonacepam), para proteger contra la muerte producida por un
convulsionante, la tiosemicarbazida, la cual se manifiesta después de
crisis clónica y tónica, respectivamente. El investigador elige al azar a 24
ratones de la misma edad y peso y les inyecta anticonvulsionante
previamente a la tiosemicarbazida. A partir de este momento, inicia la
cuenta en tiempo, hasta que mueren los ratones; además mide las
observaciones en horas de tiempo transcurrido.

Elección de la prueba estadística.


Las mediciones se realizan en horas, por lo que la variable puede ser continua
y, en consecuencia, una escala de intervalo; sin embargo, algunos ratones no
murieron y el tiempo está calificado nominalmente como infinito. Este obstáculo
impide concederle la calificación de escala de intervalo, por lo cual se elige una
escala de tipo ordinal. Véase: Estadística/Flujogramas/Flujograma 4

Planteamiento de la hipótesis.

Hipótesis alterna (Ha). La protección de la muerte por drogas anticonvulsionante


contra el fármaco convulsionante tiosemicarbazida, se muestra diferente entre
los cuatro grupos, y hay mejor protección por el diacepam.
Hipótesis nula (Ho). Las diferencias observadas en los cuatro grupos de
fármacos anticonvulsionantes, para evitar la muerte producida por la
tiosemicarbazida, se deben al azar.

Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se
rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
Tiempo en horas que tarda el fármaco en causar la muerte en ratones.

FENOBARBITAL DFH DIACEPAM CLONACEPAM


2 .5 M 4
4 1 M 3
6 6 8 5
4 6 9 1
2 .3 M 6
1 .4 8 3

Aplicación de la prueba estadística.


Una vez efectuado el ordenamiento en rangos de las observaciones, se hacen
las sumatorias de los rangos. Para facilitar esta tarea, elabórese una tabla en la
que sustituyan los datos.
Sustitución por rangos. Observaciones de la primera tabla.

12 4096 1296 16641 5046


𝑊=[ ( + + + ] − 3 ∗ (24 + 1)
24 ∗ 25 6 6 6 6
W=15.263333
Calculamos los grados de libertad.
gl = K grupos - 1 = 4 - 1 = 3
El estadístico W calculado de 15.4, se compara con los valores críticos de ji
cuadrada. En seguida se busca en esa hilera la cifra de grados de libertad (3)
hasta el nivel de significancia de 0.05 y se observa el valor 7.82, hasta los críticos
11.34 y 16.27, donde se encuentra el calculado. Esto quiere decir que la
probabilidad de que exista una diferencia se halla a una probabilidad de error
entre 0.01 y 0.001.
Decisión.
Como el valor estadístico H tiene una probabilidad menor que 0.01 y éste es
menor que el nivel de significancia, se acepta Ha y se rechaza Ho.
Interpretación.
Entre las drogas anticonvulsionantes, existe diferencia significativa en cuanto a
la protección de muerte a los ratones cuando se les inyecta el fármaco
tiosemicarbazida. El diacepam se manifestó principalmente con los rangos más
altos y se muestra distinto de los demás anticonvulsionantes

3. COEFICIENTE DE CORRELACION DE RANGOS DE SPEARMAN

En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una


medida de la correlación (la asociación o interdependencia) entre dos variables
aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados
por su respectivo orden.
El estadístico ρ viene dado por la expresión:
6 ∗ ∑ 𝑑𝑖 2
𝑟2 = 1 −
𝑛(𝑛2 − 1)

donde D es la diferencia entre los correspondientes estadísticos de orden


de x - y. N es el número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de
ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente
aproximación a la distribución t de Student
𝜌
𝑡= 2
√(1−𝜌 )
𝑛−2

La interpretación de coeficiente de Spearman es igual que la


del coeficiente de correlación de Pearson. Oscila entre -1 y +1,
indicándonos asociaciones negativas o positivas respectivamente, 0
cero, significa no correlación pero no independencia. La tau de
Kendall es un coeficiente de correlación por rangos, inversiones entre
dos ordenaciones de una distribución normal bivariante.
APLICACION
Un investigador está interesado en conocer si el desarrollo mental de un
niño esta asociado a la educación formal de su madre. De esta manera,
obtiene la calificación de desarrollo mental en la escala de Gesell de ocho
niños elegidos aleatoriamente y se informa del grado de escolaridad de
las madres.
Elección de la prueba estadística.
Se desea medir asociación o correlación. Las calificaciones de la
educación formal de las madres están dadas en una medición cualitativa,
pero tienen una escala ordinal, por lo cual es posible ordenarlas en
rangos.
Planteamiento de la hipótesis.
 Hipótesis alterna (Ha). El desarrollo mental de los hijos es una variable
dependiente de la educación formal de la madre; por lo tanto, existe una
correlación significativa.
 Hipótesis nula (Ho). La asociación entre las variables de educación
formal de la madre y el desarrollo mental de los hijos no es significativa,
ni hay correlación.

Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y
se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se
rechaza Ha.
Desarrollo mental de algunos niños y escolaridad de las madres.

Aplicación de la prueba estadística.


Las observaciones de cada variable se deben ordenar en rangos, así
como obtener las diferencias entre los rangos, efectuar la sumatoria y
elevar ésta al cuadrado.
Educación de algunas madres y calificación de desarrollo mental de los
hijos.

Calculo de rs de Spearman.

Calculo de los grados de libertad (gl).


gl = número de parejas - 1 = 8 - 1 = 7
El valor rs calculado se compara con los valores críticos de rs del
coeficiente de correlación por rangos de Spearman.
El valor crítico de rs con 7 grados de libertad, para una probabilidad de
0.05 del nivel de significancia es 0.714, o sea, mayor que el calculado. Por
lo tanto, éste tiene una probabilidad mayor que 0.05.
Decisión.
Como el valor de probabilidad de rs de 0.69 es mayor que 0.05, se acepta
Ho y se rechaza Ha.
Interpretación.
El coeficiente de correlación de Spearman de 0.69 es menor que los
valores críticos de la tabla, pues a éstos corresponde la probabilidad de
obtener esa magnitud, al nivel de confianza de 0.05 y 0.01, para 0.714 y
0.893. Esto significa que para aceptar Ha, se requiere tener un valor igual
o más alto que 0.714. Por lo tanto se acepta Ho y se rechaza Ha, aun
cuando, como se observa en la siguiente figura, existe una asociación
relativa entre la educación formal de la madre y el desarrollo mental de
sus hijos; sin embargo, ésta no es significativa.

S-ar putea să vă placă și