Documente Academic
Documente Profesional
Documente Cultură
DE SAN MARCOS
Grupo: 1
INTEGRANTES:
𝑥 − 𝜇0
𝑍=
𝜎𝑥
𝜎 𝑠
𝜎𝑥 = =
√𝑛 √𝑛
TRES FORMAS DE RECHAZAR 𝑯𝟎
1. Comparación del valor critico de Z a un determinado nivel de significancia
con el valor del estadístico de prueba
2. Mediante el valor de P
El valor de p es menor al Si No
Nivel de significancia Rechazar la hipótesis No rechazar la hipótesis
Especificado? nula nula
σ
x ± Zα⁄2
√n
𝐻0 : 𝜇 ≤ 25
𝐻1 : 𝜇 > 25
En una muestra de 40, la media muestral fue 26.4. La desviación estándar es
6.
a) Calcule el valor del estadístico de prueba.
b) ¿Cuál es el valor de p?
c) Use ∝= 0.01, ¿Cuál es su conclusión?
d) ¿Cuál es la regla de rechazo si usa el método del valor critico? ¿Cuál es
su conclusión?
Solución
De los datos del problema se tiene:
𝑛 = 40 𝑠=6 ∝= 0.01 𝑥̅ = 26.4
𝑥 − 𝜇0 26.4 − 25
𝑍= = = 1.4757
𝑠⁄√n 6⁄√40
b) Calculo del valor de p
Z de una muestra
Error
estándar Límite
de la inferior
N Media media de 99% Z P
40 26,400 0,949 24,193 1,48 0,070
Para emitir una conclusión observamos el reporte anterior nos damos cuenta que
tenemos el valor de p, por lo que con dicho valor tomaremos la decisión
respectiva, es decir, no se rechaza la hipótesis nula ya que el valor de p es mayor
que el valor del nivel de significancia, por lo que la diferencia entre la media
muestral y la media poblacional hipotética no es significativa.
Problema En 2001, el U.S. Department Labor informó que el salario por hora
promedio para los trabajadores de la producción en Estados Unidos era $14.32
por hora (The World Almanac 2003). En 2003, en una muestra de 75
trabajadores de la producción, la media muestral fue $14.68 por hora. Si la
desviación estándar poblacional es $1.45, ¿se puede concluir que ha habido un
aumento en la media del salario por hora? Use α = 0.05
Solución
Para resolver este problema seguiremos los pasos indicados en el marco teórico
expuestos anteriormente, pero antes de ello ordenamos los datos del problema:
𝑛 = 75 𝑠 = 1.45 ∝= 0.05 𝑥̅ = 14.68
𝐻0 : 𝜇 ≤ 14.32
𝐻1 : 𝜇 > 14.32
Error
estándar Límite
de la inferior
N Media media de 95% Z P
75 14,680 0,167 14,405 2,15 0,016
Para emitir una conclusión observamos el reporte anterior nos damos cuenta que
tenemos el valor de p, por lo que con dicho valor tomaremos la decisión
respectiva, es decir, se rechaza la hipótesis nula ya que el valor de p es menor
que el valor del nivel de significancia, por lo que la diferencia entre la media
muestral y la media poblacional hipotética no es significativa, además se
concluye que ha habido un aumento en la media del salario por hora.
𝑝̅ −𝑝 𝑝(1−𝑝)
𝑍= 𝛿𝑝̅ = √
𝛿𝑝
̅ 𝑛
Donde:
𝑝̅ = la proporción de la muestra
𝑝 = la proporción poblacional de la hipótesis
𝑛 = tamaño de la muestra
𝛿𝑝̅ = error estándar de la distribución de la proporción muestral.
Problema de ejemplo:
El dueño de la famosa cadena de cafeterías Starbucks desea saber si la
proporción de mujeres que acuden a su negocio es mayor o igual al 60% del total
de personas para que lleve a cabo una campaña de marketing dirigida
principalmente a ellas. Para comprobarlo realiza un muestreo de 40 personas en
la que se encontró que la cantidad de mujeres que acudían a sus cafeterías era
del 23. Si la prueba fue realizada bajo un nivel de significancia del 0.1, ¿el
empresario debe llevar a cabo esta campaña de marketing?
Solución:
Mediante el método clásico
Ahora elegimos el nivel de significancia, por dato del problema éste debe ser
de 0.1
𝛼 = 0.1
𝑝̅ − 𝑝 𝑝̅ − 𝑝 0.575 − 0.60
𝑍= = = = −0.32
𝛿𝑝̅
√𝑝(1 − 𝑝) √0.6(1 − 0.6)
𝑛 40
Comparamos ambos valores. Vemos que Z es mayor que su valor crítico, por
lo tanto no se rechaza la hipótesis nula.
Mediante Minitab
Además se sabe que el intervalo de confianza para este tipo de pruebas es:
𝑠2 𝑠2
(𝑥̅1 − 𝑥̅2 ) ± 𝑧𝛼/2 √ 1 + 2
𝑛1 𝑛2
Problema de ejemplo:
Los profesores del curso de Estadística Industrial de la UNMSM desean saber si
las medias de los promedios finales de sus alumnos de dos facultades distintas
son iguales. Para ello toman muestras de 32 y 36 alumnos de las cuales se
obtiene que la nota de la facultad 1 era 15 y de la segunda era 13, con
desviaciones estándar de 1.2 y 1.5, respectivamente.
Solución:
Mediante el método clásico
𝐻0 : 𝜇1 − 𝜇2 = 0
𝐻1 : 𝜇1 − 𝜇2 ≠ 0
Comparamos ambos valores. Vemos que Z es mayor que su valor crítico, por
lo tanto se rechaza la hipótesis nula.
Esto nos indica que sí existe una diferencia significativa entre las medias de
los promedios de las notas del curso de Estadística Industrial entre dos
facultades distintas de la UNMSM.
Mediante Minitab
Z-Value 6.09994
P-Value 0.000000001
𝑝1 − 𝑝2
𝑍=
1 1
√𝑝̅ (1 − 𝑝̅) (
𝑛1 + 𝑛2 )
donde:
𝑝1 y 𝑝2 : proporciones muestrales
𝑛1 y 𝑛2 : tamaños de las muestras
𝑝̅ : Estimación combinada de la proporción poblacional
𝑛1 𝑝1 + 𝑛2 𝑝2
𝑝̅ =
𝑛1 + 𝑛2
Cuando la diferencia hipotética es 1 − 𝜋2 )0 ≠ 0
(𝜋
(𝑝1 − 𝑝2 ) − (𝜋1 − 𝜋2 )0
𝑍=
𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
√ −
𝑛1 𝑛2
𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
(𝑝1 − 𝑝2 ) ± 𝑍𝛼/2 √ −
𝑛1 𝑛2
Problema de ejemplo:
En un sondeo de opinión 60 de 200 estudiantes del sexo masculino han
expresado su disgusto sobre la forma de dirigir el directivo de la institución, de la
misma forma han opinado 75 de 300 alumnos del sexo femenino. Se quiere
saber si existe una diferencia real de opinión entre los alumnos y las alumnas.
Para realizar el contraste de hipótesis de las proporciones utilice un nivel de
significancia de 5%
Solución:
Mediante el método clásico
𝐻0 : 𝜋1 − 𝜋2 = 0
𝐻1 : 𝜋1 − 𝜋2 ≠ 0
Ahora elegimos el nivel de significancia, el problema ya nos asigna un nivel
de significancia
𝛼 = 0.05
60 75
𝑝1 = = 0.3 , 𝑝2 = = 0.25
200 300
𝑝1 − 𝑝2 0.30 − 0.25
𝑍= = = 1.23
1 1
√𝑝̅(1 − 𝑝̅ ) ( + ) √0.27(1 − 0.27) ( 1 + 1 )
𝑛1 𝑛2 200 300
Comparamos ambos valores. Vemos que Z es menor que su valor crítico, por
lo tanto no se rechaza la hipótesis nula.
Esto nos indica que no existe una diferencia significativa entre las opiniones
sobre la forma de dirigir del directivo de la institución por parte de los
estudiantes de distintos sexos.
Mediante Minitab
Muestra X N Muestra p
1 60 200 0.300000
2 75 300 0.250000
Diferencia = p (1) - p (2)
Estimado de la diferencia: 0.05
IC de 95% para la diferencia: (-0.0302150; 0.130215)
Prueba para la diferencia = 0 vs. no = 0: Z = 1.23 Valor P = 0.217
Otro hecho resaltante, y que demuestra aún más la utilidad del programa, es
que nos da el intervalo de confianza: -0.030 y 0.13 para la diferencia de
proporciones. Vemos que en ella se contiene el valor de cero, la cual es otra
forma de comprobar que no se debe rechazar 𝐻0 .
ESTADISTICO DE PRUEBA T:
𝑥 − 𝜇0
𝑡=
𝑠𝑥
𝑠
𝑠𝑥 =
√𝑛
INTERVALO DE CONFIANZA:
s
x ± tα⁄2
√n
Prueba de dos colas:
(𝑥−𝜇0 )√𝑛
Al aplicar la ecuación 𝑡= con 𝑛 = 28 𝑠 = 1.052 𝑥̅ = 7.38, el valor
𝑠
del estadístico de prueba es:
T de una muestra
Error
estándar Límite
de la inferior
N Media Desv.Est. media de 95% T P
28 7,380 1,052 0,199 7,041 1,91 0,033
Para emitir una conclusión observamos el reporte anterior nos damos cuenta que
tenemos el valor de p, por lo que con dicho valor tomaremos la decisión
respectiva, es decir, se rechaza la hipótesis nula ya que el valor de p es menor
que el valor del nivel de significancia, se concluye que Heathrow se debe
considerar como aeropuerto de servicio superior.
Supones que:
Las desviaciones estándar poblacionales (que se desconocen son
iguales).
Las poblaciones tienen una distribución aproximadamente normal.
Estadístico de prueba:
(𝑥1 − 𝑥2 ) − (𝜇1 − 𝜇2 )
𝑡=
1 1
√𝑠 2 𝑝 ( + )
𝑛1 𝑛2
(𝑛1 − 1)𝑠 21 + (𝑛2 − 1)𝑠 2 2
𝑠𝑝2 =
𝑛1 + 𝑛2 − 2
𝑔𝑙 = 𝑛1 + 𝑛2 − 2
Intervalo de confianza para 𝜇1 − 𝜇2
1 1
(𝑥1 − 𝑥2 ) ± tα⁄2 √𝑠𝑝2 ( + )
𝑛1 𝑛2
Problema En las zonas costeras de Estados Unidos, Cape Cod, Outer Banks,
las Carolinas y la costa del Golfo, hubo, durante los años noventa, un crecimiento
relativamente rápido de la población. Los datos recolectados son sobre las
personas que viven tanto en zonas costeras como en zonas no costeras de todo
Estados Unidos (USA Today, 21 de julio de 2000). Suponga que se obtuvieron
los resultados muéstrales siguientes sobre las edades de estas dos poblaciones
de personas.
Zona costera Zona no costera
𝑛1 = 150 𝑛2 = 175
𝑥1 = 39.3 𝑥2 = 35.4
𝑠1 = 16.8 𝑠2 = 15.2
Pruebe la hipótesis de que no hay diferencia entre las dos medias poblacionales.
Use α = 0.05.
a. Formule las hipótesis nula y alternativa.
b. ¿Cuál es el valor del estadístico de prueba?
c. ¿Cuál es el valor critido de t? y formule la regla de rechazo.
d. ¿Aqué conclusión llega?
Solucion
a) Formulacion de la hipotesis nula y alternativa:
𝐻0 : 𝜇1 − 𝜇1 = 0
𝐻1 : 𝜇1 − 𝜇1 ≠ 0
b) Calculo del estadístico de prueba con
Se tiene:
(𝑛1 − 1)𝑠 21 + (𝑛2 − 1)𝑠 2 2
𝑠𝑝2 =
𝑛1 + 𝑛2 − 2
(150 − 1)16.82 + (175 − 1)15.22
𝑠𝑝2 = = 254.6586
150 + 175 − 2
Luego:
(𝑥1 − 𝑥2 ) − (𝜇1 − 𝜇2 )
𝑡=
1 1
√𝑠 2 𝑝 ( + )
𝑛1 𝑛2
(39.3 − 35.4) − 0
𝑡= = 2.1964
√254.65862 ( 1 + 1 )
150 175
𝑔𝑙 = 𝑛1 + 𝑛2 − 2
Error
estándar
de la
Muestra N Media Desv.Est. media
1 150 39,3 16,8 1,4
2 175 35,4 15,2 1,1
Para emitir una conclusión observamos el reporte anterior nos damos cuenta que
tenemos el valor de p, por lo que con dicho valor tomaremos la decisión
respectiva, es decir, se rechaza la hipótesis nula ya que el valor de p es menor
que el valor del nivel de significancia, se concluye que hay diferencias entre las
dos medias poblacionales de la edades en las zonas costeras de Estados
Unidos, Cape Cod, Outer Banks, las Carolinas y la costa del Golfo, hubo, durante
los años noventa.
COMPARACION DE DOS MEDIAS CUANDO LAS MUESTRAS SON
DEPENDIENTES:
Hay ocasiones en las que necesitamos poner a prueba hipótesis concernientes
a muestras que no son independientes. Por ejemplo, tal vez necesitamos
examinar la productividad de los empleados antes y después de un cambio en el
diseño de su puesto de trabajo, o comparar las velocidades de lectura de las
personas que participan en un curso de lectura rápida antes y después del curso.
En tales casos, en realidad no tenemos dos muestras diferentes de personas,
sino mediciones de antes y después de las mismas personas. Como resultado,
sólo habrá una variable: la diferencia registrada para cada persona.
Las hipótesis nula y alternativa será una de las siguientes, con el valor calculado
del estadístico de la prueba como se aprecia aquí:
Hipótesis nula Hipótesis alternativa Tipo de prueba
𝐻0 : 𝜇𝑑 = 0 𝐻1 : 𝜇𝑑 ≠ 0 Dos colas
𝐻0 : 𝜇𝑑 ≥ 0 𝐻1 : 𝜇𝑑 < 0 Cola izquierda
𝐻0 : 𝜇𝑑 ≤ 0 𝐻1 : 𝜇𝑑 > 0 Cola derecha
𝑑
𝑡=
𝑠𝑑 ⁄√𝑛
𝑑 = 𝑥1 − 𝑥2 es la diferencia entre las dos mediciones para cada unidad de la
prueba.
∑ 𝑑𝑖
𝑑=
𝑛
2
√ ∑ 𝑑𝑖2 − 𝑛𝑑
𝑠𝑑 =
𝑛−1
𝑔𝑙 = 𝑛 − 1
Intervalo de confianza pada 𝜇𝑑 :
𝑑 ± tα⁄2 𝑠𝑑 ⁄√𝑛
𝑑 0.30 − 0
𝑡= = = 2.20
𝑠𝑑 ⁄√𝑛 0.335⁄√6
Error
estándar
de la
N Media Desv.Est. media
Metodo 1 6 6,100 0,654 0,267
Metodo 2 6 5,800 0,460 0,188
Diferencia 6 0,300 0,335 0,137
Para emitir una conclusión observamos el reporte anterior nos damos cuenta que
tenemos el valor de p, por lo que con dicho valor tomaremos la decisión
respectiva, es decir, no se rechaza la hipótesis nula ya que el valor de p es
mayor que el valor del nivel de significancia, se concluye que no existen
diferencias en los tiempos entre los dos métodos para realizar la tarea.
DISTRIBUCION F
Esta distribución probabilística se utiliza como estadístico de prueba en varias
situaciones. Sirve para demostrar si dos varianzas muéstrales provienen de la
misma población o de poblaciones iguales.
También se aplica cuando se desean comparar simultáneamente tres o más
medias poblacionales. En estos dos casos, las poblaciones deben ser normales
y los datos deben estar al menos medidos en escala de intervalo.
F = 𝑆12 ⁄𝑆22
𝐻0 : 𝝈𝟐𝟏 = 𝝈𝟐𝟐
𝐻1 : 𝝈𝟐𝟏 ≠ 𝝈𝟐𝟐
Estadístico de prueba
F = 𝑆12 ⁄𝑆22
Regla de rechazo:
Solución:
122
𝐹= = 1.44
102
En vista de que el estadístico de prueba es menor que 3.102 y mayor que 0.3453
no se rechaza la hipótesis nula.
Interpretación:
Se concluye que no existe diferencia entre la variación de los tiempos de audición
de hombres y mujeres.
ANOVA
𝑺𝑺𝑻
𝑴𝑺𝑻𝑹
𝑭= 𝑲−𝟏 =
𝑺𝑺𝑬 𝑴𝑺𝑬
𝑵−𝑲
Donde:
𝑇𝐶2
𝑆𝑆𝐸 = ∑ 𝑋 2 − ∑ [ ]
𝑛𝑐
Luego:
SST SSE
MSTR = MSE =
K−1 N−K
Como se desea probar la igualdad de las medias y evaluar las diferencias de las
medias, se utilizará el procedimiento ANOVA de un factor (datos apilados) con
comparaciones múltiples. Además se van a seleccionar un método para
demostrar las capacidades.
1 Ingresar los datos en dos columnas.
2 Elija (Estadísticas) > ANOVA > (Un solo factor.)
El mismo formato que sirve para el caso de ANOVA en un sentido se utiliza para
la tabla ANOVA en dos sentidos. Los totales de SST y SS se calculan igual que
antes. SSE se obtiene por sustracción (SSE = Total SS – SST – SSB). Donde
SSB se denomina variable de bloque. En consecuencia, se tiene variación
debida al tratamiento y debida a los bloques. La suma de cuadrados debida a
los bloques (SSB) se calcula como sigue:
𝐵𝑟2 (∑ 𝑥)2
𝑆𝑆𝐵 = ∑ [ ] −
𝑘 𝑁
2
𝑆𝑆𝑅(𝑥2 ⁄𝑥1 )
𝑟𝑦21 =
𝑆𝑆𝑇 − 𝑆𝑆𝑅(𝑥1 𝑦 𝑥2 ) + 𝑆𝑆𝑅(𝑥2 ⁄𝑥1 )
En la que:
Utilice un ANOVA de dos factores para probar si las medias de las poblaciones
son iguales, o equivalentemente,
1.- Establecer Hipótesis Tenemos que establecer hipótesis para cada uno de los
tratamientos y para la interacción de ambos:
𝐸(𝑦) = 𝛽0 + 𝛽1 𝑥
Diagrama de dispersión
El diagrama de dispersión permite observar gráficamente los datos y hacer
conclusiones preliminares acerca de la relación posible entre las variables. En
base de este diagrama podemos intuir si es pertinente usar el modelo de
regresión lineal.
Coeficiente de determinación
El coeficiente de determinación nos indica qué tan bien se ajusta a los datos la
ecuación de regresión, evalúa la bondad del ajuste. Se puede mediante:
𝑆𝑆𝑅
𝑟2 =
𝑆𝑆𝑇
donde:
SSR: suma de cuadrados debida a la regresión
SST: suma de cuadrados del total
Coeficiente de correlación
El coeficiente de correlación es una medida descriptiva de la intensidad de la
asociación lineal entre dos variables, X y Y. Los valores del coeficiente de
correlación siempre están entre -1 y +1. Un valor de +1 indica que las dos
variables, X y Y, tienen una relación lineal positiva perfecta. Esto es, todos los
puntos de datos están en una línea recta con pendiente positiva. Un valor de -1
indica que X y Y tienen una relación lineal negativa perfecta, y que todos los
puntos de datos están en una recta con pendiente negativa. Los valores del
coeficiente de correlación cercanos a cero indican que X y Y no tienen relación
lineal.
Pruebas de significancia
Para probar si hay alguna relación importante de regresión debemos efectuar
una prueba de hipótesis para determinar si el valor de 𝛽1 es cero. Existen dos
pruebas que se usan con más frecuencia. En ambas se requiere una estimación
de 𝜎 2 , la varianza 𝜀 de en el modelo de regresión.
Cada suma de cuadrados tiene asociado un número, que llamamos sus grados
de libertad. Se ha demostrado que la SSE tiene n -2 grados de libertad, porque
se deben estimar dos parámetros, 𝛽0 y 𝛽1, para calcular la SSE. Así, el cuadrado
medio se calcula dividiendo SSE entre n – 2. El MSE da un estimador insesgado
de 𝜎 2 . Debido a esto, también se usa la notación s2 en vez de MSE.
𝑆𝑆𝐸
𝑠 2 = 𝑀𝑆𝐸 =
𝑛−2
𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
Estadístico de prueba:
𝑏1
𝑡=
𝑠𝑏1
La regla de rechazo es análoga a la de las pruebas vistas anteriormente
La desviación estándar es:
𝑠
𝑠𝑏1 =
√∑(𝑥𝑖 − 𝑥̅ )2
X Y
189 402
190 404
208 412
227 425
239 429
252 436
257 440
274 447
293 458
308 469
316 469
Vemos claramente que se puede intuir una relación lineal entre la renta
nacional y las ventas de la compañía.
La ecuación de regresión es
Y = 302 + 0.535 X
Predictor Coef SE Coef T P
Constante 301.654 2.544 118.57 0.000
X 0.53498 0.01002 53.38 0.000
Análisis de varianza
Fuente GL SC CM F P
Regresión 1 5704.7 5704.7 2849.68 0.000
Error residual 9 18.0 2.0
Total 10 5722.7
EE de Residuo
Obs X Y Ajuste ajuste Residuo estándar
10 308 469.000 466.429 0.719 2.571 2.11R
5704.7
𝑟2 = = 0.9969 , 𝑟 = 0.9984
5722.7
Vemos que para el caso del coeficiente de determinación es muy cercano a
1, lo que indica que existe una fuerte relación entre ambas variables. Por su
parte 𝑟 está aún más cerca de +1 lo que indica que hay una correlación
positiva entre ambas variables, lo que significa que un aumento en la renta
nacional implicaría casi necesariamente un aumento de las ventas de la
compañía.
𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
Como se puede apreciar, este valor es muy superior a 2.262, por lo tanto se
rechaza la hipótesis nula. Esto indica que sí existe una correlación entre las
variables, lo cual concuerda con nuestro análisis anterior.
Prueba F
También se puede usar una prueba F, basada en la distribución F de
probabilidad, para probar si la regresión es significativa. Como sólo hay una
variable independiente, la prueba F debe indicar la misma conclusión que la
prueba t; esto es, si la prueba t indica que 𝛽1 ≠ 0 y que en consecuencia hay una
relación significativa, la prueba F también indicará una relación significativa. Pero
cuando hay más de una variable independiente, sólo se puede usar la prueba F
para ver si hay una relación significativa general.
5704.7
𝐹= = 2849.68
2
Problema de ejemplo:
Terminemos con nuestro problema de regresión anterior prediciendo las ventas
de la compañía en el año 2001 si en ese año la renta nacional fue de 325 millones
de soles.
Solución:
𝑦 = 302 + 0.535(325)
𝑦 = 475.88
Esto significa que en el 2001 se espera que las ventas de la compañía
asciendan a 475.88 miles de soles.
Estimación de intervalo
La estimación hecha en el ejemplo anterior constituye una estimación puntual
pero las estimaciones puntuales no dan ninguna información de la precisión
asociada con la estimación. Para este fin debemos determinar estimaciones de
intervalo. El primer tipo de estimaciones de intervalo es la estimación de intervalo
de confianza; es una estimación de intervalo del valor medio de Y para
determinado valor de X. El segundo tipo es la estimación de intervalo de
predicción, que se usa cuando deseamos una estimación de intervalo de un valor
individual de Y que corresponde a determinado valor de X.
2 2
1 (𝑥𝑝 − 𝑥̅ ) 1 (𝑥𝑝 − 𝑥̅ )
𝑠𝑦2̂𝑝 2
=𝑠 [ + ] 𝑦 𝑠𝑦̂𝑝 = 𝑠√ +
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2 𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
2 2
1 (𝑥𝑝 − 𝑥̅ ) 1 (𝑥𝑝 − 𝑥̅ )
2
𝑠𝑖𝑛𝑑 2
=𝑠 + 𝑠𝑦2̂𝑝 2
=𝑠 +𝑠 [ + 2
2
] = 𝑠 2 [1 + + ]
𝑛 ∑(𝑥𝑖 − 𝑥̅ ) 𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
Solución:
EE de
Nueva obs Ajuste ajuste IC de 95% IP de 95%
1 475.52 0.86 (473.59; 477.46) (407.65; 543.40)
Análisis de residuales
El residual en la observación i es la diferencia entre el valor observado de la
variable dependiente (𝑦𝑖 ) y el valor estimado de esa variable (𝑦̂𝑖 ).
𝑦𝑖 − 𝑦̂𝑖
𝑦𝑖 − 𝑦̂𝑖
𝑠𝑦𝑖 −𝑦̂𝑖
Como la Estadística Inferencial nos permite trabajar con una variable a nivel de
intervalo o razón, así también se puede comprender la relación de dos o
más variables y nos permitirá relacionar mediante ecuaciones, una variable en
relación de la otra variable llamándose Regresión Lineal y una variable en
relación a otras variables llamándose Regresión múltiple.
Casi constantemente en la práctica de la investigación estadística, se
encuentran variables que de alguna manera están relacionados entre si, por lo
que es posible que una de las variables puedan relacionarse matemáticamente
en función de otra u otras variables.
1. MARCO TEORICO
REGRESIÓN.-
Se define como un procedimiento mediante el cual se trata de determinar si
existe o no relación de dependencia entre dos o más variables. Es decir,
conociendo los valores de una variable independiente, se trata de estimar
los valores, de una o más variables dependientes.
La regresión en forma gráfica, trata de lograr que una dispersión de las
frecuencias sea ajustada a una línea recta o curva.
Clases de Regresión
La regresión puede ser Lineal y Curvilínea o no lineal, ambos tipos de regresión
pueden ser a su vez:
a. Esta regresión se utiliza con mayor frecuencia en las ciencias económicas,
y sus disciplinas tecnológicas. Cualquier función no lineal, es linealizada
para su estudio y efectos prácticos en las ciencias económicas, modelos no
lineales y lineales multiecuacionales.
Objetivo: Se utiliza la regresión lineal simple para:
1.- Determinar la relación de dependencia que tiene una variable respecto
a otra.
2.- Ajustar la distribución de frecuencias de una línea, es decir, determinar
la forma de la línea de regresión.
3.- Predecir un dato desconocido de una variable partiendo de
los datos conocidos de otra variable.
Por ejemplo: Podría ser una regresión de tipo lineal:
En una empresa de servicio de Internet busca relacionar las ganancias que
obtiene cada computadora con el numero de usuarios que ingresan a dicha
cabina diariamente. En la tabla representa Y (Ganancias S/.) e X (Numero
de usuarios)
Coeficiente de Regresión
Indica el número de unidades en que se modifica la variable dependiente
"Y" por efecto del cambio de la variable independiente "X" o viceversa en
una unidad de medida.
Clases de coeficiente de Regresión:
El coeficiente de regresión puede ser: Positivo, Negativo y Nulo.
Es positivo cuando las variaciones de la variable independiente X son
directamente proporcionales a las variaciones de la variable dependiente
"Y"
Es negativo, cuando las variaciones de la variable independiente "X" son
inversamente proporcionales a las variaciones de las variables
dependientes "Y"
Es nulo o cero, cuando entre las variables dependientes "Y" e
independientes "X" no existen relación alguna.
Procedimiento para hallar el Coeficiente de Regresión
Para determinar el valor del coeficiente de regresión de una manera fácil y
exacta es utilizando el método de los Mínimos Cuadrados de dos maneras:
1.- Forma Directa
De la ecuación de la recta:
El Coeficiente de Regresión es
x, y = desviaciones
X = media aritmética
Y = media aritmética
b. Regresión Simple: Este tipo se presenta cuando una variable
independiente ejerce influencia sobre otra variable dependiente. Ejemplo: Y
= f(x)
c. Regresión Múltiple: Este tipo se presenta cuando dos o más variables
independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x,
w, z).
Y 440 455 470 510 506 480 460 500 490 450
X 50 40 35 45 51 55 53 48 38 44
Z 75 68 70 64 67 72 70 73 69 74
Para poder resolver se puede utilizar programas informáticos como AD+, SPSS
y Minitab y Excel.
Mide la tasa porcentual de los cambios de Y que pueden ser explicados por
, y simultáneamente.
2. APLICACION
Esto nos quiere decir que el 83.5% de la muestra, puede ser explicada por las
variables ingreso y tamaño.
Pero los investigadores sugieren que se calcule el coeficiente r^2 ajustado que
refleje tanto el número de variables explicatorias del modelo como el tamaño de
la muestra.
De MINITAB obtenemos el R-cuad(ajustado) = 81.6%
1. OBJETIVO:
Determinar si existe una relación significativa entre la variable
dependiente y el conjunto de variables explicativas.
2. PRUEBAS
Análisis de Varianza
Análisis de Varianza
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
15.1262 74.59% 73.18% 69.00%
Coeficientes
EE del
Término Coef coef. Valor T Valor p VIF
Constante 20.43 6.32 3.23 0.005
INGRESO 1.247 0.172 7.27 0.000 1.00
Ecuación de regresión
Resid
Obs GASTO Ajuste Resid est.
9 129.00 131.38 -2.38 -0.22 X
15 78.00 37.88 40.12 2.78 R
Residuo grande R
X poco común X
X1 1 12089 12089
TOTAL 19 16208
𝑥1
𝑆𝑆𝑅(𝑥2)
𝐹=
𝑀𝑆𝐸
1451
𝐹= = 9.4255
156.94
Como el valor de F calculado es mayor que este valor de F crítico (9.4255 mayor
que 4.35), muestra decisión sería rechazar H0.
Análisis de Varianza
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
30,0041 0,02% 0,00% 0,00%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 60,5 25,1 2,41 0,027
TAMAÑO -0,37 6,62 -0,06 0,956 1,00
Ecuación de regresión
Residuo grande R
X poco común X
SSR(X2/X1)= 13540-2.8=13537.2
X1 1 2.8 2.8
TOTAL 19 16208
𝑥2
𝑆𝑆𝑅(𝑥1)
𝐹=
𝑀𝑆𝐸
1353.2
𝐹= = 86.257
156.94
Como el valor de F calculado es mayor que este valor de F crítico (86.257 mayor
que 4.35), muestra decisión sería rechazar H0.
Concluimos que la variable x2 (ingreso) mejora signicativamente el modelo de
regresión que ya tiene incluida la variable x1(tamaño).
En la que:
𝛽0: Intersección Y
𝛽1: Efecto lineal en Y
𝛽11: Efecto curvilíneo en Y.
𝜀𝑖 : Error aleatorio en Y para la observación i.
Solución
Análisis de Varianza
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
8,88590 92,87% 91,29% 87,18%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 490 300 1,63 0,137
HORAS -9,50 8,47 -1,12 0,291 683,80
HORAS*HORAS 0,0901 0,0588 1,53 0,160 683,80
Ecuación de regresión
Esta prueba puede utilizarse incluso con datos medibles en una escala nominal.
La hipótesis nula de la prueba Chi-cuadrado postula una distribución de
probabilidad totalmente especificada como el modelo matemático de la población
que ha generado la muestra.
Para realizar este contraste se disponen los datos en una tabla de frecuencias.
Para cada valor o intervalo de valores se indica la frecuencia absoluta observada
o empírica (Oi). A continuación, y suponiendo que la hipótesis nula es cierta, se
calculan para cada valor o intervalo de valores la frecuencia absoluta que cabría
esperar o frecuencia esperada (Ei=n·pi , donde n es el tamaño de la muestra y
pi la probabilidad del i-ésimo valor o intervalo de valores según la hipótesis nula).
El estadístico de prueba se basa en las diferencias entre la Oi y Ei y se define
como:
Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad
si n es suficientemente grande, es decir, si todas las frecuencias esperadas son
mayores que 5. En la práctica se tolera un máximo del 20% de frecuencias
inferiores a 5.
Criterio de decisión:
No se rechaza cuando . En caso contrario sí se rechaza.
Donde t representa el valor proporcionado por las tablas, según el nivel
de significación estadística elegido.
Tablas de contingencia Se sabe que la información proporcionada por una
tabla bidimensional puede expresarse en términos diversos: frecuencias
absolutas conjuntas, relativas conjuntas, condicionadas de una variable a
valores de la otra. Además puede derivarse el comportamiento
unidimensional de las variables implicadas mediante las distribuciones
marginales. La tabla bidimensional recibe el nombre de tabla de contingencia
cuando las características en estudio no son cuantitativas. Una tabla de doble
entrada para las variables X e Y con p filas y k columnas:
X1 X2 X3 xj
Y1
Y2
yi
2. APLICACION
En casos en los que los datos son nominales u ordinales, o cuando son
inadecuados los supuestos requeridos por los métodos paramétricos, sólo se
dispone de métodos no paramétricos. Por los requisitos menos restrictivos sobre
medición de datos, y por la menor cantidad de supuestos necesarios acerca de
la distribución de la población, se considera que los métodos no paramétricos
tienen aplicación más general que los paramétricos.
Con estos datos, el objetivo es determinar si hay una diferencia entre las
preferencias hacia los dos artículos que se comparan. Como veremos, la prueba
de signo es un procedimiento estadístico no paramétrico para contestar
preguntas como ésta.
Problema de ejemplo:
Toyota quiere probar que el último modelo de auto que ha fabricado da la mayor
comodidad al conductor que cualquier otro auto de la misma línea en el mercado,
para ello decide compararlo con el último modelo fabricado por Chevrolet. Toma
una muestra de 8 personas a las cuales les hace manejar los dos autos sin que
sepa cuál de los dos es el de la competencia. Después de la experiencia los
individuos indicaron cuál de los dos autos preferían.
Solución:
Solución:
𝑧𝑐𝑟í𝑡𝑖𝑐𝑜 = 1.28
𝜇 = 0.50(130) = 65
𝜎 = √0.25(130) = 5.70
100 − 65
→𝑍= = 6.14
5.70
𝑛(𝑛 + 1)(2𝑛 + 1) 𝑇 − 𝜇𝑇
𝜎𝑇 = √ , 𝑍=
6 𝜎𝑇
Siempre y cuando 𝑛 ≥ 10
Problema de ejemplo
En una planta industrial se está probando un nuevo método de producción que
se espera sea más eficiente que el anterior en términos de tiempos de
fabricación. El método de producción empleado primero por cada trabajador se
determinó en forma aleatoria. Así, cada trabajador de la muestra produjo un par
de observaciones, como se pude observar en la siguiente tabla:
Solución:
𝑛(𝑛 + 1)(2𝑛 + 1)
𝜎𝑇 = √ = 19.62
6
𝑇 − 𝜇 𝑇 −30 − 0
→𝑍= = = −1.53
𝜎𝑇 19.62
Número
de Estadística Mediana
N prueba de Wilcoxon P estimada
Diferencia 10 10 12.5 0.139 -0.1950
De aquí podemos notar que el valor p es 0.139 el cual es mayor que el nivel
de significancia, por lo tanto no se rechaza la hipótesis nula y se llega a la
misma conclusión.
Prueba de Mann-Whitney-Wilcoxon
1. MARCO TEORICO
Para calcular el estadístico U se asigna a cada uno de los valores de las dos
muestras su rango para construir
Como ya tenemos los datos, entonces tenemos que ordenar o darle el rango
respectivo. Así obtenemos un cuadro donde colocamos el rango y los datos ya
dados.
1 1
𝜎 = √12 ∗ 𝑛1 ∗ 𝑛2 ∗ (𝑛1 + 𝑛2 + 1) 𝜎 = √12 ∗ 9 ∗ 8 ∗ (9 + 8 + 1)𝜎 = 10.3923
𝑊−𝜇 96.5−81
𝑧= 𝑧 = 𝑧 = 1.49
𝜎 10.3923
Puesto que el valor calculado z(1.49) es menor que 1.65, no se rechaza la
hipótesis nula. La evidencia no muestra diferencia en el número típico de
pasajeros no registrados.
2. PRUEBA DE KRUSWALL-WALLIS
Se utiliza cuando:
Cuando son diferentes tratamientos o condiciones.
Muestras pequeñas.
Pasos:
1. Ordenar las observaciones en rangos de todos los grupos, del más
pequeño al mayor.
3. Detectar las ligas o empates entre los rangos de cada grupo y aplicar la
ecuación (L) para obtener el ajuste.
Ejemplo:
Un investigador estudia el efecto benéfico de cuatro sustancias
anticonvulsionantes (fenobarbital, difenilhidantoinato -DFH-, diacepam y
clonacepam), para proteger contra la muerte producida por un
convulsionante, la tiosemicarbazida, la cual se manifiesta después de
crisis clónica y tónica, respectivamente. El investigador elige al azar a 24
ratones de la misma edad y peso y les inyecta anticonvulsionante
previamente a la tiosemicarbazida. A partir de este momento, inicia la
cuenta en tiempo, hasta que mueren los ratones; además mide las
observaciones en horas de tiempo transcurrido.
Planteamiento de la hipótesis.
Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se
rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
Tiempo en horas que tarda el fármaco en causar la muerte en ratones.
Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y
se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se
rechaza Ha.
Desarrollo mental de algunos niños y escolaridad de las madres.
Calculo de rs de Spearman.