Sunteți pe pagina 1din 32

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

(Universidad del Perú, DECANA DE AMERICA)

FACULTAD DE INGENIERÍA INDUSTRIAL

E.A.P. INGENIERÍA INDUSTRIAL

Tema: Pngan el tema

Curso: Laboratorio de Estadística Industrial

Alumnos: - Leon Avellaneda, Andre Felipe N° matricula


17170120
- Ordoñez Huayllas, Christian Arnold N° matricula
17170167
- Salinas Revilla, Miguel André N° matricula
17170041

Profesor: Ing° Rosmery Mayta

Horario: miércoles 4 - 6 pm

Ciudad Universitaria – 2019


INDICE
ANOVA EN UN SENTIDO: .............................................................................................................. 3
ANOVA EN DOS SENTIDOS: ........................................................................................................ 10
REGRESION LINEAL ...................................................................................................................... 16
ANOVA EN UN SENTIDO:

Problema N°1:
Una compañía de desarrollos inmobiliarios considera la inversión en un centro comercial en las
afueras de Atlanta. Se evalúan tres terrenos. El ingreso de los pobladores de la zona aledaña al
centro comercial es de especial importancia. Se selecciona una muestra aleatoria de cuatro
familias que viven cerca de cada terreno. A continuación se presentan los resultados
muestrales. A un nivel de significancia de 0.05 ¿Se puede concluir la compañía que hay
diferencia en los ingresos promedios?

Southwyck Parque Franklin Old Orchard


Miles de US
64 74 75
68 71 80
70 69 76
60 70 78

Solución:

A) H0: 𝜇1 = 𝜇2 = 𝜇3
Ha: Al menos una es diferente

B) 𝛼 = 0.05
C) Estadístico: F
D) Para el punto F(0.05,2,9):

Gráfica de distribución
F; df1=2; df2=9

1.0

0.8
Densidad

0.6

0.4

0.2

0.05
0.0
0 4.256
X
E) Haciendo los cálculos respectivos:

Southwyck Parque Franklin Old Orchard


64 74 75
68 71 80
70 69 76
60 70 78
Tc 262 284 309 855
X2 17220 20178 23885 61283

De esta tabla hallaremos la tabla de tratamientos:

2622 2842 3092 8552


𝑆𝑆𝑇 = + + − = 276.5
4 4 4 12

8552
𝑆𝑆𝑇𝑜𝑡𝑎𝑙 = 61283 − = 364.25
12

FV SC GL MC F
Tratamiento 276.5 2 138.25 14.1795
Error 87.75 9 9.75
Total 364.25 11

Fk pertenece a RC, por lo que se rechaza la H0 y se acepta la Ha

COMPROBACION EN MINITAB:
ANOVA de un solo factor: Southwyck; Franklin; Old
Orcchard
Método
Hipótesis nula Todas las medias son iguales
Hipótesis alterna No todas las medias son iguales
Nivel de significancia α = 0.05
Se presupuso igualdad de varianzas para el análisis.

Información del factor


Factor Niveles Valores
Factor 3 Southwyck; Franklin; Old Orcchard
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Factor 2 276.50 138.250 14.18 0.002
Error 9 87.75 9.750
Total 11 364.25
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
3.12250 75.91% 70.56% 57.17%
Medias
Factor N Media Desv.Est. IC de 95%
Southwyck 4 65.50 4.43 (61.97; 69.03)
Franklin 4 71.00 2.16 (67.47; 74.53)
Old Orcchard 4 77.25 2.22 (73.72; 80.78)
Desv.Est. agrupada = 3.12250

Comparaciones en parejas de Fisher


Agrupar información utilizando el método LSD de Fisher y una
confianza de 95%
Factor N Media Agrupación
Old Orcchard 4 77.25 A
Franklin 4 71.00 B
Southwyck 4 65.50 C
Las medias que no comparten una letra son significativamente diferentes.

Pruebas individuales de Fisher para diferencias de las medias


Diferencia
de las EE de Valor p
Diferencia de niveles medias diferencia IC de 95% Valor T ajustado
Franklin - Southwyck 5.50 2.21 (0.51; 10.49) 2.49 0.034
Old Orcchard - Southwyck 11.75 2.21 (6.76; 16.74) 5.32 0.000
Old Orcchard - Franklin 6.25 2.21 (1.26; 11.24) 2.83 0.020
Nivel de confianza simultánea = 88.66%

ICs individuales de 95% de Fisher


INTERPRETACIÓN: Con un nivel de significancia del 0.05 se puede concluir que hay diferencias
entre el nivel promedio de ingresos en cada lugar.

Problema N°2:
Nielsen Research desea incorporar un programa de educación física en las escuelas publicas,
para ayudar a los niños con problemas de obesidad a perder peso. Para comparar las
diferentes rutinas se hace la siguiente prueba: se toman 45 alumnos con problemas de
sobrepeso de distintas escuelas de la ciudad y son sometidos a 3 diferentes tipos de rutina. Se
mandan 15 alumnos para cada rutina.

El numero perdido de kilos al final del experimento se muestra en la siguiente tabla:

Rutina 1 Rutina 2 Rutina 3


2.2 3.5 2.5
3.5 3.6 3.5
2.5 3.5 3.3
2.8 3 1
5 3.7 1.5
2 3.3 1.8
3.3 3.2 2
4 3.4 2.4
1.8 3.3 1.4
1.9 3.9 1
4.5 3.1 1
1.6 3 2
29 3 2.9
3 3 2.8
2.8 3.5 2.5

¿Existe alguna diferencia entre los pesos perdidos promedios de os tres tipos de rutina? Use
un nivel de significancia de 0.05

SOLUCION:

A) H0: 𝜇1 = 𝜇2 = 𝜇3
Ha: Al menos una es diferente

B) 𝛼 = 0.05
C) Estadístico: F
D) Para F(0.05,2,42):

Gráfica de distribución
F; df1=2; df2=42

1.0

0.8
Densidad

0.6

0.4

0.2

0.05
0.0
0 3.220
X
E) Hacemos los cálculos respectivos para obtener la tabla de ANOVA:

FV SC GL MC F
Tratamiento 11.6853 2 5.84266 9.916
Error 24.7466 42 0.5892
Total 36.432 44

Fk pertenece a RC, por lo que se rechaza la H0 y se acepta la Ha

COMPROBACION EN MINITAB:

ANOVA de un solo factor: Rutina 1; Rutina 2; Rutina 3


Método
Hipótesis nula Todas las medias son iguales
Hipótesis alterna No todas las medias son iguales
Nivel de significancia α = 0.05
Se presupuso igualdad de varianzas para el análisis.

Información del factor


Factor Niveles Valores
Factor 3 Rutina 1; Rutina 2; Rutina 3
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Factor 2 48.92 24.46 1.56 0.223
Error 42 659.50 15.70
Total 44 708.42
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
3.96262 6.91% 2.47% 0.00%
Medias
Factor N Media Desv.Est. IC de 95%
Rutina 1 15 4.66 6.81 (2.60; 6.72)
Rutina 2 15 3.3333 0.2845 (1.2685; 5.3981)
Rutina 3 15 2.107 0.825 (0.042; 4.171)
Desv.Est. agrupada = 3.96262

Comparaciones en parejas de Fisher


Agrupar información utilizando el método LSD de Fisher y una
confianza de 95%
Factor N Media Agrupación
Rutina 1 15 4.66 A
Rutina 2 15 3.3333 A
Rutina 3 15 2.107 A
Las medias que no comparten una letra son significativamente diferentes.

Pruebas individuales de Fisher para diferencias de las medias


Diferencia
de las EE de Valor p
Diferencia de niveles medias diferencia IC de 95% Valor T ajustado
Rutina 2 - Rutina 1 -1.33 1.45 (-4.25; 1.59) -0.92 0.364
Rutina 3 - Rutina 1 -2.55 1.45 (-5.47; 0.37) -1.76 0.085
Rutina 3 - Rutina 2 -1.23 1.45 (-4.15; 1.69) -0.85 0.401
Nivel de confianza simultánea = 87.97%

ICs individuales de 95% de Fisher


INTERPRETACIÓN: Con un nivel de significancia del 0.05 se puede concluir que NO todos los
pesos perdidos promedios de los tres tipos de rutina sometidos a los niños con obesidad son
iguales

ANOVA EN DOS SENTIDOS:

Problema N°1:

Una empresa opera 24 horas al día, cinco días a la semana. Los trabajadores cambian de turno
cada semana. La gerencia esta interesada en saber si hay alguna diferencia en el numero de
unidades producidas cuando los empleados laboran en diversos turnos. Se seleccionó una
muestra de cinco obreros y se registró su producción en cada turno. Al nivel de significancia de
0.05, ¿Se puede concluir que hay diferencia en la producción media por turno o en la
producción media por trabajador?

MAÑANA TARDE NOCHE


Skaff 31 25 35
Lum 33 26 33
Clark 28 24 30
Treece 30 29 28
Morgan 28 26 27

SOLUCION:

1. PRUEBA DE HIPOTESIS PARA LOS TURNOS

A) H0: 𝜇𝑀 = 𝜇𝑇 = 𝜇𝑁
Ha: Al menos una es diferente

B) 𝛼 = 0.05
C) Estadístico: F
D) Para F(0.05,2,8)
Gráfica de distribución
F; df1=2; df2=8

1.0

Densidad 0.8

0.6

0.4

0.2

0.05
0.0
0 4.459
X

2. PRUEBA DE HIPOSESIS PARA TRABAJADORES

A) H0: 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5
Ha: Al menos una es diferente

B) 𝛼 = 0.05
C) Estadístico: F
D) Para F(0.05,4,8)

Gráfica de distribución
F; df1=4; df2=8
0.7

0.6

0.5
Densidad

0.4

0.3

0.2

0.1

0.05
0.0
0 3.838
X

Ahora después de haber realizado los cálculos respectivos, construiremos la siguiente tabla
ANOVA:
FV SC GL MC F
Tratamiento 62.533 2 31.266 Ftrat=5.7546
Bloques 33.73 4 8.433 Fbloque=1.5521
Error 43.466 8 5.433
Total 139.733 14

CALCULOS EN MINITAB:

ANOVA: valores vs. Trabajador; turno


Información del factor
Factor Tipo Niveles Valores
Trabajador Fijo 5 Clark; Lum; Morgan; Skaff; Treece
turno Fijo 3 Mañana; Noche; Tarde
Análisis de varianza de valores
Fuente GL SC MC F P
Trabajador 4 33.73 8.433 1.55 0.276
turno 2 62.53 31.267 5.75 0.028
Error 8 43.47 5.433
Total 14 139.73
Resumen del modelo
R-cuad.
S R-cuad. (ajustado)
2.33095 68.89% 45.56%

INTERPRETACIÓN:

 TRATAMIENTO:
El Ftrat pertenece a la región critica, por lo tanto se rechaza la H0 y se acepta el Ha.
Entonces se concluye que si existe diferencia significativa en el número de unidades de
promedio producidas cuando los empleados laboran en turnos distintos.

 BLOQUE:

El Fbloque pertenece a la región de aceptación, por lo tanto se acepta la H0 y se


rechaza la Ha. Entonces se concluye que no existe diferencia significativa entre la
producción media realizada por cada trabajador.
Problema N°2:

Existen cuatro restaurantes McBurger en el área de Columbus. Las cantidades de


hamburguesas vendidas en los establecimientos respectivos, para cada una de las ultimas seis
semanas, se muestran a continuación. Al nivel de 0.05 de significancia, ¿Existe diferencia en el
numero promedio vendido entre los cuatro restaurantes, cuando se considera el factor
semana?

Restaurante
Semana Metro Interestatal Universidad Rio
1 124 160 320 190
2 234 220 340 230
3 430 290 290 240
4 105 245 310 170
5 240 205 280 180
6 310 260 270 205

SOLUCION

1. PRUEBA DE HIPOTESIS DE LOS RESTAURANTES:

A) H0: 𝜇𝑀 = 𝜇𝑇 = 𝜇𝑁
Ha: Al menos una es diferente

B) 𝛼 = 0.05
C) Estadístico: F
D) Para F(0.05,3,15)

Gráfica de distribución
F; df1=3; df2=15

0.7

0.6

0.5
Densidad

0.4

0.3

0.2

0.1

0.05
0.0
0 3.287
X
2. PRUEBA DE HIPOSESIS PARA SEMANAS(BLOQUE)

A) H0: 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4
Ha: Al menos una es diferente

B) 𝛼 = 0.05
C) Estadístico: F
D) Para F(0.05,5,15)

Gráfica de distribución
F; df1=5; df2=15
0.8

0.7

0.6

0.5
Densidad

0.4

0.3

0.2

0.1
0.05
0.0
0 2.901
X

Ahora después de haber realizado los cálculos respectivos, construiremos la siguiente tabla
ANOVA:

FV SC GL MC F
Tratamiento 31533 3 10511 Ftra=2.865
Bloques 35402.83 5 7080.567 Fblo=1.93
Error 55033.5 15 3668.9
Total 121969.33 23
CALCULOS EN MINITAB:

ANOVA: Ventas vs. Semana; Restaurante


Información del factor
Factor Tipo Niveles Valores
Semana Fijo 6 1; 2; 3; 4; 5; 6
Restaurante Fijo 4 Interestatal; Metro; rio; universidad
Análisis de varianza de Ventas
Fuente GL SC MC F P
Semana 5 35403 7081 1.93 0.149
Restaurante 3 31533 10511 2.86 0.072
Error 15 55033 3669
Total 23 121969
Resumen del modelo
R-cuad.
S R-cuad. (ajustado)
60.5714 54.88% 30.81%

INTERPRETACIÓN:

 TRATAMIENTO:
El Ftra pertenece a la región de aceptación, por lo tanto se acepta la H0 y se rechaza la
Ha. Entonces se concluye que NO existe diferencia significativa en el número de
hamburguesas vendidas promedio en cada restaurante.

 BLOQUE:

El Fbloque pertenece a la región de aceptación, por lo tanto se acepta la H0 y se


rechaza la Ha. Entonces se concluye que no existe diferencia significativa entre la
cantidad media vendida de hamburguesas.
REGRESION LINEAL

PROBLEMA 1
Un consultor está interesado en el grado de dispersión con que un nuevo índice de

desempeño laboral mide lo que es importante para una corporación. Una forma de

verificarlo es analizar la relación entre el índice de evaluación del trabajo y el salario de

un empleado. Se tomó una muestra de ocho empleados y se recabó información del

salario (en miles de dólares) y el índice de evaluación del trabajo (1 a 10, donde 10 es la

mejor calificación.

Trabajador Índice de evaluación Salario(Y)


del trabajo(IET) (X)
1 9 36
2 7 25
3 8 33
4 4 15
5 7 28
6 5 19
7 5 20
8 6 22

a. Determine el coeficiente de correlación.

b. Coeficiente de determinación e interprete.

c. Coeficiente de no determinación e interprete.

d. Determine la ecuación de regresión lineal e interprete los coeficientes de

regresión.

e. Determine el error estándar de estimación.

f. Realice la inferencia sobre los coeficientes de regresión de población (𝛼= 0.05).


g. Realice la prueba de hipótesis para el coeficiente de correlación (𝛼= 0.05).

h. Estimado del intervalo de confianza de B1.

i. Intervalo de confianza y predicción para X=6.

j. Realice el análisis de influencia.

SOLUCION:

Construimos la siguiente tabla para el desarrollo de las preguntas.

IET(X) Salario(Y) X2 XY Y2
9 36 81 324 1296
7 25 49 175 625
8 33 64 264 1089
4 15 16 60 225
7 28 49 196 784
5 19 25 95 361
5 20 25 100 400
6 22 36 132 484

∑𝑿 ∑𝑌 ∑ 𝑋2 ∑ 𝑋𝑌 ∑ 𝑌2

51 198 345 1346 5264

a. Coeficiente de correlación

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑟=
√[𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 ][𝑛 ∑ 𝑦 2 − (𝑦)2 ]

8𝑥345 − 51𝑥198
𝑟=
√[8𝑥1346 − 512 ][8𝑥198 − 1982 ]

𝑟 = 0.9853

Interpretación: Existe una correlación muy fuerte y positiva entre el índice de

evaluación de trabajo y el salario.

b. Coeficiente de determinación (r2)


𝑟 2 = 0.98532 = 0.9709

Interpretación: El 97.09% de la variación del salario(y) será explicado por la

variación del índice de evaluación del trabajo(x).

c. Coeficiente de la no determinación

1 − 𝑟 2 = 1 − 0.9709 = 0.0291

Interpretación: El 2.91% de la variación del salario(y) no será explicado por la

variación del índice de evaluación del trabajo(x).

d. Ecuación de regresión

𝑦 = 𝑎 + 𝑏𝑥

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑏=
𝑛 ∑ 𝑥 2 − (∑ 𝑥)2

8𝑥1346 − 51𝑥198
𝑏=
8𝑥345 − 512

𝑏 = 4.2138

∑𝑦 𝑏∑𝑥
𝑎= −
𝑛 𝑛

198 4.2138𝑥51
𝑎= −
8 8

𝑎 = −2.1130

Gráfica de línea ajustada


y = - 2,113 + 4,214 x
S 1,32861
35 R-cuad. 97,1%
R-cuad.(ajustado) 96,6%

30

25
y

20

15

4 5 6 7 8 9
Gráfica de la línea ajustada x
Entonces la ecuación de regresión estimada es:

𝑦 = −2.1130 + 4.2138𝑥

Resultados en el Minitab:

Análisis de regresión

Análisis de varianza de la regresión

Interpretación: Por cada unidad de aumento en el índice de evaluación del

trabajo, el salario en promedio de un empleado aumentara en 4.2138 miles de

dólares. Cuando el índice de evaluación obtenido es cero, el salario promedio de

un empleado siempre disminuirá en 2.1130 miles de dólares.

e. Error estándar de estimación

∑ 𝑦 2 − 𝑎 ∑ 𝑦 − 𝑏 ∑ 𝑥𝑦
𝑆𝑦𝑥 = √
𝑛−2

5264 − (−2.1130)𝑥198 − 4.2138𝑥1346


𝑆𝑦𝑥 = √
8−2

𝑆𝑦𝑥 = 1.3291
Interpretación: Alrededor de la línea de dispersión están dispersos 1.3291.

f. Inferencia sobre los coeficientes de regresión

1) Ho: 𝛽1 = 0 (No hay relación)

Ha: 𝛽1 ≠ 0 (Si hay relación)

2) 𝛼 = 0.05

3) t-student

4) Grafica de la RA y RC

5) Cálculo del estadístico

𝑏 − 𝛽1
𝑡=
𝑆𝑏

𝑆𝑦𝑥
𝑆𝑏1 =
2
√∑ 𝑥 2 − (∑ 𝑥)
𝑛
1.3291
𝑆𝑏1 =
2
√345 − 51
8

𝑆𝑏1 = 0.2981

4.2138 − 0
𝑡=
0.2981

𝑡 = 14.1355
𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎

Se concluye que, existe una relación entre los coeficientes de regresión.

g. Prueba de hipótesis para coeficientes de correlación.

1) Ho: 𝜌 = 0 (No hay relación)

Ha: 𝜌 ≠ 0 (Si hay relación)

2) 𝛼 = 0.05

3) t-student

4) Grafica de la RA y RC

5) Cálculo del estadístico

𝑟√𝑛 − 2
𝑡=
√1 − 𝑟 2

0.9853√8 − 2
𝑡=
√1 − 0.98532

𝑡 = 14.1277

𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎

Interpretación: Existe una correlación entre el índice de evaluación del trabajo y

el salario.

h. Intervalo de confianza de 𝛽1
𝑏 − 𝑡(0.05,10−2) 𝑆𝑏1 ≤ 𝛽1 ≤ 𝑏 + 𝑡(0.05,10−2) 𝑆𝑏1

4.2138 − 2.447𝑥0.2981 ≤ 𝛽1 ≤ 4.2138 + 2.447𝑥0.2981

3.4843 ≤ 𝛽1 ≤ 4.9432

i. Intervalo de confianza y predicción para X=6

𝑦 = −2.1130 + 4.2138𝑥

𝑦(6) = −2.1130 + 4.2138(6)

𝑦 = 23.1698

Intervalo de confianza

1 (𝑥 − 𝑥̅ )
𝐼𝐶 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √ +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛

1 (6 − 6.375)2
𝐼𝐶 = 23.1698 ± 2.447𝑥1.3291√ +
8 512
345 − 8

𝐼𝐶: [21.9878,24.3518]

Interpretación: El intervalo de confianza del 95% para el valor del salario para

un índice de evaluación de 6 es de 21.9878 hasta 24.3518

Intervalo de predicción

1 (𝑥 − 𝑥̅ )2
𝐼𝑃 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √1 + +
𝑛 (∑ 𝑥)2
∑ 𝑥2 −
𝑛

1 (6 − 6.375)2
𝐼𝑃 = 23.1698 ± 2.447𝑥1.3291√1 + +
8 512
345 − 8

𝐼𝑃: [19.7094,26.6302]
Interpretación: Un índice de evaluación en el trabajo de 6 hará que los valores

de los salarios estén entre 19.7094,26.6302.

j. Análisis de influencia
X Y RESID-T HI COOK

9 36 0,17893 0,471698 0,017042

7 25 -2,90027 0,144654 0,318205

8 33 1,29188 0,257862 0,260861

4 15 0,23166 0,408805 0,022029

7 28 0,46781 0,144654 0,021276

5 19 0,03426 0,220126 0,000199

5 20 0,87185 0,220126 0,111743

6 22 -0,93517 0,132075 0,067962

1) Elementos de la matriz sombrero hi*

ℎ𝑖∗ > 4/𝑛

ℎ𝑖∗ > 4/8

ℎ𝑖∗ > 0.5

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 ℎ𝑖∗ > 0.5, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

2) Para los residuales de t-student

|𝑡𝑖∗ | > 𝑡(0.1,8−3)

|𝑡𝑖∗ | > 2.015

En la tabla

𝑡2= |−2,90027| > 2.015 → 𝑡2 𝑒𝑠 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜


𝑡4= |0.23166| > 2.015 → 𝑡4 𝑒𝑠 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜

3) Estadístico de la distancia de Cook Di*

𝐷𝑖∗ > 𝐹(0.5,2,8−2)

𝐷𝑖∗ > 0.759

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 𝐷𝑖∗ > 0.759 → 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

Conclusión: No existe datos eliminados

PROBLEMA 2
El señor james McWhinney, presidente de la empresa Daniel-James Financial Service,

considera que existe relación entre el número de entrevistas con clientes y el importe en

dólares de las ventas. Para documentar este aserto, recopiló la siguiente información

muestral. La columna muestra el valor de las ventas (en miles de dólares) del mes en

cuestión para cada cliente en la muestra.

Numero de contactos Ventas (Y)


(X)
14 24
12 14
20 28
16 30
46 80
23 30
48 90
50 85
55 120
50 110

a. Determine el coeficiente de correlación.


b. Coeficiente de determinación e interprete.

c. Coeficiente de no determinación e interprete.

d. Determine la ecuación de regresión lineal e interprete los coeficientes de

regresión.

e. Determine el error estándar de estimación.

f. Realice la inferencia sobre los coeficientes de regresión de población (𝛼= 0.05).

g. Realice la prueba de hipótesis para el coeficiente de correlación (𝛼= 0.05).

h. Estimado del intervalo de confianza de B1.

i. Intervalo de confianza y predicción para 40 clientes (X=40).

j. Realice el análisis de influencia.

SOLUCIÓN:

Construimos la siguiente tabla para el desarrollo de las preguntas.

Nro. Ventas X2 XY Y2
Contactos(X) (Y)
14 24 196 336 576
12 14 144 168 196
20 28 400 560 784
16 30 256 480 900
46 80 2116 3680 6400
23 30 529 690 900
48 90 2304 4320 8100
50 85 2500 4250 7225
55 120 3025 6600 14400
50 110 2500 5500 12100

∑𝑿 ∑𝑌 ∑ 𝑋2 ∑ 𝑋𝑌 ∑ 𝑌2

334 611 13970 26584 51581


a. Coeficiente de correlación

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑟=
√[𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 ][𝑛 ∑ 𝑦 2 − (𝑦)2 ]

10𝑥26584 − 334𝑥611
𝑟=
√[10𝑥13970 − 3342 ][10𝑥51581 − 6112 ]

𝑟 =0.9754

Interpretación: Existe una correlación muy fuerte y positiva entre el número de

contactos(x) y las ventas(y).

b. Coeficiente de determinación (r2)

𝑟 2 = 0.97542 = 0.9514

Interpretación: El 95.14% de la variación del número de ventas será explicado

por la variación del número de contactos.

c. Coeficiente de la no determinación

1 − 𝑟 2 = 1 − 0.9514 = 0.0486

Interpretación: El 4.86% de la variación del número de ventas no será explicado

por la variación del número de contactos.

d. Ecuación de regresión

𝑦 = 𝑎 + 𝑏𝑥

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑏=
𝑛 ∑ 𝑥 2 − (∑ 𝑥)2

10𝑥26584 − 334𝑥611
𝑏=
10𝑥13970 − 3342

𝑏 = 2.1946

∑𝑦 𝑏∑𝑥
𝑎= −
𝑛 𝑛
611 2.1946𝑥334
𝑎= −
10 10

𝑎 = −12.1996

Entonces la ecuación de regresión estimada es:

𝑦 = −12.1996 + 2.1946𝑥

Resultados en el Minitab:

Gráfica de línea ajustada


y = - 12,20 + 2,195 x

120 S 9,31045
R-cuad. 95,1%
R-cuad.(ajustado) 94,5%
100

80

60
y

40

20

0
10 20 30 40 50 60
x

Gráfica de la línea ajustada

Interpretación: Por cada unidad que se incrementa en el número de cliente el

valor de las ventas incrementará en 2.1946.

Análisis de regresión

Análisis de varianza de la regresión


e. Error estándar de estimación

∑ 𝑦 2 − 𝑎 ∑ 𝑦 − 𝑏 ∑ 𝑥𝑦
𝑆𝑦𝑥 = √
𝑛−2

51581 − (−12.1996)𝑥611 − 2.1946𝑥26584


𝑆𝑦𝑥 = √
10 − 2

𝑆𝑦𝑥 = 9.3120

Interpretación: Los valores de las ventas están dispersos alrededor de la línea de

regresión en 9.3120.

f. Inferencia sobre los coeficientes de regresión

1) Ho: 𝛽1 = 0 (No hay relación)

Ha: 𝛽1 ≠ 0 (Si hay relación)

2) 𝛼 = 0.05

3) t-student

4) Grafica de la RA y RC

5) Cálculo del estadístico


𝑏 − 𝛽1
𝑡=
𝑆𝑏

𝑆𝑦𝑥
𝑆𝑏1 =
2
√∑ 𝑥 2 − (∑ 𝑥)
𝑛

9.3120
𝑆𝑏1 =
2
√13970 − 334
10

𝑆𝑏1 = 0.1755

2.1946 − 0
𝑡=
0.1755

𝑡 = 12.5048

𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎

Se concluye que, existe una relación entre el número de clientes y la variable

ventas

g. Prueba de hipótesis para coeficientes de correlación.

1) Ho: 𝜌 = 0 (No hay relación)

Ha: 𝜌 ≠ 0 (Si hay relación)

2) 𝛼 = 0.05

3) t-student
4) Grafica de la RA y RC

5) Cálculo del estadístico

𝑟√𝑛 − 2
𝑡=
√1 − 𝑟 2

0.9754√10 − 2
𝑡=
√1 − 0.97542

𝑡 = 12.5151

𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎

Interpretación: Si existe correlación entre la variable número de contactos y

ventas.

h. Intervalo de confianza de 𝛽1

𝑏 − 𝑡(0.05,10−2) 𝑆𝑏1 ≤ 𝛽1 ≤ 𝑏 + 𝑡(0.05,10−2) 𝑆𝑏1

2.1946 − 2.306𝑥0.1755 ≤ 𝛽1 ≤ 2.1946 + 2.306𝑥0.1755

1.7899 ≤ 𝛽1 ≤ 2.5993

i. Intervalo de confianza y predicción para X=40

𝑦 = −12.1996 + 2.1946𝑥

𝑦(40) = −12.1996 + 2.1946(40)


𝑦 = 75.5844

Intervalo de confianza

1 (𝑥 − 𝑥̅ )
𝐼𝐶 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √ +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛

1 (40 − 33.4)2
𝐼𝐶 = 75.5844 ± 2.306𝑥9.3120√ +
10 3342
13970 − 10

𝐼𝐶: [68.2873,82.8815]

Interpretación: En el intervalo de confianza del 95% para una cantidad de 40

contactos la cantidad de ventas se encuentra en el intervalo 68.2873 hasta

82.8815.

Intervalo de predicción

1 (𝑥 − 𝑥̅ )2
𝐼𝑃 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √1 + +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛

1 (40 − 33.4)2
𝐼𝑃 = 75.5844 ± 2.306𝑥9.3120√1 + +
10 3342
13970 − 10

𝐼𝑃: [52.9049,98.2639]

Interpretación: Una cantidad de 40 contactos hará que los valores de las ventas

estén entre 52.9049 y 98.2639

j. Análisis de influencia

X Y RES-T HI COOK

14 24 0,64703 0,233727 0,068850

12 14 -0,01576 0,262720 0,000051


20 28 -0,41047 0,163800 0,018416

16 30 0,83910 0,207575 0,095760

46 80 -1,02701 0,156410 0,097117

23 30 -0,95199 0,138431 0,073671

48 90 -0,35072 0,175739 0,014727

50 85 -1,65936 0,197911 0,278630

55 120 1,56642 0,265776 0,375804

50 110 1,64793 0,197911 0,275875

1) Elementos de la matriz sombrero hi*

ℎ𝑖∗ > 4/𝑛

ℎ𝑖∗ > 4/10

ℎ𝑖∗ > 0.4

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 ℎ𝑖∗ > 0.4, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

2) Para los residuales de t-student

|𝑡𝑖∗ | > 𝑡(0.1,10−3)

|𝑡𝑖∗ | > 1.895

En la tabla

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 𝑡𝑖∗ > 1.895 → 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

3) Estadístico de la distancia de Cook Di*

𝐷𝑖∗ > 𝐹(0.5,2,10−2)

𝐷𝑖∗ > 0.751

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 𝐷𝑖∗ > 0.751 → 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

Conclusión: No existe datos eliminados

S-ar putea să vă placă și