Sunteți pe pagina 1din 9

SOLUCIONARIO DE LA SEGUNDA GUA DE ESTADSTICA INFERENCIAL

Actividad de aprendizaje 2.1


PROBLEMA 1
Prueba de bondad de ajuste con distribucin de frecuencias diferentes.
1) Planteo de hiptesis
Ho: La frecuencia de resultados sigue el patrn identificado.
H1: Las frecuencias de resultados no sigue el patrn identificado.
2) Nivel de significancia:
Grados de libertad: gl = k-1 = 3
Para = 0,01 y 3gl:

c 2 11,345

3) Estadstico de prueba
Para estas pruebas se usa la distribucin ji-cuadrada:
Estudios
Bachiller incompleto
Bachiller
Universitario incompleto
Universitario
Total

fo

fe

fo fe 2 / fe

50
100
190
160

5
15
25
55

25
75
125
275

25,000
8,333
33,800
48,091

500

2 115,224

500

4) Regla de decisin:
Regla de decisin: Se acepta e Ho si < 11,345 caso contrario se acepta.
2

5) Conclusin.
Al nivel de significancia del 1% se concluye que la distribucin de tarjetahabientes que no han pagado sus cuentas es diferente
en forma significativa de la de los dems.

PROBLEMA 2
Tabla de frecuencias observadas.
Nivel de presin en el trabajo
Edad
Bajo
Mediano
Alto
Menor 25
20
18
22
25 a 40
50
46
44
40 a 60
58
63
59
60 y mas
34
43
43
Total
162
170
168

Total
60
140
180
120
500

Tabla de frecuencias esperadas:

fe

Total por

Edad
Menor 25
25 a 40
40 a 60
60 y mas
Total

fila Total por columna


Gran total

Bajo
19,44
45,36
58,32
38,88
162

Nivel de presin en el trabajo


Mediano
20,4
47,6
61,2
40,8
170

Alto
20,16
47,04
60,48
40,32
168

Total
60
140
180
120
500

Prueba de independencia entre 2 caractersticas en la tabla de contigencia.


1) Planteo de hiptesis.
Ho: No existe relacin entre la presin laboral y la edad.
Ha: Existe relacin entre la presin laboral y la edad.
2) Nivel de significancia: = 0,05
Para = 0,05 y (r-1) (c-1) = (4-1) (3-1) = 6gl:

c 2 12,592

3) Valor de Ji-cuadrada.

fo fe 2
fe
Fe

fo fe 2 / fe

19,44
45,36
58,32
38,88
20,4
47,6
61,2
40,8
20,16
47,04
60,48
40,32

0,0161
0,4746
0,0018
0,6125
0,2824
0,0538
0,0529
0,1186
0,1679
0,1965
0,0362
0,1781
2
=2,1915

fo
20
50
58
34
18
46
63
43
22
44
59
43
Suma:

4) Regla de decisin

Se acepta la Ho si < 12,592


2

5) Conclusin.
Al nivel de significancia del 5% parecera que no existe relacin significativa entre la presin laboral en el trabajo y la edad del
personal de ventas.

PROBLEMA 3
Tabla de clculos:
Empresa B
X
X
14
196
12
144
10
100
10
100
46
540
4

Empresa A

X
12
10
14
12
48

1
2
3
4
Tc
nc

X
X
2

X
144
100
196
144
584
4

Empresa C
X
18
12
16
46

X
324
144
256
0
724

182
2444

Prueba ANOVA de una direccin.


a) Planteo de hiptesis
H 0 : 1 2 3 Promedio de meses antes de primer aumento en las 4 empresas son iguales.

H a : No todos los promedios de tratamientos son iguales.


b) Nivel de significancia.
Gl en el numerador: k-1 = 4-1 = 3gl
Gl en el denominador: n-k = 14-4 = 10gl
Para = 0,05 Fc = 3,71
c) Clculos:
Suma de cuadrados, total:

SS total X

SS total

2444

182 2
78
14

Suma de cuadrados del tratamiento:

Tc 2 X
48 2 46 2 46 2 42 2 182 2

SST

32,3333
SST

4
4
3
3 14
n

nc

Suma de cuadrados del error:


SSE SS total SST SSE = 78 32,3333 = 45,6667
d) Tabla ANOVA en una direccin, para determinar Estadstico de prueba F
Fuente de
variacin
Tratamiento
Error
Total

Suma de
cuadrados
32,3333
45,6667
78

Grados de
libertad
3
10
13

Cuadrado
medio
10,7778
4,5667

e) Regla de decisin:
Se acepta la Ho si F <3,71

Valor F
2,36

Empresa D
X
X
12
144
14
196
16
256
42

596
3

f)

Conclusin:
Al nivel de significancia del 5% se parecera ser que Promedio de meses antes de primer aumento en las 4 empresas son
iguales.

Actividad de aprendizaje 2.2


PROBLEMA 1 (4 puntos)
N
1
2
3
4
5

N empleados
X
2
4
1
5
3

SUMA

15

Produccin.
Y
15
25
10
40
30
120

XY
30
100
10
200
90

X
4
16
1
25
9

Y
225
625
100
1600
900

430

55

3450

a) La variable dependiente corresponde a la produccin de ensambles en una hora y la variable independiente a la


cantidad de trabajadores que arman un ensamble.
b) Diagrama de dispersin.

Produccion en una hora

45

Diagrama de dispersin

40
35
30

25
20

Diagrama de dispersion

15

Regresion

10
5
0
0

Cantidad de empleados

En el diagrama de dispersin se identifica la existencia de un buena relacin lineal positiva entre las variables analizadas.
c)

Ecuacin de regresin o mnimos cuadrados: Y = a + b*X


Pendiente de la lnea de regresin:

n XY X Y
n X X

5 430 15 120 350

7
50
5 55 15 2

Intercepcin con el eje Y:

Y b X a 120 7 15 3
n

Ecuacin de la recta de regresin: Y = 3 + 7*X


d) Interpretaciones:
El valor a = 3 es el punto de interseccin de la recta de regresin con el eje Y.
El valor b = 7 indica que por cada 1 trabajador adicional, la produccin en una hora aumentaran en 7 unidades.

e) Unidades producidas por X = 6 trabajadores.


Y = 3 + 7(6) = 45 unidades.
Con un grupo de 6 trabajadores, durante una hora se producirn 45 unidades.
f)

Coeficiente de correlacin.

n X

n XY X Y

X n Y Y
2

r 0,9272

Este valor de r = 0,9272 indica que existe una alta relacin lineal positiva entre las variables investigadas.
g) Prueba de significancia para la correlacin de la poblacin.
Planteo de hiptesis.
H 0 : 0. La correlacin en la poblacin es cero.

H 1 : <0. La correlacin en la poblacin es menor que cero.


Nivel de significancia: = 0,05.
Por ser n<30, se aplica como estadstico de prueba la distribucin t.

r. n 2
1 r

0,9272. 5 2
1 0,9272 2

4,288

Nivel de significancia
Estadstico t crtico.
Para = 0,05 de una cola y n-2 = 3gl: tc = -2,353
Regla de decisin:
Se acepta la Ho si t > -2,353.

Conclusin:
Al nivel de significancia del 5% se concluye que la correlacin de la poblacin no es menor que cero.
h) Error estndar de estimacin: Sy.x

S y. x

a. Y b. XY
n2

3450 3(120) 7(430)


S y. x 5,164
52

Este valor indica que los datos se distribuyen con un alto grado de dispersin alrededor de la recta de regresin.
i) Intervalo de confianza del 95% para la media de produccin de todos los empleados que realizan Y = 35 unidades.
Y = 3+7X = 35; X = (35-3)/7 = 4,57

1
XX
IC Y 't.S y. x .

2
n X X 2 / n

1 4,57 15 / 5

35 10,98
5 55 152 / 5
2

IC 35 3,182 5,164 .

Existe el 95% de confianza que la media de produccin de todos los empleados que realizan 35 unidades estar comprendido
entre 24 y 46 unidades.
j)

Intervalo de prediccin del 95% para un empleado en particular que realiza Y = 35 unidades.

Y = 3+7X = 35; X = (35-3)/7 = 4,57

1
XX
IP Y 't.S y. x . 1
n X 2 X 2 / n

1 4,57 15 / 5

35 19,76
5 55 152 / 5
2

IC 35 3,182 5,164 . 1

Existe el 95% de confianza que la produccin de un empleado en particular que realiza 35 unidades estar comprendido entre
15,24 y 54,76 unidades.

Actividad de aprendizaje 2.3


PROBLEMA 1

a) Ecuacin de estimacin:

Y b0 b1 X 1 b2 X 2
Relaciones:

Y n.b b X b X
X Y b X b X b X X
X Y b X b X X b X
0

2
2
2

:
Cliente
1
2
3
4
5
6
7
8
9
10

Cheques
Y
27
40
11
52
5
14
43
7
13
36

Edad
X1
35
31
51
35
39
27
29
40
47
34

Ingreso
X2
14,2
22,6
15,7
23,2
10
21,3
21,5
9,7
18,7
11,9

X1*Y
945
1240
561
1820
195
378
1247
280
611
1224

X2*Y
383,4
904
172,7
1206,4
50
298,2
924,5
67,9
243,1
428,4

X1*X2
497
700,6
800,7
812
390
575,1
623,5
388
878,9
404,6

X1
1225
961
2601
1225
1521
729
841
1600
2209
1156

X2
201,64
510,76
246,49
538,24
100
453,69
462,25
94,09
349,69
141,61

Y
729
1600
121
2704
25
196
1849
49
169
1296

SUMA

248

368

168,8

8501

4678,6

6070,4

14068

3098,46

8738

Segn la tabla, tenemos el siguiente sistema de ecuaciones:

248 10b0 368b1 168,8b2


8501 368b0 14068b1 6070,4b2
4678,6 168,8b0 6070,4b1 3098,46b2

(E1)
(E2)
(E3)

Resolviendo el sistema de ecuaciones:


b0 = 27,4636

; b1 = -0,7767

; b2 = 1,5355

Ecuacin de regresin para el aumento de peso: Y 27,4636 0,7767 X 1 1,5355 X 2


b) Estimacin del nmero de cheques emitidos al mes por un cliente de X1 = 45 aos de edad y X2 = 26,85 miles de
dlares de ingresos anuales.

Y 27,4636 0,7767(45) 1,5355(26,85) 33,74 34

Para un cliente de las caractersticas indicadas, se estima que el nmero de cheques que emitir durante un mes ser
aproximadamente de 34.
c)
S Y .12

S Y .12

Error estndar de estimacin:

b0 Y b1 X 1Y b2 X 2 Y
n k 1

8738 27,4636 248 0,7767 8501 1,5355 4678,6


10 2 1

SY .12 13,8655
Este valor nos indica que existe una alta dispersin de los datos alrededor del plano de regresin.
d) Coeficiente de correlacin mltiple:
R
R

n b0 Y b1 X 1Y b2 X 2Y Y
n Y 2 Y

1027,4636( 248) 0,7767(8501) 1,5355( 4678,6) 248 2


10(8738) 248

12418,364
0,6928
25876

Este valor indica la existencia de una moderada relacin lineal positiva entre las variables edad e ingresos anuales de un cliente
con la variable de inters, numero de cheques emitidos durante un mes.

Actividad de aprendizaje 2.4


PROBLEMA
a) Ecuacin de regresin
Resultados mediante EXCEL
ANALISIS DE EXCEL
Estadsticas de la regresin
Coeficiente de correlacin
mltiple
Coeficiente de
determinacin R^2

0,8520
0,7259

R^2 ajustado

0,5888

Error tpico

0,03834

Observaciones

10

ANLISIS DE VARIANZA
Grados de
libertad

Suma de
cuadrados

Promedio de
los cuadrados

Valor crtico
de F

Regresin

0,0234

0,0078

5,296

0,0401

Residuos

0,0088

0,0015

Total

0,0322

Coeficientes

Error tpico

Estadstico t

Probabilidad

Inferior
95%

Superior
95%

Inferior
95,0%

Superio
r 95,0%

Intercepcin

-0,0526

0,5969

-0,0881

0,9327

-1,5132

1,4080

-1,5132

1,4080

X1

0,7467

0,4695

1,5907

0,1628

-0,4020

1,8954

-0,4020

1,8954

X2

-0,0022

0,0018

-1,2135

0,2705

-0,0066

0,0022

-0,0066

0,0022

X3

0,003

0,0008

3,6341

0,0109

0,0010

0,0051

Y b0 b1 X 1 b2 X 2 b3 X 3
Y 0,0526 0,7467 X 1 0,0022 X 2 0,0030 X 3
b) Consumo estimado para un precio X1 = 1,37 un ingreso de X2 = 355 y una temperatura de X3 = 59.
Y 0,0526 0,7467(1,37) 0,0022(355) 0,0030(59) 0,366 Pintas per cpita
Para un caso de las caractersticas propuestas, el consumo estimado semanal es 0,366 pintas per cpita.

0,0010

0,00
51

c)

Calcular R

Consumo
Y
0,386
0,374
0,393
0,425
0,406
0,344
0,327
0,288
0,269
0,256

Precio
X1
1,35
1,41
1,39
1,4
1,36
1,31
1,38
1,34
1,33
1,39

Variacin total:

Ingresos
X2
351
356
365
360
342
351
369
356
342
356

SS total Y Y

Variacin de error:

Temp.
X3
41
56
63
68
69
65
61
47
32
24

Estimac
Y'
0,308026
0,38733
0,373835
0,407463
0,420207
0,350947
0,351506
0,307761
0,285585
0,27534
Sumas:

(Y-Y')
0,00608
0,00018
0,00037
0,00031
0,0002
4,8E-05
0,0006
0,00039
0,00028
0,00037
0,00882

(Y-Ym)
0,001537
0,00074
0,002134
0,006115
0,003505
7,84E-06
0,000392
0,003457
0,006053
0,008245
0,032186

0,032186

SSE Y Y ' 0,00882


2

SSR SS total SSE 0,032186 0,00882 0,023366


SSR
0,023366
2
Coeficiente de determinacin mltiple: R

0,756
SS total 0,032186
Variacin de la regresin:

Este valor indica que el 75,6% de las variaciones en el consumo son explicadas por la ecuacin de regresin mltiple.
d) Error estndar mltiple de la estimacin, Sy.12

Y Y '

S y.12

n (k 1)

0,00882
0,0383
10 (3 1)

Este resultado indica que los datos de consumo presentan un bajo grado de dispersin alrededor del plano de regresin
mltiple.
e) Prueba de significancia para la regresin como un todo, mediante la prueba ANOVA.
Planteo de hiptesis para la prueba global.
Ho: 1 2 3 0 Ninguna de las variables Xi son explicativas significativas.
Ha: No todas las son cero.
Nivel de significancia: = 0,05
Para esta prueba se aplica la distribucin F.
Tabla ANOVA (mediante clculos del literal c)
Fuente
Regresin
Error
Total

gl
k=3
n-(k+1)= 6
n-1= 9

Estadstico de prueba:

SS
SSR=0,023366
SSE=0,00882
SStot=0,032186

MS
SSR/k=0,00779
SSE/6=0,00147

SSR / k
0,023366 / 3

5,299
SSE /( n k 1) 0,00882 / 6

Estadstico F crtico.
Para k = 3gl en el numerador y n-k-1 = 6gl en el denominador: Fc = 4,76

Valor F
5,299

Regla de decisin: se ACEPTA la Ho si F < 4,76 c.


Decisin: al nivel de significancia del 5% se concluye que no todos los coeficientes de regresin son cero; es decir que
las variables independientes si tienen la capacidad de explicar la variacin del consumo de helados.
f)

Prueba de hiptesis para la significancia de cada variable independiente Xi, en forma individual.
Ho: 1 0 Xi no es variable explicativa significativa.
Ha:

1 0 Xi es variable explicativa significativa.

Nivel de significancia: = 0,05


Para = 0,05 y n-k-1 = 10-3-1 = 6 gl: tc = 2,447.
Resumen de resultados del coeficiente y error estndar mediante EXCEL:
Variable
Xi
X1
X2
X3

Coeficiente
bi
b1 = 0,7467
b2 = -0,0022
b3 = 0,0030

Error estndar
Sbi
Sb1 = 0,4694
Sb2 = 0,0018
Sb3 = 0,0008

Valor
t = bi/Sbi
1,5907
-1,2135
3,6341

Probabilidad
Prob.
0,1628
0,2705
0,0109

Regla de decisin:
Se ACEPTA la Ho si -2,447 < t < +2.447

Decisin:
Como el valor t para las variables independientes precio: X1 e ingresos: X2 estn dentro de 2,447 se acepta la Ho, es
decir que al nivel de significancia del 5%, estas dos variables independientes no son explicativas significativas para el
modelo de regresin.
Solamente para la variable independiente temperatura: X3 est fuera de 2,447 entonces se rechaza la Ho, tal que esta
sera la nica variable significativa para el modelo de regresin mltiple.
Al usar los valores de la columna probabilidad comparando con el valor del nivel de significancia = 0,05, se lleg a las
mismas conclusiones
En conclusin, para el nivel de significancia del 5% sera recomendable eliminar las variables precio e ingresos para el
modelo de regresin para el variable dependiente consumo de helados.