Documente Academic
Documente Profesional
Documente Cultură
Identificacin
1.1 Carrera: Ciencias de la Educacin.
1.2 Asignatura: Estadstica Aplicada.
1.3. Postulante: Gustavo Fernndez
1.4 Unidad: 5
1.5. Tema: Regresin y Prediccin.
Introduccin.
El objetivo es analizar el grado de la
relacin existente entre variables utilizando
modelos matemticos y representaciones
grficas. As pues, para representar la
relacin entre dos o ms variables
desarrollaremos una ecuacin que permitir
estimar una variable en funcin de la otra.
Objetivo General:
Objetivos Especficos:
Anlisis de correlacin
El coeficiente de correlacin, r
10
9
8
7
6
5
4
3
2
1
0
0
5
X
10
9
10
9
8
7
6
5
4
3
2
1
0
0
5
X
10
10
Correlacin cero
10
9
8
7
6
5
4
3
2
1
0
0
5
X
10
11
10
9
8
7
6
5
4
3
2
1
0
0
5
X
10
12
Frmula para r
( X X )(Y Y )
r
(n 1) s x s y
n(X
n(XY ) (X )(Y )
2
) (X ) n Y Y
2
13
Coeficiente de determinacin
14
Ejemplo 1
15
Ejemplo 1 (Continuacin)
Libro
Intr. a la Historia
lgebra
Intr.a la Psicologa
Intr. a la Sociologa
Mercadotecnia
Intr. a la Biologa
Fund. de Jazz
Intr.a la Enfermera
Pginas
500
700
800
600
400
500
600
800
Precio ($)
84
75
99
72
69
81
63
93
16
Ejemplo 1 (Continuacin)
Scatter Diagram of Number of Pages and Selling Price of Text
100
90
Price ($)
80
70
60
400
500
600
700
800
Page
17
Ejemplo 1 (Continuacin)
Libro
Pginas
X
Precio ($)
Y
XY
X2
Y2
Intr. a la Historia
500
84
42,000
250,000
7,056
lgebra
700
75
52,500
490,000
5,625
Intr. a la Psicologa
800
99
79,200
640,000
9,801
Intr. a la Sociologa
600
72
43,200
360,000
5,184
Mercadotecnia
400
69
27,600
160,000
4,761
Intr. a la Biologa
500
81
40,500
250,000
6,561
Fund. de Jazz
600
63
37,800
360,000
3,969
800
4,900
93
636
74,400
640,000
397,200 3,150,000
8,649
51,606
Intr. a la Enfermera
Total
18
Ejemplo 1 (Continuacin)
r
n(X
n(XY ) (X )(Y )
2
) (X ) n Y Y
2
8(397,200) (4,900)(636)
0.614
19
Ejemplo 1 (Continuacin)
La correlacin entre el nmero de pginas y el precio
de venta del libro es 0.614. Esto indica una asociacin
moderada entre las variables. Pruebe la hiptesis de
que no hay correlacin en la poblacin. Utilice un nivel
de la significancia del .02.
Paso 1: H0: La correlacin en la poblacin es cero.
Ejemplo 1 (Continuacin)
Paso 3: Para encontrar el valor del estadstico de
prueba, utilizamos:
t
r n2
1 r
.614 8 2
1 (.614)
1.905
21
Anlisis de regresin
22
Anlisis de regresin
La ecuacin de regresin es: Y' = a + bX, donde:
Y' es el valor pronosticado de la variable Y para un valor
seleccionado de X.
a es la ordenada de la interseccin con el eje Y cuando
X = 0. Es el valor estimado de Y cuando X=0
b es la pendiente de la recta, o el cambio promedio en Y'
para cada cambio de una unidad en X.
el principio de mnimos cuadrados se utiliza para
obtener a y b.
23
Anlisis de regresin
n( XY ) ( X )( Y )
b
n( X 2 ) ( X ) 2
Y
X
a
b
n
n
24
Ejemplo 2 (Continuacin)
8(397,200) (4,900)(636)
8(3,150,000) (4,900)
.05143
636
4,900
a
0.05143
48.0
8
8
25
Ejemplo 2 (Continuacin)
La ecuacin de regresin es:
Y' = 48.0 + .05143X
La ecuacin cruza al eje Y en $48. Un libro sin las
pginas costara $48.
La pendiente de la lnea es .05143. El costo de cada
pgina adicional es de cinco cntimos.
El signo del valor de b y el signo del valor de r sern
siempre iguales.
26
Ejemplo 2 (Continuacin)
Podemos utilizar la ecuacin de regresin para
estimar valores de Y.
El precio de venta estimado de un libro de 800 pginas
es $89.14, encontrado por
Y 48.0 0.05143 X
48.0 0.05143(800) 89.14
27
Y 2 aY bXY
n2
28
Ejemplo 3
Encuentre el error estndar de estimacin para el
problema que implica el nmero de pginas en un libro
y el precio de venta.
s y. x
Y 2 aY bXY
n2
82
10.408
29
Suposiciones subyacentes en el
anlisis de regresin lineal
30
Intervalo de confianza
( X X )2
2
(
X
)
X 2
n
1
89.14 2.447(10.408)
(800 612.5) 2
( 4900) 2
3,150,000
8
89.14 15.31
31
Intervalo de prediccin
Y ts y. x
1
1
n
( X X )2
( X ) 2
X
n
2
1
89.14 2.447(10.408) 1
8
(800 612.5) 2
(4900) 2
3,150,000
8
89.14 29.72
32
Ejemplo 3 (Continuacin)
Resumir los resultados:
El precio de venta estimado para un libro con 800
pginas es $89.14.
El error estndar de estimacin es $10.41.
El intervalo de confianza de 95% para todos los libros con
800 pginas es $89.14+-$15.31. Esto significa que los
lmites estn entre $73.83 y $104.45.
El intervalo de prediccin de 95% para un libro particular
con 800 pginas es $89.14+-$29.72. Esto significa que
los lmites estn entre $59.42 y $118.86.
Estos resultados aparecen en la siguiente salida de
MINITAB.
33
Ejemplo 3 (Continuacin)
Regression Analysis: Price versus Pages
The regression equation is
Price = 48.0 + 0.0514 Pages
Predictor
Constant
Pages
Coef SE Coef
48.00
16.94
0.05143 0.02700
S = 10.41
R-Sq = 37.7%
T
P
2.83 0.030
1.90 0.105
R-Sq(adj) = 27.3%
Analysis of Variance
Source
DF
SS
Regression
1
393.4
Residual Error 6
650.6
Total
7
1044.0
MS
393.4
108.4
F
P
3.63 0.105
34
Y ' a b1 X 1 b2 X 2
36
La frmula es:
s y.12...k
(Y Y ' ) 2
n (k 1)
37
38
La tabla ANOVA
La tabla ANOVA reporta la variacin en la
variable dependiente. La variacin se divide
en dos componentes.
La variacin explicada es considerada por el
sistema de la variable independiente.
La variacin inexplicada o al azar no es
considerada por las variables independientes
39
Matriz de correlacin
Una matriz de correlacin se utiliza para mostrar todos
los coeficientes de correlacin simples posibles entre las
variables.
Prueba global
41
42
43
Ejemplo 1
Un investigador de mercado que trabaja para el
Sper Siete est estudiando el gasto anual que
las familias de cuatro o ms destinan a
alimentos. Tres variables independientes se
consideran para ser relacionadas con los gastos
anuales del alimento (alimento). Esas variables
son: renta total de la familia (renta) en $00,
tamao de la familia (tamao), y si la familia
tiene nios en la universidad (universidad).
44
45
Familia
Alimento
Ingreso
Tamao
Estudiante
3900
376
5300
515
4300
516
4900
468
6400
538
7300
626
4900
543
5300
437
6100
608
10
6400
513
11
7400
493
12
5800
563
0
46
47
Predictor
Constant
Income
Size
Student
S = 572.7
Analysis of Variance
Source
Regression
Residual Error
Total
Coef
954
1.092
748.4
564.5
SE Coef
1581
3.153
303.0
495.1
R-Sq = 80.4%
DF
3
8
11
T
0.60
0.35
2.47
1.14
P
0.563
0.738
0.039
0.287
R-Sq(adj) = 73.1%
SS
10762903
2623764
13386667
MS
3587634
327970
F
10.94
P
0.003
48
49
Ingreso
Tamao
Estudiante
Alimento
0.587
0.876
0.773
Ingreso
0.609
0.491
0.743
51
H0 es rechazada si F >4.07.
De la salida de MINITAB, el valor calculado de F es
10.94.
Decisin: H0 es rechazada. No todos los coeficientes de regresin
son cero
52
H0 : 2 0
H1: 2 0
53
54
Coef
339.7
1031.0
R-Sq = 76.8%
SE Coef
940.7
179.4
T
0.36
5.75
P
0.726
0.000
R-Sq(adj) = 74.4%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
10
11
SS
10275977
3110690
13386667
MS
10275977
311069
F
33.03
P
0.000
55