Documente Academic
Documente Profesional
Documente Cultură
DIAGRAMAS DE DISPERSIN
Un diagrama de dispersin es una ilustracin grfica que se usa en el
anlisis de regresin. Consta de una dispersin de puntos tal que cada punto
representa un valor de la variable independiente (medido a lo largo del eje
horizontal), y un valor asociado de la variable dependiente (medido a lo largo
del eje vertical).
El diagrama de dispersin, tambin llamado nube de puntos, brinda dos
tipos de informacin, visualmente se pueden determinar los patrones que
indican como las variables estn relacionadas (lineal o mediante una curva) y
por otro lado si existe una relacin entre ellas visualizando la clase de lnea o
ecuacin de estimacin que describe a dicha relacin.
A continuacin se ilustran algunas relaciones en los diagramas de
dispersin:
y = a + bx
xy n x y
b=
x nx
2
a = y + bx
Las variables a y b son constantes numricas que son las que se calculan
mediante el mtodo de mnimos cuadrados.
Regresin y Correlacin Lineal Simple
Se =
(a y ) (b xy )
n2
4. Se calcula la pendiente.
b=
xy n x y
x n(x )
2
a = y + bx
dispersin,
y = a + bx
7. Se traza la lnea estimada en el diagrama de dispersin.
Se =
(a y ) (b xy )
n2
Por ejemplo:
Una cadena de Pizzeras toma una muestra de diez de sus sucursales
para tratar de encontrar un modelo matemtico que le permita predecir sus
ventas y obtuvo los siguientes datos: la poblacin de personas en miles fue
de 2, 6, 8, 8, 12, 16, 20, 20, 22, 26; y las ventas trimestrales en miles de pesos
fue de: 58, 105, 88, 118, 117, 137, 157, 169, 169, 149, 202.
Realice una regresin para estimar las ventas de dos sucursales que tienen
14,000 y 30,000 personas como potenciales clientes respectivamente.
Solucin
Datos
n=10
58
105
88
118
12
117
16
137
20
157
20
168
22
149
10
26
202
Sucursal
XY
58
116
3364
105
630
36
11025
88
704
64
7744
118
944
64
13924
12
117
1404
144
13689
16
137
2192
256
18769
20
157
3140
400
24649
20
168
3380
400
28224
22
149
3278
484
22201
10
26
202
5252
676
40804
140
1300
21040
2528
184393
4. Calculo de la pendiente.
140
= 14 mil personas
10
1300
y=
= 130 mil pesos
10
x=
b=
=5
a = 130 5(14) = 60
6. Obtener la ecuacin que mejor se ajuste.
y = 60 + 5( x )
http://www.cuautitlan.unam.mx
Se =
http://www.cuautitlan.unam.mx
CORRELACIN SIMPLE
Mientras que el anlisis de regresin simple establece una ecuacin
precisa que enlaza dos variables, el anlisis de correlacin es la herramienta
estadstica que podemos usar para describir el grado o fuerza en el que una
variable esta linealmente relacionada con otra.
Dependiendo del tamao de esta medida cuantitativa se puede decir, que
tan cercanamente se mueven dos variables, y por lo tanto, con cuanta
confiabilidad se puede estimar una variable con ayuda de la otra.
Una tcnica estadstica que establece un ndice que proporciona, en un
solo nmero, una medida de la fuerza de asociacin entre dos variables de
inters, se llama anlisis de correlacin simple.
El anlisis de correlacin es la herramienta estadstica de que nos valemos
para describir el grado de relacin que hay entre dos variables.
A menudo el anlisis de correlacin simple se utiliza junto con el anlisis de
regresin lineal simple para medir la eficacia con que la lnea de regresin
explica la variacin de la variable dependiente, Y.
http://www.cuautitlan.unam.mx
(a y ) + (b xy ) (n y
=
y (n y )
2
http://www.cuautitlan.unam.mx
r = r2
INTERVALO DE CONFIANZA
Debido a que la recta estimada de regresin, no es del todo real, es
necesario elaborar un intervalo de confianza que le de seguridad a nuestros
clculos.
Como se ha visto, cuando se utilice el mtodo de mnimos cuadrados,
los coeficientes de regresin, a y b son estimadores insesgados, eficientes y
consistentes de y , tambin aqu es muchas ocasiones es deseable
establecer intervalos de confianza.
Los intervalos de confianza se calculan con la siguiente frmula:
S
yc = y t / 2 , gln 2 e
n
http://www.cuautitlan.unam.mx
INTERVALO DE PREDICCIN
El intervalo de prediccin, como su nombre lo indica, se utiliza para
predecir un intervalo de valores de Y, dado un valor de X.
El intervalo de prediccin se calcula con la siguiente frmula:
(X x )
1
y p = y (t 2 (n 2)) S e 1 + +
n x 2 n(x )2
2
http://www.cuautitlan.unam.mx
Por ejemplo:
Un gerente de ventas reuni los datos siguientes relacionados con las
ventas anuales en miles de pesos y los aos de experiencia de diez
vendedores. Estime las ventas anuales para un vendedor con 7 aos de
experiencia.
Solucin
1. Obtencin y tabulacin de los datos muestrales.
X: Aos de experiencia
Y: Ventas anuales en miles de pesos.
Vendedor
1
2
3
4
5
6
7
8
9
10
=
X
1
3
4
4
6
8
10
10
11
13
70
Y
80
97
92
102
103
111
119
123
117
136
1080
2. Diagrama de dispersin.
http://www.cuautitlan.unam.mx
X
1
3
4
4
6
8
10
10
11
13
70
Y
80
97
92
102
103
111
119
123
117
136
1080
X2
1
9
16
16
36
64
100
100
121
169
632
XY
80
291
368
408
618
888
1190
1230
1287
1768
8128
Y2
6400
9409
8464
10404
10609
12321
14161
15129
13689
18496
119082
1080
= 108
10
70
=7
x=
10
y=
b=
=4
a = 108 4(7 ) = 80
y = 80 + 4( x )
Para un vendedor con 7 aos de experiencia, sus ventas estimadas seran:
http://www.cuautitlan.unam.mx
Se =
(
80 1080 ) + (4 8128) (10 1082 )
=
=
119082 10 1082
r 2 = 93.03%
r = 0.9303 = 0.9645
Este nmero nos indica que las variables X Y tienen una correlacin positiva
intensa.
http://www.cuautitlan.unam.mx
4.61
yc = 108 2.306
10
108 3.3617 yc 108 + 3.3617
104.6383 yc 111.3617
Se puede asegurar con un nivel de confianza del 95% que las ventas de los
vendedores con 7 aos de experiencia estn entre 104.6 y 111.4 miles pesos
anuales.
10. Determinar el intervalo de prediccin para un vendedor con 9 aos de
experiencia se tiene
(X x )
1
y p = y (t 2 (n 2)) S e 1 + +
n x 2 n(x )2
2
Sustituyendo:
(9 7 )
1
y p = 108 2.306 4.61 1 + +
10 632 10(7) 2
2
Se puede asegurar con un nivel de confianza del 95% que las ventas
pronosticadas de un vendedor con 9 aos de experiencia estn entre 96.71
y 119.3 miles pesos anuales.
http://www.cuautitlan.unam.mx
Ejercicios propuestos:
1. El jefe del departamento de aguas de una ciudad desea establecer una
relacin entre el consumo mensual domiciliario de agua Y, y el tamao de las
familias X, Dados los datos muestrales, determine:
Galones
de
Agua
Y
650
1200
1300
430
1400
900
1800
640
793
925
a)
b)
c)
d)
e)
f)
g)
h)
i)
Tamao
de
familia.
X
2
7
9
4
12
6
9
3
3
2
http://www.cuautitlan.unam.mx
a)
b)
c)
d)
e)
f)
g)
h)
i)
Seguro Salario
Anual.
de
vida
Y
X
50
10
80
29
100
30
130
31
150
36
Elabora el diagrama de dispersin.
Calcula la pendiente y ordenada al origen.
Obtener la ecuacin que mejor se ajusta a los datos.
Traza la lnea estimada en el diagrama de dispersin.
Calcula el error estndar de estimacin.
Calcula el coeficiente de determinacin.
Determina el coeficiente de correlacin.
Determina el intervalo de confianza al 90%.
Determina el intervalo de prediccin 90%
X
9.7
9.8
7.6
6.1
10.2
12.7
14.3
7.9
8.9
http://www.cuautitlan.unam.mx
4.
5.
6.
7.
8.
9.
69 75
170 133
86
86
Precio de
competencia
X
13
13
15
15
16
21
21
14
40
12
http://www.cuautitlan.unam.mx
1.
2.
3.
4.
5.
6.
7.
8.
9.
a)
b)
c)
d)
e)
f)
g)
h)
i)
Estudiante
Altura (mts)
Peso (Kg)
1
1.50
48
2
1.54
50
3
1.60
52
4
1.72
70
5
1.80
72
6
1.50
50
7
1.61
57
8
1.54
54
9
1.63
80
10
1.70
62
Elabora el diagrama de dispersin.
Calcula la pendiente y ordenada al origen.
Obtener la ecuacin que mejor se ajusta a los datos.
Traza la lnea estimada en el diagrama de dispersin.
Calcula el error estndar de estimacin.
Calcula el coeficiente de determinacin.
Determina el coeficiente de correlacin.
Determina el intervalo de confianza al 95%.
Determina el intervalo de prediccin 95%
http://www.cuautitlan.unam.mx
7. Los datos siguientes muestran las ventas (en miles de cajas) y los costos de
un anuncio publicitario para la televisin (en millones de pesos) para 7 marcas
principales de refrescos.
Marca
Gastos de
Ventas de cajas
publicidad ($)
(miles)
Coca-Cola
13.0
19.3
Pepsi-Cola
9.4
13.8
Sprite
6.4
8.4
Diet Coke
5.7
5.5
7-Up
4.2
5.9
Jarritos
2.9
5.3
Boing
1.6
2.5
a) Dibuje el diagrama de dispersin, que parece indicar este diagrama
acerca de la relacin entre las dos variables?
b) Trace una recta que pase por los datos, para aproximar una relacin
lineal entre los gastos del anuncio y las ventas.
c) Aplique el mtodo de los cuadrados mnimos para plantear la ecuacin
estimada de regresin.
d) Prediga las ventas para una marca que decida gastar $7 millones de
pesos en un anuncio publicitario.
e) Calcule el error estndar en la regresin.
f) Calcule el coeficiente de determinacin y correlacin e interprtelos.
g) Determina el intervalo de confianza al 95%.
h) Determina el intervalo de prediccin 95%
8. La revista del consumidor publico en su nmero 381 del mes de noviembre
del 2008 la siguiente informacin acerca del uso de los telfonos celulares:
Ao
2000
2001
2002
2003
2004
2005
2006
2007
http://www.cuautitlan.unam.mx
Meses en venta
6.5 7.0
8.6 12.1 9.0 9.5 8.6 10.6 15.0
Precio pedido (en 800 1000 990 1250 1400 1100 990 990 1250
miles de pesos)
a) Trace un diagrama de dispersin para estos datos,
b) Aplique el mtodo de mnimos cuadrados para plantear la ecuacin
estimada de regresin.
c) Prediga cuanto tiempo se tardara en vender un departamento que
cueste $ 1500,000 pesos.
d) Calcule el error estndar en la regresin.
e) Calcule el coeficiente de correlacin y el coeficiente de determinacin
e interprtelos.
f) Determina el intervalo de confianza al 95%.
g) Determina el intervalo de prediccin 95%
http://www.cuautitlan.unam.mx
170
133
86
161
112
133
136
82
99
95
50
80
92
88
130
100
http://www.cuautitlan.unam.mx
a)
b)
c)
d)
e)
f)
g)
Nacimientos
Mes de registro Registrados
1 Enero
220,670
2 Febrero
211,330
3 Marzo
213,299
4 Abril
270,819
5 Mayo
225,298
6 Junio
205,572
7 Julio
211,180
8 Agosto
249,626
9 Septiembre 220,666
10 Octubre
241,529
11 Noviembre 211,857
12 Diciembre 173,237
Aplique el mtodo de mnimos cuadrados para plantear la ecuacin
estimada de regresin.
El INEGI reporto que en julio de 2007 se registraron 211,330
nacimientos, utiliza la ecuacin obtenida y predice cuantos debieron
de haberse registrado en ese mes, compara resultados y obtn tus
conclusiones.
Estime cuantos nacimientos se registraron en enero de 2008.
Calcule el error estndar en la regresin.
Calcule el coeficiente de correlacin y el coeficiente de determinacin
e interprtelos.
Determina el intervalo de confianza al 95%.
Determina el intervalo de prediccin 95%
http://www.cuautitlan.unam.mx