Documente Academic
Documente Profesional
Documente Cultură
2
PRESENTACIÓN
Regresión y Correlación lineal simple es el noveno fascículo, de una serie de guías de
estudio en las que se desarrollan los temas de los programas de las asignaturas del área
de Probabilidad y Estadística, así como temas selectos que complementan el
aprendizaje de de esta disciplina. Tienen la característica de que el estudiante adquiera
sólo aquella que trate el tema que necesite reforzar o el que sea de su propio interés.
Estas guías de estudio pretenden reorientar y actualizar el enfoque con el que se debe
abordar el estudio de los métodos estadísticos, despertando la inquietud por aprender
y resolver los problemas y casos planteados.
Cada guía integra el desarrollo del tema con ejercicios, casos de estudio y con la sección
llamada Aprendiendo.com. En esta última sección se le proporciona al estudiante un
ambiente interactivo, utilizando los recursos disponibles en Internet, de tal forma que
los casos planteados los desarrolle en ambientes de aprendizaje que le permitan
encontrarse con el conocimiento, “manipularlo”, hacerlo suyo. Con esta filosofía se
utilizan applets, sitios de internet con acceso a bases de datos reales, software de uso
libre y en general los recursos de la Web 2.0, que se refieren a una segunda generación
en la historia de la Web basada en comunidades de usuarios, que fomentan la
colaboración y el intercambio ágil de información entre los mismos.
Los Autores
3
4
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE
5
El análisis de regresión se desarrolla una ecuación de estimación, es decir,
una formula matemática que relaciona las variables conocidas con las
desconocidas. Luego de obtener el patrón de dicha relación, se aplica el
análisis de correlación para determinar el grado de relación que hay entre las
variables.
Las relaciones entre las variables pueden ser directas o también inversas.
6
Relación inversa: La pendiente de esta línea es negativa, por que a medida
que aumenta el valor de la variable Y, el valor de la variable X disminuye.
7
VARIABLE INDEPENDIENTE (X)
DIAGRAMAS DE DISPERSIÓN
8
El diagrama de dispersión, también llamado nube de puntos, brinda dos
tipos de información, visualmente se pueden determinar los patrones que
indican como las variables están relacionadas (lineal o mediante una curva) y
por otro lado si existe una relación entre ellas visualizando la clase de línea o
ecuación de estimación que describe a dicha relación.
9
METODO DE MINIMOS CUADRADOS
El método que por lo común se utiliza para ajustar una línea a los datos
muestrales indicados en el diagrama de dispersión, se llama método de
mínimos cuadrados. La línea se deriva en forma tal que la suma de los
cuadrados de las desviaciones verticales entre la línea y los puntos
individuales de datos se reduce al mínimo.
El error es cero.
Los datos obtenidos de las muestra son estadísticamente independientes.
La varianza del error es igual para todos los valores de X.
b
xy n x y
x nx
2 2
10
Para calcular el valor de a (ordenada al origen), que representa el punto
en que la recta corta al eje de las Y, se emplea la siguiente formula:
a y bx
Las variables a y b son constantes numéricas que son las que se calculan
mediante el método de mínimos cuadrados.
y 2
a y b xy
Se
n2
11
estimador “perfecto” de la variable dependiente, en este caso todos los
puntos caerían directamente sobre la línea de regresión y no habría puntos
dispersos, como se muestra en la siguiente figura:
12
El error estándar de la estimación se mide a lo largo del eje “Y”, y no
perpendicularmente desde la recta de regresión.
13
PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE REGRESIÓN LINEAL
SIMPLE
X Y
14
3. La información se gráfica en un diagrama de dispersión,
estableciéndose la posible relación entre las dos variables
4. Se calcula la pendiente.
b
xy n x y
x nx 2 2
a y bx
6. Se obtiene la ecuación que mejor se ajusta a la información obtenida.
15
yˆ a bx
y 2
a y b xy
Se
n2
Por ejemplo:
16
de 2, 6, 8, 8, 12, 16, 20, 20, 22, 26; y las ventas trimestrales en miles de pesos
fue de: 58, 105, 88, 118, 117, 137, 157, 169, 169, 149, 202.
Realice una regresión para estimar las ventas de dos sucursales que tienen
14,000 y 30,000 personas como potenciales clientes respectivamente.
Solución
Datos
n=10
17
2. Graficar los datos en un diagrama de dispersión y determinar la posible
relación entre las variables X Y.
18
3. Realizar los cálculos correspondientes
2 2
Sucursal X Y XY X Y
1 2 58 116 4 3364
2 6 105 630 36 11025
3 8 88 704 64 7744
4 8 118 944 64 13924
5 12 117 1404 144 13689
6 16 137 2192 256 18769
7 20 157 3140 400 24649
8 20 168 3380 400 28224
9 22 149 3278 484 22201
10 26 202 5252 676 40804
140 1300 21040 2528 184393
4. Calculo de la pendiente.
140
x 14 mil personas
10
1300
y 130 mil pesos
10
Por lo tanto la pendiente es
21040 1014130
b 5
2528 1014
2
19
5. Calculo de la ordenada al origen.
a 130 514 60
6. Obtener la ecuación que mejor se ajuste.
yˆ 60 5x
7. Trazar la línea estimada.
20
8. Calcular el error estándar de estimación.
yˆ 60 514 130
14,130
yˆ 60 530 210
30,210
CORRELACIÓN SIMPLE
1
Recuerda que estamos trabajando con miles de pesos, en este ejercicio.
21
Dependiendo del tamaño de esta medida cuantitativa se puede decir, que
tan cercanamente se mueven dos variables, y por lo tanto, con cuanta
confiabilidad se puede estimar una variable con ayuda de la otra.
22
Existen dos medidas para describir la correlación entre dos variables: el
coeficiente de determinación y el coeficiente de correlación.
a y b xy n y 2
y n y
r2 2
2
23
COEFICIENTE MUESTRAL DE CORRELACIÓN
r r2
24
INTERVALO DE CONFIANZA
S
yc yˆ t / 2 , gln 2 e
n
INTERVALO DE PREDICCIÓN
y p yˆ t 2 n 2 S e 1
1 X x 2
n x 2 nx 2
25
PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE CORRELACIÓN LINEAL
SIMPLE
26
Por ejemplo:
Solución
X: Años de experiencia
Y: Ventas anuales en miles de pesos.
Vendedor X Y
1 1 80
2 3 97
3 4 92
4 4 102
5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136
70 1080
27
2. Diagrama de dispersión.
Vendedor X Y XY X2 Y2
1 1 80 80 1 6400
2 3 97 291 9 9409
3 4 92 368 16 8464
4 4 102 408 16 10404
5 6 103 618 36 10609
6 8 111 888 64 12321
7 10 119 1190 100 14161
8 10 123 1230 100 15129
9 11 117 1287 121 13689
10 13 136 1768 169 18496
28
70 1080 8128 632 119082
1080
y 108
10
70
x 7
10
a 108 47 80
yˆ 80 4x
Para un vendedor con 7 años de experiencia, sus ventas estimadas serían:
29
6. Calcular el error estándar de estimación.
30
8. Calcular el Coeficiente de Correlación
r 0.9303 0.9645
Este número nos indica que las variables X Y tienen una correlación positiva
intensa.
9. Determinar el intervalo de confianza al 95%.
Considerando
yˆ 108 ventas anuales
4.61
yc 108 2.306
10
108 3.3617 yc 108 3.3617
104.6383 yc 111.3617
Se puede asegurar con un nivel de confianza del 95% que las ventas de los
vendedores con 7 años de experiencia están entre 104.6 y 111.4 miles pesos
anuales.
y p yˆ t 2 n 2 S e 1
1 X x 2
n x 2 nx 2
31
Sustituyendo:
1
y p 108 2.306 4.61 1
9 72
10 632 10(7) 2
108 11.291 y p 108 11.291
96.709 y p 119.291
Se puede asegurar con un nivel de confianza del 95% que las ventas
pronosticadas de un vendedor con 9 años de experiencia están entre 96.71
y 119.3 miles pesos anuales.
32
Ejercicios propuestos:
1. El jefe del departamento de aguas de una ciudad desea establecer una
relación entre el consumo mensual domiciliario de agua Y, y el tamaño de las
familias X, Dados los datos muestrales, determine:
Galones Tamaño
de de
Agua familia.
Y X
650 2
1200 7
1300 9
430 4
1400 12
900 6
1800 9
640 3
793 3
925 2
33
2. El gerente de una compañía de seguros desea establecer la relación entre
el seguro de vida de las personas Y, y sus salarios X. Realice una regresión con
los datos muestrales:
Seguro Salario
de Anual.
vida
Y X
50 10
80 29
100 30
130 31
150 36
34
3. Un economista desea establecer la relación entre la tasa de desempleo Y, y
la tasa de cuentas vencidas de la Tesorerías, Determine la regresión y
correlación con los datos muestrales.
Y X
6.7 9.7
7.3 9.8
8.9 7.6
9.1 6.1
7.2 10.2
5.2 12.7
6.9 14.3
6.9 7.9
7.1 8.9
35
4. Un director de ventas desea establecer la relación entre las ventas del
segundo año de vendedores Y, y sus ventas del primer año X. Realice un
análisis de regresión.
36
Ventas Precio de
competencia
Y X
520 13
550 13
600 15
610 15
620 16
724 21
680 21
300 14
962 40
270 12
37
6. Se hizo una encuesta a una muestra de 10 los estudiantes de 3er. Semestre
de la carera de Lic. En administración del grupo 1301 del semestre 2009-1 y se
encontraron los siguientes datos:
38
7. Los datos siguientes muestran las ventas (en miles de cajas) y los costos de
un anuncio publicitario para la televisión (en millones de pesos) para 7 marcas
principales de refrescos.
39
8. La revista del consumidor publico en su número 381 del mes de noviembre
del 2008 la siguiente información acerca del uso de los teléfonos celulares:
40
9. Un vendedor de Century 21 desea establecer la relación entre el tiempo en
meses que están a la venta los departamentos antes de lograr su venta y el
precio pedido por ellos. Los datos de una muestra de 9 departamentos se
muestran a continuación:
Meses en venta 6.5 7.0 8.6 12.1 9.0 9.5 8.6 10.6 15.0
Precio pedido (en 800 1000 990 1250 1400 1100 990 990 1250
miles de pesos)
41
10. El Orgamismo Operador de agua en el Muncipio de cuautitlán Izcalli
OPERAGUA quiere conocer la relación entre en consumo mensual domiciliario
de agua y el tamaño de las familias, toma una muestra de 10 familias elegidas
al azar y encuentra los siguientes datos:
Unidades vendidas en el año 2007 170 133 86 161 112 133 136 82
42
a) Trace un diagrama de dispersión para estos datos,
b) Aplique el método de mínimos cuadrados para plantear la ecuación
estimada de regresión.
c) Calcule el error estándar en la regresión.
d) Calcule el coeficiente de correlación y el coeficiente de determinación e
interprételos.
e) Determina el intervalo de confianza al 95%.
f) Determina el intervalo de predicción 95%
Nacimientos
Mes de registro Registrados
1 Enero 220,670
2 Febrero 211,330
3 Marzo 213,299
4 Abril 270,819
5 Mayo 225,298
6 Junio 205,572
7 Julio 211,180
8 Agosto 249,626
9 Septiembre 220,666
10 Octubre 241,529
11 Noviembre 211,857
12 Diciembre 173,237
43
b) El INEGI reporto que en julio de 2007 se registraron 211,330
nacimientos, utiliza la ecuación obtenida y predice cuantos debieron
de haberse registrado en ese mes, compara resultados y obtén tus
conclusiones.
c) Estime cuantos nacimientos se registraron en enero de 2008.
d) Calcule el error estándar en la regresión.
e) Calcule el coeficiente de correlación y el coeficiente de determinación
e interprételos.
f) Determina el intervalo de confianza al 95%.
g) Determina el intervalo de predicción 95%
44