Documente Academic
Documente Profesional
Documente Cultură
INTRODUCCION
El análisis de regresión lineal es una técnica estadística empleada para estudiar la relación
entre variables. Se adapta a una amplia variedad de situaciones, siendo utilizada desde medidas
económicas hasta diferentes aspectos del comportamiento humano. En el contexto económico,
administrativo y contable puede utilizarse para predecir un enorme número de variables (ventas,
gasto, producción, compras, rendimientos del personal entre otros) de una determinada
organización. Desde esta perspectiva sirve como visor para, con elementos del pasado, predecir
el futuro e idear políticas de ajuste a los fenómenos estudiados.
El análisis de regresión simple (dos variables) o múltiple (mas de dos variables) es
implementado para explorar y cuantificar la relación entre una variable llamada dependiente (Y) y
una o mas llamadas independientes o predictoras (X1, X2, …..Xn) a fin de establecer una ecuación
lineal con fines predictivos; asociados a un conjunto de procedimientos que informan sobre la estabilidad o
idoneidad del análisis y del modelo en general, y de esta manera ir perfeccionándolo.
Además de estudiar la relación entre las variables se estudiara el grado de correspondencia que
poseen las variables en estudio por medio del coeficiente de Correlación Lineal
MODELAJE MATEMATICO
La regresión lineal se basa en un relación funcional entre dos o mas variables, donde una
variable depende de otra u otras; en palabras de orden matemática Y depende de X, donde Y y X
son variables cuales quiera cuantificables. Esto puede expresarse:
"Y es una función de X"
Y = f(X)2
1
Wikipedia. Disponible en: http://es.wikipedia.org/wiki/An%C3%A1lisis_de_la_regresi%C3%B3n
2
La variable dependiente (Y) es la variable que se desea explicar, predecir. También se le llama VARIABLE DE RESPUESTA. La
variable Independiente X se le denomina VARIABLE EXPLICATIVA y se le utiliza para EXPLICAR “Y”
Lcdo. Juan Francisco Gómez
ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
1
En este orden de ideas, como Y depende de X, Y es conocida como la variable dependiente
y X es la variable independiente. Empero, no es la única forma de expresar esta relación ya que
como es una función lineal puede expresarse en sentido contrario, de la siguiente manera:
"X es una función de Y"
X = f(Y)3
DIAGRAMA DE DISPERSION
Cuando se toma una muestra de dos variables o bivariada, se obtiene una serie de pares de
datos. Estas parejas son de la forma (x,y) y se pueden representar como puntos en un plano
bidimensional o plano cartesiano; la representación grafica de las parejas se conoce como
diagrama de dispersión.
Grafico N° 1. Diagramas de Dispersión
Fuente: Gabriel Jaime Posada Hernández y María Victoria Buitrago Cardona. ESTADISTICA.
GUÍA DIDÁCTICA Y MÓDULO. Fundación Universitaria Luis Amigó. Facultad de ciencias
Administrativas, Económicas y Contables. Colombia, 2008
3
La variable dependiente (X) es la variable que se desea explicar, predecir. También se le llama VARIABLE DE RESPUESTA. La
variable Independiente Y se le denomina VARIABLE EXPLICATIVA y se le utiliza para EXPLICAR “X”
4
Autocorrelación: ocurre cuando los términos de error no son independientes. Para detectar la autocorrelación se aplica la
prueba de Durbin-Watson.
Lcdo. Juan Francisco Gómez
ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
2
ESTIMACION POR MINIMO CUADRADOS Y RECTA DE REGRESION
MUESTRAL
Sea (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ) … … … . (𝑥𝑛 , 𝑦𝑛 ) una muestra de n pares de observaciones de un proceso cuya
recta de regresión poblacional es
𝑌 = 𝛽1 + 𝛽2 ∗ 𝑥 + 𝜇
Las estimaciones de mínimos cuadrados de los coeficientes β1 y β2 son valores 𝛽̂1 y 𝛽̂2 para los
cuales se minimiza la suma de las discrepancias al cuadrado5
𝑛
𝑆𝐶 = ∑ (𝑦𝑖 − 𝛽̂ 1 − 𝛽̂ 2 ∗ 𝑥𝑖 )2
𝑖=1
∑(𝑥 − 𝑥
̅) ∗ (𝑦 − 𝑦
̅) ∑ 𝑥 ∗ 𝑦 − 𝑛𝑥
̅𝑦̅ 𝑛 ∗ ∑𝑥 ∗ 𝑦 − ∑𝑥 ∗ ∑𝑦
𝛽̂2 = 2
= =
∑(𝑥 − 𝑥
̅) ∑ 𝑥2 − 𝑛 ∗ 𝑥 ̅2 𝑛 ∗ ∑ 𝑥 2 − (∑ 𝑥)2
∑𝑦 ∑𝑥
y 𝛽̂1 = 𝑦
̅ − 𝛽̂2 𝑥
̅= − 𝛽̂2 ∗ 𝑛
𝑛
Ejercicio
“Nada triunfa como el éxito” es un antiguo adagio en el negocio de la publicidad. El presidente de
una distribuidora de varias líneas de automóviles ha observado que los agentes de ventas que
ganan los bonos más altos al final de año son los que tienen mayor probabilidad de exceder su
cuota de ventas el año siguiente (y ganar otro bono alto).
5
Algunos autores utilizan la notación 𝛽0 𝑦 𝛽1 para los coeficientes de la recta y para los estimadores 𝛽̂0 𝑦 𝛽̂1 ó 𝑏0 𝑦 𝑏1
Lcdo. Juan Francisco Gómez
ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
3
8,4 88
7,2 53
10,1 84
10,8 85
7,7 93
Fuente: Distribuidora de líneas de automóviles
𝑛 ∗ ∑𝑥 ∗ 𝑦 − ∑𝑥 ∗ ∑𝑦 12 ∗ 6069,8 − 90 ∗ 780
𝛽̂2 = = = 7,57408683666437
𝑛 ∗ ∑ 𝑥 2 − (∑ 𝑥)2 12 ∗ 704,02 − (90)2
∑𝑦 ∑𝑥 780 90
𝛽̂1 = 𝑦̅ − 𝛽̂2 𝑥̅ = − 𝛽̂2 ¨ ∗ = − 7,57408683666437 ∗ = 8,19434872501722
𝑛 𝑛 12 12
̂𝟏 + 𝜷
̂=𝜷
𝒚 ̂ 𝟐 ∗ 𝒙 = 8,19434872501722 + 7,57408683666437 ∗ 𝑥
100
90 y = 7,5741x + 8,1943
80
Ventas arriba de cuota
70
60
50
40
30
20
10
0
0 2 4 6 8 10 12
Bono del Año pasado
b)
𝑛 ∗ ∑𝑥 ∗ 𝑦 − ∑𝑥 ∗ ∑𝑦 12 ∗ 6069,8 − 90 ∗ 780
𝛽̂2 = 2 2
= = 0,0482652613087396
𝑛 ∗ ∑ 𝑥 − (∑ 𝑥) 12 ∗ 55254 − (780)2
̂𝟏 + 𝜷
̂=𝜷
𝒚 ̂ 𝟐 ∗ 𝒙 = 4,36275801493193 + 0,0482652613087396 ∗ 𝑥
12
10
y = 0,0483x + 4,3628
Bono del Año pasado
0
0 10 20 30 40 50 60 70 80 90 100
Ventas arriba de cuota
NOTA: La forma de resolver el literal “b” es colocar la variable dependiente como independiente y
viceversa.
2
(∑ 𝑦) (∑ 𝑦)2
∑𝑦 − 2 𝛽̂1 ∗ ∑ 𝑦 + 𝛽̂2 ∗ ∑ 𝑥 ∗ 𝑦 − ∑ 𝑦 2 − 𝛽̂1 ∗ ∑ 𝑦 − 𝛽̂2 ∗ ∑ 𝑥 ∗ 𝑦
𝑛 𝑛
2 2
(∑ 𝑦) (∑ 𝑦) ∑ 𝑦 2 − 𝛽̂1 ∗ ∑ 𝑦 − 𝛽̂2 ∗ ∑ 𝑥 ∗ 𝑦
∑ 𝑦2 − 𝛽̂1 ∗ ∑ 𝑦 + 𝛽̂2 ∗ ∑ 𝑥 ∗ 𝑦 −
𝑛 𝑛
𝑛−1 𝑘−1 𝑛−𝑘
Fuente: Elaboración propia
Ejercicio
Para la economía de un determinado país, disponemos de los datos anuales redondeados
sobre consumo final de los hogares a precios corrientes (Y) y renta nacional disponible neta (X),
tomados de la Contabilidad Nacional base 1995 del INE, para el período 1995-2002, ambos
expresados en miles de millones de unidades monetarias:
Tabla N° 3
Año 1995 1996 1997 1998 1999 2000 2001 2002
Y 258,6 273,6 289,7 308,9 331 355 377,1 400,4
X 381,7 402,2 426,5 454,3 486,5 520,2 553,3 590
Fuente: Guía de Ejercicios Universidad de Sevilla
Considerando que el consumo se puede expresar como función lineal de la renta (Yt=a+b·Xt),
Determine la suma de cuadrados de la variable consumo y su descomposición en la suma de
cuadrados explicada y no explicada por el modelo.
2
2
(∑ 𝑦) 2
2594,32
∑(𝑦 − 𝑦̅) = ∑ 𝑦 − = 859186,79 − = 17887,728749272
𝑛 8
∑(𝑦̂ − 𝑦̅)2
∑𝑦 ∑𝑥 2594,3 3814,7
𝛽̂1 = 𝑦̅ − 𝛽̂2 ∗ 𝑥̅ = − 𝛽̂2 ¨ ∗ = − 0,683429372 ∗ = −1,597252984
𝑛 𝑛 8 8
(∑ 𝑦)2
∑(𝑦̂ − 𝑦̅)2 = 𝛽̂1 ∗ ∑ 𝑦 + 𝛽̂2 ∗ ∑ 𝑥 ∗ 𝑦 −
𝑛
2594,32
= −1,597252984 ∗ 2594,3 + 0,683429372 ∗ 1263227,79 − = 17884,16005
8
Por otro lado; se puede corroborar que: SCTotal = SCT + SCE = 17884,16005 + 3,568699272 =
17887,728749272
𝑠𝑒
Donde 𝑠𝑏2 = 2
y 𝑠𝑒 es la desviación estándar de los errores o error de
√∑ 𝑥 2 −(∑ 𝑥)
𝑛
estimación. Sigue una distribución t de Student con n-2 grados de libertad
1 𝑥̅ 2
Donde 𝑠𝑏1 = 𝑆𝑒 ∗ √ +
𝑛 (∑ 𝑥)
2 y 𝑠𝑒 es la desviación estándar de los errores o error de
∑ 𝑥2+
𝑛
Cuadro N° 2
4) Zona de aceptación y La variable aleatoria sigue una distribución t de Student con (n-2)
rechazo grados de libertad
Fuente: Elaboración Propia
ANOVA DE LA REGRESION
Cuadro N° 3
𝐶𝑀𝑅
3) Estadístico de prueba 𝐹𝐶 =
𝐶𝑀𝐸
4) Zona de aceptación y La variable aleatoria sigue una distribución F con un grado de libertad
rechazo para el numerador y con (n-2) grados de libertad para el denominador
Fuente: Elaboración Propia
Ejercicio
Un corredor de una empresa de inversión local ha estudiado la relación entre el incremento en el
precio del oro (X) y las peticiones de sus clientes de liquidar las acciones (Y). Del conjunto de
datos basado en 15 observaciones, se encontró que la pendiente de la muestra era 2,9. Si el error
estándar del coeficiente de la pendiente de regresión es 0.18, ¿existe una razón para pensar (a
0,05 de nivel de significancia) que la pendiente cambió de su valor anterior de 3,2?
H0: β2 = 3,2
H1: β2 ≠ 3,2
𝛽̂2 − 𝛽2 𝑏− 𝛽 2,9 − 3,2
𝑡𝑐 = = 𝑠𝑒 = = −1,667
𝑠𝑏2 0,18
2
√∑ 𝑥 2 − (∑ 𝑥)
𝑛
Ejercicio
Se supone que se puede establecer cierta relación lineal entre las exportaciones de un país
y la producción interna de dicho país. En el caso de España, tenemos los datos anuales
(expresados en miles de millones de euros) para tales variables correspondientes al quinquenio
1992-96 en la siguiente tabla:
A partir de tal información, y considerando como válida dicha relación lineal, se pide:
a) Si la producción para el año 1997 fue de 221061 millones de euros, ¿cuál sería la predicción de
las exportaciones para este año? Construya un intervalo de confianza para la pendiente de la
recta con un 95% así como para la predicción del 95% para el pronóstico efectuado
b) Si sabemos que las exportaciones para 1997 fueron de 69045704000 euros, ¿cuál sería la
producción interna aproximada para ese año? Construya un intervalo de predicción del 99% para
el pronóstico efectuado
Tabla N° 6. Resultados
∑𝑦 ∑𝑥 72,196 291,219
𝛽̂1 = 𝑦̅ − 𝑏𝑥̅ = − 𝑏¨ ∗ = − 0,636865947117027 ∗ = −22,6542928506947
𝑛 𝑛 5 5
0,440133901128156 0,440133901128156
0,636865947117027 − 3,182 ∗ ≤ 𝛽 ≤ 0,636865947117027 + 3,182 ∗
2 2
√17075,72959 − 291,219 √17075,72959 − 291,219
5 5
0,50571287 ≤ 𝛽 ≤ 0,768019024
1 (221,061 − 58,2438)2
𝒀𝒏+𝟏 = 118,1319302849424 ± 3,182 ∗ 0,440133901128156 ∗ √1 + +
5 291,2192
17075,72959 −
5
1 (221,061 − 58,2438)2
𝒀𝒏+𝟏 = 118,1319302849424 ± 3,182 ∗ 0,440133901128156 ∗ √1 + +
5 291,2192
17075,72959 −
5
b)
∑𝑦 ∑𝑥 291,219 72,196
𝛽̂1 = 𝑦̅ − 𝛽̂2 𝑥̅ = − 𝛽̂2 ∗ = − 1,5507036909508 ∗ = 35,8528792656235
𝑛 𝑛 5 5
1 (69,045704 − 14,4392)2
𝒀𝒏+𝟏 = 142,9223073 ± 5,841 ∗ 0,686791983850692 ∗ √1 + + =
5 72,1962
1089,283354 −
5
Ejercicio 6
Un economista del Departamento de Recursos Humanos de Florida State está preparando un estudio
sobre el comportamiento del consumidor. Él recolectó los datos que aparecen en miles de dólares para
determinar si existe una relación entre el ingreso del consumidor y los niveles de consumo.
Consumidor 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 24,3 12,5 31,2 28 35,1 10,5 23,2 10 8,5 15,9 14,7 15
Consumo 16,2 8,5 15 17 24,2 11,2 15 7,1 3,5 11,5 10,7 9,2
Si el economista identifica un consumidor con un ingreso de $14500, a) ¿Cuál es la estimación puntual del
consumo? b) ¿Cuál es el estimado de intervalo del 99% de su consumo?
a)
𝒚 = 𝛽̂1 + 𝒃 ∗ 𝒙 = 1,77788030806189 + 0,558171412421395 ∗ 𝑥
= 1,77788030806189 + 0,558171412421395 ∗ 14,5 = 9,8713657881721
𝟏 (𝒙𝒊 − 𝒙̅ )𝟐
𝒀𝒏+𝟏 = 𝒚̂ 𝒏+𝟏 ± 𝒕𝜶⁄ ∗ 𝒔𝒆 ∗ √𝟏 + + =
𝟐 𝒏 2 (∑ 𝑥)2
∑𝑥 −
𝑛
6
Ejercicio del libro de Allen L. Webster. Estadística Aplicada a los negocios y la economía. 3era edición. McGrawHill. Ejercicio 40.
Pág. 358
Lcdo. Juan Francisco Gómez
ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
16
ANALISIS DE CORRELACION
Covarianza (Cov):
Para Martínez, c7. “es una medida de dispersión, definida como la media del producto de las
diferencias entre los valores de la variable y su media aritmética, y nos determina la variabilidad
conjunta de X e Y”
∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) ∑ 𝑥𝑖 𝑦𝑖
𝑐𝑜𝑣 = = − 𝑥̅ 𝑦̅ = 𝑛 ∗ ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥 ∗ ∑ 𝑦
𝑛 𝑛
6 ∗ ∑ 𝑑2
𝑟 =1−
𝑛 ∗ (𝑛2 − 1)
De acuerdo con el grado de correlación que se obtenga, bien sea positivo o negativo, se
suele utilizar una escala con la finalidad de interpretar el grado de asociación de las variables. La
escala es la siguiente:
7
Ciro Martínez B.(2008). Estadística y Muestreo. 12da. Edición. ECOE Ediciones. Colombia
Lcdo. Juan Francisco Gómez
ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
17
Cuadro N° 3. Grado de Asociación
de las Variables
0 Nula
0,01 0,20 Muy baja
0,21 0,40 Baja
0,41 0,60 Moderada
0,61 0,80 Alta
0,81 0,99 Muy alta
1 Perfecta
Ejercicios
En una muestra de familias se han analizado las variables ahorro anual (Y) y renta anual (X),
medidas ambas en miles de euros. Los datos obtenidos han sido los siguientes:
Cuadro N° 8. Resultados
Ahorro (y) Renta (x) x2 y2 x*y
1,9 20,5 420,25 3,61 38,95
Correlación directamente proporcional y muy alta. Existe una tendencia muy alta de que a
medida que aumente la renta anual también aumente el ahorro anual
b) r2 = (0,85……)2 = 0,724215…..
Existe un 72,42% de que los cálculos elaborados sobre la recta de regresión sean precisos,
en otras palabras, se explica la variable dependiente en un 72,42% por medio de la variable
independiente.
Cuadro N° 4
1) Hipótesis Nula Ho: ρ=0 ρ≤ ρ≥
Ejercicio
El centro de ubicación laboral de State University desea determinar si los promedios en notas de
los estudiantes (GPAs) puede explicar el número de ofertas laborales que ellos reciben después
de graduarse. Los datos siguientes corresponden a los 10 recién graduados
Estudiantes 1 2 3 4 5 6 7 8 9 10
GPAs 3,25 2,35 1,02 0,36 3,69 2,65 2,15 1.25 3,88 3,37
Oferta 3 3 1 0 5 4 2 2 6 2
Utilizando la prueba de hipótesis apropiada, al nivel del 5%, ¿es GPAs una variable explicativa
significativa de las ofertas de trabajo?
H0: ρ = 0 (No existe relación entre las variables, GPA no es una variable explicativa significativa
de las ofertas de trabajo)
H1: ρ ≠ 0 (Existe relación entre las variables estudiadas, GPA es una variable explicativa
significativa de las ofertas de trabajo)
𝑟− 𝜌 𝑟− 𝜌 0,843812172562237 − 0
𝑡𝑐 = = = = 4,447
𝑠𝑟 2
(1 − 𝑟 2) √(1 − 0,843812172562237 )
√ 10 − 2
(𝑛 − 2)
𝑛 ∗ ∑𝑥 ∗ 𝑦 − ∑𝑥 ∗ ∑𝑦
𝑟= = 0,843812172562237
√[𝑛 ∗ ∑ 𝑥 2 − (∑ 𝑥)2 ] ∗ [𝑛 ∗ ∑ 𝑦 2 − (∑ 𝑦)2 ]
2
(∑ 𝑥)2
2
2
𝑟 = 0,9 ∑(𝑦 − 𝑦̅) = 2,1 ∑𝑥 − = 𝑛 ∗ ∑ 𝑥 2 − (∑ 𝑥) = 1,2 𝑥̅ = 5 𝑦̅ = 10
𝑛
A partir de los mismos; a) Obtenga la recta de regresión mínimo cuadráticas, b) Estime el valor de y
cuando la x= 30
𝑟 = 0,9; 𝑠𝑦 = 1,2 ; 𝑠𝑦 = 2,1; 𝑥̅ = 5; 𝑦̅ = 10. A partir de los mismos, obtenga las rectas de regresión
de mínimos cuadrados de X sobre Y; y de Y sobre X
Un banco estatal de cierto país está estudiando la posibilidad de bajar los tipos de interés para
incentivar la inversión privada, y así abrir la posibilidad de creación de puestos de trabajo. Para
ello contrasta los tipos de interés real de diferentes países con la inversión privada en los mismos,
todo ello durante el último período. Obteniéndose los resultados que aparecen reflejados en la
siguiente tabla:
Para facilitar el seguimiento de los cálculos necesarios para resolver el problema construimos la
siguiente tabla resumen: (variable X=tipo de interés real; variable Y=inversión).