Regresion Lineal

REGRESION LINEAL
La regresión es un método de análisis de los datos de la realidad económica que

sirve para poner en evidencia las relaciones que existen entre diversas variables.
El objeto de un análisis de regresión es investigar la relación estadística que existe

entre una variable dependiente (Y) y una o más variables independientes (
X 1 , X 2 , X 3 , ... ). Para poder realizar esta investigación, se debe postular una
relación funcional entre las variables. Debido a su simplicidad analítica, la forma
funcional que más se utiliza en la práctica es la relación lineal. Cuando solo existe
una variable independiente, esto se reduce a una línea recta:
Yˆ = b0 + b1 X
donde los coeficientes b0 y b1 son parámetros que definen la posición e

inclinación de la recta. (Nótese que hemos usado el símbolo especial Yˆ para
representar el valor de Y calculado por la recta. Como veremos, el valor real de Y
rara vez coincide exactamente con el valor calculado, por lo que es importante
hacer esta distinción.)
El parámetro b0, conocido como la “ordenada en el origen,” nos indica cuánto es

Y cuando X = 0. El parámetro b1, conocido como la “pendiente,” nos indica
cuánto aumenta Y por cada aumento de una unidad en X. Nuestro problema
consiste en obtener estimaciones de estos coeficientes a partir de una muestra de
observaciones sobre las variables Y y X. En el análisis de regresión, estas
estimaciones se obtienen por medio del método de mínimos cuadrados.
Como ejemplo, consideremos las cifras del Cuadro 1, que muestra datos
mensuales de producción y costos de operación para una empresa británica de
transporte de pasajeros por carretera durante los años 1949-52 (la producción se
mide en términos de miles de millas-vehículo recorridas por mes, y los costos se
miden en términos de miles de libras por mes). Para poder visualizar el grado de
relación que existe entre las variables, como primer paso en el análisis es
conveniente elaborar un diagrama de dispersión, que es una representación en un
sistema de coordenadas cartesianas de los datos numéricos observados. En el
diagrama resultante, en el eje X se miden las millas-vehículo recorridas, y en el eje
Y se mide el costo de operación mensual. Cada punto en el diagrama muestra la
pareja de datos (millas-vehículo y costos de operación) que corresponde a un
mes determinado. Como era de esperarse, existe una relación positiva entre
estas variables: una mayor cantidad de millas-vehículo recorridas corresponde un
mayor nivel de costos de operación.
Diagrama de dispersión
Por otro lado, también se aprecia por qué este gráfico se denomina un diagrama
de “dispersión”: no existe una relación matemáticamente exacta entre las
variables, ya que no toda la variación en el costo de operación puede ser
explicada por la variación en las millas-vehículo. Si entre estas variables existiera
una relación lineal perfecta, entonces todos los puntos caerían a lo largo de la
recta de regresión, que también ha sido trazada y que muestra la relación
“promedio” que existe entre las dos variables. En la práctica, se observa que la
mayoría de los puntos no caen directamente sobre la recta, sino que están
“dispersos” en torno a ella. Esta dispersión representa la variación en Y que no
puede atribuirse a la variación en X.
Estimación de la recta de regresión

y del coeficiente de determinación
En la práctica, los cálculos relacionados con un análisis de regresión se efectúan

por medio de programas de computadora, por lo que los cálculos detallados en
esta sección se incluyen únicamente a título de ilustración.
Para estimar los coeficientes por medio de mínimos cuadrados, se utilizan las
siguientes fórmulas:
∑ XY − y ∑ X
b1 =
∑X2 −x∑X
b0 = y − b1 x
En nuestro ejemplo, aplicando estas fórmulas tenemos:
25,216,020.3 – 219.1242(113,879)
b1 = ————————————————— = 0.044674
398,855,769 – 3,450.879(113,879)
b0 = 219.1242 – 0.044674(3,450.879) = 64.96
Expresando los resultados en términos de la recta de regresión, tenemos:
= 64.96 + 0.044674
X
Podemos concluir que por cada milla adicional recorrida, los costos de operación
aumentan en aproximadamente 4.5 centavos—esto podría interpretarse como el
“costo marginal” para la empresa de recorrer una milla adicional—mientras que el
coeficiente b0 nos estaría indicando la parte del costo mensual que no varía
directamente con la cantidad de millas recorridas (aproximadamente 64,960 libras
mensuales).
Diagrama de dispersión
Coeficiente de Determinación (R2).
Una pregunta importante que se plantea en el análisis de regresión es la siguiente:

¿Qué porcentaje de la variación total en Y se debe a la variación en X? En otras
palabras, ¿cuál es la proporción de la variación total en Y que puede ser
“explicada” por la variación en X? El estadístico que mide esta proporción o
porcentaje se denomina coeficiente de determinación:
∑ e2
R2 = 1−
∑ (Y − y ) 2
En este caso, al hacer los cálculos respectivos, se obtiene un valor de 0.946. Esto
significa que la variación en las millas recorridas explica 94.6 % de la variación en
el gasto de operación mensual.
Regresión múltiple
Hasta ahora hemos considerado únicamente el caso de la regresión simple. En el

caso más general de la regresión múltiple, existen dos o más variables
independientes:
= b0 + b1X1 + b2X2 + ...
La estimación de los coeficientes de una regresión múltiple es un cálculo bastante

complicado y laborioso, por lo que se requiere del empleo de programas de
computación especializados. Sin embargo, la interpretación de los coeficientes es
similar al caso de la regresión simple: el coeficiente de cada variable
independiente mide el efecto separado que esta variable tiene sobre la variable
dependiente. El coeficiente de determinación, por otro lado, mide el porcentaje de
la variación total en Y que es explicado por la variación conjunta de las variables
independientes.
El ejemplo numérico que se desarrolla a continuación está basado en un estudio

estadístico de los costos administrativos en los bancos comerciales en Guatemala.
(Los datos básicos se muestran en el Cuadro 2.) La variable dependiente para el
análisis será el nivel anual de los “Gastos Generales y de Administración” en los
diferentes bancos del sistema. Si se examina el Cuadro 2, se podrá apreciar que
estos costos (que en lo sucesivo llamaremos simplemente “costos
administrativos”) varían enormemente de un banco a otro. Nuestro problema
consistirá, por tanto, en encontrar una lista de variables que nos permitan explicar
esta variación observada.
A un nivel muy elemental, por supuesto, dicha variación no tiene realmente ningún
misterio, ya que los bancos varían mucho en cuanto a su tamaño, y es más bien
de esperarse que los bancos más “grandes” tengan también costos
administrativos más altos por el sólo hecho de ser más grandes. Nuestra tarea
será traducir esta noción intuitiva en un concepto operativo, y para esto debemos
tratar de expresar el “tamaño” de un banco en términos de alguna variable
numérica. La variable escogida para este propósito fue el Total de Activos del
banco. Con esto, y como una primera aproximación para el análisis, la recta de
regresión sería la siguiente:
= b0 + b1X
donde Y = Costos Administrativos del banco, y X = Activos Totales del banco.
Los Activos Totales de un banco son una buena medida de su “tamaño,” aunque
no es la única medida posible, por lo que la decisión de adoptar esta medida
específica es en cierto modo arbitraria. Por otro lado, el empleo de los Activos
Totales como variable independiente en la regresión facilita en cierto modo la
interpretación económica de los coeficientes:
(a) El coeficiente b1 nos indica en cuánto incrementa el costo administrativo anual

por cada quetzal adicional de activos que maneja el banco. En otras palabras, este
coeficiente nos mide el “costo marginal” de administrar un quetzal adicional de
activos. Obviamente, este es un dato sumamente interesante para los tomadores
de decisiones en el sector bancario. Esperamos naturalmente que este coeficiente
sea positivo.
(b) Por otro lado, el coeficiente b0 nos estaría indicando la parte del costo
administrativo que no varía directamente con el nivel de los activos del banco. En
otras palabras, esta sería la parte del costo administrativo que podría interpretarse
como un “costo fijo.” Esperamos también que este coeficiente sea positivo.
Un posible defecto de esta ecuación es la suposición de que todos los bancos

tienen los mismos costos fijos. Por otro lado, se puede apreciar en el Cuadro 2
que los bancos comerciales varían mucho en cuanto al número de sucursales o
agencias que operan, y este es un factor que seguramente debe afectar el nivel de
los costos administrativos. Por esto, para una mejor aproximación se estimará más
bien la siguiente regresión múltiple:
= b0 + b1X1 + b2X2
donde X1 = Activos Totales del banco, y X2 = Número de Agencias del banco.
En esta segunda regresión, el coeficiente b2 nos está midiendo el incremento en el

costo administrativo anual que resulta de manejar una agencia adicional.
Esperamos, por tanto, que este coeficiente sea positivo. (Naturalmente que este
coeficiente tendría que interpretarse como un costo “promedio” por agencia, ya
que ninguna agencia es exactamente igual que otra, por lo que difícilmente
pueden tener todas el mismo costo.) Los otros coeficientes tienen la misma
interpretación que en la ecuación anterior. Los resultados estimados fueron los
siguientes:
= -1.22 + 0.0275X1 + 0.661X2
R2 = 0.9018
Se puede apreciar en primer lugar que esta regresión tiene un alto grado de poder
explicativo: la variación conjunta de estas dos variables explica poco más de 90
por ciento de la variación en los Costos Administrativos.
Por otro lado, se aprecia que el valor estimado para b0 es negativo, lo cual en
principio carece de sentido económico. En vista de esto, conviene en este caso
volver a estimar la regresión “por el origen,” es decir, sin esta constante. Los
resultados son los siguientes:
= 0.0266X1 + 0.621X2
R2 = 0.8995
Aquí se aprecia que el poder explicativo es básicamente igual que en la regresión

anterior, aunque al haber eliminado un coeficiente posiblemente redundante, esta
segunda regresión nos proporciona en principio estimaciones más eficientes de
los otros coeficientes:
(a) El coeficiente b1, se recordará, nos mide el costo “marginal” de administrar un

quetzal adicional de activos. Según estas estimaciones, por tanto, se podría
concluir que en números redondos el costo administrativo de un banco “típico”
aumentará entre 2 y 3 centavos por año por cada quetzal adicional de activos que
administre.
(b) El coeficiente b2, se recordará, nos mide el incremento en el costo

administrativo anual que resulta de manejar una agencia adicional. Según estas
estimaciones, por tanto, se podría concluir en números redondos, y tomando en
cuenta que los datos se expresan en términos de millones de quetzales, que el
costo administrativo de un banco “típico” aumentará alrededor de 620,000
quetzales por año por cada agencia adicional.
Los resultados de este análisis pueden proporcionar una buena indicación sobre el
comportamiento de los costos para el banco “típico” en Guatemala, aunque la
naturaleza misma de un estudio de este tipo no puede arrojar resultados
estrictamente aplicables a cada uno de los bancos considerados individualmente.
No obstante, a pesar de esto, un estudio de este tipo de todas maneras puede ser
muy útil, porque los resultados pueden proporcionar una “norma” o “estándar”
contra el cual se pueden comparar los costos administrativos en un banco
particular. En ausencia de un estudio de este tipo, un banco no tiene realmente un
criterio para determinar si sus costos son “muy elevados,” “aceptables,” o
“normales,” ya que los bancos difieren enormemente en cuanto a cantidad de
activos, número de sucursales, etc., de modo que el único criterio objetivo sería el
de compararse con un banco de similar tamaño y características. Sin embargo, si
se pudiera obtener una fórmula empírica que permita calcular un valor “normal” o
“promedio” para los costos administrativos en función de unas pocas variables que
permitan una medición numérica, entonces se podría fácilmente determinar si el
banco en cuestión está “mejor” o “peor” que el banco “típico” a ese respecto.
Regresión no lineal
La regresión lineal no siempre da buenos resultados, porque a veces la relación

entre Y y X no es lineal sino que exhibe algún grado de curvatura. La estimación
directa de los parámetros de funciones no-lineales es un proceso bastante
complicado. No obstante, a veces se pueden aplicar las técnicas de regresión
lineal por medio de transformaciones de las variables originales.
Una función no-lineal que tiene muchas aplicaciones es la función exponencial:
Y = AXb
donde A y b son constantes desconocidas. Si aplicamos logaritmos, esta función

también puede ser expresada como:
log(Y) = log(A) +
b.log(X)
Consideremos ahora la siguiente regresión lineal:
log(Y) = b0 + b1log(X)
En esta regresión (denominada regresión doble-log), en lugar de calcular la

regresión de Y contra X, calculamos la regresión del logaritmo de Y contra el
logaritmo de X. Comparando estas dos ecuaciones, podemos apreciar que el
coeficiente es un estimador de log(A), mientras que es un estimador de b (el
exponente de la función exponencial). Este modelo es particularmente interesante
en aplicaciones econométricas, porque el exponente b en una función exponencial
mide la elasticidad de Y respecto de X.
Como ejemplo, en el Cuadro 3 se muestran los datos básicos de un estudio de la

demanda de carros nuevos en los Estados Unidos, publicado en 1958 por el
Profesor D. B. Suits (nótese que Suits excluyó de su análisis los datos
correspondientes al período 1942-48, por considerarlos poco representativos). Las
variables consideradas para el análisis fueron las siguientes:
X1 = Índice del Precio Real de Automóviles Nuevos

X2 = Ingreso Disponible Real (en miles de millones de dólares)
X3 = Automóviles en Circulación al principio de cada año (millones de unidades)
Y = Ventas de Automóviles Nuevos (millones de unidades).
Con estos datos, podemos estimar la siguiente regresión doble-log:
log(Y) = b0 + b1log(X1) + b2log(X2) + b3log(X3)
Puesto que todas las variables se expresan en términos de logaritmos, los

coeficientes de regresión son estimaciones de las elasticidades de Y respecto de
las variables independientes. La regresión estimada fue la siguiente:
log(Y) = - 1.5803 - 1.422 log(X1) + 3.216 log(X2) - 1.479

log(X3)
R2 = 0.942
En base a estos resultados, podemos concluir que la elasticidad-precio de la

demanda de automóviles nuevos en este período era de aproximadamente –1.4,
con una elasticidad-ingreso de aproximadamente 3.2. (¿Cuál sería la
interpretación del coeficiente de la variable X3?)
Regresión lineal: Referencias
Barro, Robert J. Economic Growth and Convergence. Occasional Papers No. 46.
San Francisco: International Center for Economic Growth, 1994.
Benston, George J. “Multiple Regression Analysis of Cost Behavior,” Accounting

Review, 41 (1966): 657-72. (University of Rochester, Graduate School of
Management, Systems Analysis Reprint Series No. S-6.)
Bishop, C. E. & W. D. Toussaint. Introducción al Análisis de Economía Agrícola.

México: Limusa-Wiley, 1966.
Cole, J. H. “Inflación en Guatemala, 1961-95,” Banca Central, No. 32 (1997): 21-

25.
Esquivel, Gerardo. “Convergencia Regional en México, 1940-1995,” El Trimestre
Económico, 66 (1999): 725-61.
Friedman, Milton. “Money: Quantity Theory,” International Encyclopedia of the

Social Sciences (1968), vol. 10, pp. 432-47.
Goldberger, Arthur S. Topics in Regression Analysis. New York: Macmillan,

1968.
Griliches, Zvi, et al. “Notes on Estimated Aggregate Quarterly Consumption

Functions,” Econometrica, 30 (1962): 491-500.
Harberger, Arnold C. “The Dynamics of Inflation in Chile,” en C. F. Christ, et al.,

Measurement in Economics: Studies in Mathematical Economics and
Econometrics in Memory of Yehuda Grunfeld, pp. 219-50. Stanford University
Press, 1963.
Johnston, J. Análisis Estadístico de los Costes. Barcelona: Sagitario, S. A., 1966.
Johnston, J. Econometric Methods, 2ª ed. New York: McGraw-Hill, 1972.
Khan, M. S. “Import and Export Demand in Developing Countries,” IMF Staff

Papers, 21 (1974): 678-93.
Krugman, Paul. “How Fast Can the U.S. Economy Grow?” Harvard Business
Review, 75 (July-Aug 1997): 123-29.
Lebergott, Stanley. “Annual Estimates of Unemployment in the United States,

1900-1950,” en The Measurement and Behavior of Unemployment, pp. 213-41.
Princeton: Princeton University Press, 1957.
Okun, A. M. “Potential GNP: Its Measurement and Significance,” Proceedings

(Business and Economics Section), American Statistical Association, 1962, pp. 98-
104.
Rao, Potluri, & R. L. Miller. Applied Econometrics. Belmont, Cal.: Wadsworth Pub.,
1971.
Sala-i-Martin, Xavier. “The Classical Approach to Convergence Analysis,”

Economic Journal, 106 (1996): 1019-36.
Suits, D. B. “The Demand for New Automobiles in the United States,” Review of
Economics and Statistics, 40 (1958): 273-80.
EJEMPLO DE REGRESIÓN LINEAL Y NO LINEAL
A partir de las siguientes observaciones para 5 años de las variables X e Y,

ajústese el modelo de regresión de Y en función de X más idóneo.
Donde,
Y: producción nacional de un subsector industrial, en millones de toneladas.
X: tiempo
Año X Y
1995 1 1,25
1996 2 5
1997 3 11,25
1998 4 20
1999 5 30,5
1.- Ajuste de una función lineal: Y* = a + b X
X Y X2 XY Y2 Y* e=Y-Y* e2
1 1,25 1 1,25 1,56 -1,1 2,35 5,5225

2 5 4 10 25 6,25 -1,25 1,5625
3 11,25 9 33,75 126,56 13,6 -2,35 5,5225
4 20 16 80 400 20,95 -0,95 0,9025
5 30,5 25 152,5 930,25 28,3 2,2 4,84
Σ 15 68 55 277,5 1483,3 68 0 18,35
1/5 3 13,6 11 55,5 296,67 13,6 0 3,67

Σ
S XY 1/5 ∑ XY - X Y 55,5 - (3 × 13,6) 14,7
b= = = = = 7,35
S 2X 1/5 ∑ X 2 − X 2 11 − 3 2 2
a = Y - b X =13,6 - 7,35 ×3 = - 8,45
Y* = -8,45 + 7,35 X
Bondad del Ajuste:
2
S2 * S 2e 3,67
Coeficiente de determinación: R = r 2
XY = Y
2
= 1- 2
= 1- = 0,9671
S Y S Y
111,715
S 2Y = 1/5 ∑ Y 2 − Y 2 = 296,675 - 13,6 2 = 111,715
S 2e = ECM 1 =
∑e 2
= 3,67
N
2.- Ajuste de una función parabólica: Y* = a + b X + c X2
X Y X2 X3 X4 XY X2Y Y* e=Y- e2
Y*
1 1,25 1 1 1 1,25 1,25 1,18 0,07 0,0049

2 5 4 8 16 10 20 5,11 -0,11 0,0121
3 11,25 9 27 81 33,75 101,5 11,32 -0,07 0,0049
4 20 16 64 256 80 320 19,81 0,19 0,0361
5 30,5 25 125 625 152,5 762,5 30,58 -0,08 0,0064
Σ 15 68 55 225 979 277,5 1205 68 0 0,0644
1/5 3 13,6 11 55,5 13,6 0 0,0128

Σ
Aplicando el método de los mínimos cuadrados se obtiene el siguiente sistema de

ecuaciones:
∑ Y = Na + b ∑ X + c ∑ X 2


68 = 5a + 15b + 55c 

∑ XY = a∑ X + b∑ X + c ∑ X 2 3
 ⇒ 277,5 = 15a + 55b + 225c 
 1205 = 55a + 225b + 979c 
∑ X Y = a∑ X + b∑ X + c ∑ X
2 2 3 4
 
Resolviendo este sistema se obtiene: a= -0,47 b= 0,51 c= 1,14
Y* = -0,47 + 0,51 X + 1,14 X2
Bondad del Ajuste:
S2 * S 2e 0,01288
Coeficiente de determinación: R = 2 Y
2
= 1- 2
= 1- = 0,9998
S Y S Y 111,715
S e = ECM 2
2
=
∑e 2
= 0,01288
N
3.- Ajuste de una función potencial: Y* = a Xb
En primer lugar linealizamos: lnY* = lna + b lnX ⇒ V* = A + b U

X Y U=lnX V=lnY U2 UV Y* e=Y-Y* e2
1 1,25 0 0,2231 0 0 1,2557 - 0,0000

0,0057
2 5 0,6931 1,6094 0,4803 1,1156 4,9888 0,0112 0,0001
3 11,25 1,0986 2,4203 1,2069 2,6590 11,18 0,0697 0,0049
4 20 1,3863 2,9957 1,9215 4,1530 19,82 0,1799 0,0324
5 30,5 1,6094 3,4177 2,5901 5,5006 30,901 - 0,1610
0,4012
Σ 15 68 4,7875 10,666 6,1988 13,428 68,146 - 0,1984

0,1461
1/5 3 13,6 0,9575 2,1332 1,2397 2,6856 13,629 - 0,0397

Σ 0,0292
Σ e≠ 0
S UV 1/5 ∑UV - U V 2,6856 - 0,9575 × 2,1332
b= = = = 1,9902
S U2 1/5 ∑U2 − U 2 1,2397 − 0,9575 2
A = V - b U = 2,1332 - 1,9902 ×0,9575 = 0,2277
Deshacemos el cambio efectuado: a= antilnA = antiln 0,2277 = 1,2557
Por lo que el ajuste efectuado es: Y* = 1,2557 X 1,9902
Bondad del Ajuste:
ECM 3 =
∑e 2
= 0,0397
N
Nótese que al haber transformado la variable dependiente ya no se minimiza
∑e 2
sino ∑(lnY - lnY * ) 2 , de ahí que ∑e ≠ 0 .
4.- Ajuste de una función exponencial: Y* = a bX
En primer lugar linealizamos: lnY* = lna + X lnb ⇒ V* = A + B X

X Y V=lnY X2 XV Y* e=Y-Y* e2
1 1,25 0,2231 1 0,2231 1,7794 -0,529 0,2798

2 5 1,6094 4 3,2188 3,86 1,138 1,2950
3 11,25 2,4203 9 7,2609 8,37 2,88 8,2944
4 20 2,9957 16 11,983 18,18 1,82 3,3124
5 30,5 3,4177 25 17,088 39,45 -8,95 80,102
Σ 15 68 10,666 55 39,774 71,64 -3,641 95,803
1/5 3 13,6 2,1332 11 7,9548 14,328 -0,728 19,16

Σ
Σ e≠ 0
S XV 1/5 ∑ XV - X V 7,9548 - 2,1332 × 3

B= = = = 0,7776
S 2
X 1/5 ∑ X − X
2 2
11 − 3 2
A = V - b X = 2,1332 - 0,7776 ×3 = - 0,1996

Deshacemos los cambios efectuados: a= antilnA = antiln-0,1996 = 0,819
b= antilnB =antiln 0,7776 = 2,176
Por lo que el ajuste efectuado es: Y* = 0,819 . 2,176 X
Bondad del Ajuste:
ECM 4 =
∑e 2
= 19,16
N
La comparación de la bondad de modelos de regresión mediante el coeficiente de

determinación sólo es correcta cuando la variable dependiente no ha sido
sometida a transformaciones no lineales (por ejemplo, una transformación
logarítmica). En este ejercicio, mediante R2 sólo podemos comparar la regresión
lineal y la parabólica. Por eso, para comparar los cuatro ajustes efectuados
utilizamos el Error Cuadrático Medio. El mejor ajuste resulta ser el parabólico
puesto que presenta el menor valor para el ECM.
Producción observada en función del tiempo
40
30
Y (producción)
20
10
0
1 2 3 4 5
X (tiempo)
Representación de los 4 modelos de regresión
Y real y teóricas (Producción) 40
30
Y (producción)
X (tiempo)
20 Y*1 lineal
X (tiempo)
Y*2 parábola
10
X (tiempo)
Y*3 potencial
0 X (tiempo)
Y*4 exponencial
-10 X (tiempo)
1 2 3 4 5
X (tiempo)
Regresión Parabólica
1. Definición
Dadas dos variables, x e y, se dice que existe:
• Dependencia funcional: Si y solamente si entre ellas existe una función matemática que las
relaciona
perfectamente, por ejemplo, entre todas las que se puede expresar su relación mediante una
ecuación E = mc2 o F = ma.
• Dependencia estadística: Cuando entre ellas existe una relación pero que no es expresable
mediante
un modelo matemático, por ejemplo entre oferta y demanda o peso y altura.
La regresión trata de ajustar a una nube de puntos una función de tipo matemático que se aproxime lo
máximo posible a los datos. Dada cualquier nube de puntos, siempre existirá una función que se pueda
ajustar sobre
esos datos, aunque, evidentemente, en el caso de dependencia estadística, este ajuste no será
perfecto.
El principal objetivo de la regresión es ajustar una función a los datos con el fin de realizar predicciones,
de
tal manera que se denomina:
• Variable dependiente: a la variable que se quiere predecir, también se conoce como variable
explicada (y).
• Variable(s) independiente(s): a la(s) que usaremos para predecir, puede haber una o varias.
También
son llamadas variables explicativas (x1, . . . , xn).
Se denomina regresión a intentar ajustar una función (f) a unos valores observados. De tal manera que
se
considerará regresión simple si solo tenemos una variable explicativa Y = f(X) y regresión múltiple si
existen varias y =
f(x1, x2, . . . ,xn).
2. Aplicación de las Regresiones
Entre las diferentes aplicaciones de las regresiones encontramos al estudio de mercado, la cual
consiste en la
identificación, acopio, análisis y aprovechamiento de información. Es un proceso sistemático y objetivo
diseñado para
identificar y resolver problemas de marketing.
Por lo tanto al hablar de investigación de mercados ésta nos lleva a la obtención de resultados, y uno de
los
métodos cuantitativos que encontramos dentro de dicha investigación es el análisis de regresión, que es
muy usado
para explicar la variación en la participación de mercado, ventas, preferencia de marca y otros
resultados que nos
arroje dicha investigación en términos variables de administración de marketing, como publicidad,
precio, distribución
y calidad.
3. Fórmulas
Si la serie tiene una curva parabólica cuyo comportamiento se describe matemáticamente por una
ecuación
de segundo grado (parábola). La regresión se expresa de la siguiente forma:

Regresion Lineal

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresion Lineal

Încărcat de

Drepturi de autor:

Formate disponibile

REGRESION LINEAL

La regresión es un método de análisis de los datos de la realidad económica que

El objeto de un análisis de regresión es investigar la relación estadística que existe

donde los coeficientes b0 y b1 son parámetros que definen la posición e

El parámetro b0, conocido como la “ordenada en el origen,” nos indica cuánto es

Estimación de la recta de regresión

En la práctica, los cálculos relacionados con un análisis de regresión se efectúan

En nuestro ejemplo, aplicando estas fórmulas tenemos:

b0 = 219.1242 – 0.044674(3,450.879) = 64.96

Expresando los resultados en términos de la recta de regresión, tenemos:

Una pregunta importante que se plantea en el análisis de regresión es la siguiente:

Hasta ahora hemos considerado únicamente el caso de la regresión simple. En el

= b0 + b1X1 + b2X2 + ...

La estimación de los coeficientes de una regresión múltiple es un cálculo bastante

El ejemplo numérico que se desarrolla a continuación está basado en un estudio

donde Y = Costos Administrativos del banco, y X = Activos Totales del banco.

(a) El coeficiente b1 nos indica en cuánto incrementa el costo administrativo anual

Un posible defecto de esta ecuación es la suposición de que todos los bancos

donde X1 = Activos Totales del banco, y X2 = Número de Agencias del banco.

En esta segunda regresión, el coeficiente b2 nos está midiendo el incremento en el

= -1.22 + 0.0275X1 + 0.661X2

Aquí se aprecia que el poder explicativo es básicamente igual que en la regresión

(a) El coeficiente b1, se recordará, nos mide el costo “marginal” de administrar un

(b) El coeficiente b2, se recordará, nos mide el incremento en el costo

La regresión lineal no siempre da buenos resultados, porque a veces la relación

Una función no-lineal que tiene muchas aplicaciones es la función exponencial:

donde A y b son constantes desconocidas. Si aplicamos logaritmos, esta función

Consideremos ahora la siguiente regresión lineal:

En esta regresión (denominada regresión doble-log), en lugar de calcular la

Como ejemplo, en el Cuadro 3 se muestran los datos básicos de un estudio de la

X1 = Índice del Precio Real de Automóviles Nuevos

Con estos datos, podemos estimar la siguiente regresión doble-log:

log(Y) = b0 + b1log(X1) + b2log(X2) + b3log(X3)

Puesto que todas las variables se expresan en términos de logaritmos, los

log(Y) = - 1.5803 - 1.422 log(X1) + 3.216 log(X2) - 1.479

En base a estos resultados, podemos concluir que la elasticidad-precio de la

Regresión lineal: Referencias

Benston, George J. “Multiple Regression Analysis of Cost Behavior,” Accounting

Bishop, C. E. & W. D. Toussaint. Introducción al Análisis de Economía Agrícola.

Cole, J. H. “Inflación en Guatemala, 1961-95,” Banca Central, No. 32 (1997): 21-

Friedman, Milton. “Money: Quantity Theory,” International Encyclopedia of the

Goldberger, Arthur S. Topics in Regression Analysis. New York: Macmillan,

Griliches, Zvi, et al. “Notes on Estimated Aggregate Quarterly Consumption

Harberger, Arnold C. “The Dynamics of Inflation in Chile,” en C. F. Christ, et al.,

Johnston, J. Análisis Estadístico de los Costes. Barcelona: Sagitario, S. A., 1966.

Johnston, J. Econometric Methods, 2ª ed. New York: McGraw-Hill, 1972.

Khan, M. S. “Import and Export Demand in Developing Countries,” IMF Staff

Lebergott, Stanley. “Annual Estimates of Unemployment in the United States,

Okun, A. M. “Potential GNP: Its Measurement and Significance,” Proceedings

Sala-i-Martin, Xavier. “The Classical Approach to Convergence Analysis,”

A partir de las siguientes observaciones para 5 años de las variables X e Y,

Y: producción nacional de un subsector industrial, en millones de toneladas.

1.- Ajuste de una función lineal: Y* = a + b X

1 1,25 1 1,25 1,56 -1,1 2,35 5,5225

Σ 15 68 55 277,5 1483,3 68 0 18,35

1/5 3 13,6 11 55,5 296,67 13,6 0 3,67

a = Y - b X =13,6 - 7,35 ×3 = - 8,45

Bondad del Ajuste:

S 2Y = 1/5 ∑ Y 2 − Y 2 = 296,675 - 13,6 2 = 111,715

2.- Ajuste de una función parabólica: Y* = a + b X + c X2

1 1,25 1 1 1 1,25 1,25 1,18 0,07 0,0049

Σ 15 68 55 225 979 277,5 1205 68 0 0,0644

1/5 3 13,6 11 55,5 13,6 0 0,0128