Gui - A de Interpretacio - N Regresio - N Simple PDF

Econometría – Primer Semestre 2018
Departamento de Ingeniería Comercial

Facultad de Ingeniería
GUÍA DE INTERPRETACIÓN DE CUADROS DE RESUMEN DE ANÁLISIS DE

DATOS DE REGRESIÓN LINEAL SIMPLE
El Análisis de regresión consiste en una técnica estadística utilizada para estudiar la relación
entre variables y predecir fenómenos en base a las observaciones del estudio.
RECTA DE REGRESIÓN
El diagrama de dispersión ofrece una idea aproximada sobre el tipo de relación que hay
entre dos variables, así como también permite cuantificar el grado de la relación lineal,
observando el grado en que la nube de puntos se ajusta a una línea recta (percepción
visual).
A partir del diagrama basado en los datos de una muestra es posible describir la pauta
observada –el patrón de comportamiento– de la nube de puntos con una línea recta, cuya
fórmula es
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 [1.1]
El coeficiente 𝜷𝟏 representa a la pendiente de la recta: es el cambio medio que se produce

en la variable dependiente por cada unidad de cambio que se produce en la variable
independiente.
El coeficiente 𝜷𝟎 , por su parte, representa al intercepto de la recta: el valor medio para la

variable dependiente (Y) cuando la variable independiente (X) toma el valor cero.
El método de los mínimos cuadrados provee los coeficientes de regresión (𝛽0 y 𝛽1 ) que
conforman la recta que mejor se ajusta a la nube de puntos. Ambos deben ser entendidos en
la unidad de medida en que se encuentran los datos recabados de cada variable.
O BSERVACIÓN RESPECTO AL INTERCEPTO :
Aunque aporta información respecto de lo que podría ocurrir si se extrapola el patrón de

comportamiento hacia abajo (cuando 𝑋 = 0), si no se tienen valores observados de X siquiera
cercanos a cero, se estaría efectuando pronósticos en un rango no contemplado, lo cual es
arriesgado. Si se añade al estudio observaciones con X cercana o igual a cero, probablemente
se obtendría una recta más realista. Como alternativa a esto –si resultare necesario incorporar
este análisis–, los sistemas estadísticos (Excel, SPSS, etc.) poseen herramientas para “forzar”
a que el intercepto del modelo sea igual a cero, aunque en menoscabo del coeficiente de
determinación.
BONDAD DE AJUSTE
Pese a encontrarse la mejor recta posible para una nube de datos por medio del método de
los mínimos cuadrados, ésta no necesariamente debe ser buena.
Una medida ampliamente aceptada para cuantificar la bondad (calidad) del ajuste –qué tan
bueno o malo es– es el coeficiente de determinación 𝑹𝟐 , el cuadrado del coeficiente de
correlación múltiple. Su valor va de cero (lo que indica que las variables en estudio son
totalmente independientes) a 1 (indicando que las variables tienen una relación perfecta).
Se puede interpretar como el porcentaje de la variación de la variable dependiente que es

explicada por la variable independiente. Visto de otra forma, representa el grado de
ganancia que se puede obtener al predecir una variable basándose en el conocimiento de otras
variables1, en comparación a utilizar el promedio de los valores de Y. Por ejemplo, si 𝑅2 =
0,88, quiere decir que se puede mejorar en un 83% el pronóstico sobre la variable Y si se
utiliza lo que se conoce de la variable X, en comparación a utilizar sólo la media de los
valores observados de Y.
Esta medida permite también comparar el grado de relación de distintas variables

independientes con la variable dependiente en estudio, cuando se lleva a cabo un análisis de
regresión multivariable. Su fórmula es
𝑆𝑢𝑚𝑎 𝑑𝑒 𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑅𝑒𝑠𝑖𝑑𝑢𝑜𝑠 (𝑆𝐶𝑅)

𝑅2 = 𝑆𝑢𝑚𝑎 𝑑𝑒 𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝐺𝑙𝑜𝑏𝑎𝑙 𝑜 𝑇𝑜𝑡𝑎𝑙 (𝑆𝐶𝐺) [2.1]
1 Cita de documento de la UC3M.

ANÁLISIS DE DATOS (ESTADÍSTICAS DE LA REGRESIÓN)

El análisis de datos ofrece mucha información respecto al modelo de regresión. A
continuación, se detallan los datos que se pueden obtener por medio de esta herramienta.
- Coeficiente de Correlación Múltiple (R): Es el grado de asociación lineal entre las

variables. Su valor puede ir de -1 (asociación perfectamente negativa) a 1 (asociación
perfectamente positiva). Al tener sólo dos variables, en el análisis de regresión lineal
simple R sólo es el valor absoluto del coeficiente de correlación de Pearson (𝜌),
donde,
𝐶𝑜𝑣 (𝑋,𝑌)
𝜌= = √𝑅2 [3.1]
𝜎𝑋 𝜎𝑌
Por ejemplo, un valor de 0,880 en el R, indica una alta asociación lineal positiva entre
las variables.
- Coeficiente de Determinación (𝑹𝟐 ): Es el grado de bondad del ajuste. Corresponde

a la proporción de la varianza de la variable dependiente que está explicada por la
variable independiente.
Un valor de 0,775, por ejemplo, indicaría que un 77,5% de la variabilidad de la
variable Y se explica por la variable X.
- R cuadrado corregido (o ajustado): Es una corrección a la baja de 𝑅2 basada en
el número de casos y de variables independientes en estudio.
2 𝑝(1−𝑅2 )
𝑅𝐴𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = [(𝑛−𝑝−1)] [3.2]
Tiene como finalidad corregir un 𝑅2 artificialmente alto, debido a un bajo número de

2
datos y muchas variables independientes. Cuando esta situación ocurre, el 𝑅𝐴𝑗𝑢𝑠𝑡𝑎𝑑𝑜
2
es sustancialmente más bajo que 𝑅2 . Si hay muchos casos, 𝑅2 y 𝑅𝐴𝑗𝑢𝑠𝑡𝑎𝑑𝑜 serán
prácticamente iguales.
- Error Típico de la Estimación (𝑺𝒆 ): Es una aproximación de la desviación estándar

de los residuos.
∑(𝑌𝑖 −𝑌̂𝑖 )2
𝑆𝑒 = √ [3.3]
(𝑛−2)
Equivale igualmente a la raíz cuadrada de la media cuadrática de los residuos

(promedio de los cuadrados de los residuos). Representa la parte de la variabilidad de
Y que no es explicada por la regresión, expresada en la unidad correspondiente a
la variable. Cuanto mejor es el ajuste, menor será este error.
ANÁLISIS ANOVA
El cuadro resumen del ANOVA permite obtener información respecto de la ecuación del
modelo, los coeficientes y la significancia de cada uno de éstos. El ANOVA constituye el
mecanismo para contrastar si el modelo es significativo o no. Para esto, se parte desde el
contraste de hipótesis:
𝐻0 : 𝛽1 = 0 [4.1]
𝐻1 : 𝛽1 ≠ 0 2 [4.2]
La ecuación 4.1 detalla la hipótesis nula de que 𝑌̂ es constante, no depende de X, debido a

que la pendiente (𝛽1 ) es igual a cero. La ecuación 4.2 detalla la hipótesis alternativa de que
sí existe una relación entre las variables independientes y dependiente.
Si se acepta 𝐻0 , la variable X no influye en el valor de Y, no habría relación lineal y el modelo

no sería significativo. En el caso contrario, sí hay dependencia.
El cuadro ANOVA desglosa la variabilidad de la variable dependiente en Variabilidad

Explicada por la Regresión y Variabilidad Residual.
2 2
∑(𝑌𝑖 − 𝑌̅)2 = ∑(𝑌̂𝑖 − 𝑌̅) + ∑(𝑌𝑖 − 𝑌̂𝑖 ) [4.3]
El elemento del lado izquierdo de la igualdad en la ecuación 4.3 corresponde a la Suma de

Cuadrados Global, SCG (o Total). El primer elemento del lado derecho es la Suma de
2 También pueden expresarse las hipótesis como

𝐻0 : 𝐸(𝑌|𝑋) = 𝑌̂ = 𝛽0
𝐻1 : 𝐸(𝑌|𝑋) = 𝑌̂ = 𝛽0 + 𝛽1 𝑋
Cuadrados Explicada, SCE, mientras que el segundo es la Suma de Cuadrados Residual,

SCR.
Si 𝐻0 es cierta, la recta sería aproximadamente horizontal, 𝑌̂𝑖 ≈ 𝑌̅ y, por ende, 𝑆𝐶𝐸 ≈ 0, pero
esto no puede utilizarse como medida de discrepancia. En su lugar, se utilizan los promedios
de los cuadrados y el estadístico F:
𝑆𝐶𝐸 𝑆𝐶𝑅
𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 = ó = 𝑆̂𝐸2 ó ̂𝑆𝑅2 [4.4]
1 𝑛−2
𝑆̂𝐸2
𝐹= 2 [4.5]
𝑆𝑅
El estadístico F y el valor crítico de F permiten contrastar la hipótesis nula de que el valor

poblacional de R es cero (cuando se trata de regresiones lineales simples, esto es equivalente
a contrastar la hipótesis nula de que 𝛽1 = 0).
Si 𝑭 > 𝑭∝;𝟏,𝒏−𝟐 , dado cierto nivel de significación 𝛼, se puede rechazar la hipótesis nula de
no linealidad.
Cabe destacar que el análisis del estadístico F de Fisher tiene una mayor utilidad cuando se
enfrenta a modelos de regresión de múltiples variables, en los cuales se estudia la
significancia de más de un parámetro. En estos casos, el contraste de hipótesis sigue la forma
𝐻0 : 𝛽1 = 0 ∧ 𝛽2 = 0 ∧ 𝛽3 = 0 … 𝛽𝐾 = 0 [4.6]
𝐻1 : 𝛽1 ≠ 0 ∨ 𝛽2 ≠ 0 ∨ 𝛽3 ≠ 0 … 𝛽𝐾 ≠ 0 [4.7]
donde K corresponde al número de variables independientes. En este caso, la hipótesis nula

a contrastar señala que todos los coeficientes son iguales a cero, mientras que la hipótesis
alternativa es que al menos uno de los coeficientes es distinto de cero. Es decir, basta con
que no se cumpla la igualdad para uno de los coeficientes para poder rechazar la hipótesis
nula.
Para estos casos, dado cierto nivel de significancia, si 𝑭 > 𝑭𝜶;𝑲,𝒏−𝑲−𝟏, se puede rechazar la
hipótesis nula, donde K corresponde al número de variables independientes.
Por su parte, el Valor Crítico de F, es una medida de lo verosímil que resulta obtener el R
obtenido si 𝑯𝟎 fuera cierta3. Si resulta cero o muy cercano a cero, indica que, si se aceptara
𝐻0 –o sea, que las variables no están relacionadas–, es improbable que R tome el valor que
se ha obtenido, lo que implica que, en realidad, el valor de R es distinto de cero y que, por lo
tanto, las variables están linealmente relacionadas.
En otros términos, corresponde al nivel de significancia más pequeño posible, es decir, la

menor probabilidad de cometer el error de rechazar 𝑯𝟎 , cuando ésta es verdadera
(error tipo I). Si es un valor muy pequeño, significa que la probabilidad de rechazar
erróneamente es muy baja y, por ende, el coeficiente es más significativo. Generalmente, se
considera este escenario para cuando este valor crítico es menor a 0,05 y muy cercano a cero.
COEFICIENTES DE REGRESIÓN PARCIAL

Detalla el valor de los estimadores de los coeficientes de la ecuación lineal, como lo son el
intercepto (𝛽0 ) y la pendiente (𝛽1 ). El primero corresponde al valor estimado de la variable
Y cuando la variable X toma el valor cero, mientras que el segundo corresponde al
incremento marginal (o decremento, según el signo) que sufre Y cuando varía X en una
unidad. De acuerdo con el Método de Mínimos Cuadrados Ordinarios, la forma de hallar
dichos coeficientes es:
𝛽0 = 𝑌̅ − 𝛽1 𝑋̅ [5.1]
∑ 𝑋𝑖 𝑌𝑖 −∑ 𝑋𝑖 ∑ 𝑌𝑖
𝛽1 = [5.2]
𝑛 ∑ 𝑋𝑖2 −(∑ 𝑋𝑖 )2
El Error Típico o Estándar corresponde a la desviación estándar de la estimación del

coeficiente. Mide la precisión con la que el modelo estima el valor desconocido (poblacional)
del coeficiente: Cuanto menor sea el error típico, mejor será la precisión del coeficiente.
3 Equivalente al p-Valor, tanto para el estimador F como para el estimador t.

PRUEBAS DE SIGNIFICACIÓN
Los estadísticos t permiten contrastar la hipótesis nula de que los coeficientes de la regresión
valen cero en la población.
𝛽
𝑡𝛽0 = 𝑆 0 [5.3]
𝛽0
𝛽
𝑡𝛽1 = 𝑆 1 [5.4]
𝛽1
Si 𝒕𝜷𝑲 > 𝒕𝜶;𝒏−𝟐 (se distribuyen con distribución t de Student con n-2 grados de libertad), se
puede decir que el coeficiente 𝛽𝐾 es significativamente distinto de cero y, por ende, se puede
rechazar 𝐻0 .
En el modelo de regresión lineal simple, este resultado es equivalente al del estadístico F,

puesto que sólo se trabaja con una variable independiente. De hecho, 𝑡 2 = 𝐹.
De igual forma que con el p-Valor del estadístico F, la probabilidad o Valor Crítico de t
(p-Valor de t) indica la probabilidad de obtener los resultados obtenidos, de ser cierta 𝐻0 .
En otras palabras, es la probabilidad más baja de cometer error tipo I (rechazar la hipótesis
nula cuando debía ser aceptada). Cuando toma valores muy bajos, indica que el coeficiente
es más significativo.
Adicionalmente, el cuadro resumen de análisis de datos provee intervalos de confianza, que

permiten estimar entre qué valores se podrían ubicar los verdaderos valores de cada
coeficiente de regresión (parámetros poblacionales). Se calculan sumando y restando a los
valores de cada coeficiente, cierto número de errores típicos, de acuerdo con el nivel de
confianza determinado (por ejemplo, 1,96 errores típicos para una confianza del 95%).

Gui - A de Interpretacio - N Regresio - N Simple PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Gui - A de Interpretacio - N Regresio - N Simple PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Econometría – Primer Semestre 2018

Departamento de Ingeniería Comercial

GUÍA DE INTERPRETACIÓN DE CUADROS DE RESUMEN DE ANÁLISIS DE

El coeficiente 𝜷𝟏 representa a la pendiente de la recta: es el cambio medio que se produce

El coeficiente 𝜷𝟎 , por su parte, representa al intercepto de la recta: el valor medio para la

O BSERVACIÓN RESPECTO AL INTERCEPTO :

Aunque aporta información respecto de lo que podría ocurrir si se extrapola el patrón de

Se puede interpretar como el porcentaje de la variación de la variable dependiente que es

Esta medida permite también comparar el grado de relación de distintas variables

𝑆𝑢𝑚𝑎 𝑑𝑒 𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑅𝑒𝑠𝑖𝑑𝑢𝑜𝑠 (𝑆𝐶𝑅)

1 Cita de documento de la UC3M.

ANÁLISIS DE DATOS (ESTADÍSTICAS DE LA REGRESIÓN)

- Coeficiente de Correlación Múltiple (R): Es el grado de asociación lineal entre las

- Coeficiente de Determinación (𝑹𝟐 ): Es el grado de bondad del ajuste. Corresponde

Tiene como finalidad corregir un 𝑅2 artificialmente alto, debido a un bajo número de

- Error Típico de la Estimación (𝑺𝒆 ): Es una aproximación de la desviación estándar

Equivale igualmente a la raíz cuadrada de la media cuadrática de los residuos

La ecuación 4.1 detalla la hipótesis nula de que 𝑌̂ es constante, no depende de X, debido a

Si se acepta 𝐻0 , la variable X no influye en el valor de Y, no habría relación lineal y el modelo

El cuadro ANOVA desglosa la variabilidad de la variable dependiente en Variabilidad

El elemento del lado izquierdo de la igualdad en la ecuación 4.3 corresponde a la Suma de

2 También pueden expresarse las hipótesis como

Cuadrados Explicada, SCE, mientras que el segundo es la Suma de Cuadrados Residual,

El estadístico F y el valor crítico de F permiten contrastar la hipótesis nula de que el valor

donde K corresponde al número de variables independientes. En este caso, la hipótesis nula

En otros términos, corresponde al nivel de significancia más pequeño posible, es decir, la

COEFICIENTES DE REGRESIÓN PARCIAL

El Error Típico o Estándar corresponde a la desviación estándar de la estimación del

3 Equivalente al p-Valor, tanto para el estimador F como para el estimador t.

En el modelo de regresión lineal simple, este resultado es equivalente al del estadístico F,

Adicionalmente, el cuadro resumen de análisis de datos provee intervalos de confianza, que

S-ar putea să vă placă și