Documente Academic
Documente Profesional
Documente Cultură
El Análisis de regresión consiste en una técnica estadística utilizada para estudiar la relación
entre variables y predecir fenómenos en base a las observaciones del estudio.
RECTA DE REGRESIÓN
El diagrama de dispersión ofrece una idea aproximada sobre el tipo de relación que hay
entre dos variables, así como también permite cuantificar el grado de la relación lineal,
observando el grado en que la nube de puntos se ajusta a una línea recta (percepción
visual).
A partir del diagrama basado en los datos de una muestra es posible describir la pauta
observada –el patrón de comportamiento– de la nube de puntos con una línea recta, cuya
fórmula es
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 [1.1]
El método de los mínimos cuadrados provee los coeficientes de regresión (𝛽0 y 𝛽1 ) que
conforman la recta que mejor se ajusta a la nube de puntos. Ambos deben ser entendidos en
la unidad de medida en que se encuentran los datos recabados de cada variable.
se obtendría una recta más realista. Como alternativa a esto –si resultare necesario incorporar
este análisis–, los sistemas estadísticos (Excel, SPSS, etc.) poseen herramientas para “forzar”
a que el intercepto del modelo sea igual a cero, aunque en menoscabo del coeficiente de
determinación.
BONDAD DE AJUSTE
Pese a encontrarse la mejor recta posible para una nube de datos por medio del método de
los mínimos cuadrados, ésta no necesariamente debe ser buena.
Una medida ampliamente aceptada para cuantificar la bondad (calidad) del ajuste –qué tan
bueno o malo es– es el coeficiente de determinación 𝑹𝟐 , el cuadrado del coeficiente de
correlación múltiple. Su valor va de cero (lo que indica que las variables en estudio son
totalmente independientes) a 1 (indicando que las variables tienen una relación perfecta).
𝐶𝑜𝑣 (𝑋,𝑌)
𝜌= = √𝑅2 [3.1]
𝜎𝑋 𝜎𝑌
Por ejemplo, un valor de 0,880 en el R, indica una alta asociación lineal positiva entre
las variables.
2 𝑝(1−𝑅2 )
𝑅𝐴𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = [(𝑛−𝑝−1)] [3.2]
∑(𝑌𝑖 −𝑌̂𝑖 )2
𝑆𝑒 = √ [3.3]
(𝑛−2)
ANÁLISIS ANOVA
El cuadro resumen del ANOVA permite obtener información respecto de la ecuación del
modelo, los coeficientes y la significancia de cada uno de éstos. El ANOVA constituye el
mecanismo para contrastar si el modelo es significativo o no. Para esto, se parte desde el
contraste de hipótesis:
𝐻0 : 𝛽1 = 0 [4.1]
𝐻1 : 𝛽1 ≠ 0 2 [4.2]
2 2
∑(𝑌𝑖 − 𝑌̅)2 = ∑(𝑌̂𝑖 − 𝑌̅) + ∑(𝑌𝑖 − 𝑌̂𝑖 ) [4.3]
Si 𝐻0 es cierta, la recta sería aproximadamente horizontal, 𝑌̂𝑖 ≈ 𝑌̅ y, por ende, 𝑆𝐶𝐸 ≈ 0, pero
esto no puede utilizarse como medida de discrepancia. En su lugar, se utilizan los promedios
de los cuadrados y el estadístico F:
𝑆𝐶𝐸 𝑆𝐶𝑅
𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 = ó = 𝑆̂𝐸2 ó ̂𝑆𝑅2 [4.4]
1 𝑛−2
𝑆̂𝐸2
𝐹= 2 [4.5]
𝑆𝑅
Si 𝑭 > 𝑭∝;𝟏,𝒏−𝟐 , dado cierto nivel de significación 𝛼, se puede rechazar la hipótesis nula de
no linealidad.
Cabe destacar que el análisis del estadístico F de Fisher tiene una mayor utilidad cuando se
enfrenta a modelos de regresión de múltiples variables, en los cuales se estudia la
significancia de más de un parámetro. En estos casos, el contraste de hipótesis sigue la forma
𝐻0 : 𝛽1 = 0 ∧ 𝛽2 = 0 ∧ 𝛽3 = 0 … 𝛽𝐾 = 0 [4.6]
𝐻1 : 𝛽1 ≠ 0 ∨ 𝛽2 ≠ 0 ∨ 𝛽3 ≠ 0 … 𝛽𝐾 ≠ 0 [4.7]
Para estos casos, dado cierto nivel de significancia, si 𝑭 > 𝑭𝜶;𝑲,𝒏−𝑲−𝟏, se puede rechazar la
hipótesis nula, donde K corresponde al número de variables independientes.
Econometría – Primer Semestre 2018
Departamento de Ingeniería Comercial
Facultad de Ingeniería
Por su parte, el Valor Crítico de F, es una medida de lo verosímil que resulta obtener el R
obtenido si 𝑯𝟎 fuera cierta3. Si resulta cero o muy cercano a cero, indica que, si se aceptara
𝐻0 –o sea, que las variables no están relacionadas–, es improbable que R tome el valor que
se ha obtenido, lo que implica que, en realidad, el valor de R es distinto de cero y que, por lo
tanto, las variables están linealmente relacionadas.
𝛽0 = 𝑌̅ − 𝛽1 𝑋̅ [5.1]
∑ 𝑋𝑖 𝑌𝑖 −∑ 𝑋𝑖 ∑ 𝑌𝑖
𝛽1 = [5.2]
𝑛 ∑ 𝑋𝑖2 −(∑ 𝑋𝑖 )2
PRUEBAS DE SIGNIFICACIÓN
Los estadísticos t permiten contrastar la hipótesis nula de que los coeficientes de la regresión
valen cero en la población.
𝛽
𝑡𝛽0 = 𝑆 0 [5.3]
𝛽0
𝛽
𝑡𝛽1 = 𝑆 1 [5.4]
𝛽1
Si 𝒕𝜷𝑲 > 𝒕𝜶;𝒏−𝟐 (se distribuyen con distribución t de Student con n-2 grados de libertad), se
puede decir que el coeficiente 𝛽𝐾 es significativamente distinto de cero y, por ende, se puede
rechazar 𝐻0 .
De igual forma que con el p-Valor del estadístico F, la probabilidad o Valor Crítico de t
(p-Valor de t) indica la probabilidad de obtener los resultados obtenidos, de ser cierta 𝐻0 .
En otras palabras, es la probabilidad más baja de cometer error tipo I (rechazar la hipótesis
nula cuando debía ser aceptada). Cuando toma valores muy bajos, indica que el coeficiente
es más significativo.