Sunteți pe pagina 1din 26

REGRESIÓN LINEAL SIMPLE Y

CORRELACIÓN
1. Coeficiente de Correlación.

Medida de asociación lineal entre 2 variables X y Y ; se utiliza como parte de un


análisis preliminar para determinar relaciones entre pares de variables.
n n

n x y i i

 xi yi  i 1
n
i 1

rxy  i 1
1
  n 
2
  n 
2
 2

 n   xi   n   yi  
  x 2   i 1    y 2   i 1  
  i 1
i
n   i 1
i
n 
  
     
Propiedades del coeficiente de correlación
-1  rxy  1

- Correlación positiva
Cuando los valores de una variable
se incrementan, los de la otra
también lo hacen.

- Correlación negativa
Cuando los valores de una variable
se incrementan, los de la otra
disminuyen.

2
… Propiedades del coeficiente de correlación

- Correlaciones cercanas a 1 en valor absoluto indican una fuerte


asociación lineal entre las 2 variables y correlaciones cercanas a cero
indican una asociación lineal muy débil o nula.

- El coeficiente de correlación es muy inestable con muestras pequeñas;


se considera que a partir de tamaños de muestra de 50 no existen
fuertes diferencias entre el coeficiente de correlación muestral y el
poblacional.
NOTAS:
1. La asociación no implica una relación de causalidad. Aunque se presente una fuerte
asociación entre una variable explicatoria X y una variable respuesta Y, esto no
constituye una suficiente evidencia de que cambios en X realmente ocasionen
cambios en Y. La única forma de llegar a una conclusión tajante al respecto es a través
de una experimento.

2. Cuando no se pueda realizar un experimento, es posible establecer una relación de


causalidad en los siguientes casos:
◦ La asociación es fuerte.
◦ La asociación es consistente.
◦ Dosis más altas se asocian a respuestas más fuertes.
◦ La causa precede al efecto en el tiempo.
◦ La causa es plausible.
2. Regresión Lineal Simple (RLS)

Técnica estadística para modelar e investigar la relación entre una variable


dependiente y dos o más variables independientes.

Para aplicar la técnica de RLS se debe:

Identificar cuál es la variable independiente x y cual es la variable dependiente y.


Asumir que la verdadera relación entre las dos variables es una línea recta.

El valor observado de y puede describirse por la siguiente expresión:

y = b o + b 1x + e
… RLS

Modelo de RLS: y = bo + b1f(x) + e


Sólo involucra una variable independiente que, en general, es una función
de x que multiplica a b1.

Ajuste de mínimos cuadrados:


Método frecuentemente utilizado para estimar la ecuación de RLS. Después
de minimizar la suma de cuadrados de los errores o de los residuales se
obtienen los estimadores de bo y de b1.
… Ajuste de mínimos cuadrados.

Suponga que se tienen “n” pares de observaciones:


(x1,y1), (x2,y2), ... , (xn,yn)

Y se usa el modelo de RLS:


yi = bo + b1xi + ei

de donde:
ei = yi - bo - b1xi

n
con lo cual la suma de cuadrados de los errores ( SC) sería: SC     i2
i 1
n 2
   yi  b0  b1 xi 
i 1
… Ajuste de mínimos cuadrados
Escoger b0 y b1 tales que minimicen la suma de cuadrados de los errores; por lo
tanto es necesario:
 SC    SC  
0 0
 b0  b1
bˆ 0 bˆ1

Se obtienen las siguientes expresiones para b̂0 y b̂1 :

 xi yi   x y
bˆ 0  y bˆ1 x
i i

bˆ1  n
 x 2

 i
x 2

n
i

Ecuación estimada de la recta o la ecuación ajustada de RLS:


yˆ  bˆ 0  bˆ 1 x
Coeficiente de determinación

Indica el porcentaje de variabilidad de la variable y que es explicado por el modelo


de regresión ajustado.

Es un indicador de lo “bueno” que es el modelo; se calcula de la siguiente manera:

R2 =
2
r =
 ( yˆ i  y ) 2 SC (Re g )

xy
(y i  y)
2
SC (total )
Supuestos de RLS

1. Normalidad de los errores.


2. Homogeneidad de varianzas (Homocedasticidad).
3. No observaciones extremas.
4. Relación funcional adecuada.
5. Independencia de los errores.
Análisis de residuales

Los residuales se definen como:

ri  yi  yˆ i
y se usan para:
1. Verificar normalidad ( 0, 2).
2. Verificar homogeneidad de varianzas.
3. Detectar la presencia de Outliers.
4. Determinar si la relación funcional es la adecuada.
5. Determinar la independencia de errores u observaciones.
1. Verificación de normalidad

Se puede realizar vía histogramas de frecuencias, diagramas de tallos y hojas, gráficas de


probabilidad normal o pruebas específicas como la de Kolmogorov Smirnov o la de Ryan –
Joiner (Shapiro-Wilk).

Gráfica de probabilidad normal


Procedimiento:
1. Ordenar los residuales de menor a mayor.

k 1
2. Calcular Pk  2
n
Donde :
k  Posición (orden) que ocupa el residual en el grupo ordenado.
n  Número de datos.
3. Graficar los residuales vs. (1-pk)100 en un papel especial de probabilidad normal.
… Verificación de normalidad

NOTAS:
a) Si los residuales se distribuyen normalmente, la gráfica parecerá una
línea recta; es más importante que los valores centrales en la gráfica se
acerquen a la recta que lo que pueda ocurrir con los valores extremos,
siempre y cuando las desviaciones respecto a la recta en este último caso
no sean graves.

b) El análisis de varianza es robusto al supuesto de normalidad, es decir,


no se ve afectado por la violación de este supuesto, a menos que esta
violación suceda en un grado extremo.

c) La gráfica de probabilidad normal tiene el inconveniente de brindar un


criterio subjetivo para decidir si los residuales se distribuyen normalmente
2. Homogeneidad de varianzas
Si las varianzas son constantes como lo dice el supuesto, la gráfica de los ri vs. Yi
gorro se verá así:

Y si hay heterogeneidad de varianzas:


3. Presencia de Outliers

4. Relación funcional adecuada


Caso en que la
relación entre
Existen dos formas para encontrar si la relación variables es
entre las variables es lineal o no: la primera que no cuadrática:
es del todo concluyente es graficando xi vs. yi y
la otra graficando xi vs. ri.
5. Independencia de los errores.

En el caso que se tenga una gráfica como la siguiente no hay independencia


entre las observaciones:

En el eje x se coloca el tiempo u orden en el que se obtuvieron, realizaron, o


recolectaron las observaciones.
Prueba de Durbin - Watson

Un supuesto más en el análisis de RLS es que los errores son


independientes; de no cumplirse este supuesto, se dice que los errores
están autocorrelacionados; este es un problema muy común en series
de tiempo.

La autocorrelación se puede originar por la no inclusión de una o más


regresoras en el modelo de regresión con series de tiempo; la mayor
parte de este tipo de modelos presentan autocorrelación positiva. Por
ejemplo si se desea encontrar un modelo para ventas anuales en
función de los gastos en publicidad y no se incluye el crecimiento de la
población, se van a presentar errores con autocorrelación positiva
(tamaño de la población guarda correlación positiva con ventas).
…Prueba de Durbin - Waston

Y que a la mayor parte de los problemas de regresión que involucran series de tiempo
muestran una autocorrelación positiva, la hipótesis generalmente considerada en esta
prueba es:

Ho :   0
vs.
Ha :   0

Estadístic o de prueba :
n

 (e t  et 1 ) 2
d  i 2
n

e
i 1
2
i

18
…Prueba de Durbin - Watson
Donde los e´s son los residuales del análisis de mínimos cuadrados aplicado a los
datos.

Por ejemplo, las Reglas de decisión se obtiene al comparar el valor de d con


dU ( upper) y dL (lower)
Si:
d < dL, existe autocorrelación positiva, se rechaza Ho al nivel alfa.
d > dU, no se rechaza Ho, no hay autocorrelación positiva.
dL ≤ d ≤ dU, la prueba no es concluyente
…Prueba de Durbin - Watson
En la tabla siguiente pueden verse los valores críticos de Durbin-Watson que
permiten tomar la decisión de mantener la Hipótesis nula, pasar a la Hipótesis
alternativa o permite estar en una zona de indecisión:
Uso de transformaciones para resolver problemas que
surgen en el análisis de residuales

a) Transformaciones para el caso en que la distribución de los errores es normal, la


varianza es constante y solamente la relación entre las variables no es lineal.
b) Cuando las varianzas de los errores son no constantes y no hay normalidad
Regresión y causalidad

1. Si existe una relación de causalidad entre dos variables, las técnicas de regresión
ayudan a cuantificarla; pero a partir únicamente del análisis de regresión no se
puede inferir una relación de causalidad.

2. Dos variables pueden aparecer relacionadas por varias razones:

Porqué X influye sobre Y:


X = Número de cajas en servicio en un supermercado.
Y = Número de personas que hacen fila esperando pagar.

Porqué Y influye sobre X.


El administrador del super incrementa el número de cajas abiertas cuando se
incrementa el tamaño de las filas.
Regresión y causalidad
X y Y interactúan entre si.
Se incrementa el número de clientes. Esto implica que se abran más cajas; si el número de cajas es
excesivo, disminuye el número de clientes en fila. Esto ocasiona un menor número de cajas, con lo cual
se incrementa el número de clientes en fila, etc.

Existe otra variable Z que influye en X y en Y. Ejemplos:


a) X = Número de iglesias por milla cuadrada
Y = Tasa de criminalidad
Z = Densidad poblacional en varias zonas

b) X = No. de aparatos de radio en un país


Y = No. de deficientes mentales
Z = No. de habitantes por periodo de tiempo

En ambos casos hay una tercera variable que influye sobre X y Y y ocasiona que aparentemente estas
dos variables guarden una fuerte relación.
Regresión y causalidad

Aparente relación debida al azar.

Ejemplo:
- No. de nacimientos en una ciudad determinada y No. de cigüeñas en ese lugar.
- Muestras no representativas o atípicas de la población.

Conclusión: El conocimiento del fenómeno bajo estudio es lo que puede determinar


finalmente si la relación de casualidad existe entre dos variables.
Regresión lineal múltiple

La variable dependiente está potencialmente relacionada con k variables


independientes.

y   0  1 x1   2 x2     k xk  

Las variables independientes pueden ser función de otras variables, como:

x2  x12
x3  x1 * x2
x5  log( x4 )

S-ar putea să vă placă și