Sunteți pe pagina 1din 5

REGRESION simple

Correlación Lineal:

Dadas dos variable numéricas continuas X e Y , decimos que están correla-


cionadas si entre ambas variables hay cierta relación, de modo que puede
predecirse (aproximadamente) el valor de una de ellas conocido el valor de la
otra; en este sentido, decimos que la correlación es positiva si al aumentar
una de las variables aumenta también la otra, y negativa en caso contrario.

Si queremos predecir el valor de Y a partir de X, decimos que X es el regresor,


e Y la variable explicada. Si X e Y no están relacionadas en modo alguno,
decimos que son incorreladas.

Si X e Y están correlacionadas, tiene sentido buscar la “fórmula” que permita


aproximar una de ellas, digamos Y , conocida la otra. Según el tipo de fórmula
que mejor se adapte a los datos, hablamos de correlación lineal (Y = a+bX),
correlación cuadrática (Y = a + bx + cx2 ), exponencial (Y = abX ), etc.
En nuestro caso, nos centraremos en la correlación lineal.

Medida de la Correlación Lineal:

Para evaluar la fuerza de la correlación lineal entre dos variables X e Y , es


decir, la idoneidad de una aproximacón Y = a + bX, lo primero que haremos
será reunir datos del tipo (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ); es decir, mediremos los
valores de X e Y sobre n individuos de una cierta población; a un conjunto
de datos de este tipo se le llama una distribución bidimensional. A partir
de estos datos, calcularemos los siguientes parámetros, que permiten evaluar
distintos aspectos de la correlación lineal.

(1) Nube de Puntos: Es la representación gráfica de los datos (xi , yi ). La


forma de la región que configuran permite evaluar si hay o no correlación
entre las variables: si la nube de puntos se aproxima a una curva con forma
geométrica definida, hay correlación entre ambas; si la nube de puntos no
se aproxima a ninguna curva en particular (es decir, es más bien informe),
entonces son incorreladas. En el primer caso, la curva a la que se aproxime
la nube de puntos sugerirá el modelo a utilizar: lineal (Y = a + bX) si es
una recta, cuadrática (Y = a + bX + cX 2 ) si es una parábola, etc. En el caso
de la correlación lineal, la nube de puntos debe ser alargada, y próxima a
una recta “intermedia”.
(2) Covarianza: Es un parámetro que depende tanto de la fuerza de la cor-
relación lineal, como de la dispersión y el tamaño de las xi , por un lado, y

1
las yj , por otro. Cuanto más próxima esté a 0, más débil será la correlación
lineal entre las variables. Se calcula como:
P P
i=1,...,n (xi − x̄)(yi − ȳ) i=1,...,n xi yi
sxy = = − x̄ȳ
n n

Si la correlación es positiva, entonces sxy > 0; si es negativa, sxy < 0.


(3) Coeficiente de correlación lineal de Pearson:

sxy
ρ=
sx · sy

Se cumple que:
· Depende sólo de la fuerza de la correlación lineal.
· −1 ≤ ρ ≤ 1
· Si ρ > 0, la correlación es positiva; si ρ < 0, negativa.
· La correlación es tanto más fuerte cuanto más próximo esté ρ a 1 o −1.
(4) Coeficiente de correlación lineal de Spearman (o por Rangos): Es
más robusto que ρ (es decir, menos sensible a datos atı́picos). Si represen-
tamos por Rx , Ry los rangos de los xi , yj , respectivamente, entonces

sRx ,Ry
rs =
sRx · sRy

Sus propiedades son completamente análogas a las de ρ.

Modelo de Correlación Lineal:

Con más precisión, decimos que la relación entre dos variables X e Y puede
ser descrita a partir de un modelo lineal, cuando puede afirmarse que

Y = a + bX + ²

donde ² recibe el nombre de residuo, de modo que se cumple:

(i) La relación entre Y y X es lineal (es decir, la fórmula Y = a + bX aproxima


bien el valor de Y , conocido X)
(ii) La media de los residuos es 0.
(iii) Los residuos son normales.
(iv) La varianza de Y no depende del valor de X (homocedasticidad).
(v) Los residuos son aleatorios.

En resumen, ² = N (0, σ), donde σ recibe el nombre de error experimental,


y permite evaluar hasta qué punto pueden desviarse las predicciones, de los
valores reales.

2
Los valores a, b se estiman como:
sxy
b=
s2x
a = ȳ − b · x̄

donde x̄, ȳ son las medias de los xi , yj , respectivamente, y s2x es la varianza de


los xi . El parámetro a se llama ordenada, y b pendiente. En general, dado
un cierto valor xi , representaremos por ŷi el valor esperado de la variable Y ,
correspondiente al valor xi de la variable X, conforme al modelo anterior; es
decir,
ŷi = a + bxi
Se tiene que ²i = yi − ŷi (el valor “real” menos el “predicho”).

Variabilidad y Correlación Lineal:

Puede realizarse una descomposición de la variabilidad de la variable Y similar


a la del ANOVA simple, a partir del modelo anterior. Concretamente, si ȳ
representa la media de la variable Y , entonces:
X X X
(yi − ȳ)2 = (yi − ŷi )2 + (ŷi − ȳ)2
| {z } | {z } | {z }
SCT SCR SCE

Se llama coeficiente de determinación o R2 , a


SCE
R2 = × 100
SCT
Este coeficiente debe entenderse como el porcentaje de variabilidad de los
datos que está siendo explicado por el modelo (de hecho, si el modelo es
bueno ŷi , yi serán muy similares, luego SCR será próxima a cero. Si R2 es
suficientemente grande, entonces entenderemos que el modelo Y = a+bX está
explicando bien la variabilidad encontrada, y por tanto que se ajusta bien a
los datos. En particular, cuanto más próximo a 100 sea R2 , más fuerte será
la correlación lineal. Además, aplicando técnicas similares a las del ANOVA,
podemos producir un p-valor para la hipótesis H0 : “no hay correlación lin-
eal”, frente a la alternativa H1 : “hay correlación lineal”. Finalmente, R2 es
exactamente igual al cuadrado del coeficiente de correlación lineal de Pearson,
multiplicado por 100; de ahı́ el hecho de que el coeficiente de correlación de
Pearson mida la fuerza de la correlación.

Tests de Hipótesis para contrastar la existencia de correlación lineal:

• Si b es la pendiente del modelo de regresión, aceptar H0 : b = 0, H1 : b 6= 0


equivale a admitir que no hay correlación lineal. En ese caso, las variables
pueden ser incorreladas, o puede existir entre ellas una correlación de otro
tipo.

3
• Si ρ es el coeficiente de correlación de Pearson, aceptar H0 : ρ = 0, H1 : ρ 6= 0
equivale a admitir que no hay correlación lineal.
• Idem para el coeficiente de correlación de Spearman, rs .

4
REGRESION múltiple

En este caso hay una variable explicada Y , y varios regresores X1 , . . . , Xn , de


modo que el modelo que se intenta ajustar es

Y = a1 X1 + · · · + an Xn

Con mayor exactitud, Y = a1 X1 + · · · + an Xn + ², donde ² recibe, como en el


caso de la regresión simple, el nombre de residuo; las propiedades que esta
variable debe cumplir son las mismas que en el caso anterior. Además, se exige
también que las variables X1 , . . . , Xn no estén linealmente correlacionadas (ya
que, de otro modo, el modelo tendrı́a más variables de las necesarias). Cuando
dos de las variables Xi , Xj están linealmente correlacionadas, se dice que existe
multicolinealidad.

Para comprobar si el modelo de regresión múltiple se ajusta bien a un cierto


conjunto de observaciones, examinaremos si el coeficiente de determinación, o
R2 , es próximo a 100. Esto se traduce también en un cierto p-valor que permite
contrastar la hipótesis H0 : “no hay correlación lineal”, H1 : “hay correlación
lineal”.

S-ar putea să vă placă și