Regresion

REGRESION simple
Correlación Lineal:
Dadas dos variable numéricas continuas X e Y , decimos que están correla-

cionadas si entre ambas variables hay cierta relación, de modo que puede
predecirse (aproximadamente) el valor de una de ellas conocido el valor de la
otra; en este sentido, decimos que la correlación es positiva si al aumentar
una de las variables aumenta también la otra, y negativa en caso contrario.
Si queremos predecir el valor de Y a partir de X, decimos que X es el regresor,

e Y la variable explicada. Si X e Y no están relacionadas en modo alguno,
decimos que son incorreladas.
Si X e Y están correlacionadas, tiene sentido buscar la “fórmula” que permita

aproximar una de ellas, digamos Y , conocida la otra. Según el tipo de fórmula
que mejor se adapte a los datos, hablamos de correlación lineal (Y = a+bX),
correlación cuadrática (Y = a + bx + cx2 ), exponencial (Y = abX ), etc.
En nuestro caso, nos centraremos en la correlación lineal.
Medida de la Correlación Lineal:
Para evaluar la fuerza de la correlación lineal entre dos variables X e Y , es

decir, la idoneidad de una aproximacón Y = a + bX, lo primero que haremos
será reunir datos del tipo (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ); es decir, mediremos los
valores de X e Y sobre n individuos de una cierta población; a un conjunto
de datos de este tipo se le llama una distribución bidimensional. A partir
de estos datos, calcularemos los siguientes parámetros, que permiten evaluar
distintos aspectos de la correlación lineal.
(1) Nube de Puntos: Es la representación gráfica de los datos (xi , yi ). La

forma de la región que configuran permite evaluar si hay o no correlación
entre las variables: si la nube de puntos se aproxima a una curva con forma
geométrica definida, hay correlación entre ambas; si la nube de puntos no
se aproxima a ninguna curva en particular (es decir, es más bien informe),
entonces son incorreladas. En el primer caso, la curva a la que se aproxime
la nube de puntos sugerirá el modelo a utilizar: lineal (Y = a + bX) si es
una recta, cuadrática (Y = a + bX + cX 2 ) si es una parábola, etc. En el caso
de la correlación lineal, la nube de puntos debe ser alargada, y próxima a
una recta “intermedia”.
(2) Covarianza: Es un parámetro que depende tanto de la fuerza de la cor-
relación lineal, como de la dispersión y el tamaño de las xi , por un lado, y
1
las yj , por otro. Cuanto más próxima esté a 0, más débil será la correlación
lineal entre las variables. Se calcula como:
P P
i=1,...,n (xi − x̄)(yi − ȳ) i=1,...,n xi yi
sxy = = − x̄ȳ
n n
Si la correlación es positiva, entonces sxy > 0; si es negativa, sxy < 0.

(3) Coeficiente de correlación lineal de Pearson:
sxy
ρ=
sx · sy
Se cumple que:
· Depende sólo de la fuerza de la correlación lineal.
· −1 ≤ ρ ≤ 1
· Si ρ > 0, la correlación es positiva; si ρ < 0, negativa.
· La correlación es tanto más fuerte cuanto más próximo esté ρ a 1 o −1.
(4) Coeficiente de correlación lineal de Spearman (o por Rangos): Es
más robusto que ρ (es decir, menos sensible a datos atı́picos). Si represen-
tamos por Rx , Ry los rangos de los xi , yj , respectivamente, entonces
sRx ,Ry
rs =
sRx · sRy
Sus propiedades son completamente análogas a las de ρ.
Modelo de Correlación Lineal:
Con más precisión, decimos que la relación entre dos variables X e Y puede
ser descrita a partir de un modelo lineal, cuando puede afirmarse que
Y = a + bX + ²
donde ² recibe el nombre de residuo, de modo que se cumple:
(i) La relación entre Y y X es lineal (es decir, la fórmula Y = a + bX aproxima

bien el valor de Y , conocido X)
(ii) La media de los residuos es 0.
(iii) Los residuos son normales.
(iv) La varianza de Y no depende del valor de X (homocedasticidad).
(v) Los residuos son aleatorios.
En resumen, ² = N (0, σ), donde σ recibe el nombre de error experimental,

y permite evaluar hasta qué punto pueden desviarse las predicciones, de los
valores reales.
2
Los valores a, b se estiman como:
sxy
b=
s2x
a = ȳ − b · x̄
donde x̄, ȳ son las medias de los xi , yj , respectivamente, y s2x es la varianza de

los xi . El parámetro a se llama ordenada, y b pendiente. En general, dado
un cierto valor xi , representaremos por ŷi el valor esperado de la variable Y ,
correspondiente al valor xi de la variable X, conforme al modelo anterior; es
decir,
ŷi = a + bxi
Se tiene que ²i = yi − ŷi (el valor “real” menos el “predicho”).
Variabilidad y Correlación Lineal:
Puede realizarse una descomposición de la variabilidad de la variable Y similar

a la del ANOVA simple, a partir del modelo anterior. Concretamente, si ȳ
representa la media de la variable Y , entonces:
X X X
(yi − ȳ)2 = (yi − ŷi )2 + (ŷi − ȳ)2
| {z } | {z } | {z }
SCT SCR SCE
Se llama coeficiente de determinación o R2 , a

SCE
R2 = × 100
SCT
Este coeficiente debe entenderse como el porcentaje de variabilidad de los
datos que está siendo explicado por el modelo (de hecho, si el modelo es
bueno ŷi , yi serán muy similares, luego SCR será próxima a cero. Si R2 es
suficientemente grande, entonces entenderemos que el modelo Y = a+bX está
explicando bien la variabilidad encontrada, y por tanto que se ajusta bien a
los datos. En particular, cuanto más próximo a 100 sea R2 , más fuerte será
la correlación lineal. Además, aplicando técnicas similares a las del ANOVA,
podemos producir un p-valor para la hipótesis H0 : “no hay correlación lin-
eal”, frente a la alternativa H1 : “hay correlación lineal”. Finalmente, R2 es
exactamente igual al cuadrado del coeficiente de correlación lineal de Pearson,
multiplicado por 100; de ahı́ el hecho de que el coeficiente de correlación de
Pearson mida la fuerza de la correlación.
Tests de Hipótesis para contrastar la existencia de correlación lineal:
• Si b es la pendiente del modelo de regresión, aceptar H0 : b = 0, H1 : b 6= 0

equivale a admitir que no hay correlación lineal. En ese caso, las variables
pueden ser incorreladas, o puede existir entre ellas una correlación de otro
tipo.
3
• Si ρ es el coeficiente de correlación de Pearson, aceptar H0 : ρ = 0, H1 : ρ 6= 0
equivale a admitir que no hay correlación lineal.
• Idem para el coeficiente de correlación de Spearman, rs .
4
REGRESION múltiple
En este caso hay una variable explicada Y , y varios regresores X1 , . . . , Xn , de

modo que el modelo que se intenta ajustar es
Y = a1 X1 + · · · + an Xn
Con mayor exactitud, Y = a1 X1 + · · · + an Xn + ², donde ² recibe, como en el

caso de la regresión simple, el nombre de residuo; las propiedades que esta
variable debe cumplir son las mismas que en el caso anterior. Además, se exige
también que las variables X1 , . . . , Xn no estén linealmente correlacionadas (ya
que, de otro modo, el modelo tendrı́a más variables de las necesarias). Cuando
dos de las variables Xi , Xj están linealmente correlacionadas, se dice que existe
multicolinealidad.
Para comprobar si el modelo de regresión múltiple se ajusta bien a un cierto

conjunto de observaciones, examinaremos si el coeficiente de determinación, o
R2 , es próximo a 100. Esto se traduce también en un cierto p-valor que permite
contrastar la hipótesis H0 : “no hay correlación lineal”, H1 : “hay correlación
lineal”.

Regresion

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresion

Încărcat de

Drepturi de autor:

Formate disponibile

REGRESION simple

Dadas dos variable numéricas continuas X e Y , decimos que están correla-

Si queremos predecir el valor de Y a partir de X, decimos que X es el regresor,

Si X e Y están correlacionadas, tiene sentido buscar la “fórmula” que permita

Medida de la Correlación Lineal:

Para evaluar la fuerza de la correlación lineal entre dos variables X e Y , es

(1) Nube de Puntos: Es la representación gráfica de los datos (xi , yi ). La

Si la correlación es positiva, entonces sxy > 0; si es negativa, sxy < 0.

Sus propiedades son completamente análogas a las de ρ.

Modelo de Correlación Lineal:

donde ² recibe el nombre de residuo, de modo que se cumple:

(i) La relación entre Y y X es lineal (es decir, la fórmula Y = a + bX aproxima

En resumen, ² = N (0, σ), donde σ recibe el nombre de error experimental,

donde x̄, ȳ son las medias de los xi , yj , respectivamente, y s2x es la varianza de

Variabilidad y Correlación Lineal:

Puede realizarse una descomposición de la variabilidad de la variable Y similar

Se llama coeficiente de determinación o R2 , a

Tests de Hipótesis para contrastar la existencia de correlación lineal:

• Si b es la pendiente del modelo de regresión, aceptar H0 : b = 0, H1 : b 6= 0

En este caso hay una variable explicada Y , y varios regresores X1 , . . . , Xn , de

Con mayor exactitud, Y = a1 X1 + · · · + an Xn + ², donde ² recibe, como en el

Para comprobar si el modelo de regresión múltiple se ajusta bien a un cierto

S-ar putea să vă placă și