Documente Academic
Documente Profesional
Documente Cultură
Y
REGRESIÓN
LINEAL
Modelos de
Regresión
1 variable explicativa 2+ variables explicativas
Simple Múltiple
Por lo tanto, se
hacen necesarios
RELACIONADAS NO
métodos estadísticos RELACIONADAS
objetivos, ENTRE SÍ
ENTRE SÍ
independientes del
investigador, para
determinar la
VARIABLES VARIABLES
existencia o no de
relación y el tipo de DEPENDIENTES INDEPENDIENTES
la misma.
DEPENDENCIA DEPENDENCIA
FUNCIONAL ESTOCÁSTICA
ANÁLISIS DE ANÁLISIS DE
REGRESIÓN CORRELACIÓN
• El Análisis de regresión,
a.- ¿Cuál es el tipo de dependencia entre las dos variables?
b.- ¿Pueden estimarse los valores de Y a partir de los de X?. ¿Con qué
precisión?.
Por ejemplo:
𝑌 = 𝑎 + 𝑏𝑋
𝑌 = 𝑎 + 𝑏𝑋 + 𝑐𝑋2
En general,
21
Diagramas de dispersión o nube de
puntos
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama
de dispersión.
100
90
80 Pesa 76 kg.
70
30
140 150 160 170 180 190 200
22
Relación entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama
de dispersión.
100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
23
Predicción de una variable en
función de la otra
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.
100
90
80
70
10 kg.
60
50
10 cm.
40
30
140 150 160 170 180 190 200
24
Relación directa e inversa
330
110
280 Incorrelación Fuerte relación
230 90 directa.
180
70
130
80 50
30
140 150 160 170 180 190 200
30
140 150 160 170 180 190 200
Para tenemos valores de Y por encima y •Para los valores de X mayores que la media le
por debajo en proporciones similares. corresponden valores de Y mayores también.
Incorrelación.
valores de X por encima de la media •Para los valores de X menores que la media le
corresponden valores de Y menores también.
80
Cierta relación
inversa
•Esto se llama relación directa.
60
40
Para los valores de X mayores que la
20 media le corresponden valores de Y
menores. Esto es relación inversa o
0
140 150 160 170 180 190 200 decreciente.
25
¿Cuándo es bueno un modelo de regresión?
r= 0.415 • Lo adecuado del modelo depende de la
420
– La dispersión de Y condicionada a X
380
y
360
r^2 = 0.969
– La distribución de Y,
380
360
26
COVARIANZA
Propiedades: • No es adimensional
k
(x i − x )(y i − y )
Sxy = i=1
n
28
COVARIANZA
k
(x i − x )(y i − y )
i =1
Sxy =
n
Y - (xi - x )
+
(xi,yi) k
yi (x i − x )(y i − y )
(yi - y )
Sxy = i=1
y n
+ -
xi x X
0 ≤ 𝑟𝑥𝑦 ≤ 1
Hemos especificado los términos "valores absolutos"
ya que en realidad si se contempla el signo el
coeficiente de correlación de Pearson oscila entre –1
y +1. No obstante ha de indicarse que la magnitud
de la relación vienen especificada por el valor
numérico del coeficiente, reflejando el signo la
dirección de tal valor.
En este sentido, tan fuerte es una relación de +1
como de -1.
En el primer caso la relación es perfecta positiva y
en el segundo perfecta negativa.
El coeficiente de correlación de Pearson viene definido por
la siguiente expresión:
rxy = Sxy / Sx Sy
r>0 r<0 r 0
Propiedades de r
• Es adimensional
• Sólo toma valores en [-1,1]
• Las variables son incorreladas r=0
• Relación lineal perfecta entre dos variables r=+1 o r=-1
– Excluimos los casos de puntos alineados horiz. o verticalmente.
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de
relación lineal.
– Siempre que no existan observaciones anómalas.
-1 0 +1
Entrenando el ojo: correlaciones
positivas
330 130
280 110
230
90
180
70
130
50
80 r=0,1 r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,8 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Entrenando el ojo:
correlaciones negativas
90 80
80 70
70 60
60
50
50
40
40
30
30
20
20
r=-0,5 r=-0,7
10 10
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Animación: Evolución de r y diagrama
de dispersión
Evolución de r y diagrama de dispersión
Interpretación del coeficiente
de correlación
Como se ha indicado el coeficiente de correlación de
Pearson es un índice cuyos valores absolutos oscilan entre
0 y 1. Cuanto más cerca de 1 mayor ser la correlación, y
menor cuanto más cerca de cero. Pero como interpretar un
coeficiente determinado? ¿Qué significa un coeficiente de
0.6?. ¿Es alto o bajo?.
No puede darse una respuesta precisa. Depende en gran
parte de la naturaleza de la investigación. Por ejemplo, una
correlación de 0.6 sería baja si se trata de la fiabilidad de
un cierto test, pero sin embargo, sería alta si estamos
hablando de su validez.
La interpretación más interesante del coeficiente
de correlación es en términos de proporción de
variabilidad compartida o explicada, donde se
ofrece una idea más cabal de la magnitud de la
relación.
Nos referimos al coeficiente de determinación.
Dicho coeficiente se define como el cuadrado del
coeficiente de correlación; esto es, dada dos
2
variable X e Y, hace referencia a 𝑟𝑥𝑦 , y se
entiende como una proporción de variabilidades.
Por ejemplo, si la correlación entre inteligencia y
rendimiento académico es de 0.8, significa que
0.82=0.64 es la proporción de varianza compartida
entre ambas variables.
Puede interpretarse como que un 64% del
rendimiento académico es debido a la inteligencia -
variabilidad explicada-, o bien, y esto es más exacto
si hemos de ser estrictos, que inteligencia y
rendimiento académico comparten un 64% de
elementos, o lo que es lo mismo, tanto la inteligencia
como el rendimiento ponen en juego un 64% de
habilidades comunes.
En estas circunstancias, si tomamos como variable
dependiente o a explicar el rendimiento académico y
elegimos la inteligencia como variable predictora o
explicativa, tendremos que tal variable da cuenta de
un 64% de la variabilidad en rendimiento.
Queda, por ello, 1-0.64=0.36, un 36% del rendimiento
que queda sin explicar. A este valor (0.36) se le
denomina coeficiente de no determinación o
2 .
coeficiente de alienación, y se define como 1 − 𝑟𝑥𝑦
Un término más adecuado y que proporciona mayor
compresión es el de proporción de variabilidad no
explicada.
• Realice un ensayo acerca de Sir Francis
Galton.
• De la información recopilada acerca del peso,
estatura, edad, sexo, etc. del grupo de
Estadística:.
– Elabore un análisis exploratorio completo.
• Recuerde sus conocimientos de Estadística
Descriptiva.
– Para las variables estatura vs. peso; edad vs. estatura;
edad vs. peso:
• Grafique el diagrama de dispersión
• Calcule la covarianza
• Calcule el coeficiente de correlación de Pearson
• Elabore en un informe técnico, donde explique los
resultados.
MODELOS MATEMÁTICOS
Los modelos son idealizaciones que, mediante un proceso de
abstracción, sobre simplifican fenómenos complejos de la realidad. En
este sentido, los modelos se deben entender como aproximaciones a
fenómenos de la realidad; aproximaciones que permiten entender
cómo interactúan los diferentes componentes y variables de los
fenómenos de la realidad. En su expresión más básica, un modelo
matemático es una construcción expresada en términos de una
ecuación generalmente expresada de manera funcional
𝑌 = 𝑔(𝑋1 , 𝑋2 , … , 𝑋𝑝 ; 𝜃)
Tradicionalmente se acostumbra llamar variable dependiente a la
variable 𝑌 y variables independientes a las variables 𝑋1 , 𝑋2 , … , 𝑋𝑝 . La
cantidad 𝜃 se llama parámetro del modelo y denota un conjunto de
constantes, conocidas o desconocidas, que determinan instancias
particulares del modelo matemático. Veamos algunos ejemplos.
Ejemplo 1. La altura 𝑌 que se desplaza un objeto durante el tiempo de caída 𝑋 libre
cuando no existen fuerzas externas más que la aceleración de la gravedad 𝜃 está
dada por
𝜃𝑋 2
𝑌=
2
Ejemplo 2. Si 𝑌 denota la producción de cierto producto, 𝑋1 el insumo de trabajo y 𝑋2
el insumo capital, la función de producción de Cobb-Douglas establece que la
relación entre estas variables es de la siguiente forma
𝛽 𝛽
𝑌 = 𝛽1 𝑋1 2 𝑋2 3
𝑌 = 𝑔 𝑋1 , 𝑋2 , … , 𝑋𝑝 ; 𝜃 + 𝜀
En la ecuación anterior 𝑔 es una función que bien puede ser
conocida o desconocida, 𝜃 es una constante desconocida
llamada parámetro. La diferencia con el modelo matemático de
la sección anterior la hace el componente 𝜀. Este componente
es una variable aleatoria, llamada error, el cual supondremos
que satisface los siguientes supuestos:
• 𝐸 𝜀 = 0,
• 𝑉𝑎𝑟 𝜀 = 𝜎 2 .
En el modelo (1) 𝑌 es la suma de dos componentes, uno no aleatorio
dado por 𝑔 y el otro aleatorio dado por el error. La función
𝑔 𝑋1 , 𝑋2 , … , 𝑋𝑝 ; 𝜃 se llama función de regresión y es la parte de 𝑌 que
se puede explicar con las variables independientes 𝑋1 , 𝑋2 , … , 𝑋𝑝 .
Puesto que el término de error es aleatorio, entonces la variable
respuesta 𝑌 también es aleatoria.
En la especificación del modelo (1), el término de error 𝜀 aglutina la
variabilidad de la respuesta 𝑌 que no explican las variables
independientes. Además se considera que la variabilidad que describe
el error no se puede explicar, además de que es no observable.
En consecuencia de lo anterior, en un modelo estadístico de la forma
(1) no es posible predecir el valor de la variable dependiente en
función de los valores de las variables independientes, a diferencia de
un modelo matemático, como los vistos en la Sección anterior, en el
cual sí es posible la predicción sin error.
Del supuesto (i) se deriva que
𝐸 𝑌 𝑋1 = 𝑥1 , 𝑋2 = 𝑥2 , … , 𝑋𝑝 = 𝑥𝑝 = 𝑔 𝑥1 , 𝑥2 , … , 𝑥𝑝 ; 𝜃 .
Denotemos con 𝜇𝑌|𝑋1 =𝑥1 ,𝑋2 =𝑥2 ,…,𝑋𝑝 =𝑥𝑝 al valor esperado de 𝑌 como función de
los valores de las variables independientes, es decir,
𝜇𝑌|𝑋1 =𝑥1,𝑋2=𝑥2 ,…,𝑋𝑝=𝑥𝑝 = 𝑔 𝑥1 , 𝑥2 , … , 𝑥𝑝 ; 𝜃 ,
𝑌 = 𝑔 𝑥; 𝜃 + 𝜀.
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀.
Agregamos a esta especificación el error satisface los
supuestos 𝐸 𝜀 = 0 y (ii) 𝑉𝑎𝑟 𝜀 = 𝜎 2 . En el MRLS la
función de regresión está dada por
𝐸 𝑌|𝑋 = 𝑥 = 𝜇𝑌|𝑋=𝑥 = 𝑔 𝑥; 𝛽0 , 𝛽1 = 𝛽0 + 𝛽1 𝑥.
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 , 𝑖 = 1, … , 𝑛;
𝑛
𝑆 𝛽0 , 𝛽1 = 𝑦𝑖 − (𝛽0 + 𝛽1 𝑥𝑖 ) 2 .
𝑖=1
𝑠𝑦
𝛽መ1 = 𝑟 , y 𝛽መ0 = 𝑦ത − 𝛽መ1 𝑥,ҧ
𝑠𝑥
donde 𝑦,
ത 𝑥,ҧ 𝑠𝑦 , 𝑠𝑥 , y 𝑟 son las medias, desviaciones, estándar y coeficiente de
correlación de los datos:
1 𝑛 1 𝑛
𝑦ത = 𝑦𝑖 , 𝑥ҧ = 𝑥𝑖 ,
𝑛 𝑖=1 𝑛 𝑖=1
1 𝑛 1 𝑛
𝑠𝑦 = ത 2 ,
(𝑦𝑖 − 𝑦) 𝑠𝑥 = (𝑥𝑖 − 𝑥)ҧ 2 ,
𝑛 − 1 𝑖=1 𝑛 − 1 𝑖=1
y
1 𝑛 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത
𝑟= .
𝑛 𝑖=1 𝑠𝑥 𝑠𝑦
Llamamos estimadores a las expresiones que determinan a
𝛽መ0 y 𝛽መ1 . Llamaremos estimaciones a los valores de los
estimadores que se obtienen al calcularlos con un conjunto
de datos en particular. No debe causar confusión que se
utilice la misma notación para estimador y estimación, pero
sí es importante entender la diferencia entre estimador y
estimación.
La recta 𝑦ො = 𝛽መ0 + 𝛽መ1 𝑥 se llama la recta de mínimos
cuadrados, y el modelo ajustado es
𝑦𝑖 = 𝛽መ0 + 𝛽መ1 𝑥𝑖 + 𝑒𝑖 , 𝑖 = 1, … , 𝑛.
Las cantidades 𝑒𝑖
𝑒𝑖 = 𝑦𝑖 − (𝛽መ0 + 𝛽መ1 𝑥𝑖 ),
𝑠𝑦 8.54
𝛽መ1 = 𝑟 = 0.53 = 0.59,
𝑠𝑥 7.56
𝛽መ0 = 𝑦ത − 𝛽መ1 𝑥ҧ = 159.34 57.49 − 0.59 57.49 = 124.93;
170
estatura
160
150
140
130
45 55 65 75
peso
En el caso de no obtener la línea de regresión mediante
un software estadístico y trazarlas “a ojo”, “a mano
alzada”, resulta difícil determinar ¿cuál de ellas arroja el
modelo que mejor explica el comportamiento de ambas
variables?, o más aún, ¿cómo saber cuál es la línea que
expresará el mejor nivel de correlación?
X
Supuestos del MRL
Regresión 1
Error n-2
Total n-1
Con los datos entregados en clase,
elabore un informe donde presente los
resultados del ajuste del modelo de
regresión lineal simple y suba al aula
virtual.