Sunteți pe pagina 1din 73

CORRELACIÓN

Y
REGRESIÓN
LINEAL

CAPÍTULO IV Modelos de Regresión


¿Qué vamos a estudiar?
• En este capítulo vamos a tratar diferentes formas de
describir la relación entre dos variables cuando estas son
numéricas.
– Estudiar si hay relación entre la altura y el peso.
• Haremos mención a otros casos:
– Alguna de las variables es ordinal.
• Estudiar la relación entre el sobrepeso y el dolor
de espalda (ordinal)
– Hay más de dos variables relacionadas.
• ¿Conocer el peso de una persona conociendo
su altura y contorno de cintura?
• El estudio conjunto de dos variables cualitativas lo
aplazamos hasta que veamos contrastes de hipótesis (X2).
– ¿Hay relación entre fumar y padecer enfermedad de
pulmón?
Regresión es una palabra un tanto rara. La utilizan los biólogos, los médicos,
los psicólogos... y suena como "ir hacia atrás", "volver al pasado", y realmente
este es el verdadero significado del vocablo.
SIR FRANCIS GALTON, fue un biólogo y estadístico inglés,
quien introdujo en 1889 el término Regresión en
Estadística.
Empleó este concepto para indicar la relación que existía
entre la estatura de los niños de una muestra y la estatura
de su padre. Observó, que si los padres son altos, los hijos
generalmente también lo son, y si los padres son bajos los
hijos son también de menor estatura. Pero ocurría un hecho
curioso: cuando el padre es muy alto o muy bajo, aparece
una perceptible "regresión" hacia la estatura media de la
población, de modo que sus hijos retroceden hacia la media
de la que sus padres, por cierto, están muy alejados. Hoy
día, el término no se utiliza en ese sentido.
El estudio lo continúa Karl Pearson

– Pearson , amigo y discípulo de Galton realizó


un estudio con más de 1000 registros de
grupos familiares observando una relación del
tipo:

• Altura del hijo = 85cm + altura del padre


(aprox.)

• Conclusión: los padres muy altos tienen


tendencia a tener hijos que heredan parte de
esta altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse
de los padres muy bajos.

• Hoy en día el sentido de regresión es el de


predicción de una medida basándonos
en el conocimiento de otra.
Modelos de Análisis de Regresión

Modelos de
Regresión
1 variable explicativa 2+ variables explicativas

Simple Múltiple

Lineal No lineal Lineal No lineal


El análisis de regresión es una técnica estadística para investigar y
modelar la relación entre variables. Son numerosas las aplicaciones de
la regresión, y las hay en casi cualquier campo, incluyendo en
ingeniería, ciencias físicas y químicas, economía, administración,
ciencias biológicas y de la vida y en las ciencias sociales.
De hecho, puede ser que el análisis de regresión sea la técnica
estadística más usada.
Como ejemplo de un problema en el que puede ser de utilidad el
análisis de regresión, supongamos que un ingeniero industrial,
empleado por un embotellador de refrescos, analiza las operaciones
de entrega y servicio de producto en máquinas tragamonedas.
Cree que el tiempo utilizado por un repartidor, en cargar y dar servicio
a una máquina, se relaciona con la cantidad de cajas de producto
entregadas. El ingeniero visita 25 tiendas de menudeo, escogidas al
azar, con máquinas tragamonedas, y anota el tiempo de entrega en la
tienda (en minutos) y el volumen del producto entregado (en cajas),
para cada una.
DOS VARIABLES
CUANTITATIVAS

Por lo tanto, se
hacen necesarios
RELACIONADAS NO
métodos estadísticos RELACIONADAS
objetivos, ENTRE SÍ
ENTRE SÍ
independientes del
investigador, para
determinar la
VARIABLES VARIABLES
existencia o no de
relación y el tipo de DEPENDIENTES INDEPENDIENTES
la misma.

DEPENDENCIA DEPENDENCIA
FUNCIONAL ESTOCÁSTICA

ANÁLISIS DE ANÁLISIS DE
REGRESIÓN CORRELACIÓN

¿PUEDEN ESTIMARSE ¿EXISTE


¿CUÁL ES EL TIPO DEPENDENCIA ¿CUÁL ES EL
LOS VALORES DE
DE DEPENDENCIA? GRADO DE
Y A PARTIR DE LOS ESTOCÁSTICA
DEPENDENCIA?
DE X? ENTRE LAS
VARIABLES?
¿CUÁNDO EXISTE REGRESIÓN?

• Lo primero que suele hacerse para ver si dos


variables aleatorias están relacionadas o no (de
ahora en adelante las llamaremos X e Y, denotando
con Y a la variable dependiente, y X a la variable
independiente o regresora)

• Deberemos distinguir entre dependencia funcional y


dependencia estocástica. En el primer caso la
relación es perfecta: Y=f(X); es decir, los puntos del
diagrama de dispersión correspondiente, aparecen
sobre la función Y=f(X).
El caso de la figura
a) se corresponde
con el de ausencia
de relación, o
independencia.
• En la dependencia estocástica, se distinguen dos tipos de técnicas:
1.- Análisis de Regresión
2.- Análisis de Correlación

• El Análisis de regresión,
a.- ¿Cuál es el tipo de dependencia entre las dos variables?
b.- ¿Pueden estimarse los valores de Y a partir de los de X?. ¿Con qué
precisión?.

• El Análisis de correlación, tiene como fin dar respuesta a las


preguntas:
a.- ¿Existe dependencia estocástica entre las variables?
b.- ¿Cuál es el grado de dicha dependencia?
Si existe regresión, a la ecuación que nos describe la
relación entre las dos variables la denominamos
ecuación de regresión.

Por ejemplo:
𝑌 = 𝑎 + 𝑏𝑋
𝑌 = 𝑎 + 𝑏𝑋 + 𝑐𝑋2
En general,

❑ La variable X se conoce como variable


independiente, y
❑ La Y como variable dependiente.
Hay muchos casos en los que ya de antemano se "sospecha" que
puede existir algún tipo de relación, y por consiguiente, se pretende
saber por ejemplo, en el caso de que tengamos únicamente dos
variables:

1.- Si ambas variables están realmente relacionadas entre sí o si, por


el contrario, pueden considerarse independientes.

2.- Si existe dependencia, es necesario conocer el "grado de relación",


así como el "tipo" de relación entre ambas.

3.- Si puede predecirse la variable que es considerada como


dependiente a partir de los valores de la otra, que es considerada
independiente, y si es así, con qué precisión.
El análisis de regresión permite identificar y modelar las relación entre dos o
más variables, con la finalidad de obtener información de una de ellas para
concluir sobre el comportamiento de la otra o las otras.
Cuando son dos variables continuas las que se encuentran bajo estudio, y trata
de estimarse su nivel de asociación, se pueden presentar diferentes situaciones:

1. En la medida en que una variable se incrementa la otra también lo hace.


2. A medida que una variable se incrementa la otra disminuye.
3. Los cambios en una variable son completamente ajenos a los cambios en la
otra variable.
Estos comportamientos de la asociación entre variables, suelen explicarse
matemáticamente en términos de correlación.

La correlación mide el grado de asociación entre dos


variables en términos lineales.
Tipos de Correlación
Correlación Positiva
Visualmente, el comportamiento de los datos representa una recta
creciente, asociada a las dos variables bajo estudio.
Correlación Negativa
Visualmente, el comportamiento de los datos representa una recta
decreciente, asociada a las dos variables bajo estudio.
Correlación Nula
Visualmente, el comportamiento de los datos no puede asociarse a una
recta por su gran dispersión.
Grado de Correlación
Correlación Fuerte
Mientras más cercanos estén los puntos a la recta más fuerte será la
correlación.
Correlación Débil
Mientras más separados estén los puntos a la recta más débil será la
correlación.
Correlación Nula
Se percibe una correlación nula cuando los puntos tienen una forma
redondeada.
Una manera rápida y visual de identificar el nivel y tipo de
correlación es mediante el gráfico de dispersión, que nos
permitirá:

1. Identificar si existe o no un nivel de asociación entre las


variables.
2. Determinar el tipo de correlación expresada en el gráfico:
positiva, negativa o nula.
3. Identificar el nivel de proximidad entre los datos; es decir,
el grado de correlación: fuerte, débil o nula
4. Diseñaruna estrategia metodológica de análisis que
confirme lo expresado por el diagrama de dispersión.
DIAGRAMA DE DISPERSIÓN
• A la derecha tenemos una posible manera de recoger los
datos obtenido observando dos variables en varios
individuos de una muestra.
Altura Peso
en cm. en Kg.
– En cada fila tenemos los datos de un individuo
162 61
– Cada columna representa los valores que toma una variable 154 60
sobre los mismos. 180 78
158 62
– Las individuos no se muestran en ningún orden particular.
171 66
169 60
• Dichas observaciones pueden ser representadas en un
diagrama de dispersión (‘scatterplot’). En ellos, cada 166 54
individuos es un punto cuyas coordenadas son los valores 176 84
de las variables. 163 68
... ...
• Nuestro objetivo será intentar reconocer a partir del
mismo si hay relación entre las variables, de qué tipo, y si
es posible predecir el valor de una de ellas en función de
la otra.

21
Diagramas de dispersión o nube de
puntos
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama
de dispersión.
100

90

80 Pesa 76 kg.
70

Mide 187 cm.


60
Pesa 50 kg.
50

40 Mide 161 cm.

30
140 150 160 170 180 190 200

22
Relación entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama
de dispersión.

100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
23
Predicción de una variable en
función de la otra
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.

100
90
80
70
10 kg.
60
50
10 cm.
40
30
140 150 160 170 180 190 200
24
Relación directa e inversa
330
110
280 Incorrelación Fuerte relación
230 90 directa.
180
70
130

80 50

30
140 150 160 170 180 190 200
30
140 150 160 170 180 190 200

Para tenemos valores de Y por encima y •Para los valores de X mayores que la media le
por debajo en proporciones similares. corresponden valores de Y mayores también.
Incorrelación.
valores de X por encima de la media •Para los valores de X menores que la media le
corresponden valores de Y menores también.
80
Cierta relación
inversa
•Esto se llama relación directa.
60

40
Para los valores de X mayores que la
20 media le corresponden valores de Y
menores. Esto es relación inversa o
0
140 150 160 170 180 190 200 decreciente.

25
¿Cuándo es bueno un modelo de regresión?
r= 0.415 • Lo adecuado del modelo depende de la
420

r^2 = 0.172 relación entre:


– la dispersión marginal de Y
400

– La dispersión de Y condicionada a X
380
y

360

• Es decir, fijando valores de X, vemos


cómo se distribuye Y
340
320

– La distribución de Y, para valores


150 160 170 180 190 fijados de X, se denomina distribución
r= 0.984 condicionada.
390

r^2 = 0.969

– La distribución de Y,
380

independientemente del valor de X, se


denomina distribución marginal.
370
y

360

• Si la dispersión se reduce notablemente,


el modelo de regresión será adecuado.
350

150 160 170 180 190

26
COVARIANZA
Propiedades: • No es adimensional

• El signo refleja el tipo de covarianza ( + , -)


• La magnitud muestra el grado de relación

k
 (x i − x )(y i − y )
Sxy = i=1
n

La covarianza arrastra las unidades de las


dos variables
Covarianza de dos variables X e Y

• La covarianza entre dos variables, Sxy, nos indica si


la posible relación entre dos variables es directa o
inversa.
– Directa: Sxy >0 1
– Inversa: Sxy <0 S xy =  ( xi − x )( yi − y )
– Incorreladas: Sxy =0
n i

• El signo de la covarianza nos dice si el aspecto de la


nube de puntos es creciente o no, pero no nos dice
nada sobre el grado de relación entre las variables.

28
COVARIANZA
k
 (x i − x )(y i − y )
i =1
Sxy =
n

RELACION DIRECTA RELACION INVERSA INCORRELACIONADAS

Sxy > 0 Sxy < 0 Sxy  0


COVARIANZA

Y - (xi - x )
+
(xi,yi) k
yi  (x i − x )(y i − y )
(yi - y )
Sxy = i=1
y n

+ -
xi x X

Para esta nube de puntos la covarianza es negativa


COEFICIENTE DE CORRELACIÓN
LINEAL DE PEARSON

El coeficiente de correlación de Pearson,


pensado para variables cuantitativas (escala
mínima de intervalo), es un índice que mide el
grado de covariación entre distintas variables
relacionadas linealmente. Adviértase que
decimos "variables relacionadas linealmente".
COEFICIENTE DE CORRELACIÓN
LINEAL DE PEARSON

El coeficiente de correlación de Pearson es un


índice de fácil ejecución e, igualmente, de fácil
interpretación. Digamos, en primera instancia, que
sus valores absolutos oscilan entre 0 y 1.
Esto es, si tenemos dos variables 𝑋 e 𝑌, y definimos
el coeficiente de correlación de Pearson entre estas
dos variables como 𝑟𝑥𝑦 entonces:

0 ≤ 𝑟𝑥𝑦 ≤ 1
Hemos especificado los términos "valores absolutos"
ya que en realidad si se contempla el signo el
coeficiente de correlación de Pearson oscila entre –1
y +1. No obstante ha de indicarse que la magnitud
de la relación vienen especificada por el valor
numérico del coeficiente, reflejando el signo la
dirección de tal valor.
En este sentido, tan fuerte es una relación de +1
como de -1.
En el primer caso la relación es perfecta positiva y
en el segundo perfecta negativa.
El coeficiente de correlación de Pearson viene definido por
la siguiente expresión:

rxy = Sxy / Sx Sy

El coeficiente de correlación de Pearson hace referencia a la media de


los productos cruzados de las puntuaciones estandarizadas de X y de Y.
Las puntuaciones estandarizadas muestran, precisamente, la posición
en desviaciones tipo de un individuo respecto a su media. Reflejan la
medida en que dicho individuo se separa de la media.
En este sentido, supongamos que para cada individuo tomamos dos
medidas en X e Y.
COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON

r<0 Relación lineal inversa

rxy = Sxy / Sx Sy r>0 Relación lineal directa


Variables independientes
r=0
Relación no lineal

RELACIÓN LINEAL RELACIÓN LINEAL VARIABLES


DIRECTA INVERSA INDEPENDIENTES

r>0 r<0 r 0
Propiedades de r
• Es adimensional
• Sólo toma valores en [-1,1]
• Las variables son incorreladas  r=0
• Relación lineal perfecta entre dos variables  r=+1 o r=-1
– Excluimos los casos de puntos alineados horiz. o verticalmente.
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de
relación lineal.
– Siempre que no existan observaciones anómalas.

-1 0 +1
Entrenando el ojo: correlaciones
positivas
330 130

280 110
230
90
180
70
130
50
80 r=0,1 r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,8 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Entrenando el ojo:
correlaciones negativas
90 80
80 70
70 60
60
50
50
40
40
30
30
20
20
r=-0,5 r=-0,7
10 10
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Animación: Evolución de r y diagrama
de dispersión
Evolución de r y diagrama de dispersión
Interpretación del coeficiente
de correlación
Como se ha indicado el coeficiente de correlación de
Pearson es un índice cuyos valores absolutos oscilan entre
0 y 1. Cuanto más cerca de 1 mayor ser la correlación, y
menor cuanto más cerca de cero. Pero como interpretar un
coeficiente determinado? ¿Qué significa un coeficiente de
0.6?. ¿Es alto o bajo?.
No puede darse una respuesta precisa. Depende en gran
parte de la naturaleza de la investigación. Por ejemplo, una
correlación de 0.6 sería baja si se trata de la fiabilidad de
un cierto test, pero sin embargo, sería alta si estamos
hablando de su validez.
La interpretación más interesante del coeficiente
de correlación es en términos de proporción de
variabilidad compartida o explicada, donde se
ofrece una idea más cabal de la magnitud de la
relación.
Nos referimos al coeficiente de determinación.
Dicho coeficiente se define como el cuadrado del
coeficiente de correlación; esto es, dada dos
2
variable X e Y, hace referencia a 𝑟𝑥𝑦 , y se
entiende como una proporción de variabilidades.
Por ejemplo, si la correlación entre inteligencia y
rendimiento académico es de 0.8, significa que
0.82=0.64 es la proporción de varianza compartida
entre ambas variables.
Puede interpretarse como que un 64% del
rendimiento académico es debido a la inteligencia -
variabilidad explicada-, o bien, y esto es más exacto
si hemos de ser estrictos, que inteligencia y
rendimiento académico comparten un 64% de
elementos, o lo que es lo mismo, tanto la inteligencia
como el rendimiento ponen en juego un 64% de
habilidades comunes.
En estas circunstancias, si tomamos como variable
dependiente o a explicar el rendimiento académico y
elegimos la inteligencia como variable predictora o
explicativa, tendremos que tal variable da cuenta de
un 64% de la variabilidad en rendimiento.
Queda, por ello, 1-0.64=0.36, un 36% del rendimiento
que queda sin explicar. A este valor (0.36) se le
denomina coeficiente de no determinación o
2 .
coeficiente de alienación, y se define como 1 − 𝑟𝑥𝑦
Un término más adecuado y que proporciona mayor
compresión es el de proporción de variabilidad no
explicada.
• Realice un ensayo acerca de Sir Francis
Galton.
• De la información recopilada acerca del peso,
estatura, edad, sexo, etc. del grupo de
Estadística:.
– Elabore un análisis exploratorio completo.
• Recuerde sus conocimientos de Estadística
Descriptiva.
– Para las variables estatura vs. peso; edad vs. estatura;
edad vs. peso:
• Grafique el diagrama de dispersión
• Calcule la covarianza
• Calcule el coeficiente de correlación de Pearson
• Elabore en un informe técnico, donde explique los
resultados.
MODELOS MATEMÁTICOS
Los modelos son idealizaciones que, mediante un proceso de
abstracción, sobre simplifican fenómenos complejos de la realidad. En
este sentido, los modelos se deben entender como aproximaciones a
fenómenos de la realidad; aproximaciones que permiten entender
cómo interactúan los diferentes componentes y variables de los
fenómenos de la realidad. En su expresión más básica, un modelo
matemático es una construcción expresada en términos de una
ecuación generalmente expresada de manera funcional
𝑌 = 𝑔(𝑋1 , 𝑋2 , … , 𝑋𝑝 ; 𝜃)
Tradicionalmente se acostumbra llamar variable dependiente a la
variable 𝑌 y variables independientes a las variables 𝑋1 , 𝑋2 , … , 𝑋𝑝 . La
cantidad 𝜃 se llama parámetro del modelo y denota un conjunto de
constantes, conocidas o desconocidas, que determinan instancias
particulares del modelo matemático. Veamos algunos ejemplos.
Ejemplo 1. La altura 𝑌 que se desplaza un objeto durante el tiempo de caída 𝑋 libre
cuando no existen fuerzas externas más que la aceleración de la gravedad 𝜃 está
dada por
𝜃𝑋 2
𝑌=
2
Ejemplo 2. Si 𝑌 denota la producción de cierto producto, 𝑋1 el insumo de trabajo y 𝑋2
el insumo capital, la función de producción de Cobb-Douglas establece que la
relación entre estas variables es de la siguiente forma

𝛽 𝛽
𝑌 = 𝛽1 𝑋1 2 𝑋2 3

Ejemplo 3. La curva de Gompertz es una función que se utiliza para describir el


crecimiento de poblaciones biológicas 𝑌 en espacios confinados a lo largo del tiempo
𝑋, también el crecimiento de tumores 𝑌 en función del tiempo 𝑋. La curva de
Gompertz está dada por
−𝑐𝑋
𝑌 = 𝑎𝑒 −𝑏𝑒 , 𝑏, 𝑐 > 0
MODELOS ESTADÍSTICOS
Un modelo estadístico aditivo es una ecuación que relaciona
una variable 𝑌, llamada variable dependiente o variable
respuesta, con un conjunto de variables 𝑋1 , 𝑋2 , … , 𝑋𝑝 , llamadas
variables independientes o explicatorias, de la siguiente forma

𝑌 = 𝑔 𝑋1 , 𝑋2 , … , 𝑋𝑝 ; 𝜃 + 𝜀
En la ecuación anterior 𝑔 es una función que bien puede ser
conocida o desconocida, 𝜃 es una constante desconocida
llamada parámetro. La diferencia con el modelo matemático de
la sección anterior la hace el componente 𝜀. Este componente
es una variable aleatoria, llamada error, el cual supondremos
que satisface los siguientes supuestos:
• 𝐸 𝜀 = 0,
• 𝑉𝑎𝑟 𝜀 = 𝜎 2 .
En el modelo (1) 𝑌 es la suma de dos componentes, uno no aleatorio
dado por 𝑔 y el otro aleatorio dado por el error. La función
𝑔 𝑋1 , 𝑋2 , … , 𝑋𝑝 ; 𝜃 se llama función de regresión y es la parte de 𝑌 que
se puede explicar con las variables independientes 𝑋1 , 𝑋2 , … , 𝑋𝑝 .
Puesto que el término de error es aleatorio, entonces la variable
respuesta 𝑌 también es aleatoria.
En la especificación del modelo (1), el término de error 𝜀 aglutina la
variabilidad de la respuesta 𝑌 que no explican las variables
independientes. Además se considera que la variabilidad que describe
el error no se puede explicar, además de que es no observable.
En consecuencia de lo anterior, en un modelo estadístico de la forma
(1) no es posible predecir el valor de la variable dependiente en
función de los valores de las variables independientes, a diferencia de
un modelo matemático, como los vistos en la Sección anterior, en el
cual sí es posible la predicción sin error.
Del supuesto (i) se deriva que

𝐸 𝑌 𝑋1 = 𝑥1 , 𝑋2 = 𝑥2 , … , 𝑋𝑝 = 𝑥𝑝 = 𝑔 𝑥1 , 𝑥2 , … , 𝑥𝑝 ; 𝜃 .

Denotemos con 𝜇𝑌|𝑋1 =𝑥1 ,𝑋2 =𝑥2 ,…,𝑋𝑝 =𝑥𝑝 al valor esperado de 𝑌 como función de
los valores de las variables independientes, es decir,
𝜇𝑌|𝑋1 =𝑥1,𝑋2=𝑥2 ,…,𝑋𝑝=𝑥𝑝 = 𝑔 𝑥1 , 𝑥2 , … , 𝑥𝑝 ; 𝜃 ,

entonces el modelo aditivo postula que

𝑌 = 𝜇𝑌|𝑋1=𝑥1 ,𝑋2 =𝑥2,…,𝑋𝑝 =𝑥𝑝 + 𝜀.


De modo que lo que sí podemos predecir sin error en el modelo estadístico
(1) es el valor esperado de la variable respuesta 𝑌 una vez que se han dado
los valores de las variables independientes, siempre y cuando la función 𝑔
sea conocida completamente. Predecir un valor esperado (un promedio) es
el tipo de predicción que generalmente se puede hacer en la estadística.
Supongamos que sólo se tiene una variable explicatoria 𝑋.
En este caso el modelo es:

𝑌 = 𝑔 𝑥; 𝜃 + 𝜀.

De manera que la función de regresión está dada por


𝐸 𝑌 𝑋 = 𝑥 = 𝑔 𝑥; 𝜃 y la varianza de la variable
respuesta es 𝑉𝑎𝑟 𝑌 𝑋 = 𝑥 = 𝜎 2 . El estadístico enfrenta
el problema de especificar la forma de la función de
regresión 𝑔 𝑥; 𝜃 .Desafortunadamente, el número posible
de funciones que se pueden usar es demasiado grande,
por lo que una opción es recurrir a formas relativamente
simples para 𝑔 𝑥; 𝜃 .
Afortunadamente, en muchas situaciones en la realidad,
una función lineal describirá satisfactoriamente el patrón
de variabilidad entre las variables 𝑋 y 𝑌 (un diagrama de
dispersión puede muy útil para evaluar la linealidad de la
relación entre las variables 𝑋 y 𝑌). En estas situaciones el
modelo de regresión lineal simple (MRLS) podrá
proporcionar una aproximación empírica útil para describir
la relación entre las variables 𝑋 y 𝑌.
El MRLS se da por la siguiente especificación:

𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀.
Agregamos a esta especificación el error satisface los
supuestos 𝐸 𝜀 = 0 y (ii) 𝑉𝑎𝑟 𝜀 = 𝜎 2 . En el MRLS la
función de regresión está dada por

𝐸 𝑌|𝑋 = 𝑥 = 𝜇𝑌|𝑋=𝑥 = 𝑔 𝑥; 𝛽0 , 𝛽1 = 𝛽0 + 𝛽1 𝑥.

El parámetro en la función de regresión está


conformado por el intercepto y la pendiente de la
función de regresión, es decir 𝜃 = 𝛽0 , 𝛽1 . El otro
parámetro del modelo es la varianza de la variable
respuesta 𝜎 2 .
En la práctica se observarán realizaciones de las
variables (𝑌, 𝑋) , es decir, se observarán datos
tienen datos de la siguiente forma:
Tabla 1. Datos para un análisis de
regresión con una variable explicatoria.
Variable Variable
independiente dependiente
𝑥1 𝑦1
𝑥2 𝑦2
⋮ ⋮
𝑥𝑛 𝑦𝑛
Para aplicar el MRLS a los datos de la Tabla 1 se
postula que éste describe adecuadamente a la relación
entre la variable dependiente y la variable independiente

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 , 𝑖 = 1, … , 𝑛;

además se hacen los siguientes supuestos sobre el


error
𝐸 𝜀𝑖 = 0
𝑉𝑎𝑟 𝜀𝑖 = 𝜎 2
𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝜀𝑖 , 𝜀𝑗 = 0
Como ya hemos visto, el primer supuesto tiene
como consecuencia que el valor esperado de la
variable respuesta 𝑌 dado un valor de la variable
explicatoria 𝑋 = 𝑥 esté dado precisamente por la
función de regresión.
El segundo supuesto es el de homogeneidad de
varianza.
El tercer supuesto dice que los errores están
incorrelacionados. Lo que implica que los valores
de las diferentes realizaciones de la variable 𝑌
están incorrelacionados.
En la práctica, los parámetros de la función de
regresión, 𝛽0 y 𝛽1 , y la varianza 𝜎 2 de la variable
respuesta, son desconocidos. Por lo tanto los tres
parámetros deben estimarse usando los datos.
Ajustar el MRLS, y en general cualquier modelo
estadístico, significa usar los datos para proponer
valores para los parámetros desconocidos del
modelo. Existen varios métodos de estimación de
los parámetros de un modelo de regresión. En la
siguiente sección veremos uno de los métodos de
estimación más usados para el MRLS.
Estimadores de Mínimos Cuadrados
Los estimadores de mínimos cuadrados, denotados 𝛽መ0 y
𝛽መ1 ,son los valores que minimizan la siguiente suma de
diferencias al cuadrado

𝑛
𝑆 𝛽0 , 𝛽1 = ෍ 𝑦𝑖 − (𝛽0 + 𝛽1 𝑥𝑖 ) 2 .
𝑖=1

Es decir, la función 𝑆 𝛽0 , 𝛽1 alcanza su valor mínimo en


𝑆 𝛽መ0 , 𝛽መ1 .
Los estimadores de mínimos cuadrados de 𝛽0 y 𝛽1 tienen expresiones cerradas y están
dadas por

𝑠𝑦
𝛽መ1 = 𝑟 , y 𝛽መ0 = 𝑦ത − 𝛽መ1 𝑥,ҧ
𝑠𝑥
donde 𝑦,
ത 𝑥,ҧ 𝑠𝑦 , 𝑠𝑥 , y 𝑟 son las medias, desviaciones, estándar y coeficiente de
correlación de los datos:

1 𝑛 1 𝑛
𝑦ത = ෍ 𝑦𝑖 , 𝑥ҧ = ෍ 𝑥𝑖 ,
𝑛 𝑖=1 𝑛 𝑖=1

1 𝑛 1 𝑛
𝑠𝑦 = ത 2 ,
෍ (𝑦𝑖 − 𝑦) 𝑠𝑥 = ෍ (𝑥𝑖 − 𝑥)ҧ 2 ,
𝑛 − 1 𝑖=1 𝑛 − 1 𝑖=1

y
1 𝑛 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത
𝑟= ෍ .
𝑛 𝑖=1 𝑠𝑥 𝑠𝑦
Llamamos estimadores a las expresiones que determinan a
𝛽መ0 y 𝛽መ1 . Llamaremos estimaciones a los valores de los
estimadores que se obtienen al calcularlos con un conjunto
de datos en particular. No debe causar confusión que se
utilice la misma notación para estimador y estimación, pero
sí es importante entender la diferencia entre estimador y
estimación.
La recta 𝑦ො = 𝛽መ0 + 𝛽መ1 𝑥 se llama la recta de mínimos
cuadrados, y el modelo ajustado es

𝑦𝑖 = 𝛽መ0 + 𝛽መ1 𝑥𝑖 + 𝑒𝑖 , 𝑖 = 1, … , 𝑛.
Las cantidades 𝑒𝑖

𝑒𝑖 = 𝑦𝑖 − (𝛽መ0 + 𝛽መ1 𝑥𝑖 ),

son las discrepancias entre lo observado y el modelo


ajustado, estas cantidades se llaman residuos. En la
siguiente sección veremos cómo se utilizan los residuos
para estimar la varianza de la variable explicatoria. Los
residuos también dan mucha información para evaluar que
tan razonable es hacer los supuestos del modelo ajustado.
Esta tabla presenta los pesos y estaturas de 59
estudiantes mujeres
Tabla 2.de la licenciatura
Pesos en59
y estaturas de Geografía:
mujeres
estudiantes de Geografía.
Peso Est Peso Est Peso Est Peso Est Peso Est Peso Est
60 168 50 162 60 160 56 170 64 164 79 164
50 151 54 152 45 150 54 152 56 158 50 162
48 148 62 171 51 148 63 163 58 164 60 153
61 163 69 170 65 170 55 165 52 152 52 150
79 164 56 158 54 177 58 159 60 160 62 166
50 162 58 164 68 165 57 158 48 148 60 152
60 155 60 152 69 170 52 160 51 155 49 136
51 155 49 136 50 160 64 165 54 149 52 165
54 149 45 170 57 152 67 170 67 172 52 160
59 159 58 163 69 167 68 166 51 152
Postulamos el MRLS
estatura = 𝛽0 + 𝛽1 peso + 𝜀
para explicar a la estatura de una estudiante en función de
su peso. La media del peso es 57.49 y de la estatura es
159.34. Las desviaciones estándar del peso y la estatura
son 7.56 y 8.54, respectivamente. Y el coeficiente de
correlación entre el peso y la estatura es 0.53.
De modo que las estimaciones de mínimos cuadrados del
MRLS son

𝑠𝑦 8.54
𝛽መ1 = 𝑟 = 0.53 = 0.59,
𝑠𝑥 7.56
𝛽መ0 = 𝑦ത − 𝛽መ1 𝑥ҧ = 159.34 57.49 − 0.59 57.49 = 124.93;

de manera que el MRLS ajustado es

estatura = 124.93 + 0.5985 peso.

Esta última expresión es la estimación de la función


de regresión. La siguiente muestra el MRLS ajustado
junto con el diagrama de dispersión de los datos.
Figura 1. Modelo de regresión lineal ajustado a los datos
de la Tabla.
180

170
estatura

160

150

140

130
45 55 65 75
peso
En el caso de no obtener la línea de regresión mediante
un software estadístico y trazarlas “a ojo”, “a mano
alzada”, resulta difícil determinar ¿cuál de ellas arroja el
modelo que mejor explica el comportamiento de ambas
variables?, o más aún, ¿cómo saber cuál es la línea que
expresará el mejor nivel de correlación?

Para obtener la mejor respuesta a estas preguntas basta


con reducir al máximo la suma de cuadrados de los
errores.
Suma de Cuadrados de la Regresión o del Modelo Ŷ − Ӯ
Suma de Cuadrados de los Errores o Residuos 𝒀𝒊 – Ŷ.

X
Supuestos del MRL

Son 6 los supuestos a considerar en el modelo del regresión lineal:

1. Se requiere de un tamaño de la muestra suficientemente


representativo para cada una de las variables a emplearse.
2. Las variables empleadas no son aleatorias, ya que son obtenidas
de la muestra, lo que las hace deterministas.
3. Para el caso de la regresiónlineal múltiple,todas las variables
dependientes relevantes deben formar parte del modelo.
4. Cada una de las variables Xi es linealmente independiente. En
caso de no existir independencia entonces se presenta un
caso multicolinealidad y se viola la hipótesis de
independencia.

5. Debe existir un comportamiento lineal entre la


variable independiente con cada una de las variables
dependientes.

6. Los errores o residuos se comportan como una distribución


normal N(0, σ2) , con media cero y varianza constante en las
variables independientes.
Análisis de Residuos
En resumen, el cuadro del ANOVA quedaría de la siguiente manera:

Fuente de Grados de Suma de Cuadrado Fc


Variación Libertad Cuadrados Medio

Regresión 1 SCR CMR FC

Error n-2 SCE CME

Total n-1 SCT


Análisis de Residuos
En resumen, el cuadro del ANOVA quedaría de la siguiente manera:

Fuente de Grados de Suma de Cuadrado Fc


Variación Libertad Cuadrados Medio

Regresión 1

Error n-2

Total n-1
Con los datos entregados en clase,
elabore un informe donde presente los
resultados del ajuste del modelo de
regresión lineal simple y suba al aula
virtual.

S-ar putea să vă placă și