Regresion Lineal

E
UNIVERSIDAD NACIONAL HERMILIO

VALDIZAN
FACULTAD DE INGENIERIA CIVIL Y ARQUITECTURA
ESCUELA PROFESIONAL DE INGENIERIA CIVIL
Tema: Regresión Lineal y Método de Mínimos Cuadrados
Curso: Estadística y Probabilidades
Docente: Ing. Javier Rodríguez Gonzales
Alumnos: Delgado Salazar, Jerry
Morales Valdez, Julio
Aquino Aquino, Cristian
Alvarado Soto, Erick

1. INTRODUCCIÓN
En este capítulo, trataremos con muestras bivariantes cuantitativas,
es decir con mmuestras donde en cada unidad estadística se
observan dos características cuantitativas medibles X e Y; por
ejemplo, ingresos y gastos mensuales. El objetivo es estudiar la
asociación entre dos variables conocida también como asociación
simple.
La primera forma del estudio de la asociación entre las variables X e

Y es la regresión, que consiste en determinar una relación funcional
(recta de regresión) entre ella, conel fin que se pueda predecir el
valor de una variable en base a la otra. La variable que se va a
predecir se denomina variable dependiente y la variable que es de
la predicción se denomina variable independiente.
L a segunda forma del estudia de la asociación entre las variables X

e Y , es denominada correlación, que consiste en determinar la
variación conjunta de las dos variables, su grado de realción, y su
sentido (positivo o negativo). La medida del grado de relación se
denomina coeficiente o índice de correlación. El cuadrado del índice
de correlación se denomina coeficiente de determinación.
En este capitulo haremos un estudio desriptivo de la regresión lineal

en el sentido que la ecuación de regresión lineal que se determina
será válida, si hay la seguridad de que existe un alto grado de
correlación entre las variables indicado por el coeficiente de
determinación.
2. OBJETIVOS
 Saber construir un modelo de regresión lineal simple que describa
como influye una variable “X” sobre otra variable “Y”.
 Saber obtener estimaciones puntuales de los parámetros de dicho
modelo.
 Saber construir intervalos de confianza y resolver contrastes sobre
dichos parámetros.
 Saber estimar el valor promedio de “Y” para un valor de “X”
 Saber predecir futuros de la variable respuesta, “Y”.
3. MARCO TEÓRICO
3.1. Diagrama de Dispersión
Definición. Se denomina diagrama de dispersión o nube de

puntos, a la gráfica de los valores (𝑥𝑖 , 𝑦𝑖 ) de las variables X e Y
en el sistema cartesiano.
Sean n valores de la variable

bidimensional (X, Y), observamos en una muestra, donde 𝑥𝑖
son los valores de la variable X y los 𝑦𝑖 , son los valores de la
variable Y.
Los métodos estadísticos descriptivos son válidos en cada

variable, es decir cada variable media, desviación estándar, etc.
Lo nuevo aquí es que estos datos en pareja se puede medir la
dispersión conjunta con respecto a las medias (x; y) mediante
la covarianza.
3.2. Covarianza
Es una estadística que mide el grado de dispersión o
variabilidad conjunta de dos variables X e Y con respecto a sus
medias respectivas.
3.3. Coeficiente de Correlación
El coeficiente de correlación lineal de Pearson de n pares de
valores de una variable

bidimensional (X, Y), es el número abstracto r que se calcula
por :
Y trata de medir la dependencia lineal que existe entre las dos

variables. Su cuadrado se denomina coeficiente de determinación
𝑟 2.
PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN
a) No tiene dimensión, y siempre toma valores en [-1,1]
b) Si las variables son independientes, entonces r=0
c) Si existe una relación lineal exacta entre X e Y, entonces r
valdría 1 o -1
d) Si r>0 esto indica una relación directa entre las variables. (es
decir, que si aumentamos X, también aumenta Y)
e) Si r<0 la correlación entre las variables es inversa (si
aumentamos una, la otra disminuye)
3.4. Regresión Lineal
Dados n pares de valores de una
variable bidimensional (X, Y). L a regresión lineal simple de Y
con respecto de X, consiste en determinar la ecuación de la
recta.
que mejor se ajuste a los valores de la muestra, con el fin de

poder predecir o estimar Y (variable dependiente) a partir de X
(variable independiente).
El proceso de predecir o estimar Y a partir de la variable X, es la

regresión. Hallar la función lineal Y= a + bX, consiste en
determinar los calores de a y b a partir de los datos de la
muestra.
Usaremos la notación 𝑦̂ para representar un valor Y calculado

de la ecuación Y= a + bX cuando X es igual a 𝑥𝑖 . Esto es igual
a 𝑦̂ = 𝑎 + 𝑏𝑥𝑖 .
Al valor de 𝑦̂ se denomina valor estimado o predicho o

ajustado de Y cuando X = 𝑥𝑖 .
Se denomina error o residuo:
𝑑𝑖 = 𝑦𝑖 − 𝑦̂ 𝑖
del valor observado 𝑦𝑖 y el valor pronosticado 𝑦

̂𝑖.
Un método para determinar la recta que mejor se ajuste a los n

datos de la muestra dada (𝑥𝑖 , 𝑦𝑖 ), es el método de mínimos
cuadrados.
3.4.1. Método de Mínimos Cuadrados

La recta de regresión de mínimos cuadrados de Y en X
es aquella que hace la mínima la suma de los
cuadrados de errores (SCE) cuya expresión es:
Este requisito se cumple, de acuerdo con el teorema
de Gass - Markow, si a y b se determinan resolviendo
el siguiente sistema de ecuaciones normales:
Estas ecuaciones se obtienen de igualar a cero las

derivadas SCE con respecto a “a” y con respecto a “b”
respectivamente consideradas como variables, ya que
(𝑥𝑖 , 𝑦𝑖 ) son datos observados.
Resolviendo el sistema de ecuaciones normales para b,
se obtiene:
Y dividiendo entre n la primera ecuación normal se

obtiene:
3.4.2. Coeficiente de Regresión
El coeficiente b es la pendiente o el coeficiente de
regresión lineal.
a) Si b > 0 , entonces, la tendencia lineal es creciente,

es decir, a mayores valores de X corresponden
mayores valores de Y. También, a menores valores
de X corresponden menores valores de Y.
b) Si b < 0, entonces, la tendencia lineal es decreciente,
es decir, a mayores valores de X corresponden
menores valores de Y. También, a menores valores
de X corresponden mayores valores de Y
c) Si b =0 , entonces, Y=a. Luego, Y permanece
estacionario para cualquier valor de X. En este caso
se dice que no hay regresión.
3.4.3. Partición de Varianza de Y

Sea (𝑥𝑖 , 𝑦𝑖 ), un valor observado de la variable (X,Y) de
̂ 𝑖 , el valor en la ecuación de regresión Y = a + bX
𝑦
cuando X = 𝑥𝑖
La varianza de Y es el número:
De la figura se obtiene:
Esta terminología surge, debido a que las desviaciones

(𝑦𝑖 − 𝑦 ̂ 𝑖 ) , con respecto a la recta de regresión, se
comportan de una manera aleatoria o impredecible, debido
a que 𝑦𝑖 es aleatorio. En tanto que las desviaciones de la
recta de regresión con respecto al eje de las X se aplican
por la recta de regresión de Y en X, ya que sólo depende de
los 𝑦̂ 𝑖 que están sobre la recta.
En esta particiónd e las sumas la primera suma se

denomina suma de cuadrados total (SCT), refleja la
variación de los valores de Y con respecto a la media
de Y.
La segunda suma se denomia suma de cuadrados de
los errores (SCE) y la tercera suma se denomia suma
de cuadrados debido a la regresión (SCR), refleja la
cantidad de variación de los valores de Y explicada por
la recta de regresión.
3.4.4. Coeficiente de Determinación

El coeficiente de determinación r^2 se define como el
cociente:
Por lo tanto para interpretar la participación de
varianzas relativas bastará con calcular r, luego r^2 y
establecer:
Para concluir que el 100% de la varianza total es igual

(1-r^2) x 100% de varianza no explicada más r^2 x
100% de la variación explicada por la recta de
regresión.
CONSECUENCIAS
Ejemplo1:
Cuadro de los valores obtenidos.
 Una forma de calcular b es:
b=
 Otra forma de calcular a1 es:

b=
además: a0=Ῡ- bẊ=110-2(50)=10

Ejemplo 2:
3.4.5. El Contraste de Regresión

En el contraste de regresión contrastamos la
hipótesis nula de que la pendiente de la recta es cero,
es decir, que no existe relación o dependencia lineal
entre las dos variables.
H0 :a1 =0
H1 :a1 ≠0
En este apartado se descompone la variabilidad de la
variable respuesta en variabilidad explicada por
el modelo más variabilidad no explicada o residual,
esto permitirá contrastar si el modelo es significativo
o no. Bajo la hipótesis de que existe una relación
lineal entre la variable respuesta y la regresora, se
quiere realizar el siguiente contraste de hipótesis.
H0 :Y= a0 (es constante no depende de “X”)
frente a la alternativa:
H1 :Y= a0+ a1X (el modelo lineal es significativo)
por tanto, si se acepta H0, la variable regresora no

influye y no hay relación lineal entre ambas variables.
En caso contrario, si existe una dependencia lineal de
la variable respuesta respecto a la regresora.
3.4.6. Análisis de Residuos

El análisis de residuos sirve para verificar si el modelo
lineal es el que mejor se ajusta a los datos dados.
Se define un residuo (ei) como la diferencia entre el

valor observado “y” y el valor estimado ŷ”, es decir,
di =yi - ŷ i
Donde :yi=valor observado
ŷi=valor estimado
El análisis de residuos nos permite llegar a conclusiones
tales como:
a) La función de regresión es lineal.

b) La función de regresión no es lineal.
c) El modelo de regresión lineal se ajusta a todas excepto
una o varias observaciones atípicas. Estas
observaciones atípicas pueden no considerarse si el
número de datos es grande (mayor que 30).
La forma más común de enfrentar el problema de la
análisis de residuos, es mediante un estudio gráfico de
ellos. Para graficarlos residuos se considera el siguiente
gráfico:
Las siguientes figuras, muestran diferentes situaciones

que se presentan con cierta frecuencia:
La figura anterior muestra un caso típico de residuos
cuando el modelo lineal es adecuado. Todos los
residuos tienden a caer en una banda horizontal
centrada alrededor del cero.
La figura anterior indica una desviación clara de la
linealidad, sugiriendo la necesidad de ajustar una
función de regresión no lineal.
La figura anterior presenta una observación atípica, es

decir, se escapa del modelo lineal que tienen los otros
datos. La influencia de estos puntos atípicos, será
mayor si el número de datos es pequeño (menor o
iguala ).
Ejemplo:
Dada la siguiente tabla “y” la recta de regresión de

sobre “x” :
Y= 35.82+ 0.476X
Determine:
a) Los valores estimados de “y”.
b) Los residuo sei para cada caso .
c) Represente gráficamente los residuos.
d) ¿Qué puede concluir de este gráfico?
Solución:
a) Los valores estimados de ”y”, que aparecen en la tabla,

se determinan reemplazando ”X” en la recta dada:
Y= 35.82+ 0.476X
Por ejemplo, para x=65 se tiene que Y= 35.82+

0.476(65) → ŷ=66.8
El mismo procedimiento se debe realizar para los

demás valores de “x”
b) Los residuosei, que aparecen en la tabla, se determinan

de la siguiente forma:
Para y=68 se tiene:
ei = y -ŷ
ei=68-66.8
ei=1.2
El mismoprocedimiento se deberealizar para

losdemásvalores de “y”
c) Los residuos nos indican que la recta de regresión dada
en algunos casos no es la mejor estimadora
para .Existen 5 puntos que se escapan del intervalo [-
1;1]
Ejemplo:
1) Dada la siguiente información, ¿qué puede concluir a

través del análisis de residuos?
Solucion:
Los residuos son muy grandes para los datos dados. Por
lo tanto, no existe una relación lineal entre los datos
dados.

Regresion Lineal

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresion Lineal

Încărcat de

Drepturi de autor:

Formate disponibile

E

UNIVERSIDAD NACIONAL HERMILIO

FACULTAD DE INGENIERIA CIVIL Y ARQUITECTURA

ESCUELA PROFESIONAL DE INGENIERIA CIVIL

Tema: Regresión Lineal y Método de Mínimos Cuadrados

Curso: Estadística y Probabilidades

Docente: Ing. Javier Rodríguez Gonzales

Alumnos: Delgado Salazar, Jerry

Morales Valdez, Julio

Aquino Aquino, Cristian

Alvarado Soto, Erick

La primera forma del estudio de la asociación entre las variables X e

L a segunda forma del estudia de la asociación entre las variables X

En este capitulo haremos un estudio desriptivo de la regresión lineal

Definición. Se denomina diagrama de dispersión o nube de

Sean n valores de la variable

Los métodos estadísticos descriptivos son válidos en cada

valores de una variable

Y trata de medir la dependencia lineal que existe entre las dos

que mejor se ajuste a los valores de la muestra, con el fin de

El proceso de predecir o estimar Y a partir de la variable X, es la

Usaremos la notación 𝑦̂ para representar un valor Y calculado

Al valor de 𝑦̂ se denomina valor estimado o predicho o

del valor observado 𝑦𝑖 y el valor pronosticado 𝑦

Un método para determinar la recta que mejor se ajuste a los n

3.4.1. Método de Mínimos Cuadrados

Estas ecuaciones se obtienen de igualar a cero las

Y dividiendo entre n la primera ecuación normal se

a) Si b > 0 , entonces, la tendencia lineal es creciente,

3.4.3. Partición de Varianza de Y

Esta terminología surge, debido a que las desviaciones

En esta particiónd e las sumas la primera suma se

3.4.4. Coeficiente de Determinación

Para concluir que el 100% de la varianza total es igual

 Una forma de calcular b es:

 Otra forma de calcular a1 es:

además: a0=Ῡ- bẊ=110-2(50)=10

3.4.5. El Contraste de Regresión

H0 :Y= a0 (es constante no depende de “X”)

H1 :Y= a0+ a1X (el modelo lineal es significativo)

por tanto, si se acepta H0, la variable regresora no

3.4.6. Análisis de Residuos

Se define un residuo (ei) como la diferencia entre el

Donde :yi=valor observado

a) La función de regresión es lineal.

Las siguientes figuras, muestran diferentes situaciones

La figura anterior presenta una observación atípica, es

Dada la siguiente tabla “y” la recta de regresión de

b) Los residuo sei para cada caso .

c) Represente gráficamente los residuos.

d) ¿Qué puede concluir de este gráfico?

a) Los valores estimados de ”y”, que aparecen en la tabla,

Por ejemplo, para x=65 se tiene que Y= 35.82+

El mismo procedimiento se debe realizar para los

b) Los residuosei, que aparecen en la tabla, se determinan

El mismoprocedimiento se deberealizar para

1) Dada la siguiente información, ¿qué puede concluir a

S-ar putea să vă placă și