Sunteți pe pagina 1din 23

E

UNIVERSIDAD NACIONAL HERMILIO


VALDIZAN

FACULTAD DE INGENIERIA CIVIL Y ARQUITECTURA

ESCUELA PROFESIONAL DE INGENIERIA CIVIL

Tema: Regresión Lineal y Método de Mínimos Cuadrados

Curso: Estadística y Probabilidades

Docente: Ing. Javier Rodríguez Gonzales

Alumnos: Delgado Salazar, Jerry

Morales Valdez, Julio

Aquino Aquino, Cristian

Alvarado Soto, Erick


1. INTRODUCCIÓN
En este capítulo, trataremos con muestras bivariantes cuantitativas,
es decir con mmuestras donde en cada unidad estadística se
observan dos características cuantitativas medibles X e Y; por
ejemplo, ingresos y gastos mensuales. El objetivo es estudiar la
asociación entre dos variables conocida también como asociación
simple.

La primera forma del estudio de la asociación entre las variables X e


Y es la regresión, que consiste en determinar una relación funcional
(recta de regresión) entre ella, conel fin que se pueda predecir el
valor de una variable en base a la otra. La variable que se va a
predecir se denomina variable dependiente y la variable que es de
la predicción se denomina variable independiente.

L a segunda forma del estudia de la asociación entre las variables X


e Y , es denominada correlación, que consiste en determinar la
variación conjunta de las dos variables, su grado de realción, y su
sentido (positivo o negativo). La medida del grado de relación se
denomina coeficiente o índice de correlación. El cuadrado del índice
de correlación se denomina coeficiente de determinación.

En este capitulo haremos un estudio desriptivo de la regresión lineal


en el sentido que la ecuación de regresión lineal que se determina
será válida, si hay la seguridad de que existe un alto grado de
correlación entre las variables indicado por el coeficiente de
determinación.
2. OBJETIVOS
 Saber construir un modelo de regresión lineal simple que describa
como influye una variable “X” sobre otra variable “Y”.
 Saber obtener estimaciones puntuales de los parámetros de dicho
modelo.
 Saber construir intervalos de confianza y resolver contrastes sobre
dichos parámetros.
 Saber estimar el valor promedio de “Y” para un valor de “X”
 Saber predecir futuros de la variable respuesta, “Y”.

3. MARCO TEÓRICO
3.1. Diagrama de Dispersión

Definición. Se denomina diagrama de dispersión o nube de


puntos, a la gráfica de los valores (𝑥𝑖 , 𝑦𝑖 ) de las variables X e Y
en el sistema cartesiano.

Sean n valores de la variable


bidimensional (X, Y), observamos en una muestra, donde 𝑥𝑖
son los valores de la variable X y los 𝑦𝑖 , son los valores de la
variable Y.

Los métodos estadísticos descriptivos son válidos en cada


variable, es decir cada variable media, desviación estándar, etc.
Lo nuevo aquí es que estos datos en pareja se puede medir la
dispersión conjunta con respecto a las medias (x; y) mediante
la covarianza.
3.2. Covarianza
Es una estadística que mide el grado de dispersión o
variabilidad conjunta de dos variables X e Y con respecto a sus
medias respectivas.
3.3. Coeficiente de Correlación
El coeficiente de correlación lineal de Pearson de n pares de

valores de una variable


bidimensional (X, Y), es el número abstracto r que se calcula
por :

Y trata de medir la dependencia lineal que existe entre las dos


variables. Su cuadrado se denomina coeficiente de determinación
𝑟 2.
PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN
a) No tiene dimensión, y siempre toma valores en [-1,1]
b) Si las variables son independientes, entonces r=0
c) Si existe una relación lineal exacta entre X e Y, entonces r
valdría 1 o -1
d) Si r>0 esto indica una relación directa entre las variables. (es
decir, que si aumentamos X, también aumenta Y)
e) Si r<0 la correlación entre las variables es inversa (si
aumentamos una, la otra disminuye)
3.4. Regresión Lineal
Dados n pares de valores de una
variable bidimensional (X, Y). L a regresión lineal simple de Y
con respecto de X, consiste en determinar la ecuación de la
recta.

que mejor se ajuste a los valores de la muestra, con el fin de


poder predecir o estimar Y (variable dependiente) a partir de X
(variable independiente).

El proceso de predecir o estimar Y a partir de la variable X, es la


regresión. Hallar la función lineal Y= a + bX, consiste en
determinar los calores de a y b a partir de los datos de la
muestra.

Usaremos la notación 𝑦̂ para representar un valor Y calculado


de la ecuación Y= a + bX cuando X es igual a 𝑥𝑖 . Esto es igual
a 𝑦̂ = 𝑎 + 𝑏𝑥𝑖 .

Al valor de 𝑦̂ se denomina valor estimado o predicho o


ajustado de Y cuando X = 𝑥𝑖 .
Se denomina error o residuo:

𝑑𝑖 = 𝑦𝑖 − 𝑦̂ 𝑖

del valor observado 𝑦𝑖 y el valor pronosticado 𝑦


̂𝑖.

Un método para determinar la recta que mejor se ajuste a los n


datos de la muestra dada (𝑥𝑖 , 𝑦𝑖 ), es el método de mínimos
cuadrados.

3.4.1. Método de Mínimos Cuadrados


La recta de regresión de mínimos cuadrados de Y en X
es aquella que hace la mínima la suma de los
cuadrados de errores (SCE) cuya expresión es:
Este requisito se cumple, de acuerdo con el teorema
de Gass - Markow, si a y b se determinan resolviendo
el siguiente sistema de ecuaciones normales:

Estas ecuaciones se obtienen de igualar a cero las


derivadas SCE con respecto a “a” y con respecto a “b”
respectivamente consideradas como variables, ya que
(𝑥𝑖 , 𝑦𝑖 ) son datos observados.
Resolviendo el sistema de ecuaciones normales para b,
se obtiene:

Y dividiendo entre n la primera ecuación normal se


obtiene:
3.4.2. Coeficiente de Regresión
El coeficiente b es la pendiente o el coeficiente de
regresión lineal.

a) Si b > 0 , entonces, la tendencia lineal es creciente,


es decir, a mayores valores de X corresponden
mayores valores de Y. También, a menores valores
de X corresponden menores valores de Y.
b) Si b < 0, entonces, la tendencia lineal es decreciente,
es decir, a mayores valores de X corresponden
menores valores de Y. También, a menores valores
de X corresponden mayores valores de Y
c) Si b =0 , entonces, Y=a. Luego, Y permanece
estacionario para cualquier valor de X. En este caso
se dice que no hay regresión.

3.4.3. Partición de Varianza de Y


Sea (𝑥𝑖 , 𝑦𝑖 ), un valor observado de la variable (X,Y) de
̂ 𝑖 , el valor en la ecuación de regresión Y = a + bX
𝑦
cuando X = 𝑥𝑖
La varianza de Y es el número:
De la figura se obtiene:

Esta terminología surge, debido a que las desviaciones


(𝑦𝑖 − 𝑦 ̂ 𝑖 ) , con respecto a la recta de regresión, se
comportan de una manera aleatoria o impredecible, debido
a que 𝑦𝑖 es aleatorio. En tanto que las desviaciones de la
recta de regresión con respecto al eje de las X se aplican
por la recta de regresión de Y en X, ya que sólo depende de
los 𝑦̂ 𝑖 que están sobre la recta.

En esta particiónd e las sumas la primera suma se


denomina suma de cuadrados total (SCT), refleja la
variación de los valores de Y con respecto a la media
de Y.
La segunda suma se denomia suma de cuadrados de
los errores (SCE) y la tercera suma se denomia suma
de cuadrados debido a la regresión (SCR), refleja la
cantidad de variación de los valores de Y explicada por
la recta de regresión.

3.4.4. Coeficiente de Determinación


El coeficiente de determinación r^2 se define como el

cociente:
Por lo tanto para interpretar la participación de
varianzas relativas bastará con calcular r, luego r^2 y
establecer:

Para concluir que el 100% de la varianza total es igual


(1-r^2) x 100% de varianza no explicada más r^2 x
100% de la variación explicada por la recta de
regresión.
CONSECUENCIAS

Ejemplo1:
Cuadro de los valores obtenidos.

 Una forma de calcular b es:

b=

 Otra forma de calcular a1 es:


b=

además: a0=Ῡ- bẊ=110-2(50)=10


Ejemplo 2:

3.4.5. El Contraste de Regresión


En el contraste de regresión contrastamos la
hipótesis nula de que la pendiente de la recta es cero,
es decir, que no existe relación o dependencia lineal
entre las dos variables.

H0 :a1 =0

H1 :a1 ≠0
En este apartado se descompone la variabilidad de la
variable respuesta en variabilidad explicada por
el modelo más variabilidad no explicada o residual,
esto permitirá contrastar si el modelo es significativo
o no. Bajo la hipótesis de que existe una relación
lineal entre la variable respuesta y la regresora, se
quiere realizar el siguiente contraste de hipótesis.

H0 :Y= a0 (es constante no depende de “X”)

frente a la alternativa:

H1 :Y= a0+ a1X (el modelo lineal es significativo)

por tanto, si se acepta H0, la variable regresora no


influye y no hay relación lineal entre ambas variables.
En caso contrario, si existe una dependencia lineal de
la variable respuesta respecto a la regresora.

3.4.6. Análisis de Residuos


El análisis de residuos sirve para verificar si el modelo
lineal es el que mejor se ajusta a los datos dados.

Se define un residuo (ei) como la diferencia entre el


valor observado “y” y el valor estimado ŷ”, es decir,

di =yi - ŷ i

Donde :yi=valor observado

ŷi=valor estimado
El análisis de residuos nos permite llegar a conclusiones
tales como:

a) La función de regresión es lineal.


b) La función de regresión no es lineal.
c) El modelo de regresión lineal se ajusta a todas excepto
una o varias observaciones atípicas. Estas
observaciones atípicas pueden no considerarse si el
número de datos es grande (mayor que 30).
La forma más común de enfrentar el problema de la
análisis de residuos, es mediante un estudio gráfico de
ellos. Para graficarlos residuos se considera el siguiente
gráfico:

Las siguientes figuras, muestran diferentes situaciones


que se presentan con cierta frecuencia:
La figura anterior muestra un caso típico de residuos
cuando el modelo lineal es adecuado. Todos los
residuos tienden a caer en una banda horizontal
centrada alrededor del cero.
La figura anterior indica una desviación clara de la
linealidad, sugiriendo la necesidad de ajustar una
función de regresión no lineal.

La figura anterior presenta una observación atípica, es


decir, se escapa del modelo lineal que tienen los otros
datos. La influencia de estos puntos atípicos, será
mayor si el número de datos es pequeño (menor o
iguala ).

Ejemplo:

Dada la siguiente tabla “y” la recta de regresión de


sobre “x” :

Y= 35.82+ 0.476X

Determine:
a) Los valores estimados de “y”.

b) Los residuo sei para cada caso .

c) Represente gráficamente los residuos.

d) ¿Qué puede concluir de este gráfico?

Solución:

a) Los valores estimados de ”y”, que aparecen en la tabla,


se determinan reemplazando ”X” en la recta dada:
Y= 35.82+ 0.476X

Por ejemplo, para x=65 se tiene que Y= 35.82+


0.476(65) → ŷ=66.8

El mismo procedimiento se debe realizar para los


demás valores de “x”

b) Los residuosei, que aparecen en la tabla, se determinan


de la siguiente forma:
Para y=68 se tiene:

ei = y -ŷ

ei=68-66.8

ei=1.2

El mismoprocedimiento se deberealizar para


losdemásvalores de “y”
c) Los residuos nos indican que la recta de regresión dada
en algunos casos no es la mejor estimadora
para .Existen 5 puntos que se escapan del intervalo [-
1;1]

Ejemplo:

1) Dada la siguiente información, ¿qué puede concluir a


través del análisis de residuos?

Solucion:
Los residuos son muy grandes para los datos dados. Por
lo tanto, no existe una relación lineal entre los datos
dados.

S-ar putea să vă placă și