Sunteți pe pagina 1din 15

MS.c. Emerson D.

Norabuena Figueroa

1
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias
UNIDAD IV: REGRESIÓN LINEAL SIMPLE

4.1. OBJETIVOS
 Construir un modelo de regresión lineal simple que describa como influye
una variable X sobre la otra variable Y.
 Obtener estimaciones puntuales de los parámetros de dicho modelo.
 Estimar el valor promedio de Y para un valor X
 Predecir futuros de la variable respuesta Y
4.2. CONTENIDOS
 El objeto del análisis de regresión
 La especificación de un modelo de regresión lineal simple
 Estimadores de mínimos cuadrados: construcción y propiedades
 Inferencia sobre el modelo de regresión

2
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias
4.3. Regresión Lineal Simple
Un modelo de regresión es un modelo que permite describir cómo influye una
variable X sobre otra variable Y .

 X: Variable independiente o explicativa o exógena


 Y: Variable dependiente o respuesta o endógena

El objetivo es obtener estimaciones razonables de Y para distintos valores de X a


partir de una muestra de n pares de valores (𝑥1 , 𝑦1 ), … , (𝑥𝑛 , 𝑦𝑛 ).

Estudios práctico:
- Estudiar como influye la afluencia del turismo sobre los ingresos netos.
- Estimar el precio de un hospedaje en función al número de turistas.
- Predecir la tasa de precios para la venta de paquetes turísticos mensuales.
- Aproximar la venta neta según el número de turistas

3
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias
Recta de regresión

Y = a + bX

b
𝑦𝑖

a
𝑥𝑖

4
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias
4.3.1. Tipos de relación
• No determinística: : Conocido el valor de X,
• Determinística: Conocido el valor X, el
el valor de Y no queda perfectamente
valor de Y queda perfectamente
establecido. Son del tipo:
establecido. Son del tipo:
y = f(x) y = f(x) + 𝜇
Donde 𝜇 es una perturbación desconocida
(variable aleatoria).

y = 32 + 1,8x

y = -285,1 + 0,124x

Existe relación pero no es exacta

5
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias
4.3.2. Diagrama de dispersión
Sean (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑛 , 𝑦𝑛 ) n valores de la variable bidimensional (X, Y),
observados en una muestra, donde los 𝑥𝑖 son valores de la variable X y los 𝑦𝑖
son los valores de la variable Y.

Los métodos estadísticos descriptivos son válidos en cada variable, es decir


cada variable tiene media, desviación estándar, etc. En tanto los datos en
pareja pueden medir la dispersión conjunta con respecto a las medias (x,y)
mediante la covarianza.

Además, si lo datos de X se tabulan en r intervalos; 𝐼𝑖 ; y los datos de Y se


tabulan en s intervalos; 𝐼𝑗´ , se tendrá una distribución conjunta de frecuencias
que consiste en intervalos (𝐼𝑖 , 𝐼𝑗´ ), y frecuencia 𝑓𝑖𝑗 (regresión con datos
tabulados).
Análisis de los tipos de relación existente entre dos variables a partir del
diagrama de dispersión.

6
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias
 Tipos de diagrama de dispersión

Lineal positiva Lineal negativa

No lineal Ninguna relación

7
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias
4.3.3. Covarianza
La covarianza es una estadística que mide el grado de dispersión o variabilidad
conjunta de dos variable X e Y con respecto a sus medias respectivas(𝑥,ҧ 𝑦ത ).
Definición: La covarianza de n valores (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑛 , 𝑦𝑛 ) de una
variable bidimensional (X, Y) es el número Cov(X,Y) o 𝑆𝑋𝑌 , que se define igual
a la media aritmética de los productos de las desviaciones de los datos con
respecto a sus correspondientes medias (𝑥,ҧ 𝑦ത ). Esto es,
𝑛

෍(𝑥𝑖 − 𝑥)ҧ (𝑦𝑖 − 𝑦)



𝑖=1
𝑆𝑋𝑌 =
𝑛

En el numerador de 𝑆𝑋𝑌 se verifica la relación 𝑛


𝑛 𝑛 ෍ 𝑥𝑖 𝑦𝑖 − 𝑥ҧ 𝑦ത
෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത = ෍ 𝑥𝑖 𝑦𝑖 − 𝑛𝑥ҧ 𝑦ത 𝑖=1
𝑆𝑋𝑌 =
𝑖=1 𝑖=1 𝑛
𝐸𝑠𝑡𝑎 𝑝𝑢𝑒𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑟 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑎

8
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias
4.3.4. Coeficiente o índice de correlación
Definición: El coeficiente de correlación lineal de Pearson de n pares de valores
(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑛 , 𝑦𝑛 ) de una variable bidimensional (X,Y) es el número
es abstracto r que se calcula por
𝑆𝑋𝑌 𝑆𝑋𝑌 : Covarianza de X y Y
𝑟= 𝑆𝑋 : Desviación estándar de X
𝑆𝑋 𝑆𝑌
𝑆𝑦 : Desviación estándar de Y
Se verifica que
A ello se verifica
𝑆𝑋𝑌 𝑛 σ 𝑥𝑦 −σ 𝑥 σ 𝑦
𝑟= = que el coeficiente
𝑆𝑋 𝑆𝑌 𝑛 σ 𝑥 2 −(σ 𝑥)2 𝑛 σ 𝑦 2 −(σ 𝑦)2 de correlación r es
un número
r = 1 : Existe correlación perfecta positiva. comprendido entre
r = -1 : Existe correlación perfecta negativa. -1y+1
r = 0 : No existe correlación entre las dos variables.

9
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias
4.4. Regresión lineal simple
Dados n pares de valores (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑛 , 𝑦𝑛 ) de una variable
bidimensional (X,Y) la regresión lineal simple de Y con respecto a X, consiste en
determinar la ecuación de la recta:
Y = a + bX
que mejor se ajuste a los valores de la muestra, con el fin de poder predecir o
estimar Y (variable dependiente) a partir de X(variable independiente).
El proceso de predecir o estimar Y a partir de la variable X, es regresión.

Hallar la función lineal Y=a + bX , consiste en determinar los valores de a y b a


partir de los datos de la muestra.

Usaremos la notación 𝑦ෝ𝑖 para representar el valor de Y calculado de la ecuación


Y= a + bX cuando X es igual a 𝑥𝑖 . Esto es, 𝑦ෝ𝑖 = a + b𝑥𝑖 .
Al valor 𝑦ෝ𝑖 se denomina valor estimado o predecido o ajustado de Y cuando X=𝑥𝑖
Si 𝑥𝑖 es un valor de la muestra, entonces (𝑥𝑖 , 𝑦ෝ𝑖 ) es un punto de la recta de
resgresión Y = a + bX

10
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias
4.4. Regresión lineal simple

Desviación de valores
observados y ajustados

Definición: Se denomina error o residuos a cada diferencia 𝑑𝑖 = 𝑦𝑖 - 𝑦ෝ𝑖


del valor observado 𝑦𝑖 y el valor pronosticado 𝑦ෝ𝑖 . Un método para determinar la
recta que mejor se ajuste a los n datos de la muestra (𝑥𝑖 , 𝑦𝑖 ) es el método de
mínimos cuadrados.

11
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias
4.4.1 Recta de regresión de mínimos cuadrados

La recta de regresión de mínimos cuadrados de Y en X es aquella que hace mínima


la suma de los cuadrados de errores(SCE) cuya expresión es𝑦𝑖 :
𝑛 𝑛 𝑛
SCE = ෍ 𝑑𝑖 2 = ෍(𝑦𝑖 − 𝑦ෝ𝑖 )2 = ෍(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2
𝑖=1 𝑖=1 𝑖=1
Luego, determinar una recta de regresión de mínimos cuadrados consiste en
hallar los valores de a y b de manera que hagan mínima, la suma:
𝑛
SCE = ෍(𝑦𝑖 − (𝑎 − 𝑏𝑥𝑖 ))2
𝑖=1
Este requisito se cumple, de acuerdo con el teorema de Gass – Markow, si a y b se
determinan resolviendo el siguiente sistema de ecuaciones normales:
𝑛 𝑛

෍ 𝑦𝑖 = 𝑛𝑎 + 𝑏 ෍ 𝑥𝑖
𝑖=1 𝑖=1

12
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias
4.4.1 Recta de regresión de mínimos cuadrados
𝑛 𝑛 𝑛

෍ 𝑥𝑖 𝑦𝑖 = 𝑎 ෍ 𝑥𝑖 + 𝑏 ෍ 𝑥𝑖 2
𝑖=1 𝑖=1 𝑖=1

Estas ecuaciones se obtienen de igual a cero las derivadas de SCE con respecto a a
y con respecto a b respectivamente considerando como variables, ya que (𝑥𝑖 , 𝑦𝑖 )
son datos observados.

Resolviendo el sistema de ecuaciones normales para b, se obtiene:

𝑛 σ 𝑥𝑖 𝑦𝑖 −σ 𝑥𝑖 σ 𝑦𝑖 𝑆𝑥𝑦
𝑏=
𝑛 σ 𝑥𝑖 2 − (σ 𝑥𝑖 )2
b=
𝑆𝑥2
Y dividiendo por n la primera ecuación normal, se tiene: el valor

a = 𝑦ത - b𝑥ҧ

13
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias
4.4.1 Recta de regresión de mínimos cuadrados

b: pendiente o coeficiente de la regresión lineal. La constante a es la ordenada en el


origen
Si b > 0: la tendencia lineal es creciente, es decir a mayores valores de X corresponden
mayores valores de Y. También, a menores valores de X corresponden menores valores
de Y.

Si b 0: la tendencia
lineal es decreciente, es decir a mayores valores de X corresponden
menores valores de Y. También, a menores valores de X corresponden mayyores valore
s de Y.

Si b = 0: entonces Y = 0 : entonces Y = a . Luego Y permanece estacionario para cualquier valor de


X. En este caso se dice que, no hay regresión.

14
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias
Caso 01
Cree usted qué, eventualmente, el calentamiento global, debido a la
emisiones de gases de invernadero, generados por emisiones vehiculares e
industriales va a modificar las temperaturas que van en función de la
latitud?
El caso hipotético muestra la relación entre las concentraciones de ozono
artificial, a nivel del suelo(ppm) y las temperaturas(°F).

Concentraciones de O3 75 80 86 94 99 107
Temperatura (°F) 65 71 79 85 93 100

15
Alvaron Robles Dennis Gabriela
MS.c. Emerson D. Norabuena Figueroa
Estadística Facultad
Minaya Carrión Christian Oscar e Informática de Ciencias

S-ar putea să vă placă și