Regersion Lineal y Correlacion Final

REGRESION LINEAL SIMPLE
UNIDAD V
REGRESIÓN LINEAL SIMPLE.
1.1 Modelo de regresión simple.

1.2 Supuestos.
1.3 Determinación de la ecuación de regresión.
1.4 Medidas de variación.
1.5 Cálculo de los coeficientes de correlación y de determinación.
1.6 Análisis residual.
1.7 Inferencias acerca de la pendiente.
1.8 Aplicaciones
Modelo de Regresión lineal simple
Anteriormente se destacó principalmente cómo deducir algo acerca de un parámetro poblacional, como la media
o una proporción poblacional, etc. En todos estos se trabajó sólo con una variable de nivel de intervalo o de
razón, como el peso o contenido de una botella, el ingreso de un trabajador, el número de pacientes aceptados
en cierto hospital.
Ahora se estudiara la relación entre dos o más variables, y se desarrollara una ecuación que permita calcular una
variable basada en otra. Por ejemplo: ¿existe alguna relación entre lo que gasta una empresa en publicidad y sus
ventas?, ¿existe alguna relación entre la antigüedad en el trabajo de un empleado de producción y el número de
unidades que elabora?, ¿Qué relación existe entre el rendimiento por galón de gasolina y el desplazamiento del
motor? , etc.
En la práctica, con mucha frecuencia es necesario resolver problemas que implican un conjunto de variables,
cuando se sabe que existe alguna relación inherente entre ellas. Puede ser interesante desarrollar un método de
predicción, esto es, un procedimiento para estimar las ventas que se tendrán para varios niveles de gastos de
publicidad tomados de información experimental. El aspecto estadístico del problema consiste entonces en
lograr la mejor estimación de la relación entre las variables.
En esta unidad se examinará un diagrama diseñado para representar la relación entre dos variables: diagrama
de dispersión, se continua el estudio desarrollando una ecuación que permitirá calcular el valor de una variable
con base en el valor de otra y a esto se le denomina análisis de regresión es una técnica estadística para el
modelado y la investigación de la relación entre dos o más variables, y examinaremos el significado y el objetivo
del análisis de correlación conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación
entre dos variables.
Relaciones entre variables.
De acuerdo al papel que desempeña cada variable dentro del proceso experimental en un análisis de regresión
podemos identificar los dos tipos de variables:
Variables dependientes.- o respuesta la cual no se controla en el experimento y es la que se requiere predecir o

la de nuestro interés.
Variable independiente.- o de regresión (preeditor o regresor) las cuales se controlan en el experimento por lo
que no son aleatorias no tienen propiedades distribucionales.
María del Rosario Aguillón Ruiz 1

Simbolizando con Y la variable dependiente o respuesta y con X1, X2, X3, …… Xk las variables independientes o de
regresión. Donde estas variables independientes puede haber más de una.
Se tiene que elegir para un modelo de regresión un sistema de variables independientes “bueno” en cierto
sentido para los propósitos del análisis.
Una consideración importante en esta opción:
- Es el grado en el cuál una variable elegida contribuye a reducir la variación de Y.
- La importancia de la variable como agente causal en el proceso bajo análisis.
- El grado en el cual las observaciones respecto a la variable se pueden obtener más exactamente o
rápidamente.
- El grado en el cual la variable se puede prestablecer por la gerencia.
-
Regresión simple.- se le denomina cuando existe una variable de regresión.
Regresión multiple.- cuando existe más de una variable de regresión.
Relación funcional entre dos variables
Una relación funcional entre dos variables es expresada por una función matemática.
Si x es la variable independiente y y la dependiente, una relación funcional está de la forma:
Y= f(X)
Dado un valor particular de x, la función matemática f(x) indicara el valor correspondiente de y.
Ejemplo: Considere la relación entre las ventas o ingresos de un establecimiento (y) que vende boletos a un
precio fijo y el número de boletos vendidos (x). Si el precio del boleto es $50, la relación es expresada por la
ecuación:
Y=50x
Mostrando está relación funcional (determinística):
Número de Ingreso ó
Boletos venta
5 250
20 1000
30 1500
100 5000
Trazando estas observaciones un diagrama:

Ingresos $
6000
5000
4000
3000
2000
1000
0
0 10 20 30 40 50 60 70 80 90 10 11
0 0
Num. de boletos
Observe todos los puntos caen directamente en la línea de la relación funcional, la relación es perfecta.
Relación estadística entre dos variables:
En una relación estadística no es perfecta, no caen directamente los puntos o los valores de la variable en la
curva de la relación.
Ejemplo: Suponga que el gerente de ventas de una compañía: DELL, empresa que tiene una gran fuerza de
ventas, desea determinar si existe una relación entre el número de llamadas telefónicas de ventas hechas en un
mes, y la cantidad de computadoras vendidas durante ese lapso. El gerente selecciona al azar una muestra de 10
representantes, y determina el número de tales llamadas que hizo cada uno el mes anterior y la cantidad de
productos vendidos. La información muestral aparece en la siguiente tabla:
Representante Num. de Num. de computadoras

de ventas llamadas vendidas
Tomas 20 30
Jelf 40 60
Brian 20 40
Juan 30 60
Susan 10 30
Carlos 10 40
Rich 20 40
Luis 20 50
Mark 20 30
Soni 30 70

Para este ejemplo y para la mayoría de las aplicaciones, existe una clara distinción entre las variables en cuanto
a su papel dentro del proceso experimental. En el ejemplo el número de llamadas es la variable independiente o
variable de regresión (x) y el número de computadoras vendidas es la repuesta (y).
Y- Num. de computadoras
X- Num. de llamadas
Cada punto en diagrama esta representado por el par de ordenado (x, y)
Num.
computadoras
80
70
60
50 10, 40
40
30
10, 30
20
10
0
0 20 40 60
Num. llamadas
Como Sony vendió el mayor número de computadoras haciendo 30 llamadas, por otra parte Susan hizo solo 10
llamadas y vendió el menor número de computadoras entre los representantes en la muestra.
La deducción es que el número de computadoras vendidas tiene relación con la cantidad de llamadas realizadas.
La grafica indica que los representantes de ventas que hacen más llamadas telefónicas, tienden a vender más
computadoras. Sin embargo la relación no es perfecta. Hay dispersión de puntos, sugiriendo que algo de la
variación del número de computadoras vendidas no es considerada por las llamadas telefónicas. Por ejemplo
cuando se hacen 20 llamadas se tienen diversos números de computadoras vendidas (30, 40, 50). Debido a la
dispersión de puntos presentada por la relación estadística se llama a la grafica: diagrama de dispersión; cada
punto en el diagrama de dispersión representa una observación o ensayo. En la grafica podemos trazar una
línea que puede indicar la relación que describe la relación estadística entre las computadoras vendidas y el
número de llamadas.

Num.
computadoras
80
70
60
50 10, 40
40
30
10, 30
20
10
0
0 20 40 60
Num. llamadas
Observe que la mayoría de los puntos no están directamente en la línea de la relación estadística, esta dispersión
de puntos alrededor de la línea representa la variación en el número de computadoras que no se asocia al
número de llamadas y que se considera de una naturaleza al azar. Las relaciones estadísticas son altamente
útiles.
En el diagrama de dispersión se indica una relación positiva ya que a mayor número de llamadas, mayor número
de copiadoras vendidas.
DIAGRAMAS DE DISPERSIÓN
Correlación positiva Correlación negativa
y y
25 25
20 20
15 15
10 10
5 5
0 0
0 5 10 15 0 5 10 15
x x

Relación nula Relación Curvilínea

y
y 80
14
12 60
10
8 40
6
4 20
2
0 0
0 5 10 15 0 20 40 60 80
x x
También hay relación negativa cuando a mayor valor de la variable independiente (x), menor valor de la variable
dependiente (y). Por ejemplo demanda con precio.
Puede ser que no exista relación por ejemplo el número de hijos con el ingreso anual.
También podemos tener una relación curvilínea (no lineal) por ejemplo la edad y el nivel de un esteroide en el
plasma en mujeres, conforme aumenta la edad, el nivel del esteroide aumenta hasta un punto y después
comienza a declinar.
CONSIDERACIONES BASICAS PARA LA REGRESIÓN LINEAL
1. Linealidad
2. Independencia de los errores
3. Normalidad del error
4. Igualdad de varianzas
Linealidad: plantea que la relación de las variables es lineal. Para evaluar la linealidad se grafican los residuos
(e) en el eje vertical en oposición a los valores de Xi, correspondientes de la variable independiente en el eje
horizontal. Si el modelo lineal es adecuado para los datos, no se observan ningún patrón aparente en la
grafica. Los residuos deberían formar una nube de puntos sin estructura y con, aproximadamente, la misma
variabilidad por todas las zonas como se muestra en el gráfico.

Si el modelo lineal no es apropiado, en la grafica residual habrá una relación entre los valores de X i y los
residuos ei.
Residual
Independencia: Se evalúa el supuesto de independencia de los errores sólo cuando si los datos se reunieron a lo
largo del tiempo, graficando los residuos en el orden o la secuencia en que se recolectaron los datos. Si los valores
de Y forman parte de una serie de tiempo, en ocasiones un residuo podría estar relacionado con el anterior. Si
existe una relación entre residuos consecutivos, la grafica de los residuos en oposición al momento en que se
reunieron los datos a menudo revelan un patrón cíclico. Cuando los datos a analizar se obtienen durante el
mismo periodo, no es necesario evaluar este supuesto.

Normalidad: Se evalúa el supuesto de normalidad en los errores organizados los residuos en una distribución de
frecuencias, y se efectúa una prueba de normalidad. Los datos no parecen alejarse de manera sustancial de una
distribución normal.
GRAFICO DE PROBABILIDAD NORMAL

20
15
10
5
RESIDUAL
0
0 0.2 0.4 0.6 0.8 1
-5
-10
-15
-20
CUARTIL
Grafico de probabilidad de los GRAFICO ESTANDARIZADO

residuos
1.2
2.5
1 2
Probabilidad
1.5
0.8
1
0.6 0.5
Z
0
0.4
-0.5 0 20 40 60 80 100 120
0.2 -1
-1.5
0
-2
0 50 100 150
X
X
Primeramente se ordenan los residuos en el orden del menor al mayor, se codifican del 1 al n y luego de calcula:
Cuartil = (i-0.5)/n
A continuación se grafica como grafico de dispersión en el eje de las X el cuartil y en el eje de las Y el residual. Si
el grafico muestra que los puntos se alinean en forma de una línea recta se aproxima a una distribución normal.

Igualdad de varianzas: Se evalúa el supuesto de igualdad de varianzas a partir de una grafica de residuos con Xi.
Cuando la grafica presenta una forma de abanico la variabilidad de los residuos aumenta dramáticamente a
medida que aumenta X, el supuesto de igualdad de varianzas es inválido, o se viola el supuesto de igualdad de
varianzas.
residuos
CONTRUCCIÓN DE LOS MODELOS DE LA REGRESIÓN

Con frecuencia la forma funcional de la ecuación que define la relación no se sabe por adelantado y debe
identificarse una vez que se haya analizado los datos. Así, las funciones de regresión lineal o cuadrática se utilizan
a menudo como primeras aproximaciones satisfactorias de las funciones de regresión de naturaleza desconocida.
APLICACIÓN DEL ANÁLISIS DE REGRESIÓN

El análisis de regresión tiene tres propósitos importantes:
1. La descripción
2. Control
3. Predicción
Puede ser que se utilice para solo propósitos por ejemplo: en la compra del tractor cuyo precio dependía del
número de granjas, la edad promedio del tractor, el índice de la cantidad de producción de vegetal, su propósito
era descriptivo. En el estudio de los gastos de exportación de la sucursal el propósito era de control
administrativo se podía desarrollar una relación estadística entre los costos y las variables independientes para
fijar estándares de costos para cada sucursal, en el estudio de los niños cortos, el propósito era de predicción,
los médicos podían utilizar la relación estadística para predecir deficiencias de la hormona de crecimiento en
niños cortos usando medidas de los niños.
Con frecuencia los propósitos se traslapan en la práctica.
A continuación se desarrollará una ecuación para expresar la relación entre dos variables, y obtener el valor de
la variable dependiente Y con base en un valor seleccionado de la variable independiente X. A la técnica
empleada para desarrollar la ecuación de la relación de dos variables linealmente relacionadas y hacer esas
predicciones, se le denomina análisis de regresión lineal. Cuando solo existe una variable de regresión a este
análisis se le denomina análisis de regresión lineal simple. Para el caso de más de una variable de regresión el
análisis es de regresión múltiple.
Represéntese una muestra aleatoria de tamaño n por el conjunto {(xi, yi); i= 1,2,....., n}. De aquí que el valor yi en
el par ordenado (xi , yi ) sea un valor de alguna variable aleatoria Yi . Por conveniencia se define Y/x como variable
aleatoria Y correspondiente a un valor fijo x y su media y su varianza se indican por Y/x y 2Y/x, respectivamente.
MODELO DE REGRESIÓN
La ecuación que representaría la línea que define la relación entre el num. de llamadas y el num. de
computadoras vendidas es:
Y =  o +  1x ecuación de regresión lineal (poblacional)
Donde:
Y = valor de respuesta dado un valor x
x = cualquier valor seleccionado de la variable independiente
o = es la ordenada de la intersección con el eje Y, o sea el valor de Y cuando x =0.
1 = es la pendiente de la recta, o sea, el cambio prometido en Y por unidad de cambio en la variable
independiente X.
o y  1 son los coeficientes de regresión, son parámetros que deben estimarse a partir de los datos muestrales.
Si bo y b1 representan estos estimadores, respectivamente, se puede entonces estimar Y por ŷ de la regresión
muestral o de la línea de regresión ajustada:
ŷ = bo + b1x
donde los estimadores bo y b1 representan la intercepción y pendiente de y, respectivamente. El símbolo ŷ se

utiliza para distinguir entre el valor estimado de la línea de regresión muestral y un valor experimental real
observado y para algún valor de x.
Cada Yi puede describirse por el modelo de regresión lineal simple:
Yi =  o +  1xi + Ei
donde el error aleatorio Ei, el error del modelo, debe necesariamente tener media de cero.

Cada par de observaciones satisface la relación:
ŷi = bo + b1xi + ei
donde ei se llama residuo y describe el error en el ajuste del modelo en el punto i de los datos, y se calcula
ei = yi – ŷi . La diferencia entre ei y Ei se muestra claramente en el diagrama.
Diagrama de disperción
80
Num. copiadoras
70
60 ɛ
50 e
40
30
20
10
0
0 10 20 30 40 50
Num. llamadas
Línea ajustada -----------

Línea de regresión poblacional ---------
ALCANCE DEL MODELO
Al formular un modelo de regresión, necesitamos generalmente restringir la cobertura del modelo a cierto
intervalo o región de valores de la variable o variable independientes. El alcance es determinado por la gama de
datos actuales.
Por ejemplo: una compañía que estudiaba el efecto del precio en volumen de ventas investigo seis niveles de
precios extendiéndose a partir de $4,95 a $6.95. Aquí, el alcance del modelo seria limitado a los niveles de precios
que se extienden cercano a $5.00 y cercano a $7.00. La forma de la función de regresión estaría en duda
substancialmente fuera de esta gama porque la investigación no proporciona ninguna evidencia en cuanto a la
naturaleza de la relación estadística debajo de $4.95 o sobre $6.95.
Ordinariamente, no sabemos los valores de los parámetros β0 y β1 de la regresión y necesitamos estimarlos de

los datos muestrales, tales datos muestrales se pueden obtener por medio de un experimento o por algún medio
experimental.
A veces es posible conducir un experimento controlado para proporcionar los datos muestrales de los cuales los
parámetros pueden ser estimados. Por ejemplo: una compañía de seguros desea estudiar la relación entre la
productividad de sus vendedores y la cantidad de entrenamiento. Por lo que entrena a cinco de sus vendedores

seleccionados al azar por dos semanas, cinco por 3 semanas, cinco por 4 semanas y cinco por 5 semanas y la
productividad de los vendedores entonces se observa. A menudo no es práctico o factible conducir experimentos
controlados, para obtener datos experimentales o datos observados. Tales datos se obtienen sin controlar la
variable independiente del interés. Por ejemplo: los funcionarios de salud pública desean estudiar la relación
entre la edad de la persona (X) y el número de días de la enfermedad (Y) por la que se toman datos de los
expedientes de la población del año pasado, puesto que no pueden asignar edades al azar de personas.
Una vez que se hayan obtenido los datos de cualquier forma puede ser establecida en una tabla como la del
ejemplo de las computadoras. Denotaremos las observaciones (xi , yi ) para el primer ensayo como (x1 , y1 ) para
el segundo (x2 , y2 ) y en general para el iesimo ensayo (xi , yi ) donde i = 1,2,3,4 … n.
El método de mínimos cuadrados
Técnica empleada para obtener la ecuación de regresión, minimizando la suma de los cuadrados de de los
residuos (distancia vertical entre los valores yi y los valores pronosticados ŷ).
Para encontrar los mejores estimadores de los parámetros 𝛽0 𝑦 𝛽1 de la regresión, emplearemos el método de
mínimos cuadrados. Para cada observación de la muestra (𝑥𝑖 , 𝑦𝑖 ), el método de mínimos cuadrados considera la
derivación de 𝑦𝑖 de su valor ajustado:
𝑦̂𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 + 𝑒𝑖
𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 ∴ ∑ 𝑒𝑖 = 𝑦𝑖 − (𝑏0 + 𝑏1 𝑥𝑖 )
Donde: 𝑒𝑖 es el error aleatorio, esto es la diferencia entre el valor observado 𝑦𝑖 y el valor ajustado a la línea de
regresión 𝑦̂𝑖 y se le denomina residual que es la distancia vertical entre una observación y el valor caído en la
línea de regresión estimada, describe el error en el ajuste del modelo.
𝑛
∑ 𝑒𝑖 = 0
𝑖=1
La suma de todos los residuales es cero por lo que el método de mínimos cuadrados trata de minimizar la
variación de los puntos observados con respecto al modelo o línea de regresión entonces:
𝑛 𝑛
𝑀𝑖𝑛 ∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 )2

𝑖=1 𝑖=1
A este término con frecuencia recibe el nombre de SUMA DE CUADRADOS DE LOS ERRORES (SSE).
De aquí para derivar las formulas con las que vamos a obtener los estimadores para 𝛽0 𝑦 𝛽1 .
n
(SSE) = -2 i 1
(yi – b0 – b1xi)=0
b0
n
(SSE) = -2 i 1
(yi – b0 – b1xi)xi=0
b1

Al igualar las derivadas parciales a cero y reacomodar los términos, se obtienen las ecuaciones normales:
n n
nbo + b1 
i 1
xi = 
i 1
yi
n n n
bo i 1
xi + b1  i 1
x2i = 
i 1
xiyi
las cuales se pueden resolver simultáneamente para dar las fórmulas de cálculo de bo y b1.
n
 n 
 yi  xi 
b0  i 1
 b1  i 1  = 𝐲̅ − 𝐛𝟏 𝐱̅
n  n 
 
 
n   n  n 
n   x i y i     x i   y i 
 i 1   i 1  i 1 
b1  2
n  x i2     x i 
n n
 i 1   i 1 
Así podemos estimar la ecuación de regresión:
𝑦̂𝑖 = 𝑏0 + 𝑏1 𝑥𝑖
La cual define la relación que tienen las variables. Siendo que los valores de "𝒙" son fijos, "𝒚" es una variable
aleatoria con media:
𝜇𝑦/𝑥 = 𝛽0 + 𝛽1 𝑥
Repre. llamadas comp.vendidas

Ventas (x) (y) x2 xy
Tomas 20 30 400 600
Jeff 40 60 1600 2400
Brian 20 40 400 800
Juan 30 60 900 1800
Susan 10 30 100 300
Carlos 10 40 100 400
Rich 20 40 400 800
Luis 20 50 400 1000
Mark 20 30 400 600
Soni 30 70 900 2100
Total 220 450 5600 10800

10(10800)  (220)(450)
b1 = = 1.1842
10(5600)  220 2
450  220 
bo =  1.1842  = 18.9476
10  10 
entonces la ecuación de regresión es:
ŷ = 18.9476 + 1.1842x
b1 = 1.1842 indica que por cada llamada adicional que se haga los representantes de ventas pueden esperar
aumentar en casi 1.2 el número de computadoras vendidas.
bo = 18.9476 indica que si no se hace ninguna llamada se espera que se vendan casi 19 computadoras. Aunque
este valor no esta considerado en el rango de valores de x en la muestra. Por lo que las llamadas a clientes fueron
de 10 a 40, así que los cálculos se deben hacer dentro de esa gama de valores.
Si un vendedor hace 22 llamadas telefónicas, puede esperar vender ŷ = 18.9476 + 1.1842(22) = 45 computadoras.
Con la ecuación de regresión podemos calcular el valor ajustado ŷ para cada valor dado de x en la muestra con
lo que obtenemos la línea recta que pasa a través de los puntos de la muestra.
vendedor llamadas cop.vendidas x2 xy y2 ŷ e = (y- ŷ) (y- ŷ)2

1 20 30 400 600 900 42.6316 -12.63157895 159.556787
2 40 60 1600 2400 3600 66.3158 -6.315789474 39.8891967
3 20 40 400 800 1600 42.6316 -2.631578947 6.92520776
4 30 60 900 1800 3600 54.4737 5.526315789 30.5401662
5 10 30 100 300 900 30.7895 -0.789473684 0.6232687
6 10 40 100 400 1600 30.7895 9.210526316 84.833795
7 20 40 400 800 1600 42.6316 -2.631578947 6.92520776
8 20 50 400 1000 2500 42.6316 7.368421053 54.2936288
9 20 30 400 600 900 42.6316 -12.63157895 159.556787
10 30 70 900 2100 4900 54.4737 15.52631579 241.066482
total 220 450 5600 10800 22100 -4.9738E-14 784.210526
22 45
Para estar en condiciones de realizar inferencias acerca de o y 1, es necesario obtener una estimación del
parámetro 2, la varianza del error del modelo, refleja la variación aleatoria o la variación del error experimental,
alrededor de la línea de regresión. Esta variación hay que estimarla con los datos muestrales.
Tenemos variación con respecto a cada media 𝑥̅ , 𝑦̅ de los puntos observados
𝑥̅
𝑦 𝑦
𝑦̅
(𝑥𝑖 − 𝑥̅ )2 (𝑦𝑖 − 𝑦̅)2
𝑥 𝑥
2
∑ 𝑥𝑖 ∑ 𝑥𝑖
∑(𝑥𝑖 − 𝑥̅ )2 = ∑(𝑥𝑖2 − 2𝑥𝑖 𝑥̅ + 𝑥̅ 2)
= ∑ 𝑥𝑖2 − 2𝑥̅ ∑ 𝑥𝑖 + 𝑛𝑥̅ = 2
∑ 𝑥𝑖2 −2( ) ∑ 𝑥𝑖 + 𝑛 ( ) =
𝑛 𝑛
2 2 2
∑ 𝑥𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖
= ∑ 𝑥𝑖2 − 2 ( ) +( ) = ∑ 𝑥𝑖2 − ( ) = 𝑺𝑺𝑿𝑿
𝑛 𝑛 𝑛
(∑ 𝑦𝑖 )2
∑(𝑦𝑖 − 𝑦̅)2 = ∑ 𝑦𝑖2 − = 𝑺𝑺𝒀𝒀
𝑛
(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑦̅
∑ 𝑥𝑖 ∑ 𝑦𝑖 ∑ 𝑥𝑖 ∑ 𝑦𝑖
∑(𝑥𝑖 − 𝑥̅ )2 (𝑦𝑖 − 𝑦̅) = ∑[𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦𝑖 − 𝑥𝑖 𝑦̅ + 𝑥̅ 𝑦̅] = ∑ 𝑥𝑖 𝑦𝑖 − (∑ 𝑦𝑖 ) − ∑ 𝑥𝑖 ( )+𝑛( )( )=
𝑛 𝑛 𝑛 𝑛
(∑ 𝑥𝑖 )(∑ 𝑦𝑖 ) (∑ 𝑥𝑖 )(∑ 𝑦𝑖 ) (∑ 𝑥𝑖 )(∑ 𝑦𝑖 )

= ∑ 𝑥𝑖 𝑦𝑖 − 2 + = ∑ 𝑥𝑖 𝑦𝑖 − = 𝑺𝑺𝑿𝒀
𝑛 𝑛 𝑛
Entonces:
n ( x ) 2
SSxx =  (xi - x ) =  x -
2 2
i
i 1
i 1 n
2
 n y 
SSyy =   yi  y    yi2   i1 
n 2 n i
i 1 i 1 n
 n x  n y 
)(yi - y ) =  xi yi   i 1  i 1 
n i i
SSxy =  (xi - x
i 1 n
Po lo tanto:
𝑏0 = 𝑦̅ − 𝑏̂1 𝑥̅
𝑆𝑆𝑋𝑌
𝑏1 =
𝑆𝑆𝑋𝑋

Una estimación insesgada de  es: 2
ss yy  b1 ss xy
2= s2 
n2
Debe ser estimada por varios motivos

 Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y.
 Para realizar inferencias con respecto a la función de regresión y la predicción de Y.
 La lógica del desarrollo de un estimador de 2 para el modelo de regresión es la misma que cuando se
muestrea una sola población
 La varianza de cada observación Yi es 2, la misma que la de cada término del error
Para nuestro ejemplo:
SSxx = 5600 
220 
2
 760
10
Ssyy = 2100 
450 2  1850
10
SSxy = 10800 
220 450 
 900
10
1850  1.1842 900  784 .22

s    98.0275
2
10  2 8
S = 9.9009
Las ventas de computadoras tienen una dispersión de 9.9009 computadoras con respecto a la línea de
regresión.

RESIDUALES
El iesimo residual es la diferencia entre el valor observado yi y el valor ajustado correspondiente

ŷ i. Se simboliza por ei, podemos escribir:
ei = yi – ŷ i = yi – b0 – b1xi
En la figura se muestral los residuales del ejemplo. Las magnitudes de los residuales son
mostradas por las líneas verticales entre una observación y el valor ajustado en la línea de
regresión estimada. Los residuales se calculan en la tabla.
y
4 e
3
e
2
e
1 e
0
1 2 3 4 X
Necesitamos distinguir entre los modelos el termino del error i = Yi – E(Yi) y el residual
ei = yi - ŷ i . El anterior indica la desviación vertical de Yi de la línea de regresión desconocida
de la población, y por lo tanto es desconocido. Por otra parte, el residual es la desviación
vertical observada de yi de la línea de regresión ajustada.
El residual es altamente útil para estudiar si el modelo dado de la regresión es apropiado para
los datos actuales.
El análisis de residuales se utiliza para evaluar los supuestos de: linealidad, independencia,
normalidad e igualdad de varianzas a través de los gráficos de residuales.
PROPIEDADES DE LA LÍNEA DE REGRESION AJUSTADA.
La línea de regresión ajustada por el método de mínimos cuadrados tiene un número de

propiedades digno de observación:
1. La suma de los residuales es cero:

n
 ei  0
i 1
Esta propiedad se puede probar fácilmente. Tenemos:
 e i   y i  b0  b1 x i    y i  n b0  b1  x i  0
n
i 1

por la primera ecuación normal. En la tabla se ilustra esta propiedad para el ejemplo.
El redondeo de errores puede, por supuesto, estar presente en cualquier caso
particular.
n
2. La suma de los residuos al cuadrado,  e2i , es mínima. Éste era requerimiento a
i 1
satisfacer en la derivación de mínimos cuadrados al estimar los parámetros de la
regresión.
3. La suma de los valores observados yi es igual a la suma de los valores ajustados ÿi
∑𝑛𝑖=1 𝑦1 = ∑𝑛𝑖=1 𝑦̂𝑖
Esta condición esta implícita en la primera ecuación normal:

 y i  n b0  b1  x i   b0  b1 x i    y i
la media de yi es igual que la media de ŷ i, se sabe y .
4. La suma de los residuales ponderados es cero cuando el residual del i-esimo ensayo
es ponderado por la variable independiente del i-esimo ensayo.
n
 x i ei  0
i 1
Esto sigue de la segunda ecuación normal:
 x i e i   x i y i  b0  b1 x i    x i y i  b0  x i  b1  x 2i  0
5. La suma de los residuales ponderados es cero cuando el residual del i-esimo ensayo
es ponderado por el valor ponderado de la variable de respuesta del i-esimo ensayo.
∑𝑛𝑖=1 𝑦̂𝑖 𝑒𝑖
Esta propiedad es una consecuencia de de la primera propiedad y cuarta.
6. La línea regresión pasa siempre a través del punto ( x , y ). Esto se puede ver
fácilmente en forma alternativa con la línea de regresión estimada ŷ = y  b1 x  x  .
Inferencias en el análisis de regresión.
Inferencias respecto a o y  1.
Para poder realizar la estimación de la pendiente y su intercepto necesitamos definir la

distribución de probabilidad para b0 y b1.
La distribución de probabilidad para b1 es una distribución T con v = n-2 y una desviación

s
estándar de s b1 
ss xx

Un Intervalo de Confianza del (1- )100% para el parámetro 1 en la línea de regresión
Y/x = o + 1x es:
  s   s 
P b1  t  / 2,v     1  b1  t  / 2,v 
  ss
  1  

  ss xx   xx  
Este intervalo nos es de utilidad para demostrar que si existe relación entre las variables X e
Y, cuando toma valores de + a + ó de – a -, afirmamos con un nivel de confianza del (1
– α)100% que si existe relación. Y cuando toma valores de – a + no tienen relación.
Prueba de Hipótesis para 1
Para probar si en realidad la variable independiente X tiene contribución a los valores de la

variable dependiente Y se realiza una prueba de hipótesis donde se establece la hipótesis nula
de que 1= 0 en contra la alternativa apropiada, de nuevo se utiliza la distribución t con v = n
– 2 para establecer una región crítica y entonces basar la decisión en el valor de:
b1  1
tc  s
ss xx
Hipótesis Región de rechazo

𝐇𝟎 : 𝛃𝟏 = 𝟎 𝐭 𝐜 > 𝐭 𝛂⁄ ,(𝐧−𝟐)
𝟐
𝐇𝟏 : 𝛃𝟏 ≠ 𝟎 𝐭 𝐜 < −𝐭 𝛂⁄ ,(𝐧−𝟐)
𝟐
𝐇𝟎 : 𝛃𝟏 ≥ 𝟎 𝐭 𝐜 < −𝐭 𝛂,(𝐧−𝟐)
𝐇𝟏 : 𝛃𝟏 < 0
𝐇𝟎 : 𝛃𝟏 ≤ 𝟎 𝐭 𝐜 > 𝐭 𝛂,(𝐧−𝟐)
𝐇𝟏 : 𝛃𝟏 > 0
Cuando se tiene suficiente evidencia para rechazar la H0, la conclusión en esta prueba es
que la variable independiente X si influye en los valores que toma la variable dependiente Y
Para el ejemplo tenemos:
Un Intervalo de Confianza del 95% para el parámetro 1 en la línea de regresión

Y/x = o + 1x es:
  9.9009   9.9009  
P 1.1842  t 0.025 ,8     1  1.1842  t 0.025 ,8     95 %
  760   760  

  9.9009   9.9009  
P 1.1842  2.306     1  1.1842  2.306     95 %
  760   760  
P 0.3560   1  2.0124  95%
Con un 95% de confianza podemos afirmar que la cantidad de computadoras que aumentarían
las ventas por cada llamada adicional irían de 0.3560 a 2.0124.
Con el intervalo de 𝛽1 puedo llegar a descartar el modelo, ya que, si el intervalo diera negativo
a positivo, entonces decrece y llega el momento en que se incrementa por lo que “x” no me
ayuda a explicar y ya que pasa en algún momento por cero y se descarta el modelo.
𝛽0 = 0
No hay relación entre
las variables
𝑦̂ = 𝑦̅
PRUEBA DE HIPOTESIS
Para probar que si tenemos relación lineal entre nuestras variables con un nivel de significancia
de 5%:
H0 1 = 0 (No hay relación lineal)

H1 1  0 (Hay una relación lineal)
 = 0.05
Rechazamos la H0 cuando:
tc > 2.306 ó tc < -2.306
b1   1 1.1842  0
t   3.2973
s 9.9009
ss xx 760
Decisión: hubo suficiente evidencia para rechazar la H0
Conclusión: si existe relación lineal entre las llamadas telefónicas y las ventas de
computadoras

Un Intervalo de Confianza del (1- )100% para el parámetro 0 en la línea de regresión

Y/x = o + 1x es:
La distribución de probabilidad para b0 es una distribución T con v = n-2 y una desviación

n
 x 2i
i 1
estándar de s b0  s
n ss xx
  n   n 
   x 2i    x 2i 
P b0  t  / 2,v  s i 1
   o  b0  t  / 2,v  s i 1   1  
  n ss xx   n ss xx 
   
     
Para probar la hipótesis nula de que 0 = 0 en contra la alternativa apropiada, de nuevo se

utiliza la distribución t con v = n – 2 para establecer una región critica y entonces basar la
decisión en el valor de:
b0   0
t
n
 x 2i
i 1
s
n ss xx
Un Intervalo de Confianza del 95% para el parámetro 0 en la línea de regresión

Y/x = o + 1x es:
P 18.9476  2.3068.4989   o  18.9476  2.3068.4989  95%
P  0.6508   o  38.5460  95%
Un Intervalo de Confianza del (1- )100% para la respuesta media Y/x
Para determinar de todos los vendedores que son ¿Cuál es su respuesta?

La ecuación ŷ = bo + b1x puede utilizarse para pronosticar o predecir la respuesta media Y/x
en x = x0 donde x0 no necesariamente es uno de los valores preseleccionados, se utilizará el
estimador ŷ = bo + b1x para estimar Y/x = o + 1x y la siguiente formula:

1 (𝑥0 − 𝑥̅ )2 1 (𝑥0 − 𝑥̅ )2
𝑃 [𝑦̂0 − 𝑡𝛼⁄2,𝑣 (√𝑠 2 ( + )) ≤ 𝜇𝑦⁄𝑥0 ≤ 𝑦̂0 + 𝑡𝛼⁄2,𝑣 (√𝑠 2 ( + ))] = 1 − 𝛼
𝑛 𝑠𝑠𝑥𝑥 𝑛 𝑠𝑠𝑥𝑥
V=n-2
𝑥̅
𝑦̅ = 𝛽0 + 𝛽1 𝑥𝑖
𝑦̅
Intervalo
𝑥1 𝑥2 𝑥̅ 𝑥3 𝑥4
Un Intervalo de Confianza del (1- )100% para la respuesta individual Y
Este intervalo es para una observación aislada en específico.
1 (𝑥𝑛 − 𝑥̅ )2
𝜎̂(𝑦̂𝑛𝑢𝑒𝑣𝑜 ) = √𝜎̂ 2 [1 + + ]
𝑛 𝑆𝑆𝑋𝑋
ෝ)
𝑬(𝒚 ෝ
𝒚 Valor observado
Valor ajustado
Intervalo 𝜇𝑦/𝑥
𝑦̅ = 𝛽0 + 𝛽1 𝑥𝑖
Intervalo 𝑦̅
El intervalo de precisión en el punto “x” siempre es más grande que el intervalo de confianza
para la respuesta media en el punto “x”. Esto se debe a que el intervalo de predicción depende
tanto del error del modelo ajustado como del error asociado con observaciones futuras.
La diferencia entre los intervalos para la respuesta media y pronósticos es que el primero es
para todos los vendedores que cumplan con el valor de “x” y el segundo es para un vendedor
que cumpla con el valor de “x” se sabe cuál podría ser el valor del pronóstico.
La ecuación ŷ = b0 + b1x puede utilizarse para pronosticar o predecir la respuesta media Y x0

en x = x0 donde x0 no necesariamente es uno de los valores preseleccionados, y la siguiente
fórmula:
1 (𝑥0 − 𝑥̅ )2 1 (𝑥0 − 𝑥̅ )2
𝑃 [𝑦̂0 − 𝑡𝛼⁄2,𝑣 (√𝑠 2 (1 + + )) ≤ 𝜇𝑦⁄𝑥0 ≤ 𝑦̂0 + 𝑡𝛼⁄2,𝑣 (√𝑠 2 (1 + + ))] = 1 − 𝛼
𝑛 𝑠𝑠𝑥𝑥 𝑛 𝑠𝑠𝑥𝑥
V= n-2

ANOVA (ANALISIS DE VARIANZA)
DESCOMPOSICIÓN DE LAS SUMAS DE CUADRADOS EN FUENTAS DE VARIACIÓN
PRUEBA DE SIGNIFICANCIA DE LA REGRESIÓN.
Para probar la significación de una regresión puede utilizarse un método conocido como
ANALISIS DE VARIANZAS.
Como base para la prueba el procedimiento particiona la variabilidad total en a variable de

respuesta en componentes manejables.
La identidad del análisis de varianzas en la descomposición de fuentes de variación.
y
𝑦̂
∑ 𝑦̂
Variación total no corregida 𝑥
Variación total no corregida es la distancia de ∑ 𝑦𝑖2
(∑ 𝑦)2
∑ 𝑦𝑖2 −
𝑛
𝑦̂
∑ 𝑦𝑖2
(∑ 𝑦)2
F.C.M.
𝑛
Variación total corregida
(∑ 𝑦𝑖 )2
Variación total corregida por la media es ∑ 𝑦𝑖2 − = ∑(𝑦𝑖 − 𝑦̅)2
𝑛

Varianza aleatoria
Varianza total
Varianza del modelo
La variación total corregida ∑(𝑦𝑖 − 𝑦̅)2 se puede descomponer en:
Variación aleatoria o debida al error ∑(𝑦𝑖 − 𝑦̂𝑖 )2 + Variación debida a la regresión ∑(𝑦̂𝑖 − 𝑦̅)2
∑(𝑦𝑖 − 𝑦̅)2 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 + ∑(𝑦̂𝑖 − 𝑦̅)2
De manera simbólica, la ecuación se puede escribir:
𝑆𝑆𝑌𝑌 = 𝑆𝑆𝐸 + 𝑆𝑆𝑅
Ya se señaló que
Entonces 𝑆𝑆𝑅 = 𝛽1 𝑆𝑆𝑋𝑌 𝑆𝑆𝐸 = 𝑆𝑆𝑌𝑌 − 𝛽መ1 𝑆𝑆𝑋𝑌
Suma de Suma de Suma de

cuadrados cuadrados cuadrados
error
total regresión
𝑦̂
V.R
𝑦̅
Variación total corregida = variación de regresión + 0.

Ya que no tiene variación aleatoria este modelo es igual, el que nos conviene.

V.R.
𝑦̂ = 𝑦̅
Variación total corregida = variación aleatoria + 0

Ya que no tiene variación debida a la regresión este modelo no sirve, no conviene.
PRUEBA DE SIGNIFICANCIA DE REGRESIÓN
𝑆𝑆𝑌𝑌 = 𝑆𝑆𝑒 + 𝑆𝑆𝑅
𝑆𝑆𝑒 𝑒𝑠 𝑙𝑎 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑒𝑟𝑟𝑜𝑟.

𝑆𝑆𝑌𝑌 𝑒𝑠 𝑙𝑎 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑡𝑜𝑡𝑎𝑙 𝑐𝑜𝑟𝑟𝑒𝑔𝑖𝑑𝑎
𝑆𝑆𝑅 = 𝛽1 𝑆𝑆𝑋𝑌 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛
Vamos a acomodar el procedimiento de prueba en una tabla de análisis de varianza (ANOVA).
H0 El modelo no se ajusta a un modelo lineal

H1 El modelo si se ajusta a un modelo lineal
ANOVA
Fuentes de variación Grados de Suma de cuadrados Cuadrado medio F

libertad
Regresión k-1 𝑆𝑆𝑅 = 𝛽1 𝑆𝑆𝑋𝑌 𝑆𝑆𝑅 𝑀𝑆𝑅
(𝑘 − 1) 𝑀𝑆𝐸
Error n-k 𝑆𝑆𝑒 = 𝑆𝑆𝑌𝑌 − 𝛽1 𝑆𝑆𝑋𝑌 𝑆𝑆𝑒
(𝑛 − 𝑘)
Total corregida n-1 (∑ 𝑦𝑖 )2
∑ 𝑦𝑖2 −
𝑛
Corrección por la 1 (∑ 𝑦𝑖 )2
media 𝑛
Total no corregida n ∑ 𝑦𝑖2
k es el número de parámetros que se estiman
MSR y MSE son estimadores de varianza
𝑆𝑆𝑒
𝑀𝑆𝐸 = = 𝜎̂ 2
(𝑛 − 𝑘)
Cuando la varianza de la regresión es igual a la varianza del error, el valor de F=1

𝑀𝑆𝑅
=1
𝑀𝑆𝐸
Para el ejemplo construya una ANOVA
Fuentes de variación Grados de Suma de cuadrados Cuadrado medio F

libertad
Regresión 1 1065.78 1065.78 1065.78
= 10.87
1 98.0275
Error 8 784.22 784.22
= 98.0275
8
Total corregida 9 1850
Corrección por la 1 20250
media
Total no corregida 10 22100
𝛽1 𝑆𝑆𝑋𝑌 = (1.1842)(900) = 1065.78
𝑆𝑆𝑒 = 𝑆𝑆𝑌𝑌 − 𝛽1 𝑆𝑆𝑋𝑌 = 1850 − 1065.78 = 784.22
(∑ 𝑦𝑖 )2 (450)2
∑ 𝑦𝑖2 − = 22100 − =
𝑛 10
(∑ 𝑦𝑖 )2
= 20250
𝑛
∑ 𝑦𝑖2 = 22100
Con estos datos obtenidos realizamos la prueba de significancia de la regresión.

Como la prueba está en función de las varianzas, la distribución que siguen la razón de varianzas estimadas es
una distribución F (Fisher) entonces la prueba seria la siguiente:
Ejercicios 495-497
𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
Región de rechazar 𝜎̂12 𝜎̂𝑅2

𝐹𝑐 = =
la H0 𝜎̂22 𝜎̂𝐸2
𝛼
𝑀𝑆𝑅
𝐹𝑐 =
𝑀𝑆𝐸
𝐹𝛼,(𝑘−1),(𝑛−𝑘)
Rechazar 𝐻0 cuando:
𝐹𝑐 > 𝐹𝛼,(𝑛−1),(𝑛−𝑘)
Para nuestro ejemplo:
𝛼 = 0.01, 𝛼 = 0.05
𝐹𝑐 = 10.87

𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
𝐹0.01,1,8 = 11.26
𝐹0.05,1,8 = 5.32
Rechazar 𝐻0 cuando:
𝐹𝑐 > 11.26
𝐹𝑐 > 5.32
Decisión. Como 10.87 no es mayor que 11.26 con un 𝛼 = 0.01 no se puede rechazar la 𝐻0 , pero un 𝛼 = 0.05,
𝐹𝑐 = 10.87 si es mayor que 5.32 por lo que se rechaza la 𝐻0 y se dice que la prueba fue significativa por lo que si
existe relación entre las variables, esto es los cambios de “x” influyen en los cambios de “y”.
La prueba es altamente significativa con 𝛼 = 0.01,
La prueba es significativa con 𝛼 = 0.05

ANÁLISIS DE CORRELACIÓN
El análisis de correlación intenta medir el grado de intensidad de la relación matemática de las

dos variables o la fuerza de tales relaciones entre dos variables por medio de un simple número
que recibe el nombre de coeficiente de correlación.
La constante  (rho) recibe el nombre de coeficiente de correlación poblacional y juega un

papel muy importante en muchos problemas de análisis de datos de dos variables.
El valor de  es 0 cuando 1 = 0, lo cual resulta cuando esencialmente no hay regresión lineal;
esto es, la línea de regresión es horizontal y cualquier conocimiento de x no es de utilidad para
predecir Y. Los valores de  =  1 solo ocurren cuando 2 = 0, en cuyo caso se tiene una
relación lineal perfecta entre las dos variables. Entonces un valor de  igual a +1 implica una
relación lineal perfecta con una pendiente positiva, mientras que un valor de  igual a -1 resulta
de una relación lineal perfecta con una pendiente negativa, y de aquí -1    1. Se
podría decir que estimaciones muéstrales de  cercanas a la unidad en magnitud indica buena
correlación o asociación lineal entre x y Y, mientras que valores cercanos a cero indican poca
o ninguna correlación.
Para asegurar de que la relación entre dos variables que se observan en un diagrama no se
deben a una construcción errónea y para cuantificar la magnitud de la correlación lineal en
términos numéricos, es de utilidad calcular el coeficiente de correlación, el cual, para una
muestra de n parejas de puntos del tipo (Xi, Yi) está definido por r (coeficiente de correlación
muestral) fue definido por el investigador Kart Pearson aproximadamente en 1900; r es una
medida de dependencia estadística lineal no una medida de la causalidad entre ambas
variables. Donde:
ss xx ss xy
r  b1 
ss yy ss xx ss yy
Los valores que tomo el coeficiente de correlación, r, están entre –1 y 1, incluyendo éstos. Los
valores de r cercanos o iguales a cero implican poca o nula relación lineal entre X y Y. En
contraste, los valores de r cercanos a 1 indican una relación lineal fuerte, entre más cercanos
es más fuerte la relación, y los valores de r próximos a –1 señalan una fuerte correlación
negativa.
No hay variación de regresión, el

modelo no sirve r=0

No hay que olvidar que el hecho de que r tenga valores cercanos a cero indica que no hay
relación lineal, y de ninguna manera muestra que no hay ningún tipo de relación.
r expresa la proporción que existe de relación entre la variable independiente y la variable

dependiente.
r no mide la magnitud de la pendiente, tampoco lo apropiado del modelo lineal
Prueba de hipótesis para el coeficiente de correlación
Para probar la hipótesis nula de que  = 0 en contra la alternativa apropiada, de nuevo se utiliza
la distribución t con v = n – 2 para establecer una región crítica y entonces basar la decisión
en el valor de:
𝐫−𝛒
𝐭𝐜 =
𝟐
√𝟏 − 𝐫
𝐧−𝟐
Para probar que si existe una relación lineal estadísticamente significativa entre nuestras
variables con un nivel de significancia de 5%:
H0  = 0 (sin correlación)
H1 1  0 (correlación)
 = 0.05
Rechazamos la H0 cuando:
tc > 2.306 ó tc < -2.306
𝐫−𝛒 𝟎.𝟕𝟓𝟗𝟎−𝟎 𝟎.𝟕𝟓𝟗𝟎

𝐭𝐜 = = = = 𝟑. 𝟐𝟗𝟕𝟐 (Nota: el valor de t es el mismo valor que se
𝟐 𝟏−𝟎.𝟓𝟕𝟔𝟏 𝟎.𝟐𝟑𝟎𝟐
√𝟏−𝐫 √
𝐧−𝟐 𝟖
obtuvo en la prueba para β1)
Decisión: hubo suficiente evidencia para rechazar la H0
Conclusión: si existe una asociación significativa entre las llamadas telefónicas y las ventas
de computadoras.

Estadística descriptiva para ingeniería ambiental
Coeficiente de determinación:
Por otro lado r2 es a la que usualmente se le llama coeficiente de determinación muestral,

es la variación total de la variable dependiente y, que es explicada o se debe a la variación de
la variable independiente x. Expresa la proporción de la variación total de los valores de y que
se pueden contabilizar o explicar por una relación lineal con los valores de la variable x.
Propiedades del coeficiente de determinación:
• 0 ≤ R2 ≤ 1 en términos porcentuales; 0% ≤ R2 ≤ 100%
• R2≤ r2
• R2 da una mejor interpretación de la fuerza de relación entre y y x, que el coeficiente de
correlación, r.
ss xy 900
r   0.7590
ss xx ss yy 7601850
Interpretación: existe un 75.90% de relación lineal entre las llamadas hechas por los
representantes de ventas y las computadoras vendidas.
r2= 0.5761
Interpretación: 57.61% de la variabilidad total de las computadoras vendidas se debe a la

relación lineal (modelo de regresión estimado) con las llamadas hechas por los representantes
de ventas.
Coeficiente de no determinación: a partir del coeficiente de determinación se determina:

1 – r2 el cual mide la proporción de la variación total de y, que no es explicada por la variación
de x. Para el ejemplo el 42.39% de la variabilidad total de las computadoras vendidas no es
explicada por la variación de las llamadas telefónicas hechas por los representantes de ventas.

Regersion Lineal y Correlacion Final

Încărcat de

Informații document

Descriere originală:

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regersion Lineal y Correlacion Final

Încărcat de

Drepturi de autor:

Formate disponibile

REGRESION LINEAL SIMPLE

1.1 Modelo de regresión simple.

Modelo de Regresión lineal simple

Relaciones entre variables.

Variables dependientes.- o respuesta la cual no se controla en el experimento y es la que se requiere predecir o

María del Rosario Aguillón Ruiz 1

Regresión multiple.- cuando existe más de una variable de regresión.

Relación funcional entre dos variables

Dado un valor particular de x, la función matemática f(x) indicara el valor correspondiente de y.

Mostrando está relación funcional (determinística):

Trazando estas observaciones un diagrama:

María del Rosario Aguillón Ruiz 2

Relación estadística entre dos variables:

Representante Num. de Num. de computadoras

María del Rosario Aguillón Ruiz 3

María del Rosario Aguillón Ruiz 4

Correlación positiva Correlación negativa

María del Rosario Aguillón Ruiz 5

Relación nula Relación Curvilínea

CONSIDERACIONES BASICAS PARA LA REGRESIÓN LINEAL

María del Rosario Aguillón Ruiz 6

María del Rosario Aguillón Ruiz 7

GRAFICO DE PROBABILIDAD NORMAL

Grafico de probabilidad de los GRAFICO ESTANDARIZADO

María del Rosario Aguillón Ruiz 8

CONTRUCCIÓN DE LOS MODELOS DE LA REGRESIÓN

APLICACIÓN DEL ANÁLISIS DE REGRESIÓN

Y =  o +  1x ecuación de regresión lineal (poblacional)

donde los estimadores bo y b1 representan la intercepción y pendiente de y, respectivamente. El símbolo ŷ se

Cada Yi puede describirse por el modelo de regresión lineal simple:

María del Rosario Aguillón Ruiz 10

Línea ajustada -----------

ALCANCE DEL MODELO

Ordinariamente, no sabemos los valores de los parámetros β0 y β1 de la regresión y necesitamos estimarlos de

María del Rosario Aguillón Ruiz 11

El método de mínimos cuadrados

𝑀𝑖𝑛 ∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 )2

María del Rosario Aguillón Ruiz 12

Así podemos estimar la ecuación de regresión:

Repre. llamadas comp.vendidas

María del Rosario Aguillón Ruiz 13

vendedor llamadas cop.vendidas x2 xy y2 ŷ e = (y- ŷ) (y- ŷ)2

(𝑥𝑖 − 𝑥̅ )2 (𝑦𝑖 − 𝑦̅)2

(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)

(∑ 𝑥𝑖 )(∑ 𝑦𝑖 ) (∑ 𝑥𝑖 )(∑ 𝑦𝑖 ) (∑ 𝑥𝑖 )(∑ 𝑦𝑖 )

María del Rosario Aguillón Ruiz 15

Debe ser estimada por varios motivos

Para nuestro ejemplo:

1850  1.1842 900  784 .22

María del Rosario Aguillón Ruiz 16

El iesimo residual es la diferencia entre el valor observado yi y el valor ajustado correspondiente

PROPIEDADES DE LA LÍNEA DE REGRESION AJUSTADA.

La línea de regresión ajustada por el método de mínimos cuadrados tiene un número de

1. La suma de los residuales es cero:

María del Rosario Aguillón Ruiz 17

3. La suma de los valores observados yi es igual a la suma de los valores ajustados ÿi

∑𝑛𝑖=1 𝑦1 = ∑𝑛𝑖=1 𝑦̂𝑖

Esta condición esta implícita en la primera ecuación normal:

Inferencias en el análisis de regresión.

Para poder realizar la estimación de la pendiente y su intercepto necesitamos definir la

La distribución de probabilidad para b1 es una distribución T con v = n-2 y una desviación

María del Rosario Aguillón Ruiz 18

Prueba de Hipótesis para 1