Documente Academic
Documente Profesional
Documente Cultură
UNIDAD V
REGRESIÓN LINEAL SIMPLE.
Anteriormente se destacó principalmente cómo deducir algo acerca de un parámetro poblacional, como la media
o una proporción poblacional, etc. En todos estos se trabajó sólo con una variable de nivel de intervalo o de
razón, como el peso o contenido de una botella, el ingreso de un trabajador, el número de pacientes aceptados
en cierto hospital.
Ahora se estudiara la relación entre dos o más variables, y se desarrollara una ecuación que permita calcular una
variable basada en otra. Por ejemplo: ¿existe alguna relación entre lo que gasta una empresa en publicidad y sus
ventas?, ¿existe alguna relación entre la antigüedad en el trabajo de un empleado de producción y el número de
unidades que elabora?, ¿Qué relación existe entre el rendimiento por galón de gasolina y el desplazamiento del
motor? , etc.
En la práctica, con mucha frecuencia es necesario resolver problemas que implican un conjunto de variables,
cuando se sabe que existe alguna relación inherente entre ellas. Puede ser interesante desarrollar un método de
predicción, esto es, un procedimiento para estimar las ventas que se tendrán para varios niveles de gastos de
publicidad tomados de información experimental. El aspecto estadístico del problema consiste entonces en
lograr la mejor estimación de la relación entre las variables.
En esta unidad se examinará un diagrama diseñado para representar la relación entre dos variables: diagrama
de dispersión, se continua el estudio desarrollando una ecuación que permitirá calcular el valor de una variable
con base en el valor de otra y a esto se le denomina análisis de regresión es una técnica estadística para el
modelado y la investigación de la relación entre dos o más variables, y examinaremos el significado y el objetivo
del análisis de correlación conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación
entre dos variables.
De acuerdo al papel que desempeña cada variable dentro del proceso experimental en un análisis de regresión
podemos identificar los dos tipos de variables:
Variable independiente.- o de regresión (preeditor o regresor) las cuales se controlan en el experimento por lo
que no son aleatorias no tienen propiedades distribucionales.
Una relación funcional entre dos variables es expresada por una función matemática.
Si x es la variable independiente y y la dependiente, una relación funcional está de la forma:
Y= f(X)
Ejemplo: Considere la relación entre las ventas o ingresos de un establecimiento (y) que vende boletos a un
precio fijo y el número de boletos vendidos (x). Si el precio del boleto es $50, la relación es expresada por la
ecuación:
Y=50x
Número de Ingreso ó
Boletos venta
5 250
20 1000
30 1500
100 5000
Num. de boletos
Observe todos los puntos caen directamente en la línea de la relación funcional, la relación es perfecta.
En una relación estadística no es perfecta, no caen directamente los puntos o los valores de la variable en la
curva de la relación.
Ejemplo: Suponga que el gerente de ventas de una compañía: DELL, empresa que tiene una gran fuerza de
ventas, desea determinar si existe una relación entre el número de llamadas telefónicas de ventas hechas en un
mes, y la cantidad de computadoras vendidas durante ese lapso. El gerente selecciona al azar una muestra de 10
representantes, y determina el número de tales llamadas que hizo cada uno el mes anterior y la cantidad de
productos vendidos. La información muestral aparece en la siguiente tabla:
Para este ejemplo y para la mayoría de las aplicaciones, existe una clara distinción entre las variables en cuanto
a su papel dentro del proceso experimental. En el ejemplo el número de llamadas es la variable independiente o
variable de regresión (x) y el número de computadoras vendidas es la repuesta (y).
Y- Num. de computadoras
X- Num. de llamadas
Cada punto en diagrama esta representado por el par de ordenado (x, y)
Num.
computadoras
80
70
60
50 10, 40
40
30
10, 30
20
10
0
0 20 40 60
Num. llamadas
Como Sony vendió el mayor número de computadoras haciendo 30 llamadas, por otra parte Susan hizo solo 10
llamadas y vendió el menor número de computadoras entre los representantes en la muestra.
La deducción es que el número de computadoras vendidas tiene relación con la cantidad de llamadas realizadas.
La grafica indica que los representantes de ventas que hacen más llamadas telefónicas, tienden a vender más
computadoras. Sin embargo la relación no es perfecta. Hay dispersión de puntos, sugiriendo que algo de la
variación del número de computadoras vendidas no es considerada por las llamadas telefónicas. Por ejemplo
cuando se hacen 20 llamadas se tienen diversos números de computadoras vendidas (30, 40, 50). Debido a la
dispersión de puntos presentada por la relación estadística se llama a la grafica: diagrama de dispersión; cada
punto en el diagrama de dispersión representa una observación o ensayo. En la grafica podemos trazar una
línea que puede indicar la relación que describe la relación estadística entre las computadoras vendidas y el
número de llamadas.
Num.
computadoras
80
70
60
50 10, 40
40
30
10, 30
20
10
0
0 20 40 60
Num. llamadas
Observe que la mayoría de los puntos no están directamente en la línea de la relación estadística, esta dispersión
de puntos alrededor de la línea representa la variación en el número de computadoras que no se asocia al
número de llamadas y que se considera de una naturaleza al azar. Las relaciones estadísticas son altamente
útiles.
En el diagrama de dispersión se indica una relación positiva ya que a mayor número de llamadas, mayor número
de copiadoras vendidas.
DIAGRAMAS DE DISPERSIÓN
y y
25 25
20 20
15 15
10 10
5 5
0 0
0 5 10 15 0 5 10 15
x x
También hay relación negativa cuando a mayor valor de la variable independiente (x), menor valor de la variable
dependiente (y). Por ejemplo demanda con precio.
Puede ser que no exista relación por ejemplo el número de hijos con el ingreso anual.
También podemos tener una relación curvilínea (no lineal) por ejemplo la edad y el nivel de un esteroide en el
plasma en mujeres, conforme aumenta la edad, el nivel del esteroide aumenta hasta un punto y después
comienza a declinar.
1. Linealidad
2. Independencia de los errores
3. Normalidad del error
4. Igualdad de varianzas
Linealidad: plantea que la relación de las variables es lineal. Para evaluar la linealidad se grafican los residuos
(e) en el eje vertical en oposición a los valores de Xi, correspondientes de la variable independiente en el eje
horizontal. Si el modelo lineal es adecuado para los datos, no se observan ningún patrón aparente en la
grafica. Los residuos deberían formar una nube de puntos sin estructura y con, aproximadamente, la misma
variabilidad por todas las zonas como se muestra en el gráfico.
Si el modelo lineal no es apropiado, en la grafica residual habrá una relación entre los valores de X i y los
residuos ei.
Residual
Independencia: Se evalúa el supuesto de independencia de los errores sólo cuando si los datos se reunieron a lo
largo del tiempo, graficando los residuos en el orden o la secuencia en que se recolectaron los datos. Si los valores
de Y forman parte de una serie de tiempo, en ocasiones un residuo podría estar relacionado con el anterior. Si
existe una relación entre residuos consecutivos, la grafica de los residuos en oposición al momento en que se
reunieron los datos a menudo revelan un patrón cíclico. Cuando los datos a analizar se obtienen durante el
mismo periodo, no es necesario evaluar este supuesto.
0
0 0.2 0.4 0.6 0.8 1
-5
-10
-15
-20
CUARTIL
1.5
0.8
1
0.6 0.5
Z
0
0.4
-0.5 0 20 40 60 80 100 120
0.2 -1
-1.5
0
-2
0 50 100 150
X
X
Primeramente se ordenan los residuos en el orden del menor al mayor, se codifican del 1 al n y luego de calcula:
Cuartil = (i-0.5)/n
A continuación se grafica como grafico de dispersión en el eje de las X el cuartil y en el eje de las Y el residual. Si
el grafico muestra que los puntos se alinean en forma de una línea recta se aproxima a una distribución normal.
1. La descripción
2. Control
3. Predicción
Puede ser que se utilice para solo propósitos por ejemplo: en la compra del tractor cuyo precio dependía del
número de granjas, la edad promedio del tractor, el índice de la cantidad de producción de vegetal, su propósito
era descriptivo. En el estudio de los gastos de exportación de la sucursal el propósito era de control
administrativo se podía desarrollar una relación estadística entre los costos y las variables independientes para
fijar estándares de costos para cada sucursal, en el estudio de los niños cortos, el propósito era de predicción,
los médicos podían utilizar la relación estadística para predecir deficiencias de la hormona de crecimiento en
niños cortos usando medidas de los niños.
Con frecuencia los propósitos se traslapan en la práctica.
A continuación se desarrollará una ecuación para expresar la relación entre dos variables, y obtener el valor de
la variable dependiente Y con base en un valor seleccionado de la variable independiente X. A la técnica
empleada para desarrollar la ecuación de la relación de dos variables linealmente relacionadas y hacer esas
predicciones, se le denomina análisis de regresión lineal. Cuando solo existe una variable de regresión a este
María del Rosario Aguillón Ruiz 9
REGRESION LINEAL SIMPLE
análisis se le denomina análisis de regresión lineal simple. Para el caso de más de una variable de regresión el
análisis es de regresión múltiple.
Represéntese una muestra aleatoria de tamaño n por el conjunto {(xi, yi); i= 1,2,....., n}. De aquí que el valor yi en
el par ordenado (xi , yi ) sea un valor de alguna variable aleatoria Yi . Por conveniencia se define Y/x como variable
aleatoria Y correspondiente a un valor fijo x y su media y su varianza se indican por Y/x y 2Y/x, respectivamente.
MODELO DE REGRESIÓN
La ecuación que representaría la línea que define la relación entre el num. de llamadas y el num. de
computadoras vendidas es:
Donde:
Y = valor de respuesta dado un valor x
x = cualquier valor seleccionado de la variable independiente
o = es la ordenada de la intersección con el eje Y, o sea el valor de Y cuando x =0.
1 = es la pendiente de la recta, o sea, el cambio prometido en Y por unidad de cambio en la variable
independiente X.
o y 1 son los coeficientes de regresión, son parámetros que deben estimarse a partir de los datos muestrales.
Si bo y b1 representan estos estimadores, respectivamente, se puede entonces estimar Y por ŷ de la regresión
muestral o de la línea de regresión ajustada:
ŷ = bo + b1x
Yi = o + 1xi + Ei
donde el error aleatorio Ei, el error del modelo, debe necesariamente tener media de cero.
ŷi = bo + b1xi + ei
donde ei se llama residuo y describe el error en el ajuste del modelo en el punto i de los datos, y se calcula
ei = yi – ŷi . La diferencia entre ei y Ei se muestra claramente en el diagrama.
Diagrama de disperción
80
Num. copiadoras
70
60 ɛ
50 e
40
30
20
10
0
0 10 20 30 40 50
Num. llamadas
Al formular un modelo de regresión, necesitamos generalmente restringir la cobertura del modelo a cierto
intervalo o región de valores de la variable o variable independientes. El alcance es determinado por la gama de
datos actuales.
Por ejemplo: una compañía que estudiaba el efecto del precio en volumen de ventas investigo seis niveles de
precios extendiéndose a partir de $4,95 a $6.95. Aquí, el alcance del modelo seria limitado a los niveles de precios
que se extienden cercano a $5.00 y cercano a $7.00. La forma de la función de regresión estaría en duda
substancialmente fuera de esta gama porque la investigación no proporciona ninguna evidencia en cuanto a la
naturaleza de la relación estadística debajo de $4.95 o sobre $6.95.
A veces es posible conducir un experimento controlado para proporcionar los datos muestrales de los cuales los
parámetros pueden ser estimados. Por ejemplo: una compañía de seguros desea estudiar la relación entre la
productividad de sus vendedores y la cantidad de entrenamiento. Por lo que entrena a cinco de sus vendedores
Técnica empleada para obtener la ecuación de regresión, minimizando la suma de los cuadrados de de los
residuos (distancia vertical entre los valores yi y los valores pronosticados ŷ).
Para encontrar los mejores estimadores de los parámetros 𝛽0 𝑦 𝛽1 de la regresión, emplearemos el método de
mínimos cuadrados. Para cada observación de la muestra (𝑥𝑖 , 𝑦𝑖 ), el método de mínimos cuadrados considera la
derivación de 𝑦𝑖 de su valor ajustado:
𝑦̂𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 + 𝑒𝑖
𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 ∴ ∑ 𝑒𝑖 = 𝑦𝑖 − (𝑏0 + 𝑏1 𝑥𝑖 )
Donde: 𝑒𝑖 es el error aleatorio, esto es la diferencia entre el valor observado 𝑦𝑖 y el valor ajustado a la línea de
regresión 𝑦̂𝑖 y se le denomina residual que es la distancia vertical entre una observación y el valor caído en la
línea de regresión estimada, describe el error en el ajuste del modelo.
𝑛
∑ 𝑒𝑖 = 0
𝑖=1
La suma de todos los residuales es cero por lo que el método de mínimos cuadrados trata de minimizar la
variación de los puntos observados con respecto al modelo o línea de regresión entonces:
𝑛 𝑛
A este término con frecuencia recibe el nombre de SUMA DE CUADRADOS DE LOS ERRORES (SSE).
De aquí para derivar las formulas con las que vamos a obtener los estimadores para 𝛽0 𝑦 𝛽1 .
n
(SSE) = -2 i 1
(yi – b0 – b1xi)=0
b0
n
(SSE) = -2 i 1
(yi – b0 – b1xi)xi=0
b1
n n n
bo i 1
xi + b1 i 1
x2i =
i 1
xiyi
las cuales se pueden resolver simultáneamente para dar las fórmulas de cálculo de bo y b1.
n
n
yi xi
b0 i 1
b1 i 1 = 𝐲̅ − 𝐛𝟏 𝐱̅
n n
n n n
n x i y i x i y i
i 1 i 1 i 1
b1 2
n x i2 x i
n n
i 1 i 1
𝑦̂𝑖 = 𝑏0 + 𝑏1 𝑥𝑖
La cual define la relación que tienen las variables. Siendo que los valores de "𝒙" son fijos, "𝒚" es una variable
aleatoria con media:
𝜇𝑦/𝑥 = 𝛽0 + 𝛽1 𝑥
450 220
bo = 1.1842 = 18.9476
10 10
entonces la ecuación de regresión es:
ŷ = 18.9476 + 1.1842x
b1 = 1.1842 indica que por cada llamada adicional que se haga los representantes de ventas pueden esperar
aumentar en casi 1.2 el número de computadoras vendidas.
bo = 18.9476 indica que si no se hace ninguna llamada se espera que se vendan casi 19 computadoras. Aunque
este valor no esta considerado en el rango de valores de x en la muestra. Por lo que las llamadas a clientes fueron
de 10 a 40, así que los cálculos se deben hacer dentro de esa gama de valores.
Si un vendedor hace 22 llamadas telefónicas, puede esperar vender ŷ = 18.9476 + 1.1842(22) = 45 computadoras.
Con la ecuación de regresión podemos calcular el valor ajustado ŷ para cada valor dado de x en la muestra con
lo que obtenemos la línea recta que pasa a través de los puntos de la muestra.
Para estar en condiciones de realizar inferencias acerca de o y 1, es necesario obtener una estimación del
parámetro 2, la varianza del error del modelo, refleja la variación aleatoria o la variación del error experimental,
alrededor de la línea de regresión. Esta variación hay que estimarla con los datos muestrales.
Tenemos variación con respecto a cada media 𝑥̅ , 𝑦̅ de los puntos observados
𝑥̅
𝑦 𝑦
𝑦̅
𝑥 𝑥
María del Rosario Aguillón Ruiz 14
REGRESION LINEAL SIMPLE
2
∑ 𝑥𝑖 ∑ 𝑥𝑖
∑(𝑥𝑖 − 𝑥̅ )2 = ∑(𝑥𝑖2 − 2𝑥𝑖 𝑥̅ + 𝑥̅ 2)
= ∑ 𝑥𝑖2 − 2𝑥̅ ∑ 𝑥𝑖 + 𝑛𝑥̅ = 2
∑ 𝑥𝑖2 −2( ) ∑ 𝑥𝑖 + 𝑛 ( ) =
𝑛 𝑛
2 2 2
∑ 𝑥𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖
= ∑ 𝑥𝑖2 − 2 ( ) +( ) = ∑ 𝑥𝑖2 − ( ) = 𝑺𝑺𝑿𝑿
𝑛 𝑛 𝑛
(∑ 𝑦𝑖 )2
∑(𝑦𝑖 − 𝑦̅)2 = ∑ 𝑦𝑖2 − = 𝑺𝑺𝒀𝒀
𝑛
𝑦̅
∑ 𝑥𝑖 ∑ 𝑦𝑖 ∑ 𝑥𝑖 ∑ 𝑦𝑖
∑(𝑥𝑖 − 𝑥̅ )2 (𝑦𝑖 − 𝑦̅) = ∑[𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦𝑖 − 𝑥𝑖 𝑦̅ + 𝑥̅ 𝑦̅] = ∑ 𝑥𝑖 𝑦𝑖 − (∑ 𝑦𝑖 ) − ∑ 𝑥𝑖 ( )+𝑛( )( )=
𝑛 𝑛 𝑛 𝑛
Entonces:
n ( x ) 2
SSxx = (xi - x ) = x -
2 2
i
i 1
i 1 n
2
n y
SSyy = yi y yi2 i1
n 2 n i
i 1 i 1 n
n x n y
)(yi - y ) = xi yi i 1 i 1
n i i
SSxy = (xi - x
i 1 n
Po lo tanto:
𝑏0 = 𝑦̅ − 𝑏̂1 𝑥̅
𝑆𝑆𝑋𝑌
𝑏1 =
𝑆𝑆𝑋𝑋
ss yy b1 ss xy
2= s2
n2
SSxx = 5600
220
2
760
10
Ssyy = 2100
450 2 1850
10
SSxy = 10800
220 450
900
10
10 2 8
S = 9.9009
Las ventas de computadoras tienen una dispersión de 9.9009 computadoras con respecto a la línea de
regresión.
ei = yi – ŷ i = yi – b0 – b1xi
En la figura se muestral los residuales del ejemplo. Las magnitudes de los residuales son
mostradas por las líneas verticales entre una observación y el valor ajustado en la línea de
regresión estimada. Los residuales se calculan en la tabla.
y
4 e
3
e
2
e
1 e
0
1 2 3 4 X
Necesitamos distinguir entre los modelos el termino del error i = Yi – E(Yi) y el residual
ei = yi - ŷ i . El anterior indica la desviación vertical de Yi de la línea de regresión desconocida
de la población, y por lo tanto es desconocido. Por otra parte, el residual es la desviación
vertical observada de yi de la línea de regresión ajustada.
El residual es altamente útil para estudiar si el modelo dado de la regresión es apropiado para
los datos actuales.
El análisis de residuales se utiliza para evaluar los supuestos de: linealidad, independencia,
normalidad e igualdad de varianzas a través de los gráficos de residuales.
i 1
5. La suma de los residuales ponderados es cero cuando el residual del i-esimo ensayo
es ponderado por el valor ponderado de la variable de respuesta del i-esimo ensayo.
∑𝑛𝑖=1 𝑦̂𝑖 𝑒𝑖
Esta propiedad es una consecuencia de de la primera propiedad y cuarta.
6. La línea regresión pasa siempre a través del punto ( x , y ). Esto se puede ver
fácilmente en forma alternativa con la línea de regresión estimada ŷ = y b1 x x .
Inferencias respecto a o y 1.
s s
P b1 t / 2,v 1 b1 t / 2,v
ss
1
ss xx xx
Este intervalo nos es de utilidad para demostrar que si existe relación entre las variables X e
Y, cuando toma valores de + a + ó de – a -, afirmamos con un nivel de confianza del (1
– α)100% que si existe relación. Y cuando toma valores de – a + no tienen relación.
b1 1
tc s
ss xx
Cuando se tiene suficiente evidencia para rechazar la H0, la conclusión en esta prueba es
que la variable independiente X si influye en los valores que toma la variable dependiente Y
9.9009 9.9009
P 1.1842 t 0.025 ,8 1 1.1842 t 0.025 ,8 95 %
760 760
Con un 95% de confianza podemos afirmar que la cantidad de computadoras que aumentarían
las ventas por cada llamada adicional irían de 0.3560 a 2.0124.
Con el intervalo de 𝛽1 puedo llegar a descartar el modelo, ya que, si el intervalo diera negativo
a positivo, entonces decrece y llega el momento en que se incrementa por lo que “x” no me
ayuda a explicar y ya que pasa en algún momento por cero y se descarta el modelo.
𝛽0 = 0
No hay relación entre
las variables
𝑦̂ = 𝑦̅
PRUEBA DE HIPOTESIS
Para probar que si tenemos relación lineal entre nuestras variables con un nivel de significancia
de 5%:
= 0.05
Rechazamos la H0 cuando:
tc > 2.306 ó tc < -2.306
b1 1 1.1842 0
t 3.2973
s 9.9009
ss xx 760
Conclusión: si existe relación lineal entre las llamadas telefónicas y las ventas de
computadoras
n n
x 2i x 2i
P b0 t / 2,v s i 1
o b0 t / 2,v s i 1 1
n ss xx n ss xx
b0 0
t
n
x 2i
i 1
s
n ss xx
V=n-2
𝑥̅
𝑦̅ = 𝛽0 + 𝛽1 𝑥𝑖
𝑦̅
Intervalo
𝑥1 𝑥2 𝑥̅ 𝑥3 𝑥4
1 (𝑥𝑛 − 𝑥̅ )2
𝜎̂(𝑦̂𝑛𝑢𝑒𝑣𝑜 ) = √𝜎̂ 2 [1 + + ]
𝑛 𝑆𝑆𝑋𝑋
ෝ)
𝑬(𝒚 ෝ
𝒚 Valor observado
Valor ajustado
Intervalo 𝜇𝑦/𝑥
𝑦̅ = 𝛽0 + 𝛽1 𝑥𝑖
Intervalo 𝑦̅
El intervalo de precisión en el punto “x” siempre es más grande que el intervalo de confianza
para la respuesta media en el punto “x”. Esto se debe a que el intervalo de predicción depende
tanto del error del modelo ajustado como del error asociado con observaciones futuras.
La diferencia entre los intervalos para la respuesta media y pronósticos es que el primero es
para todos los vendedores que cumplan con el valor de “x” y el segundo es para un vendedor
que cumpla con el valor de “x” se sabe cuál podría ser el valor del pronóstico.
María del Rosario Aguillón Ruiz 22
REGRESION LINEAL SIMPLE
1 (𝑥0 − 𝑥̅ )2 1 (𝑥0 − 𝑥̅ )2
𝑃 [𝑦̂0 − 𝑡𝛼⁄2,𝑣 (√𝑠 2 (1 + + )) ≤ 𝜇𝑦⁄𝑥0 ≤ 𝑦̂0 + 𝑡𝛼⁄2,𝑣 (√𝑠 2 (1 + + ))] = 1 − 𝛼
𝑛 𝑠𝑠𝑥𝑥 𝑛 𝑠𝑠𝑥𝑥
V= n-2
Para probar la significación de una regresión puede utilizarse un método conocido como
ANALISIS DE VARIANZAS.
y
𝑦̂
∑ 𝑦̂
(∑ 𝑦)2
∑ 𝑦𝑖2 −
𝑛
𝑦̂
∑ 𝑦𝑖2
(∑ 𝑦)2
F.C.M.
𝑛
(∑ 𝑦𝑖 )2
Variación total corregida por la media es ∑ 𝑦𝑖2 − = ∑(𝑦𝑖 − 𝑦̅)2
𝑛
Varianza aleatoria
Varianza total
Varianza del modelo
Variación aleatoria o debida al error ∑(𝑦𝑖 − 𝑦̂𝑖 )2 + Variación debida a la regresión ∑(𝑦̂𝑖 − 𝑦̅)2
Ya se señaló que
𝑦̂
V.R
𝑦̅
V.R.
𝑦̂ = 𝑦̅
ANOVA
𝑆𝑆𝑒
𝑀𝑆𝐸 = = 𝜎̂ 2
(𝑛 − 𝑘)
𝑀𝑆𝑅
=1
𝑀𝑆𝐸
(∑ 𝑦𝑖 )2 (450)2
∑ 𝑦𝑖2 − = 22100 − =
𝑛 10
(∑ 𝑦𝑖 )2
= 20250
𝑛
∑ 𝑦𝑖2 = 22100
Rechazar 𝐻0 cuando:
𝐹𝑐 > 𝐹𝛼,(𝑛−1),(𝑛−𝑘)
𝛼 = 0.01, 𝛼 = 0.05
𝐹𝑐 = 10.87
𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
𝐹0.01,1,8 = 11.26
𝐹0.05,1,8 = 5.32
Rechazar 𝐻0 cuando:
𝐹𝑐 > 11.26
𝐹𝑐 > 5.32
Decisión. Como 10.87 no es mayor que 11.26 con un 𝛼 = 0.01 no se puede rechazar la 𝐻0 , pero un 𝛼 = 0.05,
𝐹𝑐 = 10.87 si es mayor que 5.32 por lo que se rechaza la 𝐻0 y se dice que la prueba fue significativa por lo que si
existe relación entre las variables, esto es los cambios de “x” influyen en los cambios de “y”.
La prueba es altamente significativa con 𝛼 = 0.01,
La prueba es significativa con 𝛼 = 0.05
ss xx ss xy
r b1
ss yy ss xx ss yy
Los valores que tomo el coeficiente de correlación, r, están entre –1 y 1, incluyendo éstos. Los
valores de r cercanos o iguales a cero implican poca o nula relación lineal entre X y Y. En
contraste, los valores de r cercanos a 1 indican una relación lineal fuerte, entre más cercanos
es más fuerte la relación, y los valores de r próximos a –1 señalan una fuerte correlación
negativa.
Para probar la hipótesis nula de que = 0 en contra la alternativa apropiada, de nuevo se utiliza
la distribución t con v = n – 2 para establecer una región crítica y entonces basar la decisión
en el valor de:
𝐫−𝛒
𝐭𝐜 =
𝟐
√𝟏 − 𝐫
𝐧−𝟐
Para probar que si existe una relación lineal estadísticamente significativa entre nuestras
variables con un nivel de significancia de 5%:
H0 = 0 (sin correlación)
H1 1 0 (correlación)
= 0.05
Rechazamos la H0 cuando:
tc > 2.306 ó tc < -2.306
Conclusión: si existe una asociación significativa entre las llamadas telefónicas y las ventas
de computadoras.
Coeficiente de determinación:
ss xy 900
r 0.7590
ss xx ss yy 7601850
Interpretación: existe un 75.90% de relación lineal entre las llamadas hechas por los
representantes de ventas y las computadoras vendidas.
r2= 0.5761