Sunteți pe pagina 1din 20

Estadística ANALISIS REGRESION________________________________________

ANALISIS DE REGRESION
El análisis de regresión es un proceso que permite establecer una relación funcional o ecuación
matemática entre dos variables, así como la fuerza de esa relación. En la terminología de la regresión,
hay dos tipos de variables:
Variable Dependiente.- Es la variable que se va a predecir, explicar y se denota por “Y”. Esta
variable está influenciado por los valores tomados por una o más variables diferentes. La variable
aleatoria Y se denomina variable respuesta o endógena.

Variable Independiente.- Es la variable o las variables que se usan para predecir el valor de la
variable dependiente. Las variables independientes se denominan variables predictores, regresores o
exógenas.
Diagrama de Dispersión.- Es una gráfica de puntos representados en el plano cartesiano, donde se
ubica como pares ordenados o puntos, de la siguiente forma: (𝒙, 𝒚) =
(𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆 𝒊𝒏𝒅𝒆𝒑𝒆𝒏𝒅𝒊𝒆𝒏𝒕𝒆, 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆 𝒅𝒆𝒑𝒆𝒏𝒅𝒊𝒆𝒏𝒕𝒆) de la muestra observada. En el eje X se ubica la
variable independiente y en el eje Y se ubica la variable dependiente.
Por ejemplo: Sean X = gastos de investigación (millones de soles) y Y = ganancia anual (millones de
soles)

X (millones de soles) 2 3 4 5 6 4 7
Y(millones de soles) 4 7 4 11 14 10 16

Existen varias formas en que las variables se pueden relacionar,


a) Relación lineal directa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o crece),
la variable dependiente Y también aumenta y porque los puntos forman una línea recta.
b) Relación lineal inversa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o crece),
la variable dependiente Y disminuye (o decrece) y porque los puntos forman una línea recta.
c) Relación no lineal directa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o
crece), la variable dependiente Y también aumenta y porque los puntos forman una curva.

pág. 1
Estadística ANALISIS REGRESION________________________________________
d) Relación no lineal inversa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o
crece), la variable dependiente Y disminuye (o decrece) y porque los puntos forman una curva.

Regresión Lineal Simple.- Es la relación que se aproxima por medio de una línea recta. El modelo
de regresión lineal simple es:
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝑒
Dónde: x es la variable independiente.
y: variable dependiente.
𝛽0 : Es el intercepto de la recta en el eje Y.
𝛽1 : Es la pendiente de la recta.
𝑒: Error aleatorio y cumple los siguientes supuestos:
1. El término de error es una variable aleatoria con media o valor esperado igual a cero;
2. La varianza del error aleatorio, representada por 𝜎 2 , es igual para todos los valores de. Esto
implica que la varianza de y es igual a 𝜎 2 y es la misma para todos los valores de x.
3. Los valores de los errores son independientes.
4. El término de error, es una variable aleatoria con distribución normal.

pág. 2
Estadística ANALISIS REGRESION________________________________________

Los valores 𝛽0 𝑦 𝛽1 se llaman parámetros del modela y generalmente no se conocen y deben estimarse a
partir de los datos de la muestra. Estos parámetros se calculan usando las observaciones de la muestra
y son valores conocidos como regresores (estimadores de los parámetros). La ecuación estimada de
regresión es:
𝑦̂ = 𝑏0 + 𝑏1 𝑥

METODO DE MINIMSO CUARDRADOS PARA ESTIMAR 𝒃𝟎 𝒚 𝒃𝟏


Este método emplea los datos de la muestra para determinar las características de la recta que hacen
mínima la suma de los cuadrados de las desviaciones:
𝑛

𝑚𝑖𝑛 ∑(𝑦𝑖 − 𝑦̂𝑖 )2


𝑖=1

Donde: 𝒚𝒊 : Valor observado de la variable dependiente para la i − esima observación


𝒚̂𝒊 : Valor estimado de la variable dependiente para la i − esima observacion.
Reemplazando 𝑦̂ = 𝑏0 + 𝑏1 𝑥
𝑛 𝑛

𝑚𝑖𝑛 ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = 𝑚𝑖𝑛 ∑(𝑦𝑖 − (𝑏0 + 𝑏1 𝑥))2


𝑖=1 𝑖=1

Minimizar la ecuación del lado derecho de la ecuación anterior implica calcular las derivadas parciales
de la expresión con respecto a los coeficientes de regresión e igualar a cero las dos derivadas. Al finalizar
este procedimiento se llega a las siguientes ecuaciones, conocidas como ecuaciones normales.
𝑛 𝑛

∑ 𝑦𝑖 = 𝑛𝑏0 + ∑ 𝑥𝑖
𝑖=1 𝑖=1
𝑛 𝑛 𝑛

∑ 𝑥𝑖 𝑦𝑖 = 𝑏0 ∑ 𝑥𝑖 + 𝑏1 ∑ 𝑥𝑖 2
𝑖=1 𝑖=1 𝑖=1

pág. 3
Estadística ANALISIS REGRESION________________________________________
De donde se obtiene:
𝑏0 = 𝑦̅ − 𝑏1 𝑥̅
𝑛 ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − (∑𝑛𝑖=1 𝑥𝑖 )(∑𝑛𝑖=1 𝑦𝑖 ) ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛 𝑥̅ 𝑦̅
𝑏1 = =
𝑛 ∑𝑛𝑖=1 𝑥𝑖 2 − (∑𝑛𝑖=1 𝑥𝑖 )
2 ∑𝑛𝑖=1 𝑥𝑖 2 − 𝑛𝑥̅ 2

Interpretación de los Estimadores


 El coeficiente 𝒃𝟏 corresponde a la pendiente de la recta. En general, este coeficiente expresa la
razón de cambio entre la variable dependiente con respecto a un cambio unitario en la variable
independiente. Es decir si la variable independiente 𝑥 aumenta en una unidad entonces la
variable dependiente 𝑦 pueden aumentar o disminuir 𝒃𝟏 unidades, dependiendo del signo de 𝑏1 .
 𝒃𝟎 : Cuando la variable independiente 𝑥 es cero, la variable dependiente 𝑦 es 𝒃𝟎 unidades.
Ejercicio 1.- La distribución de edades y presión arterial de 10 estudiantes es:
a) Calcular la ecuación de regresión estimada.
b) Estimar la presión arterial de una persona de 60 año
Edad Tensión
n X Y X*Y X*X =𝒙𝟐𝒊
1 30 11.5 345 900
2 28 11.3 316.4 784
3 35 12.5 437.5 1225
4 42 13.5 567 1764
5 51 14.6 744.6 2601
6 42 13 546 1764
6 63 16.6 1045.8 3969
7 32 12 384 1024
9 70 16.9 1183 4900
10 67 17 1139 4489
SUMA 460 138.9 6708.3 23420

a) Calcular la ecuación de regresión estimada.


460 138.9
𝑥̅ = = 46 𝑎ñ𝑜𝑠 𝑦̅ = = 13.89
10 10

∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛 𝑥̅ 𝑦̅ 6708.3 − 10(46)(13.89) 318.9


𝑏1 = = = = 0.14
∑𝑛𝑖=1 𝑥 2 − 𝑛𝑥̅ 2 23420 − 10(46)2 2260
𝑏0 = 𝑦̅ − 𝑏1 𝑥̅ = 13.89 − 0.14(46) = 7.45
La ecuación de regresión estimada es: 𝑦̂ = 𝑏0 + 𝑏1 𝑥 Entonces
𝑦̂ = 7.45 + 0.14𝑥 o Presion arterial = 7.45 + 0.14(Edad)
𝒃𝟎 = 𝟕. 𝟒𝟓 Significa que cuando la edad es cero la presión arterial es 7.45.
𝒃𝟏 = 𝟎. 𝟏𝟒 Significa que por cada año que aumente la edad, la presión arterial aumentar en 0.14.
b) Estimar la presión arterial de una persona de 60 años.
𝑦̂ = 𝑏0 + 𝑏1 𝑥 = 7.45 + 0.14(Edad) = 7.45 + 0.14(60) = 15.85. Cuando la edad de una persona es 60 años,
la presión arterial es 15.85.
Ejercicio 2. El ingreso anual de 5 empresas en millones de soles y el número de empleados de
empleados en miles, se muestran en la siguiente tabla.
n Empleados X Ingresos Y

pág. 4
Estadística ANALISIS REGRESION________________________________________
1 16 5.7
2 29 3.8
3 17 1.9
4 6 1.0
5 9 1.0

a. Grafique el diagrama de dispersión, que tipo de relación observa en el diagrama.


b. Determinar la recta de regresión estimada de los ingresos respecto al número de
empleados. Interpretar los coeficientes.
SOLUCIÓN

Diagrama de dispersión: Ingresos respecto del


número de empleados
6
5
Ingreso anual

4
3
2
1
0
0 5 10 15 20 25 30 35
Número de empleados

Se observa una relación lineal directa.

i Empleados X Ingresos Y X*Y X*X


1 16 5.7 91.2 256
2 29 3.8 110.2 841
3 17 1.9 32.3 289
4 6 1 6 36
5 9 1 9 81
SUMAS 77 13.4 248.7 1503

pág. 5
Estadística ANALISIS REGRESION________________________________________

Ecuación de Regresión Estimada: ……………………………………………………………………...


Interpretación:

𝒃𝟏 =………………………………………………………………………………………………………………………
……………………………………………………………………………………

𝒃𝟎 =………………………………………………………………………………………………………………………
…………………………………………………………………………

VARIANZA Y DESVIACION ESTANDAR DE LA REGRESIÓN


Para la i-ésima observación de la muestra, la desviación entre el valor observado de la variable
dependiente 𝑦𝑖 y el valor estimado de la variable dependiente 𝑦̂𝑖 , se llama i-ésimo residual (error,
desviación). Representa el error que se comete al usar para estimar 𝑦𝑖 .
̂𝒊
𝐝𝐞𝐬𝐯𝐢𝐚𝐜𝐢ó𝐧 = 𝒆𝒊 = 𝒚𝒊 − 𝒚

La suma de los cuadrados de errores es lo que se minimiza en el método de mínimos cuadrados. También
se le conoce como la suma de los cuadrados debidos al error (SCE)
𝒏 𝒏

̂𝒊
𝑺𝑪𝑬 = ∑(𝒚𝒊 − 𝒚 )𝟐 = ∑(𝒆𝒊 )𝟐
𝒊=𝟏 𝒊=𝟏

El valor de SCE es una medida del error que se comete al usar la ecuación de regresión para calcular los
valores de la variable de la muestra. La medida del error ocurrido al usar la ecuación de regresión para
estimar 𝑦𝑖 , se llama SCT (suma de cuadrado total):
𝑛

𝑆𝐶𝑇 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸 = ∑(𝑦𝑖 − 𝑦̅)2


𝑖=1
𝑛 𝑛 𝑛
2 2 2
∑(𝑦𝑖 − 𝑦̅) = ∑(𝑦̂𝑖 − 𝑦̅) + ∑(𝑦𝑖 − 𝑦̂)
𝑖
𝑖=1 𝑖 𝑖

La suma de cuadrados debida a la regresión denotada por SCR y mide cuánto se desvían los valores 𝒚
̂𝒊
medidos en la línea de regresión de los valores 𝑦̅.
𝑆𝐶𝑅 = 𝑆𝐶𝑇 − 𝑆𝐶𝐸

𝑆𝐶𝐸 𝑆𝐶𝐸
La varianza de la regresión: 𝑠 2 = 𝑛−2, entonces la deviación estándar de la estimación es 𝑠 = √𝑛−2

pág. 6
Estadística ANALISIS REGRESION________________________________________
Ejercicio 3.- El ingreso anual de 5 empresas en millones de soles y el número de empleados de
empleados en miles, se muestran en la siguiente tabla. Calcular la varianza y la desviación estándar.

i Empleados X Ingreso Y 𝑦̂𝑖 = 0.62 + 0.13𝑥𝑖 ̂𝒊


𝒆𝒊 = 𝒚𝒊 − 𝒚 ̂𝒊 )2
(𝒚𝒊 − 𝒚
1 16 5.7 2.76 2.94 8.643
2 29 3.8 4.4942 -0.69 0.481
3 17 1.9 2.8934 -0.99 0.986
4 6 1 1.426 -0.43 0.181
5 9 1 1.8262 -0.83 0.682
Suma 77 13.4 13.3998 0 10.976

𝑺𝑪𝑬 = ∑𝒏𝒊=𝟏(𝒚𝒊 − 𝒚
̂𝒊 )𝟐 = 10.976
𝑆𝐶𝐸 10.976
La varianza de la regresión es: 𝑠 2 = 𝑛−2 = 5−2
= 3.6588

𝑆𝐶𝐸
La desviación estándar es: 𝑠 = √ = √3.6588 = 1.9128
𝑛−2

ANALÍSIS DE CORRELACIÓN
El coeficiente de correlación lineal se denota por r, el coeficiente de correlación mide la fuerza de
asociación lineal entre dos variables. Es la segunda medida que se usa para describir qué tan bien
explica una variable a la otra.
COVARIANZA.- Es la medida de asociación lineal más simples de dos variables. Viene dada por:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) (𝑦𝑖 − 𝑦̅) ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖
𝐶𝑂𝑉(𝑥, 𝑦) = 𝑠𝑥𝑦 = = − 𝑥̅ 𝑦̅
𝑛 𝑛
El inconveniente de la covarianza como medida de la asociación lineal entre dos variables es que
depende de las unidades de X e Y, por ello se define el coeficiente de correlación entre dos
variables, 𝑟𝑥𝑦 por:
𝑠𝑥𝑦 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) (𝑦𝑖 − 𝑦̅)
𝑟𝑥𝑦 = =
𝑠𝑥 ∗ 𝑠𝑦 √∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∗ √∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
∑𝑛
𝑖=1 𝑥𝑖 ∑𝑛
𝑖=1 𝑦𝑖
𝑥̅ = y 𝑦̅ =
𝑛 𝑛
∑𝑛 2
𝑖=1 𝑥𝑖
𝑠𝑥2 = 𝑛
− 𝑥̅ 2
Varianza para la variable “x” y su desviación estándar es: 𝑠𝑥 = √𝑠𝑥2
∑𝑛 2
𝑖=1 𝑦𝑖
𝑠𝑦2 = 𝑛
− 𝑦̅ 2 Varianza para la variable “y” y su desviación estándar es:𝑠𝑦 = √𝑠𝑦2

Propiedades del coeficiente de correlación


1. Este número no tiene dimensiones y su valor esta entre −1 ≤ 𝑟𝑥𝑦 ≤ 1.
2. Los valores extremos 1 y -1 se alcanzan solamente si todos los datos se sitúan exactamente
sobre una recta.
INTERPRETACIÓN
 Si el coeficiente de correlación lineal toma valores cercanos a −1 entonces la correlación es fuerte
e inversa, y será tanto más fuerte cuanto más se aproxime 𝑟𝑥𝑦 a −1.
 Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es fuerte y directa,
y será tanto más fuerte cuanto más se aproxime r a 1.
 Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil.
 Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas
variables hay dependencia funcional.
COEFICIENTE DE DETERMINACIÓN (𝑅 2)

pág. 7
Estadística ANALISIS REGRESION________________________________________
Proporción de la variación total en la variable dependiente Y que se explica, o contabiliza, por la
variación en la variable independiente X. Este se calcula elevando al cuadrado el coeficiente de
correlación.

𝑅2 = 𝑟2

𝑏0 ∑𝑛𝑖=1 𝑦𝑖 + 𝑏1 ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑦̅ 2


𝑅2 =
∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅ 2

𝑅 2 = 𝑟 2 *100

Ejercicio 4. Los siguientes datos muestran la relación anual entre los gastos en investigación y
ganancias.
Año Gastos en Investigación (Millones Ganancia anual (Millones dólares)
de $)
1995 5 31
1994 11 40
1993 4 30
1992 5 34
1991 3 25
1990 2 20

SOLUCION
𝒙𝒊 𝒚𝒊 𝒙𝒊 𝒚𝒊 𝑥𝑖2 𝒚𝟐𝒊
1 5 31 155 25 961
2 11 40 440 121 1600
3 4 30 120 16 900
4 5 34 170 25 1156
5 3 25 75 9 625
6 2 20 40 4 400
SUMAS 30 180 1000 200 5642

a) DIAGRAMA DE DISPERSION Y LA ECUACIÓN DE REGRESIÓN ESTIMADA

b) ESTIMACION DE LA ECUACION DE REGRESION

pág. 8
Estadística ANALISIS REGRESION________________________________________
∑𝑛
𝑖=1 𝑥𝑖 30 ∑𝑛
𝑖=1 𝑦𝑖 180
𝑥̅ = = = 5 y 𝑦̅ = 𝑛 = = 30
𝑛 6 Interpretación:
6
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛 𝑥̅ 𝑦̅ 1000 − 6(5)(30) 100
𝑏1 = = =  Cuando la inversión en investigación y
∑𝑛𝑖=1 𝑥 2 − 𝑛𝑥̅ 2 200 − 6(5)2 50 desarrollo aumente en 1 millón de dólares
=2 entonces la ganancia anual aumentara en
𝑏0 = 𝑦̅ − 𝑏𝑥̅ = 30 − 2(5) = 20 2 millones de dólares.
Ecuación de regresión estimada es: 𝑦̂ = 20 +  Cuando la inversión en investigación y
2𝑥 desarrollo es cero entonces la ganancia
anual es 20 millones de dólares.

c) COEFICIENTE DE CORRELACION
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 1000
𝐶𝑂𝑉(𝑥, 𝑦) = 𝑠𝑥𝑦 = − 𝑥̅ 𝑦̅ = − 5 ∗ 30 = 166.667 − 150 = 16.667
𝑛 6
∑𝑛 2
𝑖=1 𝑥𝑖 200
𝑠𝑥2 = 𝑛
− 𝑥̅ 2 = 6
− (5)2 = 33.333 − 25 = 8.333 Entonces 𝑠𝑥 = √𝑠𝑥2 = √8.333 = 2.887
∑𝑛 2
𝑖=1 𝑦𝑖 5642
𝑠𝑦2 = 𝑛
− 𝑦̅ 2 = 6
− (30)2 = 940.333 − 900 = 40.333 Entonces 𝑠𝑦 = √𝑠𝑦2 = √40.333 = 6.351
𝑠𝑥𝑦 16.667
𝑟𝑥𝑦 = = = 0.9090 = 0.91
𝑠𝑥 ∗ 𝑠𝑦 2.887 ∗ 6.351
Interpretación.- Se observa una relación fuerte y directa entre los gastos de investigación y desarrollo
y las ganancias anuales.

d) Coeficiente de Determinación: 𝑅 2 = 𝑟 2 = (0.91)2 = 0.828


Interpretación.- Así, podemos concluir que la variación en los gastos en investigación y desarrollo (la
variable independiente X) explica el 82.8% de la variación en las ganancias anuales (la variable
dependiente Y).

Ejercicio 5. Las siguientes son las calificaciones de un grupo de 9 estudiantes en un informe de medio
semestre (x) y en el examen final (y):

a) Construya el diagrama de dispersión.


b) Estime la recta de regresión lineal.
c) Calcule la calificación final de un estudiante que obtuvo 85 de calificación en el informe de
medio semestre.

pág. 9
Estadística ANALISIS REGRESION________________________________________

Observación
El signo de r tiene que ver sólo con la dirección de la relación entre dos variables, ya sea directa
o inversa y la magnitud del coeficiente tiene que ver con la intensidad o estrechez de la relación.
El valor de r puede ser positivo, negativo o cero.

Nota:
 Si 𝑟 ≥ 0.75 la recta de regresión será una buena estimación.
 Todo 𝑟 ≠ 0 indica cierto grado de relación entre dos variables
 Una correlación baja no siempre significa ausencia de relación ya que puede existir una
correlación curvilínea muy estrecha.
 𝑟 = +1 Existe una relación lineal directa perfecta (positiva) entre las dos variables. Es
decir, las puntuaciones bajas de X se asocian con las puntuaciones bajas de Y, mientras
las puntuaciones altas de X se asocian con los valores altos de la variable Y.
 𝑟 = −1 Existe una relación lineal inversa perfecta (negativa) entre las dos variables. Es
decir, las puntuaciones bajas en X se asocian con los valores altos en Y, y las puntuaciones
altas en X se asocian con los valores bajos en Y.

Valor Significado
-1 Correlación negativa perfecta
-0.70 a -0.99 Correlación negativa alta
pág. 10
Estadística ANALISIS REGRESION________________________________________
-0.50 a -0.69 Correlación negativa moderada
-0,20 a -0.49 Correlación negativa baja
-0.01 a -0.19 Correlación negativa muy baja
0 Correlación nula No es recomendable
aplicar regresión lineal
+0.01 a +0.19 Correlación positiva muy baja
+0,20 a +0.49 Correlación positiva baja
+0.50 a +0.69 Correlación positiva moderada
+0.70 a +0.99 Correlación positiva alta

REGRESIÓN CUADRÁTICA SIMPLE


La función cuadrática representada por una parábola por lo general se aplica en aquellos casos
en que se presenta una parte ascendente y en seguida una descendente o viceversa. En la
práctica su uso es poco frecuente sin embargo a veces se utiliza para proyecciones de utilidad,
ingresos. El modelo es como sigue:
𝒀 = 𝒂 + 𝒃𝑿 + 𝒄𝑿𝟐 + 𝒆
Ecuación de Regresión Cuadrática
̂ = 𝒂 + 𝒃𝑿 + 𝒄𝑿𝟐
𝒀

Para hallar los valores de a, b y c se deben resolver las siguientes ecuaciones normales:

Forma matricial

Coeficiente de correlación cuadrático

pág. 11
Estadística ANALISIS REGRESION________________________________________

Error estándar de Estimación cuadrático

Ejemplo 1: En la una fábrica se tienen los siguientes datos correspondientes a las horas
trabajadas (en miles) que producen cierto producto (en unidades).

a) Trazar el diagrama de esparcimiento.

50
Producción(unidad

y = 0.7799x2 - 7.9082x + 29.957


40
R² = 0.9039
30
20
es)

10
0
0 5 10 15
Horas trabajadas

Al trazar el diagrama de esparcimiento, se observa que el modelo cuadrático sería un modelo


adecuado.
b) Ajustar a los datos un modelo cuadrático.

x y 𝑋𝑌 𝑋2 𝑋3 𝑋4 𝑋2𝑌
1 1 25 25 1 1 1 25
2 2 15 30 4 8 16 60
3 4 10 40 16 64 256 160
4 5 10 50 25 125 625 250
5 7 15 105 49 343 2401 735
6 8 10 80 64 512 4096 640
7 8 20 160 64 512 4096 1280
8 9 20 180 81 729 6561 1620
9 10 35 350 100 1000 10000 3500
10 12 45 540 144 1728 20736 6480
sumatorias 66 205 1560 548 5022 48788 14750

pág. 12
Estadística ANALISIS REGRESION________________________________________

Por lo tanto la ecuación estimada es


̂ = 𝟐𝟗. 𝟗𝟓𝟕 − 𝟕. 𝟗𝟎𝟖𝑿 + 𝟎. 𝟕𝟖𝟎𝑿𝟐
𝒀

c) Hallar el volumen de producción esperado para 14 mil horas.


Si X = 14:
̂ = 𝟐𝟗. 𝟗𝟓𝟕 − 𝟕. 𝟗𝟎𝟖(𝟏𝟒) + 𝟎. 𝟕𝟖𝟎(𝟏𝟒)𝟐 = 𝟕𝟐 unidades
𝒀

d) Calculando el coeficiente de correlación cuadrático.

Un modelo cuadrático sí es confiable es decir, se pueden realizar pronósticos.

e) Calculando el coeficiente de determinación cuadrático.


𝑅 2 = 𝑟 2 ∗ 100 = (0.95)2 ∗ 100 = 90%

El 90% de las variaciones que se producen en la producción se pueden atribuir a las variaciones
producidas en el número de horas trabajadas, el 10% restante de estas variaciones son debidas
a otros factores o a efectos aleatorios.

f) Calculando el error de estimación cuadrático.

En promedio los valores reales se alejan con respecto a la ecuación de regresión cuadrática en
aproximadamente 4 unidades.

En Minitab: Ingresas los datos Stat – Regression – Fitted Line Plot

pág. 13
Estadística ANALISIS REGRESION________________________________________

g) Calcular los valores estimados y errores de estimación del modelo cuadrático.

𝑌̂ = 29.957 − 7.908𝑋 + 0.780𝑋 2 ̂𝒊


𝒆𝒊 = 𝒀𝒊 − 𝒀 𝒆𝟐𝒊
1 22.8287 2.1713 4.71454369
2 17.2602 -2.2602 5.10850404
3 10.8026 -0.8026 0.64416676
4 9.9135 0.0865 0.00748225
5 12.8147 2.1853 4.77553609
6 16.605 -6.605 43.626025
7 16.605 3.395 11.526025
8 21.9551 -1.9551 3.82241601
9 28.865 6.135 37.638225
10 47.3642 -2.3642 5.58944164
Sumatorias 205.014 117.452365

pág. 14
Estadística ANALISIS REGRESION________________________________________
Ejemplo 2. Se tienen los siguientes datos:

Temperatura °C X 10 15 20 25 30 34
N° de helados vendidos Y 5 12 24 38 70 130

a) Represente el diagrama de dispersión y la línea ajustada a estos datos.

140
Número de helados

120 y = 0.28x2 - 7.6406x + 58.167


R² = 0.9731
100
vendidos

80
60
40
20
0
0 10 20 30 40
Temperatura (°C)

b) Hallar un modelo de regresión cuadrático.


𝑌̂ = 58.167 − 7.6406𝑋 + 0.28𝑋 2
Interpretación

 𝑎 = 58.167. Cuando la temperatura es cero, entonces la producción de helados es


58 unidades.
 𝑏 = −7.64. Cuando la temperatura aumenta en 1°C, entonces el número de
helados producidos disminuye en 7.6 unidades.
 𝑐 = 0.28. Cuando la temperatura aumenta en 1°C, entonces el número de
helados producidos aumenta en 0.28 (unidades*unidades).

c) ¿Podemos afirmar que una curva cuadrática expresa adecuadamente la relación entre
las variables consideradas? ¿Por qué?

El coeficiente de determinación 𝑅 2 = 0.9731, entonces


El coeficiente de correlación cuadrática 𝑟 = √𝑅 2 = √0.9731 = 0.9864

La curva cuadrática expresa adecuadamente la relación entre la temperatura y número


de helados vendidos porque el coeficiente de correlación cuadrática es 0.98 y está próxima
a +1.

pág. 15
Estadística ANALISIS REGRESION________________________________________
Regresión Exponencial

Al graficar los valores X e Y se obtiene una curva creciente o decreciente, es decir que la variable predictora
evoluciona en forma aritmética y la variable dependiente evoluciona en forma geométrica.
En la práctica son numerosas las variables que presentan un crecimiento geométrico: la población, ventas,
salarios, ingresos, etc.

Ecuación de Regresión Exponencial:


𝑌̂ = 𝑎 ∗ 𝑏 𝑋
Para facilitar la determinación de las ecuaciones normales, la función anterior se linealiza aplicando
logaritmos:

𝐿𝑜𝑔 𝑌 = 𝐿𝑜𝑔 𝑎 + 𝑋𝐿𝑜𝑔 𝑏


Ecuaciones normales:

Coeficiente de Correlación Exponencial:

𝑛 ∑𝑛𝑖=1 𝑋𝑖 𝐿𝑜𝑔𝑌𝑖 − ∑𝑛𝑖=1 𝑋𝑖 ∑𝑛𝑖=1 𝐿𝑜𝑔𝑌𝑖


𝑟=
√[𝑛 ∑𝑛𝑖=1 𝑋𝑖 2 − (∑𝑛𝑖=1 𝑋𝑖 )2 ][𝑛 ∑𝑛𝑖=1(𝐿𝑜𝑔𝑌𝑖 )2 − (∑𝑛𝑖=1 𝐿𝑜𝑔𝑌𝑖 )2 ]
Ejemplo:
La demanda de televisores (miles de unidades) y los gastos de publicidad (cientos de dólares)
en un país desde 2008 hasta 2012 fue:
Gastos de Publicidad: 2 4 5 7 12
Demanda de TV: 3 6 12 24 45

a) Trazar el diagrama de dispersión.

b) Ajustar a los datos un modelo exponencial:


𝑌̂ = 𝑎 ∗ 𝑏 𝑋

pág. 16
Estadística ANALISIS REGRESION________________________________________

Por lo tanto el modelo exponencial será:


𝑌̂ = 2.38 ∗ 1.31𝑋

c) Calcular el coeficiente de correlación exponencial:

d) Realizar e interpretar un pronóstico:


Si X = 13:

Cuando los gastos de publicidad sean de 1300 dólares, se espera que la demanda de televisores
sea 80 000.

EN MINITAB
a) Trazar el diagrama de dispersión (esparcimiento).
1. Ingresar los datos y escribir en C3: LogY

pág. 17
Estadística ANALISIS REGRESION________________________________________

Se obtiene el siguiente diagrama de esparcimiento:

b) Hallar la ecuación de regresión exponencial.


Calc – Calculator

Stat – Regression – Regression…

pág. 18
Estadística ANALISIS REGRESION________________________________________

c) Calcular los valores estimados y errores de estimación del modelo exponencial.

pág. 19
Estadística ANALISIS REGRESION________________________________________
EJERICIOS – PRACTICA CALIFICADA
1. Una compañía presenta los siguientes datos con respecto a las ventas de un producto durante
siete años.
Años : 2007 2008 2009 2010 2011 2012 2013
Ventas : 36 28 34 52 58 62 67

a) Ajustar a los datos un modelo parabólico.


b) ¿Se puede afirmar que el modelo hallado será eficiente para realizar pronósticos?
c) Si tuvieras que elegir entre un modelo lineal y uno parabólico. ¿Por cuál te decidirías?
d) Interpretar a , b y c.
e) ¿Qué porcentaje de los cambios producidos en las ventas, no es explicado por el modelo
cuadrático?
f) Estimar las ventas para el año 2018.

2. Se tiene la siguiente información con respecto a la producción total (miles de unidades) y el


costo total (miles de dólares) de cierto artículo en una compañía.
Costo total : 30 36 40 48 50 54 66 88
Producción : 10 20 30 40 50 60 70 80
a) Ajustar a los datos un modelo exponencial.
b) ¿Podemos afirmar sin temor a equivocarnos que un modelo exponencial sería de mayor
utilidad que un modelo lineal? Justifique.
c) Si se tiene una producción de 53000 unidades, ¿cuál será el costo total esperado? Use el mejor
modelo.
d) ¿Qué porcentaje de los cambios en Y se pueden atribuir a la variable independiente?

3. Para los siguientes datos correspondientes a las ventas de un producto durante el periodo
2005-2011:
Años : 2005 2006 2007 2008 2009 2010 2011
Ventas : 545 755 919 1200 1600 2500 4200

a) Ajustar a los datos una curva exponencial.


b) Estimar las ventas para los años 2020 y 2025.
c) ¿Se puede afirmar que estos pronósticos son cercanos a la realidad? ¿Por qué?
d) Calcular los errores de estimación para cada año.

4. Los siguientes datos indican las ventas mensuales (en miles de soles) y los años de experiencia
en ventas de diez vendedores de una fábrica.

A.E. : 4 5 2 5 6 7 1 8 3 7
Venta : 5 6 4 5 7 10 3 11 4 9
s

a) Hallar un modelo de regresión cuadrático.


b) ¿Podemos afirmar que una curva parabólica expresa adecuadamente la relación entre las
variables consideradas? ¿Por qué?
c) ¿Cuánto se ganará en confiabilidad si se elige el mejor modelo entre un cuadrático y un lineal?

pág. 20

S-ar putea să vă placă și