Documente Academic
Documente Profesional
Documente Cultură
ANALISIS DE REGRESION
El análisis de regresión es un proceso que permite establecer una relación funcional o ecuación
matemática entre dos variables, así como la fuerza de esa relación. En la terminología de la regresión,
hay dos tipos de variables:
Variable Dependiente.- Es la variable que se va a predecir, explicar y se denota por “Y”. Esta
variable está influenciado por los valores tomados por una o más variables diferentes. La variable
aleatoria Y se denomina variable respuesta o endógena.
Variable Independiente.- Es la variable o las variables que se usan para predecir el valor de la
variable dependiente. Las variables independientes se denominan variables predictores, regresores o
exógenas.
Diagrama de Dispersión.- Es una gráfica de puntos representados en el plano cartesiano, donde se
ubica como pares ordenados o puntos, de la siguiente forma: (𝒙, 𝒚) =
(𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆 𝒊𝒏𝒅𝒆𝒑𝒆𝒏𝒅𝒊𝒆𝒏𝒕𝒆, 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆 𝒅𝒆𝒑𝒆𝒏𝒅𝒊𝒆𝒏𝒕𝒆) de la muestra observada. En el eje X se ubica la
variable independiente y en el eje Y se ubica la variable dependiente.
Por ejemplo: Sean X = gastos de investigación (millones de soles) y Y = ganancia anual (millones de
soles)
X (millones de soles) 2 3 4 5 6 4 7
Y(millones de soles) 4 7 4 11 14 10 16
pág. 1
Estadística ANALISIS REGRESION________________________________________
d) Relación no lineal inversa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o
crece), la variable dependiente Y disminuye (o decrece) y porque los puntos forman una curva.
Regresión Lineal Simple.- Es la relación que se aproxima por medio de una línea recta. El modelo
de regresión lineal simple es:
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝑒
Dónde: x es la variable independiente.
y: variable dependiente.
𝛽0 : Es el intercepto de la recta en el eje Y.
𝛽1 : Es la pendiente de la recta.
𝑒: Error aleatorio y cumple los siguientes supuestos:
1. El término de error es una variable aleatoria con media o valor esperado igual a cero;
2. La varianza del error aleatorio, representada por 𝜎 2 , es igual para todos los valores de. Esto
implica que la varianza de y es igual a 𝜎 2 y es la misma para todos los valores de x.
3. Los valores de los errores son independientes.
4. El término de error, es una variable aleatoria con distribución normal.
pág. 2
Estadística ANALISIS REGRESION________________________________________
Los valores 𝛽0 𝑦 𝛽1 se llaman parámetros del modela y generalmente no se conocen y deben estimarse a
partir de los datos de la muestra. Estos parámetros se calculan usando las observaciones de la muestra
y son valores conocidos como regresores (estimadores de los parámetros). La ecuación estimada de
regresión es:
𝑦̂ = 𝑏0 + 𝑏1 𝑥
Minimizar la ecuación del lado derecho de la ecuación anterior implica calcular las derivadas parciales
de la expresión con respecto a los coeficientes de regresión e igualar a cero las dos derivadas. Al finalizar
este procedimiento se llega a las siguientes ecuaciones, conocidas como ecuaciones normales.
𝑛 𝑛
∑ 𝑦𝑖 = 𝑛𝑏0 + ∑ 𝑥𝑖
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
∑ 𝑥𝑖 𝑦𝑖 = 𝑏0 ∑ 𝑥𝑖 + 𝑏1 ∑ 𝑥𝑖 2
𝑖=1 𝑖=1 𝑖=1
pág. 3
Estadística ANALISIS REGRESION________________________________________
De donde se obtiene:
𝑏0 = 𝑦̅ − 𝑏1 𝑥̅
𝑛 ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − (∑𝑛𝑖=1 𝑥𝑖 )(∑𝑛𝑖=1 𝑦𝑖 ) ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛 𝑥̅ 𝑦̅
𝑏1 = =
𝑛 ∑𝑛𝑖=1 𝑥𝑖 2 − (∑𝑛𝑖=1 𝑥𝑖 )
2 ∑𝑛𝑖=1 𝑥𝑖 2 − 𝑛𝑥̅ 2
pág. 4
Estadística ANALISIS REGRESION________________________________________
1 16 5.7
2 29 3.8
3 17 1.9
4 6 1.0
5 9 1.0
4
3
2
1
0
0 5 10 15 20 25 30 35
Número de empleados
pág. 5
Estadística ANALISIS REGRESION________________________________________
𝒃𝟏 =………………………………………………………………………………………………………………………
……………………………………………………………………………………
𝒃𝟎 =………………………………………………………………………………………………………………………
…………………………………………………………………………
La suma de los cuadrados de errores es lo que se minimiza en el método de mínimos cuadrados. También
se le conoce como la suma de los cuadrados debidos al error (SCE)
𝒏 𝒏
̂𝒊
𝑺𝑪𝑬 = ∑(𝒚𝒊 − 𝒚 )𝟐 = ∑(𝒆𝒊 )𝟐
𝒊=𝟏 𝒊=𝟏
El valor de SCE es una medida del error que se comete al usar la ecuación de regresión para calcular los
valores de la variable de la muestra. La medida del error ocurrido al usar la ecuación de regresión para
estimar 𝑦𝑖 , se llama SCT (suma de cuadrado total):
𝑛
La suma de cuadrados debida a la regresión denotada por SCR y mide cuánto se desvían los valores 𝒚
̂𝒊
medidos en la línea de regresión de los valores 𝑦̅.
𝑆𝐶𝑅 = 𝑆𝐶𝑇 − 𝑆𝐶𝐸
𝑆𝐶𝐸 𝑆𝐶𝐸
La varianza de la regresión: 𝑠 2 = 𝑛−2, entonces la deviación estándar de la estimación es 𝑠 = √𝑛−2
pág. 6
Estadística ANALISIS REGRESION________________________________________
Ejercicio 3.- El ingreso anual de 5 empresas en millones de soles y el número de empleados de
empleados en miles, se muestran en la siguiente tabla. Calcular la varianza y la desviación estándar.
𝑺𝑪𝑬 = ∑𝒏𝒊=𝟏(𝒚𝒊 − 𝒚
̂𝒊 )𝟐 = 10.976
𝑆𝐶𝐸 10.976
La varianza de la regresión es: 𝑠 2 = 𝑛−2 = 5−2
= 3.6588
𝑆𝐶𝐸
La desviación estándar es: 𝑠 = √ = √3.6588 = 1.9128
𝑛−2
ANALÍSIS DE CORRELACIÓN
El coeficiente de correlación lineal se denota por r, el coeficiente de correlación mide la fuerza de
asociación lineal entre dos variables. Es la segunda medida que se usa para describir qué tan bien
explica una variable a la otra.
COVARIANZA.- Es la medida de asociación lineal más simples de dos variables. Viene dada por:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) (𝑦𝑖 − 𝑦̅) ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖
𝐶𝑂𝑉(𝑥, 𝑦) = 𝑠𝑥𝑦 = = − 𝑥̅ 𝑦̅
𝑛 𝑛
El inconveniente de la covarianza como medida de la asociación lineal entre dos variables es que
depende de las unidades de X e Y, por ello se define el coeficiente de correlación entre dos
variables, 𝑟𝑥𝑦 por:
𝑠𝑥𝑦 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) (𝑦𝑖 − 𝑦̅)
𝑟𝑥𝑦 = =
𝑠𝑥 ∗ 𝑠𝑦 √∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∗ √∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
∑𝑛
𝑖=1 𝑥𝑖 ∑𝑛
𝑖=1 𝑦𝑖
𝑥̅ = y 𝑦̅ =
𝑛 𝑛
∑𝑛 2
𝑖=1 𝑥𝑖
𝑠𝑥2 = 𝑛
− 𝑥̅ 2
Varianza para la variable “x” y su desviación estándar es: 𝑠𝑥 = √𝑠𝑥2
∑𝑛 2
𝑖=1 𝑦𝑖
𝑠𝑦2 = 𝑛
− 𝑦̅ 2 Varianza para la variable “y” y su desviación estándar es:𝑠𝑦 = √𝑠𝑦2
pág. 7
Estadística ANALISIS REGRESION________________________________________
Proporción de la variación total en la variable dependiente Y que se explica, o contabiliza, por la
variación en la variable independiente X. Este se calcula elevando al cuadrado el coeficiente de
correlación.
𝑅2 = 𝑟2
𝑅 2 = 𝑟 2 *100
Ejercicio 4. Los siguientes datos muestran la relación anual entre los gastos en investigación y
ganancias.
Año Gastos en Investigación (Millones Ganancia anual (Millones dólares)
de $)
1995 5 31
1994 11 40
1993 4 30
1992 5 34
1991 3 25
1990 2 20
SOLUCION
𝒙𝒊 𝒚𝒊 𝒙𝒊 𝒚𝒊 𝑥𝑖2 𝒚𝟐𝒊
1 5 31 155 25 961
2 11 40 440 121 1600
3 4 30 120 16 900
4 5 34 170 25 1156
5 3 25 75 9 625
6 2 20 40 4 400
SUMAS 30 180 1000 200 5642
pág. 8
Estadística ANALISIS REGRESION________________________________________
∑𝑛
𝑖=1 𝑥𝑖 30 ∑𝑛
𝑖=1 𝑦𝑖 180
𝑥̅ = = = 5 y 𝑦̅ = 𝑛 = = 30
𝑛 6 Interpretación:
6
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛 𝑥̅ 𝑦̅ 1000 − 6(5)(30) 100
𝑏1 = = = Cuando la inversión en investigación y
∑𝑛𝑖=1 𝑥 2 − 𝑛𝑥̅ 2 200 − 6(5)2 50 desarrollo aumente en 1 millón de dólares
=2 entonces la ganancia anual aumentara en
𝑏0 = 𝑦̅ − 𝑏𝑥̅ = 30 − 2(5) = 20 2 millones de dólares.
Ecuación de regresión estimada es: 𝑦̂ = 20 + Cuando la inversión en investigación y
2𝑥 desarrollo es cero entonces la ganancia
anual es 20 millones de dólares.
c) COEFICIENTE DE CORRELACION
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 1000
𝐶𝑂𝑉(𝑥, 𝑦) = 𝑠𝑥𝑦 = − 𝑥̅ 𝑦̅ = − 5 ∗ 30 = 166.667 − 150 = 16.667
𝑛 6
∑𝑛 2
𝑖=1 𝑥𝑖 200
𝑠𝑥2 = 𝑛
− 𝑥̅ 2 = 6
− (5)2 = 33.333 − 25 = 8.333 Entonces 𝑠𝑥 = √𝑠𝑥2 = √8.333 = 2.887
∑𝑛 2
𝑖=1 𝑦𝑖 5642
𝑠𝑦2 = 𝑛
− 𝑦̅ 2 = 6
− (30)2 = 940.333 − 900 = 40.333 Entonces 𝑠𝑦 = √𝑠𝑦2 = √40.333 = 6.351
𝑠𝑥𝑦 16.667
𝑟𝑥𝑦 = = = 0.9090 = 0.91
𝑠𝑥 ∗ 𝑠𝑦 2.887 ∗ 6.351
Interpretación.- Se observa una relación fuerte y directa entre los gastos de investigación y desarrollo
y las ganancias anuales.
Ejercicio 5. Las siguientes son las calificaciones de un grupo de 9 estudiantes en un informe de medio
semestre (x) y en el examen final (y):
pág. 9
Estadística ANALISIS REGRESION________________________________________
Observación
El signo de r tiene que ver sólo con la dirección de la relación entre dos variables, ya sea directa
o inversa y la magnitud del coeficiente tiene que ver con la intensidad o estrechez de la relación.
El valor de r puede ser positivo, negativo o cero.
Nota:
Si 𝑟 ≥ 0.75 la recta de regresión será una buena estimación.
Todo 𝑟 ≠ 0 indica cierto grado de relación entre dos variables
Una correlación baja no siempre significa ausencia de relación ya que puede existir una
correlación curvilínea muy estrecha.
𝑟 = +1 Existe una relación lineal directa perfecta (positiva) entre las dos variables. Es
decir, las puntuaciones bajas de X se asocian con las puntuaciones bajas de Y, mientras
las puntuaciones altas de X se asocian con los valores altos de la variable Y.
𝑟 = −1 Existe una relación lineal inversa perfecta (negativa) entre las dos variables. Es
decir, las puntuaciones bajas en X se asocian con los valores altos en Y, y las puntuaciones
altas en X se asocian con los valores bajos en Y.
Valor Significado
-1 Correlación negativa perfecta
-0.70 a -0.99 Correlación negativa alta
pág. 10
Estadística ANALISIS REGRESION________________________________________
-0.50 a -0.69 Correlación negativa moderada
-0,20 a -0.49 Correlación negativa baja
-0.01 a -0.19 Correlación negativa muy baja
0 Correlación nula No es recomendable
aplicar regresión lineal
+0.01 a +0.19 Correlación positiva muy baja
+0,20 a +0.49 Correlación positiva baja
+0.50 a +0.69 Correlación positiva moderada
+0.70 a +0.99 Correlación positiva alta
Para hallar los valores de a, b y c se deben resolver las siguientes ecuaciones normales:
Forma matricial
pág. 11
Estadística ANALISIS REGRESION________________________________________
Ejemplo 1: En la una fábrica se tienen los siguientes datos correspondientes a las horas
trabajadas (en miles) que producen cierto producto (en unidades).
50
Producción(unidad
10
0
0 5 10 15
Horas trabajadas
x y 𝑋𝑌 𝑋2 𝑋3 𝑋4 𝑋2𝑌
1 1 25 25 1 1 1 25
2 2 15 30 4 8 16 60
3 4 10 40 16 64 256 160
4 5 10 50 25 125 625 250
5 7 15 105 49 343 2401 735
6 8 10 80 64 512 4096 640
7 8 20 160 64 512 4096 1280
8 9 20 180 81 729 6561 1620
9 10 35 350 100 1000 10000 3500
10 12 45 540 144 1728 20736 6480
sumatorias 66 205 1560 548 5022 48788 14750
pág. 12
Estadística ANALISIS REGRESION________________________________________
El 90% de las variaciones que se producen en la producción se pueden atribuir a las variaciones
producidas en el número de horas trabajadas, el 10% restante de estas variaciones son debidas
a otros factores o a efectos aleatorios.
En promedio los valores reales se alejan con respecto a la ecuación de regresión cuadrática en
aproximadamente 4 unidades.
pág. 13
Estadística ANALISIS REGRESION________________________________________
pág. 14
Estadística ANALISIS REGRESION________________________________________
Ejemplo 2. Se tienen los siguientes datos:
Temperatura °C X 10 15 20 25 30 34
N° de helados vendidos Y 5 12 24 38 70 130
140
Número de helados
80
60
40
20
0
0 10 20 30 40
Temperatura (°C)
c) ¿Podemos afirmar que una curva cuadrática expresa adecuadamente la relación entre
las variables consideradas? ¿Por qué?
pág. 15
Estadística ANALISIS REGRESION________________________________________
Regresión Exponencial
Al graficar los valores X e Y se obtiene una curva creciente o decreciente, es decir que la variable predictora
evoluciona en forma aritmética y la variable dependiente evoluciona en forma geométrica.
En la práctica son numerosas las variables que presentan un crecimiento geométrico: la población, ventas,
salarios, ingresos, etc.
pág. 16
Estadística ANALISIS REGRESION________________________________________
Cuando los gastos de publicidad sean de 1300 dólares, se espera que la demanda de televisores
sea 80 000.
EN MINITAB
a) Trazar el diagrama de dispersión (esparcimiento).
1. Ingresar los datos y escribir en C3: LogY
pág. 17
Estadística ANALISIS REGRESION________________________________________
pág. 18
Estadística ANALISIS REGRESION________________________________________
pág. 19
Estadística ANALISIS REGRESION________________________________________
EJERICIOS – PRACTICA CALIFICADA
1. Una compañía presenta los siguientes datos con respecto a las ventas de un producto durante
siete años.
Años : 2007 2008 2009 2010 2011 2012 2013
Ventas : 36 28 34 52 58 62 67
3. Para los siguientes datos correspondientes a las ventas de un producto durante el periodo
2005-2011:
Años : 2005 2006 2007 2008 2009 2010 2011
Ventas : 545 755 919 1200 1600 2500 4200
4. Los siguientes datos indican las ventas mensuales (en miles de soles) y los años de experiencia
en ventas de diez vendedores de una fábrica.
A.E. : 4 5 2 5 6 7 1 8 3 7
Venta : 5 6 4 5 7 10 3 11 4 9
s
pág. 20