Sunteți pe pagina 1din 23

ANALISIS DE REGRESION Y CORRELACION SIMPLE

INTRODUCCION

El análisis de regresión lineal es una técnica estadística empleada para estudiar la relación
entre variables. Se adapta a una amplia variedad de situaciones, siendo utilizada desde medidas
económicas hasta diferentes aspectos del comportamiento humano. En el contexto económico,
administrativo y contable puede utilizarse para predecir un enorme número de variables (ventas,
gasto, producción, compras, rendimientos del personal entre otros) de una determinada
organización. Desde esta perspectiva sirve como visor para, con elementos del pasado, predecir
el futuro e idear políticas de ajuste a los fenómenos estudiados.
El análisis de regresión simple (dos variables) o múltiple (mas de dos variables) es
implementado para explorar y cuantificar la relación entre una variable llamada dependiente (Y) y
una o mas llamadas independientes o predictoras (X1, X2, …..Xn) a fin de establecer una ecuación
lineal con fines predictivos; asociados a un conjunto de procedimientos que informan sobre la estabilidad o
idoneidad del análisis y del modelo en general, y de esta manera ir perfeccionándolo.
Además de estudiar la relación entre las variables se estudiara el grado de correspondencia que
poseen las variables en estudio por medio del coeficiente de Correlación Lineal

MODELO DE REGRESION LINEAL


HACIENDO UN POCO DE HISTORIA…..
El término regresión fue introducido por Francis Galton en su libro Natural inheritance (1889)
y fue confirmada por su amigo Karl Pearson. Su trabajo se centró en la descripción de los rasgos
físicos de los descendientes (variable A) a partir de los de sus padres (variable B). Estudiando la
altura de padres e hijos a partir de más de mil registros de grupos familiares, se llegó a la
conclusión de que los padres muy altos tenían una tendencia a tener hijos que heredaban parte
de esta altura, pero que revelaban también una tendencia a regresar a la media. Galton
generalizó esta tendencia bajo la "ley de la regresión universal": «Cada peculiaridad en un hombre
es compartida por sus descendientes, pero en media, en un grado menor.»1

MODELAJE MATEMATICO
La regresión lineal se basa en un relación funcional entre dos o mas variables, donde una
variable depende de otra u otras; en palabras de orden matemática Y depende de X, donde Y y X
son variables cuales quiera cuantificables. Esto puede expresarse:
"Y es una función de X"
Y = f(X)2

1
Wikipedia. Disponible en: http://es.wikipedia.org/wiki/An%C3%A1lisis_de_la_regresi%C3%B3n
2
La variable dependiente (Y) es la variable que se desea explicar, predecir. También se le llama VARIABLE DE RESPUESTA. La
variable Independiente X se le denomina VARIABLE EXPLICATIVA y se le utiliza para EXPLICAR “Y”
Lcdo. Juan Francisco Gómez
ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
1
En este orden de ideas, como Y depende de X, Y es conocida como la variable dependiente
y X es la variable independiente. Empero, no es la única forma de expresar esta relación ya que
como es una función lineal puede expresarse en sentido contrario, de la siguiente manera:
"X es una función de Y"
X = f(Y)3

SUPOSICIONES DE LA REGRESIÓN LINEAL

1. Normalidad: El término de error ε es una variable aleatoria distribuida normalmente


2. Homoscedasticidad: Las varianza en los valores Y son las mismas en todos los valores X
3. Independencia: Los términos de error son independientes uno del otro4
4. Linealidad

DIAGRAMA DE DISPERSION
Cuando se toma una muestra de dos variables o bivariada, se obtiene una serie de pares de
datos. Estas parejas son de la forma (x,y) y se pueden representar como puntos en un plano
bidimensional o plano cartesiano; la representación grafica de las parejas se conoce como
diagrama de dispersión.
Grafico N° 1. Diagramas de Dispersión

Fuente: Gabriel Jaime Posada Hernández y María Victoria Buitrago Cardona. ESTADISTICA.
GUÍA DIDÁCTICA Y MÓDULO. Fundación Universitaria Luis Amigó. Facultad de ciencias
Administrativas, Económicas y Contables. Colombia, 2008

3
La variable dependiente (X) es la variable que se desea explicar, predecir. También se le llama VARIABLE DE RESPUESTA. La
variable Independiente Y se le denomina VARIABLE EXPLICATIVA y se le utiliza para EXPLICAR “X”
4
Autocorrelación: ocurre cuando los términos de error no son independientes. Para detectar la autocorrelación se aplica la
prueba de Durbin-Watson.
Lcdo. Juan Francisco Gómez
ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
2
ESTIMACION POR MINIMO CUADRADOS Y RECTA DE REGRESION
MUESTRAL
Sea (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ) … … … . (𝑥𝑛 , 𝑦𝑛 ) una muestra de n pares de observaciones de un proceso cuya
recta de regresión poblacional es

𝑌 = 𝛽1 + 𝛽2 ∗ 𝑥 + 𝜇

Las estimaciones de mínimos cuadrados de los coeficientes β1 y β2 son valores 𝛽̂1 y 𝛽̂2 para los
cuales se minimiza la suma de las discrepancias al cuadrado5
𝑛

𝑆𝐶 = ∑ (𝑦𝑖 − 𝛽̂ 1 − 𝛽̂ 2 ∗ 𝑥𝑖 )2
𝑖=1

Puede probarse que los estimadores resultantes son

∑(𝑥 − 𝑥
̅) ∗ (𝑦 − 𝑦
̅) ∑ 𝑥 ∗ 𝑦 − 𝑛𝑥
̅𝑦̅ 𝑛 ∗ ∑𝑥 ∗ 𝑦 − ∑𝑥 ∗ ∑𝑦
𝛽̂2 = 2
= =
∑(𝑥 − 𝑥
̅) ∑ 𝑥2 − 𝑛 ∗ 𝑥 ̅2 𝑛 ∗ ∑ 𝑥 2 − (∑ 𝑥)2

∑𝑦 ∑𝑥
y 𝛽̂1 = 𝑦
̅ − 𝛽̂2 𝑥
̅= − 𝛽̂2 ∗ 𝑛
𝑛

̂ = 𝛽̂1+ 𝛽̂2*x es denominada recta de regresión de y sobre x


La recta 𝒚

Ejercicio
“Nada triunfa como el éxito” es un antiguo adagio en el negocio de la publicidad. El presidente de
una distribuidora de varias líneas de automóviles ha observado que los agentes de ventas que
ganan los bonos más altos al final de año son los que tienen mayor probabilidad de exceder su
cuota de ventas el año siguiente (y ganar otro bono alto).

Tabla N° 1. Bono del año pasado Vs ventas por encina de la cuota


Bono el año pasado (miles de dólares) Ventas arriba de cuota este año
7,8 64
6.9 73
6,7 42
6,0 49
6,9 46
5,2 71
6,3 32

5
Algunos autores utilizan la notación 𝛽0 𝑦 𝛽1 para los coeficientes de la recta y para los estimadores 𝛽̂0 𝑦 𝛽̂1 ó 𝑏0 𝑦 𝑏1
Lcdo. Juan Francisco Gómez
ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
3
8,4 88
7,2 53
10,1 84
10,8 85
7,7 93
Fuente: Distribuidora de líneas de automóviles

a) Estime la recta del bono con respecto a las ventas


b) Estime la recta de las ventas con respecto al bono
Solución:

Tabla N° 2. Bono del año pasado Vs ventas por encina


de la cuota
Bono el
Ventas
año
arriba de
pasado
(miles de
cuota x*y x2 y2
este año
dólares)
(Y)
(X)

7,8 64 499,20 60,84 4096

6,9 73 503,70 47,61 5329

6,7 42 281,40 44,89 1764

6 49 294,00 36,00 2401

6,9 46 317,40 47,61 2116

5,2 71 369,20 27,04 5041

6,3 32 201,60 39,69 1024

8,4 88 739,20 70,56 7744

7,2 53 381,60 51,84 2809

10,1 84 848,40 102,01 7056

10,8 85 918,00 116,64 7225

7,7 93 716,10 59,29 8649

90 780 6069,80 704,02 55254,00

Fuente: Elaboración propia


Lcdo. Juan Francisco Gómez
ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
4
a)

𝑛 ∗ ∑𝑥 ∗ 𝑦 − ∑𝑥 ∗ ∑𝑦 12 ∗ 6069,8 − 90 ∗ 780
𝛽̂2 = = = 7,57408683666437
𝑛 ∗ ∑ 𝑥 2 − (∑ 𝑥)2 12 ∗ 704,02 − (90)2

∑𝑦 ∑𝑥 780 90
𝛽̂1 = 𝑦̅ − 𝛽̂2 𝑥̅ = − 𝛽̂2 ¨ ∗ = − 7,57408683666437 ∗ = 8,19434872501722
𝑛 𝑛 12 12

̂𝟏 + 𝜷
̂=𝜷
𝒚 ̂ 𝟐 ∗ 𝒙 = 8,19434872501722 + 7,57408683666437 ∗ 𝑥

Grafico N° 2 Bono del año pasado Vs ventas por encina de la cuota

100
90 y = 7,5741x + 8,1943

80
Ventas arriba de cuota

70
60
50
40
30
20
10
0
0 2 4 6 8 10 12
Bono del Año pasado

Fuente: Elaboración propia

b)

𝑛 ∗ ∑𝑥 ∗ 𝑦 − ∑𝑥 ∗ ∑𝑦 12 ∗ 6069,8 − 90 ∗ 780
𝛽̂2 = 2 2
= = 0,0482652613087396
𝑛 ∗ ∑ 𝑥 − (∑ 𝑥) 12 ∗ 55254 − (780)2

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
5
∑𝑦 ∑𝑥 90 780
𝛽̂1 = 𝑦̅ − 𝛽̂2 𝑥̅ = − 𝛽̂2 ¨ ∗ = − 0,0482652613087396 ∗ = 4,36275801493193
𝑛 𝑛 12 12

̂𝟏 + 𝜷
̂=𝜷
𝒚 ̂ 𝟐 ∗ 𝒙 = 4,36275801493193 + 0,0482652613087396 ∗ 𝑥

Grafico N° 3. Bono del año pasado Vs ventas por encina de la cuota

12

10
y = 0,0483x + 4,3628
Bono del Año pasado

0
0 10 20 30 40 50 60 70 80 90 100
Ventas arriba de cuota

Fuente: Elaboración propia

NOTA: La forma de resolver el literal “b” es colocar la variable dependiente como independiente y
viceversa.

VARIACION TOTAL, VARIACION EXPLICADA Y NO EXPLICADA


Cuadro N° 1.

VARIACION TOTAL = VARIACION EXPLICADA VARIACION NO EXPLICADA


Mide la cantidad de variación Mide la variación residual en
Expresa la variación total de explicada al usar la recta de los datos que no está
los datos regresión con una variable explicada por la variable
independiente independiente
∑(𝑦 − 𝑦̅)2 ∑(𝑦̂ − 𝑦̅)2 ∑(𝑦 − 𝑦̂)2

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
6
SUMA DE CUADRADOS DE LA SUMA DE CUADRADOS DEL
SUMA DE CUADRADOS TOTAL REGRESION ERROR O RESIDUAL
SCTotal
𝑆𝐶𝑅𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 SCError
Mide la dispersión de los
Mide la dispersión (variación
Mide la variabilidad total en los valores Y observados respecto
total) en los valores
valores observados de Y en a la recta de regresión Y (es la
observados de Y. Este término
consideración a la relación cantidad que se minimiza
se utiliza para el cálculo de la
lineal entre X e Y cuando se obtiene la recta de
variancia de la muestra
regresión)

∑(𝑦 − 𝑦̅)2 ∑(𝑦̂ − 𝑦̅)2


∑(𝑦 − 𝑦̂)2

2
(∑ 𝑦) (∑ 𝑦)2
∑𝑦 − 2 𝛽̂1 ∗ ∑ 𝑦 + 𝛽̂2 ∗ ∑ 𝑥 ∗ 𝑦 − ∑ 𝑦 2 − 𝛽̂1 ∗ ∑ 𝑦 − 𝛽̂2 ∗ ∑ 𝑥 ∗ 𝑦
𝑛 𝑛

VARIANZA TOTAL VARIANZA EXPLICADA VARIANZA NO EXPLICADA

2 2
(∑ 𝑦) (∑ 𝑦) ∑ 𝑦 2 − 𝛽̂1 ∗ ∑ 𝑦 − 𝛽̂2 ∗ ∑ 𝑥 ∗ 𝑦
∑ 𝑦2 − 𝛽̂1 ∗ ∑ 𝑦 + 𝛽̂2 ∗ ∑ 𝑥 ∗ 𝑦 −
𝑛 𝑛
𝑛−1 𝑘−1 𝑛−𝑘
Fuente: Elaboración propia

Ejercicio
Para la economía de un determinado país, disponemos de los datos anuales redondeados
sobre consumo final de los hogares a precios corrientes (Y) y renta nacional disponible neta (X),
tomados de la Contabilidad Nacional base 1995 del INE, para el período 1995-2002, ambos
expresados en miles de millones de unidades monetarias:
Tabla N° 3
Año 1995 1996 1997 1998 1999 2000 2001 2002
Y 258,6 273,6 289,7 308,9 331 355 377,1 400,4
X 381,7 402,2 426,5 454,3 486,5 520,2 553,3 590
Fuente: Guía de Ejercicios Universidad de Sevilla
Considerando que el consumo se puede expresar como función lineal de la renta (Yt=a+b·Xt),
Determine la suma de cuadrados de la variable consumo y su descomposición en la suma de
cuadrados explicada y no explicada por el modelo.

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
7
Solución:
Tabla N° 4. Consumo final de los hogares a precios
corrientes y recta nacional neta en el periodo 1995-2002
Y X Y2 X2 x*y
258,6 381,7 66873,96 145694,89 98707,62
273,6 402,2 74856,96 161764,84 110041,92
289,7 426,5 83926,09 181902,25 123557,05
308,9 454,3 95419,21 206388,49 140333,27
331 486,5 109561,00 236682,25 161031,50
355 520,2 126025,00 270608,04 184671,00
377,1 553,3 142204,41 306140,89 208649,43
400,4 590 160320,16 348100,00 236236,00
2594,3 3814,7 859186,79 1857281,65 1263227,79
Fuente: INE y elaboración propia

Suma de cuadrado de la variable consumo

2
2
(∑ 𝑦) 2
2594,32
∑(𝑦 − 𝑦̅) = ∑ 𝑦 − = 859186,79 − = 17887,728749272
𝑛 8

Suma de cuadrados explicada

∑(𝑦̂ − 𝑦̅)2

𝑛 ∗ ∑𝑥 ∗ 𝑦 − ∑𝑥 ∗ ∑𝑦 8 ∗ 1263227,79 − 3814,7 ∗ 2594,3


𝛽̂2 = 2 2
= = 0,683429372
𝑛 ∗ ∑ 𝑥 − (∑ 𝑥) 8 ∗ 1857281,65 − (3814,7)2

∑𝑦 ∑𝑥 2594,3 3814,7
𝛽̂1 = 𝑦̅ − 𝛽̂2 ∗ 𝑥̅ = − 𝛽̂2 ¨ ∗ = − 0,683429372 ∗ = −1,597252984
𝑛 𝑛 8 8

(∑ 𝑦)2
∑(𝑦̂ − 𝑦̅)2 = 𝛽̂1 ∗ ∑ 𝑦 + 𝛽̂2 ∗ ∑ 𝑥 ∗ 𝑦 −
𝑛
2594,32
= −1,597252984 ∗ 2594,3 + 0,683429372 ∗ 1263227,79 − = 17884,16005
8

Suma de cuadrados no explicada o residual

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
8
∑(𝑦 − 𝑦̂)2 = ∑ 𝑦 2 − 𝛽̂1 ∗ ∑ 𝑦 − 𝛽̂2 ∗ ∑ 𝑥 ∗ 𝑦
= 859186,79 − (−1,597252984) ∗ 2594,3 − 0,683429372 ∗ 1263227,79 = 3,568699272

Por otro lado; se puede corroborar que: SCTotal = SCT + SCE = 17884,16005 + 3,568699272 =
17887,728749272

INTERVALO DE CONFIANZA Y CONTRASTE DE HIPOTESIS PARA LA


PENDIENTE E INTERCEPTO DE LA RECTA DE REGRESION POBLACIONAL

Intervalo de confianza para la pendiente de la recta de regresión poblacional


̂ 2 − 𝛽2
𝛽
𝑃 [−𝑡𝛼/2 ≤ ≤ 𝑡𝛼/2 ] = 1 − 𝛼
𝑠𝑏2

𝛽̂2 − 𝑡∝⁄ ∗ 𝑠𝑏2 ≤ 𝛽2 ≤ 𝛽̂2 + 𝑡∝⁄ ∗ 𝑠𝑏2


2 2

𝑠𝑒
Donde 𝑠𝑏2 = 2
y 𝑠𝑒 es la desviación estándar de los errores o error de
√∑ 𝑥 2 −(∑ 𝑥)
𝑛
estimación. Sigue una distribución t de Student con n-2 grados de libertad

Varianza residual o varianza no explicada

̂)𝟐 ∑ 𝒚𝟐 − 𝛽̂1 ∗ ∑ 𝑦 − 𝛽̂2 ∗ ∑ 𝑥 ∗ 𝑦


∑(𝒚 − 𝒚
𝒔𝟐𝒆 = =
𝒏−𝟐 𝒏−𝟐

Error estándar de estimación o desviación típica residual o no explicada

Es una medida de dispersión de los valores observados alrededor de la recta de regresión, y se


calcula por medio de la siguiente fórmula:

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
9
̂ )𝟐
∑(𝒚 − 𝒚 ∑ 𝒚𝟐 − 𝛽̂1 ∗ ∑ 𝑦 − 𝛽̂2 ∗ ∑ 𝑥 ∗ 𝑦
𝒔𝒆 = √ =√
𝒏−𝟐 𝒏−𝟐

Intervalo de confianza para el intercepto de la recta de regresión poblacional


̂ 1 − 𝛽1
𝛽
𝑃 [−𝑡𝛼/2 ≤ ≤ 𝑡𝛼/2 ] = 1 − 𝛼
𝑠𝑏1

𝛽̂1 − 𝑡∝⁄ ∗ 𝑠𝑏1 ≤ 𝛽1 ≤ 𝛽̂1 + 𝑡∝⁄ ∗ 𝑠𝑏1


2 2

1 𝑥̅ 2
Donde 𝑠𝑏1 = 𝑆𝑒 ∗ √ +
𝑛 (∑ 𝑥)
2 y 𝑠𝑒 es la desviación estándar de los errores o error de
∑ 𝑥2+
𝑛

estimación. Sigue una distribución t de Student con n-2 grados de libertad

Contraste para la pendiente de la recta de regresión poblacional

Cuadro N° 2

1) Hipótesis Nula Ho: β2 = β2 ≤ β2 ≥

2) Hipótesis Alternativa H1 β2 ≠ β2 > β<


̂ 2 − 𝛽2
𝛽 ̂ 2 − 𝛽2
𝛽
𝑡𝑐 = = 𝑠𝑒
3) Estadístico de prueba 𝑠𝑏2
2
√∑ 𝑥 2 − (∑ 𝑥)
𝑛
4) Zona de aceptación y La variable aleatoria sigue una distribución t de Student con (n-2)
rechazo grados de libertad
Fuente: Elaboración Propia

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
10
Contraste para el intercepto de la recta de regresión poblacional
Cuadro N° 3

1) Hipótesis Nula Ho: β1 = β1 ≤ β1 ≥

2) Hipótesis Alternativa H1 β1 ≠ β1 > β1 <


̂ 1 − 𝛽1
𝛽 ̂ 1 − 𝛽1
𝛽
𝑡𝑐 = =
𝑠𝑏1 2
3) Estadístico de prueba 1 𝑥̅
𝑆𝑒 ∗
√𝑛 + (∑ 𝑥)
2
∑𝑥 +
2
𝑛

4) Zona de aceptación y La variable aleatoria sigue una distribución t de Student con (n-2)
rechazo grados de libertad
Fuente: Elaboración Propia

ANOVA DE LA REGRESION

La prueba F puede emplearse también para probar la significancia en la regresión. Cuando se


trabaja con regresión lineal simple, la prueba F llega a la misma conclusión que la prueba “t”.
Empero, solo la prueba F se puede usar cuando la regresión es múltiple pues sirve para probar
que existe una relación significativa general.

Cuadro N° 3

1) Hipótesis Nula H0: β2 =

2) Hipótesis Alternativa H1: β2 ≠

𝐶𝑀𝑅
3) Estadístico de prueba 𝐹𝐶 =
𝐶𝑀𝐸

4) Zona de aceptación y La variable aleatoria sigue una distribución F con un grado de libertad
rechazo para el numerador y con (n-2) grados de libertad para el denominador
Fuente: Elaboración Propia

Tabla de ANOVA para la regresión lineal simple


Fuente de Suma de gl Cuadrados medios Valor p
F
variación cuadrados

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
11
Regresión SCR 1 𝑆𝐶𝑅
𝐶𝑀𝑅 = 𝐶𝑀𝑅
1
𝑆𝐶𝐸 𝐹=
Error SCE n-2 𝐶𝑀𝐸
𝐶𝑀𝐸 =
𝑛−2
Total SCT n-1

Ejercicio
Un corredor de una empresa de inversión local ha estudiado la relación entre el incremento en el
precio del oro (X) y las peticiones de sus clientes de liquidar las acciones (Y). Del conjunto de
datos basado en 15 observaciones, se encontró que la pendiente de la muestra era 2,9. Si el error
estándar del coeficiente de la pendiente de regresión es 0.18, ¿existe una razón para pensar (a
0,05 de nivel de significancia) que la pendiente cambió de su valor anterior de 3,2?
H0: β2 = 3,2
H1: β2 ≠ 3,2
𝛽̂2 − 𝛽2 𝑏− 𝛽 2,9 − 3,2
𝑡𝑐 = = 𝑠𝑒 = = −1,667
𝑠𝑏2 0,18
2
√∑ 𝑥 2 − (∑ 𝑥)
𝑛

Se acepta H0; por lo tanto, la pendiente de


0,025 0,025
la recta a nivel poblacional permanece igual

tα/2 = - 2,160 0 tα/2 = 2,160

Intervalo de predicción al 100(1-α) % para la predicción media. Intervalo de


confianza para la predicción media
𝟏 (𝒙𝒊 −𝒙̅ )𝟐
𝒀𝒏+𝟏 = 𝒚̂ 𝒏+𝟏 ± 𝒕𝜶⁄ ∗ 𝒔𝒆 ∗ √𝒏 + 2
𝟐 (∑ 𝑥)
∑ 𝑥2 −
𝑛

Intervalo de predicción al 100(1-α) % para el valor pronosticado. Intervalo de


confianza para la predicción individual

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
12
𝟏 (𝒙𝒊 − 𝒙̅ )𝟐
𝒀𝒏+𝟏 = 𝒚̂ 𝒏+𝟏 ± 𝒕𝜶⁄ ∗ 𝒔𝒆 ∗ 𝟏 + + 2
𝟐 √ 𝒏 (∑ 𝑥)
∑ 𝑥2 − 𝑛

el valor de t se base en n-2 grados de libertad

Ejercicio
Se supone que se puede establecer cierta relación lineal entre las exportaciones de un país
y la producción interna de dicho país. En el caso de España, tenemos los datos anuales
(expresados en miles de millones de euros) para tales variables correspondientes al quinquenio
1992-96 en la siguiente tabla:

Tabla N° 5. Exportaciones y Producción


interna
Año Producción Exportaciones
1992 52,654 10,420
1993 53,972 11,841
1994 57,383 14,443
1995 61,829 16,732
1996 65,381 18,760
Fuente: Guía de Ejercicios Universidad
de Sevilla

A partir de tal información, y considerando como válida dicha relación lineal, se pide:
a) Si la producción para el año 1997 fue de 221061 millones de euros, ¿cuál sería la predicción de
las exportaciones para este año? Construya un intervalo de confianza para la pendiente de la
recta con un 95% así como para la predicción del 95% para el pronóstico efectuado
b) Si sabemos que las exportaciones para 1997 fueron de 69045704000 euros, ¿cuál sería la
producción interna aproximada para ese año? Construya un intervalo de predicción del 99% para
el pronóstico efectuado

Tabla N° 6. Resultados

Año Producción Exportaciones x2 y2 x*y


1992 52,654 10,42 2772,443716 108,5764 548,65468
1993 53,972 11,841 2912,976784 140,209281 639,082452
1994 57,383 14,443 3292,808689 208,600249 828,782669
1995 61,829 16,732 3822,825241 279,959824 1034,522828
1996 65,381 18,76 4274,675161 351,9376 1226,54756
291,219 72,196 17075,72959 1089,283354 4277,590189
Fuente: Elaboración propia

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
13
a) Predicción o pronostico para el año solicitado
𝑦̂ = 𝛽1 + 𝛽2 ∗ 𝑥 = −22,6542928506947 + 0,636865947117027 ∗ 221,061 = 118,1319303

Intervalo de confianza para la pendiente de la recta a nivel poblacional

𝑛 ∗ ∑𝑥 ∗ 𝑦 − ∑𝑥 ∗ ∑𝑦 5 ∗ 4277,590189 − 291,219 ∗ 72,196


𝑏= 2 2
= = 0,636865947117027
𝑛 ∗ ∑ 𝑥 − (∑ 𝑥) 5 ∗ 17075,72959 − (291,219)2

∑𝑦 ∑𝑥 72,196 291,219
𝛽̂1 = 𝑦̅ − 𝑏𝑥̅ = − 𝑏¨ ∗ = − 0,636865947117027 ∗ = −22,6542928506947
𝑛 𝑛 5 5

∑(𝑦 − 𝑦̂)2 ∑ 𝑦 2 − 𝛽̂1 ∗ ∑ 𝑦 − 𝛽̂2 ∗ ∑ 𝑥𝑦


𝑆𝑒 = √ =√
𝑛−2 𝑛−2

1089,283354 − (−22,6542928506947 ∗ 72,196) − 0,636865947117027 ∗ 4277,590189


=√
5−2
= 0,440133901128156
𝛽̂2 − 𝑡∝⁄ ∗ 𝑠𝑏 ≤ 𝛽2 ≤ 𝛽̂2 + 𝑡∝⁄ ∗ 𝑠𝑏
2 2
𝑠𝑒 𝑠𝑒
𝛽̂2 − 𝑡∝⁄ ∗ ≤ 𝛽2 ≤ 𝛽̂2 + 𝑡∝⁄ ∗
2 2 2 2
√∑ 𝑥2 − (∑ 𝑥) √∑ 𝑥2 − (∑ 𝑥)
𝑛 𝑛

0,440133901128156 0,440133901128156
0,636865947117027 − 3,182 ∗ ≤ 𝛽 ≤ 0,636865947117027 + 3,182 ∗
2 2
√17075,72959 − 291,219 √17075,72959 − 291,219
5 5

0,50571287 ≤ 𝛽 ≤ 0,768019024

El intervalo de la pendiente de la recta a nivel poblacional se encuentra entre 0,50571287 y


0,768019024 con un 95% de confianza

Intervalo de predicción para el pronóstico

𝒚 = 𝛽̂1 + 𝒃 ∗ 𝒙 = −22,6542928506947 + 0,636865947117027 ∗ 𝑥

𝒚 = 𝛽̂1 + 𝒃 ∗ 𝒙 = −22,6542928506947 + 0,636865947117027 ∗ 221,061 = 118,1319302849424

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
14
𝟏 (𝒙𝒊 − 𝒙̅ )𝟐
𝒀𝒏+𝟏 = 𝒚̂ 𝒏+𝟏 ± 𝒕𝜶⁄ ∗ 𝒔𝒆 ∗ 𝟏 + + 2
𝟐 √ 𝒏 (∑ 𝑥)
∑ 𝑥2 − 𝑛

1 (221,061 − 58,2438)2
𝒀𝒏+𝟏 = 118,1319302849424 ± 3,182 ∗ 0,440133901128156 ∗ √1 + +
5 291,2192
17075,72959 −
5

1 (221,061 − 58,2438)2
𝒀𝒏+𝟏 = 118,1319302849424 ± 3,182 ∗ 0,440133901128156 ∗ √1 + +
5 291,2192
17075,72959 −
5

96,72291285 ≤ Yn+1 ≤ 139,5409477


El intervalo para la predicción de la recta a nivel poblacional se encuentra entre 96,72291285 y
139,5409477 con un 95% de confianza

b)

𝑛 ∗ ∑𝑥 ∗ 𝑦 − ∑𝑥 ∗ ∑𝑦 5 ∗ 4277,590189 − 291,219 ∗ 72,196


𝛽̂2 = = = 1,5507036909508
𝑛 ∗ ∑ 𝑥 2 − (∑ 𝑥)2 5 ∗ 1089,283354 − (72,196)2

∑𝑦 ∑𝑥 291,219 72,196
𝛽̂1 = 𝑦̅ − 𝛽̂2 𝑥̅ = − 𝛽̂2 ∗ = − 1,5507036909508 ∗ = 35,8528792656235
𝑛 𝑛 5 5

𝒚 = 𝛽̂1 + 𝛽̂2 ∗ 𝒙 = 35,8528792656235 + 1,5507036909508 ∗ 𝑥

𝒚 = 𝛽̂1 + 𝛽̂2 ∗ 𝒙 = 35,8528792656235 + 1,5507036909508 ∗ 69,045704 = 142,9223073

∑(𝑦 − 𝑦̂)2 ∑ 𝑦 2 − 𝛽̂1 ∗ ∑ 𝑦 − 𝛽̂2 ∗ ∑ 𝑥 ∗ 𝑦


𝑆𝑒 = √ =√
𝑛−2 𝑛−2

17075,72959 − 35,8528792656235 ∗ 291,219 − 1,5507036909508 ∗ 4277,590189


=√
5−2
= 0,686791983850692

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
15
𝟏 (𝒙𝒊 − 𝒙̅ )𝟐
𝒀𝒏+𝟏 = 𝒚̂ 𝒏+𝟏 ± 𝒕𝜶⁄ ∗ 𝒔𝒆 ∗ 𝟏 + + 2
𝟐 √ 𝒏 (∑ 𝑥)
∑ 𝑥2 − 𝑛

1 (69,045704 − 14,4392)2
𝒀𝒏+𝟏 = 142,9223073 ± 5,841 ∗ 0,686791983850692 ∗ √1 + + =
5 72,1962
1089,283354 −
5

110,6117087 ≤ Xn+1 ≤ 175,2329059

El intervalo para la predicción de la recta a nivel poblacional se encuentra entre


110,6117087 y 175,2329059 con un 99% de confianza

Ejercicio 6
Un economista del Departamento de Recursos Humanos de Florida State está preparando un estudio
sobre el comportamiento del consumidor. Él recolectó los datos que aparecen en miles de dólares para
determinar si existe una relación entre el ingreso del consumidor y los niveles de consumo.

Consumidor 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 24,3 12,5 31,2 28 35,1 10,5 23,2 10 8,5 15,9 14,7 15
Consumo 16,2 8,5 15 17 24,2 11,2 15 7,1 3,5 11,5 10,7 9,2
Si el economista identifica un consumidor con un ingreso de $14500, a) ¿Cuál es la estimación puntual del
consumo? b) ¿Cuál es el estimado de intervalo del 99% de su consumo?

a)
𝒚 = 𝛽̂1 + 𝒃 ∗ 𝒙 = 1,77788030806189 + 0,558171412421395 ∗ 𝑥
= 1,77788030806189 + 0,558171412421395 ∗ 14,5 = 9,8713657881721

𝟏 (𝒙𝒊 − 𝒙̅ )𝟐
𝒀𝒏+𝟏 = 𝒚̂ 𝒏+𝟏 ± 𝒕𝜶⁄ ∗ 𝒔𝒆 ∗ √𝟏 + + =
𝟐 𝒏 2 (∑ 𝑥)2
∑𝑥 −
𝑛

𝟏 (𝟏𝟒, 𝟓 − 𝟏𝟗, 𝟎𝟕𝟓)𝟐


𝟗, 𝟖𝟕𝟏𝟑𝟔𝟓𝟕𝟖𝟖𝟏𝟕 ± 𝟑, 𝟏𝟔𝟗 ∗ 𝟐, 𝟐𝟓𝟎𝟔𝟎𝟕𝟓𝟐𝟒 ∗ √𝟏 + +
𝟏𝟐 𝟐𝟐𝟖, 𝟗𝟐
𝟓𝟐𝟓𝟎, 𝟖𝟑 − 𝟏𝟐

2,36732952 ≤ yest ≤ 17,3214020 6

6
Ejercicio del libro de Allen L. Webster. Estadística Aplicada a los negocios y la economía. 3era edición. McGrawHill. Ejercicio 40.
Pág. 358
Lcdo. Juan Francisco Gómez
ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
16
ANALISIS DE CORRELACION

Covarianza (Cov):
Para Martínez, c7. “es una medida de dispersión, definida como la media del producto de las
diferencias entre los valores de la variable y su media aritmética, y nos determina la variabilidad
conjunta de X e Y”
∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) ∑ 𝑥𝑖 𝑦𝑖
𝑐𝑜𝑣 = = − 𝑥̅ 𝑦̅ = 𝑛 ∗ ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥 ∗ ∑ 𝑦
𝑛 𝑛

Coeficiente de correlación de Pearson (r)


Es una medida de la intensidad de la relación entre dos variables. Requiere datos con escala
de intervalo o de razón (variables). Para calcular el coeficiente de correlación de Pearson, por
datos originales:

𝑆𝐶𝑅 𝑐𝑜𝑣(𝑥𝑦) 𝑠𝑥𝑦 𝑛 ∗ ∑ 𝑥𝑦 − ∑ 𝑥 ∗ ∑ 𝑦


𝑟=√ = = =
𝑆𝐶𝑇 √𝑠𝑥 ∗ 𝑠𝑦 √𝑠𝑥 ∗ 𝑠𝑦 √[𝑛 ∗ ∑ 𝑥 2 − (∑ 𝑥)2 ] ∗ [𝑛 ∗ ∑ 𝑦 2 − (∑ 𝑦)2 ]

Coeficiente de correlación ordinal de Spearman


Cuando se trata del análisis de variables, las cuales vienen medidas en una escala ordinal
se aplica el coeficiente de Spearman. Éste se calcula, asignando a cada valor de las variables el
rango correspondiente en función a las magnitudes medidas. El coeficiente se obtiene aplicando
la formula:

6 ∗ ∑ 𝑑2
𝑟 =1−
𝑛 ∗ (𝑛2 − 1)

De acuerdo con el grado de correlación que se obtenga, bien sea positivo o negativo, se
suele utilizar una escala con la finalidad de interpretar el grado de asociación de las variables. La
escala es la siguiente:

7
Ciro Martínez B.(2008). Estadística y Muestreo. 12da. Edición. ECOE Ediciones. Colombia
Lcdo. Juan Francisco Gómez
ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
17
Cuadro N° 3. Grado de Asociación
de las Variables
0 Nula
0,01 0,20 Muy baja
0,21 0,40 Baja
0,41 0,60 Moderada
0,61 0,80 Alta
0,81 0,99 Muy alta
1 Perfecta

Coeficiente de Determinación (r2):


Mide la proporción de variabilidad de la variable dependiente explicada por la variable
independiente que en ese momento introducimos en el modelo. Si ese valor lo multiplicamos por
100 se tendrá el porcentaje de variabilidad explicada.

Ejercicios
En una muestra de familias se han analizado las variables ahorro anual (Y) y renta anual (X),
medidas ambas en miles de euros. Los datos obtenidos han sido los siguientes:

Cuadro N° 7. Ahorro anual vs renta


anual
Ahorro (y) Renta (x)
1,9 20,5
1,8 20,8
2,0 21,2
2,1 21,7
1,9 22,1
2,0 22,3
2,2 22,2
2,3 22,6
2,7 23,1
3,0 23,5
Fuente: Guía de ejercicios Universidad de
Sevilla

A partir de tales datos, se pide: a) el coeficiente de correlación, b) coeficiente de


determinación

Cuadro N° 8. Resultados
Ahorro (y) Renta (x) x2 y2 x*y
1,9 20,5 420,25 3,61 38,95

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
18
1,8 20,8 432,64 3,24 37,44
2 21,2 449,44 4,00 42,4
2,1 21,7 470,89 4,41 45,57
1,9 22,1 488,41 3,61 41,99
2 22,3 497,29 4,00 44,6
2,2 22,2 492,84 4,84 48,84
2,3 22,6 510,76 5,29 51,98
2,7 23,1 533,61 7,29 62,37
3 23,5 552,25 9,00 70,5
21,9 220 4848,38 49,29 484,64
Fuente: Elaboración propia

𝑛 ∗ ∑𝑥 ∗ 𝑦 − ∑𝑥 ∗ ∑𝑦 10 ∗ 484,64 − 220 ∗ 21,9


𝑟= = = 0,85
√[𝑛 ∗ ∑ 𝑥 2 − (∑ 𝑥)2 ] ∗ [𝑛 ∗ ∑ 𝑦 2 − (∑ 𝑦)2 ] √[10 ∗ 4848,38 − (220)2 ] ∗ [10 ∗ 49,29 − (21,9)2 ]

Correlación directamente proporcional y muy alta. Existe una tendencia muy alta de que a
medida que aumente la renta anual también aumente el ahorro anual

b) r2 = (0,85……)2 = 0,724215…..
Existe un 72,42% de que los cálculos elaborados sobre la recta de regresión sean precisos,
en otras palabras, se explica la variable dependiente en un 72,42% por medio de la variable
independiente.

CONTRASTE PARA CORRELACION POBLACIONAL

Sea r el coeficiente de correlación muestral, calculado a partir de una muestra aleatoria de n


pares de observaciones de una distribución conjunta normal. Para el contraste se tomaran los
siguientes elementos ya estudiados

Cuadro N° 4
1) Hipótesis Nula Ho: ρ=0 ρ≤ ρ≥

2) Hipótesis Alternativa H1 ρ≠0 ρ> ρ<


𝑟− 𝜌 𝑟− 𝜌
𝑡𝑐 = =
𝑠𝑟
3) Estadístico de prueba (1 − 𝑟 2 )

(𝑛 − 2)

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
19
4) Zona de aceptación y La variable aleatoria sigue una distribución t de Student con (n-2)
rechazo grados de libertad
Fuente: Elaboración Propia

Ejercicio

El centro de ubicación laboral de State University desea determinar si los promedios en notas de
los estudiantes (GPAs) puede explicar el número de ofertas laborales que ellos reciben después
de graduarse. Los datos siguientes corresponden a los 10 recién graduados

Estudiantes 1 2 3 4 5 6 7 8 9 10
GPAs 3,25 2,35 1,02 0,36 3,69 2,65 2,15 1.25 3,88 3,37
Oferta 3 3 1 0 5 4 2 2 6 2

Utilizando la prueba de hipótesis apropiada, al nivel del 5%, ¿es GPAs una variable explicativa
significativa de las ofertas de trabajo?

H0: ρ = 0 (No existe relación entre las variables, GPA no es una variable explicativa significativa
de las ofertas de trabajo)
H1: ρ ≠ 0 (Existe relación entre las variables estudiadas, GPA es una variable explicativa
significativa de las ofertas de trabajo)

𝑟− 𝜌 𝑟− 𝜌 0,843812172562237 − 0
𝑡𝑐 = = = = 4,447
𝑠𝑟 2
(1 − 𝑟 2) √(1 − 0,843812172562237 )
√ 10 − 2
(𝑛 − 2)

𝑛 ∗ ∑𝑥 ∗ 𝑦 − ∑𝑥 ∗ ∑𝑦
𝑟= = 0,843812172562237
√[𝑛 ∗ ∑ 𝑥 2 − (∑ 𝑥)2 ] ∗ [𝑛 ∗ ∑ 𝑦 2 − (∑ 𝑦)2 ]

Se rechaza H0; por lo tanto, GPA una


variable explicativa significativa de las ofertas de
0,025 0,025
trabajo

tα/2 = - 2,306 0 tα/2 = 2,306

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
20
Ejercicios

1) De una distribución de dos variables se conocen los siguientes datos:

2
(∑ 𝑥)2
2
2
𝑟 = 0,9 ∑(𝑦 − 𝑦̅) = 2,1 ∑𝑥 − = 𝑛 ∗ ∑ 𝑥 2 − (∑ 𝑥) = 1,2 𝑥̅ = 5 𝑦̅ = 10
𝑛

A partir de los mismos; a) Obtenga la recta de regresión mínimo cuadráticas, b) Estime el valor de y
cuando la x= 30

2) De una distribución de dos variables se conocen los siguientes datos:

𝑟 = 0,9; 𝑠𝑦 = 1,2 ; 𝑠𝑦 = 2,1; 𝑥̅ = 5; 𝑦̅ = 10. A partir de los mismos, obtenga las rectas de regresión
de mínimos cuadrados de X sobre Y; y de Y sobre X

3) En un nuevo proceso artesanal de fabricación de cierto artículo que está implantado, se ha


considerado que era interesante ir anotando periódicamente el tiempo medio (medido en minutos)
que se utiliza para realizar una pieza (variable Y) y el número de días desde que empezó dicho
proceso de fabricación (variable X). Con ello, se pretende analizar cómo los operarios van
adaptándose al nuevo proceso, mejorando paulatinamente su ritmo de producción conforme van
adquiriendo más experiencia en él. A partir de las cifras recogidas, que aparecen en la tabla
adjunta, se decide ajustar una función exponencial que explique el tiempo de fabricación en
función del número de días que se lleva trabajando con ese método
X 10 20 30 40 50 60 70
Y 35 28 23 20 18 15 13
Desde el correspondiente ajuste propuesto, se pide que determine:
a) ¿Qué tiempo se predeciría para la fabricación del artículo cuando se lleven 100 días?
b) ¿Qué tiempo transcurriría hasta que el tiempo de fabricación que se prediga sea de 10
minutos?
c) ¿Qué porcentaje de tiempo se reduce por cada día que pasa?

4) Conocemos, para una gasolinera situada en Sevilla, la información acerca de su recaudación


durante las últimas 7 semanas, así como del número de clientes que acudieron a la misma
durante estos períodos:
Recaudación (103 euros) 1,5 10 8 3 5 15 2
N° de clientes (102) 3 6 5 3,5 4 8 3,2

A partir de tal información, responda razonadamente a las siguientes cuestiones: a) De acuerdo


con los datos anteriores, y a partir de un ajuste lineal que exprese la recaudación en función del nº
de clientes, determine cuál sería la recaudación prevista si llegasen a la gasolinera 720 clientes.
¿Qué fiabilidad otorgaría a dicha predicción?; b) ¿Qué variación experimenta la recaudación por
cada 10 clientes más? ¿Y por una disminución del 3% en los clientes sobre la media?; c) Si
expresásemos la recaudación en euros y el número de clientes en unidades, ¿cuál sería la
expresión de la recta de regresión? ¿Se modificaría la bondad del ajuste?

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
21
5) El director administrativo de Bupkus, Inc., obtuvo datos sobre 100 empleados respecto a las
pruebas de ingreso que se les practicó en el momento de la contratación y las calificaciones
subsiguientes que recibieron los empleados por parte del supervisor un año después. Los
puntajes oscilaron entre 0 y 10 y la calificación era sobre un sistema de 5 puntos. El director
intenta utilizar el modelo de regresión para predecir la clasificación (R) que recibirán con base en
el puntaje del examen (S). Los resultados son:

∑ 𝑆 = 522 ∑ 𝑅 = 326 ∑ 𝑆𝑅 = 17325 ∑ 𝑆 2 = 28854 ∑ 𝑅 2 = 10781

Desarrolle e interprete el modelo de regresión. ¿Qué puede predecir el director respecto a la


clasificación de un empleado que obtuvo 7 en el examen?

Un banco estatal de cierto país está estudiando la posibilidad de bajar los tipos de interés para
incentivar la inversión privada, y así abrir la posibilidad de creación de puestos de trabajo. Para
ello contrasta los tipos de interés real de diferentes países con la inversión privada en los mismos,
todo ello durante el último período. Obteniéndose los resultados que aparecen reflejados en la
siguiente tabla:

Tipos de interés (%)


Inversión (miles de millones) 0,05-0,10 0,10-0,15 0,15-0,20 0,20-0,25
10-50 2 6
60-100 1 5
110-150 1 4
160-200 5 1

a) ¿Existe relación lineal entre ambas variables? Razona la respuesta.


b) Construye la recta de regresión que explica la inversión en fluencia de los tipos de interés real.
c) ¿Cómo variaría la inversión si se produce un incremento de una unidad en los tipos de interés
real? Razónalo sin necesidad de hacer ningún cálculo.
d) Si el tipo de interés real baja de 0.18 a 0.09, ¿cómo variaría la inversión?

Para facilitar el seguimiento de los cálculos necesarios para resolver el problema construimos la
siguiente tabla resumen: (variable X=tipo de interés real; variable Y=inversión).

YX 0,075 0,125 0,175 0,225 ΣY f.x f.y


30 0 0 2 6 8 240 7200
75 0 1 5 0 6 450 33750
125 1 4 0 0 5 625 78120
175 5 1 0 0 6 1050 183750

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
22
ΣX 6 6 7 6 25 2365 302850
f.x 0,45 0,75 1,225 1,35
f.x2 0,03375 0,09375 0,21438 0,30375
fxy 0 0 10,5 40,5 285,375
0 9,375 65,625 0
9,375 62,5 0 0
65,625 21,875 0 0

X(media)=0.151; Y(media)=94.6; sx=0.055; sy=56.248; sxy=-2.870


1. Para estudiar la relación lineal entre las variables tipo de interés e inversión utilizaremos el
coeficiente de determinación como medida descriptiva de este hecho.
2. y*=237.863-948.760x
3. El incremento en una unidad de la variable independiente coincide con el valor de la pendiente
de la recta; en este caso el incremento será de -948.760(observamos que en este problema el
incremento es ficticio pues 1 se sale del recorrido de la variable independiente).
4. El incremento será el producto entre la pendiente y la diferencia entre el tipo de interés en los
dos estados, es decir, aumenta en -948.760*(0.09-0.18)=85.388 miles de millones.

Lcdo. Juan Francisco Gómez


ESTADISTICA II. ADMINISTRACION, CONTADURIA Y ECONOMIA
2015
23

S-ar putea să vă placă și