Documente Academic
Documente Profesional
Documente Cultură
L e e e
o n
5.2 Regresin
Las tcnicas de regresin es un proceso que permite hacer predicciones sobre los
valores de cierta variable Y (dependiente), a partir de los de otra X (independiente),
entre las que se intuye que existe una relacin.
Para ilustrar mejor al lector por ejemplo si se compara la estatura media en centmetros
en el eje X y la estatura media en metros en el eje Y al observar a un grupo de personas, no
es necesario hacer grandes esfuerzos para saber que la relacin que hay entre ambas es:
y = X / 100
En cambio esta relacin sencilla puede ser ms compleja, si por ejemplo se comparan
estas mismas personas colocando en el eje X a la estatura media en centmetros y en
el eje Y el peso en kilogramos. Esta relacin requiere de un anlisis y solo despus del
mismo se puede concluir:
y = X - 110 error
La razn es que no es cierto que conocida la altura de un individuo, no puede determinar su peso exacto, si dos personas que miden 170 cm pueden tener pesos de 60 y
65 kilos. Sin embargo, alguna relacin entre ellas debe existir, pues parece mucho ms
1203111
ESTADSTICA
11
probable que un individuo de 200 cm pese ms que otro que mida 120 cm. Es ms, de
acuerdo a lo mencionado, la conclusin Y = X - 110 error, parece acertada.
A la relacin entre dos o ms variable a partir de una serie de datos, se le denomina
Regresin.
Cuando la relacin esta dada por:
Y = f(x)
y-y
= error
La Relacin Funcional puede tambin ser a la inversa, es decir que X estn en funcin
de Y; pero este tipo de relacin no se ver en este Manual Auto Instructivo.
Cuando se utilizan solamente dos variables, la Regresin es denominada SIMPLE; en
cambio, cuando se utilizan ms de dos variables, la Regresin es MULTIPLE.
La Lnea Recta
La Parbola
La Curva Potencial
La Curva Exponencial
La Hiprbola Equiltera :
La Curva Logstica
La Curva Gompertz
Y= a + bX
Y= a + bX + CX2
Y = exY= abX
Y = a/X
l/y = a + bcx
Y = ab=
Cada una de estas funciones tiene una forma particular para un conjunto determinado
de valores (X, Y), Y definido por el valor de los parmetros o coeficientes de la respectiva ecuacin. Por una nube de puntos pueden pesar una infinidad de lneas o funciones,
de esta familia habr una que es la funcin que mejor se ajusta a la nube de puntos.
12041
W A L TE R
e sPE D ES
RA M R E Z
La operacin para determinar la funcin de regresin ptima, se conoce como "Ajuste de una funcin de regresin", En este Manual se tratar solamente de Regresin
simple para la recta y para la parbola, que son las ms usadas por tener mayor aplicacin estadstica en los negocios,
El problema de ajuste de una funcin de regresin a un conjunto de n valores (X, Y),
comprende tres pasos:
1 Graficar el diagrama de esparcimiento o una nube de puntos (X, Y).
2 Definir la forma de la funcin de regresin (recta, parbola, exporiencial, etc.).
3 Determinar el valor numrico de los parmetros de la funcin elegida. Los
parmetros de la funcin de regresin se obtienen a partir de las Ecuaciones Normales
obtenidas por el Mtodo de los Mnimos Cuadrados.
e2
= I (V -\IV
Error Mnimo
v =a +b
(X) e
= a + b (X)
a20S.
ESTADSTICA
Y,
11
son:
cuando X
O)
Y,
Tales parmetros, como ya se ha mencionado en el tem anterior, se calcularn utilizando el mtodo por Mnimos Cuadrados, que se define basado en la ecuacin de la
recta, de la siguiente manera:
I Y
= a (n) + b IX
IXY
a IX + b IX2
Para hallar los parmetros respectivos (a y b), basados en el mtodo de clculo por
Mnimos Cuadrados, el alumno puede utilizar cualquiera de las siguientes soluciones:
a) Solucin por eliminacin de uno de los parmetros para encontrar el otro:
Para este caso utilizan las ecuaciones simultaneas, en donde con un valor artificial
negativo se iguala el coeficiente de una de las incgnitas de la ecuacin para eliminarlo.
Operacin que se repite hasta quedarse con una incgnita, que es fcil de despejar en
una ecuacin.
b) Solucin a travs de matrices y determinantes,
L: y;x2
- L:XYL:X_
nL:X -L:XL:X
b =
nL:XY - L:XL:Y
nL:X 2 - L:XL:X
= y -
b X
b = [ (:XY -
12061
n X Y ) / (X
n X 2) ]
WAL TER
CSPED
ES RAM REZ
Ejercicios resueltos
1) Hallar la ecuacin de la recta con las variables: X (nmero de vendedores)
(valor de ventas realizadas al mes en miles).
e Y
[1
10
12
15
16
6,4
8,5
9,3
16,4
18,6
20,2
25,2
Solucin:
Con el mtodo por Mnimos cuadrados, se primero
correspondientes a la ecuacin de la recta:
X
11:
XV
6,4
12,8
8,5
34,0
16
9,3
46,S
25
10
16,4
164,0
100
12
18,6
223,2
144
15
20,2
303,0
225
16
25,2
64
104,6
403,2
256
1186,7
770
Con estos datos para hallar los parmetros "a" y "b", el alumno puede escoger
cualquiera de las soluciones planteadas por el mtodo por Mnimos Cuadrados:
a) Solucin por eliminacin:
1o Se reemplazan las sumatorias halladas en las ecuaciones simultneas definidas
por el mtodo Mnimos Cuadrados:
1: V
a(n)
+ b 1:X
7a
+ 64b
(1)
64a
+ 770b
(2)
104,6 =
1186
=
=
Entonces:
+ 64b) - 64
7
64a + 770b)
7a
1612,S / 1294
- 6694,4
(3)
8306,9
= ~-4096b
= .448 +
5390b
1612,S
1294b
1,25
12071
(4)
ESTADSTICA
11
104,6
3,5
7a
+ 80
104,6
80 = 7a
3,5 + 1,25X
:TI:X2_~
= n2:Xl' - 2:X2:Y
n2:X -2:XLX
n2:X
2 -
4593,2
7(770) - 64(64)
b = 7(1186,7)-64(104,6)
__1612,5
1294,0
7(770)-64(64)
2:XLX
Y =
3,5
1294,0
3,5
= 1,25
+ 1,25X
x =
b
b
LX / n
= [ (LXY
=
[(1186,7
b = [(1186,7
a
= y - bX
64/7
9,14
n X Y ) / (LX2 -
LY / n = 104,6/
n X 2) ]
- (7 x 9,14 x 14(94))
/ (770
- (7 x 9(142))]
14,94
7 = 14,94
1,25(9,14)
3,5
b = [230,84/
14,94
- 11,43
185,22]
1,25
3,5
+ 1,25X
El alumno puede ver que por cualquiera de los mtodos de solucin expuestos, la
respuesta es la misma; pues puede escoger el mtodo que sea ms fcil para usted o
el que ms le agrade.
2) Hallar la ecuacin de la recta con las variables: X (nmero de gastos por inversin)
e y (utilidades anuales en miles).
La informacin
111208&
11
31
40
30
34
25
20
WALTER
CSPEDES
RAMREZ
Solucin:
Con el mtodo por Mnimos cuadrados,
correspondientes a la ecuacin de la recta:
I~
se primero
XV
se calculan
las sumatorias
X2
31
155
25
11
40
440
121
30
120
16
34
170
25
25
75
20
40
30
180
1000
200
Para hallar los parmetros "a" y "b", se ha escogido la solucin por determinantes.
a = L:YL:X2
a =180(200)-1000(30)
-~
nL:X -L:XLX"
b
6(200) - 30(30)
nL:XY - L:XL Y
n:L:X 2
b = 6(1000)-30(180)
6(200) - 30(30)
L:XLX
6000
300
Y =
20 + 2X
12091
600=
300
20
ESTADSTICA
11
10
16
20
25
26
30
32
33
33
Resp:
8,94 + 2,71X
2) Hallar la ecuacin de la recta con las variables: X (nmero de gastos por inversin)
e Y (utilidades anuales en miles). La informacin que se tiene es la siguiente:
Nmero de gastos por inversin (X)
Utilidades anuales en miles (Y)
10
48,S
95,2
88,3
110,4
115,6
Resp:
43,33 + 8,04X
=a +
b (X)
e (X2)
la que se define
y=a +b
(X)
e (X2)
Y, cuando
O)
:E XV
:E X2Y
a (n)
a:EX
a :EX2
+
+
+
b:EX
b :EX2
b :EX3
12101
+ e :EX2
+ e :EX3
+ e :EX4
WAL TER
CSPED
ES RAMfREZ
Para hallar los parmetros respectivos (a, b y c)), basados en el mtodo de clculo
por Mnimos Cuadrados, el alumno puede encontrar la solucin por eliminacin de los
parmetros en las ecuaciones simultaneas.
Ejercicios resueltos
1) Hallar la ecuacin de la parbola con las variables: X (nmero de vendedores) e Y
(valor de ventas realizadas al mes en miles).
La informacin que se tiene es la siguiente:
Nmero de vendedores (X)
Valor de ventas realizadas al mes en
miles (Y)
10
12
15
16
6,4
8,5
9,3
16,4
18,6
20,2
25,2
Solucin:
Con el mtodo por Mnimos cuadrados, se primero se calculan las sumatorias
correspondientes a la ecuacin de la recta, de la siguiente manera:
11:
XY
X2
X2y
X4
X3
6,4
12,8
16
25,6
8,5
34,0
16
64
256
136,0
9,3
46,5
25
125
625
232,5
10
16,4
164,0
100
1000
10000
1640,0
12
18,6
223,2
144
1728
20736
2678,4
15
20,2
303,0
225
3375
50625
4545,0
16
25,2
403,2
256
4096
65536
6451,2
64
104,6
1186,7
770
10396
147794
15708,7
Con estos datos para hallar los parmetros "a", "b" y "c", por el mtodo por Mnimos
Cuadrados, se reemplazan las sumatorias respectiva en las frmulas:
1: Y
1:XY
1: X2Y
104,6 =
7a +
64b +
770c (1)
1186,7 = 64a +
770b + 10396c (2)
1 5708,7 = 770a + 10396b + 147794c (3)
121 11
ESTADSTICA
11
- 6694,4 = -448a
8306,9 = 448a
1612,5
- 4096b
- 49280c
+ 5390b + 72772c
1294b + 23492c (4)
- 6694,4
104,6 = 7a
=~8a
= 44
8306,9
- 4096b
- 49280c
+ 5390b ,+ 72772c
612,5
1294b
+ 23492c (4)
1294b
+ 23492c (-3356)
-5411550,0
+ 63094c ( 1294)
3356b
= -~664b
5438293,8 =
4342~
26743,8 =
e
4
26743,8
/ 2804484
- 78839152c
+ 81643636c
2804484c
= 0,0095
1389,326 / 1294
1,07
28,805/
104,6 = 7a
+ 38,48 + 7,315
= 4,115
= 4,115
+ 1,07X + 0,0095X2
==
12121
WAL TER
Nmero de matriculados
CSPED
ES RAMREZ
(Y)
X (nmero
de gastos por
(X)
10
48,S
95,2
88,3
110,4
115,6
Resp:
12131
= 9,28
+ 22,15X - 1,16X2
e e e
o n
5.3 Correlacin
"
Es la relacin existente entre las variables que se investigan. Cuando se utilizan solamente dos variables, la Correlacin de Pearson es denominada SIMPLE; en cambio,
cuando se utilizan ms de dos variables, la Correlacin es MULTIPLE.
El valor del ndice de correlacin vara en el intervalo [-1, +1]:
1 Si r = O, no existe relacin entre las variables. Pero esto no necesariamente implica
una independencia total entre las dos variables, es decir, que la variacin de una de ellas
puede influir en el valor que pueda tomar la otra.
2 Si r = 1, existe una correlacin positiva perfecta. El ndice indica una dependencia
total entre las dos variables denominada relacin directa; cuando una de ellas aumenta,
la otra tambin lo hace en idntica proporcin. Si
< r < 1, existe una correlacin
positiva.
3 Si r = -1, existe una correlacin negativa perfecta. El ndice indica una dependencia
total entre las dos variables llamada relacin inversa; cuando una de ellas aumenta, la
otra disminuye en idntica proporcin. Si -1 < r < O, existe una correlacin negativa.
12151
ESTADSTICA
11
~
y
r-------~--------------------y
L--------------+------------_x
L (Y - Y)2
L (Y _y)2
+ L (Y - y
)2
Donde:
L (Y - Y)2
L (Y -y )2
(y
-Y)2
Al correlacionar
: Variacin total
: Variacin no explicada
: Variacin explicada
O tambin:
r2
12161
WAL TER
Y = Ventas
X = Publicidad
r2
82,16%;
Variacin Total
r
1-
Variacin
No Explicada
Variacin
= 1-
L:(Y - ~)2
L:(Y _ y)2
Total
Y = Ventas
X = Publicidad
r = 94,64%;
Significa que existe una relacin directa del 94,64% entre las ventas y la publicidad
al
r2
= aL:Y + bL:XY -
ny2
L:y2 _ ny2
12171
ESTADSTICA
11
b)
aY + bLXY y2 _ny2
ny2
Ejercicios resueltos
1) Hallar los coeficientes de determinacin y de correlacin de la recta, con las
variables: X (nmero de vendedores) e Y (valor de ventas realizadas al mes en miles).
La informacin que se tiene es la siguiente:
Nmero de vendedores (X)
10
12
15
16
6,4
8,5
9,3
16,4
18,6
20,2
25,2
Solucin:
Con el mtodo por Mnimos cuadrados, se primero se calculan las sumatorias
correspondientes a la ecuacin de la recta:
I~
XV
X2
V2
6,4
12,8
41,0
8,5
34,0
16
72,3
9,3
46,5
25
86,5
10
16,4
164,0
100
269,0
12
18,6
223,2
144
346,0
15
20,2
303,0
225
408,0
16
25,2
403,2
256
635,0
64
104,6
1186,7
770
1857,8
Con las sumatorias se hallan los parmetros "a" y "b" (solucin por determinantes).
a = lLX2 -LXYLX
nU2-LX'LX
n:LXY - LXLY
nX2 -LXLX
104,6(770)-1186,7(64)
7(770) - 64(64)
4593,2=
1294,0
3,5
12181
WALTER
CSPEDES
RAMREZ
r2
= a2:Y + bLXY -
ny2
2:y2 _ ny2
= 291,68
0,9898
294,68
1857,8 -7(104,6/7)2
~O,9898
= 0,9949
2) Hallar los coeficientes de determinacin y de correlacin de la recta, con las variables: X (nmero de gastos por inversin) e Y (utilidades anuales en miles).
La informacin que se tiene es la siguiente:
Nmero de gastos por inversin (X)
Utilidades anuales en miles
(Y)
11
31
40
30
34
25
20
Solucin:
Con el mtodo por Mnimos cuadrados, se primero se calculan las sumatorias
correspondientes a la ecuacin de la recta:
I~
XV
X2
V2
31
155
25
961
11
40
440
121
1600
30
120
16
900
34
170
25
1156
25
75
625
20
40
400
30
180
1000
200
5642
Con las sumatorias se hallan los parmetros "a" y "b" (se utilizar la solucin por
determinantes).
2
a = LITX - LXYLX
nLX2-LXLX
b = nLXY -LXLY
nLX2 -LXLX
6(1000) - 30(180)
6(200) - 30(30)
1219;
6000= 20
300
600 = 2
300
ESTADSTICA
11
+bLXY
_ny2
2
Ly
- ny2
_20(180)+2(1000)-6(180/6)2
5642 - 6(180/6)2
200 =: 0,8264
242
=: 0,9091
10
Nmero de matriculados
16
20
25
26
30
32
33
33
(Y)
Resp: r2 =: 0,5849,
r =: 0,7648
2) Hallar los coeficientes de determinacin y de correlacin de la recta, con las variables: X (nmero de gastos por inversin) e Y (utilidades anuales en miles).
La informacin que se tiene es la siguiente:
Nmero de gastos por inversin (X)
Utilidades anuales en miles (Y)
10
48,5
95,2
88,3
110,4
115,6
Resp: r2 =: 0,8695,
r =: 0,9325
r2
+ bLXY + cX2y
- ny2
Ly2 _ ny2
b) Coeficientes de correlacin de la parbola
=: aLY
de la parbola
_ny2
12201
e s PED
WA.L TER
ES RAM REZ
Ejercicio resuelto
Hallar la ecuacin de la parbola con las variables: X (nmero de vendedores)
(valor de ventas realizadas al mes en miles).
Nmero de vendedores (X)
10
12
15
16
6,4
8,5
9,3
16,4
18,6
20,2
25,2
eY
Solucin:
Con el mtodo por Mnimos cuadrados, se primero se calculan 'las sumatorias
correspondientes a la ecuacin de la recta:
x
2
Il:
XV
6,4
X2
12,8
X4
X3
V2
X2V
16
25,6
41,0
8,5
34,0
16
64
256
136,0
72,3
9,3
46,S
25
125
625
232,5
86,5
269,0
10
16,4
164,0
100
1000
10000
1640,0
12
18,6
223,2
144
1728
20736
2678,4
346,0
15
20,2
303,0
225
3375
50625
4545,0
408,0
16
25,2
64
104,6
403,2
256
4096
65536
6451,2
635,0
1186,7
770
10396
147794
15708,7
1857,8
Los parmetros "a", "b" y ":c:", fueron hallados en el ejercicio 1 del tem 5.2.4
correspondiente a la regresin de la parbola y estos son: a = 4,l15;b
= 1,07 Y
c = 0,0095.
a) Coeficientes de determinacin
r2
(r2):
ny2
~O,9719 = 0,9858
~221.
_ 286,41 = 0,9719
294,68
ESTADSTICA
I1
(Y)
10
16
20
25
26
30
32
33
33
Resp: r2
0,7462,
r ~ 0,8638
(X)
10
48,5
95,2
88,3
110,4
115,6
Resp: r2
0,9904,
0,9952
61:,d2
1----n (n2 -1)
Donde:
d: es la diferencia de comparar el ordenen que quedaron ambas variables
n: es el nmero de parejas entre las dos variables.
En caso de existencia de datos iguales, se les da el orden que les corresponde ignorando que son iguales; es decir, como si fueran datos diferentes, luego se saca el
promedio del orden asignado a todos los datos iguales y se les reasigna este promedio
a todos ellos.
E2221
WALTER
CSPEDES
RAMREZ
Ejercicio resuelto
Se tiene el Coeficiente de Inteligencia (C.I.) de 10 nios y el nmero de horas que
ven televisin a la semana (Tv.), mediante la correlacin de Spearman, determine si hay
influencia de la televisin en la inteligencia de los nios:
Coeficiente de
Inteligencia
106
86
100
100
99
103
97
113
113
110
Nmero de horas
de Tv.
28
50
28
28
20
12
17
Solucin:
~
~
C.I.
Tv.
Orden C.I
Orden Tv.
d2
86
97
20
16
99
28
25
100
28
4,5
3,5
12,25
100
50
4,5
10
5,5
30,25
103
28
106
2,5
4,5
9
49
30,25
110
17
113
9,5
2,5
113
12
9,5
5,5
I:
6'L.d
= 1- 6 (196)
1----n (n2 -1)
10 (100 -1)
4
20,25
196,00
12231
1 - 1,1879
= - 0,1879
ESTADSTICA
Interpretacin
11
de los resultados:
25
16
30
33
45
18
Evaluacin
45
82
56
62
80
65
Resp:
- 0,2
18
10
45
82
16
26
20
650
240
Resp:
0,9375.
125
145
198
180
174
152
166
182
180
173
162
171
Peso (kg)
38
52
77
89
88
45
58
74
70
86
70
70
Resp:
12241
0,7850