Documente Academic
Documente Profesional
Documente Cultură
Regresin lineal
http://www.sc.ehu.es/sbweb/fisica_/cinematica/rectilineo/regresion/regresion.h
tml
Abordaremos en esta pgina las distribuciones bidimensionales. Las
observaciones se dispondrn en dos columnas, de modo que en cada fila
figuren la abscisa x y su correspondiente ordenada y. La importancia de las
distribuciones bidimensionales radica en investigar como influye una variable
sobre la otra. Esta puede ser una dependencia causa efecto, por ejemplo, la
cantidad de lluvia (causa), da lugar a un aumento de la produccin agrcola
(efecto). O bien, el aumento del precio de un bien, da lugar a una disminucin
de la cantidad demandada del mismo.
Si utilizamos un sistema de coordenadas cartesianas para representar la
distribucin bidimensional, obtendremos un conjunto de puntos conocido con
el diagrama de dispersin, cuyo anlisis permite estudiar cualitativamente, la
relacin entre ambas variables. El siguiente paso, es la determinacin de la
dependencia funcional entre las dos variables x e y que mejor ajusta a la
distribucin bidimensional. Se denomina regresin lineal cuando la funcin es
lineal, es decir, requiere la determinacin de dos parmetros: la pendiente y la
ordenada en el origen de la recta de regresin, y=ax+b.
La regresin nos permite adems, determinar el grado de dependencia de las
series de valores X e Y, prediciendo el valor y estimado que se obtendra para
un valor x que no est en la distribucin.
Vamos a determinar la ecuacin de la recta que mejor ajusta a los datos
representados en la figura. Se denomina error i a la diferencia yi-y, entre el
valor observado yi, y el valor ajustado y= axi+b, tal como se ve en la figura
inferior. El criterio de ajuste se toma como aqul en el que la desviacin
cuadrtica media sea mnima, es decir, debe de ser mnima la suma
E=1n2i=1n(yi(axi+b))2E=1ni2=1n(yi(axi+b))2
Eb=0a=n1nxiyi(1nxi)(1nyi)n1nx2i(1nxi)2
Ejemplo
Un vehculo que se mueve supuestamente con velocidad constante. Los datos
de las medidas del tiempo en cuatro posiciones separadas 900 m son las
siguientes
Tiempo t (s)
Posicin x (m)
17.6
40.4
900
67.7
1800
90.1
2700
x
y
10
20
30
40 50
60
70
80
1.06 1.33 1.52 1.68 1.81 1.91 2.01 2.11
Funcin exponencial
y=ceax
Tomando logaritmos neperianos en los dos miembros resulta
ln y=ax+ln c
Si ponemos ahora X=x, e Y=ln y, obtenemos la relacin lineal
Y=aX+b
Donde b=ln c.
Ejemplo:
x
y
12
930
41
815
93
632
147
487
204
370
264
265
373
147
509
76
773
17
12
41
93
147
204
264 373
509
773
6.835 6.703 6.449 6.188 5.913 5.580 4.990 4.330 2.833
[a b]=regresion(x,log(y));
fprintf('exponente a= %2.3f\n',a(1));
fprintf('coeficiente c = %3.3f\n',exp(b(1)));
%grficos
hold on
plot(x,y,'ro','markersize',8,'markerfacecolor','r')
x=linspace(min(x),max(x),100);
y=exp(b(1))*exp(x*a(1));
plot(x,y,'b')
xlabel('x')
ylabel('y')
title('Regresin exponencial')
hold off
Polinomio aproximador
Supongamos que hemos medido un conjunto de pares de datos (xi, yi) en una
experiencia, por ejemplo, la posicin de un mvil en ciertos instantes de
tiempo.
Queremos obtener una funcin y=f(x) que se ajuste lo mejor posible a los
valores experimentales. Se pueden ensayar muchas funciones, rectas,
polinomios, funciones potenciales o logartmicas.
Una vez establecido la funcin a ajustar se determinan sus parmetros, en el
caso de un polinomio, sern los coeficientes del polinomio de modo que los
datos experimentales se desven lo menos posible de la frmula emprica. La
funcin ms sencilla es la funcin lineal y=ax+b, que hemos descrito en la
seccin anterior
Queremos aproximar un polinomio de grado n, a un conjunto de m pares de
datos (xi, yi) de modo que n<m. Sea el polinomio
P(x)=a1xn+a2xn-1+...anx+an+1
Se calcula la cantidad
S=j=1m(P(xi)yi)2=j=1m(a1xnj+a2xn1j+anxj+an+1yi)2S=j=1m(P(xi)yi)2=j=1m(a1
xjn+a2xjn1+anxj+an+1yi)2
j=1m(a1xjn+a2xjn1+anxj+an+1yi)xjn1....................................12San=j=1m(a1
xjn+a2xjn1+anxj+an+1yi)xj12San+1=j=1m(a1xjn+a2xjn1+anxj+an+1yi)
Obtenemos un sistema de n+1 ecuaciones con n+1 incgnitas, a1, a2, a3, ...an,
an+1
(j=1mx2nj)a1+(j=1mx2n1j)a2+...+(j=1mxn+1j)an+(j=1mxnj)an+1=j=1myjxnj(j=1mx2n1j)
a1+(j=1mx2n2j)a2+...+(j=1mxnj)an+(j=1mxn1j)an+1=j=1myjxn1j.........(j=1mxnj)a1+(j
=1mxn1j)a2+...+(j=1mxj)an+man+1=j=1myj(j=1mxj2n)a1+(j=1mxj2n1)a2+...+(j=1
mxjn+1)an+(j=1mxjn)an+1=j=1myjxjn(j=1mxj2n1)a1+(j=1mxj2n2)a2+...+(j
=1mxjn)an+(j=1mxjn1)an+1=j=1myjxjn1.........(j=1mxjn)a1+(j=1mxjn1)a2+.
..+(j=1mxj)an+man+1=j=1myj
s1a1+s2a2+....snan+sn+1an+1=t1s2a1+s3a2+....sn+1an+sn+2an+1=t2.......sn+
1a1+sn+2a2+....s2nan+s2n+1an+1=tn+1sk=j=1mx2n+1kj k=1...2n+1tk=j=1myjxn+1kj
k=1...n+1{s1a1+s2a2+....snan+sn+1an+1=t1s2a1+s3a2+....sn+1an+sn+2an+1=t2.......sn
+1a1+sn+2a2+....s2nan+s2n+1an+1=tn+1sk=j=1mxj2n+1k
k=1...2n+1tk=j=1myjxjn+1k k=1...n+1
function p=pol_regresion(x,y,n)
s=zeros(2*n+1,1);
t=zeros(n+1,1);
A=zeros(n+1);
for k=1:2*n+1
s(k)=sum(x.^(2*n+1-k));
end
%vector de los trminos independientes
for k=1:n+1
t(k)=sum(y.*x.^(n+1-k));
end
%elementos de la matriz A de las incgnitas
for i=1:n+1
for j=1:n+1
A(i,j)=s(i+j-1);
end
end
%coeficientes del polinomio a1, a2... an, an+1
p=A\t;
end
t (s)
n/100
t(min)
100
242
4.03
200
487
8.12
300
854
14.23
400
1220
20.33
500
1626
27.1
600
2072
34.53
700
2558
42.63
744
2786
7.44
46.43
oeficiente de correlacin
xy
x2
y2
AJUSTE DE CURVAS
Uno de los objetivos en el anlisis de resultados es el llegar a establecer una relacin cuantitativa entre dos o
ms variables y mediante esta relacin poder efectuar predicciones. Por lo general la relacin consiste en una
ecuacin que expresa cmo la variable dependiente (cuyo valor se desea predecir) es afectada por una o
ms variables independientes.
En esta unidad se ilustra la forma de establecer la posible relacin de una variable dependiente con otra
variable considerada independiente. El primer paso es disponer de una coleccin de datos obtenidos
experimentalmente. Si se simbolizan por X y Y las variables independiente y dependiente respectivamente, y
sus valores particulares por X1, Y1, X2, Y2, etc., en una tabla se dispondran as:
X
X1
X2
X3
.........
XN
Y1
Y2
Y3
.........
YN
El siguiente paso es representar los puntos (X1, Y1 ), (X2, Y2) . . . . , (XN, YN) en un sistema de coordenadas
rectangulares. El sistema de puntos resultantes se llama diagrama de dispersin.
Con el diagrama de dispersin es posible representar una curva que se aproxime a los datos, es decir, que
siga la tendencia de los mismos. Tal curva se llama curva de aproximacin.
En la figura 5.1 a) , por ejemplo, se ve que los datos experimentales se aproximan bien a una lnea recta y se
dice que entre las variables existe una relacin lineal. En b), existe una relacin no lineal.
Las curvas mostradas enla Fig.5.1 se denominan curvas de aproximacin y describen la tendencia de los
puntos en el diagrama de dispersin. El problema general de hallar la ecuacin de la curva de aproximacin
que se ajuste mejor al conjunto de datos con los que se obtuvo el diagrama de dispersin se denomina
determinacin dela CURVA DEAJUSTE.
Una curva de aproximacin como la de la Fig.5.1 (a) sugiere una ecuacin lineal; (ecuacin de la recta) Y = a
+ bX; mientras que la de la curva en la Fig.5.1 (b) sugiere una ecuacin cuadrtica (parablica) de la forma Y
= a + bX + cX2.
La dispersin de los puntos se debe a los errores que afectan en el proceso de medicin tanto a la variable
dependiente como a la independiente. En ocasiones puede despreciarse el error en la variable independiente
al compararse con el error (o variacin aleatoria) de la variable dependiente. Esto depender de la situacin
particular de las causas de error sobre cada variable al realizar el experimento.
ANLISIS DE REGRESIN
Uno de los propsitos principales de la curva de ajuste es estimar una de las variables a partir de la otra. El
proceso de estimacin se conoce como regresin. Si Y se va a estimar a partir de X por medio de alguna
ecuacin la llamamos ecuacin de regresin de Y sobre X y a la curva correspondiente curva de regresin de
Y sobre X.
A continuacin se presentan algunos ejemplos de relaciones denominadas funciones o ecuaciones de
prediccin:
Yc = a + bX
(Lnea Recta)
Una curva con esta propiedad se dice que ajusta los datos por mnimos cuadrados y se llama Curva de
regresin de mnimos cuadrados o simplemente Curva de mnimos cuadrados.
Una recta con esta propiedad se llama recta de mnimos cuadrados, una parbola con esta propiedad se
llamaparbola de mnimos cuadrados, etc.
REGRESIN LINEAL.
Con el siguiente ejemplo se ilustra como puede tratarse un caso de regresin lineal. En la tabla siguiente se
dan los resultados de 12 mediciones, las X son las cargas en miles de libras y las Y son las deflexiones
correspondientes en milsimas de pulgada, en la calibracin de un anillo tensor:
X
CARGA
Y
DEFLEXIN
10
11
12
16
35
45
64
86
96
106
124
134
156
164
182
Primero se construye el diagrama de dispersin; a partir de aqu, y segn la tendencia de los puntos, se traza
la curva de aproximacin, que resulta en la forma que se ilustra enla Fig.5.3 (lnea no continua -).
Donde n es el nmero de pares ordenados (X, Y) o nmero de puntos o nmero de observaciones, a y b son
incgnitas que representan, como ya se mencion, respectivamente, el intercepto y la pendiente de la recta de
mnimos cuadrados.
Para resolver estas ecuaciones se requiere obtener X, Y, XY y X2. Para el ejemplo del anillo tensor se
tiene:
Xi
Yi
XY
X2
16
16
35
70
45
135
64
256
16
86
430
25
96
576
36
106
742
49
124
992
64
1206
81
134
10
156
1560
100
11
164
1804
121
12
182
2184
144
78
1208
9971
650
78b
(- 78)
9971 = 78 a
650b
( 12 )
*****************************************
94224 =-936 a
6084b
1716b
Para encontrar el valor de a sustituimos el valor de b en cualquiera de las ecuaciones originales; en este
caso se sustituye b = 14.82 en (1):
1208 = 12a
+ 78 (14.82)
1208 = 12a
+ 1156
Le queda al lector comprobar estas frmulas, deber llegar a la misma ecuacin de regresin: Yc =
4.3 + 14.82 X. Anteriormente habamos dicho que el valor de a era el intercepto con el eje de las
ordenadas, Y; al observar la grfica notamos que, efectivamente, la recta terica corta al eje Y en la divisin
4.3 que es el valor que ha tomado a; el valor de b = 14.82 milsimas de pulgadas de aumento en la
deflexin del anillo cuando la carga x aumenta en1000 libras.
Con la ecuacin calculada, podemos hacer estimaciones de Y (deflexin), y haciendo variar el valor de X
(carga). Por ejemplo, si deseamos estimar la deflexin del anillo para un valor de X = 3.5 (3500 libras); la
respuesta es:
Yc = 4.3 + 14.82 (3.5) = 56.17 (milsimas de pulgada)
Conviene aclarar que con la ecuacin de regresin slo se pueden hacer interpolaciones, ya que la
ecuacin expresa funcionalmente la relacin de las variables, pero para pares de valores comprendidos en el
dominio y rango donde se ha experimentado. En nuestro ejemplo se ha experimentado en el intervalo de1 a
12; si con la ecuacin que hemos determinado, quisiramos estimar la deflexin para una carga de20,000
libras; X = 20, el resultado es:
Yc = 4.3 + 14.82 (20) = 300.7 (milsimas de pulgada).
Este resultado es un tanto dudoso, pues lo ms probable es que al aplicar una carga mayor de la que se ha
experimentado el anillo tensor se deforme o hasta se rompa.
REGRESIN CURVILNEA
Funcin potencial o curva geomtrica: Yc = aXb.
Aplicando logaritmo a la funcin Yc = aXb, tenemos:
Log Yc = Log a + b Log X
Tal como hemos dicho anteriormente, la expresin S(Log Yi Log Yc)2 es un mnimo; sustituyendo en esta
expresin Log Yc por su valor, tenemos:
S(Log Yi Log a b Log X)2, es un mnimo
Al derivar parcialmente con respecto a a y respecto a b e igualar a cero las derivadas, obtenemos las
ecuaciones normales siguientes:
SLog Y = n Log a + b S Log X
(1)
X)2
(2)
Ahora ajustemos una funcin potencial a la siguiente informacin, correspondiente al periodo de oscilacin de
un sistema resorte-masa:
m (kg)
0.20
0.40
0.60
0.80
1.00
1.20
1.40
T (s)
0.34
0.47
0.58
0.66
0.74
0.84
0.90
Se obtiene el diagrama de dispersin y su respectiva curva de aproximacin, tal como se ilustra en la fig. 5.4 .
(1)
(2)
El siguiente cuadro contiene los valores logartmicos necesarios para resolver las ecuaciones normales.
Log T
Log m.Log T
(Log m)2
mi
Ti
Log m
Tc
0.20
0.34
-0.69897
-0.46852
0.32748
0.48856
0.335
0.40
0.47
-0.39794
-0.32790
0.13049
0.15836
0.474
0.60
0.58
-0.22185
-0.23457
0.05248
0.04921
0.581
0.80
0.66
-0.09691
-0.18045
0.01749
0.00939
0.671
1.00
0.74
0.00000
-0.13077
0.0000
0.00000
0.750
1.20
0.84
0.07918
-0.07572
-0.00589
0.00627
0.822
1.40
0.90
0.14613
-0.04575
-0.00669
0.07135
0.887
S=
-1.46558
-1.19036
0.73314
0.51526
TIEMPO, t (min)
0.0
2.5
5.0
7.5
10.0
15.0
20.0
ACTIVIDAD, A
(mCi)
19.20
11.70
7.15
4.35
2.65
1.00
0.35
Primero representamos en una grfica la actividad en funcin del tiempo para averiguar el tipo de ecuacin
que podra corresponderle.
(1)
SXi2
(2)
0.0
19.20
1.283301229
0.000000000
0.00
19.36
2.5
11.70
1.068185862
2.670464654
6.25
11.76
5.0
7.15
0.854306042
4.271530209
25.00
7.14
7.5
4.35
0.638489257
4.788669427
56.25
4.34
10.0
2.65
0.423245874
4.232458739
100.00
2.64
15.0
1.00
0.000000000
0.000000000
225.00
0.97
20.0
0.35
-0.455931956
-9.118639113
400.00
0.36
3.811596307
6.844483917
812.50
S= 60.0
log A
t*log A
t2
t (min)
(1)
AC
(2)
Sumando:
2087.5 Log b
180.784391 =
b = (Log) 1
-0.086603301 = 0.8192
Log a = 1.286827767
(1) * 60.0
(2) * 7
AC = 19.36 (0.8192)t
La expresin anterior es la ecuacin de regresin.
En la ltima columna del cuadro anterior aparecen los valores tericos de A C.
Estos valores se obtuvieron utilizando la ecuacin de regresin al sustituir en el exponente t los valores de la
primera columna de la tabla.
1.80
3.10
4.90
5.70
4.50
5.90
6.00
7.80
7.50
a)
Log X
Log Y
Log X . LogY
(Log X)2
1.20
4.50
0.079181
0.653212
0.051722
0.006269
1.80
5.90
0.255272
0.770852
0.196777
0.065164
3.10
6.00
0.491362
0.778151
0.382354
0.241437
4.90
7.80
0.690196
0.892094
0.615719
0.476371
5.70
7.50
0.755875
0.875061
0.661437
0.571347
S = 16.70
S = 31.70
S= 2.271886
S= 3.969370
S= 1.908009
S= 1.360588
Yc = 4.46 x0.318