Sunteți pe pagina 1din 25

Ajuste de datos

En esta pgina, estudiaremos la regresin lineal, es decir la determinacin de


la ecuacin de la recta que mejor ajusta a una distribucin bidimensional de
datos. Se explicar el mtodo de los mnimos cuadrados para aproximar un
polinomio a un conjunto de datos experimentales.

Regresin lineal
http://www.sc.ehu.es/sbweb/fisica_/cinematica/rectilineo/regresion/regresion.h
tml
Abordaremos en esta pgina las distribuciones bidimensionales. Las
observaciones se dispondrn en dos columnas, de modo que en cada fila
figuren la abscisa x y su correspondiente ordenada y. La importancia de las
distribuciones bidimensionales radica en investigar como influye una variable
sobre la otra. Esta puede ser una dependencia causa efecto, por ejemplo, la
cantidad de lluvia (causa), da lugar a un aumento de la produccin agrcola
(efecto). O bien, el aumento del precio de un bien, da lugar a una disminucin
de la cantidad demandada del mismo.
Si utilizamos un sistema de coordenadas cartesianas para representar la
distribucin bidimensional, obtendremos un conjunto de puntos conocido con
el diagrama de dispersin, cuyo anlisis permite estudiar cualitativamente, la
relacin entre ambas variables. El siguiente paso, es la determinacin de la
dependencia funcional entre las dos variables x e y que mejor ajusta a la
distribucin bidimensional. Se denomina regresin lineal cuando la funcin es
lineal, es decir, requiere la determinacin de dos parmetros: la pendiente y la
ordenada en el origen de la recta de regresin, y=ax+b.
La regresin nos permite adems, determinar el grado de dependencia de las
series de valores X e Y, prediciendo el valor y estimado que se obtendra para
un valor x que no est en la distribucin.
Vamos a determinar la ecuacin de la recta que mejor ajusta a los datos
representados en la figura. Se denomina error i a la diferencia yi-y, entre el
valor observado yi, y el valor ajustado y= axi+b, tal como se ve en la figura
inferior. El criterio de ajuste se toma como aqul en el que la desviacin
cuadrtica media sea mnima, es decir, debe de ser mnima la suma
E=1n2i=1n(yi(axi+b))2E=1ni2=1n(yi(axi+b))2

El extremos de una funcin: mximo o mnimo se obtiene cuando las


derivadas de E respecto de a y de b sean nulas. Lo que da lugar a un sistema
de dos ecuaciones con dos incgnitas del que se despeja a y b.
b=1nyia1nxinEa=0
Eb=0a=n1nxiyi(1nxi)(1nyi)n1nxi2(1nxi)2
b=1nyia1nxin
Ea=0

Eb=0a=n1nxiyi(1nxi)(1nyi)n1nx2i(1nxi)2

Expresiones ms elaboradas nos permiten determinar el error de a, a y el


error de b, b
a=nn1nx2i(1nxi)2
=1n(yiaxib)2n2b=a1nx2ina=nn1nxi2(1nxi)2
=1n(yiaxib)2n2b=a1nxi2n

La pendiente de la recta se escribir aa, y la ordenada en el


origen bb. Vase las reglas para expresar una medida y su error de una
magnitud.
El coeficiente de correlacin es otro parmetro para el estudio de una
distribucin bidimensional, que nos indica el grado de dependencia entre las
variables X e Y. El coeficiente de correlacin r es un nmero que se obtiene
mediante la frmula.
r=1n(xi<x>)(yi<y>)1n(xi<x>)21n(yi<y>)2
r=1n(xi<x>)(yi<y>)1n(xi<x>)21n(yi<y>)2

El numerador es el producto de las desviaciones de los valores X e Y respecto


de sus valores medios. En el denominador tenemos las desviaciones
cuadrticas medias de X y de Y.
El coeficiente de correlacin puede valer cualquier nmero comprendido entre
-1 y +1.

Cuando r=1, la correlacin lineal es perfecta, directa.

Cuando r=-1, la correlacin lineal es perfecta, inversa

Cuando r=0, no existe correlacin alguna, independencia total de los valores


XeY

Ejemplo
Un vehculo que se mueve supuestamente con velocidad constante. Los datos
de las medidas del tiempo en cuatro posiciones separadas 900 m son las
siguientes
Tiempo t (s)

Posicin x (m)

17.6

40.4

900

67.7

1800

90.1

2700

Ajustar los datos a la lnea recta


x=x0+vt
y estimar el mejor valor de la velocidad v aplicando el procedimiento de
mnimos cuadrados
Utilizando el applet de la pgina Regresin lineal, obtenemos los siguientes
valores: la pendiente es a=36.71 y el error de la pendiente a=1.001. La
velocidad se escribe (vase la pgina Errores en las medidas)
v=371 m/s
function [a b]=regresion(x,y)
n=length(x);
a=zeros(2,1);
b=zeros(2,1);
%pendiente de la recta de regresin, a
a(1)=(n*sum(x.*y)-sum(x)*sum(y))/(n*sum(x.^2)-sum(x)*sum(x));
%ordenada en el origen, b
b(1)=(sum(y)-a(1)*sum(x))/n;
% errores de a y de b
sd2=sum((y-a(1)*x-b(1)).^2);
a(2)=sqrt(sd2/(n-2))/sqrt(sum(x.^2)-sum(x)*sum(x)/n);
b(2)=sqrt(sum(x.^2)/n)*a(2);
end

En el vector a de dimensin 2 hemos guardado la pendiente en a(1) y su


error en a(2)

En el vector b de dimensin 2 hemos guardado la ordenada en b(1) y su error


en b(2)

Escribimos el script datos_1 para calcular la pendiente a de la recta de


regresin, su error a, la ordenada en el origen b y su error b.
t=[17.6 40.4 67.7 90.1];
x=[0 900 1800 2700];
[a b]=regresion(t,x);
fprintf('pendiente a= %2.3f, error %1.3f\n',a(1),a(2));
fprintf('ordenada b= %3.3f, error %3.3f\n',b(1),b(2));
%grfica
plot(t,x,'ro','markersize',8,'markerfacecolor','r')
tmin=min(t);
xmin=a(1)*tmin+b(1);
tmax=max(t);
xmax=a(1)*tmax+b(1);
line([tmin tmax],[xmin xmax]); %recta
xlabel('t')
ylabel('x')
title('Regresin lineal')

En la ventana de comandos corremos el script datos_1


>> datos_1
pendiente a= 36.710, error 1.001
ordenada b= -630.509, error 60.580

Queda como trabajo al lector calcular el coeficiente de correlacin.


Solucin r=0.99926
La funcin potencial
y=cxa
Se puede trasformar en
log y=alog x+log c
Si usamos las nuevas variables X=log x e Y=log y, obtenemos la relacin
lineal
Y=aX+b.
Donde b=log c
Ejemplo:

x
y

10
20
30
40 50
60
70
80
1.06 1.33 1.52 1.68 1.81 1.91 2.01 2.11

Representamos estos datos en un diagrama doblemente logartmico mediante


el comando loglog
x=[10 20 30 40 50 60 70 80];
y=[1.06 1.33 1.52 1.68 1.81 1.91 2.01 2.11];
loglog(x,y,'ro','markersize',2,'markerfacecolor','r')
xlabel('x')
ylabel('y')
title('Funcin potencial')

Para determinar la recta de regresin, se transforma esta tabla de datos en esta


otra
X=log x 1.0 1.30 1.477 1.60 1.699 1.778 1.845 1.903
Y=log y 0.025 0.124 0.182 0.225 0.258 0.281 0.303 0.324

Calculamos mediante la funcin regresion los parmetros a y c.


Escribimos el script datos_2
x=[10 20 30 40 50 60 70 80];
y=[1.06 1.33 1.52 1.68 1.81 1.91 2.01 2.11];
[a b]=regresion(log10(x),log10(y));
fprintf('exponente a= %2.3f\n',a(1));
fprintf('coeficiente c= %3.3f\n',10^b(1));
%grfica
hold on
plot(x,y,'ro','markersize',8,'markerfacecolor','r')
z=(10^b(1))*x.^a(1);
plot(x,z,'b')
xlabel('x')
ylabel('y')
title('Regresin potencial')
hold off

Corremos el script datos_2 en la ventana de comandos


>> datos_2
exponente a= 0.331
coeficiente c = 0.495

Funcin exponencial
y=ceax
Tomando logaritmos neperianos en los dos miembros resulta
ln y=ax+ln c
Si ponemos ahora X=x, e Y=ln y, obtenemos la relacin lineal
Y=aX+b
Donde b=ln c.
Ejemplo:
x
y

12
930

41
815

93
632

147
487

204
370

264
265

373
147

509
76

773
17

Representamos estos datos en un diagrama semilogartmico mediante el


comando semilogy
x=[12 41 93 147 204 264 373 509 773];
y=[930 815 632 487 370 265 147 76 17];
semilogy(x,y,'ro','markersize',2,'markerfacecolor','r')
xlabel('x')
ylabel('y')
title('Funcin exponencial')
grid on

Para determinar la recta de regresin, se transforma esta tabla de datos en esta


otra
X= x
Y=ln y

12
41
93
147
204
264 373
509
773
6.835 6.703 6.449 6.188 5.913 5.580 4.990 4.330 2.833

Escribimos el script datos_3


x=[12 41 93 147 204 264 373 509 773];
y=[930 815 632 487 370 265 147 76 17];

[a b]=regresion(x,log(y));
fprintf('exponente a= %2.3f\n',a(1));
fprintf('coeficiente c = %3.3f\n',exp(b(1)));
%grficos
hold on
plot(x,y,'ro','markersize',8,'markerfacecolor','r')
x=linspace(min(x),max(x),100);
y=exp(b(1))*exp(x*a(1));
plot(x,y,'b')
xlabel('x')
ylabel('y')
title('Regresin exponencial')
hold off

Corremos el script datos_3 en la ventana de comandos


>> datos_3
exponente a= -0.005
coeficiente c = 1036.896

Polinomio aproximador

Supongamos que hemos medido un conjunto de pares de datos (xi, yi) en una
experiencia, por ejemplo, la posicin de un mvil en ciertos instantes de
tiempo.
Queremos obtener una funcin y=f(x) que se ajuste lo mejor posible a los
valores experimentales. Se pueden ensayar muchas funciones, rectas,
polinomios, funciones potenciales o logartmicas.
Una vez establecido la funcin a ajustar se determinan sus parmetros, en el
caso de un polinomio, sern los coeficientes del polinomio de modo que los
datos experimentales se desven lo menos posible de la frmula emprica. La
funcin ms sencilla es la funcin lineal y=ax+b, que hemos descrito en la
seccin anterior
Queremos aproximar un polinomio de grado n, a un conjunto de m pares de
datos (xi, yi) de modo que n<m. Sea el polinomio
P(x)=a1xn+a2xn-1+...anx+an+1
Se calcula la cantidad
S=j=1m(P(xi)yi)2=j=1m(a1xnj+a2xn1j+anxj+an+1yi)2S=j=1m(P(xi)yi)2=j=1m(a1
xjn+a2xjn1+anxj+an+1yi)2

Para obtener los valores de los coeficientes del polinomio aproximador se


tienen que determinar los valores de los coeficientes a1, a2, a3, ...an, an+1 de
forma que la cantidad S tome un valor mnimo.
Hagamos las derivadas parciales de S respecto de a1, a2, a3, ...an, an+1 iguales a
cero
12Sa1=j=1m(a1xnj+a2xn1j+anxj+an+1yi)xnj12Sa2=j=1m(a1xnj+a2xn1j+anxj+an+1yi)xn
1j....................................12San=j=1m(a1xnj+a2xn1j+anxj+an+1yi)xj12San+1=j=1m(a1x
nj+a2xn1j+anxj+an+1yi)12Sa1=j=1m(a1xjn+a2xjn1+anxj+an+1yi)xjn12Sa2=

j=1m(a1xjn+a2xjn1+anxj+an+1yi)xjn1....................................12San=j=1m(a1
xjn+a2xjn1+anxj+an+1yi)xj12San+1=j=1m(a1xjn+a2xjn1+anxj+an+1yi)

Obtenemos un sistema de n+1 ecuaciones con n+1 incgnitas, a1, a2, a3, ...an,
an+1
(j=1mx2nj)a1+(j=1mx2n1j)a2+...+(j=1mxn+1j)an+(j=1mxnj)an+1=j=1myjxnj(j=1mx2n1j)
a1+(j=1mx2n2j)a2+...+(j=1mxnj)an+(j=1mxn1j)an+1=j=1myjxn1j.........(j=1mxnj)a1+(j
=1mxn1j)a2+...+(j=1mxj)an+man+1=j=1myj(j=1mxj2n)a1+(j=1mxj2n1)a2+...+(j=1
mxjn+1)an+(j=1mxjn)an+1=j=1myjxjn(j=1mxj2n1)a1+(j=1mxj2n2)a2+...+(j
=1mxjn)an+(j=1mxjn1)an+1=j=1myjxjn1.........(j=1mxjn)a1+(j=1mxjn1)a2+.
..+(j=1mxj)an+man+1=j=1myj

que podemos escribir, altenativamente

s1a1+s2a2+....snan+sn+1an+1=t1s2a1+s3a2+....sn+1an+sn+2an+1=t2.......sn+
1a1+sn+2a2+....s2nan+s2n+1an+1=tn+1sk=j=1mx2n+1kj k=1...2n+1tk=j=1myjxn+1kj
k=1...n+1{s1a1+s2a2+....snan+sn+1an+1=t1s2a1+s3a2+....sn+1an+sn+2an+1=t2.......sn
+1a1+sn+2a2+....s2nan+s2n+1an+1=tn+1sk=j=1mxj2n+1k
k=1...2n+1tk=j=1myjxjn+1k k=1...n+1
function p=pol_regresion(x,y,n)
s=zeros(2*n+1,1);
t=zeros(n+1,1);
A=zeros(n+1);
for k=1:2*n+1
s(k)=sum(x.^(2*n+1-k));
end
%vector de los trminos independientes
for k=1:n+1
t(k)=sum(y.*x.^(n+1-k));
end
%elementos de la matriz A de las incgnitas
for i=1:n+1
for j=1:n+1
A(i,j)=s(i+j-1);
end
end
%coeficientes del polinomio a1, a2... an, an+1
p=A\t;
end

A la funcin pol_regresion se le pasa los vectores x e y de datos el grado n del


polinomio aproximador y devuelve los coeficientes del polinomio en el vector
columna p.
La funcin calcula los elementos de la matriz A de las incgnitas, el vector t de
los trminos independientes y resuelve el sistema de n+1 ecuaciones con n+1
incgnitas mediante el operador divisin por la izquierda.
Ejemplo
Una experiencia que se puede llevar a cabo con la ayuda de un cronmetro es
la de establecer una relacin entre la lectura n del contador del reproductor de
la casete y el tiempo t transcurrido. Vamos a comprobar que esta relacin no
es lineal
Se sugiere al lector que analice el comportamiento de su reproductor de casete
y complete una tabla como la siguiente, y represente los datos en una grfica
semejante a la figura ms abajo
http://www.sc.ehu.es/sbweb/fisica_/cinematica/circular/casete/casete1.html
n

t (s)

n/100

t(min)

100

242

4.03

200

487

8.12

300

854

14.23

400

1220

20.33

500

1626

27.1

600

2072

34.53

700

2558

42.63

744

2786

7.44

46.43

Ajustar el conjunto de pares de datos de la tabla de la derecha a un polinomio


de segundo grado a1x2+a2x+a3.
Creamos el script datos_5 con los datos y llamamos a la funcin pol_regresion
x=[0 1 2 3 4 5 6 7 7.44];
y=[0 4.03 8.12 14.23 20.33 27.1 34.53 42.63 46.43];
p=pol_regresion(x,y,2)
%grficos
hold on
plot(x,y,'ro','markersize',8,'markerfacecolor','r')
x=linspace(min(x),max(x),50);
y=polyval(p,x);
plot(x,y,'b')
xlabel('x')
ylabel('y')
title('Polinomio aproximador')
hold off

En la ventana de comandos corremos el script datos_5, y nos aparece el


vector p que contiene los coeficientesa1,a2, a3 del polinomio
>> datos_5
p =
0.3446
3.7004
-0.1188

oeficiente de correlacin

Coeficiente de correlacin =r=n


y

xy

x2

y2

Anlisis de datos Experimentales por Mnimos Cuadrados


NOVIEMBRE 4, 2011 3 COMENTARIOS

AJUSTE DE CURVAS
Uno de los objetivos en el anlisis de resultados es el llegar a establecer una relacin cuantitativa entre dos o
ms variables y mediante esta relacin poder efectuar predicciones. Por lo general la relacin consiste en una

ecuacin que expresa cmo la variable dependiente (cuyo valor se desea predecir) es afectada por una o
ms variables independientes.
En esta unidad se ilustra la forma de establecer la posible relacin de una variable dependiente con otra
variable considerada independiente. El primer paso es disponer de una coleccin de datos obtenidos
experimentalmente. Si se simbolizan por X y Y las variables independiente y dependiente respectivamente, y
sus valores particulares por X1, Y1, X2, Y2, etc., en una tabla se dispondran as:
X

X1

X2

X3

.........

XN

Y1

Y2

Y3

.........

YN

El siguiente paso es representar los puntos (X1, Y1 ), (X2, Y2) . . . . , (XN, YN) en un sistema de coordenadas
rectangulares. El sistema de puntos resultantes se llama diagrama de dispersin.
Con el diagrama de dispersin es posible representar una curva que se aproxime a los datos, es decir, que
siga la tendencia de los mismos. Tal curva se llama curva de aproximacin.
En la figura 5.1 a) , por ejemplo, se ve que los datos experimentales se aproximan bien a una lnea recta y se
dice que entre las variables existe una relacin lineal. En b), existe una relacin no lineal.

Las curvas mostradas enla Fig.5.1 se denominan curvas de aproximacin y describen la tendencia de los
puntos en el diagrama de dispersin. El problema general de hallar la ecuacin de la curva de aproximacin
que se ajuste mejor al conjunto de datos con los que se obtuvo el diagrama de dispersin se denomina
determinacin dela CURVA DEAJUSTE.
Una curva de aproximacin como la de la Fig.5.1 (a) sugiere una ecuacin lineal; (ecuacin de la recta) Y = a
+ bX; mientras que la de la curva en la Fig.5.1 (b) sugiere una ecuacin cuadrtica (parablica) de la forma Y
= a + bX + cX2.
La dispersin de los puntos se debe a los errores que afectan en el proceso de medicin tanto a la variable
dependiente como a la independiente. En ocasiones puede despreciarse el error en la variable independiente
al compararse con el error (o variacin aleatoria) de la variable dependiente. Esto depender de la situacin
particular de las causas de error sobre cada variable al realizar el experimento.
ANLISIS DE REGRESIN
Uno de los propsitos principales de la curva de ajuste es estimar una de las variables a partir de la otra. El
proceso de estimacin se conoce como regresin. Si Y se va a estimar a partir de X por medio de alguna
ecuacin la llamamos ecuacin de regresin de Y sobre X y a la curva correspondiente curva de regresin de
Y sobre X.
A continuacin se presentan algunos ejemplos de relaciones denominadas funciones o ecuaciones de
prediccin:
Yc = a + bX

(Lnea Recta)

Yc = a + bX + cX2 (Ecuacin de segundo grado o cuadrtica)

Yc = KXn o Yc = aXb (Ecuacin potencial)


Yc = A DX o Yc = a bX (Ecuacin exponencial)
En estos ejemplos, Yc representa el valor estimado de la variable dependiente a partir del valor X, de la
variable independiente.
Existen varios mtodos para determinar la ecuacin de regresin. El mtodo de mnimos cuadrados , que
se describe mas adelante, se considera el mejor; por fundamentarse en el tratamiento estadstico de los datos
experimentales.
Como se mencion anteriormente, los errores afectan tanto a la variable independiente como a la variable
dependiente, sin embargo en muy diversos casos la variable independiente puede considerarse sin error (o de
error despreciable) y considerar que la dispersin es debido unicamente a los errores en la variable
dependiente. En este caso se considera que para un valor puntual de X (sin error) el valor experimental de Y
se aparta del valor que predice la curva de regresin.
MTODO DE MNIMOS CUADRADOS
Generalmente, ms de una curva de un tipo dado parece ajustarse a un conjunto de datos. Para evitar el
juicio individual en la construccin de rectas, parbolas u otras curvas de aproximacin, es necesario obtener
una definicin de la mejor curva de ajuste, mejor parbola de ajuste, etc
Considrese la Fig.5.2 en la cual los puntos de un conjunto de datos (hipoteticamente experimentales) se
expresan por (X1 , Y1), (X2, Y2) . . . . . (Xn, Yn)
Fig. 5.2 Diferencias entre los valores de la variable dependiente Y
y los de la curva de aproximacin C.
Para un valor dado de x, por ejemplo X1 habr una diferencia entre el valor de Y1 y el valor correspondiente de
la curva C.
Esta diferencia se denota por D1 y se conoce como desviacin, error, o residuo y puede ser positivo,
negativo o cero. Anlogamente, correspondiendo a los valores X2 , X3 . . . , XN obtenemos las desviaciones
D2 , D3 , . . . , DN .
Una medida de la bondad de ajuste de la curva C al conjunto de datos la suministra la cantidad D12 + D22 +
.. + DN2. Si la suma es pequea el ajuste es bueno, si es grande, el ajuste es malo.
Definicin:
De todas las curvas de aproximacin correspondientes a un conjunto de puntos dados, la curva que tenga la
propiedad de que D12 + D22 + .. + DN2

es mnimo, se conoce como la mejor curva de ajuste.

Una curva con esta propiedad se dice que ajusta los datos por mnimos cuadrados y se llama Curva de
regresin de mnimos cuadrados o simplemente Curva de mnimos cuadrados.
Una recta con esta propiedad se llama recta de mnimos cuadrados, una parbola con esta propiedad se
llamaparbola de mnimos cuadrados, etc.
REGRESIN LINEAL.
Con el siguiente ejemplo se ilustra como puede tratarse un caso de regresin lineal. En la tabla siguiente se
dan los resultados de 12 mediciones, las X son las cargas en miles de libras y las Y son las deflexiones
correspondientes en milsimas de pulgada, en la calibracin de un anillo tensor:

X
CARGA

Y
DEFLEXIN

10

11

12

16

35

45

64

86

96

106

124

134

156

164

182

Primero se construye el diagrama de dispersin; a partir de aqu, y segn la tendencia de los puntos, se traza
la curva de aproximacin, que resulta en la forma que se ilustra enla Fig.5.3 (lnea no continua -).

Fig. 5.3 Grfico de Deflexin versus carga


Es razonable suponer que la relacin (curva de regresin) es lineal.
Se aplicar el mtodo de mnimos cuadrados para determinar la ecuacin de regresin. Para una relacin
lineal en general Yc = a + bX ; Yc representa el valor terico de Yi el valor estimado de Y que corresponde a
un valor particular de X.
El criterio de mnimos cuadrados requiere la determinacin de los valores de a y b tal que Z = (Yi
Yc)2 sea un mnimo (es decir, que tienda a cero). En la ecuacin de la relacin lineal a y b se denominan
coeficientes de regresin: a es la intercepcin con el eje de las ordenadas Y y b es la pendiente de la
lnea que mejor se ajusta.
Como se busca la recta que mejor se ajuste a los puntos experimentales, el intercepto a y la pendiente b
adquieren el carcter de variables; ya que estos parametros son los que diferencian a una recta de otra.
Sea Z = (Yi Yc)2 y sustituyendo Yc = a + bX, Z = (Yi a bX)2 , que debe ser un mnimo de acuerdo a la
definicin de mejor curva de ajuste (en este caso, mejor recta de ajuste).
Utilizando el clculo diferencial con derivadas parciales actuando sobre sumatorias, se llega a establecer un
sistema de dos ecuaciones, denominadas ecuaciones normales para la regresin lineal o ecuaciones
normales para la recta de mnimos cuadrados.
Las ecuaciones son :

Donde n es el nmero de pares ordenados (X, Y) o nmero de puntos o nmero de observaciones, a y b son
incgnitas que representan, como ya se mencion, respectivamente, el intercepto y la pendiente de la recta de
mnimos cuadrados.

Para resolver estas ecuaciones se requiere obtener X, Y, XY y X2. Para el ejemplo del anillo tensor se
tiene:

Xi

Yi

XY

X2

16

16

35

70

45

135

64

256

16

86

430

25

96

576

36

106

742

49

124

992

64

1206

81

134

10

156

1560

100

11

164

1804

121

12

182

2184

144

78

1208

9971

650

Sustituyendo en las ecuaciones normales.


1208 = 12a + 78b
9971 = 78a + 650b
Resolviendo el sistema por el mtodo de suma y resta, vamos a eliminar la constante a multiplicando la
primera ecuacin por 78 y la segunda por 12:
1208 = 12 a

78b

(- 78)

9971 = 78 a

650b

( 12 )

*****************************************
94224 =-936 a

6084b

119652 = 936 a + 7800b


25428 = 0

1716b

Para encontrar el valor de a sustituimos el valor de b en cualquiera de las ecuaciones originales; en este
caso se sustituye b = 14.82 en (1):
1208 = 12a

+ 78 (14.82)

1208 = 12a

+ 1156

1208 1156 = 12a


52 = 12a
Finalmente, la ecuacin de regresin queda as:
Yc = 4.3 + 14.82 X
La lnea recta que aparece cruzando el diagrama de dispersin se traz calculando dos puntos:
P1 (0, 4.3) y P2 (8, 122.9) con esta ecuacin, y uniendo seguidamente dichos puntos (basta con dos puntos,
ya que dos puntos determinan una recta).
NOTA: Si el lector no recuerda los mtodos de solucin de un sistema de ecuaciones (lo ideal sera que
consultar un texto de matemtica habr un post de Sistemas de Ecuaciones si es pedido) escribiremos a
continuacin las frmulas para encontrar a y b:

Le queda al lector comprobar estas frmulas, deber llegar a la misma ecuacin de regresin: Yc =
4.3 + 14.82 X. Anteriormente habamos dicho que el valor de a era el intercepto con el eje de las
ordenadas, Y; al observar la grfica notamos que, efectivamente, la recta terica corta al eje Y en la divisin
4.3 que es el valor que ha tomado a; el valor de b = 14.82 milsimas de pulgadas de aumento en la
deflexin del anillo cuando la carga x aumenta en1000 libras.
Con la ecuacin calculada, podemos hacer estimaciones de Y (deflexin), y haciendo variar el valor de X
(carga). Por ejemplo, si deseamos estimar la deflexin del anillo para un valor de X = 3.5 (3500 libras); la
respuesta es:
Yc = 4.3 + 14.82 (3.5) = 56.17 (milsimas de pulgada)
Conviene aclarar que con la ecuacin de regresin slo se pueden hacer interpolaciones, ya que la
ecuacin expresa funcionalmente la relacin de las variables, pero para pares de valores comprendidos en el
dominio y rango donde se ha experimentado. En nuestro ejemplo se ha experimentado en el intervalo de1 a
12; si con la ecuacin que hemos determinado, quisiramos estimar la deflexin para una carga de20,000
libras; X = 20, el resultado es:
Yc = 4.3 + 14.82 (20) = 300.7 (milsimas de pulgada).
Este resultado es un tanto dudoso, pues lo ms probable es que al aplicar una carga mayor de la que se ha
experimentado el anillo tensor se deforme o hasta se rompa.
REGRESIN CURVILNEA
Funcin potencial o curva geomtrica: Yc = aXb.
Aplicando logaritmo a la funcin Yc = aXb, tenemos:
Log Yc = Log a + b Log X

Tal como hemos dicho anteriormente, la expresin S(Log Yi Log Yc)2 es un mnimo; sustituyendo en esta
expresin Log Yc por su valor, tenemos:
S(Log Yi Log a b Log X)2, es un mnimo
Al derivar parcialmente con respecto a a y respecto a b e igualar a cero las derivadas, obtenemos las
ecuaciones normales siguientes:
SLog Y = n Log a + b S Log X

(1)

SLog X Log Y = Log a S Log X + b S(Log

X)2

(2)

Ahora ajustemos una funcin potencial a la siguiente informacin, correspondiente al periodo de oscilacin de
un sistema resorte-masa:

m (kg)

0.20

0.40

0.60

0.80

1.00

1.20

1.40

T (s)

0.34

0.47

0.58

0.66

0.74

0.84

0.90

Se obtiene el diagrama de dispersin y su respectiva curva de aproximacin, tal como se ilustra en la fig. 5.4 .

Fig. 5.4 Diagrama de dispersin y curva de aproximacin


El diagrama de dispersin sugiere una relacin de la forma T = Km n ; en este caso, con 0 < n < 1. La
ecuacin se puede escribir como T = amb. Aplicando logaritmo a esta expresin: Log T = Log a + b Log m
Las ecuaciones normales toman la forma siguiente:
SLog T = n Log a + b S Log m

(1)

SLog m. Log T = Log a S Log m + b S (Log m)2

(2)

El siguiente cuadro contiene los valores logartmicos necesarios para resolver las ecuaciones normales.
Log T

Log m.Log T

(Log m)2

mi

Ti

Log m

Tc

0.20

0.34

-0.69897

-0.46852

0.32748

0.48856

0.335

0.40

0.47

-0.39794

-0.32790

0.13049

0.15836

0.474

0.60

0.58

-0.22185

-0.23457

0.05248

0.04921

0.581

0.80

0.66

-0.09691

-0.18045

0.01749

0.00939

0.671

1.00

0.74

0.00000

-0.13077

0.0000

0.00000

0.750

1.20

0.84

0.07918

-0.07572

-0.00589

0.00627

0.822

1.40

0.90

0.14613

-0.04575

-0.00669

0.07135

0.887

S=

-1.46558

-1.19036

0.73314

0.51526

Sustituyendo en las ecuaciones normales se tiene:


1.46558 7 Log a 1.19036 b
0.51526 1.19036 Log a + 0.73314 b
Resolviendo las ecuaciones se obtiene:
b = 0.50124 0.50
Log a = 0.12414 de esto, a = 0.75137 0.75
La ecuacin de regresin es:
Log T = 0.12414 + 0.50 Log m
de acuerdo a esta, se puede escribir T = 0.75 m0.50
Para obtener los valores tericos de T (Tc), se utiliza esta ltima expresin y estos se representan en la ltima
columna del cuadro anterior:
Ejemplo: Tc= 0.75 (0.20)0.50 = 0.335
Caso exponencial: Yc = a bX
Existen muchas transformaciones fsicas en las que la variacin de una magnitud en un intervalo de tiempo
dado es proporcional a la cantidad de dicha magnitud al principio del intervalo. A continuacin se citan varios
ejemplos.
Una propiedad de las clulas vivas es que pueden reproducirse y as aumentar en nmero con el tiempo. El
nmero de clulas nuevas producidas en un intervalo dado de tiempo depende del nmero de clulas
presentes al principio de dicho intervalo. En otras palabras, el nmero de clulas nuevas producidas en un
intervalo determinado de tiempo es proporcional al nmero presente.
Si la diferencia de temperatura DT entre un objeto y su medio ambiente no es demasiado grande, la rapidez
de enfriamiento o de calentamiento es aproximadamente proporcional a la diferencia de temperatura entre el
objeto y su medio ambiente.
En la desintegracin radiactiva el cambio DN en el nmero de tomos padres es, para cada intervalo de
tiempo Dt, proporcional al nmero de tomos padres presentes al comienzo del intervalo.
En los tres ejemplos anteriores, al aplicar clculo integral, se llega a una expresin del tipo Y = a bX , que es
una relacin exponencial ya que x est como exponente de una base b.Y podra representar el nmero de
bacterias N, la diferencia de temperatura DT entre un objeto y su medio ambiente o el nmero de tomos
padre N. La variable x representa al tiempo.
En la parte de electricidad, en un circuito R-C en descarga encontramos la relacin exponencial entre el
voltaje en el capacitor y el tiempo de descarga as:
o tambin V = Vo (D)t en donde se ha tomado e-1/RC = D.
Ejemplo del caso exponencial tratado con mnimos cuadrados.
La actividad, A, de una muestra de cromo (Cr-55) medida en milicuries (mCi) a travs del tiempo (en minutos)
se da en la siguiente tabla:

TIEMPO, t (min)

0.0

2.5

5.0

7.5

10.0

15.0

20.0

ACTIVIDAD, A
(mCi)

19.20

11.70

7.15

4.35

2.65

1.00

0.35

Primero representamos en una grfica la actividad en funcin del tiempo para averiguar el tipo de ecuacin
que podra corresponderle.

FIG. 5.5 ACTIVIDAD-TIEMPO DEL Cr -55.


Como se observa, le corresponde el tipo de ecuacin exponencial Yc = a bX .
A la informacin le ajustaremos, por mnimos cuadrados dicha funcin exponencial.
Aplicando logaritmos a Yc = abX tenemos: Log Yc = Log a + X Log b.
Como en los casos anteriores, interesa minimizar la expresin:
Z = S (Log Yi Log a X Log b)2
Al derivar parcialmente con respecto a a y b e igualar a cero las derivadas llegamos a las siguientes
ecuaciones normales:
SLog Yi = n Log a + Log b S Xi
S X.Log Yi = Log a SXi + Log b

(1)
SXi2

(2)

En este ejemplo, X representa a la variable independiente, es decir, el tiempo (t) y Y es la variable


dependiente, o sea la actividad (A). El nmero de pares ordenados es n= 7.
Dicho lo anterior y de acuerdo a las ecuaciones normales (1) y (2), la tabla necesaria es:
A (mCi)

0.0

19.20

1.283301229

0.000000000

0.00

19.36

2.5

11.70

1.068185862

2.670464654

6.25

11.76

5.0

7.15

0.854306042

4.271530209

25.00

7.14

7.5

4.35

0.638489257

4.788669427

56.25

4.34

10.0

2.65

0.423245874

4.232458739

100.00

2.64

15.0

1.00

0.000000000

0.000000000

225.00

0.97

20.0

0.35

-0.455931956

-9.118639113

400.00

0.36

3.811596307

6.844483917

812.50

S= 60.0

log A

t*log A

t2

t (min)

Sustituyendo en (1) y (2)

3.811596307 = 7 Log a + 60.0 Log b

(1)

AC

6.844483917 = 60.0 Log a + 812.50 Log b

(2)

Resolviendo el sistema de ecuaciones

228.6957784 = 420 Log a + 3600 Log b

47.91138742 = 420 Log a 5687.5 Log b

Sumando:

2087.5 Log b

180.784391 =

Log b = 180.784391/-2087.5 = 0.086603301

b = (Log) 1

-0.086603301 = 0.8192

Sustituyendo el valor de Log b en (1) y despejando:

7 Log a = 3.811596307 60.0 * 0.086603301

Log a = 1.286827767

a = (Log) 1 1.286827767 = 19.36

(1) * 60.0

(2) * 7

AC = 19.36 (0.8192)t
La expresin anterior es la ecuacin de regresin.
En la ltima columna del cuadro anterior aparecen los valores tericos de A C.
Estos valores se obtuvieron utilizando la ecuacin de regresin al sustituir en el exponente t los valores de la
primera columna de la tabla.

Ejemplo de aplicacin de ajuste de curva potencial


Para los datos mostrados en la tabla siguiente :
1.20

1.80

3.10

4.90

5.70

4.50

5.90

6.00

7.80

7.50

a)

Representar los datos en un diagrama de dispersin:

Fig. 5.6 Diagrama de dispersin de Y versus X


b) Del diagrama de dispersin, trazar la curva de aproximacin

Fig. 5.7 Diagrama de dispersin y curva de aproximacin


de Y versus X
c) Encuentre la ecuacin de ajuste, asumiendo que es una potencial.
Para la curva de aproximacin (potencial) Y = aXb
Le aplicamos logaritmos: Log Y = Log a + b Log X
Las ecuaciones normales son: SLog Y = n Log a + b SLog X
SLog X Log Y = Log a SLog X + b S(Log X)2
Los datos necesarios son:

Log X

Log Y

Log X . LogY

(Log X)2

1.20

4.50

0.079181

0.653212

0.051722

0.006269

1.80

5.90

0.255272

0.770852

0.196777

0.065164

3.10

6.00

0.491362

0.778151

0.382354

0.241437

4.90

7.80

0.690196

0.892094

0.615719

0.476371

5.70

7.50

0.755875

0.875061

0.661437

0.571347

S = 16.70

S = 31.70

S= 2.271886

S= 3.969370

S= 1.908009

S= 1.360588

El sistema de ecuaciones es:


3.969370 = 5 Log a + 2.271886 b
1.908009 = 2.271886 Log a + 1.360588 b
Resolviendo el sistema se tiene que:
Log a = 0.649 , b = 0.318
La ecuacin de regresin es:

Log Yc = 0.649 + 0.318 Log X

Por interesarnos Yc, tomamos antilogaritmos, as:

Yc = 4.46 x0.318

NOTA: Las S significan sumatoria.


BIBLIOGRAFA
BONILLA, GILDABERTO, Estadstica I. Elementos de Estadstica Descriptiva y Probabilidad
9 edicin, 2000. UCA Editores. El Salvador.
2. MILLER, IRWIN Y FREUND, JOHN. Probabilidad y Estadstica para Ingenieros. Primera edicin. Mxico,
Editorial Revert, 1973.
3. MILLER, FREUND Y JOHNSON. Probabilidad y Estadstica para Ingenieros.
5a Edicin. Mxico. Prentice Hall, 1997.
4. SPIEGEL/SCHILER/SRINIVASAN. Probabilidad y Estadstica, 2 Edicin, Mxico McGraw-Hill, 2001.
5. SPIEGEL, MURRAY R. Estadstica. Mxico. McGraw-Hill, 1994

S-ar putea să vă placă și