Documente Academic
Documente Profesional
Documente Cultură
Fue Francis Galton (1822-1911) quien utiliz por primera vez el trmino regresin para
indicar que, aunque influida por la estatura de sus padres, la estatura de los hijos
"regresaba" a la media general.
La regresin examina la relacin entre dos variables, pero restringiendo una de ellas con
el objeto de estudiar las variaciones de una variable cuando la otra permanece constante.
En otras palabras, la regresin es un mtodo que se emplea para predecir el valor de una
variable en funcin de valores dados a la otra variable.
En todos los casos de regresin existe una dependencia funcional entre las variables. En
el caso de dos variables, siendo una de ellas (X) variable independiente y la otra (Y) la
dependiente, se habla de regresin de Y sobre X; Por ejemplo, los ingenieros forestales
utilizan la regresin de la altura de los rboles sobre su dimetro, lo cual significa que
midiendo el dimetro (variable independiente) y reemplazando su valor en una relacin
definida segn la clase de rbol se obtiene la altura, y aun sin necesidad de clculos
aprecian la altura utilizando grficas de la funcin de dependencia, altura = funcin del
dimetro.
5) Estimar qu porcentaje de las llantas radiales del fabricante durarn 50000 millas.
Solucin:
5) La estimacin del porcentaje de llantas radiales que durarn 50000 millas se obtiene
reemplazando en la ecuacin predictora el valor de X = 50
1. Ejemplo ilustrativo N 1
2. Ejemplo ilustrativo N 2
3. Referencias bibliogrficas
La regresin examina la relacin entre dos variables, pero restringiendo una de ellas con
el objeto de estudiar las variaciones de una variable cuando la otra permanece constante.
En otras palabras, la regresin es un mtodo que se emplea para predecir el valor de una
variable en funcin de valores dados a la otra variable.
En todos los casos de regresin existe una dependencia funcional entre las variables. En
el caso de dos variables, siendo una de ellas (X) variable independiente y la otra (Y) la
dependiente, se habla de regresin de Y sobre X; Por ejemplo, los ingenieros forestales
utilizan la regresin de la altura de los rboles sobre su dimetro, lo cual significa que
midiendo el dimetro (variable independiente) y reemplazando su valor en una relacin
definida segn la clase de rbol se obtiene la altura, y aun sin necesidad de clculos
aprecian la altura utilizando grficas de la funcin de dependencia, altura = funcin del
dimetro.
Para el primer caso los valores siguen una ley potencial. Si la ecuacin predictora est
dada por: tomando logaritmos en ambos miembros, queda:
Ejemplos ilustrativo N 1
Sea el siguiente conjunto de valores, las lecturas de un experimento donde X es el
volumen (variable independiente) e Y es la presin de una masa dada de gas (variable
resultante).
X 1 2 3 4 5 6 7
Y 7 30 90 170 290 450 650
Solucin:
1.2) Para ajustar una curva exponencial aplicando el mtodo de mnimos cuadrados se
llena la siguiente tabla:
Ejemplo ilustrativo N 2
Sea el siguiente conjunto de valores, las lecturas de un experimento donde X es la
variable independiente e Y la variable resultante.
X 1 2 3 4 5 6 7
Y 1,4 1 0,9 0,7 0,6 0,55 0,5
Solucin:
X Y 1/Y X(1/Y) X2
1 1,4 0,7143 0,7143 1
2 1 1,0000 2,0000 4
3 0,9 1,1111 3,3333 9
4 0,7 1,4286 5,7143 16
5 0,6 1,6667 8,3333 25
6 0,55 1,8182 10,9091 36
7 0,5 2,0000 14,0000 49
S (1/Y) = S X(1/Y) = S X2 =
S X = 28
9,7388 45,0043 140
a = 0,5271; = 0,2160
2.3) Para calcular la ecuacin predictora se reemplaza los valores encontrados de a y ,
y se obtiene:
DAZA, Jorge, (2006), Estadstica Aplicada con Microsoft Excel, Grupo Editorial
Megabyte,
Lima, Per.
Ibarra, Ecuador.
AJUSTE DE CURVAS
El siguiente paso es representar los puntos (X1, Y1 ), (X2, Y2) . . . . , (XN, YN) en un
sistema de coordenadas rectangulares. El sistema de puntos resultantes se
llama diagrama de dispersin.
Con el diagrama de dispersin es posible representar una curva que se aproxime a los
datos, es decir, que siga la tendencia de los mismos. Tal curva se llama curva de
aproximacin.
En la figura 5.1 a) , por ejemplo, se ve que los datos experimentales se aproximan bien
a una lnea recta y se dice que entre las variables existe una relacin lineal. En b), existe
una relacin no lineal.
Una curva de aproximacin como la de la Fig.5.1 (a) sugiere una ecuacin lineal;
(ecuacin de la recta) Y = a + bX; mientras que la de la curva en la Fig.5.1 (b) sugiere
una ecuacin cuadrtica (parablica) de la forma Y = a + bX + cX2.
La dispersin de los puntos se debe a los errores que afectan en el proceso de medicin
tanto a la variable dependiente como a la independiente. En ocasiones puede
despreciarse el error en la variable independiente al compararse con el error (o variacin
aleatoria) de la variable dependiente. Esto depender de la situacin particular de las
causas de error sobre cada variable al realizar el experimento.
ANLISIS DE REGRESIN
Uno de los propsitos principales de la curva de ajuste es estimar una de las variables a
partir de la otra. El proceso de estimacin se conoce como regresin. Si Y se va a
estimar a partir de X por medio de alguna ecuacin la llamamos ecuacin de regresin
de Y sobre X y a la curva correspondiente curva de regresin de Y sobre X.
A continuacin se presentan algunos ejemplos de relaciones denominadas funciones o
ecuaciones de prediccin:
Yc = a + bX (Lnea Recta)
Yc = A DX o Yc = a bX (Ecuacin exponencial)
Esta diferencia se denota por D1 y se conoce como desviacin, error, o residuo y puede
ser positivo, negativo o cero. Anlogamente, correspondiendo a los valores X2 , X3 . . . ,
XN obtenemos las desviaciones D2 , D3 , . . . , DN .
Definicin:
Una curva con esta propiedad se dice que ajusta los datos por mnimos cuadrados y se
llama Curva de regresin de mnimos cuadrados o simplemente Curva de
mnimos cuadrados.
Una recta con esta propiedad se llama recta de mnimos cuadrados, una parbola con
esta propiedad se llama parbola de mnimos cuadrados, etc.
REGRESIN LINEAL.
Con el siguiente ejemplo se ilustra como puede tratarse un caso de regresin lineal. En
la tabla siguiente se dan los resultados de 12 mediciones, las X son las cargas en miles
de libras y las Y son las deflexiones correspondientes en milsimas de pulgada, en la
calibracin de un anillo tensor:
CARGA 1 2 3 4 5 6 7 8 9 10 11 12
DEFLEXIN
Como se busca la recta que mejor se ajuste a los puntos experimentales, el intercepto
a y la pendiente b adquieren el carcter de variables; ya que estos parametros son
los que diferencian a una recta de otra.
Sea Z = (Yi Yc)2 y sustituyendo Yc = a + bX, Z = (Yi a bX)2 , que debe ser un
mnimo de acuerdo a la definicin de mejor curva de ajuste (en este caso, mejor recta
de ajuste).
Xi Yi XY X2
1 16 16 1
2 35 70 4
3 45 135 9
4 64 256 16
5 86 430 25
6 96 576 36
7 106 742 49
8 124 992 64
9 134 1206 81
9971 = 78 a + 650b ( 12 )
*****************************************
52 = 12a
Yc = 4.3 + 14.82 X
La lnea recta que aparece cruzando el diagrama de dispersin se traz calculando dos
puntos:
P1 (0, 4.3) y P2 (8, 122.9) con esta ecuacin, y uniendo seguidamente dichos puntos
(basta con dos puntos, ya que dos puntos determinan una recta).
Este resultado es un tanto dudoso, pues lo ms probable es que al aplicar una carga
mayor de la que se ha experimentado el anillo tensor se deforme o hasta se rompa.
REGRESIN CURVILNEA
Tal como hemos dicho anteriormente, la expresin S(Log Yi Log Yc)2 es un mnimo;
sustituyendo en esta expresin Log Yc por su valor, tenemos:
El diagrama de dispersin sugiere una relacin de la forma T = Kmn ; en este caso, con
0 < n < 1. La ecuacin se puede escribir como T = amb. Aplicando logaritmo a esta
expresin: Log T = Log a + b Log m
El siguiente cuadro contiene los valores logartmicos necesarios para resolver las
ecuaciones normales.
Para obtener los valores tericos de T (Tc), se utiliza esta ltima expresin y estos se
representan en la ltima columna del cuadro anterior:
Caso exponencial: Yc = a bX
En los tres ejemplos anteriores, al aplicar clculo integral, se llega a una expresin del
tipo Y = a bX , que es una relacin exponencial ya que x est como exponente de una
base b.Y podra representar el nmero de bacterias N, la diferencia de temperatura DT
entre un objeto y su medio ambiente o el nmero de tomos padre N. La variable x
representa al tiempo.
Primero representamos en una grfica la actividad en funcin del tiempo para averiguar
el tipo de ecuacin que podra corresponderle.
-0.086603301 = 0.8192
b = (Log) 1
Sustituyendo el valor de Log b en (1) y despejando:
Log a = 1.286827767
AC = 19.36 (0.8192)t
X
4.50 5.90 6.00 7.80 7.50
de Y versus X
Yc = 4.46 x0.318
BIBLIOGRAFA
Una forma para encontrar la recta ptima es el mtodo de los mnimos cuadrados y
consiste en hallar el valor de las constantes a y b de tal manera que reduzcan al mnimo
la suma de los cuadrados de los errores entre los valores yi dados y los valores y(xi) =
axi + b en la lnea de aproximacin.
(7)
Al dividir entre 2 cada una de estas ecuaciones y desarrollar las sumatorias se obtienen
las llamadas ecuaciones normales
(2)
Por lo tanto la recta que mejor se ajusta a los datos (xi, yi), 1 i n relacionados en
forma lineal es y = ax + b con a y b dados por (3).
El problema de aproximar un conjunto de datos (xi, yi), 1 i n con un polinomio
algebraico Pm(x) de grado m < n 1 mediante el procedimiento de mnimos cuadrados,
es similar al de y = ax + b (Ver ejercicio 24 de este captulo).
En muchos casos los datos provenientes de pruebas experimentales no son lineales por
lo que es necesario ajustarlos a una funcin que no sea un polinomio de primer grado.
Algunas veces conviene suponer que los datos tienen una relacin exponencial. Para
ello, la funcin de aproximacin debe tener la forma:
y = Beax y = Bxa
ln y = ln(Beax) ln y = ln(Bxa)
ln y = ln B + ln eax ln y = ln B + ln xa
ln y = ax + ln B (6) ln y = aln x + ln B (7)
((6) y (7) se conocen como formas linealizadas)
Observe que en (6) se presenta en una relacin lineal entre x y ln y, por lo que se pueden
usar las frmulas dadas en (3) para resolver el problema lineal cambiando yi por ln yi y
b por ln B.
Una ventaja adicional de las formas linealizadas es que las grficas de los datos en papel
Log-Log o en papel semilogartmico muestran a simple vista si estas formas son
idneas, en el sentido de que una recta representa los datos cuando se trazan de esa
manera.
Ejemplo.
xi 1 2 4
yi 3 5.1 8.8
Solucin:
Para este caso se tienen tres datos, luego n=3. Se construye una tabla con los datos que
se necesitan en las frmulas (3) 3.
Para los datos de este ejercicio, aproxima mejor el modelo lineal, porque la suma de los
errores al cuadrado en el lineal, es menor que la suma de los errores al cuadrado que en
el modelo exponencial (vase la tabla anterior).
En construccin
INTRODUCCIN
Cuando se dispone de una serie de datos experimentales, con mucha frecuencia resulta provechoso
determinar la relacin matemtica entre las variables dependiente e independiente. Una forma por dems
conveniente, es a travs de una ecuacin que se ajuste a los datos; en el caso de los datos experimentales,
la ecuacin de ajuste, se llama emprica y es muy particular tanto de los datos como del fenmeno mismo.
Una vez que se han localizado los pares ordenados (x, y) de un experimento en el plano cartesiano de un
papel milimtrico, se traza o dibuja la lnea curva, segn sea la tendencia general de los puntos ordenados
(x, y) para determinar el tipo de relacin funcional que existe entre las variables. Por lo general estas
relaciones son cuatro formas bsicas o fundamentales:
Lineales
Potenciales
Exponenciales
Logartmicas
a partir de las cuales se puede identificar la representacin de los datos experimentales, lo que a su vez
facilitar la determinacin de la curva emprica.
(1) y = mx + b
en donde "m" representa la pendiente ngulo de inclinacin de la lnea. sta puede ser positiva o
negativa, y tiene un valor constante. De igual manera la ordenada al origen o intercepto "b" con el eje "y".
donde b es una constante: si la pendiente es positiva (m>0 se tiene una curva parablica simple, en
cambio si la pendiente es negativa (m<0), la curva es de tipo hiperblica, aunque ambas curvas sean
potenciales que de paso sea dicho son un caso particular de las curvas llamadas polinmicas. Estas
graficas pueden ser linearizadas o transformadas a lnea recta en virtud de que, aplicando un cambio de
variable a la ecuacin de la siguiente manera:
(3)
La ecuacin potencial cambia a una estructura de tipo lineal. En el caso de las ecuaciones exponenciales
cuya ecuacin de la forma:
(4)
Como en el caso anterior, la linearizacin de la ecuacin exponencial se logra aplicando logaritmos a sta,
de la siguiente manera:
(5)
(6)
(7)
para graficarlas solo se requieren conocer los valores de m y b. As que estadsticamente un mtodo
general para determinar dichos parmetros, es el mtodo de los mnimos cuadrados, que es el de mayor
exactitud y confiabilidad.
El mtodo de los mnimos cuadrados postula que la mejor recta que pasa por los puntos (pares ordenados
x,y) ser aquella cuya suma de los cuadrados de los residuos sea mnima o tienda a cero. Es decir:
(8)
esto significa que si deseamos estimar la reproducibilidad entre varias medidas de la misma magnitud o
propiedad, siempre se presenta una desviacin del valor medido en una magnitud "d", la cual se define
como:
(9)
Esto es, se pretende calcular una funcin generada a partir de los datos experimentales, por lo que se
plantea:
(10)
que no necesariamente es la "y" medida experimentalmente, de tal manera que si la funcin calculada es
una lnea recta entonces:
(11)
por lo que:
(12)
Como se desea un mnimo de la suma de las desviaciones, se deriva en forma parcial con respecto a m
y b.
(13)
(14)
(15)
(16)
Para encontrar el mnimo hay que igualar la primera derivada a cero, y despejando.
La funcin potencial
y=cxa
Se puede trasformar en
Y=aX+b.
Donde b=log c
Ejemplo:
x 10 20 30 40 50 60 70 80
x=[10 20 30 40 50 60 70 80];
y=[1.06 1.33 1.52 1.68 1.81 1.91 2.01 2.11];
loglog(x,y,'ro','markersize',2,'markerfacecolor','r')
xlabel('x')
ylabel('y')
title('Funcin potencial')
Para determinar la recta de regresin, se transforma esta tabla de datos en esta otra
x=[10 20 30 40 50 60 70 80];
y=[1.06 1.33 1.52 1.68 1.81 1.91 2.01 2.11];
[a b]=regresion(log10(x),log10(y));
fprintf('exponente a= %2.3f\n',a(1));
fprintf('coeficiente c= %3.3f\n',10^b(1));
%grfica
hold on
plot(x,y,'ro','markersize',8,'markerfacecolor','r')
z=(10^b(1))*x.^a(1);
plot(x,z,'b')
xlabel('x')
ylabel('y')
title('Regresin potencial')
hold off
>> datos_2
exponente a= 0.331
coeficiente c = 0.495
Funcin exponencial
y=ceax
ln y=ax+ln c
Y=aX+b
Donde b=ln c.
Ejemplo:
Para determinar la recta de regresin, se transforma esta tabla de datos en esta otra
%grficos
hold on
plot(x,y,'ro','markersize',8,'markerfacecolor','r')
x=linspace(min(x),max(x),100);
y=exp(b(1))*exp(x*a(1));
plot(x,y,'b')
xlabel('x')
ylabel('y')
title('Regresin exponencial')
hold off
>> datos_3
exponente a= -0.005
coeficiente c = 1036.896