Sunteți pe pagina 1din 74

Andrs Felipe Guzmn Agudelo

DEPARTAMENTO DE INGENIERA QUMICA


FACULTAD DE INGENIERA
UNIVERSIDAD DE ANTIOQUIA

Regresin
El trmino regresin fue introducido
por Francis Galton en su libro Natural
inheritance (1889) y fue confirmado por
su amigo Karl Pearson. Su trabajo se
centr en la descripcin de los rasgos
fsicos de los descendientes (variable A)
a partir de los de sus padres (variable
B).
Regresin
Galton generaliz esta tendencia bajo la "ley de la
regresin universal": Cada peculiaridad en un
hombre es compartida por sus descendientes, pero
en media, en un grado menor.
As, en el ejemplo de Pearson:
= 85 cm + 0,5X
Donde es la altura predicha del hijo y X la altura
del padre: En media, el hijo gana 0,5 cm por cada cm
del padre.
http://es.wikipedia.org/wiki/Regresi%C3%B3n_a_la_media
Regresin
Estudiando la altura de padres e hijos a
partir de ms de mil registros de grupos
familiares, se lleg a la conclusin de que
los padres muy altos tenan una
tendencia a tener hijos que heredaban
parte de esta altura, pero que revelaban
tambin una tendencia a regresar a la
media.
Fuente: http://www.dmae.upm.es/WebpersonalBartolo/Probabilidad/15_RegresionLineal.pdf
Correlacin
La correlacin mide la fuerza y la direccin de la relacin
lineal entre dos variables cuantitativas. Se tienen datos
de las variables x e y para n individuos. La correlacin
entre x e y es

=


Un estimador de es el coeficiente muestral de
correlacin
=



Covarianza entre Y y X
Correlacin
El estimador insesgado de la covarianza

es:

=
1
1

=1

Por tanto
=
1
1

=1


Correlacin
Una r positiva indica una asociacin positiva entre las
variables. Una r negativa indica asociacin negativa.
La r toma valores entre -1 y 1. Valores cercanos a 0,
indican relacin lineal dbil. Valores de r cercanos a -1
y 1 indican que los putos se hallan cercanos a una recta.
Esto ocurre cuando los puntos de dispersin caen
sobre una recta.
Correlacin
Como r utiliza los valores estandarizados de las
observaciones, no varan cuando alguna de las
variables o ambas cambian de unidades. La
correlacin no tiene unidad de medida.
La correlacin solo mide la relacin lineal entre
dos variables. No mide relaciones curvilneas
aunque sean muy fuertes.
Al igual que la media y la desviacin estndar, r se
ve afectada por valores atpicos o extremos.
Correlacin
Variables de respuesta y Variables
explicativas
Una variable de respuesta mide el resultado de un
estudio. Una variable explicativa intenta explicar los
resultados observados.
Podemos investigar relaciones entre dos variables
explicativas o entre dos variables de respuesta.
Ej: la relacin entre la nota que saquemos en
matemticas y en qumica. La relacin que existe
entre la longitud y el peso de una persona.
Regresin
Una recta de regresin describe como cambia una
variable de respuesta y a medida que cambia una
variable explicativa x. A menudo, utilizamos una recta
de regresin para predecir el valor de y
correspondiente a un valor de x. A diferencia de la
correlacin, la regresin exige que tengamos una
variable explicativa y una variable de respuesta.
APLICACIONES DE LA REGRESIN
LINEAL
Una ingeniera en una empresa esta interesado en
determinar como varia la composicin de una fraccin
de alcanos en una corriente de destilacin con respecto
a la temperatura de entrada a una torre de destilacin.
Otro ingeniero esta interesado en determinar cuales
son los parmetros de cinticos de un modelo de
secado.

BASES DE LA INFERENCIA PARA LA
REGRESIN LINEAL
Para cualquier valor de x la respuesta y vara de
acuerdo con una distribucin normal. Las
respuestas son repetidas e independientes entre s.
La pendiente y la ordenada al origen son parmetros
desconocidos.
La desviacin tpica de y () es la misma para todos
los valores de x. El valor de es desconocido.

Para cualquier valor de x la respuesta y vara de acuerdo con una
distribucin normal. Las respuestas repetidas y son
independientes entre s.
X
Y
La respuesta media
y
, tiene una relacin lineal con x
X
Y
La desviacin tpica de y () es la misma para todos los
valores de x. El valor de es desconocido.
Homocedasticidad
La desviacin tpica de y () es diferente para por lo menos uno
de los valores de x. El valor de es desconocido.
Heterocedasticidad

MODELO DE REGRESIN LINEAL
SIMPLE
El valor medio de la variable aleatoria Y se relaciona con
x mediante:
El modelo de regresin lineal simple o modelo emprico
obtenido de los datos es:

Mtodo de mnimos cuadrados
Mnimos cuadrados es una tcnica de anlisis
numrico encuadrada dentro de la optimizacin
matemtica, en la que, dados un conjunto de pares
ordenados: (variable independiente, variable
dependiente) y una familia de funciones, se intenta
encontrar la funcin, dentro de dicha familia, que
mejor se aproxime a los datos (un "mejor ajuste"), de
acuerdo con el criterio de mnimo error cuadrtico.
MTODO DE MNIMOS
CUADRADOS
Minimiza la suma de cuadrados de los errores o
desviaciones verticales de cada valor observado con
respecto a la lnea de regresin verdadera.
Los estimadores de mnimos cuadrados para el
intercepto y la pendiente en el modelo de regresin
lineal simple son:
=

0
+

0
=

1

Lnea de regresin
estimada

1
=

=1

=1

=1

2

=1

=1
2

=1

1=1
=


Ejemplo
Una empresa de la ciudad registra el consumo mensual de gas
natural en m
3
y la produccin de ladrillos en toneladas P.
mes P Gas mes P Gas
noviembr
e 13,3 17,6 julio 0 3,4
diciembre 28,3 30,5 agosto 0,5 3,4
enero 23,9 24,9
septiembr
e 3,3 5,9
febrero 18,3 21 octubre 6,7 8,7
marzo 14,4 14,8 noviembre 16,7 17,9
abril 7,2 11,2 diciembre 17,8 20,2
mayo 2,2 4,8 enero 28,9 30,8
junio 0 3,4 febrero 16,7 19,3
Ejemplo 1
Ejemplo 1
P Gas
Promedio 12,388 14,863
Desviacin
Estndar 9,861 9,413
r 0,9952
Caractersticas de la regresin mnimo cuadrado
Existe una estrecha conexin entre la correlacin y la regresin. La
pendiente de la recta de regresin mnimo cuadrado es

1
=



Esta ecuacin indica que, a lo largo de la recta de regresin, un
cambio de una desviacin tpica de x, le corresponde un
cambio de r desviaciones tpicas de y. Cuando las variables
estn perfectamente correlacionadas (r=1 o r=-1) el cambio de la
variable predicha es igual al cambio de x. A medida que la
correlacin se vuelve menos fuerte, la variable y se mueve menos
en respuesta de los cambios de x.
Caractersticas de la regresin
mnimo cuadrado

* La recta de la regresin mnimo cuadrado pasa por los
puntos del diagrama de dispersin de y con relacin
a x y tiene una pendiente de

* La correlacin r describe la fuerza de la relacin lineal. El
cuadrado de la correlacin r
2
, es la fraccin de la
variacin de los valores de y que se explican por la
regresin mnimo cuadrado de y sobre x.
( )
, x y
y x
rs s
Regresin mnimo cuadrado
r
2
representa el porcentaje de la variabilidad en Y
que ha sido explicado por el modelo de regresin
ajustado en un rango que va de 0 a 100%. El
restante 25% es atribuible a las desviaciones
alrededor de la lnea las cuales pueden ser por
otros factores como el error de medicin o un error
del modelo lineal para ajustar los datos
adecuadamente.
Caractersticas de la regresin
mnimo cuadrado
Es posible dividir la variacin total de los valores
observados de y, expresada como su varianza, en dos
partes. Una de ellas es la variacin que esperamos
obtener de y a medida que x se mueve a lo largo de la
recta de regresin. La otra mide la variacin de los
datos en relacin a la recta. El cuadrado de la
correlacin r
2
es el primero de estos dos componentes
expresado como fraccin de la variacin total.

Caractersticas de la regresin
mnimo cuadrado
2

variacin de y junto con x
variacin total de las y observadas
r =
ESTIMACIN DE
Un estimador insesgado de se puede obtener con la
suma de cuadrados del error o suma de cuadrados de los
residuales.
Suma total de cuadros
de la variable respuesta y
PROPIEDADES DE LOS
ESTIMADORES DE MNIMOS
CUADRADOS

En la regresin lineal simple los errores estndar
estimados de la pendiente y el intercepto son:


1
=

0
=
2
1


CASO INTRODUCTORIO
Tomado de Applied Statistics and Probability for Engineers 3 Ed. Douglas C. Montgomery, George C. Runger, 2003
DIAGRAMA DE DISPERSIN Y
MODELO DE REGRESIN
Tomado de Applied Statistics and Probability for Engineers 3 Ed. Douglas C. Montgomery, George C. Runger, 2003
Inferencia Estadstica
Mtodos que se utilizan para tomar decisiones o sacar
conclusiones acerca de una poblacin. Estos mtodos
emplean la informacin contenida en una muestra
para sacar conclusiones.
La inferencia estadstica se divide en estimacin de
parmetros y en prueba de hiptesis.
PRUEBA DE HIPTESIS PARA LA
PENDIENTE
Se quiere probar la hiptesis de que la pendiente es igual
a una constante. Las hiptesis son:
H
0
:1= 1,0

H
a
:1 1,0


Se calcula el estadstico T
0
:



El cual tiene una distribucin t con n-2 grados de
libertad. H
0
:1= 1,0

se rechaza a favor de H
a
: 1 1,0

si
|t
0
|> t
/2,n-2




PRUEBA DE HIPTESIS PARA LA
PENDIENTE
Un caso muy especial es cuando se prueba si
1
= 0. Las
hiptesis serian:
H
0
:1= 0

H
a
: 1 0

La cual se prueba con el estadstico T
0
:



H
0
:1= 0 se rechaza a favor de H
a
: 1 0,

si |t
0
|> t
/2,n-2

Si no se puede rechazar H
0
, se concluye que no existe
una verdadera regresin lineal entre x e y.




SIGNIFICANCIA DE LA REGRESIN
PRUEBA DE HIPTESIS PARA EL
INTERCEPTO
Se quiere probar la hiptesis de que la pendiente es igual
a una constante. Las hiptesis son:
H
0
:0= 0,0

H
a
:0 0,0


Se calcula el estadstico T
0
:



El cual tiene una distribucin t con n-2 grados de
libertad. H
0
:0= 0,0

se rechaza a favor de H
a
: 0 0,0

si |t
0
|> t
/2,n-2




ANOVA para la significancia de la
regresin
Existe otro enfoque diferente para evaluar la significancia de
la regresin: ANOVA. El ANOVA para una regresin lineal
descompone la variabilidad de la variable respuesta en
variabilidad explicada por el modelo ms variabilidad no
explicada o residual. Bajo la hiptesis de que existe una
relacin lineal entre la variable respuesta y la regresora, se
quiere realizar el siguiente contraste de hiptesis:

H
0
:
y
= (el modelo es una constante, no varia con x)
H
1
:
y
= + x (el modelo lineal es significativo)


ANOVA para la significancia de la regresin
Para todos y
i
los valores tenemos que


variabilidad de la variable respuesta SS
T
=
variabilidad explicada por la recta de regresin SS
R
+
variabilidad residual o no explicada por el modelo
ajustado SS
E

( ) ( ) ( )
2 2 2
1 1 1

n n n
i i i
i i i i i i
y y y y y y
= = =
= +


X
Y
X
Y
ANOVA para la significancia de la
regresin
Fuente de
Variacin
Suma de
cuadrados
GL Cuadrado
medio
(Varianza)
F
0
Por la
recta
(regresin)
SS
R
=

1
*Sxy
1 MS
R
MS
R
/MS
E



Residual
(error)
SS
E
=SS
T
-SS
R
n-2 MS
E


Total SS
T
n-1

Si H
0
es cierta: MS
R
< MS
E

S el valor P es grande (mayor que ) se acepta H
0
.

Si H
0
:1= 0 no se rechaza, implica que x es de escaso
valor para explicar la variacin de Y, y que el mejor
estimador de Y para cualquier valor de x es =Y(Fig a), o
que la verdadera relacin entre x y Y es no lineal (Fig. b).
Si H
0
:1= 0 se rechaza, implica que x es de valor
para explicar la variabilidad de Y, y significara que
el modelo lineal es adecuado (Fig a) o que si bien
existe un efecto lineal de x, podra mejorarse el
modelo si se tienen en cuenta trminos
polinmicos en x de orden superior (Fig b).
INTERVALO DE CONFIANZA PARA
LA PENDIENTE
El error estndar estimado es()

para la pendiente
es:

El intervalo de confianza de nivel C de la pendiente
de la recta de regresin es:


donde es el valor crtico superior (1-C)/2 de la

distribucin t con n-2 grados de libertad.


INTERVALO DE CONFIANZA PARA
EL INTERCEPTO
El error estndar estimado es()

para la ordenada
al origen a:


El intervalo de confianza de nivel C de la ordenada
al origen de la recta de regresin es:


donde t es el valor crtico superior (1-C)/2 de la
distribucin t con n-2 grados de libertad.


INTERVALO DE CONFIANZA PARA
LA RESPUESTA MEDIA
Puede obtenerse un intervalo de confianza para la
respuesta media en un punto particular de x, por
ejemplo x
0
. Un intervalo de confianza de nivel C =1-
para la respuesta media
y|x
, cundo x toma el valor
de x
0
es



se calcula a partir del modelo de regresin


INTERVALOS DE PREDICCIN PARA
UNA OBSERVACIN FUTURA
Puede obtenerse un intervalo de confianza para
una observacin futura y
0
para un valor de x
0
. Un
intervalo de prediccin de nivel C =1- para una
sola observacin de y cuando x toma el valor de x
0

es:

0
se calcula a partir del modelo de regresin



INTERVALOS O LIMITES DE
PREDICCIN Y DE CONFIANZA
Tomado de Applied Statistics and Probability for Engineers 3 Ed. Douglas C. Montgomery, George C. Runger, 2003
/ 2
y t ES
o
-
/ 2

y
y t ES
o
-
A medida que x
0
se aleja de x

, el
intervalo de confianza ensancha, es
decir, aumenta la incertidumbre.

y a bx = +
Diagrama de residuos
Podemos graficar los residuos para comprobar si la
recta de regresin se ajusta a los datos. Un diagrama de
residuos es un diagrama de dispersin en el cual se
representa los residuos en las ordenadas y la variable
explicativa en las abcisas.
Residuos= y observada y predicha.

Diagrama de residuos
Al realizar el anlisis de residuales, es importante tener
en cuenta, no solo la magnitud de cada uno de ellos, sino
su distribucin como un todo.
Diagrama de residuos
Cuando el modelo es adecuado, esta grfica no debe
mostrar ningn tipo de tendencia, y los residuales
deben distribuirse de manera ms o menos uniforme
por encima y por debajo de la lnea. El hecho de que
los residuales se aparten sistemticamente de la
lnea cero es indicio de que el modelo es inadecuado.
Diagrama de residuos
COEFICIENTE DE DETERMINACIN

2

La cantidad

2
=

= 1



es llamada el coeficiente de determinacin y es usado
frecuentemente para juzgar la bondad de un modelo de
regresin. Este estadstico es conocido como la
variabilidad explicada del modelo de regresin
PRUEBA DE FALTA DE AJUSTE
Los modelos de regresin se ajustan a los datos para
proporcionar un modelo emprico cuando la verdadera
relacin entre Y y x es desconocida. Un prueba de
bondad de ajuste se plantea como prueba de hiptesis:

H
0
: El modelo de regresin lineal simple es correcto.
H
1
: El modelo de regresin lineal simple no es correcto

Para calcular al falta de ajuste, es necesario contar con
mas de un valor de Y para al menos un valor de x.

PRUEBA DE FALTA DE AJUSTE
La prueba de falta de ajuste (lack of fit), consiste en
hacer una particin de la suma de cuadrados de los
errores o los residuales en dos componentes:
SS
E
= SS
PE
+ SS
LOF
En donde SS
PE
es la suma de cuadrados atribuibles a un
error experimental puro, y SS
LOF
es la suma de cuadros
atribuibles a la falta de ajuste del modelo. SS
E
= SS
T

SS
R
se calcul en el anlisis ANOVA para la significancia
de la regresin, y SS
LOF
= SS
E
SS
PE
se calcula en un
nuevo anlisis de varianza.



Prueba de falta de ajuste
Para calcular SS
PE
, deben tenerse observaciones
repetidas de la respuesta y para al menos un nivel de
x. Suponga que se tienen n observaciones totales, y
m niveles distintos de cada x, tales que
y
11
, y
12
,, y
1n
1
observaciones repetidas de x
1
y
21
, y
22
,, y
2n
2
observaciones repetidas de x
2
::
::
y
m1
, y
m2
,, y
mn
1
observaciones repetidas de x
m
La suma total de los cuadrados del error puro es



( )
2
1 1
i
n
m
PE
i u
SS
iu i
y y
= =
=

ANOVA de falta de ajuste


Fuente de
Variacin
Suma de
cuadrados
GL Cuadrado
medio
(Varianza)
F
0
Por la recta
(regresin)
SS
R
=

1
*Sxy 1 MS
R
MS
R
/MS
E



Residual
(error)
SS
E
=SS
T
-SS
R
n-2 MS
E


Falta de
ajuste
SS
LOF
= SS
E

SS
PE

m-2 MS
LOF
=
SS
LOF
/m-2
MS
LOF
/MS
PE

Erro puro SS
PE
n-m MS
PE
=
SS
PE
/n-m
Total SS
T
n-1
Transformacin a una lnea Recta
En ocasiones se encuentra que el modelo de regresin
lineal Y= + *x + , no es apropiado, debido a que la
verdadera funcin de regresin es no lineal. Algunas
veces la naturaleza no lineal del modelo se determina
por inspeccin visual del diagrama de dispersin, y
algunas veces por conocimiento de las bases tericas
implcitas en los datos.
En algunos de estos casos, una funcin no lineal puede
expresarse como una lnea recta con las
transformaciones matemticas adecuadas.
Transformacin a una lnea Recta,
ejemplos
ln ln ln
ln ; ln ; ln

bx
Y ae
Y a bx
Y Y a a
Y a bx
c
c
c c
c
=
= + +
= = =
= + +
1
1
Y a b
x
z
x
Y a bz
c
c
| |
= + +
|
\ .
=
= + +
Transformacin a una lnea recta.
Calculo de g.
M
h
La cantidad total de energa en
cualquier sistema aislado, sin la
accin de una fuerza exterior,
permanece invariable con el
tiempo
Transformacin a una lnea recta.
Calculo de g.
M
h
A su vez, la variacin de la
energa mecnica es la suma
de la variacin de la energa
cintica mas la variacin de
la energa potencial:
Transformacin a una lnea recta.
Calculo de g.
M
h
EL cuerpo parte del reposo
(vi=0) , entonces la energa
cintica inicial (Eci) es nula.
Las alturas se miden desde el
punto final de la trayectoria,
por lo tanto, la energa
potencial final (Epf) tambin
es nula.
f
h
v
t
~
Transformacin a una lnea recta.
Calculo de g.
M
hi
2
2
; ; 2
2
f i
f i
x b g
v gh
y v h = =
=
=
X
Y
y a bx = +
/ 2 g a =
aceleracin de la gravedad
Transformacin a una lnea recta.
Calculo de g.
Trabajo: calcular g.
Evaluar y=v
2
f
, para 10 valores de x. Mida cada valor de y
para cada x 7 veces
Con los datos evaluados, construya un modelo de
regresin lineal, y encuentre el valor de g. Estime un
intervalo de confianza para g. Investigue cuales son los
valores de g reportados en fuentes internacionales, y
realice una prueba de hiptesis para probar si su valor de
g calculado, es igual al reportado.
A nivel de la superficie del mar g es aproxi= 9,80665 m/s
2

REGRESIN LINEAL MLTIPLE
Regresin lineal mltiple
Un modelo de regresin, en donde la variable de
salida, depende de mas de una variable de entrada, se
denomina modelo de regresin mltiple.

Donde
0
, es la ordenada al origen, y
1
y
2
son los
coeficientes de regresin, y miden el cambio esperado
de Y por un cambio unitaria de una variable cuando la
otra se mantiene constante.


0 1 1 2 2
Y x x | | | c = + + +
Regresin lineal mltiple
1 2
50 10 7 Y x x = + +
Regresin lineal mltiple
En general, la variable de respuesta pude relacionarse
como mas de una variable de entrada.

Los parmetros
0
y
j
y con j=1,2,,k son los
coeficientes de regresin. El modelo describe un
hiperplano en el espacio de k dimensiones de las
variables de regresoras o de entrada.

0 1 1 2 2
...
k k
Y x x x | | | | c = + + + + +
Regresin lineal mltiple
Un modelo cuadrtico puede transformarse a un
modelo lineal.
1 2 1 2 3 1 2
1 2 3
50 5 7 20 ;
50 5 7 20
Y x x x x si x x x
Y x x x
= + + + =
= + + +
El termino x
1
x
2
describe
interaccin
Regresin lineal mltiple
2 2
1 2 1 2 1 2
2 2
3 1 4 2 5 1 2
1 2 3 4 5
800 10 7 8, 5 5 4
; ;
800 10 7 8, 5 5 4
si x
x
Y x x x x x x
x x x x x x
Y x x x x
=
= + + +
= =
= + + +
Regresin lineal mltiple
1
2
n
y
y
y
y
(
(
(
=
(
(

11 12 1
21 22 2
1 2
1
1
1
k
k
n n nk
x x x
x x x
X
x x x
(
(
(
=
(
(

0
1
k
|
|
|
|
(
(
(
=
(
(

1
2
n
c
c
c
c
(
(
(
=
(
(

y X| c = +
( )
1

XX Xy |

' '
=
Los parmetros
0
y
j
y con j=1,2,,k son los
coeficientes de regresin, los cuales se resuelven con
procedimientos de algebra lineal.
Regresin lineal mltiple. Prueba para la
significancia de una regresin
Esta prueba sirve para determinar si existe una
relacin lineal entre la variable de respuesta y las
variables regresora.
0 1 2 3
: ... 0
: 0
k
a j
H
H almenos una
| | | |
|
= = = = =
=
Fuente de
Variacin
Suma de
cuadrados
GL Cuadrado
medio
F
0
regresin SS
R
k MS
R
MS
R
/MS
E

Residual
(error)
SS
E
n-2 MS
E


Total SS
T
n-1
Regresin lineal mltiple
Medidas de adecuacin del modelo. Es posible usar
varias tcnicas para medir la adecuacin de un modelo
de regresin mltiple.
R
2
. El coeficiente de determinacin mltiple mide el
porcentaje de la variacin de la variable de salida que
se explica por las variables de entrada. Adicionar
variables de entradas aumenta el valor de R
2
, pero no
significa que esta variable sean significativas o no.
Los modelos con grandes valores de R
2
pueden
producir estimaciones pobres.
Regresin lineal mltiple
Intervalos de confianza para los coeficientes de
regresin.
Pruebas de hiptesis para los coeficientes de regresin
individuales.
Intervalos de confianza para predicciones de nuevas
observaciones.

S-ar putea să vă placă și