Sunteți pe pagina 1din 17

Autor: Abel Barrantes Herrera

Pgina 1 de 17
Tema : Regresin y Correlacin
4
4.0 REGRESION Y CORRELACION
En la actualidad la industria ni las empresas sufren por falta carencia de
informacin, muy por el contrario, cada vez es mayor el volumen de datos que
se recolectan acerca de los procesos, as, se tiene archivos histricos de
consumos de materia prima, materiales y repuestos, horas hombre, energa,
ndices de medicin de la calidad del producto, etc.
Los datos as recolectados pueden guardarse sin tener un fin especfico, si en
su inicio tuvieron alguno, este ya no es actual.
El sentido del anlisis no es indicar si deben o no recolectarse tales datos,
como debera hacerse tal recoleccin. El sentido del anlisis es encontrar en
esta masa de informacin las relaciones existentes entre estas variables.
Si entendemos que existe relacin entre variables, nos interesa saber que
efecto causan en los resultados del proceso los cambios en una en un
conjunto de variables, por ello, nos planteamos las siguientes preguntas:

Cmo medir el grado de relacin entre variables?


Cmo representar de forma aproximada y simple, la relacin entre
variables, usando funciones matemticas?

La Estadstica nos ayuda con los conceptos de Regresin y Correlacin.


La Regresin trata de establecer y evaluar modelos funcionales que, basados
en el comportamiento de los valores observados de las variables, permitan
aproximar el comportamiento general de ellas mediante un modelo funcional de
funciones matemticas simples.
La Correlacin es la medida de dependencia lineal entre variables
La metodologa aplicable es en principio laboriosa por que requiere de un
nmero grande de operaciones simples, que depende de numero de datos en
anlisis, sin embargo, la tecnologa actual de computadoras, permite con
mucha facilidad realizar estos clculos, dejando ms tiempo a la interpretacin
y anlisis de resultados.
Es de vital importancia entender la metodologa propuesta y las restricciones
aplicables al modelo para poder llegar a conclusiones correctas.
La metodologa aplicable en el caso de los modelos de regresin es la de
Mnimos Cuadrados que se describe a continuacin para el caso de un modelo
lineal simple, esto es para una recta de regresin

Autor: Abel Barrantes Herrera


Pgina 2 de 17
Tema : Regresin y Correlacin
4.1 REGRESIN LINEAL SIMPLE: EL METODO DE MINIMOS CUADRADOS
Dados n puntos no colineales en el plano X,Y ( x1 , y1 ); ( x 2 , y 2 );...; ( x n , y n ) .
hallar una recta, tal que la suma de los cuadrados de las distancias segn el
eje Y de estos puntos a la recta sea un mnimo.
100
90
80
70
60
50
40
30
20

10

20

30

40

50

60

70

80

90

100

Sea la recta buscada


y b0 b1 x

donde b0 es el intercepto y b1 la pendiente


Denominamos y i b0 b1 xi a la ordenada de la recta para x xi
La distancia del punto ( xi , y i ) a la recta, segn el eje Y es
y i y i y i (b0 b1 xi )

Elevando al cuadrado y sumando por i, obtenemos


n

G (b0 , b1 ) y i (b0 bi )

i 1

Buscamos los valores de b0 y b1 que minimizan la funcin G, en consecuencia,


aquellos que cumplen con
G
0
b0

Autor: Abel Barrantes Herrera


Pgina 3 de 17
Tema : Regresin y Correlacin
G
0
b1

Derivando,

n
G
2 y i (b0 b1 xi )
b0
i 1

n
G
2 xi y i (b0 b1 xi )
b1
i 1
Igualando a 0, simplificando y aplicando las sumatorias se tiene el sistema de 2
ecuaciones con 2 incgnitas:

i 1

i 1

nb0 b1 xi y i ...........(I)
n

i 1

i 1

b0 x1 b1 xi2 xi y i ............(II)
Resolviendo estas 2 ecuaciones tenemos:
n

n
1 n
x
i 1 yi
n 1
1
b1
2
n
1

2
1 xi n x i

xi yi

Propiedades de la recta de mnimos cuadrados


I. De la ecuacin (i) al dividir entre n
b0 b1 x y

( x , y ) a la recta
II. La propiedad I implica: b0 y b1 x
III. Por la propiedad II, la ecuacin de la recta de regresin puede
escribirse:
( y i y ) b1 ( xi x )

IV. Frmulas equivalentes de b1 son


n

b1

x y
i

nx y

x
1

2
i

nx 2

Autor: Abel Barrantes Herrera


Pgina 4 de 17
Tema : Regresin y Correlacin
n

b1

(x
1

x )( y i y )

(x

x)2

V. Por la propiedad III ( y i y ) b1 ( xi x )


y i y b1 ( xi x )
y i y i ( y i y ) b1 ( xi x )
n

( y i y i ) ( y i y ) b1 (xi x ) 0

Entonces, si para cada xi de cada uno de los n puntos del plano


( x1 , y1 ); ( x 2 , y 2 );...; ( x n , y n ) .usados para calcular la recta de regresin,
nosotros calculamos y i b0 b1 xi y luego los valores residuales i y i y i
, se cumple que la suma de esos valores residuales es igual a 0 esta
propiedad se cumple siempre que el trmino independiente 0 sea
diferente de 0.
VI. Se cumple que
n

( yi y ) 2 ( yi y ) 2 ( y i y ) 2
Demostracin:
n

(y
1

y i ) ( y i y ) ( y i y ) ( y ii y ) 2 ( y i y ) 2 2 ( y i y )( y i y )
2

analizando

(y
1

y )( y i y ) b1 ( y i y )( xi x ) ....... por la propiedad III


1

b1 ( y i y )( xi x ) b12 ( xi x ) 2 .......por la 2 frmula de la propiedad IV


1

como por la propiedad III


n

( y i y ) b1 ( xi x ) ( y i y ) 2 b12 ( xi x ) 2
reemplazando en la primera ecuacin
n

( yi y i ) 2 ( yii y ) 2 ( y i y ) 2 2 ( y i y ) 2

( yi y ) 2 ( yi y ) 2 ( y i y ) 2
Modelos Transformables al Modelo Lineal

Autor: Abel Barrantes Herrera


Pgina 5 de 17
Tema : Regresin y Correlacin
1. Sea el modelo y ax b
Tomando logaritmos: Ln( y ) Ln( a) bLn( x)
Hemos reducido el modelo a Y b0 b X
1

Donde Y Ln( y ) , X Ln(x ) , b0 Ln(a ) , b1 b


2. Sea ahora el modelo y ab x
Tomando logaritmos: Ln( y ) Ln(a ) xLn(b)
Hemos reducido el modelo a Y b0 b X
1

Donde Y Ln( y ) , X x , b0 Ln( a ) , b1 Ln(b)


Estos ejemplos nos permiten considerar para efectos de la teora de regresin
como modelos lineales a todos aquellos que por simples transformaciones
continuas son reducibles a lineales.
Ntese que el modelo del ejemplo 1 nos permite considerar como modelos
lineales a cualquier componente x k k entero y tambin a k x dentro de las
restricciones que el anlisis matemtico exige.

Autor: Abel Barrantes Herrera


Pgina 6 de 17
Tema : Regresin y Correlacin
REGRESIN LINEAL SIMPLE: MODELO ESTADISTICO
Consideremos un proceso simple con una nica variable de entrada X y una
variable de salida Y, tal como se muestra en el grfico
PROCESO

Nos interesa conocer la relacin entre X e Y. Supongamos que esta es una


relacin lineal expresada por:
y i 0 1 xi i

donde i es un error de estimacin


Supongamos que hemos registrado datos de Y para distintos valores de X, es
decir
hemos
tomado
una
muestra
de
n
pares
de
datos
( x1 , y1 ); ( x 2 , y 2 );...; ( x n , y n )

Cmo obtener estimadores de 0 , 1 ?


La respuesta est en el mtodo de mnimos cuadrados.
Sobre la base de la informacin muestral calculamos por este mtodo b 0 y b1;
estimadores de 0 , 1 respectivamente. Entendemos que b0 y b1 son variables
aleatorias al ser obtenidas de la informacin muestral, para poderlas analizar
es necesario que hagamos ciertos supuestos que nos permitan conocer su
comportamiento estadstico.
SUPUESTOS DE LA REGRESIN
1. La recta de regresin y i 0 1 xi i busca estimar Y conocido X, por
eso a X se le denomina variable independiente, en tanto que Y es la
variable dependiente (depende de X)
2. i es una variable aleatoria con valor esperado 0 y varianza 2
constante para todo i . A la propiedad que la varianza permanezca
constante se le denomina homocedasticidad
3. i y j son no correlacionadas cov( i , j ) 0 para todo i j
4. i es una variable aleatoria normal
i N (0, 2 )

Este supuesto
independientes

implica

que,

por

el

supuesto

i , j

sean

Estos son los cuatro supuestos bsicos de la regresin, de su cumplimiento


depende la bondad del modelo.

Autor: Abel Barrantes Herrera


Pgina 7 de 17
Tema : Regresin y Correlacin
ANLISIS ESTADSTICO DEL MODELO DE REGRESIN LINEAL SIMPLE
El modelo en anlisis es y i 0 1 xi i
En consecuencia: E ( y i ) 0 1 xi E ( i ) 0 1 xi ,
Var ( y i ) 2 y2

Prueba General del Modelo: Anlisis de Varianza


n

Por la propiedad VI

(y
1

(y

y ) 2 ( y i y ) 2 ( y i y ) 2

y ) 2 Suma de cuadrados de la variacin total alrededor de la media

y ) 2 Suma de cuadrados de la variacin explicada por regresin

y ) 2 Suma de cuadrados de la variacin no explicada por regresin,

(y
1
n

( y
1

variacin residual, en consecuencia tenemos que:


Suma de Cuadrados
de la variacin total

= Suma de Cuadrados explicada +

Suma de Cuadrados
explicada Residual

por regresin

2
2
2
Como i N (0, ) ( y i y ) (1) y
1

(y

no

y ) 2 2 (n 2)

Entonces, el cociente de ambas variables aleatorias divididas entre sus grados


de libertad seguir una distribucin F(1,n-2). Podemos entonces construir el
cuadro de Anlisis de Varianza ANOVA, por sus siglas en ingls:
Fuente de

Sumas de

Variacin

Cuadrado
s

Explicada por
Regresin

( y i y ) 2

Grados
de

Medias

Valor de F

Cuadrticas

Calculado

Libertad

( yi y )2 /1
1

( y y )
(y y)
i

Total

( yi yi )2

n2

(y
1

y)2

( y y )
i

n 1

/(n 2)

/1

/(n 2)

Residual no
explicada por
Regresin

Autor: Abel Barrantes Herrera


Pgina 8 de 17
Tema : Regresin y Correlacin
Con este cuadro podemos hacer la siguiente verificacin de hiptesis:
H0: El modelo no sirve
Ha: El modelo si sirve

El punto 3.285 es el valor crtico de decisin para = 0.1 as, si el F calculado


es mayor a 3.285 rechazamos la hiptesis H0, si no, la aceptamos. .
Coeficiente de Determinacin:
R2 = Variacin explicada por Regresin / Variacin total
n

R 2 ( y i y ) 2 / ( y i y ) 2

El coeficiente de determinacin se expresa en porcentaje y se interpreta como


el porcentaje de variacin explicado por el modelo.
Ntese que 0 R 2 1
Usando el paquete STATISTICA, para un problema de regresin simple
obtenemos el cuadro de anlisis de varianza

Autor: Abel Barrantes Herrera


Pgina 9 de 17
Tema : Regresin y Correlacin
Donde vemos que n = 16 (n - 2 = 14), el F(1,14) calculado es 9.95193 y
tenemos un nivel de p (p-level) de 0.007026.
Este p es la probabilidad de que la variable aleatoria de distribucin F(1,14)
asuma valores mayores al F calculado ( limite ).
Nuestra regla de decisin sera:
Si es mayor que p rechazamos H0, caso contrario la aceptamos
Debemos remarcar que esta prueba F evala al modelo en su conjunto y no
por cada uno de sus elementos.
Distribuciones de b0 y b1
Sabemos que
n

b1

( x i x )( y i y )
1

( xi x )

(xi x) y i
1

( xi x )

(xi x) y

1
n

( xi x )

(x
1

x) y i

(x

x)2

Desarrollando la sumatoria:

b1

( x1 x ) y1
n

( xi x ) 2
1

( x2 x ) y 2
n

( xi x ) 2

( xn x ) yn
n

(x

x)2

Tomando varianzas

Var (b1 )

( x1 x ) 2 Var ( y1 )
n

( ( xi x ) )

2 2

Como

( x2 x ) 2 Var ( y 2 )
n

( ( x i x ) )

2 2

Var ( y i ) Var (b1 )


2
y

( x n x ) 2 Var ( y n )
n

( ( xi x ) 2 ) 2
1

y2
n

(x

x)2

y2 es desconocido, en consecuencia lo estimamos por S y2 y de los supuestos


de la regresin
2
b1 1
t (n 2) ; donde S b1
S b1

S y2
n

(x
1

x)2

Autor: Abel Barrantes Herrera


Pgina 10 de 17
Tema : Regresin y Correlacin
Para b0 tenemos:
b0 y b1 x
Var (b0 ) Var ( y ) x 2Var (b1 ) por ser y , b1 independientes
n

b0 y

x
n

(x

x)2

2
i

n ( xi x ) 2

como no conocemos y tenemos


n

S b0 S y 2

2
i

n ( xi x ) 2
1

b0 0
t ( n 2)
S b0

Con las distribuciones de b0 y b1 podemos:


a. Calcular intervalos de confianza
Para 0
n

0 b0 t1 / 2 (n 2) 2

2
i

n ( xi x )

Sy
2

Para 1
Sy

1 b1 t1 / 2 (n 2)

(x

x)2

b. Verificar hiptesis acerca del valor de los parmetros de la recta


poblacional, de especial inters son las verificaciones del trmino
independiente (intercepto) y del coeficiente de X (pendiente)
Test acerca del trmino independiente
H 0 : 0 0 El intercepto es 0

Autor: Abel Barrantes Herrera


Pgina 11 de 17
Tema : Regresin y Correlacin
H 0 : 0 0 El intercepto es diferente de 0
Test acerca del coeficiente de X
H 0 : 1 0 La pendiente es 0, cuyo significado equivale a que el

modelo no sirve puesto el conocimiento de X no influye


en el conocimiento de Y
H 0 : 1 0 El intercepto es diferente de 0

Autor: Abel Barrantes Herrera


Pgina 12 de 17
Tema : Regresin y Correlacin

DISTRIBUCIN CHI CUADRADO


Si X 1 , X 2 ,L , X n son variables normales estandarizadas e independientes,
2
2
2
entonces la variable aleatoria Y X 1 X 2 L X n sigue una distribucin 2
con n grados de libertad.1
Clculo del valor de 2 (8 grados de libertad) para una probabilidad de 90%
usando el paquete STATISTICA

Probability Density Function

Probability Distribution Function

y =chi2(x;8)

p =ichi2(x;8)

0,175

1,0

0,8
0,131

0,6
0,087
0,4

0,044
0,2

0,000

0,00

6,25

12,50

18,75

25,00

0,0

0,00

6,25

12,50

18,75

25,00

Propiedades de una distribucin 2


1

Por grados de libertad entendemos al nmero de elementos que pueden escogerse


libremente, o al nmero de variables que pueden asumir valores arbitrarios libremente.
(Nmero de variables funcionalmente independientes)

Autor: Abel Barrantes Herrera


Pgina 13 de 17
Tema : Regresin y Correlacin
i)
ii)

iii)

Si X tiene una distribucin normal estandarizada, X 2 tiene una


distribucin 2 con 1 grado de libertad.
Si X1 tiene una distribucin 2 con n1 grados de libertad, X2 tiene una
distribucin 2 con n2 grados de libertad; entonces Y = X 1 + X2 tiene
una distribucin 2 con n1 n2 grados de libertad.
Si la poblacin es normal estandarizada, y x i i = 1,2,...,n son n
observaciones independientes que constituyen una muestra al azar,
n

entonces

x
i 1

iv)

v)
vi)

2
i

tiene una distribucin 2 con n grados de libertad.

Si la poblacin es normal con media , desviacin estndar y xi


para i = 1,2,...,n son n observaciones independientes que constituyen
2
n
xi
una muestra al azar, entonces
tiene una distribucin 2

1
con n grados de libertad.
Una variable Chi cuadrado vara en un rango de 0 a infinito, por ser
una suma de cuadrados.
Una variable Chi cuadrado est definida completamente por su grado
de libertad, as si X es una variable aleatoria de distribucin 2 con n
grados de libertad,
E(X) = n
V(X) = 2n

vii)

Las distribuciones Chi cuadrado son positivamente asimtricas, ( con


una giba hacia la izquierda), sin embargo, cuando el nmero de
grados de libertad aumenta entonces la distribucin se asemeja a
una normal. Los siguientes cuadros muestran la distribucin Chi
cuadrado para 31 y 35 grados de libertad, en ellos puede apreciarse
su cercana con la distribucin normal.

Autor: Abel Barrantes Herrera


Pgina 14 de 17
Tema : Regresin y Correlacin
DISTRIBUCIN F
Si X sigue una distribucin 2 con n1 grados de libertad, Y sigue una distribucin
X
n
2 con n2 grados de libertad; entonces F 1 sigue una distribucin F de
Y
n2
Fischer con (n1,n2) grados de libertad. Usualmente la designamos por F n1,n2
Los siguientes grficos muestran la densidad y la probabilidad acumulada de
una distribucin F14,8.
Probability Density Function

Probability Distribution Function

y =F(x;14;8)

p =iF(x;14;8)

1,500

1,0

0,8
1,125

0,6
0,750
0,4

0,375
0,2

0,000

0,0

Propiedades de la distribucin F
i)
ii)
iii)

Siendo F una razn de dos cantidades al cuadrado, F vara entre 0 e


.
Hay una distribucin F para cada par de enteros positivos n 1,n2 .
La media y varianza de F estn dadas por:
n2
E(F )
para
n2 2
2

n 2

Var ( F )

2n22 ( n1 n2 2)
para
2
n1 (n2 2) 2 (n2 4)

n 4

Autor: Abel Barrantes Herrera


Pgina 15 de 17
Tema : Regresin y Correlacin
iv)
Como en el caso de la 2 F es positivamente asimtrica, pero cuando
n1,n2 aumentan, la asimetra se reduce.
v)
Si la variable aleatoria X sigue una distribucin F n1,n2, entonces Y =
1/X sigue una Fn2,n1. Esta es la propiedad recproca de las
distribuciones F y tambin puede expresarse por
F(1-);n1,n2 = 1 /F;n2,n1.
Donde y 1 - designan al rea bajo la cola de la distribucin F
Veamos el caso F8,11.

Podemos verificar que 2.947989 =1/0.339214


Cumplindose lo dicho en (vi)

Autor: Abel Barrantes Herrera


Pgina 16 de 17
Tema : Regresin y Correlacin
DISTRIBUCIN t-Student
La variable aleatoria con distribucin t-student con n grados de libertad, se
genera al dividir una variable normal estandarizada N(0,1) entre la raz
cuadrada del cociente de una variable aleatoria 2 con n grados de libertad,
dividida entre n.

t
2

2
n

La distribucin t-student con n-1 grados de libertad tiene una funcin densidad:

f (t )

2
n 1

( n 1)

t2
1

n 1

n
2

Propiedades:
i)

La variable t vara de - a

ii)

La distribucin t es simtrica respecto del eje y

iii)

E[t] = 0 Var(t) = (n-1)/(n-3)

iv)

La distribucin t es similar a la distribucin normal, ambas varan de - a


+, ambas son simtricas respecto del eje Y, y ambas tienen media 0;
sin embargo, la distribucin t tiene una mayor desviacin estndar por
ser su varianza (ver iii) Var(t) 1, acercndose a 1 conforme aumenta n,
en consecuencia para n mayores de 30 podemos aproximarla por la
Distribucin Normal Estandarizada.
Los siguientes cuadros muestran los valores de t con 31 grados de libertad,
para reas de 90 y 95%, en comparacin con la normal.

Autor: Abel Barrantes Herrera


Pgina 17 de 17
Tema : Regresin y Correlacin

S-ar putea să vă placă și