Regresion y Correlacion-Distribucion F

Autor: Abel Barrantes Herrera
Pgina 1 de 17
Tema : Regresin y Correlacin
4
4.0 REGRESION Y CORRELACION
En la actualidad la industria ni las empresas sufren por falta carencia de
informacin, muy por el contrario, cada vez es mayor el volumen de datos que
se recolectan acerca de los procesos, as, se tiene archivos histricos de
consumos de materia prima, materiales y repuestos, horas hombre, energa,
ndices de medicin de la calidad del producto, etc.
Los datos as recolectados pueden guardarse sin tener un fin especfico, si en
su inicio tuvieron alguno, este ya no es actual.
El sentido del anlisis no es indicar si deben o no recolectarse tales datos,
como debera hacerse tal recoleccin. El sentido del anlisis es encontrar en
esta masa de informacin las relaciones existentes entre estas variables.
Si entendemos que existe relacin entre variables, nos interesa saber que
efecto causan en los resultados del proceso los cambios en una en un
conjunto de variables, por ello, nos planteamos las siguientes preguntas:
Cmo medir el grado de relacin entre variables?

Cmo representar de forma aproximada y simple, la relacin entre
variables, usando funciones matemticas?
La Estadstica nos ayuda con los conceptos de Regresin y Correlacin.

La Regresin trata de establecer y evaluar modelos funcionales que, basados
en el comportamiento de los valores observados de las variables, permitan
aproximar el comportamiento general de ellas mediante un modelo funcional de
funciones matemticas simples.
La Correlacin es la medida de dependencia lineal entre variables
La metodologa aplicable es en principio laboriosa por que requiere de un
nmero grande de operaciones simples, que depende de numero de datos en
anlisis, sin embargo, la tecnologa actual de computadoras, permite con
mucha facilidad realizar estos clculos, dejando ms tiempo a la interpretacin
y anlisis de resultados.
Es de vital importancia entender la metodologa propuesta y las restricciones
aplicables al modelo para poder llegar a conclusiones correctas.
La metodologa aplicable en el caso de los modelos de regresin es la de
Mnimos Cuadrados que se describe a continuacin para el caso de un modelo
lineal simple, esto es para una recta de regresin

Pgina 2 de 17
4.1 REGRESIN LINEAL SIMPLE: EL METODO DE MINIMOS CUADRADOS
Dados n puntos no colineales en el plano X,Y ( x1 , y1 ); ( x 2 , y 2 );...; ( x n , y n ) .
hallar una recta, tal que la suma de los cuadrados de las distancias segn el
eje Y de estos puntos a la recta sea un mnimo.
100
90
80
70
60
50
40
30
20
10
20
30
40
50
60
70
80
90
100
Sea la recta buscada

y b0 b1 x
donde b0 es el intercepto y b1 la pendiente

Denominamos y i b0 b1 xi a la ordenada de la recta para x xi
La distancia del punto ( xi , y i ) a la recta, segn el eje Y es
y i y i y i (b0 b1 xi )
Elevando al cuadrado y sumando por i, obtenemos

n
G (b0 , b1 ) y i (b0 bi )
i 1
Buscamos los valores de b0 y b1 que minimizan la funcin G, en consecuencia,

aquellos que cumplen con
G
0
b0

Pgina 3 de 17
G
0
b1
Derivando,
n
G
2 y i (b0 b1 xi )
b0
i 1
n
G
2 xi y i (b0 b1 xi )
b1
i 1
Igualando a 0, simplificando y aplicando las sumatorias se tiene el sistema de 2
ecuaciones con 2 incgnitas:
i 1
i 1
nb0 b1 xi y i ...........(I)
n
i 1
i 1
b0 x1 b1 xi2 xi y i ............(II)
Resolviendo estas 2 ecuaciones tenemos:
n
n
1 n
x
i 1 yi
n 1
1
b1
2
n
1
2
1 xi n x i
xi yi
Propiedades de la recta de mnimos cuadrados

I. De la ecuacin (i) al dividir entre n
b0 b1 x y
( x , y ) a la recta
II. La propiedad I implica: b0 y b1 x
III. Por la propiedad II, la ecuacin de la recta de regresin puede
escribirse:
( y i y ) b1 ( xi x )
IV. Frmulas equivalentes de b1 son

n
b1
x y
i
nx y
x
1
2
i
nx 2

Pgina 4 de 17
n
b1
(x
1
x )( y i y )
(x
x)2
V. Por la propiedad III ( y i y ) b1 ( xi x )

y i y b1 ( xi x )
y i y i ( y i y ) b1 ( xi x )
n
( y i y i ) ( y i y ) b1 (xi x ) 0
Entonces, si para cada xi de cada uno de los n puntos del plano

( x1 , y1 ); ( x 2 , y 2 );...; ( x n , y n ) .usados para calcular la recta de regresin,
nosotros calculamos y i b0 b1 xi y luego los valores residuales i y i y i
, se cumple que la suma de esos valores residuales es igual a 0 esta
propiedad se cumple siempre que el trmino independiente 0 sea
diferente de 0.
VI. Se cumple que
n
( yi y ) 2 ( yi y ) 2 ( y i y ) 2
Demostracin:
n
(y
1
y i ) ( y i y ) ( y i y ) ( y ii y ) 2 ( y i y ) 2 2 ( y i y )( y i y )
2
analizando
(y
1
y )( y i y ) b1 ( y i y )( xi x ) ....... por la propiedad III

1
b1 ( y i y )( xi x ) b12 ( xi x ) 2 .......por la 2 frmula de la propiedad IV

1
como por la propiedad III

n
( y i y ) b1 ( xi x ) ( y i y ) 2 b12 ( xi x ) 2
reemplazando en la primera ecuacin
n
( yi y i ) 2 ( yii y ) 2 ( y i y ) 2 2 ( y i y ) 2
( yi y ) 2 ( yi y ) 2 ( y i y ) 2
Modelos Transformables al Modelo Lineal

Pgina 5 de 17
1. Sea el modelo y ax b
Tomando logaritmos: Ln( y ) Ln( a) bLn( x)
Hemos reducido el modelo a Y b0 b X
1
Donde Y Ln( y ) , X Ln(x ) , b0 Ln(a ) , b1 b

2. Sea ahora el modelo y ab x
Tomando logaritmos: Ln( y ) Ln(a ) xLn(b)
Hemos reducido el modelo a Y b0 b X
1
Donde Y Ln( y ) , X x , b0 Ln( a ) , b1 Ln(b)

Estos ejemplos nos permiten considerar para efectos de la teora de regresin
como modelos lineales a todos aquellos que por simples transformaciones
continuas son reducibles a lineales.
Ntese que el modelo del ejemplo 1 nos permite considerar como modelos
lineales a cualquier componente x k k entero y tambin a k x dentro de las
restricciones que el anlisis matemtico exige.

Pgina 6 de 17
REGRESIN LINEAL SIMPLE: MODELO ESTADISTICO
Consideremos un proceso simple con una nica variable de entrada X y una
variable de salida Y, tal como se muestra en el grfico
PROCESO
Nos interesa conocer la relacin entre X e Y. Supongamos que esta es una

relacin lineal expresada por:
y i 0 1 xi i
donde i es un error de estimacin

Supongamos que hemos registrado datos de Y para distintos valores de X, es
decir
hemos
tomado
una
muestra
de
n
pares
de
datos
( x1 , y1 ); ( x 2 , y 2 );...; ( x n , y n )
Cmo obtener estimadores de 0 , 1 ?

La respuesta est en el mtodo de mnimos cuadrados.
Sobre la base de la informacin muestral calculamos por este mtodo b 0 y b1;
estimadores de 0 , 1 respectivamente. Entendemos que b0 y b1 son variables
aleatorias al ser obtenidas de la informacin muestral, para poderlas analizar
es necesario que hagamos ciertos supuestos que nos permitan conocer su
comportamiento estadstico.
SUPUESTOS DE LA REGRESIN
1. La recta de regresin y i 0 1 xi i busca estimar Y conocido X, por
eso a X se le denomina variable independiente, en tanto que Y es la
variable dependiente (depende de X)
2. i es una variable aleatoria con valor esperado 0 y varianza 2
constante para todo i . A la propiedad que la varianza permanezca
constante se le denomina homocedasticidad
3. i y j son no correlacionadas cov( i , j ) 0 para todo i j
4. i es una variable aleatoria normal
i N (0, 2 )
Este supuesto
independientes
implica
que,
por
el
supuesto
i , j
sean
Estos son los cuatro supuestos bsicos de la regresin, de su cumplimiento

depende la bondad del modelo.

Pgina 7 de 17
ANLISIS ESTADSTICO DEL MODELO DE REGRESIN LINEAL SIMPLE
El modelo en anlisis es y i 0 1 xi i
En consecuencia: E ( y i ) 0 1 xi E ( i ) 0 1 xi ,
Var ( y i ) 2 y2
Prueba General del Modelo: Anlisis de Varianza

n
Por la propiedad VI
(y
1
(y
y ) 2 ( y i y ) 2 ( y i y ) 2
y ) 2 Suma de cuadrados de la variacin total alrededor de la media
y ) 2 Suma de cuadrados de la variacin explicada por regresin
y ) 2 Suma de cuadrados de la variacin no explicada por regresin,
(y
1
n
( y
1
variacin residual, en consecuencia tenemos que:

Suma de Cuadrados
de la variacin total
= Suma de Cuadrados explicada +
Suma de Cuadrados
explicada Residual
por regresin
2
2
2
Como i N (0, ) ( y i y ) (1) y
1
(y
no
y ) 2 2 (n 2)
Entonces, el cociente de ambas variables aleatorias divididas entre sus grados

de libertad seguir una distribucin F(1,n-2). Podemos entonces construir el
cuadro de Anlisis de Varianza ANOVA, por sus siglas en ingls:
Fuente de
Sumas de
Variacin
Cuadrado
s
Explicada por
Regresin
( y i y ) 2
Grados
de
Medias
Valor de F
Cuadrticas
Calculado
Libertad
( yi y )2 /1
1
( y y )
(y y)
i
Total
( yi yi )2
n2
(y
1
y)2
( y y )
i
n 1
/(n 2)
/1
/(n 2)
Residual no
explicada por
Regresin

Pgina 8 de 17
Con este cuadro podemos hacer la siguiente verificacin de hiptesis:
H0: El modelo no sirve
Ha: El modelo si sirve
El punto 3.285 es el valor crtico de decisin para = 0.1 as, si el F calculado

es mayor a 3.285 rechazamos la hiptesis H0, si no, la aceptamos. .
Coeficiente de Determinacin:
R2 = Variacin explicada por Regresin / Variacin total
n
R 2 ( y i y ) 2 / ( y i y ) 2
El coeficiente de determinacin se expresa en porcentaje y se interpreta como

el porcentaje de variacin explicado por el modelo.
Ntese que 0 R 2 1
Usando el paquete STATISTICA, para un problema de regresin simple
obtenemos el cuadro de anlisis de varianza

Pgina 9 de 17
Donde vemos que n = 16 (n - 2 = 14), el F(1,14) calculado es 9.95193 y
tenemos un nivel de p (p-level) de 0.007026.
Este p es la probabilidad de que la variable aleatoria de distribucin F(1,14)
asuma valores mayores al F calculado ( limite ).
Nuestra regla de decisin sera:
Si es mayor que p rechazamos H0, caso contrario la aceptamos
Debemos remarcar que esta prueba F evala al modelo en su conjunto y no
por cada uno de sus elementos.
Distribuciones de b0 y b1
Sabemos que
n
b1
( x i x )( y i y )
1
( xi x )
(xi x) y i
1
( xi x )
(xi x) y
1
n
( xi x )
(x
1
x) y i
(x
x)2
Desarrollando la sumatoria:
b1
( x1 x ) y1
n
( xi x ) 2
1
( x2 x ) y 2
n
( xi x ) 2
( xn x ) yn
n
(x
x)2
Tomando varianzas
Var (b1 )
( x1 x ) 2 Var ( y1 )
n
( ( xi x ) )
2 2
Como
( x2 x ) 2 Var ( y 2 )
n
( ( x i x ) )
2 2
Var ( y i ) Var (b1 )

2
y
( x n x ) 2 Var ( y n )
n
( ( xi x ) 2 ) 2
1
y2
n
(x
x)2
y2 es desconocido, en consecuencia lo estimamos por S y2 y de los supuestos

de la regresin
2
b1 1
t (n 2) ; donde S b1
S b1
S y2
n
(x
1
x)2

Pgina 10 de 17
Para b0 tenemos:
b0 y b1 x
Var (b0 ) Var ( y ) x 2Var (b1 ) por ser y , b1 independientes
n
b0 y
x
n
(x
x)2
2
i
n ( xi x ) 2
como no conocemos y tenemos

n
S b0 S y 2
2
i
n ( xi x ) 2
1
b0 0
t ( n 2)
S b0
Con las distribuciones de b0 y b1 podemos:

a. Calcular intervalos de confianza
Para 0
n
0 b0 t1 / 2 (n 2) 2
2
i
n ( xi x )
Sy
2
Para 1
Sy
1 b1 t1 / 2 (n 2)
(x
x)2
b. Verificar hiptesis acerca del valor de los parmetros de la recta

poblacional, de especial inters son las verificaciones del trmino
independiente (intercepto) y del coeficiente de X (pendiente)
Test acerca del trmino independiente
H 0 : 0 0 El intercepto es 0

Pgina 11 de 17
H 0 : 0 0 El intercepto es diferente de 0
Test acerca del coeficiente de X
H 0 : 1 0 La pendiente es 0, cuyo significado equivale a que el
modelo no sirve puesto el conocimiento de X no influye

en el conocimiento de Y
H 0 : 1 0 El intercepto es diferente de 0

Pgina 12 de 17
DISTRIBUCIN CHI CUADRADO

Si X 1 , X 2 ,L , X n son variables normales estandarizadas e independientes,
2
2
2
entonces la variable aleatoria Y X 1 X 2 L X n sigue una distribucin 2
con n grados de libertad.1
Clculo del valor de 2 (8 grados de libertad) para una probabilidad de 90%
usando el paquete STATISTICA
Probability Density Function
Probability Distribution Function
y =chi2(x;8)
p =ichi2(x;8)
0,175
1,0
0,8
0,131
0,6
0,087
0,4
0,044
0,2
0,000
0,00
6,25
12,50
18,75
25,00
0,0
0,00
6,25
12,50
18,75
25,00
Propiedades de una distribucin 2

1
Por grados de libertad entendemos al nmero de elementos que pueden escogerse

libremente, o al nmero de variables que pueden asumir valores arbitrarios libremente.
(Nmero de variables funcionalmente independientes)

Pgina 13 de 17
i)
ii)
iii)
Si X tiene una distribucin normal estandarizada, X 2 tiene una

distribucin 2 con 1 grado de libertad.
Si X1 tiene una distribucin 2 con n1 grados de libertad, X2 tiene una
distribucin 2 con n2 grados de libertad; entonces Y = X 1 + X2 tiene
una distribucin 2 con n1 n2 grados de libertad.
Si la poblacin es normal estandarizada, y x i i = 1,2,...,n son n
observaciones independientes que constituyen una muestra al azar,
n
entonces
x
i 1
iv)
v)
vi)
2
i
tiene una distribucin 2 con n grados de libertad.
Si la poblacin es normal con media , desviacin estndar y xi

para i = 1,2,...,n son n observaciones independientes que constituyen
2
n
xi
una muestra al azar, entonces
tiene una distribucin 2
1
con n grados de libertad.
Una variable Chi cuadrado vara en un rango de 0 a infinito, por ser
una suma de cuadrados.
Una variable Chi cuadrado est definida completamente por su grado
de libertad, as si X es una variable aleatoria de distribucin 2 con n
grados de libertad,
E(X) = n
V(X) = 2n
vii)
Las distribuciones Chi cuadrado son positivamente asimtricas, ( con

una giba hacia la izquierda), sin embargo, cuando el nmero de
grados de libertad aumenta entonces la distribucin se asemeja a
una normal. Los siguientes cuadros muestran la distribucin Chi
cuadrado para 31 y 35 grados de libertad, en ellos puede apreciarse
su cercana con la distribucin normal.

Pgina 14 de 17
DISTRIBUCIN F
Si X sigue una distribucin 2 con n1 grados de libertad, Y sigue una distribucin
X
n
2 con n2 grados de libertad; entonces F 1 sigue una distribucin F de
Y
n2
Fischer con (n1,n2) grados de libertad. Usualmente la designamos por F n1,n2
Los siguientes grficos muestran la densidad y la probabilidad acumulada de
una distribucin F14,8.
Probability Density Function
Probability Distribution Function
y =F(x;14;8)
p =iF(x;14;8)
1,500
1,0
0,8
1,125
0,6
0,750
0,4
0,375
0,2
0,000
0,0
Propiedades de la distribucin F
i)
ii)
iii)
Siendo F una razn de dos cantidades al cuadrado, F vara entre 0 e

.
Hay una distribucin F para cada par de enteros positivos n 1,n2 .
La media y varianza de F estn dadas por:
n2
E(F )
para
n2 2
2
n 2
Var ( F )
2n22 ( n1 n2 2)
para
2
n1 (n2 2) 2 (n2 4)
n 4

Pgina 15 de 17
iv)
Como en el caso de la 2 F es positivamente asimtrica, pero cuando
n1,n2 aumentan, la asimetra se reduce.
v)
Si la variable aleatoria X sigue una distribucin F n1,n2, entonces Y =
1/X sigue una Fn2,n1. Esta es la propiedad recproca de las
distribuciones F y tambin puede expresarse por
F(1-);n1,n2 = 1 /F;n2,n1.
Donde y 1 - designan al rea bajo la cola de la distribucin F
Veamos el caso F8,11.
Podemos verificar que 2.947989 =1/0.339214

Cumplindose lo dicho en (vi)

Pgina 16 de 17
DISTRIBUCIN t-Student
La variable aleatoria con distribucin t-student con n grados de libertad, se
genera al dividir una variable normal estandarizada N(0,1) entre la raz
cuadrada del cociente de una variable aleatoria 2 con n grados de libertad,
dividida entre n.
t
2
2
n
La distribucin t-student con n-1 grados de libertad tiene una funcin densidad:
f (t )
2
n 1
( n 1)
t2
1
n 1
n
2
Propiedades:
i)
La variable t vara de - a
ii)
La distribucin t es simtrica respecto del eje y
iii)
E[t] = 0 Var(t) = (n-1)/(n-3)
iv)
La distribucin t es similar a la distribucin normal, ambas varan de - a

+, ambas son simtricas respecto del eje Y, y ambas tienen media 0;
sin embargo, la distribucin t tiene una mayor desviacin estndar por
ser su varianza (ver iii) Var(t) 1, acercndose a 1 conforme aumenta n,
en consecuencia para n mayores de 30 podemos aproximarla por la
Distribucin Normal Estandarizada.
Los siguientes cuadros muestran los valores de t con 31 grados de libertad,
para reas de 90 y 95%, en comparacin con la normal.

Pgina 17 de 17

Regresion y Correlacion-Distribucion F

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresion y Correlacion-Distribucion F

Încărcat de

Drepturi de autor:

Formate disponibile

Autor: Abel Barrantes Herrera

Cmo medir el grado de relacin entre variables?

La Estadstica nos ayuda con los conceptos de Regresin y Correlacin.

Autor: Abel Barrantes Herrera

Sea la recta buscada

donde b0 es el intercepto y b1 la pendiente

Elevando al cuadrado y sumando por i, obtenemos

Buscamos los valores de b0 y b1 que minimizan la funcin G, en consecuencia,

Autor: Abel Barrantes Herrera

Propiedades de la recta de mnimos cuadrados

IV. Frmulas equivalentes de b1 son

Autor: Abel Barrantes Herrera

V. Por la propiedad III ( y i y ) b1 ( xi x )

Entonces, si para cada xi de cada uno de los n puntos del plano

y )( y i y ) b1 ( y i y )( xi x ) ....... por la propiedad III

b1 ( y i y )( xi x ) b12 ( xi x ) 2 .......por la 2 frmula de la propiedad IV

como por la propiedad III

Autor: Abel Barrantes Herrera

Donde Y Ln( y ) , X Ln(x ) , b0 Ln(a ) , b1 b

Donde Y Ln( y ) , X x , b0 Ln( a ) , b1 Ln(b)

Autor: Abel Barrantes Herrera

Nos interesa conocer la relacin entre X e Y. Supongamos que esta es una

donde i es un error de estimacin

Cmo obtener estimadores de 0 , 1 ?

Estos son los cuatro supuestos bsicos de la regresin, de su cumplimiento

Autor: Abel Barrantes Herrera

Prueba General del Modelo: Anlisis de Varianza

y ) 2 Suma de cuadrados de la variacin total alrededor de la media

y ) 2 Suma de cuadrados de la variacin explicada por regresin

y ) 2 Suma de cuadrados de la variacin no explicada por regresin,

variacin residual, en consecuencia tenemos que:

= Suma de Cuadrados explicada +

Entonces, el cociente de ambas variables aleatorias divididas entre sus grados

Autor: Abel Barrantes Herrera

El punto 3.285 es el valor crtico de decisin para = 0.1 as, si el F calculado

El coeficiente de determinacin se expresa en porcentaje y se interpreta como

Autor: Abel Barrantes Herrera

Var ( y i ) Var (b1 )

y2 es desconocido, en consecuencia lo estimamos por S y2 y de los supuestos

Autor: Abel Barrantes Herrera

como no conocemos y tenemos

Con las distribuciones de b0 y b1 podemos:

b. Verificar hiptesis acerca del valor de los parmetros de la recta

Autor: Abel Barrantes Herrera

modelo no sirve puesto el conocimiento de X no influye

Autor: Abel Barrantes Herrera

DISTRIBUCIN CHI CUADRADO

Probability Density Function

Probability Distribution Function

Propiedades de una distribucin 2

Por grados de libertad entendemos al nmero de elementos que pueden escogerse

Autor: Abel Barrantes Herrera

Si X tiene una distribucin normal estandarizada, X 2 tiene una

tiene una distribucin 2 con n grados de libertad.

Si la poblacin es normal con media , desviacin estndar y xi

Las distribuciones Chi cuadrado son positivamente asimtricas, ( con

Autor: Abel Barrantes Herrera

Probability Distribution Function

Siendo F una razn de dos cantidades al cuadrado, F vara entre 0 e

Autor: Abel Barrantes Herrera

Podemos verificar que 2.947989 =1/0.339214

Autor: Abel Barrantes Herrera

La distribucin t es simtrica respecto del eje y

E[t] = 0 Var(t) = (n-1)/(n-3)