Sunteți pe pagina 1din 9

Regresin y Correlacin

Estadstica

ANLISIS DE REGRESIN Y
CORRELACIN
Todos los das se toman decisiones personales y profesionales basadas en predicciones
de sucesos futuros. Para hacer estas predicciones, se basan en la relacin (intuitiva o
calculada) entre lo que se sabe y lo que se debe estimar. Si se puede determinar como lo
conocido se relaciona con el evento futuro, puede ayudar considerablemente al proceso
de la toma de decisiones (relacin entre variables)

Diagramas de Dispersin
Para determinar si existe relacin entre dos variables se debe examinar la grfica de los
datos observados. Esta grfica o es quema se llama diagrama de dispersin.
Un diagrama de dispersin nos puede dar dos tipos de informacin. Visualmente
podemos buscar patrones que indiquen que las variables estn relacionadas. Entonces, si
esto sucede, podemos ver que tipo de lnea o ecuacin de estimacin, describe esta
relacin.

Regresin
Es un mtodo estadstico que investiga y define la relacin funcional entre dos ms
variables
Y = f (x)
La Regresin y los anlisis de correlacin se basan en la relacin o asociacin, entre dos
o ms variables. La(s) variable(s) conocida(s) se llaman variables independientes. La
variable que trataremos de predecir es la variable independiente. Solo podemos tener
una variable dependiente en nuestra ecuacin de estimacin. Sin embargo, podemos
usar ms de una variable independiente. A menudo cuando aadimos variables
independientes, mejoramos la exactitud de nuestra prediccin

AJUSTE DE UNA FUNCIN DE REGRESIN.


Ajustar una funcin de regresin significa buscar o definir la funcin que exprese con
mayor precisin la relacin entre variables. Grficamente ser aquella funcin que
mejor se adecue a la nube de puntos. En este sentido, es recomendable como primer
paso construir el diagrama o nube de puntos, luego analizar su forma y deducir el tipo
de funcin matemtica para la lnea de regresin.
Cada una de estas funciones tiene una forma particular para un conjunto determinado de
En el ajuste de funciones de regresin simple, se pueden utilizar diversas funciones
matemticas conocidas, tales como:
a) Lnea recta
b) Parbola cuadrada
c) Parbola cbica
d) Curva potencial o geomtrica
e) Curva potencial modificada

Y=
Y=
Y=
Y=
Y=

a + bx
a + bx + cx2
a + bx + cx2 + dx3
a
bx
a
k+bx

Dr. Ing. Luis Manrique Surez

Regresin y Correlacin

Estadstica
x

g) Curva exponencial modificada

Y= ab
x
Y= k+ab

h) Hiprbola

Y=

i) Hiprbola equiltera

Y=

f) Curva exponencial

j) Hiprbola modificada
k) Curva logstica

l) Curva logstica modificada N 1

m) Curva logstica modificada N 2

a
x

k
a bx
1
Y =
a bcx
Y=

k
Y=
1 10a bx
1
Y=
x
k ab

Y=

n) Curva Gompertz

1
a bx

c
ab

EL MTODO DE LOS MNIMOS CUADRADOS


Uno de los criterios para lograr esta minimizacin es el mtodo de los mnimos
cuadrados, que establece que la mejor curva posible es aquella que minimiza la suma
de los cuadrados de las desviaciones entre los puntos dados Y y los puntos
correspondientes a dicha curva Y*
d1 = Y1 - Y*
d2 = Y2 - Y*
...
...
dk = Yk - Y*
mn. d = mn. (Yi - Y*)
La mejor curva de ajuste, de todas las curvas es aquella que tiene la propiedad de que:
2
2
2
2
Sea mnimo

d1 d2 d3 ... dk
2
Mn. d = mn. (Yi
i

- Y*)2

Y*
d1
dk

Dr. Ing. Luis Manrique Surez

Regresin y Correlacin

Estadstica

LA RECTA
MTODOS DE LOS MNIMOS CUADRADOS
Y=A+ B X

LNEA DE REGRESIN
ECUACIONES NORMALES

+ B X
Y =AN
(2) XY = A X + B X 2
(1)

Donde:

N XY X Y
N X

X Y X Y

A=

N X X

Y B X
N

MTODO ABREVIADO
Sea:
y=Y- Y Y=y+ Y
x=X- X X=x+ X
Reemplazando en las frmulas de A y de B se obtienen:

B=

xy
2
x

y=Bx

Y - Y = B (X - X )

COEFICIENTE DE CORRELACIN

R=

2
S *
y
2
Sy

2
S * : Varianza explicada (parte de la
y
varianza total de Y explicada por la
lnea de regresin )

2
Sy :

Varianza total ( corresponde a

los valores observados de Y )

Dr. Ing. Luis Manrique Surez

Regresin y Correlacin
Varianza total

Estadstica

Sy

y * y

S *
y

y-y

2
2

Syx

y*y

Remplazando:

+ Varianza no explicada

yy

Varianza explicada

Desarrollando se obtiene

y y*

R2

R2

ay bxy n y

y2 n y

= 1-

2
Syx
2
Sy

La frmula producto momento de Pearson (simetra entre X e Y)

nxy xy

n x 2 x 2 n y2 y
Si se utilizan

x = X- X

R=

y=Y- Y

xy
2
x2 y

PROPIEDADES
1.- El rango de variacin de r es de 1 a +1
-1 R 1
2.-Si R > 0, existe correlacin directa o positiva
3.-Si R < 0, existe correlacin inversa o negativa
4.-Si R2 = 0, los datos son incorrelacionables; es decir, que no hay afinidad entre
variables

Dr. Ing. Luis Manrique Surez

Regresin y Correlacin

Estadstica

(2)

(3)

(4)

5.-Si R2 = 1, los datos forman una lnea recta (correlacin rectilnea)


6.-Si R = + 1, la correlaciones perfecta positiva
7.-Si R = - 1, la correlacin es perfecta negativa

(5)

(6)

(7)

8.-El signo de R es el mismo que el signo de b (coeficiente angular) de la ecuacin


de regresin y = a + b x
NOTA:
En la interpretacin clsica del coeficiente de correlacin se sostiene que si:
0 R 0.20 , existe correlacin no significativa
0.20 R 0.40 , existe una correlacin baja
0.40 R 0.70 , existe una significativa correlacin
0.70 R 1.00 , existe alto grado de correlacin.
Sin embargo estos valores resultan arbitrarios, puesto que depender de la naturaleza del
problema que se investiga.

COEFICIENTE DE DETERMINACIN: R2, r2,


Es la proporcin de la variacin total en la variable dependiente que
la explica la variable independiente. Puede tomar cualquier valor
entre 0 y 1, inclusive. Un coeficiente de 0.82 indica que el 82 % de
la variacin en y se debe a x.
ERROR ESTNDAR DE ESTIMACIN: SYX
Llamado tambin desviacin estndar de regresin, es una medida de esparcimiento,
que mide la variabilidad o dispersin de los valores alrededor de una lnea de regresin,
que sirve para medir la confiabilidad de la ecuacin de estimacin.
Para la recta de regresin Y* = a + b x el ERROR ESTNDAR DE ESTIMACIN
de Y sobre X ser:

SYX =

y y *
n

Dr. Ing. Luis Manrique Surez

Regresin y Correlacin

Estadstica

Calcular el error estndar S a partir de la definicin resulta muy laboriosa, puesto que se
requiere conocer los valores estimados Y*. Existe una frmula alternativa a partir de la
definicin, donde se sustituyen el valor Y* = a + b X

SYX =

y a bx
n

Desarrollando:
2

y a y b xy
n

SYX =
2

S YX

(1)

= se denomina varianza residual de Y sobre X

Algunos autores utilizan como denominador: n-1, n-2,


El error estndar de estimacin o de regresin cumple las mismas propiedades de la
desviacin estndar, la diferencia est en que el error estndar de regresin mide la
dispersin de los valores alrededor de la lnea de regresin y la desviacin estndar
alrededor de la media aritmtica. Ahora, suponiendo que Y se distribuye normalmente,
al construir las rectas paralelas a ambos lados de la lnea de regresin a una distancia
proporcional a S se definen franjas o intervalos.
En los intervalos:
Y* SYX , se encuentra el 68.3 % de los valores reales Y
Y* 2 SYX, se encuentra el 95.5 % de los valores reales Y
Y* 3 SYX, se encuentra el 99.7 % de los valores reales Y
Para un intervalo de confianza del 95 % aproximadamente, se toma como LMITES DE
CONTROL (LC) a:
LC = Y* z SYX
Z 2

LC = Y* 2 SYX

LIC: Lmite Inferior de Control LIC = Y* - z SYX


LSC: Lmite Superior de Control LSC = Y* + z SYX
MTODO ABREVIADO
Si en la frmula (1) se remplaza:
x = X- X

X = x +

y=Y- Y Y =y + Y

se obtiene:

Dr. Ing. Luis Manrique Surez

Regresin y Correlacin

Estadstica

2
S yx =

y b xy
n

LA FUNCIN POTENCIAL
La curva de regresin potencial se construye a partir de la funcin potencial, cuya
ecuacin es:

Y = b Xa
Si utilizamos logaritmos, esta funcin se asemeja
a la funcin lineal
Log Y* = Log b +

Los parmetros sern: Log b y


ECUACIONES NORMALES:

Log x

Log Y =
n Log b
+ a Log X
Log X Log Y = Log b lg. X + a (Log X) 2
Despejando para calcular a

Log b

a=

Log b =

Log.y a Log.x
n Logx.Logy Logx. Logy
n
2
2
nERROR
Log.xESTNDAR
Log.x

DE ESTIMACIN
2 = Log.y Log.y * 2
Syx
n

Resolviendo y aplicando propiedades:

Syx

lg. Y* = Log b +

Log x

Log.y Log.b. Log.y a Log.x.Log. y


n
2

Dr. Ing. Luis Manrique Surez

Regresin y Correlacin

Estadstica

Coeficiente de correlacin: R

R2 =

a Logx.Logy Log.b. Log.y n Logy

Logy n Logy
2

FUNCIN EXPONENCIAL
La curva de regresin exponencial se determina a partir de la funcin exponencial de la
forma:

Y= abX
Con los parmetros a y b
Esta funcin se utiliza cuando se quiere calcular
tasas de crecimiento, considerando todos los
puntos observados durante un periodo,
aqu se supone que existe un crecimiento no lineal
de tipo geomtrico
Observamos adems que la ecuacin

Y= abX
De la misma manera que la funcin potencial, aplicamos logaritmos para transformar la
funcin exponencial original en forma logartmica:

Log Y* = Log a + X Log b

parmetros: Log a y Log b

ECUACIONES NORMALES

Log Y =
X lg. Y =

n Log a
+ Log b
Log a X + Log b

Log b =

n xLogy x Logy
2
2
n

x de Estimacin: S2
Error Estndar

X
X2

Log a =

Logy Logb x
n

yx

Syx =

Logy Loga Logy Logb xLogy


n
2

Dr. Ing. Luis Manrique Surez

Regresin y Correlacin

Estadstica

Coeficiente de Correlacin: r

R2 =

Logb xLogy Loga Logy n Logy

Logy n Logy
2

Dr. Ing. Luis Manrique Surez

S-ar putea să vă placă și