Sunteți pe pagina 1din 48

Instituto Politcnico Nacional

Escuela Superior de Medicina

REGRESIN LINEAL Y
CORRELACIN
Asignatura: Metodologa de la Investigacin
y Estadstica 2
Prof.a. Alma Laura Villagarca Guerra

Supongamos que dos variables, X e Y, estn


relacionadas de la manera siguiente Y = 3 + 1,5
X. Esta relacin permite calcular el valor de Y
para cualquier valor dado de X; por ejemplo, si
X=2, entonces Y= 6 y, anlogamente Y=9 si X es
igual a 4.

La ecuacin tal como Y=3+ 1,5 X permite


determinar el valor de Y asociado con cada valor
de X y describe el cambio en el valor de Y
causado por el cambio en una unidad de X.

En el ejemplo, el valor de Y aumenta en 1,5


unidades cuando el valor de X aumenta en una
unidad, por lo que se dice que las variables
estn relacionadas directamente.

En la ecuacin Y=100 - 2 X, el valor de Y


disminuye en 2 unidades cuando X aumenta en
una unidad y se dice que X e Y estn
relacionadas inversamente.

El signo del coeficiente de X en la ecuacin indica


si las variables estn relacionadas directa o
inversamente, un coeficiente positivo indica una
relacin directa y uno negativo una inversa.

ECUACIN

CLASIFICACIN

Y = 3 + 1,5 X

Primer Grado Simple

Y = 3 + 2 X + 4 X2

Segundo Grado Simple

Y = 3 + 7 X + 5 X3

Tercer Grado Simple

Y=3X+8Z

Mltiple

Se denominan simples porque expresan una


relacin slo entre dos variables: X e Y.
Una ecuacin que expresa una relacin entre
ms de dos variables se llama ecuacin simple.

Y = 3 + 1,5 X
X

4.5 6.0

7.5

9.0

10.5

Establecer una relacin cuantitativa (en la forma


de una ecuacin) entre dos variables relacionadas.

Una vez que esta relacin ha sido establecida, es


posible predecir el valor de una de las variables si
se conoce el valor de la otra.

La variable cuyo valor se predice se denomina


variable dependiente y se designa por Y, en tanto
que la conocida se denomina variable
independiente y se designa por X.

Los valores de una variable independiente X


son fijos.

La variable X no es aleatoria y no tiene error.

Para cada valor X se tiene una subpoblacin


de posibles salidas Y.

Todas las varianzas de las distintas


poblaciones Y son iguales.

1. La variable respuesta Y, tiene una


distribucin Normal en cada X.
2. La variabilidad de Y deber ser la misma a
travs de X.
3. La relacin entre X y Y deber ser lineal.

Para establecer una relacin cuantitativa


entre X y Y es necesario disponer de cierta
informacin muestral: un conjunto de pares
de observaciones de X y Y, donde cada uno
de estos pares pertenece a una unidad
elemental particular de la muestra.

En

la muestra

Y = a + bX.

En

la poblacin Y = + X.

La grfica de puntos dispersos muestra la


relacin entre edad y presin arterial
sistlica de 37 mujeres.
La presin arterial cambia con la edad.

Una

vez que se dispone de los datos


necesarios, la relacin entre las dos
variables puede ser establecida ya
sea grficamente o
matemticamente mediante el
mtodo de los mnimos cuadrados.

El objetivo es trazar una lnea, que relacione


linealmente a Y con X

Cada distancia vertical es la diferencia entre el valor


observado para la variable dependiente (en el eje y) y el valor
de la lnea trazada para el correspondiente valor del eje x.

La distancia vertical entre los valores observados y los


trazados es conocida como residual. Llamamos a cada uno de
los residuales

ei (error).

Residuales e1

La lnea que mejor ajusta los datos se le conoce como lnea


de regresin.
Proporciona una estimacin del valor promedio de Y para
cada valor de X.
Se puede pensar en la lnea de regresin como una lnea que
une los valores medios de Y para cada valor de X.

La expresin matemtica para la lnea de


regresin es la ecuacin:

y= + x
Donde:
es la interseccin de la lnea con el eje y,
es la pendiente de la lnea.

La regresin de los mnimos cuadrados da una


lnea de mejor trazo con una interseccin y una
pendiente determinada.

Una vez que se obtiene la lnea de regresin,


podemos usarla para dar un resumen de la relacin
entre la variables independiente y dependiente.

Podemos decir: Por una unidad de incremento en X, Y


se incrementa por un cierto valor (el valor de b).

y = a + bx

La pendiente b es de fundamental inters


en el anlisis de regresin.

Nos da la informacin ms importante


acerca de la relacin entre x y, esto es, el
cambio promedio en y por una unidad de
cambio en x.
Obteniendo el error estndar de b, podemos
calcular el intervalo de confianza y realizar
una prueba de hiptesis sobre b.

En un laboratorio botnico se desea determinar la relacin


lineal simple entre la altura y la edad para cierta especie de
planta, en base a una muestra de cinco plantas. Estos cinco
pares de observaciones se indican a continuacin:
Y, cm

14

10

X,
meses

El mtodo grfico para determinar la relacin


entre dos variables es ciertamente simple y
directo. Su principal inconveniente es la
naturaleza subjetiva del procedimiento.
Personas diferentes trazarn diferentes rectas
de regresin. El mtodo matemtico o de los
mnimos cuadrados da siempre la misma
ecuacin que describe mejor la relacin lineal.

Es el procedimiento matemtico utilizado para


determinar los valores numricos de las
constantes a y b en la ecuacin.

La ecuacin general Y = a + bX se llama ecuacin


de regresin en tanto que las constantes a y b se
llaman coeficientes de regresin.

Y2

X2

XY

81

27

25

49

14

14

196

25

70

10

100

16

40

x2 =
55

YX =
156

Y = 45

X = 15

Y2 =
451

Resumen de clculos:
Y = 45
X = 15
n =5

Y2 = 451
x2 = 55
YX = 156

Ecuaciones normales

Y = na + b X,
XY = a X + b X2
Sustituyendo:
45= 5a + b15,
156= 15a + b55

Resolviendo el sistema encontramos que


los coeficientes de regresin son a = 2,7
y b= 2,1 y por lo tanto la ecuacin de
regresin es Y = 2,7 + 2,1 X.

Esta ecuacin permite estimar el valor de


Y para un valor cualquiera dado de X. As
por ejemplo si X es 10 meses entonces el
valor estimado de Y ser de 23.7 cm

El valor observado se refiere a la altura efectiva de una


planta dada.

El valor estimado es la altura estimada de la planta


obtenida utilizando la ecuacin de regresin como un
medio de estimacin.

Los valores observado y estimado pueden no ser


iguales, por ejemplo, la segunda planta que tiene 1
mes tiene una altura observada de 5 cm, sin embargo,
utilizando la ecuacin de regresin Y = 2,7 + 2,1 X,
obtenemos una altura estimada de 4.8 cm (haciendo X
= 1 en la ecuacin).

Los dos valores resultan diferentes: para distinguir


entre ellos, utilizamos Y para designar la altura
observada y Ypara la altura estimada.

La ecuacin de regresin que se refiere al valor


estimado de la variable dependiente, debe escribirse:

Y= 2,7 + 2,1 X

El error estndar de estimacin, designado


por Syx, mide la disparidad promedio entre
los valores efectivo y estimado de la
variable Y.

Para determinarlo debemos calcular la


altura estimada para cada planta en la
muestra, es decir, debemos sustituir la
edad de cada planta en la ecuacin de
regresin Y=2,7 + 2,1 X

Como el error estndar de estimacin mide


la disparidad promedio entre las alturas
observada y estimada de las plantas de la
muestra, puede ser considerado como un
indicador del grado de precisin con que la
ecuacin de regresin describe la relacin
entre las dos variables.

Si Syx es pequeo los valores observado y estimado


de Y son razonablemente cercanos y la ecuacin de
regresin es una buena descripcin de la relacin.

Cuando Syx = 0, los valores observado y estimado


de Y son idnticos y la ecuacin es una descripcin
perfecta de la relacin (relacin exacta).

Un valor grande de Syx indica una gran disparidad


entre los valores observado y estimado de Y; en
este caso la ecuacin de regresin es considerada
una descripcin deficiente de la relacin entre las
dos variables.

El error estndar de estimacin se ve


afectado por los cambio de unidades de Y.
Por ese motivo no se le considera como una
buena medida del grado de relacin entre
los valores. La medida que se

emplea es el Coeficiente de
correlacin

31

rXY
ndice que mide la covarianza entre variables: en
qu medida la variacin en una variable influye
en la variacin de otra variable.
Variables cuantitativas (escala mnima de
intervalo).
Relacin EXCLUSIVAMENTE lineal.
Valores: -1 rXY +1.
Interpretacin:
+1: relacin perfecta positiva (directa). Lineal m positiva
-1: relacin perfecta negativa (inversa). Lineal m negativa
0: ausencia de relacin.

32

Correlacin perfecta positiva: rxy = +1


33

Correlacin positiva: 0 < rxy < +1


34

Correlacin perfecta negativa: rxy = -1


35

Correlacin negativa: -1 < rxy < 0


36

Ausencia de correlacin
37

XY
rXY

rXY

rXY

XY

N
S X SY

xy
x y
2

ZY

Puntuaciones directas

Puntuaciones
diferenciales

Puntuaciones
estandarizadas

38

X: 2 4 6 8 10 12 14 16 18 20
Y:1 6 8 10 12 10 12 13 10 22
1. Clculo

de rxy con puntuaciones directas.


2. Clculo de rxy con puntuaciones
diferenciales.
3. Clculo de rxy con puntuaciones tipificadas.

39

40

X
2
4
6
8
10
12
14
16
18
20
110

Y
1
6
8
10
12
10
12
13
10
22
104

XY
2
24
48
80
120
120
168
208
180
440
1390

X2
4
16
36
64
100
144
196
256
324
400
1540

Y2
1
36
64
100
144
100
144
169
100
484
1342
41

X
N

110

11
10

Sx

Y 104

10,4
N

rXY

10

XY X Y
N
S X SY

Sy

2
X

2
Y

1540
X
112 5,745
10
2

1342
Y
10,4 2 5,103
10
2

1390
11 *10,4
10
0,839
5,745 * 5,103
42

El valor obtenido como coeficiente de


correlacin muestra que las variables X e Y
estn relacionadas en realidad, o presentan
dicha relacin debido al azar?

Hiptesis nula H0: rxy = 0. El coeficiente de


correlacin obtenido procede de una poblacin
cuya correlacin es cero (XY = 0).

Hiptesis alternativa H1: rXY 0 . El

coeficiente de correlacin obtenido procede de una


poblacin cuyo coeficiente de correlacin es
0 (XY
distinto de cero
).

Frmula:

Interpretacin:

rXY
1 r
N 2
2
XY

t t ( , N 2 )

Se rechaza la Hiptesis nula. La


correlacin no procede de una poblacin cuyo
valor xy = 0. Las variables estn relacionadas.

t t ( , N 2 )

Se acepta la Hiptesis nula. La


correlacin procede de una poblacin cuyo valor
xy = 0. Las variables no estn relacionadas.

rXY
1 r
N 2
2
XY

0,839
1 0,839
10 2

t( , N 2 ) t( 0.05,8) 2,306

4,37

4,37 2,306

Conclusiones: rechazamos la hiptesis nula con un


riesgo (mximo) de equivocarnos de 0,05.
La correlacin no procede de una poblacin
caracterizada por una correlacin de cero. Ambas
variables estn relacionadas.

Correlacin no implica causalidad.

La significacin estadstica depende del


tamao de la muestra (a mayor N, ms
probable es encontrar significacin).

Otra interpretacin la da el coeficiente de


2
r
determinacin XY , en trminos de
proporcin de variabilidad de Y compartida
o explicada por X.

La proporcin de variabilidad no explicada,


aquello de Y que queda sin explicar por X,
se denomina coeficiente de no
determinacin: 1 r 2
XY

2
rXY
0,839 2 0,704

. El 70,4% de la
variabilidad de Y es explicada por X.

1 r 1 0,839 0,296
2
XY

. El 29,6% de la
variabilidad de Y queda sin explicar.

S-ar putea să vă placă și