Sunteți pe pagina 1din 70

ANLISIS DE CORRELACIN

Y REGRESIN LINEAL
SIMPLE
APLICACIONES
Dr. Christian Acosta Villegas
cacostav@usmp.pe
Bioestadstica 2015
Martes 26 de mayo del 2015

TEMAS A TRATAR
Diagrama de dispersin
Correlacin
Coeficiente de correlacin de Pearson (r)

Regresin
Ecuacin de regresin lineal

Coeficiente de Determinacin (R)

Datos Cuantitativos
Distribucin
Normal

Distribucin
Anormal (NON)

Datos Cualitativos
(Dicotmica o
Politmica)

Comparar 2 grupos
- T No pareada
(variable independiente: - T pareada
dicotmica)

- MannWhitney
- Wilcoxon

- Chi-cuadrado
- Exacta de Fisher

Comparar 3 o ms
grupos (variable
independente:
politmica)

- ANOVA

- Kruskal Wallis
- Friedman

- Chi-cuadrado
- Exacta de Fisher

Asociacin entre 2
variables (variable
independiente:
continua)

- Correlacin de
Pearson

- Correlacin
de Spearman

Asociacin entre 3 o
ms (variable
independiente:
continua)

- Regresin
lineal mltiple

- Regresin
logstica mltiple

Datos Cuantitativos
Distribucin
Normal

Distribucin
Anormal (NON)

Datos Cualitativos
(Dicotmica o
Politmica)

Comparar 2 grupos
- T No pareada
(variable independiente: - T pareada
dicotmica)

- MannWhitney
- Wilcoxon

- Chi-cuadrado
- Exacta de Fisher

Comparar 3 o ms
grupos (variable
independente:
politmica)

- ANOVA

- Kruskal Wallis
- Friedman

- Chi-cuadrado
- Exacta de Fisher

Asociacin entre 2
variables (variable
independiente:
continua)

- Correlacin de
Pearson

- Correlacin
de Spearman

Asociacin entre 3 o
ms (variable
independiente:
continua)

- Regresin
lineal mltiple

- Regresin
logstica mltiple

ACLARACIONES
Las pruebas que han aprendido hasta ahora sirven
para comprar dos o ms grupos entre ellos. En
estos casos se ha tratado de determinar si existe o
no una asociacin entre el grupo al cual se
pertenece y la variable de interes.
Pero tambin: muchas veces vamos a estar
interesados en evaluar si es que existe una
asociacin entre dos variables continuas.
Ejemplo clsico: el peso de una persona est
relacionado con su talla?

DIAGRAMA DE
DISPERSIN

EJEMPLO

La medicin ms comn del volumen del cerebro es


la Fraccin Parenquimal Cerebral (FPC).

EJEMPLO

(A)Paciente varn de 31 aos de edad. FPC: 0.87.


(B)Paciente mujer de 36 aos de edad con EM con
reacada-remisin. Tiempo de enfermedad de 2
aos. FPC: 0.85.
(C)Paciete mujer de 43 aos de edad con EM
progresiva secundaria. TE: 19 aos. FPC: 0.71.

EJEMPLO
Se tienen datos de 30 pacientes sanos a quienes se
les realiz resonancias magnticas, obteniendo de
esta manera las fracciones del parnquima cerebral
de cada uno de ellos. Se cuenta tambin entre los
datos obtenidos la edad de los 30 pacientes.
Edad
FPC

39 48 52 56 51 54 38 29 20 ...X30
0.81 0.77 0.78 0.73 0.79 0.75 0.80 0.98 0.85 ...Y30

Qu se debe hacer?

EJEMPLO

Edad
FPC

39 48 52 56 51 54 38 29 20 ...X30
0.81 0.77 0.78 0.73 0.79 0.75 0.80 0.98 0.85 ...Y30

EJEMPLO
Existe un patrn de lnea
recta o asociacin?
El patrn o asociacin
va hacia arriba o cuesta
abajo?
Estn los valores muy
agrupados en el patrn o
muy separados?
Existen
desviaciones
notorias en el patrn?

EJEMPLO
Se observa alguna
relacin entre ambas
variables? (asociacin)
A la edad de 40 aos,
cul ser el FPC?
(prediccin)

CORRELACIN

CORRELACIN
Definicin: el grado en el cual dos variables
continuas estn relacionadas de manera
linear, y la medicin de intesidad de dicha
relacin.
Correlacin Positiva mientras una variable
aumenta, la otra variable tambin aumenta
(Pendiente positiva)
Correlacin Negativa mientras una variable
aumenta, la otra disminuye (Pendiente negativa)

NoNegative
correlation
(quadratic)
correlation
Positive
correlation
No correlation
18
12
12
10
16
9
10
10
14
8
12
887
6
10
665
8
4
4
46
3
4
222
2
1
000
000

22
22

44
4

6
66

8
6 88

10
810
10

12
12
10
12

CORRELACIN
Hay dos medidas que se usan para describir la
correlacin:
El coeficiente de correlacin:
(parametro).
El coeficiente de determinacin.

(estadstico)

Rangos de la Correlacin (r) van desde


-1
(correlacin negativa perfecta) hasta +1 (correlacin
positiva perfecta)
Una correlacin de 0 significa que no hay una
relacin linear entre las dos variables
Una
correlacin
perfecta
quiere
decir
que
conociendo una variable podemos conocer de
manera perfecta la otra variable

Por ejemplo, si se quiere conocer la relacin entre


los datos de talla y peso de 30 individuos que se
presentan a continuacin:
Talla
(cm)
Peso
(kg)

162

154

180

158

171

169

166

176

163

...X30

61

60

78

62

60

60

54

84

68

...Y30

Los datos pueden ser representados en un diagrama


de dispersin, en el cual cada individuo es un punto
que se ubica en el espacio segn los valores de sus
variables talla (X) y peso (Y).
100
90

PESO

80
70

60
50
40
30
140

150

160

170

TALLA

180

190

200

Con este diagrama se puede suponer, por


observacin, que existe una relacin directa
entre ambas variables. Sin embargo, se
requiere de un anlisis de correlacin para
comprobar y validar la suposicin.

CORRELACIN DE PEARSON
El coeficiente de correlacin lineal de Pearson indica
si los puntos en el diagrama tienen una tendencia a
disponerse alineadamente (relacin lineal).
Siendo este el caso, indica tambin el grado de
relacin y el sentido (relacin directa o inversa). Este
coeficiente se halla con la siguiente frmula:

Talla (cm)

162

154

180

158

171

169

166

176

163

...X30

Peso (kg)

61

60

78

62

60

60

54

84

68

...Y30

Cuando se aplica a un conjunto de datos es


recomendable ordenar la informacin de la
siguiente forma e incluyendo los siguientes clculos:
# de
observacin
1
2
...n
TOTAL

Talla (cm) Peso (kg)


162
154
Xn

61
60
Yn

X2

Y2

XY

26244
23716
Xn2

3721
3600
Yn2

9882
9240
(Xn )(Yn)

X2

Y2

XY

De esta forma, se obtienen ordenadamente los


datos que se requieren para hallar el coeficiente de
correlacin de Pearson (r).

INTERPRETACIN DEL
COEFICIENTE DE CORRELACIN
El valor del coeficiente de correlacin (r) va a indicar
el sentido y la intensidad de la relacin entre
variables (X e Y).

A) SENTIDO

RELACIN DIRECTA
El valor del coeficiente r es positivo, se cumple que:
A los valores de X mayores que la media le corresponden
valores de Y tambin mayores que la media.
A los valores de X menores que la media le corresponden
valores de Y tambin menores que la media.

RELACIN INVERSA
El valor del coeficiente r es negativo, se cumple que:
A los valores de X mayores que la media le corresponden
valores de Y menores que la media.
A los valores de X menores que la media le corresponden
valores de Y mayores que la media.

B) INTENSIDAD

CORRELACIN POSITIVA PERFECTA

r= +1

CORRELACIN POSITIVA INTENSA

0.5 < r < 1

CORRELACIN POSITIVA MODERADA

r = 0.5
CORRELACIN POSITIVA DBIL

0 < r < 0.5

CORRELACIN NEGATIVA PERFECTA

r= -1

CORRELACIN NEGATIVA INTENSA

r= -1 < r < -0.5

CORRELACIN NEGATIVA MODERADA

r= -0.5

CORRELACIN NEGATIVA DBIL

r= -0.5 < r < 0


r = -0.4

Coeficiente de Correlacin de Pearson

Fuerte
Negativa
-1 -0,9
Perfecta
Negativa

Moderada
Negativa
-0,5

Dbil
Negativa

Dbil
Positiva
0

No existe
correlacin

Moderada
Positiva
0,5

Fuerte
Positiva
0,9

1
Perfecta
Positiva

INCORRELACIN
En el caso de que el coeficiente de correlacin sea
cero (r=0) NO EXISTE RELACIN ENTRE
VARIABLES.
Es decir, para valores de X por encima de la media
se tienen valores de Y por encima y por debajo en
proporciones similares.

PROPIEDADES DEL
COEFICIENTE DE RELACIN
Es adimensional
Slo toma valores en [-1,1]
Si r=0 las variables son incorrelacionadas
Relacin lineal perfecta entre dos variables r=+1
o r=-1.
Cuanto ms cerca est r de +1 o -1 mejor ser el
grado de relacin lineal.

SIGNIFICANCIA ESTADSTICA:
PRUEBA DE HIPTESIS
El valor del coeficiente de correlacin (r) determina si existe
una relacin lineal entre las variables, sin embargo, no indica
si esta relacin es estadsticamente significativa .
Para ello se aplica la prueba de hiptesis del parmetro r
(rho).
La hiptesis nula (H o ) establece que no existe una relacin, es
decir, que el coeficiente de correlacin ( r) es igual a 0.
La hiptesis alterna (H 1 ) propone que s existe una relacin
significativa por lo que r debe ser diferente a 0.
H o: r = 0
H 1: r 0
Bilateral

ESTADSTICO DE PRUEBA
El estadstico de prueba que revela si la hiptesis
nula (H o ) es o no verdadera es el siguiente: (ver tabla
T)

EJEMPLO
Se tienen 2 mtodos distintos para la medicin de la
presin sistlica de 25 pacientes con hipertensin.
Se puede establecer que existe una relacin lineal
significativa entre ambos mtodos?
Paciente
1
2
3
4
...25
TOTAL

Mtodo I
132
138
144
146
220
4440

Mtodo II
130
134
132
140
202
4172

X2
17424
19044
20736
21316
48400
808408

Y2
16900
17956
17424
19600
40804
710952

XY
17160
18492
19008
20440
44440
757276

X2

Y2

XY

4440

4172

808408

710952

757276

EJEMPLO
Primero se debe hallar el coeficiente de correlacin
de Peason (r)

X2

Y2

XY

4440

4172

808408

710952

757276

r= 0.95
El coeficiente de correlacin indica una relacin
lineal directa intensa

EJEMPLO
Teniendo un r= 0.95, se procede a plantear la prueba
de hiptesis del parmetro r:
H o: r = 0
H 1: r 0
El nivel de significancia no se indica, por lo tanto se
considera que es 0.05.

DECISIN Y CONCLUSIN
Para determinar si se rechaza o no la hiptesis nula (H o ), se
compara el valor de t c con el valor hallado en la tabla (t n-2 )
segn el nivel de significancia y el grado de libertad.

tt = t n-2 t23 = 2.069

tc = 14.59

vs.

tt = 2.069

Debido a que el valor de t c es mayor al valor hallado en la


tabla (t 23 ), se debe rechazar la hiptesis nula (H o ).

Interpretacin: Hay evidencia de que existe una alta


correlacin lineal positiva entre la respuesta al tratamiento
medida con ambos mtodos para medir la presin sangunea,
con un nivel de significacin de 0.05.

REGRESIN

REGRESIN
El anlisis de regresin es til para averiguar la
forma probable de las relaciones entre las variables,
y el objetivo final, cuando se emplea este mtodo de
anlisis, es predecir o estimar el valor de una
variable que corresponde al valor dado de otra
variable.

VARIABLES X E Y
X= variable independiente, bajo el control del
investigador.
Los valores de X son seleccionados previamente por el
investigador, de modo que en la recoleccin de datos estos no
pueden variar.

Y= variable dependiente.
Se habla de regresin de Y sobre X.

ECUACIN DE REGRESIN
Lo que el investigador desea es encontrar una lnea que
pueda predecir lo que le sucede a Y con cada cambio de X.
Esta ecuacin describe la relacin real entre las variables X e
Y.
Como es una relacin lineal, dicha ecuacin ser la ecuacin
de una recta:

Y= a +bX
La informacin tiene que ser presentada con un diagrama
de dispersin.

OBJETIVO DEL ANLISIS DE


REGRESIN
Estudio de la relacin funcional entre dos variables.

Establecer una relacin cuantitativa entre dos o ms


variables relacionadas.
Se trata de PREDECIR y/o EXPLICAR el valor de una
variable (v. Dependiente), dado el valor de otra(s)
variable(s) relacionada(s) (v. Independiente(s)).
Las variables X e Y deben ser de naturaleza
cuantitativa y de preferencia continua.

REGRESIN LINEAL SIMPLE


Es una tcnica estadstica que permite determinar la
mejor ecuacin que represente la relacin entre dos
variables relacionadas.

REGRESIN LINEAL SIMPLE


Para poder hallar la relacin cuantitativa entre las variables,
mediante la regresin lineal, se debe ajustar una lnea entre
los puntos observados.
Luego, ser posible usar la lnea para predecir el valor de Y
(variable dependiente) a partir de un valor conocido de X (la
variable independiente).
En toda regresin lineal:
Para cada valor de X hay una subpoblacin de valores Y.
Cada subpoblacin de los valores de Y tiene distribucin
normal.

ECUACIONES LINEALES
SIMPLES
En una ecuacin como Y = 30 + 3X, el valor de Y depende del
valor que toma X, por eso a Y se le llama variable dependiente,
y a X se le llama variable independiente.

Y = a + b X
Variable
Dependiente

Variable
Independiente

Todos los puntos no


estn exactamente
sobre una lnea recta

Y
o
o

o
o

X
La ecuacin general Y = a + bX se llama ecuacin de regresin y
permite estimar o predecir los valores de Y.

ECUACIONES LINEALES
SIMPLES
Si se tienen dos variables, como X e Y, que estn
relacionadas, se puede expresar de la siguiente manera:
Y = 3 + 1,5X ( Y= a +bX )
Al conocer la ecuacin se puede:
a) Calcular el valor de Y para cualquier valor dado de X.
b) Conocer el cambio en Y, cuando X vara en 1.

Por ejemplo: Y = 3 + 1,5X


Valor
dado de X
1
2
3
4
5

Valor
calculado de Y
4,5
6,0
7,5
9,0
10,5

Cambio
de Y
1,5
1,5
1,5
1,5

GRFICA DE LA ECUACIN
Ejemplo: Y = 3 + 1,5X
X
Y

1
4 ,5

2
6 ,0

3
7 ,5

4
9 ,0

5
1 0 ,5

Los cinco pares de valores se diagraman de


Y
la forma siguiente.
12
11
10
9
8
7
6
5
4
3
2
1

.
.
.
.
.

(5,10.5)

(4,9)

(3,7.5)

(2,6)

(1,4.5)

ECUACIONES LINEALES
SIMPLES
El aumento en Y, cuando X vara en una unidad , est
dado por el coeficiente de X .
Ejemplo:
En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8

TIPOS DE RELACIONES
Cuando cambios en X provoca cambios en Y en igual
sentido (aumentos o disminuciones), las variables
estn directamente relacionadas. Se observa el
signo +.
Y
o

Ejemplo:

o
o

o
o

o
o

Y = 30 + 5X
X

TIPOS DE RELACIONES
Cuando cambios en X, provoca variaciones en Y en
sentido inverso (X aumenta, Y disminuye o
viceversa),
las
variables
estn
inversamente
relacionadas. Se observa en la ecuacin el signo -.
Ejemplo:

Y
o
o

Y = 20 - 3X

o
o

o
o
o

FORMA GENERAL
La ecuacin simple de primer grado tiene la siguiente forma
general
Y= a + bX
Donde:
b: pendiente, o sea, el cambio en Y cuando X = 1 .
a: el valor autnomo intercepto, es decir, Y = a cuando X =
0. En la grfica es la interseccin con el eje Y.
Ejemplo:
Y = 3 + 1 .5X

b0 = 3

PASOS
Los valores constantes de la ecuacin son a y b.
El primer paso para determinar la ecuacin es hallar la
pendiente b con la frmula:

Conociendo b es posible hallar el valor del intercepto a con


la ecuacin:

Sin embargo, an con la ecuacin, como todos los puntos no


estn exactamente sobre una lnea recta, se cometen errores
en el ajuste.

PASOS
Debido a la complejidad de la frmula para hallar b y
a, es recomendable ordenar los datos observados y
los respectivos clculos en un cuadro igual al
propuesto en el anlisis de correlacin:
# de
observacin
1

X2

Y2

XY

X1

Y1

X12

Y12

(X1 )(Y1)

X2

Y2

X22

Y22

(X2 )(Y2)

...n

Xn

Yn

Xn2

Yn2

(Xn )(Yn)

TOTAL

X2

Y2

XY

EJEMPLO
Una compaa farmacutica conduce un estudio
piloto para evaluar la relacin entre tres dosis en un
nuevo agente hipntico y tiempo de sueo. Los
resultados de este estudio son presentados de la
siguiente manera.
Tiempo
de sueo
(horas)
Dosis
(mM/ kg)

13

11

10

10

10

15

15

15

SOLUCIN
El diagrama de dispersin que se construye a partir de estos
datos es el siguiente:
Dosis (mM/ kg)
16
14
12
10
8
6
4
2
0

10

12

14

EJEMPLO
Segn el diagrama de dispersin, se espera una relacin
positiva o directa entre ambas variables. Se puede aplicar el
modelo de regresin para ajustar los puntos y establecer una
relacin lineal que permita conocer la relacin cuantitativa
entre ambas variables.
Modelo de regresin y = a + b x

Sujeto

Dosis

1
2
3
4
5
6
7
8
9
TOTAL

3
3
3
10
10
10
15
15
15
84

Tiempo
de
sueo
4
6
5
9
8
7
13
11
9
72

X2

Y2

XY

9
9
9
100
100
100
225
225
225
1002

16
36
25
81
64
49
169
121
81
642

12
18
15
90
80
70
195
165
135
780

Esta organizacin de los datos facilita la estimacin


de la recta de regresin, debido a que proporciona
todos los datos requeridos para hallar b y a.

X2

Y2

XY

84

72

1002

642

780

Conociendo los valores de b y a, se tiene el modelo de


regresin estimado que sera:
Y = 3.33 + 0.5X
Interpretacin:
Por cada incremento de dosis del agente hipntico, el tiempo de sueo
promedio aumenta en 0.5 puntos.

COEFICIENTE DE
DETERMINACIN

COEFICIENTE DE
DETERMINACIN
Es una medicin que nos permite determinar la certeza de las
predicciones hechas usando la recta de regresion.
Mide la proporcin de la variabilidad en la variable
dependiente que es explicada por el modelo de la recta de
regression a traves de la variable independiente.
Es obtenido al elevar al cuadrado el valor del Coeficiente de
correlacin de Pearson.

R2

( r )2

COEFICIENTE DE
DETERMINACIN
Tener en cuenta que: 0 R 2 1.
Donde:
Valores de R 2 cercanos a 1 implicaran que el modelo explica
la mayor parte de la variacin en la variable dependiente y que
podra ser un modelo muy til.
Valores de R 2 cercanos a 0 implicaran que el modelo explica
poco sobre la variacin de la variable dependiente y que no
podra ser un modelo til.

Cuanto mayor sea R 2 , ms cerca estn todos los


puntos a la recta.

EJEMPLO
Si: r = 0.95,
Determinacin?

cul

sera

el

Coeficiente

de

R 2 = 0.9025
Interpretacin: 90% de las variaciones Y, pueden
explicarse por X.

CORRELACIN NO IMPLICA
CAUSALIDAD

RESUMEN DE LA CLASE
Diagrama de Dispersin. Utilidad e interpretacin.
Correlacin.
Coeficiente de correlacin de Pearson. Como calcularlo.
Interpretacin de Sentido e Intensidad.

Regresin.
Ecuacin de regresin lineal. Como calcular la pendiente y el
intercepto. Interpretacin.

Coeficiente de Determinacin.
Como calcularlo. Interpretacin.

Aqu es donde nuestros caminos se bifurcanpor ahora


GRACIAS POR SU ATENCIN!
XITOS EN SUS CARRERAS!