Sunteți pe pagina 1din 25

CORRELACION R DE PEARSON

Relaciones entre variables y regresin

El trmino regresin fue introducido por Galton (1889)


refirindose a la ley de la regresin universal:
Cada peculiaridad en un hombre es compartida por
sus descendientes, pero en media, en un grado
menor.

Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos
fsicos de los descendientes (una variable) a partir de
los de sus padres (otra variable).

Francis Galton

Pearson realiz un estudio con ms de 1000 registros


de grupos familiares observando una relacin del tipo:

Altura del hijo = 85cm + 0,5 altura del padre


(aprox.)

Conclusin: los padres muy altos tienen


tendencia a tener hijos que heredan parte de esta
altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse de
los padres muy bajos.

Karl Pearson

Regresin

Describir la relacin entre dos variables numricas


El anlisis de regresin sirve para predecir una medida en funcin
de otra medida (o varias).
Y = Variable dependiente
predicha
explicada
X = Variable independiente
predictora
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X
3

Diagramas de dispersin , nube de puntos o Scaterplot


Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.
Variable dependiente

y (peso)

100
90
Pesa 76 kg.

80

Mide 187 cm.

70
60
Pesa 50 kg.

50
Mide 161 cm.

40
30
140

150

160

170

180

190

Variable independiente

200
4

x (altura)

Relacin directa e inversa


100

330
280

No hay relacion

90
80

Fuerte relacin
directa.

230

70
180

60

130

50

80

40

30
140

30
150

160

170

180

190

200

140

150

160

170

180

190

200

Para valores de X por encima de la


media tenemos valores de Y por
encima y por debajo en proporciones
similares.

Para los valores de X mayores que la media


le corresponden valores de Y mayores
tambin.

80

Para los valores de X menores que la media


le corresponden valores de Y menores
tambin. : relacin directa.

Cierta relacin
inversa

70
60
50
40
30
20
10
0
140

150

160

170

180

190

200

Para los valores de X mayores que la


media le corresponden valores de Y
menores. Esto es relacin inversa o
decreciente.
5

AJUSTE DE LA REGRESION LINEAL SIMPLE MEDIANTE EL


MTODO DE MNIMOS CUADRADOS

Finalidad
Estimar los valores de y (variable
dependiente) a partir de los valores
de x (variable independiente)

Expresin de la Recta?

y a bx
a
Ordenada en
el origen
(intercepto)

Ajuste de una funcin de regresin al mtodo de los


mnimos cuadrados

y a bx

i 1

i 1

yi
n

n
i 1

i 1

i 1
2

2
xi

xi xi yi

xi2

n
xi
i 1

i 1

i 1

i 1

n xi yi xi yi
n

n
i 1

xi2

xi
i 1
n

Ejemplo
Se desea hallar la relacin lineal simple de un test de inteligencia y el
rendimiento acadmico obtenidos en los estudios del nivel secundario a los
estudiantes del primer ao de la universidad y para ello se ha aplicado a 12
estudiantes el instrumento y es como sigue:

Estudiante

10

11

12

Promedio del
nivel
secundario.

13

15

15

19

12

17

15

17

14

14

19

14

Puntaje
logrado del
116
test
de
inteligencia

112

110 120 103 120 113 114 106 108 128 109

Desarrollo
n

yi

xi

116

13

112

15

110

15

120

19

103

12

120

17

113

15

114

17

106

14

10

108

14

11

128

19

12

109

14

Total

1359

184

yi

xi

xiyi

xi y i

xi2

xi2

yi2

yi2

i 1

i 1

yi
n

n
i 1

xi2
xi2

i 1

i 1
2

xi xi yi
n
xi
i 1

i 1

i 1

i 1
2

n xi yi xi yi
n

n
i 1

xi2

n
xi
i 1

(1359)(2876) (184)(20981)
12(2876) 184

....(.........) (......)(.......)
...(.......) ..........

y a bx
10

Desarrollo
n

yi

xi

xiyi

xi2

yi2

116

13

1508

169

13456

112

15

1680

225

12544

110

15

1650

225

12100

120

19

2280

361

14400

103

12

1236

144

10609

120

17

2040

289

14400

113

15

1695

225

12769

114

17

1938

289

12996

106

14

1484

196

11236

10

108

14

1512

196

11664

11

128

19

2432

361

16384

12

109

14

1526

196

11881

Total

1359

184

20981

2876

154439

yi

xi

xi y i

xi2

yi2

i 1

i 1

yi
n

n
i 1

i 1

i 1
2

xi2

xi xi yi

xi2

n
xi
i 1

i 1

i 1

i 1

n xi yi xi yi

n xi2 xi
i 1
i 1
n

(1359)(2876) (184)(20981)

73.14
2
12(2876) 184

12(20981) (184)(1359)

2.62
2
12(2876) 184

y a bx 73.14 2.62 x
12

AJUSTE DE LA REGRESION LINEAL SIMPLE MEDIANTE EL


MTODO DE MNIMOS CUADRADOS

y 73.14 2.62 x
y

a
Ordenada en
el origen
(intercepto)

Si x 12 y 73.14 2.62(12) 104.58

Si x 13 y 73.14 2.62(13) 107.2


x

13

Coef. de correlacin lineal de Pearson

El coeficiente de correlacin es una medida de asociacin entre dos


variables y se simboliza con la literal r.
Finalidad
Medir la intensidad de la asociacin lineal entre dos variables aleatorias

Coeficiente de correlacin
Muestra:
rxy

n xi yi xi yi

[n xi2 xi ][n yi2 yi ]


2

Coeficiente de determinacin

r2

Proporcin de varianza compartida por las


dos variables

14

Interpretacin de las expresiones de la frmula:


rxy

n xi yi xi yi

[n xi2 xi ][n yi2 yi ]


2

Donde:
r = coeficiente de correlacin de Pearson.
xi yi= sumatoria de los productos de ambas variables.
xi = sumatoria de los valores de la variable independiente.
yi = sumatoria de los valores de la variable dependiente.
x2 i= sumatoria de los valores al cuadrado de la variable independiente.
y2 i= sumatoria de los valores al cuadrado de la variable dependiente.
n = tamao de la muestra en funcin de parejas.

15

Propiedades de r

Es adimensional
Slo toma valores entre -1y +1
Las variables NO estn correlacionadas r=0
Relacin lineal perfecta entre dos variables r = +1 o r=-1
Excluimos los casos de puntos alineados horiz. o
verticalmente.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin
lineal.
Siempre que no existan observaciones anmalas.
Relacin
inversa
perfecta

-1

Variables
NO correlacionadas

Relacin
directa
casi
perfecta

+1

16

Si r 0

Si r < 0
Correlacin
perfecta
-1.0

-0.08

Correlacin
muy buena

-0.06

-0.04

Correlacin Correlacin
buena
moderada

-0.02

Correlacin
baja

Sin
Correlacin
0.0

Correlacin
mnima

10 = 0.134
20 X + 2.122
30
Y

40

50

60
70
80
90negativa
Correlacin
0
2
Y =4 X

8X

10

12

10

12

14

16

0
2

2
4

4
6

6
Y

10

10
12

-1 r 0

14

12

r=-1

14

16

16

Correlacin positiva
16

Y=X

Y = 0.134 X + 2.122

16

0 r +1

14
12

14

r=+1

12
10

10
8

8
6

0
0

10

20

30

40

50
X

60

70

80

90

18 14

16

Y = 0.093 X + 4.335

16
14

7
6

10

12

20

25

30

35

40

45

50

55

60

20

25

30

35

40

45

50

#DIV/0!

16

r=0

14
12
10

Y=4

Ausencia de correlacin

8
6
4
2
0
0

3
X

19

55

Ejemplo
Se desea hallar la correlacin de un test de inteligencia y el rendimiento
acadmico obtenidos en los estudios del nivel secundario a los estudiantes
del primer ao de la universidad y para ello se ha aplicado a 12 estudiantes
el instrumento y es como sigue:

Estudiante

10

11

12

Promedio del
nivel
secundario.

13

15

15

19

12

17

15

17

14

14

19

14

Puntaje
logrado del
116
test
de
inteligencia

112

110 120 103 120 113 114 106 108 128 109

Desarrollo
n

yi

xi

xiyi

xi2

yi2

116

13

1508

169

13456

112

15

1680

225

12544

110

15

1650

225

12100

120

19

2280

361

14400

103

12

1236

144

10609

120

17

2040

289

14400

113

15

1695

225

12769

114

17

1938

289

12996

106

14

1484

196

11236

10

108

14

1512

196

11664

11

128

19

2432

361

16384

12

109

14

1526

196

11881

Total

1359

184

20981

2876

154439

yi

xi

xi y i

xi2

yi2

rxy
rxy

n xi yi xi yi

[n x xi ][n y yi ]
2
i

2
i

................. ......................

................. ......... ......(...........) .........


2

Coeficiente de correlacin = r xy =
Interpretacin:

Coeficiente de determinacin = (r xy)2 = (


Interpretacin:

)2 =

rxy
rxy

n xi yi xi yi

[n x xi ][n y yi ]
2

2
i

2
i

1220981 1841359

122876 184 12(154439) 1359


2

0.838

Coeficiente de correlacin = r xy = 0.838


Interpretacin: Existe una muy biena correlacin entre los puntajes
obtenidos en el Test de inteligencia de los alumnos y los promedios obtenidos
en el nivel secundario.

Coeficiente de determinacin = (r xy)2 = (0.84)^2 = 0.7


Interpretacin: El 70 % de las variaciones observadas en el test de
inteligencia de los alumnos son explicadas por las variaciones de los
promedios obtenidos en el nivel secundario.

Precauciones en la interpretacin de r

r significativo NO implica relacin de causalidad entre las


variables

x
y

r = 0 NO implica ausencia de asociacin entre las variables


y

r=0

r=0

25

S-ar putea să vă placă și