Documente Academic
Documente Profesional
Documente Cultură
CURSO: ESTADISTICA
HUANCAYO 2018 I
CORRELACION Y REGRESION
Correlación:
Regresión lineal
Se llama correlación a la
GASTO S
relación entre dos o mas 400
variables estadísticas
muestra.
200
INGRESOS
DIAGRAMAS DE DISPERSIÓN
Si las variables (X e Y) que se relacionan, se llevan a graficarlas en un
plano cartesiano, obtendremos una nube de puntos de diversas
representaciones y correspondiéndoles a cada diagrama de dispersión
su respectivo coeficiente de correlación el mismo que sólo variará entre
-1.00 <= r <= +1.00
COVARIANZA Y CORRELACION LINEAL
x y i i
x media de x
y media de y
S xy i 1
xy
n
COEFICIENTE O ÍNDICE DE CORRELACION.- El Coeficiente Lineal de
PEARSON es el número abstracto “r”.
S xy Co var ianza de x e y
S xy
r Sx Desviación estándar de x
Sy Desviación estándar de y
SxS y
INDICE DE CORRELACION
S xy n xy x y
r
SxS y n x x . n y y
2 2 2 2
1 r 1
INTERPRETACIÓN:
Si: r = 1 , se dice que hay una correlación perfecta positiva.
Si: r = -1, se dice que hay una correlación perfecta negativa.
Si: r = 0, se dice que no hay correlación entre las dos variables.
CLASES DE CORRELACIÓN
Existen varias clases, veamos solo algunos:
Si: y
r =1 ó r = -1, se dice que x e y, están perfecta y
linealmente correlacionados, o todos los puntos
están contenidos en una recta.
x
Si: y
Si:
x
0< r < 1 , entonces la correlación es positiva o
directa. y
Si:
-1 < r < 0, entonces la correlación es negativa o
indirecta x
Ejemplo: Hallar el coeficiente de correlación r de Pearson de las
puntuaciones originales de 14 trabajadores que obtuvieron en dos pruebas de
rendimiento laboral
Trabaj. X Y
1 18 28
2 18 30
3 17 30
4 17 26
5 16 28
6 16 24
7 15 22
8 15 20
9 14 26
10 14 22
11 13 24
12 13 28
13 12 20
14 12 18
N=14 ∑ =210 336
• Tenemos:
x
X 210
15 Zx
( X x)
Sx
x 2
56
2
N 14 Sx N 14
• Así mismo:
y y 2
y 336 (Y y ) 224
24 Zy Sy 4
n 14 Sy N 14
r
ZxZy 11,50
0,82
N 14
( X x) (Y y )
Trabaj. X x x2 Y y y2 Zx Zy ZxZy
Trabaj. X X2 Y Y2 XY
1 18 324 28 784 504
2 18 324 30 900 540
3 17 289 30 900 510
4 17 289 26 676 442
5 16 256 28 784 448
6 16 256 24 576 384
7 15 225 22 484 330
8 15 225 20 400 300
9 14 196 26 676 364
10 14 196 22 484 308
11 13 169 24 576 312
12 13 169 28 784 364
13 12 144 20 400 240
14 12 144 18 324 216
N=14 ∑ =210 3206 336 8288 5132
• Reemplazando valores en la formula:
14(5132) (210)(336) 71848 70560
r
[14(3206) ( 210) 2 ][14(8288) (336) 2 ] (784)(3136)
• Efectuando tenemos:
1288
r 0,82
1568
BUSCA LA LÍNEA DE MEJOR AJUSTE
16
14
Area de la hoja
12
10
8
6
di
4
2
0
4 6 8 10 12 14 16 18 20 22 24 26
Largo x Ancho de la hoja
REGRESION LINEAL
b = pendiente
a
X
y Y= a + bX
yi
di
y 1
i
x
xi
d i yi yi1
Un método para determinar la recta que mejor se ajuste a los “n” datos de
la muestra (xi,yi) es el método de MINIMOS CUADRADOS
RECTA DE REGRESIÓN DE MÍNIMOS
CUADRADOS
La recta de Regresión de Mínimos Cuadrados de y en x es aquella que hace
mínima la suma de los cuadrados de errores (SCE) cuya expresión es:
n n n
SCE d ( yi y ) ( yi a bxi ) 2
i
2 1 2
i
i 1 i 1 i 1
yi na b xi
n n n
i 1 i 1 i i i i
x y
i 1
a x b x 2
i 1 i 1
Resolviendo el sistema de ecuaciones normales para b, se obtiene:
n xi yi xi yi S xy
b ó b
n x ( xi )
2
i
2
S x2
y = a + bx
Y2-Y1
Y – Y1 = ----------- (X-X1) o Y-Y1 = m(X-X1)
X2-X1
Y2-Y1
Donde “m” es la pendiente de la línea recta = m = -----------
X2-X1
RECTA DE MÍNIMOS CUADRADOS
Y = a + bX
(∑Y)(∑X2)-(∑X)(∑XY) N∑XY-(∑X)(∑Y)
a = --------------------------------- b = ---------------------------
N∑X2 – (∑X)2 N∑X 2-(∑X)2
Ejemplo: Ajustar una recta de mínimos cuadrados a los datos de la
tabla adjunta, tomando (a) X como variable independiente y (b) Y como
variable dependiente
X 3 5 6 8 9 11
Y 2 3 4 6 5 8
Solución:
X Y X2 XY Y2 Las ecuaciones de la recta y las
3 2 9 6 4 ecuaciones normales son:
5 3 25 15 9
Y = a + bX
6 4 36 24 16
8 6 64 48 36 ∑Y = a N+b∑X
9 5 81 45 25
∑XY = a∑X + b∑X2
11 8 121 88 64
∑= 42 28 336 226 154
6a + 42b = 28 ….……(1)
42a + 336b = 226 …..(2)
Donde:
∑X : Sumatoria de las calificaciones brutas de la variable X
∑Y : Sumatoria de las calificaciones brutas de la variable Y
∑XY: Sumatoria del producto de las calificaciones: X e Y
∑X2 : Sumatoria de los cuadrados de las calificaciones X
∑Y2 : Sumatoria de los cuadrados de las calificaciones Y
(∑X)2 : Cuadrado de la sumatoria de las calificaciones X
(∑Y )2 : Cuadrado de la sumatoria de las calificaciones Y
N : Número de calificaciones pareadas
r : Coeficiente de correlación de Pearson
REGRESION NO LINEAL
[23,3 – 21,43]
Sxy = √ -------------------- = 0,689
4