Sunteți pe pagina 1din 27

UNIVERSIDAD NACIONAL DEL CENTRO DEL PERU

FACULTAD DE INGENIERIA DE MINAS

CURSO: ESTADISTICA

CORRELACION Y REGRESION (9)

Ing. Eli Teobaldo Caro Meza

HUANCAYO 2018 I
  CORRELACION Y REGRESION

La primera forma de estudio de la asociación entre las variables x e y es


la regresión, que consiste en determinar una relación funcional (recta de
regresión) entre ellas, con el fin de que se pueda predecir el valor de la
variable en base a la otra.
La segunda forma del calculo del estudio de la asociación entre las
variables x e y es denominada correlación , que consiste en determinar
una relación funcional (recta de regresión)

Correlación: 
Regresión lineal

1GASTOS = -15,56 + 0,92 * x


500 R-cuadrado = 0,97 

Se llama correlación a la 

GASTO S
relación entre dos o mas 400


 

variables estadísticas 

referidas a una misma 300 

muestra.

200 

300 400 500 600

INGRESOS
DIAGRAMAS DE DISPERSIÓN
Si las variables (X e Y) que se relacionan, se llevan a graficarlas en un
plano cartesiano, obtendremos una nube de puntos de diversas
representaciones y correspondiéndoles a cada diagrama de dispersión
su respectivo coeficiente de correlación el mismo que sólo variará entre
-1.00 <= r <= +1.00
COVARIANZA Y CORRELACION LINEAL

COVARIANZA.- Es una estadística, mide el grado de dispersión o variabilidad


conjunta de dos variables, x e y, con respecto a sus medias respectivas

x y i i
x  media de x
y  media de y
S xy  i 1
 xy
n
COEFICIENTE O ÍNDICE DE CORRELACION.- El Coeficiente Lineal de
PEARSON es el número abstracto “r”.

S xy  Co var ianza de x e y
S xy
r Sx  Desviación estándar de x
Sy  Desviación estándar de y
SxS y
INDICE DE CORRELACION

S xy n xy   x y
r 
SxS y n x    x  . n y    y 
2 2 2 2

El coeficiente de Correlación de Pearson “r” es un número abstracto


comprendido entre -1 y 1.

1  r  1
INTERPRETACIÓN:
Si: r = 1 , se dice que hay una correlación perfecta positiva.
Si: r = -1, se dice que hay una correlación perfecta negativa.
Si: r = 0, se dice que no hay correlación entre las dos variables.
CLASES DE CORRELACIÓN
Existen varias clases, veamos solo algunos:

a) Correlación simple: Cuando se realiza entre dos variables


b) Correlación múltiple: Cuando intervienen tres o más variables
c) Correlación lineal: Cuando el diagrama de dispersión tiende a
formar una recta
d) Correlación no lineal: Cuando el diagrama de dispersión tiende a
formar una curva
De ± 0,96 a ± 1,00 : Correlación perfecta
De ± 0,85 a ± 0,95 : Correlación fuerte
De ± 0,70 a ± 0,84 : Correlación significativa
De ± 0,50 a ± 0,69 : Correlación moderada
De ± 0,20 a ± 0,49 : Correlación débil
De ± 0,10 a ± 0,19 : Correlación muy débil
METALURGIA UNCP
De ± 0,00 a ± 0,09 : Correlación nula
ING.JOSE YARASCA
CORRELACIÓN “r”

Si: y
r =1 ó r = -1, se dice que x e y, están perfecta y
linealmente correlacionados, o todos los puntos
están contenidos en una recta.
x
Si: y

r = 0, se dice que x e y, no están correlacionados.

Si:
x
0< r < 1 , entonces la correlación es positiva o
directa. y

Si:
-1 < r < 0, entonces la correlación es negativa o
indirecta x
Ejemplo: Hallar el coeficiente de correlación r de Pearson de las
puntuaciones originales de 14 trabajadores que obtuvieron en dos pruebas de
rendimiento laboral

Trabaj. X Y
1 18 28
2 18 30
3 17 30
4 17 26
5 16 28
6 16 24
7 15 22
8 15 20
9 14 26
10 14 22
11 13 24
12 13 28
13 12 20
14 12 18
N=14 ∑ =210 336
• Tenemos:
x
 X 210
  15  Zx 
( X  x)
 Sx 
x 2


56
2
N 14 Sx N 14

• Así mismo:
y  y 2
y 336 (Y  y ) 224
 24  Zy   Sy   4
n 14 Sy N 14

• Así por ejemplo podemos calcular:


16  15 20  24
Zx5   0,5; o tambien Zy8   1
2 4
• Calculamos el valor de r:

r
 ZxZy 11,50
  0,82
N 14
( X  x) (Y  y )
Trabaj. X x x2 Y y y2 Zx Zy ZxZy

1 18 3 9 28 4 16 1,5 1,0 1,50


2 18 3 9 30 6 36 1,5 1,5 2,25
3 17 2 4 30 6 36 1,0 1,5 1,50
4 17 2 4 26 2 4 1,0 0,5 0,50
5 16 1 1 28 4 16 0,5 1,0 0,50
6 16 1 1 24 0 0 0,5 0,0 0,00
7 15 0 0 22 -2 4 0,0 -0,5 0,00
8 15 0 0 20 -4 16 0,0 -1,0 0,00
9 14 -1 1 26 2 4 -0,5 0,5 -0,25
10 14 -1 1 22 -2 4 -0,5 -0,5 0,25
11 13 -2 4 24 0 0 -1,0 0,0 0,00
12 13 -2 4 28 -6 36 -1,0 -1,5 1,50
13 12 -3 9 20 -4 16 -1,5 -1,0 1,50
14 12 -3 9 18 -6 36 -1,5 -1,5 2,25
N=14 ∑ =210 56 336 224 11,50
• Utilizaremos ahora la fórmula directa para el cálculo de r de
Pearson:
N  XY  ( X )( Y )
r
[ N  X 2  ( X ) 2 ][ N  Y 2  (  Y ) 2 ]

Trabaj. X X2 Y Y2 XY
1 18 324 28 784 504
2 18 324 30 900 540
3 17 289 30 900 510
4 17 289 26 676 442
5 16 256 28 784 448
6 16 256 24 576 384
7 15 225 22 484 330
8 15 225 20 400 300
9 14 196 26 676 364
10 14 196 22 484 308
11 13 169 24 576 312
12 13 169 28 784 364
13 12 144 20 400 240
14 12 144 18 324 216
N=14 ∑ =210 3206 336 8288 5132
• Reemplazando valores en la formula:
14(5132)  (210)(336) 71848  70560
r 
[14(3206)  ( 210) 2 ][14(8288)  (336) 2 ] (784)(3136)

• Efectuando tenemos:
1288
r  0,82
1568
BUSCA LA LÍNEA DE MEJOR AJUSTE

Relacion entre LxA y el area de las


hojas del arbol A

16
14
Area de la hoja

12
10
8
6
di
4
2
0
4 6 8 10 12 14 16 18 20 22 24 26
Largo x Ancho de la hoja
REGRESION LINEAL

Dado “n” pares de valores (x1,y1),(x2,y2),….(xn,yn), de una variable


bidimensional (x,y), consiste en determinar la ecuación de la recta. y se desea
establecer una relación funcional (ecuación) entre ambas.

Y = a + bX que mejor se ajuste a los valores de la muestra, con el fin de


poder predecir o estimar Y (variable dependiente) a partir de
X (variable independiente), este proceso es la REGRESIÓN,
determinando los valores de “a” y “b” a partir de los datos de
la muestra.
Y

b = pendiente

a
X
y Y= a + bX

yi
di
y 1
i

x
xi

DEFINICIÓN.- Se denomina error o residuo a cada diferencia del valor


observado yi, y el valor pronosticado y1i

d i  yi  yi1
Un método para determinar la recta que mejor se ajuste a los “n” datos de
la muestra (xi,yi) es el método de MINIMOS CUADRADOS
RECTA DE REGRESIÓN DE MÍNIMOS
CUADRADOS
La recta de Regresión de Mínimos Cuadrados de y en x es aquella que hace
mínima la suma de los cuadrados de errores (SCE) cuya expresión es:
n n n
SCE   d   ( yi  y )   ( yi  a  bxi ) 2
i
2 1 2
i
i 1 i 1 i 1

Luego, determinar una recta de regresión de n


SCE    yi  (a  bxi )
2
mínimos cuadrados consiste en hallar “a” y
“b” de manera que hagan mínima la suma. i 1

Se cumple de acuerdo al Estas ecuaciones se obtienen de igualar


Teorema de Gass-Markow a cero las derivadas de SCE con
respecto a “a” y “b”.
n n

 yi  na  b xi
n n n

i 1 i 1  i i  i  i
x y
i 1
 a x  b x 2

i 1 i 1
Resolviendo el sistema de ecuaciones normales para b, se obtiene:

n xi yi   xi  yi S xy
b ó b
n x  ( xi )
2
i
2
S x2

Dividiendo por “n” la primera ecuación, se


tiene el valor a  y  bx
INTERPRETACION DEL COEFICIENTE DE REGRESION “b”:
El coeficiente “b” es la pendiente o el coeficiente de la regresión lineal. La
constante “a” es la ordenada en el origen.
Si: b>0, entonces, la tendencia lineal es creciente.
Si: b<0, entonces, la tendencia lineal es decreciente.
Si: b=0, entonces, Y = a, Luego, Y permanece estacionario para cualquier
valor de X. se dice No hay Regresión.
LA LÍNEA RECTA

La curva de aproximación más sencilla, es la línea recta, cuya ecuación es:

y = a + bx

Donde a y b son constantes y pueden ser hallados

Dados los puntos cualesquiera (x1,y1) y (x2,y2) de la recta, la ecuación


puede expresarse también

Y2-Y1
Y – Y1 = ----------- (X-X1) o Y-Y1 = m(X-X1)
X2-X1
Y2-Y1
Donde “m” es la pendiente de la línea recta = m = -----------
X2-X1
RECTA DE MÍNIMOS CUADRADOS

Sean los puntos: (X1,Y1),(X2,Y2)…..;(Xn,Yn), y la recta de aproximación por


mínimos cuadrados, tiene la ecuación:

Y = a + bX

Donde para hallar las constantes: a, b, a partir del sistema de ecuaciones:

Ecuaciones normales para la ∑Y = aN+b∑X


recta de mínimos cuadrados
∑XY = a∑X + b∑X2

Las constantes a y b se obtienen:

(∑Y)(∑X2)-(∑X)(∑XY) N∑XY-(∑X)(∑Y)
a = --------------------------------- b = ---------------------------
N∑X2 – (∑X)2 N∑X 2-(∑X)2
Ejemplo: Ajustar una recta de mínimos cuadrados a los datos de la
tabla adjunta, tomando (a) X como variable independiente y (b) Y como
variable dependiente

X 3 5 6 8 9 11
Y 2 3 4 6 5 8
Solución:
X Y X2 XY Y2 Las ecuaciones de la recta y las
3 2 9 6 4 ecuaciones normales son:

5 3 25 15 9
Y = a + bX
6 4 36 24 16
8 6 64 48 36 ∑Y = a N+b∑X
9 5 81 45 25
∑XY = a∑X + b∑X2
11 8 121 88 64
∑= 42 28 336 226 154
6a + 42b = 28 ….……(1)
42a + 336b = 226 …..(2)

Resolviendo el sistema de ecuaciones se tiene:


-252a – 1764b = -1176
252a + 2016b = 1356
-----------------------------------
0 + 256b = 180

b = 180/252 = 0,71 Para la ecuación de la recta usar X = b0 + b1Y


con las siguientes ecuaciones normales
a = -1/3 = -0,3
∑X = b0N + b1∑Y
Y = -0,3 + 0,71X
∑XY = b0∑Y + b1∑Y2

Se debe llegar a la Ec. X = 1,00 + 1,29Y


COEFICIENTE DE CORRELACIÓN “R”
DE PEARSON
Es el coeficiente ideado por Karl Pearson, estadístico inglés, y es el
índice de correlación más usado. La escala que utiliza es de intervalo o
de razón y se define como la media de los productos de las puntuaciones
–z de ambas variables (X;Y)
Simbólicamente:
r = Coeficiente de correlación de Pearson
∑ZxZy Zx = Puntuación Z de la variación X
r = ----------------- Zy = Puntuación Z de la variación Y
N ∑ZxZy = Sumatoria de los productos de las
puntuaciones
N = Número de las puntuaciones
Fórmula directa para el cálculo del coeficiente r de Pearson a partir de
las calificaciones brutas
N∑XY – (∑X)(∑Y)
r = --------------------------------------------------
√[N∑X2 – (∑X)2] [N∑Y2 – (∑Y)2]

Donde:
∑X : Sumatoria de las calificaciones brutas de la variable X
∑Y : Sumatoria de las calificaciones brutas de la variable Y
∑XY: Sumatoria del producto de las calificaciones: X e Y
∑X2 : Sumatoria de los cuadrados de las calificaciones X
∑Y2 : Sumatoria de los cuadrados de las calificaciones Y
(∑X)2 : Cuadrado de la sumatoria de las calificaciones X
(∑Y )2 : Cuadrado de la sumatoria de las calificaciones Y
N : Número de calificaciones pareadas
r : Coeficiente de correlación de Pearson
REGRESION NO LINEAL

En muchos casos cuando los valores en parejas de las variables X e


Y, no se ajustan a una linea recta, se puede conseguir una relación
lineal mediante una transformación de estos valores.

ECUACION TRANSFORMACION LINEAL

a) Y = ABX (exponencial) log Y = log A + B log X


b) Y = AXB (potencia) log Y = log A + B log X
c) Y = 1/(A + BX) (hiperbólico) Y = A + BX
siendo: Y = 1/Y
ERROR ESTÁNDAR DE ESTIMACIÓN (Sxy)

Si el coeficiente de correlación lineal es 1,00, o sea la relación entre las


dos variables es perfecta, entonces, los valores de Y observados,
corresponderán exactamente igual a la prevista. Pero en investigaciones
sociales, este tipo de correlaciones perfectas no se dan.

Las que si se dan usualmente, son cuando la correlación es nula (r=0)


existirá un error muy grande en toda la predicción, en cambio si el
coeficiente de correlación es alto (r=0,90) por ejemplo, el error de
predicción de las Y observadas con las puntuaciones y previstas será
mínimo. Para hallar o medir este error, se utiliza el Error Estándar de
Estimación.
X Y X2 XY Y2
Ejemplo: Según el caso anterior: 3 2 9 6 4
[∑XY – (∑X) (∑Y)/N ] 5 3 25 15 9
[∑Y2 - (∑Y)2/N] - ------------------------------- 6 4 36 24 16
∑ X2 – (∑X)2/N 8 6 64 48 36
Sxy = √ ---------------------------------------------------------- 9 5 81 45 25
N-2
11 8 121 88 64
∑= 42 28 336 226 154

[226 – (42) (28)/6 ]


[154 - (28)2/6] - -------------------------------
336 – (42)2/6
Sxy = √ ----------------------------------------------------------
6-2

[23,3 – 21,43]
Sxy = √ -------------------- = 0,689
4

S-ar putea să vă placă și