Documente Academic
Documente Profesional
Documente Cultură
2
DEFINICIÓN DE CORRELACIÓN
Se considera que dos variables cuantitativas
están relacionadas entre sí cuando los valores de
una de ellas varían de forma sistemática
conforme a los valores de la otra.
Sxy cov(x, y)
r El análisis de correlación se utiliza
S x S y ²x *²y para medir la fuerza
de asociación entre las variables.
EL COEFICIENTE DE CORRELACIÓN DE PEARSON
▪ El coeficiente de correlación de Pearson es un
índice estadístico que permite definir de forma más
concisa la relación entre las variables
▪ Es una medida de la relación lineal entre dos
variables medidas con escala numérica
Coeficiente de correlación -1 R 1
cov (x,y) xy - xy
R= =
x y (x2 - (x)2) (y2 - (y)2)
Coeficiente de determinación R² 0 R 1
Valor debido a la R x 100 = Porcentaje de Variabilidad
R2 =
Variación Total En Y explicado por X
EL COEFICIENTE DE CORRELACIÓN DE PEARSON
Correlación = Causa
1 Perfecta
Excelente
0,9
Buena
0,8
Regular
0,5
Mala
DIAGRAMAS DE DISPERSIÓN
y y
y
x x x
Correlación Negativa, Correlación Nula = variables Correlación positiva
asociación inversa independientes asociación directa
R=-1 R=0 R =1
Covarianza de dos variables aleatorias X e Y
■ La covarianza entre dos variables, cova(x,y) = Sxy
indica si la relación entre dos variables es directa
o inversa:
cov(x, y) S xy (x i x)( yi y)
1
□ Directa: Sxy > 0 n i
□ Inversa: Sxy < 0
□ Incorrelacionadas o variables independientes: Sxy = 0
-1 0 +1
Correlación de Pearson
Interpretación:
Corr 0 => relación positiva.
Corr < 0 => relación negativa
Corr ≈ 0 => no hay relación.
Corr = 1 => relación perfecta positiva.
Corr = -1 => relación perfecta negativa.
Corr = |0; 0,2| => relación débil.
Corr = |0,2; 0,4| => relación moderada.
Corr = |0,4; 0,8| => relación fuerte.
Corr = |0,8; 1| => cuasi equivalencia.
DIAGRAMAS DE DISPERSIÓN
80 40
30
30
140 150 160 170 180 190 200
140 150 160 170 180 190 200
110 100
100 90
90 80
80 70
70
60
60
50
50
40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Entrenando el ojo: casi perfectas y positivas
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
Entrenando el ojo: correlaciones negativas
90 80
80 70
70 60
60
50
50
40
40
30 30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
■ ¿Si r = 0 eso quiere decir que las variables son independientes?
S 2
e S 2
Y
21
Resumen sobre bondad de un ajuste
22
MODELOS DE REGRESIÓN
Lineal No Lineal
¡OJO!
La correlación y la regresión sólo describen relaciones lineales. Si los
coeficientes de correlación y las ecuaciones de regresión se calculan a
ciegas, sin examinar las gráficas, los investigadores pasarán por alto
relaciones muy estrechas pero no lineales
VARIABLES DE LA REGRESIÓN
1 Regresión Lineal
2 Regresión Múltiple
3 Regresión Logística
REGRESIÓN LINEAL
Y Variable aleatoria
Elaborar una representación
gráfica:
X Variable explicativa
▪ en el eje X la variable explicativa
▪ en el Y la respuesta Muestra
n
REGRESIÓN LINEAL
A partir de esa recta puede usar los valores de X para predecir los deY
Y= B0 + B1X
B1
Calcular los
coeficientes Bo y B1.
B0
B1 es la pendiente de la recta
Yi B0 1 X iei
1. Linealidad del modelo*
2. No todas las X’s son iguales (V(x) # 0). Nunca se debe omitir
3. El valor esperados de cada e para una X’s dada es cero E(ei/xi) = 0.
También E(ei) = 0
4. X’s son dadas, entonces no son aleatorias. La variable predictora X es
no aleatoria
46
SUPUESTOS DE MODELO DE REGRESIÓN SIMPLE
5. Homocedastacidad * V(ei/xi) = σ²
6. Independencia* serial. e’s independientes. Cov(ei, ei+1/xi) =
Los errores eij (ij=1…,n) son independientes entre sí
7. Número de observaciones debe ser mayor al número de coeficientes a
estimar
8. Errores distribuidos normalmente * e ~ Normal (0, σ²), es decir los
errores e ~ Normal (Bo + BiX, σ²),
9. No colinealidad
39
Relaciones entre variables y regresión
La forma más simple para mostrar dicha relación es la construcción
de un diagrama de dispersión, que es una gráfica en la que cada
par (xi, yi) está representado con un punto en un sistema de
coordenadas bidimensional.
Este método puede ofrecer una idea base y por ello siempre es
conveniente graficar los datos, pero es demasiado subjetivo y se
limita exclusivamente a dos variables.
40
Relaciones entre variables y regresión
1. Diagrama de dispersión
2. Análisis de correlación
¿Cual es el mejor modelo?
3. Definir el modelo
5. Análisis de varianza
45
PASOS DE UN ANÁLISIS DE REGRESIÓN
y y
x Curvilínea positiva
x
No hay relación
y y
x x
Curvilínea en forma U Curvilínea Negativa
49
PASOS DE UN ANÁLISIS DE REGRESIÓN
2. Análisis de correlación:
a. Coeficiente de correlación R
y y
y
x x x
Correlación Negativa Correlación Nula Correlación positiva
R= - 1 R=0 R=1
0.90 R 1 EXCELENTE
0.80 R < 0.90 ACEPTABLE
0.60 R < 0.80 REGULAR
0.40 R < 0.60 MINIMA
R < .30 NO HAY CORRELACIÓN
b. Coeficiente de determinación R²
Valor debido a la R Porcentaje de Variabilidad
R2 = x 100 = 46
Variación Total En Y explicado por X
2. Análisis de correlación:
3. Definir el modelo de regresión:
MODELOS DE REGRESIÓN SIMPLE
• Lineal Y 0 1 X
• Logarítmico Y 0 1 ln( X )
• Inverso Y 0 (1 / X )
Y 0 1 X 2 X
• Cuadrático 2
Y 0 1 X 2 X 3 X
• Cúbico 2 3
• Potencia Y 0 *
X 1
• Y 0 *
1
X
Compuesto
39
MODELOS DE REGRESIÓN SIMPLE
• S Y e 0 ( 1 / X )
1
• Logístico Y
1
0 1
X
• Crecimiento Y e 0 1 X
• Exponencial Y 0* e X 1
40
Transformaciones para linealizar modelos
El objetivo de transformar
las variables es
aumentar la medida de
ajuste R2 del modelo, sin
incluir variables
predictoras adicionales.
Se recomienda hacer un
gráfico para observar el
tipo de tendencia.
Transformaciones de la variable predictora y/o respuesta
para linealizar varios modelos.
PASOS DE UN ANÁLISIS DE REGRESIÓN
Y = Bo + B1X + Ei
Donde: Y: Variable que se va a predecir
X: Variable predictora
BO: Punto de Corte de la ordenada con Y
B1 : Pendiente (cambio unitario en Y (ΔY) por cambio
unitario en X, (ΔX)
4. Cálculo e interpretación de los coeficientes de regresión hacer
predicciones:
Se debe Minimizar
QB0, 1=
n n
i 1
e i
2
= (y i B 0 1xi ) 2
i 1
ˆ
i1 i1
Bo y 1x 50
LOS PARÁMETROS DEL MODELO SE PUEDEN CALCULAR
UTILIZANDO EL MÉTODO DE LOS MÍNIMOS CUADRADOS
(ecuaciones normales)
Así: y = B0 + B1 X + E i
n n
Yi = B0 + B1 Xi
i=1 i=1
n n n
XiYi = B0 Xi + B1 Xi ²
i=1 i=1 i=1
LOS PARÁMETROS DEL MODELO SE PUEDEN CALCULAR
UTILIZANDO EL MÉTODO DE LOS MÍNIMOS CUADRADOS
n n n
Luego: Xi)( Y)i
Xi Yi - ( i=1
i=1 i=1
COV(X,Y)
B1 = n n =
V(X)
Xi)2
Xi - ( i=1
2
i=1
B0 = Y - B1 X
ANOVA
H 0 : 0 1 0 vs H 1 : i 0
Coeficientes
H 0 : i 0 vs H 1 : i 0
54
5. TABLA DE ANÁLISIS DE VARIANZA (ANOVA)
Para modelo lineal
6. Cálculo del error estándar de la estimación e
intervalos de confianza
n
( yi - yi) 2
Ex/y =
i=1
-2
ˆ t E
Y 1 (xi-x)2
n+
i n-2 xy n n
x2i - (xi)2
i=1 i=1
n
Donde:
ˆ y ˆ =bo+b1X
Yi
Yi Valor predicho Y
Exy: Error estándar de la estimación
Xi: Valor dado de X
x x
61
Residuales y Gráficos de Residuales
Error estándar del Estimador
SUPUESTOS DE
REGRESION
DEFINICIONES
1. Linealidad: indica que, una vez dados los valores j de X, las medias de Y
forman una línea recta. Esta suposición se expresa simbólicamente así́: Y/X =
β0 + β1X, donde β0 es la intercepción del valor promedio de la variable de
respuesta Y cuando la variable explicativa X vale cero. Cuando los valores de
la variable explicativa analizados no incluyen al cero, la interpretación de β0 no
tiene sentido. β1 es la pendiente de la recta.
El incumplimiento del supuesto de linealidad suele denominarse error de
especificación. Para comprobarse se hacen los gráficos de regresión parcial
donde se observa la relación de los residuos con las demás variables.
SPSS Regresión – Lineal – Generar Gráficos Parciales Como resultado se
deben detectar relaciones lineales en todos los gráficos.
SUPUESTOS DEL MODELO -
INDEPENDENCIA
σ(𝑒𝑖 − 𝑒𝑖−1 )2
𝐷. 𝑊. = 2 𝑑𝑜𝑛𝑑𝑒 𝑒𝑖 = 𝑌𝑖 − 𝑌𝑖
σ 𝑒𝑖
alberto.boada@uptc.edu.co
56