Correlacion y Nivelacion

ANÁLISIS CORRELACIÓN Y
REGRESÍON SIMPLE Y MÚLTIPLE
Fuente: Notas de clase y presentaciones de diferentes autores tomadas de Google

1
ANÁLISIS DE CORRELACIÓN:
• Se usa un grupo de técnicas estadísticas para medir la fuerza
de la relación (correlación) entre dos o más variables.
El análisis de correlación proporcionan varios índices

generales que miden la fuerza de asociación lineal entre dos o
más VARIABLES, incluyendo:
• Coeficiente de Correlación Muestral (R): Se enfoca al

establecimiento de un índice que proporcione la fuerza de
asociación entre dos variables
• Coeficiente de Determinación (R2): Que es igual a la proporción

de la variación de la variable dependiente Y medida o explicada
por la variable independiente X
2
DEFINICIÓN DE CORRELACIÓN
Se considera que dos variables cuantitativas
están relacionadas entre sí cuando los valores de
una de ellas varían de forma sistemática
conforme a los valores de la otra.
El coeficiente de correlación lineal de

Pearson de dos variables, r, nos indica si
los puntos tienen una tendencia a
disponerse alineadamente (excluyendo
rectas horizontales y verticales).
Sxy cov(x, y)
r  El análisis de correlación se utiliza
S x S y ²x *²y para medir la fuerza
de asociación entre las variables.
EL COEFICIENTE DE CORRELACIÓN DE PEARSON
▪ El coeficiente de correlación de Pearson es un
índice estadístico que permite definir de forma más
concisa la relación entre las variables
▪ Es una medida de la relación lineal entre dos
variables medidas con escala numérica
Coeficiente de correlación -1  R  1
cov (x,y) xy - xy
R= =
 x y (x2 - (x)2) (y2 - (y)2)
Coeficiente de determinación R² 0  R  1
Valor debido a la R x 100 = Porcentaje de Variabilidad
R2 =
Variación Total En Y explicado por X
■ Su resultado es un valor que fluctúa entre -1 y +1…
+1 Relación perfecta en sentido positivo
Cuanto más cercanos a 0 sean los valores

0
significará una relación más débil o incluso
ausencia de relación
-1 Relación perfecta en sentido negativo

El valor del coeficiente de correlación está

muy influenciado por los valores extremos,
igual que la desviación estándar.
Por tanto la correlación no describe bien la

relación entre dos variables cuando cada una
de ellas tiene valores extremos
En estos casos debe hacerse una transformación de

los datos o usarse la correlación de Spearman
Finalmente, correlación no es igual a causa
Correlación = Causa
El juicio de que una característica causa otra debe justificarse con

argumentos, no sólo con el coeficiente de correlación
■ Según su valor la relación entre las variables será:
1 Perfecta
Excelente
0,9
Buena
0,8
Regular
0,5
Mala
DIAGRAMAS DE DISPERSIÓN
Un DIAGRAMA DE DISPERSIÓN ofrece una idea bastante aproximada

sobre el tipo de relación existente entre dos variables
Un DIAGRAMA DE DISPERSIÓN también puede utilizarse como una

forma de cuantificar el grado de relación lineal existente entre dos
variables
y y
y 
  
       
 
 
x x x
Correlación Negativa, Correlación Nula = variables Correlación positiva
asociación inversa independientes asociación directa
R=-1 R=0 R =1
Covarianza de dos variables aleatorias X e Y
■ La covarianza entre dos variables, cova(x,y) = Sxy
indica si la relación entre dos variables es directa
o inversa:
cov(x, y)  S xy   (x i  x)( yi  y)
1
□ Directa: Sxy > 0 n i
□ Inversa: Sxy < 0
□ Incorrelacionadas o variables independientes: Sxy = 0
El signo de la covarianza indica si la nube de

puntos es creciente o no, pero no dice nada sobre
el grado de relación entre las variables.
http://tylervigen.com/spurious-correlations
Propiedades de r
■ Es adimensional.
■ Sólo toma valores en [-1,1].
■ Las variables son incorrelacionadas r = 0.
■ Relación lineal perfecta entre dos variables r = +1 or
= -1.
□ Excluimos los casos de puntos alineados horizontal o verticalmente.
C u a n t o más cerca esté r de +1 o -1 mejor será el
grado e rdelación lineal.
□ Siempre que no existan observaciones anómalas.
inversa Relación directa
Relación
perfecta casi perfecta
Variables
incorreladas
-1 0 +1
Correlación de Pearson
Interpretación:
Corr 0 => relación positiva.
Corr < 0 => relación negativa
Corr ≈ 0 => no hay relación.
Corr = 1 => relación perfecta positiva.
Corr = -1 => relación perfecta negativa.
Corr = |0; 0,2| => relación débil.
Corr = |0,2; 0,4| => relación moderada.
Corr = |0,4; 0,8| => relación fuerte.
Corr = |0,8; 1| => cuasi equivalencia.
DIAGRAMAS DE DISPERSIÓN
El DIAGRAMA DE DISPERSIÓN permite formarse una primera

impresión sobre el tipo de relación existente entre variables
Intentar cuantificar esa relación tiene inconvenientes porque la relación

entre dos variables no siempre es perfecta o nula
Normalmente ni lo uno ni lo otro

Cómo reconocer relación directa e inversa
330 100
280 Incorrelación 90 Fuerte relación

80 directa.
230
70
180
60
130 50
80 40
30
30
140 150 160 170 180 190 200
140 150 160 170 180 190 200
Para los valores de X mayores que

Para valores de X por encima de la media la media le corresponden valores
se tienen valores de Y por encima y por de Y mayores también.
debajo en proporciones similares.
Incorrelación o no correlación Para los valores de X menores que
la media le corresponden valores
de Y menores también.
80
Cierta relación
Esto se llama relación directa o
70
60 inversa
50 creciente entre X e Y.
40
30
20
Para los valores de X mayores que la
10 media le corresponden valores de Y
0 menores. Esto es relación inversa o
140 150 160 170 180 190 200
decreciente.
Entrenando el ojo: correlaciones positivas.
330 130
280 120
110
230 100
90
180
80
130 70
60
80 r=0,1 50 r=0,4
30 40
30
140 150 160 170 180 190 200
140 150 160 170 180 190 200
110 100
100 90
90 80
80 70
70
60
60
50
50
40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Entrenando el ojo: casi perfectas y positivas
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
Entrenando el ojo: correlaciones negativas
90 80
80 70
70 60
60
50
50
40
40
30 30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
■ ¿Si r = 0 eso quiere decir que las variables son independientes?
□ En la práctica, casi siempre

sí, pero no tiene por qué ser
cierto en todos los casos.
□ Lo contrario si es cierto:
Independencia implica
incorrelación – no asociación.
■ ¿Si r = 1,2 ¿La relación es “superlineal” [sic]?

□ ¿Super qué? Eso es un error de cálculo. Siempre debe tomar un valor
entre -1 y +1.
■ ¿A partir de qué valores se considera que hay “buena relación

lineal”?
□ Es difícil dar un valor concreto (mirar los gráficos anteriores). Como
norma empírica si |r| > 0,7 hay buena relación lineal y si |r| > 0,4 hay
cierta relación (por decir algo... la situación es un poco más
complicada: observaciones anómalas,...)
Análisis de Correlación
En contraste con el análisis de regresión, en el análisis de correlación se mide el
grado de relación entre las variables´, es decir, se mide la relación entre una
variable independiente y la variable dependiente. Los supuestos de un análisis
de correlación son:
1. La relación entre las dos variables es lineal
2. Ambas variables son aleatorias
3. Homoscedasticidad (Para cada una de las variables, las varianzas
condicionales para diferentes valores de la otra variable son iguales)
4. Para cada variable las distribuciones condicionales, dados diferentes valores
de la otra variable, son todas ellas distribuciones normales.
Una medida de ajuste muy Cuadrado del coeficiente de
aceptada es el coeficiente de correlación lineal
determinación R2
Se trata de una medida estandarizada que toma valores entre 0 y 1
La recta explica un 86% de la variabilidad de Y

R2=0.86 en función de X
Bondad de un ajuste
S 2
e  S 2
Y
21
Resumen sobre bondad de un ajuste
La bondad de un ajuste de un modelo de regresión se mide usando

el coeficiente de determinación R2
R2 es una cantidad adimensional que sólo puede tomar valores en
[0, 1]
Cuando un ajuste es bueno, R2 será cercano a uno.
Cuando un ajuste es malo R2 será cercano a cero.
A R2 también se le denomina porcentaje de variabilidad explicado
por el modelo de regresión.
22
MODELOS DE REGRESIÓN
Una vez que evaluado que dos variables están

relacionadas…
¿Cómo averiguar qué tipo de relación tienen?
!!!Utilizar Modelos de regresión !!!

Modelos de Regresión
Modelos de la Modelo de
Regresión
Regresión simple y Logística
múltiple
Lineal No Lineal
Lineal V. Dummy Interactivos
Polinómica Raíz Cuadrada Log-lineal Recíproca Exponencial

CONCEPTO DE REGRESIÓN
La regresión como técnica estadística analiza la

¿QUÉ ES?
relación de dos o más variables continuas
La regresión se utiliza para inferir datos a

¿PARA QUÉ
partir de otros y hallar una respuesta a lo que
SIRVE?
pueda suceder
■ DIFERENCIA ENTRE CORRELACIÓN Y REGRESIÓN:

La correlación es independiente de la escala pero no la
regresión
La correlación entre estatura y peso es la misma sin

EJEMPLO importar que la estatura se mida en metros o
centímetros
La ecuación de regresión entre el peso y la estatura

SIN EMBARGO…
depende de las unidades que se utilice
SIMILITUDES ENTRE CORRELACIÓN Y REGRESIÓN:
La pendiente de la línea de regresión tiene el mismo

signo que el coeficiente de correlación
¡OJO!
La correlación y la regresión sólo describen relaciones lineales. Si los
coeficientes de correlación y las ecuaciones de regresión se calculan a
ciegas, sin examinar las gráficas, los investigadores pasarán por alto
relaciones muy estrechas pero no lineales
VARIABLES DE LA REGRESIÓN
Las variables del modelo de regresión deben ser cuantitativas
Dada la robustez de la regresión es frecuente encontrar incluidas

como variable independiente variables nominales transformadas
La variable dependiente debe ser siempre cuantitativa
Robustez: un estadístico se dice que es

robusto cuando es válido aunque no se
cumpla alguno de sus supuestos
TIPOS DE REGRESIÓN
Se pueden encontrar distintos tipos de regresión
1 Regresión Lineal
2 Regresión Múltiple
3 Regresión Logística
REGRESIÓN LINEAL
Considere una variable aleatoria respuesta Y, relacionada con otra

variable que se denota como explicativa X
Suponga una muestra de n individuos para los que se conocen los

valores de ambas variables
Y Variable aleatoria
Elaborar una representación
gráfica:
X Variable explicativa
▪ en el eje X la variable explicativa
▪ en el Y la respuesta Muestra
n
REGRESIÓN LINEAL
OBJETIVO Encontrar una recta que se ajuste a la nube de puntos
A partir de esa recta puede usar los valores de X para predecir los deY
Normalmente se utiliza el “método de los mínimos cuadrados” que

minimiza la distancia de las observaciones a la recta.
REPRESENTACIÓN GRÁFICA
■ Una recta tiene una ecuación muy simple:
Y= B0 + B1X
B1
Calcular los
coeficientes Bo y B1.
B0
B1 es la pendiente de la recta
B0 es el punto en que la recta corta el eje vertical

REGRESIÓN LINEAL
Conociendo los valores de estos dos coeficientes se puede reproducir la

recta y describir con ella la relación entre las variables
Además de representar la recta con su fórmula también es útil disponer de

alguna información sobre el grado en que la recta se ajusta a la nube de
puntos
Modelo de regresión lineal simple
■ En el modelo de regresión lineal simple, dado dos variables
□ Y (dependiente)
□ X (independiente, explicativa)
■ Se busca encontrar una función de X muy simple (lineal) q u e

permita aproximar Y mediante
□ Ŷ = B0 + B1X
■ B0 (ordenada en el origen, constante)
■ B1 (pendiente de la recta)
■ Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo

de regresión. A la cantidad
□ e = Y-Ŷ se le denomina residuo o error residual.
Regresión
SUPUESTOS DE MODELO DE REGRESIÓN SIMPLE
Considerando la muestra (xi,yi) para i=1,…n
Yi  B0   1 X iei
1. Linealidad del modelo*
2. No todas las X’s son iguales (V(x) # 0). Nunca se debe omitir
3. El valor esperados de cada e para una X’s dada es cero E(ei/xi) = 0.
También E(ei) = 0
4. X’s son dadas, entonces no son aleatorias. La variable predictora X es
no aleatoria
46
SUPUESTOS DE MODELO DE REGRESIÓN SIMPLE
Suposiciones del modelo:
5. Homocedastacidad * V(ei/xi) = σ²
6. Independencia* serial. e’s independientes. Cov(ei, ei+1/xi) =
Los errores eij (ij=1…,n) son independientes entre sí
7. Número de observaciones debe ser mayor al número de coeficientes a
estimar
8. Errores distribuidos normalmente * e ~ Normal (0, σ²), es decir los
errores e ~ Normal (Bo + BiX, σ²),
9. No colinealidad
* Estos supuestos están estrechamente asociados al comportamiento de los residuos,

por lo tanto un análisis cuidadoso de los residuos puede informarnos sobre el
cumplimiento de los mismos
46
RESUMEN - Ejemplo:
Relaciones entre variables y regresión
En las diversas áreas de la salud con frecuencia se busca
identificar el efecto de condiciones adversas o potencialmente
benéficas para el estado general de salud
Por medio del análisis estadístico y epidemiológico se desea

conocer si alguna variable de exposición se asocia con algún efecto
en la salud (espacializable). Este último también es conocido como
“variable de respuesta predicha” o “variable de respuesta
dependiente”, mientras que la exposición es conocida como
“variable explicativa predictora” o “variable explicativa
independiente”.
39
La forma más simple para mostrar dicha relación es la construcción
de un diagrama de dispersión, que es una gráfica en la que cada
par (xi, yi) está representado con un punto en un sistema de
coordenadas bidimensional.
Este método puede ofrecer una idea base y por ello siempre es
conveniente graficar los datos, pero es demasiado subjetivo y se
limita exclusivamente a dos variables.
Las suposiciones generales en las que se basa el modelo de

regresión son:
1. Los valores de la variable independiente X son fijos
2. La variable X se mide sin error o es insignificante
40
3. Para cada valor de X existe una

subpoblación de valores Y, que
siguen una distribución normal
4. Todas las varianzas de las

subpoblaciones de Y son iguales.
5. Todas las medias de las

subpoblaciones de Y se
encuentran sobre la misma línea
recta. (Linealidad)
6. Los valores de Y son

estadísticamente independientes
41
Supuestos del modelo de regresión :
PASOS ANÁLISIS DE REGRESIÓN
CONSTRUIR Y EVALUAR MODELOS QUE

DESCRIBAN LA RELACION ENTRE VARIABLES Y
SIRVAN PARA FORMULAR INFERENCIAS
PASOS:
1. Diagrama de dispersión
2. Análisis de correlación
¿Cual es el mejor modelo?
3. Definir el modelo
4. Calcular e interpretar coeficientes de regresión -
5. Análisis de varianza
6. Calcular intervalos de confianza e inferencias
45
PASOS DE UN ANÁLISIS DE REGRESIÓN
1. Diagrama de dispersión: Representación gráfica del par de

variables, para determinar la tendencia
y  
 y

    
  
     
  
    
   

x x
Relación Lineal-Positiva Lineal - Negativa
y y   
      
  
         
 
       

x Curvilínea positiva
x
No hay relación
y y

 
   
       
   
        
   x x
Curvilínea en forma U Curvilínea Negativa
49
2. Análisis de correlación:
Coeficiente de correlación -1  R  1 - Mide la asociación entre variables
cov (x,y) xy - xy

R= =
x y (x2 - (x)2) (y2 - (y)2)
Valor debido a la R Porcentaje de Variabilidad

R2 = x 100 =
a. Coeficiente de correlación R
y y
y  
 

       
 


x x x
Correlación Negativa Correlación Nula Correlación positiva
R= - 1 R=0 R=1
0.90  R  1 EXCELENTE
0.80  R < 0.90 ACEPTABLE
0.60  R < 0.80 REGULAR
0.40  R < 0.60 MINIMA
R < .30 NO HAY CORRELACIÓN
b. Coeficiente de determinación R²
Valor debido a la R Porcentaje de Variabilidad
R2 = x 100 = 46
3. Definir el modelo de regresión:
MODELOS DE REGRESIÓN SIMPLE
• Lineal Y   0  1 X
• Logarítmico Y   0   1 ln( X )
• Inverso Y   0  (1 / X )
Y   0  1 X   2 X
• Cuadrático 2
Y   0  1 X   2 X  3 X
• Cúbico 2 3
• Potencia Y  0 *
X 1
• Y  0 *
 1
X
Compuesto
39
MODELOS DE REGRESIÓN SIMPLE
• S Y  e 0 (  1 / X )
1
• Logístico Y 
1
 0  1
X
• Crecimiento Y  e 0  1 X
• Exponencial Y   0* e X 1
40
Transformaciones para linealizar modelos
El objetivo de transformar
las variables es
aumentar la medida de
ajuste R2 del modelo, sin
incluir variables
predictoras adicionales.
Se recomienda hacer un
gráfico para observar el
tipo de tendencia.
Transformaciones de la variable predictora y/o respuesta
para linealizar varios modelos.
4. Cálculo e interpretación de los coeficientes de regresión

hacer predicciones:
Y = Bo + B1X + Ei
Donde: Y: Variable que se va a predecir
X: Variable predictora
BO: Punto de Corte de la ordenada con Y
B1 : Pendiente (cambio unitario en Y (ΔY) por cambio
unitario en X, (ΔX)
4. Cálculo e interpretación de los coeficientes de regresión hacer
predicciones:
B1: Representa la cantidad de cambio de Y (POS-NEG)

por un cambio particular en X
La pendiente indica el cambio promedio en la variable de
respuesta cuando la variable predictora aumenta en una
unidad adicional
BO: Factor constante que esta incluido en la ecuación

El intercepto indica el valor promedio de la variable de
respuesta cuando la variable predictora vale 0.
Sin embargo carece de interpretación práctica si es
irrazonable considerar que el rango de valores de x
incluye a cero.
Ei: Error aleatorio en Y para la observación i

4. Cálculo e interpretación de los coeficientes de regresión hacer
predicciones:
ESTIMACIÓN DE LA LÍNEA DE REGRESIÓN USANDO
MÍNIMOS CUADRADOS
Se debe Minimizar
QB0, 1=
n n

i 1
e i
2
=  (y i  B 0   1xi ) 2
i 1
Derivando se obtiene un par de ecuaciones normales

para el modelo, cuya solucion produce
n n n
n xi yi   xi  yi S
ˆ1  i1 i1 i1 O equivalentemente ˆ 1  xy
n n S
n x i  ( x )i
2 2 xx
ˆ
i1 i1
Bo  y   1x 50
LOS PARÁMETROS DEL MODELO SE PUEDEN CALCULAR
UTILIZANDO EL MÉTODO DE LOS MÍNIMOS CUADRADOS
(ecuaciones normales)

Así: y = B0 + B1 X + E i
n n
 Yi = B0 + B1  Xi
i=1 i=1
n n n
 XiYi = B0  Xi + B1  Xi ²
i=1 i=1 i=1
LOS PARÁMETROS DEL MODELO SE PUEDEN CALCULAR
UTILIZANDO EL MÉTODO DE LOS MÍNIMOS CUADRADOS
n n n
Luego:  Xi)(  Y)i
 Xi Yi - ( i=1
i=1 i=1
 COV(X,Y)
B1 = n n =
V(X)
 Xi)2
 Xi - ( i=1
2
i=1

B0 = Y - B1 X
COV (X,Y) = M(X,Y) - M(X) M(Y)

5. Análisis de varianza
ANOVA
H 0 :  0  1  0 vs H 1 :  i  0
Coeficientes
H 0 :  i  0 vs H 1 :  i  0
54
5. TABLA DE ANÁLISIS DE VARIANZA (ANOVA)
Para modelo lineal
6. Cálculo del error estándar de la estimación e
intervalos de confianza
n
 ( yi - yi) 2

Ex/y =
i=1
 -2
Donde: Yi = valor real de Y para un Xi dado


Yi = valor predicho para un Xi dado
Forma simplificada del cálculo:

n
 Y2i - B0  Yi – B1  XiYi
-2
6. Cálculo del error estándar de la estimación e
intervalos de confianza
ˆ t E
Y 1 (xi-x)2
n+
i n-2 xy n n
x2i - (xi)2
i=1 i=1
n
Donde:
ˆ y ˆ =bo+b1X
Yi
Yi Valor predicho Y
Exy: Error estándar de la estimación
Xi: Valor dado de X
x x
61
Residuales y Gráficos de Residuales
Error estándar del Estimador
SUPUESTOS DE
REGRESION
DEFINICIONES
Los supuestos de un modelo estadístico se refieren a una serie de

condiciones que deben darse para garantizar la validez del mismo. Los
supuestos son:
1. Linealidad
2. Independencia
3. Homocedasticidad
4. Normalidad
5. No colinealidad
Los primeros cuatro supuestos están estrechamente asociados al

comportamiento de los residuos, por lo tanto un análisis cuidadoso de los
residuos puede informarnos sobre el cumplimiento de los mismos
ANÁLISIS DE RESIDUOS
Las diferencias entre los valores observados y pronosticados (𝑌 − 𝑌) ෠ son

residuos.
Informan sobre el grado de exactitud de los pronósticos, cuánto más pequeño
el error típico de los residuos, mejores son los pronósticos, o también, mejor
se ajusta la recta de regresión a la nube de puntos.
El análisis de los casos de residuos grandes puede ayudarnos a detectar
casos atípicos y en consecuencia a perfeccionar la ecuación de regresión a
través de un estudio detallado de los mismos.
En SPSS la opción Diagnósticos por caso del cuadro de diálogo estadísticos
del análisis de regresión lineal ofrece un listado de los residuos y
alternativamente un listado de residuos que se alejan de cero en más de un
determinado número de desviaciones típicas
ANÁLISIS DE RESIDUOS
Además de la tabla de diagnóstico por caso, el visor ofrece una tabla

resumen con información sobre el valor máximo y mínimo, y la media
y la desviación típica de los pronósticos y de los residuos. Es
importante señalar que la media de los residuos vale 0
SUPUESTOS DEL MODELO -
LINEALIDAD
1. Linealidad: indica que, una vez dados los valores j de X, las medias de Y
forman una línea recta. Esta suposición se expresa simbólicamente así́: Y/X =
β0 + β1X, donde β0 es la intercepción del valor promedio de la variable de
respuesta Y cuando la variable explicativa X vale cero. Cuando los valores de
la variable explicativa analizados no incluyen al cero, la interpretación de β0 no
tiene sentido. β1 es la pendiente de la recta.
El incumplimiento del supuesto de linealidad suele denominarse error de
especificación. Para comprobarse se hacen los gráficos de regresión parcial
donde se observa la relación de los residuos con las demás variables.
SPSS Regresión – Lineal – Generar Gráficos Parciales Como resultado se
deben detectar relaciones lineales en todos los gráficos.
INDEPENDENCIA
2. Independencia: esto quiere decir que dos observaciones diferentes cualquiera –

los errores εi y εj– son estadísticamente independientes; en otras palabras, el valor
de un error no depende del valor de cualquier otro error, y por consiguiente, los
valores de Y de una muestra elegidos y los valores específicos de X dados también
son independientes. Este supuesto puede ser violado cuando diferentes
observaciones se realizan en el mismo individuo en diferentes momentos; por
ejemplo, si se tomara el peso de un individuo en diferentes momentos, es de
esperarse que los pesos estén relacionados en cada individuo. Cuando este
supuesto no se cumple, pueden obtenerse conclusiones estadísticas no válidas.
Los residuos son independientes entre si, es decir, los residuos constituyen una
variable aleatoria (recordemos que los residuos son las diferencias entre los valores
observados y los pronosticados). Es frecuente encontrarse con residuos
autocorrelacionados cuando se trabaja con series temporales
SUPUESTOS DEL MODELO - HOMOCEDASTICIDAD
En SPSS la independencia se mide con el estadístico de Durbin

Watson, que se calcula con la siguiente fórmula
σ(𝑒𝑖 − 𝑒𝑖−1 )2
𝐷. 𝑊. = 2 𝑑𝑜𝑛𝑑𝑒 𝑒𝑖 = 𝑌𝑖 − 𝑌෠𝑖
σ 𝑒𝑖
El rango del estadístico está entre cero y cuatro es decir 0 ≤ 𝐷. 𝑊. ≤

4
Si los residuos son independientes 𝐷. 𝑊. = 2 𝑆𝑖 1.5 ≤ 𝐷. 𝑊. ≤ 2.5
Para 𝐷. 𝑊. < 2 autocorrelación positiva
Para 𝐷. 𝑊. > 2 autocorrelación negativa
En SPSS Regresion –Lineal – Estadísticos – Durbin Watson

3. Homocedasticidad: (homogeneidad de la varianza): este

supuesto nos indica que la variabilidad del error es constante y es
la misma para todos los errores εi, y como consecuencia la
varianza de Y es la misma para diferentes valores de X.
Para cada valor de la variable independiente (o combinación de
valores de las variables independientes), la varianza de los
residuos es constante.
El procedimiento Regresión Lineal dispone de una serie de
gráficos que permiten entre otras cosas, obtener información
sobre el grado de cumplimiento de supuestos de
homocedasticidad y normalidad de los residuos.
Pulsar el botón Gráficos del cuadro de regresión lineal para acceder al

subcuadro de dialogo Regresión lineal Gráficos y se tienen las siguientes
opciones
DEPENDENT: Variable dependiente de la ecuación de regresión
ZPRED: Pronósticos tipificados
ZRESID: Residuos tipicados
Para evaluar el supuesto de homocedasticidad o igualdad de varianzas, se
realiza un diagrama de dispersión con estas variables donde
Y = Zresid
X = Zpred
Este supuesto implica que el tamaño de los residuos es independiente del
tamaño de los pronósticos, por lo tanto el diagrama de dispersión no debe
mostrar ninguna pauta de asociación entre los pronósticos y los residuos
NORMALIDAD
4. Normalidad: los errores tienen una distribución normal

con media de cero y con variancia constante de σ2. Esto
quiere decir que los valores de Y siguen una distribución
normal. Cuando este supuesto no se satisface, antes de
realizar un modelo de regresión podría realizarse una
transformación de la variable Y, en la que la nueva variable
se distribuya aproximadamente en forma normal.
SPSS se realiza con Histograma o grafico de normalidad
SUPUESTOS DEL MODELO – NO
COLINEALIDAD
4. No Colinealidad: No existe relación lineal exacta entre ninguna de las

variables independientes. El incumplimiento de este supuesto da origen a
colinealidad o multicolinealidad.
Este supuesto no tiene sentido en la regresión simple, pues es imprescindible la
presencia de más de una variable independientes. Hay varias formas de
diagnosticar la presencia de colinealidad
Verificando la tolerancia: se calcula con 1-𝑅2 . Valores muy pequeños indican
presencia de colinealidad, es decir la variable puede ser explicada por una
combinación lineal de variables independientes
SUPUESTOS DEL MODELO – NO
COLINEALIDAD
Factores de Inflación de Varianza FIV: son los inversos de los

niveles de tolerancia. Cuando mayor es el FIV de una variable,
mayor es la varianza del correspondiente coeficiente de regresión
Si FIV=1 No hay multicolinealidad

1<FIV<5 Multicolineaalidad moderada
FIV>10 Multicolienalidad alta
En SPSS se selecciona la opción Diagnósticos de colinelaidad en

el cuadro de diálogo de estadísticos.
APLICACIÓN:
Un gerente de una compañía desea medir la relación entre el ingreso familiar y
el precio de compra de automóviles. Se selecciona una muestra aleatoria de 10
personas que compraron auto usado a finales de 2016.
Comprador (Millones) 2.5 3.6 4.1 5.0 6.1 2.9 8.2 2.3 8.6 4.5
Precio compra (Millones) 13.6 24.1 23.9 35.2 35.1 23.9 47.8 13.4 60.2 25.0
Experiencia (años) 4.1 6.2 5.9 10 11.8 3.2 12 1.5 14.8 7.8
Estado Civil Sol Cas Cas Sol Sep Cas Cas Sep Sol Viu
a) Constituya una nube de puntos

b) Encuentre el mejor modelo
c) Si una familia tiene un ingreso anual de $7, $ 6.5 y $ 3. De qué precio
podría comprar un auto
d) Cuál es el error estándar de la estimación (Interprete)
e) Construya una tabla ANOVA y con  = 5% pruebe su hay una relación
lineal entre el ingreso familiar y precio de compra.
f) Calcule e interprete R y R2
g) Encuentre un I de C. Del 95% del precio de compra
Si el ingreso de una familia es de $5.5 al año
76
¿Preguntas?
Gracias por su atención
alberto.boada@uptc.edu.co
56

Correlacion y Nivelacion

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Correlacion y Nivelacion

Încărcat de

Drepturi de autor:

Formate disponibile

ANÁLISIS CORRELACIÓN Y

REGRESÍON SIMPLE Y MÚLTIPLE

Fuente: Notas de clase y presentaciones de diferentes autores tomadas de Google

El análisis de correlación proporcionan varios índices

• Coeficiente de Correlación Muestral (R): Se enfoca al

• Coeficiente de Determinación (R2): Que es igual a la proporción

El coeficiente de correlación lineal de

■ Su resultado es un valor que fluctúa entre -1 y +1…

+1 Relación perfecta en sentido positivo

Cuanto más cercanos a 0 sean los valores

-1 Relación perfecta en sentido negativo

El valor del coeficiente de correlación está

Por tanto la correlación no describe bien la

En estos casos debe hacerse una transformación de

Finalmente, correlación no es igual a causa

El juicio de que una característica causa otra debe justificarse con

■ Según su valor la relación entre las variables será:

Un DIAGRAMA DE DISPERSIÓN ofrece una idea bastante aproximada

Un DIAGRAMA DE DISPERSIÓN también puede utilizarse como una

El signo de la covarianza indica si la nube de

El DIAGRAMA DE DISPERSIÓN permite formarse una primera

Intentar cuantificar esa relación tiene inconvenientes porque la relación

Normalmente ni lo uno ni lo otro

280 Incorrelación 90 Fuerte relación

Para los valores de X mayores que

□ En la práctica, casi siempre

■ ¿Si r = 1,2 ¿La relación es “superlineal” [sic]?

■ ¿A partir de qué valores se considera que hay “buena relación

Se trata de una medida estandarizada que toma valores entre 0 y 1

La recta explica un 86% de la variabilidad de Y

La bondad de un ajuste de un modelo de regresión se mide usando

Una vez que evaluado que dos variables están

¿Cómo averiguar qué tipo de relación tienen?

!!!Utilizar Modelos de regresión !!!

Lineal V. Dummy Interactivos

Polinómica Raíz Cuadrada Log-lineal Recíproca Exponencial

La regresión como técnica estadística analiza la

La regresión se utiliza para inferir datos a

■ DIFERENCIA ENTRE CORRELACIÓN Y REGRESIÓN:

La correlación entre estatura y peso es la misma sin

La ecuación de regresión entre el peso y la estatura

SIMILITUDES ENTRE CORRELACIÓN Y REGRESIÓN:

La pendiente de la línea de regresión tiene el mismo

Las variables del modelo de regresión deben ser cuantitativas

Dada la robustez de la regresión es frecuente encontrar incluidas

La variable dependiente debe ser siempre cuantitativa

Robustez: un estadístico se dice que es

Se pueden encontrar distintos tipos de regresión

Considere una variable aleatoria respuesta Y, relacionada con otra

Suponga una muestra de n individuos para los que se conocen los

OBJETIVO Encontrar una recta que se ajuste a la nube de puntos

Normalmente se utiliza el “método de los mínimos cuadrados” que

■ Una recta tiene una ecuación muy simple:

B0 es el punto en que la recta corta el eje vertical

Conociendo los valores de estos dos coeficientes se puede reproducir la

Además de representar la recta con su fórmula también es útil disponer de

■ Se busca encontrar una función de X muy simple (lineal) q u e

■ Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo

Considerando la muestra (xi,yi) para i=1,…n

Suposiciones del modelo:

* Estos supuestos están estrechamente asociados al comportamiento de los residuos,

Por medio del análisis estadístico y epidemiológico se desea

Las suposiciones generales en las que se basa el modelo de