Sunteți pe pagina 1din 43

Universidad de Concepción

Facultad de Educación
Magíster en Educación

Tema 7:
CORRELACIÓN Y REGRESIÓN
LINEAL SIMPLE
Dr. Gamal Cerda Etchepare
Covarianza
 La covarianza mide de una manera no
estandarizada, la relación entre dos
variables.

 Para entender la covarianza, recordemos lo


que es la varianza…
 Si queremos ver si dos variables están
relacionadas, necesitaríamos saber si los
cambios en una son similares a los cambios
que se producen en la otra.

 Ejemplo de Field (2009, p.168),.


 La covarianza nos permite ver si la
desviación con respecto a la media en una
variable está relacionada a la desviación con
respecto a la media en la siguiente variable:
 Similar a la varianza pero con las dos
variables en simultáneo.
Covarianza entre X e Y

Si es positiva, indica que cuando una variable se desvía


de la media en una dirección, la otra lo hace en la misma
dirección
Correlación
 Mide el grado de asociación entre dos variables,
con independencia de la escala en que estén.
 Captura relación de tipo lineal.
 Para expresar la covarianza en unidades estándar
de medida, necesitamos dividir por las
desviaciones estándar de las variables
consideradas.
Esto es lo que se conoce
como coeficiente de
correlación de Pearson
En el ejemplo
r= 4.25/(1.67*2.92)
r= 4.25/4.88
r= 0.87
Correlación
 Va entre 1 y -1
 +1 indica relación positiva y – 1 relación
negativa
 El coeficiente de correlación al cuadrado es el
tamaño del efecto (porcentaje de varianza
compartida)

 r= |0.1| R2= 0,01 (1% varianza compartida) Efecto pequeño


 r= |0.3| R2= 0,09 (9% varianza compartida) Efecto mediano
 r= |0.5| R2= 0,25 (25% varianza compartida) Efecto grande
Supuestos correlación de Pearson

 Variables deben ser de nivel intervalar


 Si además se requiere calcular nivel de
significación
 Los datos se distribuyen de manera normal
(a menos que una de las variables sea
dicotómica)– correlación punto-serial-
Correlación de Spearman
 Correlación no paramétrica que se utiliza
cuando los datos son ordinales o no cumplen
el supuesto de distribución normal.
 Ejemplo:
Correlación como varianza
compartida
 La asociación entre dos variables se puede
entender como varianza compartida, si R se
eleva al cuadrado.

Varianza Común
Correlación Parcial y semiparcial
 Correlación parcial: Correlación entre dos
variables (Y, X1), controlando el efecto de
una tercera variable (X2)

 Correlación semiparcial: Correlación entre


dos variables (Y, X1), controlando el efecto
de una tercera variable (X2) sólo en la
variable independiente (X1)
Modelo Básico de regresión

 Ecuación de predicción
Regresión Lineal Simple
 Técnica estadística utilizada para analizar
las relaciones entre una única variable
criterio y otra variable independiente:

 Los valores de la variable independientes se


utilizan para predecir o relacionar a la
variable criterio

 Si hay más de una variable independiente se


denomina Regresión Lineal Múltiple
 Linea de predicción incluyendo la variable
independiente, permite comparar la
capacidad de predicción del modelo luego
de incluir la variable independiente.
Método de suma de cuadrados
 Suma Cuadrada de la Regresión: Medida del éxito
predictivo. Se calcula a través de la ganancia entre la
predicción con la línea base y el modelo de la regresión

 Suma Cuadrada de los errores SCres: Estimación de los


errores en la predicción
 Suma de Cuadrados totales = Screg + Scres (desviación usando la media)
 Otras Fórmulas
Screg /glibertad = Media Cuadrática reg
Scres /glibertad = Media Cuadrática res
 Coeficiente de correlación (R) : Permite
describir la relación entre las variables, si los
cambios en una se asocian en los cambios en
la otra.
 Coeficiente de determinación (R2): Es el
coeficiente de correlación al cuadrado.
Indica el porcentaje de la variación total de
Y que es explicado por X
R2 = SCreg
SC totales
 Media cuadrática de la regresión/ media
cuadrática de los residuales = valor F obs
Se rechaza H0 si Fo > Fe

 Coeficiente de regresión (b1): Cambio


estimado en la variable criterio por un cambio
unitario de la variable independiente.

 Coeficiente de regresión estandarizado (ß1):


Permite evaluar el impacto relativo de las
variables (cuando están en distintas unidades de
medida)
Tabla ANOVA del modelo de regresión simple
Fuente de Suma de Grados de
Media Cuadrática F
Variación Cuadrados Libertad
scE = i= MCRecta
Por la recta 1 2
1
n 2
e = MC resid
scR = i=
Residual n n-2 2
1
2
R =
scG = i=
Global n n-1 2
1
2
Y =
Tabla ANOVA del modelo de regresión múltiple
Fuente de Suma de Grados de
Varianzas F
Variación Cuadrados Libertad

scE = i
Por la recta k 2
MCRecta
2
e =
MC resid
scR = i
Residual n- 2
2
R =
scG = i
Global n-1 2
2
Y =
Examen de la significación estadística
del modelo

 Significación del modelo en su conjunto: R2.


Se utiliza la prueba F

 Test de significación de los coeficientes de


regresión.
Factores que afectan la precisión de la
estimación
 Tamaño de la muestra
 A mayor tamaño más precisa la estimación. Se ven
sus efectos en la potencia estadística del test de
significación y la generalización de los resultados.

 Dispersión de los valores en torno a la línea de la


regresión
 A menor dispersión mayor precisión

 Selección de valores de X,
 A mayor dispersión mayor precisión
Supuestos en el análisis de regresión
lineal

 Linealidad del fenómeno.


 Varianza constante de los residuos
 Independencia de los residuos
 Normalidad de los residuos
Linealidad del fenómeno
 Test “Falta de ajuste”
 Analizar> Modelo Lineal General >
univariado> (v. dep en ventana, v. indep en
ventana de cov)>opciones> falta de ajuste

Hipótesis nula “la relación es igual a la lineal”


Hipótesis alternativa “la relación no es lineal”.
Homogeneidad de los errores
 Grabar residuos estandarizados y valores
predichos estandarizados
 Graficar dispersión
 ZRES en Y
 Zpred en X
Residuos homogéneos
La dispersión a lo largo es
aproximadamente igualde izquierda a
derecha

La altura es la
dispersión de los
residuos.
Residuos heterogéneos

A la derecha
A la
los residuos se
izquierda
escapan de 2 y
los residuos
-2.
van entre 2
y -2 .
Independencia errores

 Test Durbin Watson va de 0-4


 Se cumple el supuesto si el valor está entre
1.5 y 2.5
 Analizar> Regresion Lineal> v. inde y dep
en las ventanas> estadísticos>durbin watson
Normalidad de los residuos

 Grabar residuos estudentizados y graficar


con normalidad.

 Analiza>estadística descriptiva>explorar>
En lista de dependiente SRE_1(residuo
estudentizado)>gráficos>histograma>prue
ba normalidad
Supuestos de la Reg. Lineal
 Si no se satisfacen los supuestos existen al
menos 2 estrategias para corregirlo
1. Excluir casos atípicos del análisis
2. Transformar nuestras variables
 Optar por una estrategia puede tener un
impacto en la otra.
 Cuando se utilizan estas estrategias es
preciso reportarlo en los resultados.
Atípicos o Outliers.

 Son valores muy distintos a la mayoría del


conjunto de datos obtenido.
 Son importantes porque pueden cambiar los
resultados del análisis.
 Si se excluye o incluye en el análisis
dependerá de la razón por la cual ese dato es
un atípico y el propósito del análisis.
Diagnóstico de casos Atípicos

 Algunos ejercerán una influencia en la


precisión de la estimación y otros no.

 Para detectar atípicos


 Estimar la regresión y en el gráfico
observar la dispersión de los errores
 Calcular indicadores para evaluar cuán
alejados están estos valores del resto.
Diferentes outliers
 Un caso puede ser outlier porque es un valor
inusual de la variable dependiente, de la
independiente o de ambas.

 Un caso es outlier de la variable dependiente


si tiene un valor residual estudentizado o
estandarizado muy grande.
Diferentes outliers
 Un caso es un outlier de la variable
independiente si tiene un leverage muy
grande: Potencial de Influencia

 Un caso es un outlier en ambos si tiene una


distancia de Cook muy grande: Influencia
“real”
Detectando outliers

 Residuo estudentizado (SRE_1) > |2|

 Residuos estandarizados (ZRE_1) >|2|

 Leverage obs ≥ Leverage esperado

 Dist. de Cook obs > Dist. de Cook esp.


Posibilidad de que los atípicos
ejerzan influencia
 Potencial de influencia:
 Un atípico debe tener palanca (Leverage)
para poder ser influyente

 El valor Leverage crítico será,


Donde k= n° variables indep
n= total de casos
Evaluación de la influencia “real”
 Distancia de Cook
 Mide el cambio que se va produciendo en
las estimaciones de los coeficientes al ir
eliminando cada caso.

 Tendrá influencia si Cook es una distancia


grande. En general sobre 1.
 Cook esperado > 4 / [(n – (k -1)]
 Si un caso es un outlier 2 veces mayor que
lo indicado arriba será un outlier extremo.
Eliminando outilers
 Eliminaremos un outlier si cumple 2 o más
criterios.

 Al eliminar un outlier extremo puede que el


análisis nuevamente evidencie otros
outiliers. Estos pueden seguir removiéndose
hasta que no existan outliers extremos.
Transformaciones

 Cambian la forma de la distribución,


generalmente reduciendo la asimetría a una
distribución más normal.
 Las transformaciones son legítimas en la
medida que preserven las propiedades
numéricas de los datos.
Ejemplo de transformaciones:
 Logarithmic transformation: compute log = LG10(x)

 Square root transformation: compute sqrt = SQRT(x)

 Inverse transformation: compute inv = -1 / (x)

 Square transformation: compute s2 = x * x

 Reflection: compute all values variable – (1+ abs max.


value).

S-ar putea să vă placă și