Sunteți pe pagina 1din 33

SEMINARIO DE POSGRADO

ESTRATEGIAS Y DISEOS AVANZADOS DE INVESTIGACIN SOCIAL Titular: Agustn Salvia


ANLISIS DE MODELOS DE REGRESION LINEAL (2 PARTE)

Modelos de Regresin Lineal


Problemas de Causalidad

El investigador suele tener razones tericas o prcticas para creer que determinada variable es causalmente dependiente de una o ms variables distintas. Si hay suficientes observaciones empricas sobre estas variables, el anlisis de regresin es un mtodo apropiado para describir la estructura, fuerza y sentido exacto de esta asociacin.

Modelos de Regresin Lineal


Problemas de Causalidad
El modelo permite diferenciar variables explicativas, independientes o predictivas (mtricas), variables a explicar o dependientes, y variables control o intervinientes (mtricas o transformadas en variables categoriales).
La distincin entre variables dependientes e independientes debe efectuarse con arreglo a fundamentos tericos, por conocimiento o experiencia y estudios anteriores. Mtodos de tipo: Y : f (X, ) / Y = B1X1 + U

Modelos de Regresin Lineal


Respuestas Metodolgicas
Estima la fuerza o bondad explicativa del modelo

terico independientemente de las caractersticas de las variables introducidas


Predice el valor medio que puede asumir la variable Y dado un valor de X (regresin a la media) bajo un intervalo de confianza Estima el efecto neto de cada una de las variables intervinientes sobre la variable dependiente (control sobre los dems efectos suponiendo independencia entre las variables predictivas).

Modelos de Regresin Lineal


Funcin Lineal de Regresin
El objetivo de la tcnica de regresin es establecer la relacin estadstica que existe entre la variable dependiente (Y) y una o ms variables independientes (X1, X2, Xn). Para poder realizar esto, se postula una relacin funcional entre las variables. Debido a su simplicidad analtica, la forma que ms se utiliza en la prctica es la relacin lineal:

= b0 + b1x1 + bnxn
donde los coeficientes b0 y b1, bn, son los factores que definen la variacin promedio de y, para cada valor de x. Estimada esta funcin terica a partir de los datos, cabe preguntarse qu tan bien se ajusta a la distribucin real.

GRFICOS DE DISPERSIN / PENDIENTE DE LA RECTA

En el caso de asumir una recta, se admite que existe una proporcin entre la diferencia de dos valores A y la diferencia entre dos valores de B. A ese factor de ajuste entre ambas series se le llama pendiente de la recta, y se asume que es constante a lo largo de toda la recta.

Modelos de Regresin Lineal


Funcin Lineal de Regresin
- El parmetro b0, conocido como la ordenada en el origen, nos indica cunto es Y cuando X = 0. El parmetro b1, conocido como la pendiente, nos indica cunto aumenta Y por cada aumento en X.
- La tcnica consiste en obtener estimaciones de estos coeficientes a partir de una muestra de observaciones sobre las variables Y y X. - En el anlisis de regresin, estas estimaciones se obtienen por medio del mtodo de mnimos cuadrados. Logradas estas estimaciones se puede evaluar la bondad de ajuste y significancia estadstica.

GRFICOS DE DISPERSIN / RECTA DE REGRESIN


Para el clculo de la recta de regresin se aplica el mtodo de mnimos cuadrados entre dos variables. Esta lnea es la que hace mnima la suma de los cuadrados de los residuos, es decir, es aquella recta en la que las diferencias elevadas al cuadrado entre los valores calculados por la ecuacin de la recta y los valores reales de la serie, son las menores posibles.

y = a + bx

Modelos de Regresin Lineal


Funcin Lineal de Regresin
Una pregunta importante que se plantea en el anlisis de regresin es la siguiente: Qu parte de la variacin total en Y se debe a la variacin en X? Cunto de la variacin de Y no explica X? El estadstico que mide esta proporcin o porcentaje se denomina coeficiente de determinacin (R2). Si por ejemplo, al hacer los clculos respectivos se obtiene un valor de 0.846. Esto significa que el modelo explica el 84.6 % de la variacin de la variable dependiente.

Modelos de Regresin Lineal


Requisitos Estadsticos del Mtodo
Se supone que la forma funcional que relaciona la variable DEPENDIENTE con la/las variables explicativas es de tipo LINEAL. Las variables explicativas deben ser entre s INDEPENDIENTES. La CONSTANTE (b0) no slo expresa el valor estimado de y en la ordenada al origen, sino tambin el conjunto de los errores no lineales y desconocidos del modelo.

Modelos de Regresin Lineal


Supuestos del Mtodo de Regresin
La variable aleatoria (error) debe ser estadsticamente independiente de los valores de X y tener una distribucin normal con una media igual a cero (supuesto 1 y 2).
Cualquier par de errores, i y j deben ser estadsticamente independientes entre s, es decir que su covarianza debe ser igual a 0 (supuesto 3)

Las variables aleatorias j deben tener una varianza finita 2 que es constante para todos los valores de xj . (Supuesto 4 o de homocedasticidad)

Modelos de Regresin Lineal


Salidas Estadsticas del Mtodo
Se evala la bondad de ajuste del modelo terico a a travs del coeficiente de determinacin R2
La capacidad explicativa del modelo se hace a partir del mtodo de mnimos cuadrados (ANOVA), cuyo resultado es testeado a travs de F de Fisher Predice los valores de la variable dependiente a partir de estimar el valor del coeficiente (B), el error estndar (S) y el coeficiente R parcial (BETA) de cada una de las variables y de la Constante Mide la fuerza, sentido y significancia estadstica de las variables del modelo sobre la variable dependiente a travs de la prueba t de Student

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
80

Ingreso horario de la ocupacin ppal

El ingreso horario de los ocupados (entre 25 y 45 aos) no se ve afectados por el sexo sino que depende de la cantidad de aos de instruccin

60

40

20

Sexo
Mujer 0 0 10 20 Varn

Aos de es tudio (aprox.)

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
BONDAD DE AJUSTE DEL MODELO (R2)
b Variables Entered/Remov ed

Model 1 2

Variables Entered a Sexo (dummy: 0=Varn) a Aos de estudio (aprox.)

Variables Removed , ,

Method Enter Enter

a. All requested variables entered. b. Dependent Variable: Ingreso horario de la ocupacin ppal

Model Summary

Model 1 2

R R Square a ,014 ,000 b ,359 ,129

Adjusted R Square ,000 ,129

Std. Error of the Estimate 3,3032 3,0832

a. Predictors: (Constant), Sexo (dummy: 0=Varn) b. Predictors: (Constant), Sexo (dummy: 0=Varn), Aos de estudio (aprox.)

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
ANLISIS DE VARIANZA DE LOS MODELOS
ANOVAc Sum of Squares 22,486 112779,9 112802,4 14557,248 98245,112 112802,4 Mean Square 22,486 10,911 7278,624 9,506

Model 1

df 1 10336 10337 2 10335 10337

Regression Residual Total Regression Residual Total

F 2,061

Sig. ,151 a

765,683

,000 b

a. Predictors: (Constant), Sexo (dummy: 0=Varn) b. Predictors: (Constant), Sexo (dummy: 0=Varn), Aos de estudio (aprox.) c. Dependent Variable: Ingreso horario de la ocupacin ppal

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
COEFICIENTES B Y PRUEBAS T DE SIGNIFICANCIA
Coefficientsa Standardi zed Coefficien ts Beta -,014 -,064 ,362

Model 1 2

(Constant) Sexo (dummy: 0=Varn) (Constant) Sexo (dummy: 0=Varn) Aos de estudio (aprox.)

Unstandardized Coefficients B Std. Error 3,476 ,043 -,0941 ,066 ,271 ,091 -,426 ,062 ,306 ,008

t 80,455 -1,436 2,964 -6,898 39,102

Sig. ,000 ,151 ,003 ,000 ,000

a. Dependent Variable: Ingreso horario de la ocupacin ppal

Modelos de Regresin Lineal


Control de Supuestos
MULTICOLINEALIDAD: a travs de matrices de correlacin simple entre las variables independientes. Solucin: Seleccionar variables independiente con baja correlacin entre s y/o transformar en variables dummy no colineales. NORMALIDAD DE LOS RESIDUOS: a travs de un grfico de de distribucin de los residuos. Solucin: eliminacin de datos outliers. HETEROSCEDASTICIDAD: a travs de grficos de residuos para cada valor de . Solucin: Eliminacin de casos outliers, tranformacin de las variables independientes y/o estandarizacin de la variable dependiente Y. AUTOCORRELACIN DE ERRORES: a travs de la prueba Durbin-Watson / el valor 2 indica no autocorrelacin. Solucin: Correccin de observaciones o eliminacin de datos.

Modelos de Regresin No Lineal


Ajustes Estadsticos del Mtodo
Cmo ajustar modelos de regresin lineal cuando la funcin no es lineal?

La regresin lineal no siempre da buenos resultados, porque a veces la relacin entre Y y X no es lineal sino que exhibe algn grado de curvatura. La estimacin directa de los parmetros de funciones no-lineales es un proceso complicado. No obstante, a veces se pueden aplicar las tcnicas de regresin lineal por medio de transformaciones de las variables originales.

AJUSTE DE VARIABLES A FUNCIONES NO LINEALES

Hacer el diagrama de dispersin de las dos variables y evaluar si el patrn resultante sigue la forma lineal o alguna otra funcin. Identificada dicha funcin, substituir los valores de una variable con sus valores cuadrados, raz cuadrada, logartmicos o con alguna otra modificacin, y hacer de nuevo la matriz de correlacin. Identificar la funcin que mejor ajuste por medio de un paquete estadstico y determinar los coeficientes para la construccin de esa ecuacin. FUNCIONES NO LINEALES

Exponencial:

Logartmica:

Polinmica:

y = a + bx

y = a + log b x

y = a + b x + c x2

FUNCIONES NO LINEALES

Exponenciales

Logartmicas

Modelos de Regresin No Lineal


Ajustes Estadsticos del Mtodo
Una funcin no-lineal que tiene aplicaciones es la funcin exponencial: muchas

Y = AXb Si aplicamos logaritmos, esta funcin tambin puede ser expresada como: log(Y) = log(A) + b.log(X). En lugar de calcular la regresin de Y contra X, calculamos la regresin del logaritmo de Y contra el logaritmo de X. Este modelo es interesante, porque el exponente b en una funcin exponencial mide la elasticidad de Y respecto de X.

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
CORRELACIN SIMPLE
Correlations Ingreso horario de la Sexo Aos de ocupacin (dummy: estudio ppal 0=Varn) (aprox.) 1,000 -,014 ,354** , ,149 ,000 10339 10339 10338 -,014 1,000 ,137** ,149 , ,000 10339 10339 10338 ,354** ,137** 1,000 ,000 ,000 , 10338 10338 10338

Ingreso horario de la ocupacin ppal

Pearson Correlation Sig. (2-tailed) N Sexo (dummy: 0=Varn) Pearson Correlation Sig. (2-tailed) N Aos de estudio (aprox.) Pearson Correlation Sig. (2-tailed) N

**. Correlation is significant at the 0.01 level (2-tailed).

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
GRAFICAS DE DISPERSIN DE RESIDUOS
His togram Dep. Var.: Ingres o horario de la ocupacin ppal
7000 6000 5000 4000 3000 2000 Std. D ev = 1,00 1000 0 Mean = 0,0 N = 10338,00

Frequency

,0 22 ,0 20 ,0 18 ,0 16 ,0 14 ,0 12 ,0 10

Regress ion Standardized Residual

0 0, ,0 -2

0 8, 0 6, 0 4, 0 2,

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
PRUEBAS DE HETEROSCEDASTICIDAD
Scatterplot Dependent Variable: Ingres o horario de la ocupacin ppal
30
1,00

Normal P-P Plot of Regres sion Standardized Res . Dep. Var.: Ingres o horario de la ocupacin ppal

20

,75

Expected Cum Prob

10

,50

,25

-10 -4 -3 -2 -1 0

0,00

0,00

,25

,50

,75

1,00

Regress ion Standardized Predicted Value

Obs erved Cum Prob

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
DURBIN WATSON: EVALUACIN DE AUTOCORRELACIN

b Model Summary

Model 1

R R Square ,359 a ,129

Adjusted R Square ,129

Std. Error of the Estimate 3,0832

Durbin-W atson 1,707

a. Predictors: (Constant), Sexo (dummy: 0=Varn), Aos de estudio (aprox.) b. Dependent Variable: Ingreso horario de la ocupacin ppal

Modelos de Regresin Lineal


QU HACER FRENTE A LOS SESGOS

DE ESTIMACIN?

Eliminar casos distribucin.

OUTLIERS

que

afectan

la

Recodificacin de las variables independientes y/o transformacin LOGSTICA de la variable dependiente. Estratificacin del anlisis a partir de usar una variable independiente como CRITERIO PARA DIVIDIR a la poblacin en grupos comparables.

Modelos de Regresin Lineal


ANLISIS DE EJEMPLOS
BONDAD DE AJUSTE DE LOS MODELOS (R2)
b Model Summary

Model 1

R R Square a ,359 ,129

Adjusted R Square ,129

Std. Error of the Estimate 3,0832

Durbin-W atson 1,707

Modelo Original

a. Predictors: (Constant), Aos de estudio (aprox.), Sexo (dummy 1-Varn) b. Dependent Variable: Ingreso horario de la ocupacin ppal
b Model Summary

Model 1

R R Square a ,401 ,161

Adjusted R Square ,160

Std. Error of the Estimate 2,5866

Durbin-W atson 1,675

Excluyendo desvos mayores a 8z

a. Predictors: (Constant), Aos de estudio (aprox.), Sexo (dummy 1-Varn) b. Dependent Variable: Ingreso horario de la ocupacin ppal

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
BONDAD DE AJUSTE DEL MODELO (R2)
c Model Summary

Model 1 2

R R Square a ,021 ,000 ,422 b ,178

Adjusted R Square ,000 ,178

Std. Error of the Estimate ,7307 ,6625

Durbin-W atson 1,622

Variable dependiente logaritmo ing. horario

a. Predictors: (Constant), Sexo (dummy 1-Varn) b. Predictors: (Constant), Sexo (dummy 1-Varn), Aos de estudio (aprox.) c. Dependent Variable: L_INGHOR

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
GRAFICAS DE DISPERSIN DE RESIDUOS
Histogram Dependent Variable: L_INGHOR
3000

2000

1000

Frequency

Std. Dev = 1,00 Mean = 0,00 0 N = 10338,00

Regression S tandardi zed Resi dual

00 0, 0 ,0 -1 0 ,0 -2 0 ,0 -3 0 ,0 -4 0 ,0 -5 0 ,0 -6

00 5, 00 4, 00 3, 00 2, 00 1,

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
PRUEBAS DE HETEROSCEDASTICIDAD
Scatterplot Dependent Variable: L_INGHOR
6
1,00

Normal P-P Plot of Regression Standardized Residu Dependent Variable: L_INGHOR

4
,75

0
Expected Cum Prob

,50

-2

,25

-4 -6 -3 -2 -1 0

0,00

0,00

,25

,50

,75

1,00

Regression S tandardi zed Predi cted Val ue

Observed Cum Prob

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
CORRELACIN SIMPLE
Correlations Sexo Aos de L_INGHO (dummy estudio R 1-Varn) (aprox.) 1,000 -,021* ,421** , ,031 ,000 10339 10339 10338 -,021* 1,000 -,137** ,031 , ,000 10339 10339 10338 ,421** -,137** 1,000 ,000 ,000 , 10338 10338 10338

L_INGHOR

Pearson Correlation Sig. (2-tailed) N Sexo (dummy 1-Varn) Pearson Correlation Sig. (2-tailed) N Aos de estudio (aprox.) Pearson Correlation Sig. (2-tailed) N

*. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed).

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
ANLISIS DE VARIANZA DE LOS MODELOS
ANOVAc Sum of Squares 2,504 5518,817 5521,321 985,393 4535,928 5521,321 Mean Square 2,504 ,534 492,696 ,439

Model 1

df 1 10336 10337 2 10335 10337

Regression Residual Total Regression Residual Total

F 4,689

Sig. ,030 a

1122,596

,000 b

a. Predictors: (Constant), Sexo (dummy 1-Varn) b. Predictors: (Constant), Sexo (dummy 1-Varn), Aos de estudio (aprox.) c. Dependent Variable: L_INGHOR

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
COEFICIENTES B Y PRUEBAS T DE SIGNIFICANCIA
Coefficientsa Standardi zed Coefficien ts Beta -,021 ,037 ,426

Model 1 2

(Constant) Sexo (dummy 1-Varn) (Constant) Sexo (dummy 1-Varn) Aos de estudio (aprox.)

Unstandardized Coefficients B Std. Error ,976 ,011 -,0314 ,014 ,0557 ,022 ,0549 ,013 ,0796 ,002

t 89,504 -2,165 2,553 4,139 47,323

Sig. ,000 ,030 ,011 ,000 ,000

a. Dependent Variable: L_INGHOR

S-ar putea să vă placă și