Sunteți pe pagina 1din 12

Modelo de regresión múltiple

Análisis del Ingreso

Integrantes:
Claire Aubry
201504540-2
Lucas Lorie
201560627-7
Nathaly Navarrete
201504589-5

Profesores:
Enzo Hernández
Oscar López

Fecha:
14 de Diciembre
RESUMEN:

La investigación presente se ha realizado con el fin de explicar cómo hay variables que
efectivamente pueden influir en el salario de una persona en Chile. Se tomó la base de datos del SII
y se aplicaron análisis estadísticos para descartar las variables que menos tenían influencia en el
modelo. Luego se creó un nuevo modelo y se generó una regresión entre las variables más
significativas. De esta manera se pudo determinar que la regresión si sirve para explicar el modelo,
por lo que se acepta las variables propuestas efectivamente influyen en el salario de la persona

INTRODUCCIÓN:

El salario percibido mensualmente por los trabajadores como contraprestación por su trabajo les
permite cubrir sus necesidades de alimentación, vivienda, transporte, vestido y recreación, entre
otras. Es un elemento importante para la vida de toda persona ya que permite su desarrollo personal
y el de su familia, fin supremo de la sociedad. De acuerdo al nivel de ingreso percibido, el
trabajador va cubriendo sus necesidades básicas para luego ir destinando parte de él para gastos
menos importantes como el ocio o la recreación

Sin embargo, la importancia del salario para el trabajador va mucho más allá de la necesidad de
servir de sustento a si mismo y a su familia. La economía del país funciona con este ingreso y su
variación afecta a distintos factores que se deben tomar en cuenta. El presente informe busca
estimar el ingreso de un individuo (variable explicada) mediante una serie de variables explicativas
que son proporcionadas por una base de datos real. Para esto se utilizan distintos métodos de
análisis estadístico para las variables que tentativamente podrían influir en el salario.

El modelo de regresión lineal múltiple es la técnica estadística más utilizada en estadística, debido a
la facilidad de cálculo e interpretación de sus resultados.
Ha sido desarrollado con el fin de analizar la relación que existe entre una serie de variables
independientes (x1, x2, …, xn) y una variable dependiente (y), las primeras son las que causan el
fenómeno, y la segunda corresponde al resultado esperado.
La idea de este modelo es, mediante las variables independientes, hacer una estimación de lo que
será la variable dependiente. Este método permite extrapolar datos.
La fórmula se plantea tipo:

Esta técnica estadística está creada para predecir fenómenos sociales, económicos o sociológicos, en
finanzas para investigar ventajas y desventajas en inversiones, pero su uso más importante se da en
el área de la economía prediciendo gastos de consumo, exportaciones, ofertas de trabajo, demanda
laboral, ingreso, entre otras.
OBJETIVOS:
Objetivo General:
Obtener un modelo de dependencia entre el bienestar de la persona (variable “ingreso”) ante las
variables dadas por la base de datos, principalmente “región”, “profesión” y “edad”.

Objetivos específicos:

1. Describir las variables que componen la base de datos, tanto cualitativa como categórica.
2. Determinar asociación de la variable “ingreso” con respecto a la variable “edad”.
3. Determinar asociación de la variable “ingreso” con respecto a la variable “región”.
4. Determinar asociación de la variable “ingreso” con respecto a la variable “profesión”.
5. Construir un modelo de regresión lineal que explique el ingreso de un persona.

MATERIALES Y MÉTODOS:

Variables:

a) Ingreso: es una variable continua, escalar y representa el ingreso de la persona encuestada.


b) Comuna: es una variable nominal y representa la comuna de la persona encuestada.
c) Ciudad: es una variable nominal y representa la ciudad de la persona encuestada.
d) Región: es una variable nominal y representa la región de la persona encuestada.
e) Región_A: es una variable nominal y representa la zona donde está la región de la persona
encuestada.
f) Profesión: es una variable nominal y representa el trabajo de la persona encuestada.
g) Profesión_A: es una variable nominal y representa el tipo de profesión de la persona
encuestada.
h) Género: es una variable dicotómica y representa el sexo de la persona encuestada, siendo 1
para hombre y 2 para mujer.
i) Edad: es una variable discreta, escalar y representa la edad de la persona encuestada.
j) Estado_civil: es una variable nominal y representa el estado civil de la persona encuestada,
siendo 1 para solteros, 2 para casados y 3 separados.
k) Estado_civil_a: es una variable nominal y representa si la persona está casada o no.
l) Auto_marca: es una variable nominal y representa la marca del auto de la persona
encuestada.
m) Auto_fabric: es una variable discreta, escalar y representa el año de fabricación del
automóvil de la persona encuestada.
n) Auto_tasacion_fiscal: es una variable discreta, escalar y representa la tasación fiscal de auto
de la persona encuestada.
o) Auto_tasacion_total: es una variable discreta, escalar y representa la tasación total de auto
de la persona encuestada.
p) Auto_n: es una variable discreta, escalar y representa el número de autos que posee la
persona encuestada.
q) CSAUTO: es una variable dicotómica y representa si la persona encuestada tiene o no auto.
r) Prop_avaluo_total: es una variable discreta, escalar y representa el avaluó de las
propiedades de la persona encuestada.
s) Deuda_consumo: es una variable discreta, escalar y representa la deuda solo de consumo de
la persona encuestada.
t) Línea_credito_disp: es una variable discreta, escalar y
representa la línea de créditos disponible que posee la persona encuestada.
u) Deuda_hipotecario: es una variable discreta, escalar y representa la deuda hipotecaria de la
persona encuestada.
v) Deu_num_inst: es una variable discreta, escalar y representa el número de instituciones
acreedoras que tiene la persona encuestada.
w) Pasivo: es una variable discreta, escalar y representa el pasivo de la persona encuestada.
x) Activo: es una variable discreta, escalar y representa el activo de la persona encuestada.
y) Patrimonio: es una variable discreta, escalar y representa el patrimonio de la persona
encuestada.
z) Deuda: es una variable discreta, escalar y representa si el individuo tiene o no tiene deudas.
aa) Ingreso_a: es una variable discreta, escalar y representa el ingreso de la persona encuestada.
ab) Norte: es una variable dicotómica que representa si la persona vive en el norte o no. Toma
los valores 1 si vive ahí y 0 si no.
ac) Centro: es una variable dicotómica que representa si la persona vive en el centro o no. Toma
los valores 1 si vive ahí y 0 si no.
ad) Sur: es una variable dicotómica que representa si la persona vive en el sur o no. Toma los
valores 1 si vive ahí y 0 si no.
ae) Profesionales y técnicos: es una variable dicotómica que representa si la persona es o no un
profesional o técnico. Toma los valores 1 si es y 0 si no lo es.
ad) Oficio u otro: es una variable dicotómica que representa si la persona pertenece al grupo
tiene oficio u otro. Toma los valores 1 si es así y 0 si no lo es.
af) Hombre x edad: Es una variable discreta, escalar que representa la edad de los hombres del
estudio.
ag) No casados: es una variable dicotómica que representa si la persona es o no casado. Toma
los valores 1 si es y 0 si no lo es.
ah) No casados x edad: Es una variable discreta, escalar que representa la edad de los hombres
no casados
ai) pasivo: Es una variable discreta, escalar que representa el pasivo de las personas.
aj) pasivo x hombre: Es una variable discreta, escalar que representa el pasivo de los hombres.
ak) Edad2: Es una variable discreta, escalar, que representa el cuadrado de las edades.

Métodos:
Primero se analizó la base tal como venía, se realizó un análisis estadístico de cada variable, en el
cual se evidenció que hay datos atípicos. Esto se hizo con la base de profesión, analizando los
sueldos de las personas con distintos trabajos, para crear una nueva variable (profesión_A), la cual
agrupó en tres categorías: los no aplica (los cuales no informaron), profesionales (los con estudios
universitarios), y los oficios u otros.

También se filtró con la variable región, con la cual se creó una nueva variable región_a, la cual
consiste en reagrupar a las personas en tres grupos: norte, para 1, 2, 3, 4 y 15 , centro, para 13, 5, 6
y 7, y sur, para 8, 9, 10, 11, 12 y 14. A partir de esta, se crearon las variables “norte”, “sur” y
“centro”, que dan información binaria acerca de si se pertenece o no a determinado sector
geográfico. Además se codificó una variable ingreso_a, que es igual a la variable ingreso pero sin el
signo $. Finalmente se creó la variable estado_civil_a que separa a estado_civil por casado o no
casado, siendo casado para 2 y no casados 1 y 3.

Para el análisis del ingreso versus las otras variables se ocupó la herramienta de tabla dinámica y
gráfico dinámico que posee Excel dentro de sus funcionalidades.
El modelo de regresión tiene 14 variables , de cuales
“región_a”, “profesión_a”, “estado_civil_a” fueron agrupadas para poder trabajar en Excel de
acuerdo a la regla de J-1 , lo cual quiere decir que se deje como referencia un grupo de cada
categoría de las variables. Por otro lado, este modelo también incluye variables dicotómicas como
lo es el “género”, polinomios que representan de mejor manera la variable , en este caso “la
edad”,ya que si se analiza el ingreso de acuerdo a su relación con la edad, va a llegar un momento
en que a una edad determinada el ingreso ya no va a aumentar más, sino que disminuirá como por
ejemplo en el caso de la jubilación. Este polinomio de grado 2 representa esta situación porque
gráficamente la edad seria una parábola.También incluye interacciones entre variables continuas y
discretas que le dan mayor especificación al modelo.

Para llevar a cabo esta regresión lineal se ocupó la herramienta de Análisis de datos, donde “Y” es
la variable que corresponde al “ingreso” y “X” es la variable que se relaciona con las otras 14
variables del modelo, luego Excel arroja una tabla donde aparece la estadística de la regresión
donde el valor que se toma como el más relevante es el R2 ajustado ya que da la significancia de
qué tan bueno es el modelo. En este análisis también se ve reflejado el valor de los parámetros , el
estadístico t y el intervalo de confianza con el cual se puede hacer el test de hipótesis y definir
cuáñes son las variables significativas para el modelo.

ANÁLISIS DE DATOS:
Asociación de la variable “ingreso” con respecto a la variable “edad”:

Regression Statistics
Multiple R 0,194276811
R2 0,037743479
Adjusted R Square 0,037646115
Standard Error 1427154,806
Observations 9885

SS
Regression 789554357780796
Residual 20129406210673200
Total 20918960568454000

SCE 789554357780796
SCT 20918960568454000
R2 = SCE/SCT 0,037743479

La edad laboral de las personas que se han analizado pertenece al rango entre los 20 y 63 años. El
ingreso aumenta sostenidamente entre los 25 y los 39 años, desde los 40, la variación ya no es
ascendente y vemos que en algunos casos aumenta bruscamente entre un año y otro (como se puede
observar a los 41 y 44 años, para luego descender desde los 45 en adelante.

Con esto podemos concluir que si aumenta el ingreso a medida que aumenta la edad, pero la curva
no es siempre ascendente, esta tendencia se mantiene hasta aproximadamente los 38 años, luego los
saltos de ingreso entre un año y otro son más pronunciados, para a los 46 empezar a aumentar y
disminuir de manera más lenta.

El coeficiente de determinación está más cercano al cero, por lo que la variable no es determinante
por si sola.

Asociación de la variable “ingreso” con respecto a la variable “región”:


Regression Statistics
Multiple R 0,059719729
R Square 0,003566446
Adjusted R Square 0,00336478
Standard Error 1452351,701
Observations 9885

SS
Regression 74606344481672
Residual 20844354223972300
Total 20918960568454000

SCE 74606344481672
SCT 20918960568454000
R2 = SCE/SCT 0,003566446

Se puede observar que en la muestra analizada hay una mayor cantidad de datos de personas que
viven en la zona centro del país.

Lo que se puede ver, es que el ingreso promedio es mayor en la zona centro que en las zonas
extremas del país, siendo $1.812.208 en zona centro, $1,748.597 en norte y $1.582.293 en el sur.
Respecto del ingreso promedio de toda la muestra, de $1.790.141, la zona centro está por sobre un
1,23%, mientras que la zona norte y sur están bajo un 2% y un 12%.

El R2 en este caso es muy cercano a cero, por lo que la variable no es representativa en este modelo
de regresión lineal.

Asociación de la variable “ingreso” con respecto a la variable “profesión”:

Regression Statistics
Multiple R 0,124254279
R Square 0,015439126
Adjusted R Square 0,015239862
Standard Error 1443673,26
Observations 9885

SS
Regression 322970467122920
Residual 20595990101331100
Total 20918960568454000

SCE 322970467122920
SCT 20918960568454000
R2 = SCE/SCT 0,015439126

La muestra analizada contaba con un mayor número de personas con oficio que profesionales y
técnicos. Basado en los datos podemos notar que el ingreso promedio es mayor en personas con
profesión, pero distinto a lo esperado, los oficios tienen mayor ingreso que personas con estudios
técnicos.

El R2 en este caso es muy cercano a cero, por lo que la variable Profesión por sí sola no es
representativa en este modelo de regresión lineal.

Construir un modelo de regresión lineal que explique el ingreso de un persona:

𝛾 = 𝛽0 + 𝛽1 𝑁𝑂𝑅𝑇𝐸 + 𝛽2 𝐶𝐸𝑁𝑇𝑅𝑂 + 𝛽3 𝑃𝑅𝑂𝐹𝐸𝑆𝐼𝑂𝑁𝐴𝐿𝐸𝑆 𝑌 𝑇𝐸𝐶𝑁𝐼𝐶𝑂𝑆 + 𝛽4 𝑂𝐹𝐼𝐶𝐼𝑂 𝑈 𝑂𝑇𝑅𝑂𝑆 + 𝛽5 𝐻𝑂𝑀𝐵𝑅𝐸


+ 𝛽6 𝐸𝐷𝐴𝐷 + 𝛽7 𝐸𝐷𝐴𝐷2 + 𝛽8 𝐻𝑂𝑀𝐵𝑅𝐸 𝑋 𝐸𝐷𝐴𝐷 + 𝛽9 𝑁𝑂 𝐶𝐴𝑆𝐴𝐷𝑂 + 𝛽10 𝑁𝑂 𝐶𝐴𝑆𝐴𝐷𝑂 𝑋 𝐸𝐷𝐴𝐷
+ 𝛽11 𝑃𝐴𝑆𝐼𝑉𝑂 + 𝛽12 𝑃𝐴𝑆𝐼𝑉𝑂 𝑋 𝐻𝑂𝑀𝐵𝑅𝐸 + 𝛽13 𝐴𝐶𝑇𝐼𝑉𝑂 + 𝛽14 𝐴𝐶𝑇𝐼𝑉𝑂 𝑋 𝐻𝑂𝑀𝐵𝑅𝐸 + 𝜀

Este modelo tiene un coeficiente de determinación o R2 ajustado de 0.420 y tiene 9 variables


significativas, adicionalmente este modelo cumple con polinomios e interacciones entre sus
variables.

El intercepto no tiene sentido en su interpretación puesto que estamos tomando variables continuas
que no pueden tomar el valor cero.

Las personas que viven en la zona norte ganan $73.774 más que las personas de zona sur, pero esta
variable no es significativa ya que el t estadístico en menor a dos y el intervalo de confianza pasa
por el cero.

Las personas de la zona centro ganan $68.496 más que las que viven en la zona sur y esta variable
si es significativa ya que el t estadístico es mayor a dos y su intervalo de confianza no pasa por el
cero y se debe juntar norte con sur.

Los profesionales y técnicos ganan -$14.636 menos que las personas que no informaron actividad
además esta variable no es significativa ya que el t estadístico en menor a dos y el intervalo de
confianza pasa por el cero. Oficio u otros ganan -$339.243 menos que las personas que no

informaron actividad además y la variable si es significativa ya que el t estadístico es mayor a dos y


su intervalo de confianza no pasa por el cero
Los hombres ganan $43.739 más que las mujeres, pero la variable no es significativa por si sola ya
que el t estadístico en menor a dos y el intervalo de confianza pasa por el cero. Un hombre por cada
año más de vida gana $51.381 adicional, además la variable si
es significativa ya que el t estadístico es mayor a dos y su intervalo de confianza no pasa por el
cero.
Las variables edad si son significativas ya que el t estadístico es mayor a dos y su intervalo de
confianza no pasa por el cero, pero la variable edad2 es una parábola.
Las personas no casadas ganan -$101.705 menos que una persona casada pero la variable no es
significativa ya que t estadístico en menor a dos y el intervalo de confianza pasa por el cero.
la persona no casada cada año adicional de vida gana -$106.625 menos que una persona casada y la
variable no es significativa ya que t estadístico en menor a dos y el intervalo de confianza pasa por
el cero.
La variable pasiva representa la deuda que tienen las personas y si es significativa en los dos casos,
por si sola donde su t estadístico es 25.65 y el intervalo de confianza pasa por el cero y pasivo x
hombre es significativo o sea un hombre tiene -$0.0001 menos que una mujer.
La variable activa es lo que posee una persona o sea propiedades o automóviles, de las cuales
activos por sí solo no es significativo ya que el t estadístico en menor a dos más encima el intervalo
de confianza pasa por el cero y activo por hombre no es significativo, pero quiere decir que un
hombre tiene $0.0006 más activos que una mujer.
Para comprobar si el modelo creado logra estimar el ingreso de una persona, se prueba el modelo
con 5 casos hipotéticos:
● Sujeto 1: Hombre, Santiago, maestro mueblista, 56 años, casado, deuda de $10.367.987
Bienes por un monto de $56.000.000. Ingreso: $ 2.114.158.
● Sujeto 2: Hombre, Puerto Montt, técnico en construcción, 23 años, soltero, no tiene deuda
Tiene auto de $2.500.000. Ingreso: $ 1.011.720.
● Sujeto 3: Hombre, Iquique, abogado, 35 años, casado, deuda de $57.820.977, tiene auto y
casa por un valor de $80.600.550. Ingreso: $ 2.2674.847.
● Sujeto 4: Mujer, Viña del Mar, Ingeniero Civil Industrial, edad 48 años, casada, pasivo de
$73.500.234. Propiedades por $120.000.000. Ingreso: $ 2.674.847.
● Sujeto 5: Mujer, Antofagasta, cajera, edad 28 años, soltera, pasivos $2.900.821, activos
$7.350.000. Ingreso: $ 668.534.

A partir de un análisis de las tablas adjuntas en el anexo, de las 9 variables X de la regresión lineal
se toman las más significativas, donde no se rechaza la hipótesis nula, para una nueva regresión,
obteniendo:

𝛾2 = 𝛽0 + 𝛽1 𝐶𝐸𝑁𝑇𝑅𝑂 + 𝛽2 𝑂𝐹𝐼𝐶𝐼𝑂 𝑈 𝑂𝑇𝑅𝑂𝑆 + 𝛽3 𝐸𝐷𝐴𝐷 + 𝛽4 𝐸𝐷𝐴𝐷2 + 𝛽5 𝐻𝑂𝑀𝐵𝑅𝐸 𝑋 𝐸𝐷𝐴𝐷


+ + 𝛽6 𝑁𝑂 𝐶𝐴𝑆𝐴𝐷𝑂 𝑋 𝐸𝐷𝐴𝐷 + 𝛽7 𝑃𝐴𝑆𝐼𝑉𝑂 + 𝛽8 𝑃𝐴𝑆𝐼𝑉𝑂 𝑋 𝐻𝑂𝑀𝐵𝑅𝐸 + 𝛽 9 𝐴𝐶𝑇𝐼𝑉𝑂 + 𝜀

Esta nueva regresión tiene solo las 9 variables significativas mencionadas anteriormente. A pesar de
contener solo variables significativas, el R2 de esta regresión es igual al del modelo antes expuesto,
es decir, 0,42.
Conclusión:
Se puede concluir que uno de los aspectos más importantes de un modelo estadístico es la relación o
dependencia entre variables. Es de sumo interés conocer cómo influyen unas variables sobre otra,
los efectos que causan, así como la predicción de mayor o menor grado una variable a partir de otra.
Los métodos de regresión estudian la construcción de modelos para explicar la dependencia entre
una variable dependiente y la variable explicativa.

Con una base de 10.000 datos de personas como la edad, estado civil, deudas, profesiones, entre
otras se debía lograr obtener el ingreso de cada uno mediante las variables dadas (edad, estado civil.
profesión. etc.). Con esta base fueron eliminadas 115 datos que estaban fuera de rango o anómalos,
quedando una muestra de 9.885 registros. Además, se crearon nuevas variables y se agruparon
algunas como los estados civiles en casados y no casados ya que al estar dividido en separado,
casado y soltero no era significativo. También se realizó un análisis para ver que relación había con
el ingreso según profesión y región. Finalmente se realizó el análisis de regresión para ver cual era
el mejor para determinar el ingreso de las personas.

El modelo de regresión utilizado tiene el mayor coeficiente de determinación o R2 0,42. Además


tiene o cumple con 9 variables significativas o importantes y el modelo de regresión solo con esas
variables tiene el mismo R2, adicionalmente este modelo cumple con polinomios e interacciones
entre sus variables. A modo de conclusión, se considera que el resultado del modelo final
seleccionado es satisfactorio a pesar de que R2 fue relativamente bajo, debido a los valores
obtenidos en las pruebas.
Anexos:

Anexo 1: análisis de datos del modelo de regresión

Anexo 2: Test de hipótesis del modelo de regresión lineal

Test de Hipótesis T>2 β=0 Comentario


NORTE 1,63 si no se rechaza hipótesis nula
CENTRO 1,98 no se rechaza hipótesis nula
PROFESIONALES Y TECNICOS 0,65 si no se rechaza hipótesis nula
OFICIO U OTRO 9,17 no se rechaza hipótesis nula
HOMBRE 0,94 si no se rechaza hipótesis nula
EDAD 4,22 no se rechaza hipótesis nula
EDAD2 2,43 no se rechaza hipótesis nula
HOMBRE X EDAD 3,43 no se rechaza hipótesis nula
NO CASADO 1,42 si no se rechaza hipótesis nula
NO CASADO X EDAD 3,91 no se rechaza hipótesis nula
PASIVO 25,65 no se rechaza hipótesis nula
PASIVO X HOMBRE 2,63 no se rechaza hipótesis nula
ACTIVO 7,51 no se rechaza hipótesis nula
ACTIVO X HOMBRE 1,64 si no se rechaza hipótesis nula

Anexo 3: análisis de datos del modelo de regresión 2

S-ar putea să vă placă și