Sunteți pe pagina 1din 4

Universidad de San Buenaventura. Bedoya, Garcia, Merino.

Uso de análisis de regresión múltiple para estimar las contribuciones


de los parametros de nivel equivalente de ruido medido en un punto del area metropolitana. 1

Uso de análisis de regresión múltiple para estimar


las contribuciones de los parametros de nivel
equivalente de ruido medido en un punto del area
metropolitana. (Septiembre, 2019).
Bedoya, Jose M.1 ,Garcia, Daniel.3 ,Merino, David.4
1−3
Facultad de Ingenierı́as
Universidad de San Buenaventura, Medellı́n.
1
josebedoya117@gmail.com,3 danielgar145@gmail.com,4 davidmj915@gmail.com,

13 de septiembre, 2019

1. Estado del arte 1.2. Nivel de ruido ambiental en el área metro-


politana
La última actualización del mapa de ruido que el área me-
1.1. Relación del sonido con la presión atmosféri- tropolitana dio a conocer, fue en el año 2017, el cual nos da a
ca mostrar toda la contaminación de ruido que se presenta en toda
el área metropolitana.

Al definir en primer lugar el sonido, se da a conocer como


una onda mecánica que se propaga por un medio elástico, el que
puede tener cualquier variación de presión en el oı́do humano.
Por lo que el sonido se produce un intervalo de tiempo demasia-
do corto, a lo que solo se puede detectar por medio de frecuencia,
teniendo el hombre un umbral auditivo de 20Hz a 20000Hz. De
este modo, se puede caracterizar el sonido por dos parámetros,
presión sonora y frecuencia. Por lo que la presión sonora se defi-
ne como: “La diferencia entre la presión total cuando se produce
el pasaje de la onda sonora y la presión atmosférica normal o de
referencia (Po).” [1].

Los niveles de ruido varı́an constantemente. Por lo que una


mejor manera de poder entender este cambio es con una repre-
sentación de tiempo contra NPS (Nivel de Presión Sonora), en
el que el NPS se sitúa en determinados intervalos. A lo que se
debe saber que la intensidad sonora se va disminuyendo con el
cuadrado de la distancia, por lo que toda medida de NPS se debe
acompañar con información sobre la distancia hasta la fuente. Fig.1. Mapa de ruido Area metropolitana 2017
Las condiciones topográficas y atmosféricas afectan bastante la
propagación del sonido. Además, el propio aire absorbe parte de Por lo que se puede deducir que la mayor parte del ruido en el
la energı́a, principalmente en altas frecuencias [2]. área metropolitana (80
El promedio más bajo entre esas tres estaciones sigue sien-
Ruido, definido como cualquier sonido indeseable, es tam- do alto, según los expertos. La estación de monitoreo dispuesta
bién una forma de contaminación, pues se trata de la emisión en la Torre Siata, Estadio, mostró un promedio anual de 64,7
de energı́a hacia el medio ambiente, y si definimos presión at- decibeles durante la noche.
mosférica como la diferencia entre la presión instantánea debida La resolución 627 del año 2006 establece los niveles máxi-
al sonido y la presión atmosférica, y, naturalmente, también se mos admisibles de ruido ambiental en todo el territorio nacional
mide en Pascales. y sugiere niveles un tanto más permisivos durante el dı́a (7 a. m.
2

- 9 p. m.), pues considera la noche como una fase de descanso Y2 = β0 + β1 x21 + β2 x22 ....βk x2k + u2
(9 p. m. - 7 a. m.). ..
.
Según los mapas de ruido del SIATA, el principal generador
Yn = β0 + β1 xn1 + β2 xn2 ....βk xnk + un
de ruido ambiental en Medellı́n es el tráfico vehicular, segui-
Pero debido a que manejarlo de esta manera es algo muy tedio-
do por la industria y las actividades comerciales, sobre todo en
so, lo mejor serı́a trabajarlo de una manera matricial; permitien-
horario nocturno.Y es que en promedio, un ciudadano vive por
do presentar de una manera más compacta tanto el modelo como
encima de los 70 decibeles de ruido.
los resultados:
Y = Xβ + u
1.3. Conceptos teoricos
       
1.3.1. Regresión lineal múltiple y1 1 x11 x12 ··· x1k β0 u0
 y2  1 x21 x22 ··· x2k  β1  u1 
El análisis de regresión es la técnica estadı́stica de uso más  ..  =  ..
  
.. .. ..  =  ..  +  ..  (2)
    
frecuente para investigar y modelar la relación entre variables.  .  . . . .   .   . 
Su atractivo y utilidad generalmente son el resultado del proce- yn 1 xn1 xn2 ··· xnk βk uk
so conceptualmente lógico de usar una ecuación para expresar la
relación entre una variable de interés y un conjunto de variables 1.3.4. Estimación de los coeficientes de regresión
predictoras relacionadas[3]
A la hora de realizar un modelo de regresión lineal múltiple, Cuando se habla del término lineal, se refiere al hecho de que
se deben tener en cuenta la cantidad de variables predictoras o la media es considerada como una función lineal de los paráme-
independientes que se van a manejar ya que estas, además de tros desconocidos, donde dichos parámetros son llamados coefi-
manejar el principio de la linealidad, están sujetas a la multico- cientes de regresión.
linealidad, término usado para expresar que dos o más variables Para estimar esto, el mejor método es el conocido como el
independientes se comportan del mismo modo frente al modelo, método de los mı́nimos cuadrados, los cuales antes de aplicarlo
causando sesgo y que a la hora de realizar la matriz de datos, hay que tener en cuenta las siguientes consideraciones sobre los
esta tenga como determinante 0; Frente a los modelos de com- datos para poder establecer, según el teorema de Gauss-Markov,
portamiento, esto puede dar un sesgo en el modelo o disminuir este método de mı́nimos cuadrados van a producir estimadores
los efectos reales que tienen los predictores sobre la variable de- óptimos, en el sentido que los parámetros estimados van a estar
pendiente. Por tanto, cada una de las variables independientes centrados y van a ser de mı́nima varianza.
debe pasar por un conjunto de estudios estadı́sticos que permitan Linealidad: los valores de la variable dependiente están
definir cuál de las variables predictores cuentan con una multi- generados por el siguiente modelo lineal: Y = X ∗ B + U
colinealidad y cuales son aptas para continuar con el modelo.
Homocedasticidad: todas las perturbaciones tienen las
1.3.2. Modelo de regresión múltiple misma varianza; es decir, la varianza de los errores se
mantendrá constante a lo largo del tiempo
La relación de variable Y dependiente con K-número de va-
riables tales que x1, x2, ...xk, si las variables independientes re- Las variables explicativas Xk se obtienen sin errores de
ciben ciertos valores como x1, x2, ...xk, la regresión múltiple medida.
nos muestra de la siguiente manera el valor de la variable de-
Ahora sı́, con esta hipótesis planteada, se procede a realizar el
pendiente Yi:
método de los mı́nimos cuadrados para encontrar los paráme-
tros β
Yi = β0 + β1 x1i + β2 x2i ....βk xki + ui (1)
Primero se plantea un hiperplano donde la varianza residual
Con i de 1 hasta n Donde β0 es un término constante, β1 , β2 ...βk sea mı́nima, es decir, que la varianza que esté por debajo de la
son los coeficientes de regresión parcial,ui es el error o el resi- desviación estándar sea mı́nima:
duo y n es el tamaño de la muestra. X
(yj − ybj )2 (3)
En términos más simples, lo anterior nos quiere decir que la
Y donde:
variable Y se compone de un valor que depende de manera con-
tinua de las diferentes Xi y un error aleatorio ui representando
Y
cj = β0 + β1 x11 + β2 x2j ....βk xk,j (4)
el error causado por la medición o efectos de otras variables no
incluidas explı́citamente en el estudio. Usando notación matricial:

  
1.3.3. Montar el modelo de regresión múltiple u1 y1 − β0 + β1 x11 + β2 x21 ....βk xk,1
 u2   y2 − β0 + β1 x12 + β2 x22 ....βk xk,2 
Cuando tenemos n observaciones en Y y cada uno con sus u= . =
  
..  = yj −ybj

valores asociados Xi, el modelo completo quedarı́a de la siguien-  ..   . 
te forma: un yn − β0 + β1 x1n + β2 x2n ....βk xk,n
Y1 = β0 + β1 x11 + β2 x22 ....βk x1k + u1 (5)
3

Resumiendo 1.3.6. Pruebas de coeficientes individuales


Después de determinar que hay valores relevantes importa
     
y1 1 x11 ··· xk1 β0
 y2  1 x12 ··· xk2   β1  saber cuáles son. Al agregar una nueva variable al modelo, tene-
u =  . −  ∗  ..  = y − X ∗ β (6) mos múltiples de los valores hallados que se ven afectados, pero
     
 ..   ..
.   . 
esto no es suficiente para definir si esta nueva variable le está
yn 1 x1n ··· xkn βk aportando al modelo. Para definir el aporte de una variable al
modelo, se utilizan las mismas hipótesis de la sección anterior,
Por lo tanto la varianza residual se puede expresar de la si- solo que aquı́, si no hay un rechazo de la hipótesis nula significa
guiente forma: que este nuevo regresor que se está insertando no le aporta al
X modelo. Estadı́sticamente, esto es demostrable por la ecuación:
φ(β) = (yj − ybj )2 = u0 ∗ u (7)
βˆj
Dado que esta es una función del vector de parámetros β y la t0 = p (12)
σ̂ 2 Cjj
condición para que tenga un mı́nimo será
donde Cjj es el elemento diagonal de (X 0 X)−1 que correspon-
∂φ(β) de a βj . Además, para comprobar que la hipótesis nula es recha-
=0 (8) zada se debe cumplir que.
∂β
Teniendo como resultado: tα
|t0 | > (13)
2, n − k − 1
0
∂φ(β) ∂(y − X ∗ β) ∗ (y − X ∗ β)
= = −2X 0 Y +2X 0 X∗B Esto también nos demuestra que esto es una prueba parcial,
∂β ∂β pues βj es dependiente de todas las variables regresoras; y se
(9)
le llama por esto prueba de contribución de xj dadas las demás
Despejando β
variables del modelo.

β = (X 0 ∗ X)−1 ∗ X 0 ∗ Y (10)
1.3.7. Valores VIF
Donde β es la estimación de los coeficientes, Y es el vector de Los valores VIF (variance inflation factor) es una de las he-
variables dependientes y X es la matriz de variables explicativas rramientas que ayuda a determinar el umbral de relación de mul-
o variables independientes. ticolinealidad aproximada entre las variables independientes, y
que tan aceptable es este [4] (lo que queda ya a consideración
1.3.5. Estimación de la calidad de la regresión del autor con base en el problem que se busque resolver con el
modelo). Esta y otras herramientas se utilizan cuando el tı́pico
Si todos los datos observados y tomados están en la lı́nea de estimador por mı́nimos cuadrados no e lo suficientemente esta-
regresión al momento de crearla, se podrı́a decir que hay una ble en sus resultados. En este caso, el FIV está definido como:
concordancia completa, pero esto raramente se ve en la prácti-
ca. Por ello, la regresión tendrá ciertos datos con una desviación var(β̂i ) 1
F IV (i) = = (14)
entre el valor esperado y el observado, la cual se conoce como ˆ0
var(βi ) 1 − Ri2
ui , y el signo de este término determina si los valores de Y están
por encima o por debajo del plano esperado y aquı́ es donde en- dónde β̂ representa el estimador de MCO del modelo, y βˆ0
2
tra el coeficiente de determinación (R ) el cual explica como es el estimador MCO del modelo suponiendo que las regresoras
la lı́nea de regresión de la muestra en concordancia con los da- son ortogonales; y Ri2 es el coeficiente de determinación de la
tos , donde este valor obtenido R2 entre más alto se encuentre regresión auxiliar dependiente de xi .
hay mayor concordancia de los datos en el ajuste, teniendo co-
mo máximo el 1 donde el ajuste es perfecto, y aumenta cuando
1.4. Con respecto a los datos:
se agrega un regresor (variable independiente) al modelo.
Además de este, es necesario luego aplicar una prueba de En este documento se trabajará con un conjunto de 386 datos
significancia de la regresión para determinar la existencia de una registrados por la estación SIATA ‘itagüı́, I. E. concejo Munici-
relación lineal entre la variable dependiente Y y cualquiera de pal’ desde el 12 de abril del 2017 hasta el 3 de mayo del 2018.
las variables regresoras; siendo ası́ una prueba general del ajuste Estos datos son correspondientes al nivel equivalente de ruido
del modelo. Para esta, las únicas hipótesis relevantes son: ambiental (Leq ) en esta zona. Este nivel representa el promedio
del nivel energético del ruido en un punto sobre un periodo de
tiempo (en este caso, el perı́odo es de 24 horas pues los datos
H0 : β0 = β1 = β2 = ... = βk = 0 ∨ H1 : βj 6= 0 (11) están registrado por dı́a); y este se ve afectado por la presión
atmosférica (Pa ), además del dı́a que se haya hecho la medi-
Esto determina que, dado un valor de significancia α, la hipótesis da (estos serán identificados como Di , siendo i=1, 2, 3,...,386;
nula queda rechazada, lo que significa que uno de los diferentes y tomando el dı́a 1 como la fecha 12/04/2017, y el 386 como
Xj le está aportando al modelo de forma importante. 3/05/2018).
4

Estos datos fueron obtenidos con ayuda del profesor Jonat- summary(g): #Esta indicacion nos muestra un
han Ochoa, quién se vió involucrado en el trabajo de mediciones resumen de los resultados obtenidos con la
de ruido ambiental dirigido por el área metropolitana del valle funcion lm(),# como los residuales, el
del aburrá, en colaboración con el semillero AMVA de la uni- coeficiente de correlacion...
versidad San Buenaventura, Facultad de ingenierı́as.
plot(fitted(g),residuals(g),xlab="Fitted",ylab=
"Residuales"): #Esta linea nos muestra la
1.5. Aplicando la regresión múltiple en el softwa- gráfica de residuales.
re R
abline(h=0):# Crea una linea horizontal.
R es un lenguaje de programación especialmente indicado
para el análisis estadı́stico. A diferencia de la mayorı́a de los qqnorm(residuals(g),ylab="Residuales"): #Esta
programas que solemos utilizar en nuestros ordenadores, que l n e a nos muestra la gráfica normal de
tienen interfaces tipo ventana, R es manejado a través de una residuales.
consola en la que se introduce código propio de su lenguaje para
obtener los resultados deseados[5]. El código de R está dispo- #Ahora para detectar los problemas de
multicolinealidad se utilizaron los
nible como software libre bajo las condiciones de la licencia
siguientes c d i g o s :
GNU-GPL, y puede ser instalado tanto en sistemas operativos
tipo Windows como en Linux o MacOS X. x<-model.matrix(g)[,-1]: #Crea la matriz x que
La página principal desde la que se puede acceder tanto a los corresponde a la matriz de las variables de
archivos necesarios para su instalación como al resto de recursos respuesta.
del proyecto R es:
e<-eigen(t(x) %* % x):# Nos hace un análisis del
eigensistema de la matriz x x .
http://www.r-project.org
e$val: #Muestra los eigenvalores
Después de instalar R lo primero que nos aparece es una
correspondientes a x x .
ventana, también llamada consola, donde podemos manejar R
mediante la introducción de código. Sin embargo, esta no es la sqrt(e$val[1]/e$val): #Calcula todos los
manera más eficiente de trabajar en R, para ello debemos ac- n m e r o s de condici n asociados a x x .
ceder a un documento en blanco del editor, llamado script. La
utilidad de un script o guión de trabajo radica en que podemos #Posteriormente, pocedemos a calcular los
modificar nuestras lı́neas de código con comodidad y guardarlas V I F s , y para esto, es que anteriormente
para el futuro. se c a r g el paquete "faraway"
Para esta regresión, se debe cargar primero el paquete ”fara-
way”para un cálculo posterior. vif(x): #Muestra los valores VIF.

prop<-read.table(file="clipboard", head=T): #
Con esta indicacion se pueden leer los
datos desde Excel, solo seleccionando el Referencias
conjunto deseado.
[1] Sanchez, L. (n.d.). RUIDO Y SOBREPRESION ATMOS-
data.frame(prop): #Esta linea crea un macro( FERICA. Pre grado. Universidad de São Paulo.
conjunto) de datos y los muestra en
pantalla. [2] DELANNE, Y. (1981). Impact acoustique d’un équipement
ou d’un aménagement. Problèmes méthodologiques. Bulle-
#La sintaxis basica de la funcion lm(), que nos tin de Liaison des Laboratoires des Ponts et Chaussées.
hace un analisis básico de regresi n
lineal es la siguiente: [3] Montgomery D.C., Peck E.A., Vining G.G. Introducción al
Análisis de Regresión Lineal. México: Compañı́a Editorial
lm(formula, data, subset);# por ejemplo Continental, 2004.

g <- lm(Variable respuesta ˜ variable_ [4] Rodrı́guez, A. y Garcı́a, C. (2017). El Factor de Inflación
predictora1 + variable_predictora2..., data de la Varianza en R . Doctorado en Ciencias Económicas y
= prop(dataset_anteriormente_creado) ) # Empresariales. Universidad de Granada, España.
Aqui se está guardando en la variable
g [5] Faraway Julian J. Linear Models with R. Chapman and Ha-
ll/CRC, 2005