Seminario

Trabajo 1
Cali, Valle del Cauca, Colombia, 8 de Septiembre de 2017
Seminario de Investigacin 2017.
1. Artculos tomados del marco terico del trabajo de grado
1.1. Smooth Quantile-based modeling of brand sales,price and promotional

eects from retail scanner panels.
ste artculo propone un modelo de Regresin Cuantlica Semiparamtrica Flexible para analizar datos
de almacenamiento y as estudiar la respuesta de precio/ventas, los autores utilizaron para ilustrar el
mtodo una base de datos pblica la cual incluye ventas semanales de unidades, precios minoristas y
actividades de exhibicin en el nivel de tienda para nueve marcas en la categora de zumo de naranja
refrigerado, en total tienen 46 tiendas de la cadena minorista en un lapso de tiempo de 88 semanas, lo
que resulta en un total de 4048 observaciones.
Para llevar a cabo la estimacin, utilizaron B-Splines con y sin restricciones de monotonicicidad para esti-
mar los efectos del precio del artculo, que en ste caso fue los zumo de naranja refrigerados, encontraron
que un modelo semiparamtrico con restricciones de monotonicidad impuesta a la respuesta, proporciona
un rendimiento superior comparado con un modelo sin restricciones de monotonicidad. Tambin llegan
a la conclusin de que el uso de B-Splines con restriccin funciona mejor y, adems, que al realizar el
modelo por regresin cuantlica sta proporciona estimaciones ms exactas de los intervalos de prediccin
ya que sta estima los cuartiles lo que hace que se ajuste mejor a los datos.
ste artculo, es muy interesante ya que utiliza B-Splines y Regresin Cuantlica de una forma diferente a
la que estamos utilizando en nuestro trabajo de grado, por tanto sera muy interesante seguir estudiando
acerca de ello.
1.2. Quantile Regression in the Study of Developmental Sciences

En este artculo se presentan varios ejemplos para ilustrar la importancia y la gran utilidad de la regresin
cuantlica, por ejemplo las relaciones entre la edad y la altura de las nias y el estudio de la brecha de
logros en las habilidades matemticas de estudiantes de escuelas de Secundaria de los estados Unidos
probando si la etnicidad y el gnero explican el logro matemtico.
Y sobre el ejemplo de los logros matemticos que contiene 1.721 estudiantes con sus respectivos puntajes
con el que se realiza las comparaciones entre los resultados obtenidos por medio de regresin lineal y
regresin cuantlica.
En el desarrollo del artculo se contrata los dos mtodos de regresin cuando se consideran modelos con:
un predictor continuo, un predictor dicotmico, c) un predictor continuo y dicotmico, y d) una aplicacin
longitudinal.
Siempre se resalta la diferencia entre la estimacin por regresin lineal que slo permite una estimacin
entre la relacin promedio entre el las variables regresoras y la variable respuesta, sin embargo en el estudio
por regresin cuantlica se produce estimaciones de mltiples puntos de la distribucin del resultado, algo
que es una de las razones por la que esta metodologa es aplicada en nuestro trabajo de grado.
1
2 2 ARTCULOS SOBRE APLICACIONES DE LOS MTODOS DE APRENDIZAJE ESTADSTICO
1.3. Functional data analysis of generalized regression quantiles

Este artculo se basa en la aplicacin de la Regresin Cuantlica Generalizada en un ejemplos aplicado
para estudiar la variacin de la temperatura en 159 estaciones meteorolgicas en China usando datos de
temperatura promedio diarios y como el objetivo es mejorar la eciencia de la estimacin se usan los
datos funcionales ya que se considera que los cuantiles generalizados comparten algunas caractersticas
comunes que a su vez pueden ser resumidas por un pequeo nmero de funciones de los componentes
principales.
Se concluye que con el enfoque de FDA le da ms eciencia a la estimacin que el enfoque de regresin
cuantlica generalizada por separado.
Es por esto que es de nuestro inters, pues vemos que el anlisis de datos funcionales hace un gran aporte
a varias metodologas estadsticas y que por supuesto es necesario profundizar en este enfoque de FDA
no slo por ser una de las aplicaciones en nuestro trabajo de grado sino tambin porque que es un tema
de inters de todos los que ahora estamos en formacin
2. Artculos sobre aplicaciones de los mtodos de aprendizaje es-

tadstico
2.1. Predicting PM10 Concentration in Seoul Metropolitan Subway Stations

Using Articial Neural Network (ANN)
La vigilancia del aire en las estaciones del metro subterrneas es de gran importancia ya que las partculas
generadas por la abrasin durante las operaciones del metro y los contaminadores emitidos por los autos
que andan en la calle, afectan la calidad del aire al interior. Pero, medir la contaminacin del aire al
interior de todas las estaciones es algo muy complejo y, adems muy costoso por ello los investigadores
se inquietaron y empezaron a buscar otros mtodos para estimar la calidad del aire en stos espacios y
encontraron en otros estudios que las concentraciones de stas partculas llamadas PM10 en el aire libre
estaban correlacionadas con las partculas en la estacin, adems de que la tcnica lder para tratar temas
cmo stos son las Redes Neuronales Articiales (ANN) ya que stas utilizan tecnologa de reconocimiento
de patrones utilizados especialmente en campos ambientales.
Lo que hicieron fue tomar 6 estaciones y tomando como referencia estudios anteriores, decidieron estimar
la concentracin del PM10 en el interior de cada una de las estaciones del metro subterrneas a partir
del nmero de trenes subterrneos en funcionamiento, el PM10 al aire libre, y la informacin sobre la
operacin de ventilacin utilizando el modelo de redes neuronales, para llevar a cabo lo anterior en primera
instancia observaron la correlacin entre el PM10 al aire libre y el PM10 en el interior, posteriormente,
se analiz el PM10 en el interior usando redes neuronales, llegando a la conclusin que la regresin que
utilizaron entre el PM10 al aire libre y el PM10 en el interior obtuvo una correlacin (R2) promedio entre
las 6 estaciones de 0.43 con un intervalo de (0.18 ? 0.63) y el segundo modelo que fue con redes neuronales
incluyendo las variables inicialmente habladas mostr un aumento en el coeciente de correlacin del 0.65
con un intervalo de (0.39 ? 0.81).
Nosotras consideramos que es importante compartir del tema con los compaeros del curso, pues las redes
neuronales nos dan otra alternativa de estimacin de patrones ambientales y es una metodologa que est
incursionando en el aprendizaje estadstico pues implementa la parte computacional y la interpretacin
estadstica por medio de regresin lineal.
2.2. A Top-down Approach to Stress-testing Banks.

En este artculo se implementa un mtodo para las pruebas de estrs en Bancos estadunidenses, aplicando
el enfoque Top-Down que se basa en la toma de decisiones partiendo de las variables ms globales
Seminario (2017)
Seminario 3
para ir descendiendo progresivamente hasta las ms especcas, con el objetivo de identicar polticas
macroeconmicas de las variables bancarias bajo escenarios de estrs.
Los datos utilizados en el estudio son pblicos pertenecientes a estados nancieros trimestrales de bancos
estadounidenses, el anlisis se fue restringido slo a entidades con activos de $10 mil millones de dlares
en adelante durante menos de un trimestre en el periodo de 2000 a 2013, donde inicialmente se cont
con 251 instituciones que cumplan con el criterio de inclusin, sin embargo al nal baj a 156 entidades
como resultado de las reglas del estudio.
La metodologa empleada se divide el texto en dos partes; primero, se basa en realizar primero la tcnica
de regresin regularizada (LASSO) para identicar el subconjunto de variables macroeconmicas ms
signicativas para una variable bancaria y luego se realiza un Anlisis de Componentes Principales (ACP)
para extraer el primer factor como un resumen de las condiciones macroeconmicas.Segundo, se reere al
modelo parsimonioso con el enfoque Top-Down para abordar la heterogeneidad de las respuestas bancarias
a los impactos macroeconmicos.
Debido al amplio conjunto de variables macroeconmicas candidatas (un total de 165 variables generadas),
existe un problema de seleccin de variables para los modelos de pruebas de estrs por lo que en este caso
es til la metodologa de LASSO.
A manera de conclusin los autores dicen que sus resultados son un avance importante ya que en la
literatura no se ha abordado el caso de seleccin de variables para pruebas de estrs. Ya que con esta
seleccin cuidadosa del modelo y la aceptacin de la heterogeneidad entre las entidades bancarias fueron
fundamentales para obtener los resultados, donde se encontr que a pesar de que la industria bancaria de
los Estados Unidos ha mejorado en los ltimos aos dichos escenarios de estrs siguen implicando deterioro
en las posiciones de capital de los bancos. La importancia de este artculo se centra en la metodologa
de seleccin de variables empleada para el caso de problemas de dimensionalidad donde se cuenta con
muchas ms variables que individuos, siendo un problema comn en la vida real al que nos enfrentaremos
en una vida laboral futura. Por lo tanto, se considera que es un tema de mucha importancia en el cual se
debe estudiar con ms detalle.
2.3. A doubly sparse approach for group variable selection

En este artculo se propone una nueva penalizacin llamada penalizacin doblemente escasa (Doubly
sparce penalty) la cual se aplica a la seleccin de variables para modelos con alta dimensionalidad. Se
menciona que la tcnica de regresin regularizada (LASSO) ha ganado mucha popularidad ltimamente,
pero que sin embargo LASSO selecciona ms variables de las necesarias a menos que se establezcan
ciertas condiciones, por esta razn se propone esta penalizacin donde se considera el caso de que las
p covariables del estudio pueden ser descompuestas en k grupos disjuntos, siendo de gran inters esta
seleccin de grupos por ser comn en los modelos de regresin lineal con alta dimensin que las covariables
se agrupen naturalmente.
En la parte aplicativa se usan dos conjuntos de datos reales; el primero datos de Ozono que contiene 3
variables categricas y 9 variables regresoras continuas para la variable respuesta media diaria de ozono
de mximo una hora de lectura"; segundo, datos que consiste en niveles de expresin gnica de 18.975
genes obtenidos de 120 ratas, con el objetivo de encontrar genes que estn relacionados con el gen TRIM32
conocido por ser el causante del sndrome de Bardet-Biedl.
Como ya se mencion anteriormente la metodologa para la seleccin de variables LASSO es muy impor-
tante y en este artculo tiene otro tipo de aplicacin muy interesante donde se presenta el mismo problema
de dimensionalidad antes sealado, es por esto que sta tcnica de regresin debe ser considerada para
compartir en el curso de seminario.
Seminario (2017)
4 2 ARTCULOS SOBRE APLICACIONES DE LOS MTODOS DE APRENDIZAJE ESTADSTICO
2.4. A boosting method for maximization of the area under the ROC curve
Este artculo se centra en el anlisis del rea bajo la curva ROC para problemas de clasicacin binaria en
campos clnicos, las cuales proporcionan herramientas para seleccionar modelos evaluando el rendimiento
de las pruebas diagnsticas. Donde la idea principal es maximizar el rea bajo la curva (AUC) usando
una combinacin lineal de mltiples variables caractersticas, siendo este un problema de alta dimensin.
Por lo que se propone un nuevo mtodo estadstico para detectar una asociacin ms esencial entre las
variables caractersticas y una variable de resultado binario mediante la metodologa Boosting con un
algoritmo de potencializacin y as obtener una mejor clasicacin.
En el artculo se realiza una simulacin para comprobar la efectividad del algoritmo planteado, sin embargo
tambin es aplicado a datos reales, que en este caso corresponden a resultados de la ciruga espinal
correctiva de 81 nios. Como se me mencion anteriormente la variable es binaria, si la cifosis est
presente o ausente (si presenta curvatura anormal en la columna vertebral). Las variables caractersticas
consideradas son: Edad, la edad del nio en meses; Nmero, nmero de vrtebras en la operacin e Inicio,
el comienzo de la gama de vrtebras implicadas en la operacin. Se concluye que el mtodo utilizado
(AUCBoost) ofrece una combinacin exible de varias de las variables caractersticas lo que se cumple
con la maximizacin de las AUC.
Esta tcnica de potencializacin ha sido muy nombrada y unos de los temas ms interesantes del apren-
dizaje estadstico desde nuestro punto de vista que tiene diferentes aplicaciones como tambin a datos de
alta dimensionalidad donde la seleccin de variables es mucho ms importante, el cual que es un tema
muy requerido actualmente en la estadstica.
2.5. Boosting for high-dimensional two-class prediction

Los autores (Lusa et al. 2015) proponen utilizar el mtodo Boosting como metodologa de generacin
de clasicadores en conjunto, los clasicadores son de gran importancia ya que son una herramienta
que ayuda a los mdicos en la toma de decisiones pues stos permiten estimar la probabilidad de que
los pacientes tengan o desarrollen una enfermedad. Actualmente, los clasicadores individuales no estn
funcionando como se espera y es por tal motivo que los investigadores consideran que puede ser tiles los
estimadores en conjunto para dar estimaciones ms precisas. En ste sentido, se encuentran en un escenario
con grandes dimensiones ya que poseen ms caractersticas que individuos y de ah la importancia de
seleccionar un buen clasicador, en el artculo, por medio de simulacin, utilizando diferentes tamaos
de muestra y diferentes algoritmos de boosting, concluyen que AdaBoost. M1, LogitBoost y Gradient
Boosting no funciona muy bien para datos de grandes dimensiones a diferencia de los algoritmos: Overall,
Stochastic Gradient boosting with shrinkage y AdaBoost.M1.ICV que ajustan mejor los datos.
ste tema es interesante para ser abordado en clase, pues actualmente nos encontramos en la era en
donde tenemos muchos datos, pero no sabemos qu hacer con ellos, al tener ms variables que individuos
se complica mucho en el tratamiento e interpretacin de stos, y creemos que el boosting es una buena
alternativa para dar solucin a ciertos casos.
2.6. Forecasting energy demand using neural-network-based grey residual mo-

dication models
Teniendo en cuenta que la prediccin de la demanda de energa se ha convertido en algo muy necesario
dado el consumo de energa en el mundo, el avance de la tecnologa, etc. Los investigadores se han
preocupado por estimar esa demanda de energa y para ello sugieren realizar un modelo de prediccin
grises, dado que ste modelo es capaz de caracterizar un sistema desconocido usando pequeos conjuntos
de datos sin tener que cumplir con las hiptesis estadsticas. Y ste tipo de modelo, para ellos se ajusta
muy bien a la demanda de energa pues los datos de consumo son muy pocos y por tanto, generalmente
no cumplen con las hiptesis estadsticas. En diferentes artculos han propuesto varias versiones para
Seminario (2017)
Seminario 5
mejorar la prediccin del modelo de pronstico grises pero los autores de ste artculo utilizan el modelo
de modicacin residuales basados en redes neuronales, pero trabajan con diferentes modelos utilizando
como base el modelo de prediccin grises, probando nalmente, que es el que mejor se ajusta a los datos
de demanda de energa.
Referencias
Guo, M., Zhou, L., Huang, J. Z. & Hrdle, W. K. (2015), `Functional data analysis of generalized regression
quantiles', Statistics and Computing 25(2), 189202.
Haupt, H., Kagerer, K. & Steiner, W. J. (2014), `Smooth quantile-based modeling of brand sales, price and
promotional eects from retail scanner panels', Journal of Applied Econometrics 29(6), 10071028.
Hu, Y.-C. & Jiang, P. (2017), `Forecasting energy demand using neural-network-based grey residual
modication models', Journal of the Operational Research Society 68(5), 556565.
Kapinos, P. & Mitnik, O. A. (2016), À top-down approach to stress-testing banks', Journal of Financial
Services Research 49(2-3), 229264.
Komori, O. (2011), À boosting method for maximization of the area under the roc curve', Annals of the
Institute of Statistical Mathematics 63(5), 961979.
Kwon, S., Ahn, J., Jang, W., Lee, S. & Kim, Y. (2017), À doubly sparse approach for group variable
selection', Annals of the Institute of Statistical Mathematics 69(5), 9971025.
Lusa, L. et al. (2015), `Boosting for high-dimensional two-class prediction', BMC bioinformatics
16(1), 300.
Park, S., Kim, M., Kim, M., Namgung, H.-G., Kim, K.-T., Cho, K. H. & Kwon, S.-B. (2018), `Predicting
pm10 concentration in seoul metropolitan subway stations using articial neural network (ann)',
Journal of Hazardous Materials 341, 7582.
Petscher, Y. & Logan, J. A. (2014), `Quantile regression in the study of developmental sciences', Child
development 85(3), 861881.
Seminario (2017)

Seminario

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Seminario

Încărcat de

Drepturi de autor:

Formate disponibile

Trabajo 1

Cali, Valle del Cauca, Colombia, 8 de Septiembre de 2017

Seminario de Investigacin 2017.

1. Artculos tomados del marco terico del trabajo de grado

1.1. Smooth Quantile-based modeling of brand sales,price and promotional

1.2. Quantile Regression in the Study of Developmental Sciences

1.3. Functional data analysis of generalized regression quantiles

2. Artculos sobre aplicaciones de los mtodos de aprendizaje es-

2.1. Predicting PM10 Concentration in Seoul Metropolitan Subway Stations

2.2. A Top-down Approach to Stress-testing Banks.

2.3. A doubly sparse approach for group variable selection

2.5. Boosting for high-dimensional two-class prediction

2.6. Forecasting energy demand using neural-network-based grey residual mo-

S-ar putea să vă placă și