Documente Academic
Documente Profesional
Documente Cultură
Madrid, 2007
ISBN: 978-84-669-3134-2
TESIS DOCTORAL
CERTIFICA:
Que la presente memoria de ttulo:
TEORA DE CPULAS APLICADA A LA PREDICCIN
Agradecimientos
Creo que una tesis doctoral no es slo el resultado del esfuerzo compartido entre el director de tesis y su alumno.
Al menos en mi caso, debo confesar que esta tesis nunca hubiera visto la luz de no haber sido por una relacin de
personas a las que considero tengo mucho que agradecer.
En primer lugar, me gustara citar a un compaero de mi primer trabajo llamado Ignacio Arbus, posiblemente la
persona ms inteligente con la que he trabajado. Fue su amplio dominio de la materia, su pasin por las matemticas y
la facilidad con la que era capaz de transmitir sus conocimientos, las que me motivaron a empezar los cursos de
postgrado para mejorar mi grado de formacin. Perd la pista a este asturiano cuando decidi dejar la empresa en la que
trabajaba conmigo, para empezar a prepararse las oposiciones del INE y lo ltimo que s de l es que las aprob, algo
de lo que nunca tuve duda alguna. En cualquier caso, si alguna ves lees estas lneas, gracias Nacho!.
En segundo lugar quera hacer mencin a mi director de tesis, Vicente Quesada, dado que fue l quien, una vez que
hube conseguido la suficiencia investigadora, me anim a continuar el doctorado y a hacer esta tesis. Para mi, supuso
todo un reto emprender este camino estando ya bien situado laboralmente con casi cinco aos de experiencia, y a
sabiendas de las dificultades y el sacrificio que con seguridad implicara un compromiso de este tipo. Entre las cosas
que quiero agradecerle me gustara destacar el hecho de que haya sabido siempre proponerme temas de investigacin
tan relacionados con los proyectos de anlisis que desarrollo y a la vez tan innovadores y desconocidos en el mundillo
en el que me muevo. Tambin le agradezco no haberme presionado y haberme dado flexibilidad total a la hora de llevar
esta tesis adelante, entendiendo las dificultades derivadas de compatibilizar dicha labor con mi trabajo.
A los doctores Javier Martn y Jos Mara Garca Santesmases, me gustara agradecer en primer lugar el hecho de que
me pusieran en contacto con Vicente para que me tutelase esta tesis. Fueron ellos adems, quienes me ofrecieron mi
primer trabajo como consultor matemtico y les quiero agradecer la confianza que en m depositaron desde el primer
momento para participar y dirigir importantes proyectos de investigacin. Entre ellos, guardo un especial recuerdo de
los realizados para el Departamento de Anlisis y Simulacin de la compaa Enags. Agradezco a la responsable del
departamento Laura Marn y a todo su equipo la ayuda prestada, de forma especial a Ana Beln Garca que me ha
echado una mano con la provisin de datos utilizados para el desarrollo de las aplicaciones prcticas que aqu se
exponen y que adems, me ha transmitido muchos nimos a lo largo de estos ltimos aos.
Tambin tengo mucho que agradecer a mi crculo de amistades por los buenos ratos que hemos compartido y que espero
seguir compartiendo. Gracias por sus nimos constantes a Luis Javier Ferrero, mi primer compaero de fatigas en la
carrera, que siempre estuvo ah. Gracias tambin a Sandra Martn, a Amanda Sanz, a Jos Luis Navarro, a Jos Mara
Picado, a Miguel Redondo (de manera especial por su ayuda y por sus consejos), a David Bueno, a Francisco
Fernndez, a David Gutirrez, a Carlos Ruz, a Prudencio Urea, a scar Villanueva y a muchos otros que seguro dejo
de nombrar, quienes, a travs de su compaa y afecto, han aportado su granito de arena en esta tesis.
Gracias a los padres de mi novia, Toms y Charo, por sus consejos, su atencin, y por esas agradables meriendas y
cenas en las que nos hemos reunido para ver alguna pelcula o partido. Ratitos de conversacin totalmente necesarios.
Finalmente, quiero hacer mencin especial a mi familia. De forma general gracias a todos por sus nimos y por haberme
entendido cuando ni yo mismo era capaz de hacerlo.
Debo agradecerle a mi hermano Jos todas sus enseanzas de programacin, sus charlas matemticas y cientficas, y
todos sus consejos a la hora de dar formato para presentar esta tesis. Adems considero que, el hecho de que
comenzramos al mismo tiempo la andadura en una tesis doctoral y de que nos hayamos motivado mutuamente durante
todos estos aos a seguir adelante, ha sido un factor determinante para el logro de nuestros objetivos.
Quiero agradecer a mi abuelo Paco las partiditas de tute espordicas que han salpicado muchas de mis tardes y que
me han ayudado a evadirme en momentos de bastante agobio y tensin. Gracias abuelo por tu inters declaradamente
sincero por todas y cada una de mis labores profesionales.
Tambin quera recordar a mi padre que slo pudo verme empezar este largo camino aunque muy probablemente se
march con la certeza de que intentara recorrerlo hasta el final. Creo que debo agradecerle a l (o a sus genes) una parte
importante de ese carcter constante y de esa cabezonera que considero imprescindibles para haber afrontado este
desafo. Cualquiera que sea el rinconcito de cielo en el que ests, gracias pap!.
Finalmente quiero dar las gracias a las tres mujeres ms importantes en mi vida y a las que quiero dedicar esta tesis.
A mi madre que ha sido la que creo que ha aguantado ms que nadie mis cambios de humor, ha sabido convivir con
montaas de papeles ininteligibles sobre mi escritorio y an as, me ha seguido animando hasta el ltimo momento.
A mi chica, Leticia, por sus nimos, por su apoyo, por haberme sabido escuchar y sobre todo, por haber tenido la
paciencia suficiente para seguir conmigo despus de un ltimo ao (o dos, o quiz tres) especialmente duro en el que tal
vez haya estado un poquito ms volcado en mis intereses profesionales que personales.
Para terminar quiero dar las gracias a mi abuela Consolacin que en paz descanse, quien siempre mostr de forma
incondicional una confianza ciega en que terminara consiguiendo cuanto me propusiera. Tal vez llevaras razn, abuela.
Prlogo
Dicen que el saber no ocupa lugar. Si el saber es sinnimo de experiencia tal vez no debiera haber duda alguna al
respecto. Si en cambio ese saber es reflejo de la formacin cultural de una persona, los lmites podran venir marcados
por su afn de conocimiento pero tambin por su memoria. Estos mismos lmites seran aplicables a cualquier individuo
para el que saber no fuera otra cosa que la capacidad para retener en su cabeza un volumen determinado de
informacin sin importar que sta estuviese referida a los nmeros de la gua telefnica o a las palabras del diccionario
enciclopdico. En cualquier caso, en el mundo empresarial, la frase se nos antoja aprovechable en uno u otro sentido.
Segn van pasando los das, el ordenador personal permite almacenar ms informacin, ms saber, en menos espacio.
Existen grandes bases de datos que recogen histricos de una compaa al nivel de detalle que se desee. Si bien existen
restricciones impuestas en funcin de la memoria de los equipos, la cantidad de datos recogidos suele ser suficiente para
plantear estudios de mercado y tomar decisiones que puedan mejorar la evolucin del negocio.
Puede ser que este saber no exista. Sera el caso, por ejemplo, de una compaa nueva en cualquiera de los sectores
(telecomunicaciones, industria, banca, seguros, etc.) que no tuviese ningn dato almacenado sobre el que basar algn
anlisis especfico. Tambin podra ser ilustrativo el ejemplo de una compaa que quisiera lanzar un producto nuevo y
no tuviera por tanto historia del mismo para poder conocer la respuesta que pudiera esperar tras una campaa comercial.
Un tercer caso podra venir inducido por un cambio significativo de comportamiento que experimentara el mercado
haciendo inservible cualquier informacin almacenada. Es entonces cuando el saber del experto de negocio, basado en
la experiencia de la que hablbamos, juega un papel determinante siendo su opinin la que terminar conduciendo a la
toma de una decisin final.
La situacin ideal se plantea cuando se combina la experiencia del analista en un negocio determinado con unas
circunstancias del mercado que hacen que los histricos de datos de la compaa resulten de un valor incuestionable.
El saber del experto se fusiona con el saber almacenado en sus equipos informticos y esto le permite realizar una
planificacin de las acciones a emprender a corto, medio y largo plazo.
Obviamente, saber no va siempre asociado a algo que ya ha pasado como pudiera entenderse si lo relacionamos con
la experiencia o el grado de formacin cultural de la persona. No sorprende a nadie la atraccin del ser humano por
saber lo qu pasar en el futuro, inquietud que se remonta a nuestros antepasados. Ya en la Edad Antigua, los orculos,
estaban vinculados a dos clases de instituciones: la adivinacin y el profetismo. En la Grecia clsica el orculo se
estableca en un lugar determinado (el ordenador personal), presidido e inspirado por un dios (la matemtica) y
secundado por sacerdotes que servan de intrpretes (los analistas que disean los modelos y que, junto con los expertos
de negocio, interpretan los resultados proporcionados por stos para tomar las ltimas decisiones).
10
ndice
Prlogo................................................................................................................................................. 9
0. Introduccin....................................................................................................................................15
0.1 Estado del arte..........................................................................................................................16
0.2 Objetivos..................................................................................................................................18
0.3 La tesis..................................................................................................................................... 21
1. Funciones cpula............................................................................................................................ 25
1.1 Introduccin............................................................................................................................. 25
1.2 Definicin................................................................................................................................ 28
1.3 Teorema de Sklar..................................................................................................................... 29
1.4 Capacidad de las funciones cpula para reflejar relaciones de dependencia...........................32
1.5 Tipos de cpulas...................................................................................................................... 33
1.5.1 Tipos de cpulas en funcin de su soporte...................................................................... 34
1.5.2 Tipos de cpulas en funcin del conocimiento explcito de su forma............................. 35
1.5.3 Tipos de cpulas en funcin de la relacin de dependencia que son capaces de reflejar 36
2. Eleccin de la cpula que mejor refleja una relacin de dependencia........................................... 39
2.1 Introduccin al problema......................................................................................................... 39
2.2 Determinacin de las distribuciones marginales..................................................................... 40
2.3 Propuesta de un conjunto inicial de familias de cpulas candidatas....................................... 41
2.4 Determinacin de la cpula ptima dentro de una familia...................................................... 41
2.5 Seleccin de la mejor familia a partir de las cpulas representantes.......................................42
2.5.1 Mtodo 1: Empleo de la cpula emprica........................................................................ 42
2.5.2 Mtodo 2: Mtodos grficos............................................................................................ 43
2.5.3 Mtodo 3: Aproximacin analtica de los mtodos grficos............................................44
2.5.4 Mtodo 4: Criterio de informacin de Akaike (AIC)...................................................... 44
2.5.5 Mtodo 5: Contrastes de bondad de ajuste de una cpula............................................... 45
2.5.6 Mtodo 6: Calidad de las predicciones que proporciona una cpula...............................46
3. Metodologas para la construccin de funciones cpula................................................................ 49
3.1 Mtodo de inversin................................................................................................................ 49
3.2 Mtodos geomtricos...............................................................................................................50
3.2.1 Cpulas singulares con soporte conocido........................................................................ 50
3.2.2 Cpulas construidas como Suma Ordinal de cpulas...................................................... 50
3.2.3 Cpulas construidas a partir de Cambios de M (cota superior de Frchet-Hoeffding) 50
3.2.4 Cpulas construidas como Suma Convexa de cpulas.................................................52
3.2.5 Mtodos basados en el conocimiento de las secciones de una cpula.............................52
3.3 Mtodos algebraicos................................................................................................................ 53
3.4 Mtodo de construccin de cpulas arquimedianas................................................................ 54
3.5 Mtodo de construccin de cpulas con soporte fractal.......................................................... 54
4. Construccin de cpulas con valor ptimo del estadstico de Pearson.......................................... 57
4.1 Etapa I: Construccin de la subcpula que minimiza el estadstico de Pearson......................59
4.2 Etapa II: Construccin de una cpula por interpolacin de una subcpula.............................64
4.2.1 Mtodo de interpolacin bilineal..................................................................................... 64
4.2.2 Mtodo de interpolacin mediante polinomios de Bernstein...........................................67
-
11
12
13
14
0. Introduccin
Una de las principales funciones de una empresa transportista de gas es disear un plan de operaciones a travs del cual
pueda garantizar la continuidad y seguridad del suministro de gas natural y la correcta coordinacin entre los puntos de
acceso, los almacenamientos, el transporte y la distribucin teniendo en cuenta las necesidades y caractersticas de cada
uno de sus tipos de clientes tanto dentro del mbito industrial como del domstico. En nuestro pas, Enags es la
principal empresa transportista de gas y entre sus activos, cuenta con 7.538 km de gasoductos de alta presin, tres
plantas de regasificacin (Barcelona, Cartagena y Huelva) y la propiedad o gestin de los almacenamientos de gas
natural. La gestin del plan de operaciones es una tarea muy compleja que se realiza no slo en funcin de los recursos
de gas disponibles sino tambin de la demanda prevista a abastecer y del cumplimiento de los compromisos
contractuales tanto con las empresas suministradoras como con las distribuidoras y comercializadoras.
La aparicin de las comercializadoras de gas ha tenido lugar a raz de la reciente liberalizacin del mercado del gas en
Espaa (desde Enero de 2003). Segn la nueva normativa, un cliente no tiene porqu mantenerse en el mercado
regulado que se rige de acuerdo a las tarifas fijadas por el gobierno, sino que puede comprar directamente en dicho
mercado, elegir una comercializadora a la que pague una tarifa de menor coste o establecer contratos bilaterales.
El crecimiento del nmero de comercializadoras, el incremento esperado del consumo y la capacidad limitada de la red
de gasoductos, son factores a tener en cuenta a la hora de elaborar el plan de operaciones. Resulta por ello
imprescindible para el departamento encargado de su gestin, disponer de unas buenas herramientas de prediccin de la
demanda a distintos horizontes para poder adaptarse de manera adecuada a las necesidades de suministro a corto (10
das con detalle horario) y medio (1-3 aos) plazo. Cuanto mayor sea la bondad de las predicciones que proporcionen
estos sistemas, ms fielmente se ceirn a la realidad los programas y planes de gestin citados y por tanto ms
beneficiosos resultarn los resultados de la operacin.
Existe un amplio abanico de metodologas matemticas para el tratamiento de problemas de prediccin de demanda de
gas a corto y medio plazo. Queremos observar que por lo general stas tcnicas son igualmente aplicables al sector
elctrico y por ello no debe de extraar que la literatura que nos ha servido de consulta haga referencia indistintamente a
uno u otro sector. La diferencia fundamental radica en el periodo de influencia del factor meteorolgico sobre la
demanda, que abarca al invierno (calefaccin elctrica) y al verano (aparatos de aire acondicionado) en el caso elctrico
y slo al invierno en el caso gasista. Esta circunstancia no afecta desde un punto de vista metodolgico sino nicamente
a la hora de definir las variables climticas que participan en los modelos y es por ello que, aun cuando la exposicin
que hacemos en esta tesis esta centrada en el mercado gasista, ya hemos contrastado la validez de los mtodos que
proponemos en uno y otro mbito.
Introduccin
15
Si bien como hemos dicho los mtodos de prediccin que se manejan en la actualidad son aplicables a datos de
demanda referidos tanto al gas como a la electricidad, la utilizacin de ellos est condicionada por el horizonte de
prediccin para el que se plantea el estudio.
En el tratamiento a corto plazo se pretende obtener predicciones con detalle diario para un horizonte que suele depender
del mximo periodo para el que se disponga de una previsin fiable de los agentes climatolgicos y que habitualmente
oscila entre 10 y 15 das. Despus de haber trabajado durante ms de tres aos en problemas de prediccin de demanda
a corto plazo y haber contrastado la eficacia de diversas alternativas creemos que, por las caractersticas de este tipo de
series, es la metodologa Box-Jenkins fundamentada en el empleo de modelos ARIMA, la que proporciona unos
mejores resultados (vase por ejemplo el estudio para la British Gas North Western que se expone en [FIREAST]).
Estos modelos plantean a travs de una ecuacin lineal (aditiva en las variables) la relacin entre la demanda en un
instante de tiempo t , el valor de la propia variable en instantes anteriores de tiempo (parte ARI del modelo) y el error
que el modelo ha podido cometer en dichos instantes (parte MA). Es esta capacidad para corregirse en funcin de los
errores de prediccin ms recientes la que los hace especialmente orientados para la prediccin a corto plazo. A travs
de una ecuacin autorregresiva el modelo refleja la tendencia, variabilidad y estacionalidad de los datos, captura
mediante un anlisis de intervencin el efecto del calendario laboral presente en series cuyo comportamiento es
marcadamente industrial e identifica el efecto de las variables climticas, caracterstico de la demanda domstica, a
travs de modelos de funcin de transferencia convenientemente ajustados. Hay que tener en cuenta que esta
metodologa asume ciertas condiciones de estabilidad del histrico y una hiptesis fuerte de linealidad en la relacin
existente entre la variable a predecir, su pasado y los agentes climatolgicos que participan.
Otra tcnica muy utilizada para hacer predicciones a corto plazo es la red neuronal que pierde la capacidad de
interpretar fcilmente las asociaciones que plantea entre los elementos que en ella intervienen pero que, a cambio,
permite detectar comportamientos no lineales complejos y aprender de ellos para aumentar su potencia predictiva.
Conceptualmente estos modelos enlazan los valores de las variables explicativas (almacenados en los nodos de una capa
denominada capa de entrada) con los valores correspondientes de la variable a predecir (almacenado en un nico
nodo de la denominada capa de salida) asignando un valor (peso) a cada par de nodos enlazados. El objetivo que se
persigue es la estimacin de los pesos de la red, es decir, el clculo de los valores que permiten reflejar de forma ptima
la relacin de dependencia existente. En su estructura ms bsica (una capa de entrada y otra de salida) la red neuronal
establece una relacin lineal entre las variables que participan en el modelo. Sin embargo, tambin es posible intercalar
capas intermedias denominadas capas ocultas que permiten plantear relaciones no lineales (ocultas) entre las
variables. Con el fin de esclarecer las posibles dependencias no lineales que llevan a algunos autores a catalogar de
caja negra a los modelos de red neuronal, surgen ms recientemente los sistemas difusos de inferencia basados en
la implementacin de una relacin de reglas que utilizan la informacin en trminos lingsticos y por tanto ms
transparentes (si hace bastante fro en invierno, la demanda de gas crece mucho). Entre los inconvenientes principales
de esta metodologa destaca el crecimiento desmesurado de reglas conforme crece el nmero de variables de entrada y
la necesidad de traducir en valores numricos las predicciones tambin lingsticas (difusas) que estos mtodos ofrecen.
Introduccin
16
Con el fin de mejorar los altos costes computacionales que conlleva la implementacin de los sistemas difusos, algunos
autores proponen un modelo hbrido denominado red neuronal difusa que bsicamente consiste en alimentar con una
base de reglas difusas a una red neuronal. En este contexto de las redes de neuronas y los sistemas difusos aplicados a la
prediccin de la demanda energtica podemos citar por ejemplo los artculos de [LYXUE] , [MUHAJI] o
[VACHUNTA].
Cuando el nmero de variables explicativas crece de forma desmesurada, las posibilidades de sobreajuste de los
modelos neuronales aumentan a la vez que disminuye su potencia predictiva. Para resolver este problema existen
tcnicas de Inteligencia Artificial como son los algoritmos genticos o los sistemas expertos, de cuya aplicacin al
problema de prediccin de la demanda a corto plazo podemos encontrar una breve descripcin en [PERWHI].
Respecto del tratamiento a medio plazo, encontramos tambin diferentes propuestas de modelizacin para la prediccin
con detalle mensual o diario en funcin del objetivo que se persiga. As por ejemplo segn se cita en [MEHRA], para el
tratamiento mensual acostumbran a utilizarse modelos economtricos planteados a travs de una relacin de
ecuaciones en las que la demanda se expresa como una funcin de factores econmicos tales como la poblacin, el
ingreso per cpita, el precio de los distintos medios de combustible alternativos a aqul que se predice, etc.
Otra alternativa que se comenta vuelve a ser el empleo de modelos ARIMA que suele concretarse en modelos X11 los
cuales estn especialmente orientados al tratamiento de series mensuales, incorporando variables que hacen referencia
al nmero de das laborables y festivos que tiene un mes, el momento del ao en el que cae la Semana Santa, si el mes
de Febrero es bisiesto, etc. En estos modelos puede utilizarse como variable explicativa un dato de temperatura media
mensual si bien dicho efecto suele venir recogido en gran medida por la propia periodicidad anual de la serie.
Tambin es frecuente hacer la prediccin a medio plazo en trminos diarios. Aunque no tiene sentido plantearse el
conocimiento del valor esperado para la demanda en un da concreto de alguno de los dos aos a los que se plantea el
estudio, s resulta de inters el consumo mximo diario que pueden llegar a alcanzarse en un periodo determinado
(denominado pico en la terminologa energtica) as como su probabilidad de ocurrencia. No slo se trata de realizar
la mejor prediccin posible del pico de consumo sino la probabilidad de tener que cubrir una demanda que supere en un
determinado porcentaje el valor pronosticado. A este nivel, la influencia meteorolgica es determinante pero
obviamente desconocida pues no son realistas las previsiones que puedan proporcionarse ms all de la primera semana
o quincena. Por ello los modelos que normalmente se utilizan se mueven en el mbito de la simulacin, es decir, la
propuesta de una prediccin base que se considera en condiciones normales de temperatura y las posibles variaciones
que cabe esperar ante diferentes escenarios trmicos configurados por el analista. La tesis de [GUTIER] que aborda la
prediccin de la demanda elctrica residencial en Andaluca, cita algunos de los enfoque ms utilizados para la
previsin del pico de demanda como el modelo economtrico simple de Spann y Beauvais (1977) en el que la punta
de demanda se considera como el resultado de una componente base y otra que refleja el efecto de la temperatura.
Tambin menciona la posibilidad de utilizar modelos ARIMA de mayor o menor grado de complejidad como por
ejemplo el modelo de Abraham,B. (1983) para la previsin de la demanda elctrica en el estado americano de Iowa.
Otra forma alternativa de predecir la demanda a medio plazo con detalle diario es realizando una prediccin mensual y
desagregando el resultado en valores diarios. El procedimiento propuesto en el artculo de [GIDEDU] consiste en
realizar una prediccin de la demanda de gas a partir de la facturacin mensual y de las temperaturas medias mensuales
esperadas y posteriormente descomponer dicha prediccin en valores diarios a travs de una ecuacin que permite
Introduccin
17
obtener las distribuciones de consumos diarios a partir de las distribuciones de consumo mensuales.
En esta tesis proponemos nuevos mtodos para predecir a corto y medio plazo la demanda de gas, y por extensin la
demanda elctrica, conjugando algunas de las tcnicas citadas con el empleo de una clase de funciones denominadas
cpulas. Las posibilidades de este tipo de funciones en el mbito de la simulacin las hacen muy atractivas para abordar
problemas de prediccin a medio plazo y hemos considerado que es sta una razn de peso para considerar la
metodologa que proponemos como una alternativa ms de prediccin a dicho horizonte, sin intencin de establecer una
comparativa rigurosa con los resultados a los que puedan conducir algunas de las tcnicas que acabamos de enumerar.
En cuanto al corto plazo se refiere, las funciones cpula suelen ser utilizadas para predecir series de carcter financiero
sujetos a una fuerte volatilidad que en el contexto de la demanda energtica acostumbra a traducirse en la prediccin de
los precios del gas y/o la electricidad (vase por ejemplo [KETTLER]). Por ello, dado que su empleo no parece estar tan
orientado a la precisin que exige la prediccin puntual de la demanda energtica para un da determinado y teniendo en
cuenta la amplia variedad de mtodos que de antemano existe para tratar el problema, hemos estimado oportuno
contrastar con alguno de ellos, los resultados a los que conduce un algoritmo que proponemos basado en su utilizacin.
De esta forma pretendemos hacernos una idea de las posibilidades que pueden llegar a ofrecer estas funciones en un
estudio predictivo a corto plazo y sentar las bases de futuras lneas de investigacin. En concreto, hemos decidido
comparar los resultados conseguidos con dicho algoritmo con aquellos proporcionados por una solucin de eficacia
contrastada en el tratamiento de este tipo de series. La solucin a la que hacemos referencia y que tambin hemos
mencionado en este captulo consiste en aplicar la metodologa Box-Jenkins basada en el empleo de modelos ARIMA
complementado con modelos de funcin de transferencia para reflejar el efecto de las variables de temperatura.
0.2 Objetivos
El objetivo fundamental que persigue esta tesis es definir una metodologa que automatice el proceso que conlleva
realizar una prediccin diaria a medio plazo (1-2 aos) para una serie de demanda energtica y, a travs de ella, conocer
el pico que se puede presentar durante dicho horizonte. A tal fin hemos utilizado un histrico de datos que refleja la
demanda de gas natural en Madrid as como las temperaturas mximas y mnimas registradas en algunos observatorios
de la provincia. Estos datos han sido proporcionados por el Departamento de Anlisis y Simulacin de la compaa
Enags.
El mtodo que proponemos sugiere como punto de partida realizar una prediccin diaria de la demanda para los dos
prximos aos en condiciones normales de temperatura siendo as posible conocer, bajo esta hiptesis de normalidad, el
valor mximo que se puede esperar durante un periodo concreto (un invierno, un ao, etc.). Este planteamiento inicial
sigue en cierta medida las directrices marcadas por autores como Engle, Granger, Mitchem y Ramanathan (1979) o
Stanton y Gupta (1980) quienes consideran que una forma adecuada de abordar esta problemtica es estimar la
demanda
mx { L t } .
t
Para hacer esta prediccin inicial, establecemos qu se entiende por condiciones climticas normales y construimos a
Introduccin
18
partir de un histrico diario de demanda de gas, aqul que hipotticamente se hubiera presentado en dichas condiciones.
As, a partir de un nuevo histrico cuyo comportamiento est aislado de la influencia meteorolgica, realizamos en una
segunda fase, una prediccin a dos aos vista a travs de un modelo autorregresivo que incorpora entre sus variables
explicativas el patrn cclico de la serie, la extrapolacin del cual permite plantear dicha prediccin. Para la deteccin
de este patrn cclico hemos utilizado tcnicas de suavizado de curvas como son el anlisis mediante wavelets y los
splines de regresin.
En una tercera fase, aplicamos la Teora de Cpulas para analizar la relacin de dependencia existente entre las
desviaciones de los datos reales de demanda con respecto a los datos construidos en condiciones normales y las
desviaciones entre los valores reales de temperatura y los supuestamente normales y, a partir de dicho anlisis,
simulamos el comportamiento que cabra esperar para la demanda en determinados escenarios trmicos. Esta es una de
las caractersticas ms innovadora que aporta esta metodologa, el empleo de funciones cpula para analizar a fondo la
relacin demanda/temperatura, cuantificar la respuesta del consumo ante situaciones climatolgicas especialmente
adversas y dar un resultado basado, no en un nico valor esperado alrededor del cual se construye un intervalo de
confianza simtrico, sino en toda una distribucin de valores sujeta a posibles asimetras y apuntamientos que permita
valorar la probabilidad de que la demanda alcance ciertas cotas y evaluar el riesgo asociado a la toma de determinadas
decisiones. Es precisamente esta propuesta de utilizar esta teora en el mbito de la prediccin de la demanda energtica
la que nos ha llevado a profundizar en las posibilidades que puede ofrecer y la que, en cierto modo, nos ha motivado a
definir a esta tesis como una tesis sobre cpulas.
Queremos hacer hincapi en que, en este contexto de la prediccin del pico de demanda, no es tan importante conocer
con exactitud el valor mximo esperado para la demanda como la distribucin de valores esperados que permita evaluar
la probabilidad de que ste se presente y el riesgo que puede conllevar. Obviamente es de esperar que el pico de
consumo diario se presente, casi con toda seguridad, en una condicin climatolgica especialmente adversa, o lo que es
lo mismo, que valores extremos de la demanda de gas vayan a ir asociados a valores extremos de las variables de
temperatura. A este respecto, la denominada Teora del Valor Extremo, introducida en los aos cincuenta por el
matemtico alemn Emil Julius Gumbel, es una rama de la estadstica que estudia los extremos de distribuciones de
probabilidad, analiza la relacin existente entre las colas de dichas distribuciones y evala el riesgo asociado de que se
presenten situaciones poco habituales. La teora de cpulas presenta algunos vnculos con esta teora puesto que se basa
en encontrar la funcin de distribucin conjunta que mejor representa a un conjunto de variables univariantes, la cual,
en el caso que nos ocupa, debe enfatizar la relacin de dependencia caracterstica que se establece entre las colas de las
variables demanda y temperatura. Veremos que cobran especial inters las denominadas cpulas de valor extremo a
las cuales el propio Gumbel hizo su particular aportacin (cpula de Gumbel) y que va a participar frecuentemente en
nuestros anlisis.
La idea que hemos perseguido es construir una herramienta informtica que, en funcin de unos histricos de demanda
energtica (gas o electricidad) y temperaturas (mxima y/o mnima) de la zona en la que han sido registrados, genere un
patrn de consumo en condiciones climticas normales, proponga la funcin cpula que mejor identifique la relacin
entre ambas variables en un mes concreto y, a partir de ella, simule el comportamiento de la demanda bajo condiciones
climatolgicas desfavorables para, en particular, poder conocer el valor mximo que puede llegar a alcanzar y su
probabilidad de ocurrencia. En este proceso, uno de los principales problemas que hemos encontrado y que surge en
Introduccin
19
general cuando se trabaja con funciones cpula es determinar aquella familia que mejor se ajuste a la muestra de datos
dada e identifique de forma adecuada la relacin de dependencia en ella implcita. Hemos utilizado un criterio ya
existente, basado en someter a un contraste de bondad de ajuste a una relacin de cpulas candidatas (vase [DOSCH])
y proponer como mejor alternativa aquella para la cual el estadstico de Pearson, evaluador del contraste, presente un
menor valor respecto de una particin dada del cuadrado unidad , el cual, dicho sea de paso, contiene al soporte de estas
funciones.
Ante la posibilidad de que ninguna de las familias candidatas proporcione un buen valor para dicho estadstico que
permita garantizar que la cpula se ajuste en cierta medida a la muestra, hemos propuesto un mtodo de construccin de
funciones cpula empricas no paramtricas que constituye el pilar terico de esta tesis. Las funciones cuya
construccin detallamos se obtienen por interpolacin polinmica del dominio de definicin de una clase de funciones
denominadas subcpulas de la cual seleccionamos aquella que presenta un valor mnimo (y por tanto ptimo) para el
estadstico de Pearson. La intencin es disponer de una funcin cpula alternativa a la mejor familia candidata de
expresin conocida en caso de que, por alguna razn, no consigamos a travs de esta ltima unos resultados
suficientemente satisfactorios. La naturaleza emprica de las cpulas que vamos a construir permite reflejar
dependencias locales en funcin de la mayor o menor concentracin de los pares muestrales en distintas regiones del
cuadrado unidad, pudiendo desempear el papel de cpulas pertenecientes a clases de comportamiento tan dispar como
la gaussiana o la de valor extremo, aunque creemos que su principal virtud ser la de capturar relaciones
multimodales incapaces de recoger en ocasiones por las familias ms convencionales.
Si bien las posibilidades de las funciones cpula dentro del mbito de la simulacin las hacen especialmente atractivas
para abordar problemas de prediccin a medio plazo, tambin proponemos una manera de tratar la prediccin de
demanda energtica a corto plazo (y en general cualquier tipo de prediccin de series temporales), a travs de un
algoritmo innovador basado en el empleo de este tipo de funciones. El mtodo que proponemos parte de las
predicciones obtenidas con un modelo ARIMA ajustado nicamente a partir del histrico de la variable a predecir y
suple el empleo de funciones de transferencia por el de funciones cpula con las que trata de ir reduciendo en sucesivas
iteraciones el error medio porcentual que se obtiene conforme se tiene en cuenta la informacin aportada por distintas
variables explicativas. La idea bsica que subyace bajo el algoritmo es encontrar la cpula que mejor explique la
relacin de dependencia entre los errores de prediccin derivados del ajuste del modelo y los valores que toma una
variable explicativa. Conocida esta relacin es posible predecir el error que se espera cometer de acuerdo a un valor
concreto del regresor para, en funcin de l, llevar a cabo la correccin correspondiente y proponer una nueva
prediccin a la que ir asociada otro error de prediccin que podr ser relacionado con una nueva variable.
Introduccin
20
0.3 La tesis
Esta tesis se encuadra dentro de los objetivos que persigue el programa de doctorado del Departamento de Estadstica
e Investigacin Operativa de la Facultad de Matemticas de la Universidad Complutense de Madrid, cuya
finalidad es potenciar la investigacin de metodologas y resultados tericos orientados a dar solucin a un problema
prctico.
La exposicin que realizamos est estructurada en dos grandes bloques, uno puramente terico en el que exponemos
algunas nociones de la teora de cpulas que consideramos bsicas para el mejor entendimiento del mtodo de
construccin de cpulas que planteamos y otro prctico en el que abordamos la prediccin de la demanda de gas a corto
y medio plazo mediante el empleo de este tipo de funciones.
El bloque terico se compone de un total de 6 captulos de los cuales damos a continuacin una breve descripcin:
En el primero de los captulos, se hace una presentacin de las funciones cpula, dndose su definicin,
hacindose mencin de los diferentes tipos y familias que existen y citndose las diferentes versiones del
teorema de Sklar, resultado que supone uno de los pilares sobre el cual se construye esta teora.
El segundo captulo enumera diversas tcnicas existentes que permiten seleccionar la familia de cpulas que
mejor se adapta a la relacin de las variables que intervienen en un anlisis y dentro de la familia seleccionada
aqul miembro que se considera ms adecuado para ello.
El tercer captulo hace un repaso de los mtodos existentes para la construccin de funciones cpula tanto
desde la perspectiva geomtrica como desde la puramente analtica y, en conjuncin con el captulo segundo,
sirve de introduccin al siguiente que constituye la aportacin terica fundamental de esta tesis.
En el captulo cuarto se presenta una metodologa para la generacin de funciones cpula alternativa a las
expuestas en el anterior. Se basa en la interpolacin polinmica del dominio de definicin de aquella funcin
subcpula que optimiza el valor del estadstico de Pearson. Segn se explica en el captulo segundo, este
estadstico es utilizado por algunos autores como criterio de evaluacin de la bondad del ajuste de las
funciones cpula a los datos.
Para mostrar cmo la construccin de cpulas a partir de subcpulas se complica conforme crece el orden de
los polinomios interpoladores comparamos, a modo de ejemplo, la interpolacin bilineal (realizada mediante
polinomios de orden 1) con la cbica, llevada a cabo a travs de polinomios de Hermite. En este ltimo caso,
se presenta un amplio desarrollo, a raz del cual se obtienen restricciones a imponer sobre dichos polinomios
para que el resultado de la interpolacin sea una funcin cpula. Adems, se presenta otro mtodo de
Introduccin
21
aproximacin mediante polinomios de Bernstein el cual conduce a superficies que, si bien no interpolan
exactamente el dominio de definicin de la subcpula de partida, dan lugar a cpulas de aspecto ms suave y
apropiado para ser utilizadas con fines predictivos.
El quinto captulo explica la utilidad de las funciones cpula para realizar predicciones a medio plazo. Cuando
el horizonte de prediccin se prolonga, es difcil disponer de un valor fiable para todos y cada uno de los
agentes explicativos que intervienen en el sistema. En tales circunstancias, el analista acostumbra a plantear
diferentes escenarios configurados por hipotticos valores de estos factores y, de acuerdo a stos, realiza una
simulacin de la evolucin del sistema. Explicaremos cmo la determinacin de una funcin cpula que se
ajuste bien a los datos permite obtener una buena representacin de la funcin de densidad de la variable a
predecir condicionada a las explicativas (densidad cpula condicionada). La simulacin de la evolucin de
nuestro sistema se puede establecer a partir de la simulacin de valores de la cpula condicionada.
Finalmente el sexto captulo detalla una posible forma de aplicar este tipo de funciones para realizar
predicciones a corto plazo dada una serie temporal. Se argumentan los posibles problemas que pueden surgir
con el empleo de este tipo de funciones cuando las variables sobre las que se definen presentan algn tipo de
dependencia temporal y la posibilidad de utilizarlas como mtodo alternativo al empleo de modelos de funcin
de transferencia para reflejar la influencia de una variable explicativa en aquella que se desea predecir.
Por otra parte, el bloque prctico se compone de un nico captulo (el sptimo) que consta de dos apartados orientados
respectivamente a la utilizacin de las funciones cpula para la prediccin a corto y a medio plazo:
El primero de los apartados trata la prediccin a medio plazo (entre 1 o 2 aos) con detalle diario. Para una
compaa del sector gasista el conocimiento del pico diario que puede esperarse para el invierno del ao
siguiente le permite evaluar si la capacidad del gasoducto es suficiente para soportar la demanda de una
determinada poblacin y, en funcin de ello, plantear una posible expansin de su infraestructura.
Si bien en esta tesis analizamos como hemos dicho, una serie de demanda de gas, la metodologa sera
igualmente aplicable a una de consumo elctrico. Para una compaa de este sector, el conocimiento del pico
diario de demanda le permite realizar planes para que sus sistemas estn preparados ante posibles sobrecargas
de la red. En las provincias del norte peninsular, este valor punta suele darse en invierno como resultado de una
ola de fro que provoca un efecto de saturacin de los sistemas de calefaccin elctrica. En la zona sur, el
problema est ms asociado a la estacin del verano derivado de los aires clidos procedentes del Shara
traducidos en un preocupante incremento de la venta de aparatos de aire acondicionado.
El mtodo que se detalla permite, en una primera fase, la obtencin de un patrn de comportamiento diario de
la demanda a dos aos vista en condiciones normales de temperatura (patrn climtico). En una fase posterior,
se describe cmo aislar el histrico de datos de demanda del efecto climtico para llevar a cabo la prediccin a
Introduccin
22
tan largo horizonte (de 365 a 2*365 das) a partir de un modelo autorregresivo y de las componentes de baja
frecuencia resultantes de la descomposicin de la serie de demanda mediante funciones wavelets o splines de
regresin. En una fase final, las funciones cpula van a permitir simular el crecimiento o decrecimiento
esperado de la demanda supuesto un incremento del valor de los agentes climatolgicos respecto del patrn
estndar establecido. La relacin entre la demanda y la temperatura no es lineal y adems presenta un
comportamiento difcil de capturar en situaciones extremas. Existen familias de cpulas que hacen nfasis en
la relacin entre sucesos cola y que, como veremos, se ajustan bastante bien a este tipo de situaciones.
Tambin veremos que las cpulas obtenidas por la metodologa de construccin que se describe en el captulo
cuarto del bloque terico, pueden ser una buena aproximacin a estas familias.
Los resultados de este bloque prctico han sido obtenidos a partir de una relacin de programas implementados
fundamentalmente con el software SAS dada las buenas y contrastadas referencias que de l encontramos para
el desarrollo de proyectos de Data Mining. En concreto, los mdulos utilizados de esta herramienta han sido:
Introduccin
23
En el captulo octavo de la tesis presentamos las principales conclusiones tericas y prcticas a las que hemos llegado y
en el noveno, las prximas lneas de investigacin que pretendemos seguir en el futuro.
Finalmente se incluye una relacin de Anexos en los cuales se pueden consultar las demostraciones rigurosas de los
lemas y teoremas que proponemos en el bloque terico y que constituyen la aportacin terica que hacemos al campo
de la teora de cpulas.
Tambin se pueden consultar en este captulo de anexos las expresiones correspondientes a las familias de cpulas ms
populares, as como una introduccin a algunos de los mtodos matemticos utilizados en el desarrollo prctico como
son las wavelets o los splines de regresin. Pretendemos con ello dar una idea que facilite el mejor entendimiento de
esta exposicin.
Introduccin
24
1. Funciones cpula
1.1 Introduccin
Un modelo matemtico no es ms que una forma de intentar explicar la realidad, una forma de medir la relacin que
existe entre las variables que definen un sistema. Cuando el objetivo es claramente predictivo, acostumbra a plasmarse
en una relacin de ecuaciones paramtricas que plantean una hiptesis sobre el funcionamiento de dicha realidad. Cada
parmetro de cada ecuacin tiene por finalidad cuantificar esa supuesta relacin. Lgicamente es imposible predecir el
futuro con exactitud y es por ello que una parte del modelo est reservada al error que asume que cometer, un trmino
que se considera desconocido.
Existen muchos tipos de modelos que pueden ser utilizados para predecir, algunos lineales y paramtricos como los
modelos de regresin o los ARIMA, otros no paramtricos como los rboles de decisin, algunos no lineales como las
redes neuronales, etc. Todos ellos tratan de detectar la relacin de dependencia que liga a las variables del sistema y
adems comparten un aspecto comn que es la necesidad de disponer de un histrico de datos sobre el que estudiar
dicha relacin. Cuanto mayor sea su volumen y ms fiable su contenido, de mayor calidad sern los resultados que el
modelo proporcione.
En el mbito matemtico, predecir consiste en conocer el comportamiento futuro de un sistema que puede ser ms o
menos complejo. En su versin ms simplificada, predecir es conocer el valor futuro que se espera que tome una
variable en funcin de su relacin con otra u otras variables. Si el comportamiento de la variable a predecir est
condicionado por su propia historia como ocurre cuando se plantean modelos diseados para el tratamiento de series
temporales, la relacin se establecer igualmente entre dos variables: el presente y el pasado de la misma.
Hemos empleado con cierta familiaridad dos trminos que tienen un equivalente matemtico directo:
La esperanza matemtica de una variable identifica el valor que se espera que tome la variable.
El trmino condicionado presupone que existe un conocimiento del valor de las variables que van a
intervenir como explicativas en el modelo.
La conjuncin de ambos conceptos da lugar al de esperanza condicionada de una variable que viene a ser el valor
que se espera que tome la variable condicionado a que se tiene un conocimiento del valor de otras que actan como
explicativas. El clculo de la esperanza condicionada de una variable Y al valor x de otra (u otras) X se realiza a partir
de la distribucin condicionada
YX = x que es una funcin que permite conocer como se distribuyen los valores
de la variable Y cuando se sabe que la variable X toma el valor x. El conocimiento de esta distribucin permite
Funciones
cpula
25
localizar cul es el valor de Y que se presenta ms habitualmente cuando X vale x, viendo cul es el valor (o valores)
de Y alrededor del cual la distribucin es ms densa (tiene mayor masa o densidad). ste puede ser por ejemplo la
media, la mediana o la moda de la distribucin y puede ser propuesto como valor esperado o prediccin. Adems, la
distribucin informa tambin del nivel de concentracin alrededor del valor que damos como prediccin, lo cual
permite proporcionar una idea de su volatilidad (o variabilidad). Esta medida de la dispersin esperada para la
prediccin resulta de gran utilidad para analizar el riesgo derivado de la toma de una posible decisin fundamentada en
ella. Nuevamente se repite el trmino matemtico esperado y aparece uno nuevo, dispersin, palabras que
conducen al concepto de varianza, que viene a ser lo que se espera que valga la dispersin (la media de las desviaciones
con respecto a la prediccin).
Es importante destacar la necesidad cada vez mayor de proporcionar estas dos medidas. En ocasiones, no es tan
importante la prediccin puntual como el grado de confianza en ella que nos puede dar el conocimiento de su dispersin
esperada. Y an ms, puede interesarnos conocer la distribucin de valores esperada dado que en ocasiones pueden
existir varios valores candidatos para la prediccin (distribuciones multimodales) y, asociados a ellos, diferentes
medidas de su variacin. Los mtodos de prediccin ms convencionales suelen proporcionar una prediccin y un
intervalo de confianza asociado a la misma que por lo general suele ser simtrico. Esto es as porque el mtodo
presupone ciertas hiptesis de normalidad de los agentes que intervienen en el sistema, hiptesis que en muchas
circunstancias no son realistas.
En resumen, estamos interesados en conocer la distribucin esperada de una variable del sistema, condicionado al valor
de otras con las que mantiene algn tipo de relacin desconocida que no tiene porqu ser cuantificable por un
parmetro. No hay que buscar necesariamente una o varias frmulas que plasmen la relacin mediante sumas y/o
productos de pares de parmetros y/o variables. Nuestro objetivo es determinar la forma de esa distribucin
condicionada y, a partir de ella, proponer una prediccin.
La funcin de densidad (equivalentemente, de masa) asociada a la distribucin condicionada
YX
se puede calcular
f yx =
f XY x , y
siendo fXY la funcin de
f X x
P XY x , y
siendo PXY la funcin de
PX x
La distribucin condicionada que buscamos podr expresarse en funcin de la distribucin conjunta de las variables y
de alguna de sus marginales. Determinar las marginales que mejor se ajustan a cada una de las variables puede ser ms
Funciones
cpula
26
o menos sencillo dado que la propia representacin de los valores de la variable nos puede sugerir el empleo de alguna
de las muchas distribuciones conocidas que existen (Poisson, Uniforme, Normal, Exponencial, etc.) y, aun en el peor de
los casos, siempre podemos optar por utilizar una distribucin emprica.
Mucho ms complicado resultara proponer una expresin para la distribucin conjunta, entre otras cosas porque en ella
debe venir representada implcitamente la relacin de dependencia existente entre las variables X e Y. La solucin a este
problema no es inmediata como veremos a continuacin.
Supongamos un caso muy sencillo en el que tenemos dos variables X e Y con sus respectivas funciones de distribucin
marginales FX(x) y GY(y). Entonces, existen infinitas funciones de distribucin bivariantes conjuntas HXY(x,y) cuyas
marginales son FX(x) y GY(y). Ms aun, podemos encontrarnos con pares de variables (X1,Y1) y (X2,Y2) que responden a
estructuras de dependencia diferentes aun cuando las Xi y las Yi presentan la misma distribucin y siendo adems el
coeficiente de correlacin lineal entre X1 e Y1 el mismo que entre X2 e Y2. Es decir, pueden existir dos funciones de
distribucin conjuntas y distintas H1 y H2 asociadas a (X,Y), que explicaran respectivamente y de forma diferente la
relacin de dependencia entre ellas.
Nuestra intencin es encontrar la funcin de distribucin conjunta H que mejor refleje la relacin entre X e Y; aqulla
que nos garantice que la distribucin condicionada que construyamos represente fielmente esa relacin y pueda ser
utilizada por el analista con fines predictivos. Es en este contexto en el que aparecen en 1959 unas funciones bautizadas
por el matemtico Abe Sklar como cpulas, funciones que, como el autor define, unen (o copulan) funciones de
distribucin multivariantes a sus marginales unidimensionales de igual forma que el trmino gramatical cpula sirve
de enlace entre el sujeto y el predicado de una oracin. Es el concepto lingstico el que sirve de inspiracin a Sklar
para dar nombre a esta clase de funciones. Citaremos algunos referentes histricos que han sido extrados del captulo 1
de [NELSEN], al cual invitamos al lector a consultar para conocer ms en detalle algunos de los hitos ms significativos
en la historia de esta teora.
Quiz los precedentes ms remotos de la teora los encontramos en 1940-1941, cuando Wassily Hoeffding define una
clase de distribuciones bivariantes estandarizadas cuyo soporte est contenido en el cuadrado [-1/2, 1/2] 2 y cuyas
marginales son uniformes sobre [-1/2, 1/2]. Segn Schweizer (1991), si Hoeffding hubiese utilizado como dominio de
definicin el intervalo [0,1] en vez de [-1/2, 1/2], hubiese sido l quien hubiese descubierto las cpulas.
Sin embargo, el antecedente ms claro al desarrollo de Sklar lo encontramos en el trabajo de Fern en 1956. Fern
realiz un estudio sobre distribuciones tridimensionales en el que defina unas funciones auxiliares de dominio el
cuadrado unidad que le permitieron enlazar dichas distribuciones con sus marginales univariantes. Sklar observa, segn
nos comenta en uno de sus artculos ms recientes que data de 1996, que funciones con caractersticas similares a las de
Fern podan ser definidas para dimensiones mayores o iguales que 2, y que de igual manera serviran de enlace entre
las distribuciones conjuntas y sus marginales univariantes. A partir de esta apreciacin, Sklar establece el teorema que
lleva su nombre y que constituye el pilar fundamental de una teora que ha despertado a partir de la dcada de los
noventa y que, dada su corta edad, mantiene hoy da muchas lneas de investigacin abiertas.
Funciones
cpula
27
1.2 Definicin
La mayor parte de los artculos que podemos encontrar sobre cpulas comienzan dando su definicin sin hacer alusin a
otra clase de funciones a partir de la cual podra definirse en una nica frase: las cpulas son subcpulas cuyo dominio
es el cuadrado unidad. Esta forma de presentarlas que hace Nelsen (vase captulo 2 de [NELSEN]) nos parece la ms
apropiada dado que la metodologa que constituye la base terica de esta tesis se fundamenta en la posibilidad de
extender
cualquier
subcpula
una
cpula
(vase
el
lema
2.3.5
de
[NELSEN]).
Sin embargo, de igual manera que desconoceramos las tareas de un director si lo nico que supiramos de l es que en
su ausencia es el subdirector quien las desempea, y a pesar de las ventajas de espacio que ofrece la definicin
propuesta, parece que estamos obligados a explicar las propiedades que caracterizan a una funcin subcpula.
Definicin 1.1.- Una 2-subcpula es una funcin C' con las siguientes propiedades:
1.
2.
3.
4.
C' es 2-creciente, es decir, el volumen a travs de C' de cualquier rectngulo B contenido en su dominio de
definicin, tambin llamado C'-volumen, es mayor o igual que cero, o lo que es lo mismo,
V c ' [u1, u2 ] x [v1, v2 ]=C ' u2, v 2 C ' u2, v1 C ' u1, v2 C ' u1, v1 0 B=[u1, u2 ] x[ v1, v 2 ]DomC '
(1.4)
El 2 que precede al trmino subcpula identifica que es una funcin bivariante y que implcitamente es utilizada para
reflejar la relacin entre pares de variables. Si bien esta teora es extrapolable al caso n-variante y tiene sentido por tanto
hablar de n-subcpulas (y n-cpulas), nos centraremos en el caso bivariante dado que resulta ms fcil de manejar en
cuanto a notacin, se puede visualizar grficamente (la relacin entre X e Y se puede representar en el plano y la funcin
cpula que depende de ellas, en el espacio) y es la que normalmente encontraremos en la mayor parte de la literatura
existente al respecto. Por ello, a partir de ahora los trminos subcpula y cpula irn referidos al caso bivariante.
Definicin 1.2.- Una cpula es una funcin
1.
2.
3.
Funciones
cpula
28
Muchas de las propiedades de las cpulas y las subcpulas son comunes. Sin embargo, el hecho de que se diferencien
en el dominio de definicin, resulta determinante como pone de manifiesto el Teorema de Sklar (1959), que
constituye el pilar fundamental y una referencia obligada en la teora de cpulas pues establece la relacin que existe
ente las distribuciones multivariantes y sus marginales univariantes a travs de un cpula.
Teorema 1.1.- Teorema de Sklar
Sean X e Y variables aleatorias con funciones de distribucin marginales FX y GY respectivamente y funcin de
distribucin conjunta HXY. Entonces existe una cpula C tal que
Sea X una variable aleatoria absolutamente continua con soporte CX y funcin de densidad fX . Sea
estrictamente creciente o decreciente en CX y en consecuencia biyectiva y por tanto inyectiva, lo cual garantiza la
existencia de 1. Si 1 admite derivada continua sobre CZ = (CX) entonces Z= (X) es una variable aleatoria
absolutamente continua con soporte CZ y funcin de densidad
Funciones
cpula
k Z z= f X 1 z1 ' zI C z .
Z
29
En el caso que nos ocupa, =FX es montona creciente por ser funcin de distribucin.
z= x =F X x 1 z= F X 1 z
C Z =C X =F X C X =0,1
Dado que
F X 1 z
I 0,1 z
z
k Z z= F ' X F X 1 z
F X 1 z
d F X F X 1 z
dz
I 0,1 z =
I 0,1 z = I 0,1 z= I 0,1 z que
z
dz
dz
es
la
C es
X i~F i i=1,2,...,n
Como se puede leer en [PATTON2], existen otras versiones del teorema de Sklar enunciadas a partir de dos funciones
asociadas a una cpula y cuya existencia est garantizada por ser C una funcin montona.
Definicin 1.4.- Las derivadas parciales respecto de U y V, que en virtud de la monotona de C existen para casi todo
u y v respectivamente (salvo conjunto de medidas Lebesgue nula), definen las denominadas cpulas
condicionadas asociadas a C y son:
C
u , v (1.9)
u
C
u , v (1.10)
v
Se puede demostrar que estas funciones as definidas no slo existen, sino que adems son no decrecientes para casi
todo punto de [0,1] (vase el teorema 2.7.7 de [NELSEN]).
La consecuencia directa de la adaptacin del teorema de Sklar para distribuciones condicionadas continuas es que las
distribuciones
condicionadas
de
YX = x
XY = y
vienen
dadas,
respectivamente,
por
H Y / X y=C1 F x ,G y (1.11)
H X / Y x=C 2 F x,G y (1.12)
pues por ejemplo:
Funciones
cpula
30
C F X x , G Y yC F X xh ,G Y y Sklar
C
C u , vC uh , v
u , v=lim
= marg. uniformes lim
=
u
F U u F U uh
h 0 C u , C uh ,
h 0
H x , yH xh , y
lim
=H yx siendo U ~ d U 0,1 y F U su F.D
h
h 0
Esta relacin es para nosotros de gran importancia dado que la prediccin de una variable Y a partir del conocimiento de
otra variable X la plantearemos a partir de la simulacin de valores de la distribucin condicionada YX = x
mediante el mtodo de la transformada inversa (vase el apartado 2.3 de [PARVAL]), siendo para ello necesario
disponer de su funcin de distribucin H(y|x) que, como vemos, puede ser aproximada mediante una funcin cpula.
Finalmente, cabe hablar de funcin de densidad conjunta asociada a las variables U y V que viene a denominarse como
densidad cpula y cuya existencia est igualmente garantizada en funcin del citado teorema 2.7.7 que encontramos en
[NELSEN].
Definicin 1.5.- Se define la densidad cpula condicionada asociada a una cpula C como:
C 12 u , v=
C
u , v (1.13)
uv
Podemos encontrar en [PATTON2] (vase apartado 2.1) una versin del teorema de Sklar asociada a las funciones de
densidad.
Teorema 1.4.- Teorema de Sklar para Densidades Cpulas
Sea hXY funcin de densidad bivariante conjunta de las variables X e Y con densidades marginales fX y gY. Entonces
hXY se puede descomponer en el producto de las marginales fX y gY y la densidad cpula c de la siguiente manera:
h XY x , y=c F X x , G Y y f X xg Y y (1.14).
Estas son las dos principales versiones que encontraremos del Teorema de Sklar, una asociada a funciones de
distribucin y otra a funciones de densidad. Sin embargo, existen algunas otras como por ejemplo la que se cita en
[PATTON2] (vase teorema 2 en el apartado 2.2) que est ms orientada al tratamiento de series temporales pues
maneja distribuciones condicionadas que dependen de un subndice t el cual hace referencia a un instante de tiempo.
A este respecto propone la siguiente versin del teorema:
Teorema 1.5.- Teorema de Sklar para Distribuciones Condicionadas Continuas
Sea Ht funcin de distribucin bivariante condicionada con marginales continuas Ft y Gt y sea Ft-1 un conjunto al
que se condicionar . Existe entonces una nica cpula condicional Ct :[0,1] x [0,1][0,1]
H t x , yF t 1 =C t F t xF t 1 ,Gt yF t1 F t1 x , y=[,]
tal que
(1.15)
Recprocamente, si Ct en una cpula condicionada y Ft y Gt son las funciones de distribucin condicionadas de dos
variables aleatorias X e Y, entonces la funcin Ht definida por (1.15) es una funcin de distribucin condicionada
bivariante con marginales Ft y Gt.
Funciones
cpula
31
El teorema emplea una funcin denominada cpula condicional, cuya definicin tambin se presenta en [PATTON2]
(definicin 2 del apartado 2.2):
Definicin 1.6.- Se define una 2-cpula condicional como una funcin
siguientes propiedades:
1.
2.
3.
V C [u 1, u 2 ] x[ v 1, v 2 ]F t 1=C t u 2, v 2F t 1C t u 2, v 1F t 1 C t u 1, v 2F t1 C t u1, v 1F t 10
t
La seleccin de una u otra funcin cpula C suele estar condicionada por la forma en que sta establece la relacin de
dependencia entre las variables U y V, relacin que es cuantificable de muchas formas.
As por ejemplo, el coeficiente de correlacin (X,Y) (que se mueve entre -1 y 1) nos proporciona un indicador con el
que valorar la dependencia lineal que existe entre X e Y. Cuanto ms prximo a 1 est en valor absoluto, mayor es la
relacin lineal que vincula a las variables. Adems, el signo de este coeficiente nos informa del sentido de la relacin:
si es positivo, X crece conforme crece Y, mientras que si es negativo, una y otra variable se mueven, de forma lineal, en
sentido opuesto. El hecho de que (X,Y) valga 0 es representativo de ausencia de relacin lineal entre X e Y, lo cual no
quiere decir que no pueda existir algn otro tipo de relacin (no lineal).
Existen tambin las denominadas medidas de asociacin, algunas tan populares como la Tau de Kendall y el
coeficiente de correlacin de Spearman, que cuantifican relaciones no necesariamente lineales, sino que se utilizan
directamente como funciones de evaluacin del contraste de independencia:
H 0 : F XY x , y= F X x F Y y X e Y indedendientes vs H 1 : F XY x , y F X x F Y y .
Funciones
cpula
32
Estas medidas, se mueven tambin entre -1 y 1. Cuando toman alguno de estos valores extremos, reflejan
respectivamente una relacin de dependencia negativa o positiva perfecta. Conforme se aleja de ellos, la medida es
sinnimo de falta de dependencia entre las variables. En trminos coloquiales, vienen a determinar cmo se relacionan
los valores grandes y pequeos de la variable aleatoria X con los de la variable Y.
El captulo 5 de [NELSEN] analiza en profundidad las diferentes vas en las que las cpulas pueden ser utilizadas para
estudiar la dependencia entre variables. Entre los resultados ms importantes, destacamos aqullos que ponen de
manifiesto la relacin entre una funcin cpula ajustada a las muestras asociadas a un par de variables U y V y el valor
muestral de sus medidas de asociacin (teoremas 5.1.3 y 5.1.6).
Teorema 1.6.- Relacin entre una cpula y la Tau de Kendall
Sean X e Y variables aleatorias continuas cuya cpula es C. Entonces, la popular versin de la Tau de Kendall para X
e Y viene dada por
XY =4 C u , v dC u , v 1=4E [C U , V ]1 (1.19).
I
Sean X e Y variables aleatorias continuas cuya cpula es C. Entonces, la popular versin del coeficiente de
correlacin de Spearman para X e Y viene dada por
XY =12 C u , v dudv3 (1.20).
I
Gran parte de la importancia de estas relaciones es su utilidad para concretar la cpula ms adecuada de entre todas las
pertenecientes a una misma familia paramtrica puesto que, por lo general, es fcil calcular el valor del parmetro a
partir del estimador muestral de estas medidas de asociacin mediante las expresiones (1.19) y (1.20).
Existen muchos tipos de funciones cpula y es difcil encontrar en la literatura una clasificacin clara de todas ellas
dado que existen muy diversos criterios para hacerlo: en funcin de la dependencia o no de parmetros, de su soporte
(continuo o discreto), del tipo de relacin que reflejan (cpulas elpticas, cpulas de valor extremo,etc.) Por ello, en vez
de presentar un esquema general que permita ubicar cada cpula de acuerdo a una jerarqua concreta, enumeraremos
algunos de estos criterios y citaremos algunos ejemplos asociados a las clases que resultan de su aplicacin.
Funciones
cpula
33
2
A C u , v = C s , t dsdt la parte absolutamente continua de la cpula y SC(u,v) la parte singular.
st
0 0
As, podemos hacer una primera clasificacin en:
siendo
Cpulas
u
singulares.-
aqullas
2
s ,t
=0
s t C s ,t dsdt=0 Cs
t
2
que
no
tienen
parte
absolutamente
continua,
(1.23).
La importancia de estas cpulas es que proporcionan una acotacin para cualquier otra funcin cpula
verificndose la siguiente relacin
W u , vC u , vM u , v cpula C (1.24)
La primera de ellas, W, es reflejo de dependencia negativa perfecta entre las variables X e Y mientras que la
segunda, M, es reflejo de dependencia positiva perfecta.
Los soportes de estas cpulas son las diagonales secundaria (para W) y principal (para M) del cuadrado unidad,
cuyas pendientes -1 y 1 son representativas del tipo de dependencia que reflejan. El siguiente grfico ilustra al
soporte de estas funciones.
Funciones
cpula
34
Cpulas absolutamente continuas.- aqullas que no tienen parte singular, es decir, tales que
SC u ,v=0 .
A travs de ella queda caracterizada la independencia entre las variables X e Y. Basta observar que
C 2 u ,v=Cuv=u ).
El hecho de que X e Y sean independientes implica que el valor de cualquiera de las medidas de asociacin
citadas ((1.19) o (1.20)) sea 0. As por ejemplo, para la correlacin rango de Spearman se puede comprobar
1
u 1
v
v
] dv3=12 =12 ]10 3=0
2 0
2
4
0
AC u ,v0 ,
no constituyendo ninguna de estas partes una cpula por s misma por no tener marginales uniformes. La
presencia de una componente singular hace que estas cpulas sean de mayor utilidad cuando las marginales
univariantes se suponen discretas.
Algn ejemplo es la familia de Cuadras-Aug (vase (AI.33)) que responde a la expresin:
C u , v =[ min{ u , v } ][ uv ]1 con 01 (1.26)
Obsrvese que cuando = 0 se tiene la cpula absolutamente continua mientras que cuando = 1 se tiene
la cpula singular M.
En relacin a este primer criterio de clasificacin en funcin del soporte, mencionaremos la existencia de cpulas cuyo
soporte son fractales (vase [FRENERO]). stos, de acuerdo a la definicin que da Mandelbrot, son conjuntos cuya
dimensin topolgica es inferior a su dimensin de Hausdorff.
Cpulas paramtricas.- Todas las cpulas que responden a una misma ecuacin paramtrica definen una
familia de cpulas. En ella, el parmetro (uniparamtricas) o parmetros (multiparamtricas) cuantifican de
algn modo la relacin de dependencia entre las variables que asocian.
Cpulas no paramtricas.- De igual manera existen familias de cpulas no paramtricas que son aquellas en
cuya definicin no participa ningn parmetro sino que, por su estructura emprica, se ajustan de forma local a
los datos. El mtodo de construccin de cpulas que se presenta en esta tesis (vase captulo 4) est orientado
a la generacin de este tipo de cpulas.
Funciones
cpula
35
Dentro de uno y otro grupo, gozan de popularidad la clase de las cpulas arquimedianas caracterizada por la facilidad
con que pueden ser construidas y por la gran variedad de estructuras de dependencia que permiten reproducir. Este
grupo de cpulas ser comentado en el siguiente apartado.
1.5.3 Tipos de cpulas en funcin de la relacin de dependencia que son capaces de reflejar
Las cpulas tambin pueden ser clasificadas en funcin del tipo de relacin que permiten reflejar. A este respecto,
citamos algunas de las clases ms caractersticas y frecuentemente utilizadas:
Cpulas de dependencia extrema.- se caracterizan, como su propio nombre indica, por capturar una relacin
de dependencia extrema entre las variables: dependencia positiva perfecta (cpula M), dependencia negativa
perfecta (cpula W) o independencia (cpula ).
Cpulas elpticas.- se definen como las cpulas asociadas a las distribuciones elpticas. Su rasgo ms
caracterstico es que representan relaciones de dependencia simtricas sin importar que se analice la cola
izquierda o derecha de las distribuciones implicadas. Normalmente no se utilizan para anlisis financieros y de
compaas aseguradoras en las que surgen asimetras derivadas del hecho de que grandes prdidas suelen ir
acompaadas de grandes ganancias.
Los ejemplos ms populares son la cpula gaussiana (vase (AI.5) en el Anexo I), la t-cpula o cpula de la t
de Student (vase (AI.40)) y, como caso particular de esta ltima, la cpula de Cauchy (vase (AI.6)). La
principal diferencia entre ellas radica en las posibilidades que presentan de cara a buscar asociaciones entre
fenmenos extremos. A este respecto, la t-cpula permite tratar con colas ms pesadas que la gaussiana.
Cpulas de valor extremo.- estas cpulas sern de gran utilidad para representar relaciones que ponen mayor
nfasis entre los sucesos cola (extremos) de las distribuciones marginales. Como se define por ejemplo en
[SEGERS], las cpulas de valor extremo son los posibles lmites (en caso de que existan) de cpulas asociadas
a los mximos de muestras independientes e idnticamente distribuidas. Entendamos mejor esta definicin.
Sea una muestra de variables aleatorias bidimensionales {(X1,Y1), ..., (Xn,Yn)} independientes e idnticamente
distribuidas de acuerdo a unas mismas marginales FX y GY y a una misma distribucin conjunta HXY que, en
virtud del teorema de Sklar llevar asociada una cpula C:
Sean las variables
vienen
dadas
H XY x , y=C F X x , G Y y .
por
F n x= P [ M n x ] y G n y= P [ N n y ] y
con
distribucin
conjunta
H n x=P [ M n x , N n y ] .
Si C es tambin la cpula asociada al par (Mn,Nn) y a su posible lmite cuando n tiende a infinito se dice
entonces que C es una cpula de valor extremo (CVE). Como se explica en [SEGERS], de acuerdo al teorema
de
Dehuelves
1
una
cpula
de
valor
extremo
queda
caracterizada
por
la
condicin
C t u t , v t =C u , v t0 (1.27)
Funciones
cpula
36
siendo un corolario de sta el que las cpulas de valor extremo slo modelizan dependencia positiva.
Adems, existe un teorema propuesto por Pickands (1981) que permite asociar una representacin asociada a
este tipo de cpulas.
Teorema 1.8.- Representacin de cpulas de valor extremo
Una cpula C es una cpula de valor extremo si y slo si existe una funcin real valorada A, definida sobre
el intervalo [0,1], que verifica la siguiente relacin:
C u , v=exp { log uvA
log v
} (1.28)
log uv
o equivalentemente
C eu , e v =exp {u vA
v
} (1.29).
uv
La funcin A recibe el nombre de funcin de dependencia de Pickands y verifica las siguientes propiedades:
1.
2.
Es convexa en [0,1]
max t ,1t A t 1 t[0,1 ]
Cpulas arquimedianas.- existe una gran diversidad de familias que pertenecen a la clase arquimediana y
gracias a esta variedad permiten, a diferencia de las elpticas (simtricas) y de las de valor extremo (muy
orientadas a dependencias en las colas), recoger muchos tipos de estructuras de dependencia adicionales. Otra
ventaja de este tipo de cpulas es la facilidad con la que pueden ser construidas, lo cual queda claramente
puesto de manifiesto a partir de su definicin.
Definicin 1.7.- Sea el conjunto de funciones
decrecientes, convexas y para los cuales
miembro de
0 = y
C u , v =1 u v
La funcin
con 0u , v1 (1.30)
Las cpulas arquimedianas ms conocidas son de tipo paramtrico y pueden ser consultadas en [NELSEN]
(uniparamtricas) y en [JOE] (biparamtricas). Sin embargo, existen tambin algunas aportaciones dentro del
mbito no paramtrico (vase por ejemplo [VANLAM]).
Las cpulas cuya construccin se describe en el apartado cuarto de esta tesis persiguen evitar el compromiso de
decantarse por alguno de los diferentes tipos de cpulas en funcin de la estructura de dependencia ligada a la muestra.
Se trata de emplear una clase de cpulas que, por su naturaleza emprica y no paramtrica, se ajusten bien a los datos sin
necesidad de preguntarse si sern capaces de capturar ciertas asimetras o de resaltar la relacin entre los valores
extremos observados en las colas de las distribuciones marginales.
Funciones
cpula
37
De acuerdo a lo expuesto, queda patente la dificultad de establecer una clasificacin nica de las cpulas conforme a un
criterio general dado que, incluso de acuerdo a un mismo criterio, pueden existir solapamiento entre las clases
establecidas. As, la cpula de valor extremo de Gumbel (vase (AI.8) o (AI.15)) pertenecen tambin a la clase
arquimediana, si bien ninguna de las clases es subconjunto de la otra pues por ejemplo la cpula de Husler y Reiss
(vase (AI.9)) es de valor extremo pero no arquimediana mientras que la cpula de Frank (vase (AI.13)) es
arquimediana pero no de valor extremo).
En el Anexo I se presenta un esquema que trata de ubicar las cpulas ms populares de acuerdo a una jerarqua concreta
que trata de responder a los dos ltimos criterios que hemos definido. El criterio de clasificacin de acuerdo al soporte
(singular, absolutamente continuo o mixto) se ha obviado dado que en su mayor parte (salvo las cotas de FrchetHoeffding) se trata de cpulas no singulares. As:
El primer nivel de esta jerarqua se establece de acuerdo al nmero de parmetros del que depende la familia.
El segundo criterio clasifica conforme al tipo de relacin de dependencia: cpulas de dependencia extrema,
cpulas elpticas, cpulas de valor extremo y la clase arquimediana que pudiera considerarse comodn en el
sentido de que permite reflejar distintos tipos de relaciones.
Funciones
cpula
38
Determinacin de las distribuciones marginales asociadas a cada una de las variables en funcin de las
muestras de datos disponibles.
2.
Propuesta de un conjunto inicial de familias de cpulas candidatas que, por sus caractersticas, se perfilan
como adecuadas para reflejar la relacin existente entre las variables. Esta propuesta se har de acuerdo al
conocimiento o en su defecto intuicin, que se tenga sobre la forma de dicha relacin.
- 39 -
3.
Seleccin de una cpula por familia. En el caso paramtrico se trata de determinar los valores asociados a los
parmetros correspondientes a cada familia para lo cual, se suelen utilizar expresiones que permitan el clculo
de dichos parmetros a partir de la estimacin muestral de alguna medida de asociacin como el coeficiente de
correlacin de Spearman o la Tau de Kendall.
4.
Eleccin de la cpula de entre todas las que representan a cada una de las familias candidatas. A este respecto,
existen muy diversos criterios que exponemos en el apartado 2.5.
1
F n x = 1[ X x ]
n i=1
i
(2.1).
de menor a mayor y denotamos por z a las variables x ordenadas, {z1, z2, ..., zn}. Adems, se definen dos puntos
auxiliares z0 = a y zn+1 = b. A partir de esta nueva muestra de n+2 elementos se define la funcin de distribucin
emprica continua mediante rectas que unen los puntos medios de los segmentos que conforman la funcin de
distribucin emprica (discreta).
Pongamos como ejemplo la muestra {x1, x2, x3} = {11,2,25} a partir de la cual se puede calcular la funcin de
distribucin emprica discreta (en azul). Sean a = 1 y b = 26 (una unidad menos y ms respectivamente que el mnimo y
el mximo del conjunto de valores). As, tenemos z0 y zn+1. Sea {z1, z2 , z3} = {2,11,25} la muestra ordenada. Hallando
los puntos medios entre estos valores, obtenemos {(2+11)/2,(11+25)/2} = {6.5,18} que determinarn las inflexiones de
la funcin de distribucin emprica continua (en rojo). Como inflexiones asociadas a los extremos se utilizan los puntos
a y b. El siguiente grfico ilustra el ejemplo descrito:
- 40 -
Ilustracin 2.1: Funciones de distribucin emprica discreta y continua asociada a una variable
- 41 -
tiles pues gracias a su gran diversidad permite recoger relaciones de muy distintos tipos. Como tambin se explica en
el captulo 4 de [MATTEIS], el procedimiento para determinar la cpula que mejor se ajusta a una muestra aleatoria
bivariante de n observaciones {(x1,y1), ..., (xn,yn)} comienza asumiendo que sta ha sido generada por una distribucin
bivariante desconocida H(x,y) con marginales continuas F(x) y G(y) y cpula arquimediana C(u,v). Hecha esta
de
consideracin, se trata de determinar a qu familia pertenece C, o lo que es lo mismo, la forma del generador
la cpula que, recordemos, caracteriza a la cpula arquimediana. Se podr disponer de varias familias candidatas
{C } (con varios tipos de generadores
OPT
. Como
Estimar en un primer paso las funciones de distribucin marginales mediante mtodos paramtricos o no
paramtricos y, posteriormente, a partir de ellas, estimar mediante el principio de mxima verosimilitud.
Tambin es posible hacer la estimacin de las marginales y del parmetro en un slo paso. En este caso, la
estimacin de puede hacerse de dos formas:
Empleando un mtodo no paramtrico, recomendado por Genest y Rivest (1993) donde es estimado en
un slo paso, con independencia de las funciones de distribucin marginales. La estimacin se hace
empleando la correlacin rango de Kendall.
Procediendo de la forma que describe [MATTEIS] para cada una de las familias candidatas, el resultado es un conjunto
de cpulas (una por familia) entre las que ser necesario hacer la seleccin final.
- 42 -
La definicin de la cpula emprica puede encontrarse en [NELSEN] (definicin 5.5.1) y responde a la expresin:
i j n de pares x , y en la muestra tales que x x i e y y j
C n , =
(2.2)
n n
n
para {(x1,y1), ..., (xn,yn)} muestra de una distribucin bivariante conjunta, y siendo x(i) e y(j) con
1i , jn los
medida de distancia que se propone est basada en la norma discreta L n , siendo n, el nmero de variables analizadas
(en el caso bivariante, n = 2):
T
T
t
t
t
t 2 1 /2
C ,C k = ... C 1 ... n C k 1 ... n
dn
(2.3)
T T
T T
t =1
t =1
1
Si bien estamos partiendo de que ya disponemos de una cpula concreta dentro de cada una de las familias y esta
distancia nos va a ayudar a seleccionar una de ellas, tambin es posible aplicar esta medida a todas las cpulas de una
misma familia para determinar el valor del parmetro ms conveniente. Es decir, podramos prescindir del paso previo
de estimacin que hemos comentado (la solucin paramtrica o la no paramtrica de Genest y Rivest) y hacer la
seleccin de la cpula dentro de cada una de las familias valindonos de
vector de parmetros
forma:
2 1/ 2
=argmin
[C u , vC u , v ; ]
(2.4)
u l
condicionada C1(F(x),G(y)) = HY/X(x,y) se debera distribuir tericamente segn una U(0,1). As, mediante un
grfico QQ-plot se puede establecer el contraste observando si el resultado se aproxima a la recta y = x. Se
tratara de ver para cul de todas las cpulas candidatas se obtiene una mejor aproximacin.
Grfico basado en la funcin de distribucin de la cpula.- Se define Kc(t) como la C-medida del conjunto
{ u , v[0,1] x [0,1]t.q C u , vt } . Se puede demostrar que si C en una cpula arquimediana generada por
una funcin
t
t derecha
(2.5)
F X ~U 0,1 , podemos
concluir que si C est suficientemente bien aproximada a los datos cabe esperar que
Eleccin de la cpula que mejor refleja una relacin de dependencia
- 43 -
distribucin K correspondientes a cada una de las cpulas candidatas para terminar decantndose por aqulla
que ms se aproxime a la recta y = x.
donde L es la funcin de verosimilitud de la muestra que se utiliza para la estimacin del parmetro y es el nmero
Eleccin de la cpula que mejor refleja una relacin de dependencia
- 44 -
Se puede utilizar como valor para aqul que se estimara para dicha familia mediante el mtodo de la mxima
verosimilitud o a travs de la correlacin rango de Kendall, OPT .
Se trata de un contraste de bondad de ajuste pero, a diferencia del que se planteara en la aproximacin analtica del
mtodo descrito en el apartado 2.5.3, se trata de un test cuyo estadstico ir asociado a una muestra bidimensional y en
consecuencia, las clases de las que depende no sern intervalos del eje real sino rectngulos del plano real
(concretamente del rectngulo unidad). Por ello, nuevamente instamos a la consulta del Anexo VIII para un mejor
entendimiento del desarrollo que a continuacin exponemos.
En primer lugar, dividiremos el intervalo [0,1] del eje X en r subintervalos de igual longitud y se procede de manera
idntica con el intervalo [0,1] del eje Y, si bien el nmero de clases puede ser distinto, s. Como resultado de esta
particin, el rectngulo [0,1]2 quedara dividido en un total de r x s
Para construir el estadstico del contraste ser necesario disponer del nmero de puntos muestrales que caen en cada uno
de los rectngulos y de la frecuencia terica esperada para cada uno de ellos a travs de la cpula que se contrasta.
As, dada una cpula C perteneciente a la familia C(u,v;) para la que ya ha sido estimado su parmetro OPT la
frecuencia terica asociada al rectngulo Bij es n*pij(OPT), donde
p ij OPT = P U , V Bij /OPT = dC u , v ;OPT (2.7)
B ij
Por otro lado, para calcular el nmero de puntos muestrales que caen en cada uno de los rectngulos, Nij (este nmero es
- 45 -
independiente de la familia de cpulas considerada), se deben distinguir dos casos en funcin del conocimiento que se
tenga de las distribuciones marginales asociadas a X e Y:
Si se supone que F y G son conocidas, basta con hallar la imagen a travs de F y G de la muestra
bidimensional, es decir, (ui,vi) = (F(xi),G(yi)) y calcular el nmero de puntos transformados que caen en cada
rectngulo.
Por el contrario si las distribuciones de F y G son desconocidas, la forma de calcular (ui,vi) es a partir de las
Lgicamente,
1
y
1
n i =1 [ X x]
i
u i =
v i =G n y i =
1
.
1
n i =1 [ Y y ]
rango de x i en x 1, x 2,... , x n
y
n
v i =
rango de y i en y 1, y 2,... , y n
.
n
A partir de todos estos datos, se puede plantear nuevamente como estadstico del contraste, el estadstico de Pearson
r
N ij n p ij OPT 2
(2.8)
n pij OPT
j =1
s
i =1
(2.9)
i =1 j =1
rs1d grados
de libertad (donde d normalmente valdr 1 pues consideramos cpulas uniparamtricas); en el segundo caso (F y G
desconocidas), el estadstico se distribuye segn una Chi-cuadrado con
r1 s1d
grados de libertad.
En cualquiera de ellos, se calcular uno de los dos estadsticos para cada una de las cpulas candidatas y se seleccionar
de entre todas ellas, aquella C para la que se obtenga un menor valor del estadstico del contraste dado que ser la que
refleje mayor proximidad entre el volumen emprico de cada uno de los rectngulos y el volumen esperado para ellos a
travs de la cpula.
encuentra relacionada con las marginales de X e Y a travs de la derivada de una cpula respecto de la primera de las
variables (U), C1, mediante la expresin (1.11). La obtencin de predicciones de Y a partir de X se realizar mediante la
Eleccin de la cpula que mejor refleja una relacin de dependencia
- 46 -
etapas:
I.
Determinacin de un conjunto de entrenamiento y otro de validacin.- Reservamos parte del histrico para
validar la calidad de las predicciones que vamos a realizar. Dicha parte recibir el nombre de conjunto de
validacin y no participar en el ajuste de las distribuciones marginales ni en el de la seleccin de la funcin
cpula que mejor representa a una de las familias candidatas sino que ser utilizado con posterioridad para la
evaluacin de las mismas. Por lo general, se reserva una cuarta o quinta parte de los datos disponibles para
validar los resultados. El resto del histrico se utilizar para realizar los ajustes y recibe el nombre de conjunto
de entrenamiento.
II. Determinacin de marginales.- Tomaremos como marginales las funciones de distribucin empricas
continuas asociadas a X e Y y las aplicaremos a los valores muestrales (de entrenamiento) para obtener la
muestra transformada {(FX(x1),FY(y1)),...,(FX(xn),FY(yn))}. sta ser una muestra bidimensional de variables
uniformes estndar {(u1,v1),...,(un,vn)}, siempre y cuando las aproximaciones dadas por estas marginales sean
suficientemente buenas. Por supuesto, tambin pueden proponerse como marginales algunas de las
distribuciones univariantes conocidas (Normal, Exponencial, Pareto, etc.), si bien conviene previamente
plantear el correspondiente contraste que confirme la hiptesis lanzada. En cualquier caso, la cpula C y de
igual manera su condicionada respecto de U, C1, actuarn sobre esta muestra de uniformes, lo cual permite
intuir la transformacin del problema de prediccin original de Y en funcin de X, en un problema de
prediccin de V en funcin de U. Efectivamente, el planteamiento original busca saber cul es el valor y
asociado a un valor x conocido. El hecho de que que para este ltimo podamos calcular la imagen
FX(x) = u y de que adems dispongamos de una distribucin conjunta C que presupone cierta relacin de
dependencia sobre pares del tipo (u,v), nos permite proponer como alternativa la prediccin del valor de
v = GY(y) (en lugar de y). Una vez realizada la prediccin de la transformada V=G(Y) se puede deshacer la
transformacin (mediante G-1) para obtener la prediccin de la variable Y.
III. Seleccin preliminar de cpulas.- Se consideran una relacin de familias de cpulas candidatas y dentro de
cada una de ellas se escoge un representante. En el caso de las cpulas uniparamtricas esto se traduce en
determinar el valor del parmetro a partir del valor muestral de la Tau de Kendall o del coeficiente de
Spearman desde el cual se define. Este valor muestral se debe estimar tambin a partir del conjunto de
entrenamiento.
IV. Simular valores para la cpula condicionada asociada a cada uno de los representantes.- Hemos dicho
que las predicciones se obtendrn por simulaciones de
transformada, parece lgico que las simulaciones las realicemos para la cpula condicionada
prediccin de V condicionada a U = u se realizar mediante simulaciones de la variable
C 1 =C V /U
La
VU =u . Para
realizar dichas simulaciones se puede utilizar el mtodo de la transformada inversa, siendo necesario para ello
disponer de la funcin de distribucin de dicha variable, C1. As, nuestra relacin de cpulas C candidatas a
- 47 -
explicar la relacin entre X e Y, proporciona a travs de la ecuacin (1.9) otra relacin de cpulas
condicionadas C 1 =C V /U candidatas a ser la mejor representacin de la funcin de distribucin
HY /X .
H Y / X = x donde x
es conocido. El resultado final de esta etapa es una relacin de valores simulados para la variable Y para cada
uno de los valores propuestos para la variable X y cada una de las cpulas que representan a las familias
candidatas.
V. Propuesta de un valor predicho.- El paso anterior proporciona una distribucin de valores simulados de Y a
partir de un x y una cpula C concreta. El valor que se puede esperar para Y podr venir dado por la media
de las simulaciones o, en su defecto, por alguna otro parmetro de tendencia central ms robusto como por
ejemplo la mediana. Cualquiera de ellas se puede utilizar como valor predicho. Adems, el conocimiento de la
distribucin permite tambin proporcionar alguna medida de dispersin asociada a la prediccin como la
varianza, la desviacin media absoluta o el rango intercuartlico que podra traducirse en una evaluacin del
riesgo de la misma. De hecho, el alcance va an ms all puesto que proporciona conocimiento sobre posibles
asimetras, densidad en las colas, apuntamiento, presencia de varias modas, etc. La simulacin de valores, y
por tanto la obtencin de las predicciones, se pueden realizar a partir de cualquier x tanto de la muestra de
entrenamiento como de la de validacin. Comparando el valor predicho con el real es posible hablar de un
error de prediccin para cada familia de cpulas que se considerar asociado a la muestra en el primer caso
(in-sampling) y fuera de muestra en el segundo (out-of-sampling) siendo este ltimo por lo general de mayor
magnitud dado que los datos de dicho conjunto no participan directamente en el ajuste. Aquella familia de
cpulas que a travs de su representante proporcione en media (o en mediana) menores errores (principalmente
a futuro) ser la que se seleccione finalmente para los fines predictivos que se persiguen.
- 48 -
A lo largo del tiempo se han propuesto muy diversas tcnicas para construir funciones cpula. El hecho de que stas
puedan proporcionar distribuciones multivariantes con unas marginales concretas (segn demuestra el teorema de
Sklar) ha llevado a los distintos autores a la bsqueda de mtodos que permitan generar funciones de este tipo
intentando que adems posean ciertas caractersticas orientadas a identificar algn tipo de relacin de dependencia.
Aqu presentamos un esquema paralelo, aunque ms resumido, al que expone Nelsen (vase captulo 3 de [NELSEN])
y se citan algunos otros propuestos por otros autores. Adems del libro citado, referenciaremos otros artculos travs
de las cuales el lector podr entrar en un mayor nivel de detalle.
Nelsen presenta un resultado an ms general (vase el apartado 3.1 de [NELSEN]) en funcin de una subcpula C' y
las cuasi-inversas de F y G segn el cual no es necesario imponer que las distribuciones marginales sean estrictamente
crecientes (de serlo, tienen una nica cuasi-inversa que es precisamente la inversa ordinaria) ni continuas (condicin
impuesta para que el resultado se d no slo para subcpulas sino tambin para cpulas). La tcnica recibe el nombre de
mtodo de inversin pues permite obtener funciones cpula a partir de las inversas de funciones de distribucin.
A modo de curiosidad, se puede observar que la funcin cpula construida C puede servir para, dadas otras dos
funciones de distribucin univariantes F' y G' (distintas de F y G), obtener otra conjunta H' (distinta de H) con
marginales F' y G'. Efectivamente, en virtud del teorema de Sklar,
distribucin bivariante con marginales F' y G'. Esto justifica el hecho de que haya infinitas distribuciones conjuntas con
marginales comunes.
- 49 -
soportes de una sucesin de cpulas. Dado que cada uno de stos se define sobre el cuadrado unidad es necesario hacer
2
la correspondiente conversin (escalado) al cuadrado J i al que se quiere ajustar. Formalmente, la definicin es la
siguiente:
Definicin 3.1.- Sea
disjuntos cuya unin es el cuadrado unidad. Asociada a ella, sea {C i }i I un conjunto contable de cpulas. Se define
la suma ordinal de
{C i }i I respecto de
C u , v=
ui a i v ia i
,
si u , v J 2i
bi a i b ia i
M u , v=minu , v si u , vJ 2i
a i b ia i C i
(3.1)
- 50 -
inferior, W) a una relacin de rectngulos definidos sobre el cuadrado unidad. A grandes rasgos la tcnica queda
definida en cuatro pasos:
1.
Considerar el soporte de la cpula M o cota superior de Frchet-Hoeffding (1.23) (vase ilustracin (1.1)).
2.
Realizar una particin del cuadrado unidad en una relacin de cuadrados. La particin se denomina regular si
todos los cuadrados son del mismo rea. Los cuadrados que componen la diagonal principal de I 2 contienen el
soporte de M.
3.
El trozo de soporte contenido en cada cuadrado de la diagonal principal y que tiene pendiente positiva (como
M) puede cambiar de orientacin (a pendiente negativa). Hacer cuantos cambios se desee. El resultado es una
cpula nueva (salvo que no gire ningn trozo) cuyo soporte sigue contenido en los cuadrados de la diagonal
principal.
4.
Finalmente, cada trozo de soporte contenido en los cuadrados de la diagonal principal (con pendiente positiva
o negativa) puede trasladarse a otro cuadrado de la misma fila (o columna) respecto de la particin siempre y
cuando no existan dos trozos del soporte original de M en una misma fila o columna
M n , { J i } , , donde n es el nmero
un vector cuyos elementos son 1 -1 en funcin de la pendiente de cada trozo, es decir, dependiendo de si gira o no
cada trozo de M y es una permutacin de Sn={1,2,...,n}
1 1 2
4
En los grficos anteriores, n = 5, { J i }=[0, ] , [ , ] , ... ,[ ,1] , =1,1,1,1,1 (los trozos 1 y 3 no
5 5 5
5
giran) y = 4,2,5,3,1 (el trozo uno se traslada de la columna primera a la cuarta y el dos no permuta, no se
traslada).
Metodologas para la construccin de funciones cpula
- 51 -
Como resultado importante, Nelsen observa (teorema 3.2.1 de [NELSEN]) que toda cpula C se puede aproximar
mediante ciertos cambios de M.
Este mtodo de construccin se basa en un resultado que establece que cualquier combinacin lineal convexa de un
conjunto finito de cpulas es tambin una cpula (ejercicio 2.3 propuesto en [NELSEN]). Es decir, dadas las cpulas
C0 y C1 y dado I =[0,1] , C u , v=1C 0 u ,vC1 u , v es tambin una cpula. De igual manera se
puede demostrar (ejercicio (3.17), tambin propuesto en [NELSEN]) que se pueden construir cpulas como
combinacin de un conjunto infinito de ellas o lo que es lo mismo, como una suma convexa de cpulas
{C }
donde es una observacin de una variable aleatoria continua con funcin de distribucin .
Definicin 3.3.- Se define la suma convexa de una sucesin de cpulas {C } con respecto a , funcin que
recibe el nombre de funcin de combinacin, como
C u , v d
(3.2).
Como hemos sealado, se puede demostrar que la expresin anterior define una cpula. Veremos ms adelante que las
cpulas arquimedianas se definen a partir de la transformada de Laplace de la funcin de combinacin.
a I un nmero cualquiera.
S ah t =C t ,a tI (3.3)
S av t =C a ,t t I (3.4)
C t =C t ,t t I (3.5)
- 52 -
ai v i{0,1,..., n} y
H x , y1 F xG y H x , y
(3.6).
F x H x , yG yH x , y
Dicha ecuacin es el cociente entre el producto de los elementos de la diagonal principal y el producto de los situados
en la diagonal secundaria de la siguiente tabla de contingencia.
X x
Y y
Y y
X x
G(y)-H(x,y)
t.q G(y)
t.q 1-G(y)
1-F(x)-G(y)+H(x,y)
1-F(x)
- 53 -
Realmente proporciona una medida de la asociacin entre las variables X e Y pues por ejemplo, si = 1, entonces
H x , y =F x G y
Adems, haciendo las transformaciones u=F(x) y v=G(y) y teniendo en cuenta el teorema de Sklar es posible expresar
la ecuacin anterior como
C u , v1uvC u , v
(3.7).
uC u , vvC u , v
La bsqueda de una solucin en C permite obtener una familia de cpulas uniparamtrica que es la familia de Plackett
(vase (AI.37)).
0 = y
:[0,1][0,] (denominada
C u , v=1 u v .
La obtencin de generadores de cpulas (funciones ) se puede conseguir calculando la transformada de Laplace de una
funcin de distribucin.
Ya adelantbamos en el apartado 3.2.4 la posibilidad de construir cpulas arquimedianas a partir de la transformada de
Laplace de la funcin de distribucin de una variable aleatoria . Dicha transformada viene dada por la expresin
C u , v =1 u 1 v .
Si bien las familias de cpulas arquimedianas ms conocidas son paramtricas (y sobre todo uniparamtricas), algunos
autores han propuesto versiones que no lo son. As por ejemplo, en [VANLAM] se propone un mtodo de construccin
de cpulas arquimedianas no paramtricas a partir de una combinacin log-lineal continua de generadores
arquimedianos y se demuestra que los coeficientes de estas funciones ajustadas a trozos pueden ser interpretadas como
medidas de dependencia local.
- 54 -
En sucesivas iteraciones, la matriz T acta sobre la cpula C dando lugar a una secuencia de cpulas
{C ,T C , T 2 C =T T C , T 3 C =T T 2 C , ... , T m C =T T m1 C , ...} con lmite CT.
Bajo ciertas condiciones impuestas sobre T y CT, los autores demuestran que dicho lmite es una cpula cuyo soporte
es un fractal de dimensin Hausdorff s comprendida entre 1 y 2.
- 55 -
- 56 -
Segn hemos comentado, uno de los principales problemas que encontrar el analista que trabaje con funciones cpula
es seleccionar de entre una gran diversidad de familias, aqulla que mejor represente la distribucin conjunta entre las
variables de estudio, disponiendo segn hemos visto, de diferentes criterios de seleccin que le servirn de ayuda en la
toma de esta complicada decisin.
En esta tesis proponemos un mtodo de construccin de cpulas alternativo especialmente dirigido a obtener la mejor
candidata respecto de uno de los criterios enumerados en el captulo 2. En concreto, la metodologa consiste en obtener
la subcpula que proporciona el menor valor posible respecto del estadstico de Pearson el cual, como hemos visto en el
apartado 2.5.5, sirve de evaluacin del contraste de bondad de ajuste. En un segundo paso, esta subcpula ser
extendida mediante tcnicas de interpolacin polinmica para definir una cpula que conserve el valor de dicho
estadstico. El resultado permitir al analista disponer de una cpula no paramtrica que presenta caractersticas a priori
atractivas:
Presenta el menor valor posible respecto del estadstico de Pearson para una particin dada del cuadrado
se adapta localmente a los cambios que se producen respecto de dicha relacin. Desaparece el problema de
tener un conocimiento de antemano de la relacin entre ellas y tener que plantearse si la cpula a utilizar debe
poner mayor nfasis entre las colas de las distribuciones marginales, resaltar algn tipo de asimetra o reflejar
efectos multimodales.
Para explicar la manera en que vamos a construir esta cpula, comencemos considerando una muestra de K pares
distribuidos sobre el cuadrado unidad sobre el que se realiza una particin en
n xm
Fusionando las expresiones (2.7) y (2.8) que dan forma al estadstico de Pearson se obtiene:
2
N ij K p ij
=
K p ij
j =1
i =1 j=1
i= 1
N ijK dC u , v ;
B ij
K dC u , v ;
B ij
Nuestra intencin es construir la cpula que proporciona un mejor valor respecto de este estadstico. Teniendo en cuenta
que la funcin que obtendremos va a ser no paramtrica, podemos, en primer lugar, omitir en la expresin anterior la
dependencia del parmetro.
Observemos adems que las cantidades pij representan el volumen del rectngulo
Bij =[ ui ,u j ] x[ vi ,v j ] a travs
- 57 -
de la cpula C. Otra forma de escribir este volumen, como se muestra en la tercera condicin que debe satisfacer una
funcin cpula (1.7), sera
concluir que la contribucin de la cpula al estadstico viene dada por el valor de dicha cpula en una relacin de puntos
que son los vrtices de cada uno de los rectngulos en que ha sido dividido el cuadrado unidad.
De esta forma, se trata de construir una funcin C con las siguientes caractersticas:
Que sea una funcin cpula, es decir, que verifique las propiedades (1.5) - (1.7).
Que su evaluacin sobre los nodos (ui,vj), los cuales sirven de interseccin entre las lneas horizontales y
verticales que generan la particin del cuadrado unidad, garanticen un valor mnimo respecto del estadstico de
n
N ijnC u i , v j C u i , v j 1 C u i 1 , v j C u i1 , v j 12
(4.1)
nC u i , v j C u i , v j1 C u i1 , v j C u i1 , v j1
Obtencin de la subcpula ptima.- Consideraremos el espacio de todas las posibles subcpulas con soporte
los nodos resultantes de la particin del cuadrado unidad y buscaremos aqulla cuyo valor sobre los puntos de
su soporte proporcionen el menor valor del estadstico de Pearson.
Obtencin de la cpula ptima.- Extensin de la subcpula ptima a una cpula mediante interpolacin con
funciones polinmicas de forma que la cpula resultante tome el mismo valor que ella en cada uno de los
nodos de la rejilla que trocea el cuadrado unidad. En consecuencia tendremos una cpula cuyo estadstico de
Pearson superar en bondad al de otras candidatas pues, como veremos, estar conformado por la combinacin
ptima de valores que una cpula puede tomar sobre los puntos de evaluacin del estadstico.
Podra pensarse que esta forma de proceder es sinnimo de sobreajuste en el sentido de que estamos forzando a la
cpula a pasar por una relacin de puntos para que el estadstico correspondiente proporcione el mejor p-valor posible.
Es decir, algo parecido a construir un modelo que minimice el error cuadrtico medio definiendo para ello la ecuacin
que interpola exactamente todos los valores muestrales (MSE = 0) pero descuidando con ello la posibilidad de
extrapolar dicho modelo a otras muestras o lo que es lo mismo, su poder predictivo.
Sin embargo, lo que realmente estamos tratando de hacer es utilizar el estadstico en cuestin para hacernos una idea de
lo que debera valer la cpula que estamos buscando en una relacin de puntos de su dominio, concretamente en
aquellos nodos que comprenden la rejilla que hacen una particin del cuadrado unidad. La aproximacin al estadstico
va a permitir que los valores que se estiman para esos puntos se muevan en consonancia con la muestra y puedan
constituir un soporte fiable. No estamos construyendo con esto una funcin cpula propiamente dicha, sino una funcin
subcpula que sirva de punto de partida. La verdadera funcin cpula se construye a partir de ella mediante alguna
- 58 -
tcnica de interpolacin pero, por supuesto, dicha funcin no est ajustada (sobreajustada) a todos los puntos de su
dominio. S habr que tener precaucin a la hora de considerar la dimensin de la rejilla que provoca la particin. No
conviene que la cantidad de rectngulos que surjan ( nm ) sea desmesurada ya que como consecuencia, el nmero
de puntos que podran caer en cada uno de ellos podra ser demasiado pequeo (uno o ninguno por rectngulo) y es ah
donde s podra existir el problema del sobreajuste (la funcin subcpula que sirve de punto de partida se ajusta a todos
los valores de la muestra). En principio, podra servir de punto de partida el convenio emprico que citamos en el Anexo
VIII segn el cual el nmero de clases debe ser mayor o igual que 5. De hecho en los ejemplos que vamos a plantear
vamos a considerar este nmero de divisiones en cada uno de los intervalos [0,1], dando lugar as a una particin del
cuadrado unidad en 25 rectngulos. Particiones de mayor dimensin reduciran en exceso el nmero de pares muestrales
por rectngulo.
A pesar de que el mtodo que se va a desarrollar busca la optimizacin del criterio descrito en el apartado 2.5.5, nuestro
verdadero argumento de seleccin estar basado en la calidad de las predicciones que proporcione cada cpula
(apartado 2.5.6). Es decir, en ningn caso vamos a decantarnos de forma incondicional por el empleo de la cpula que
resulte de aplicar esta metodologa sino que recomendamos establecer siempre el contraste con los resultados que
puedan proporcionar los representantes de otras familias de cpulas conocidas.
Para el ejemplo que servir de referencia a este captulo vamos a utilizar una parte de los datos diarios de demanda
domstica de gas natural en Madrid que son empleados en el captulo 7. En dicho captulo se explica cmo estimar a
partir de una serie temporal de demanda de gas, el valor de los datos que supuestamente se hubieran presentado en
condiciones normales de temperatura, es decir, se detalla la generacin de una serie temporal de demanda de gas
aislando el efecto de la climatologa. A partir del resultado obtenido, se puede disponer de una muestra bidimensional
donde la componente x de cada par mide la diferencia entre el dato de temperatura mxima del da t y otro que se
considera
como
temperatura
normal
del
mes
al
que
pertenece
dicho
da,
es
decir,
- 59 -
Y t =
Lgicamente, como el modelo no recoge el efecto de la temperatura es de esperar que, si un da t la temperatura cae
por debajo de la media esperada para el mes (X(t) positivo), la estimacin del dato normal de demanda se quede por
debajo del dato real (pues al hacer fro, subir la demanda de gas) y, en consecuencia, Y(t) ser tambin positivo.
El siguiente grfico muestra pares de datos asociados al mes de Noviembre cuando ambas componentes son positivas.
Se trata de analizar la relacin existente entre ellas utilizando funciones cpula.
Para ello, empezamos generando la muestra transformada a travs de las distribuciones empricas continuas de X e Y
(vase el apartado 2.2), y continuamos haciendo una particin de I2 en 5 x 5 rectngulos.
Ilustracin 4.1: Conversin de la muestra (x,y) en la muestra de uniformes (u,v) que sirve de soporte a una cpula
El estadstico de Pearson se construye a partir del nmero de puntos que caen en cada uno de los rectngulos y el
nmero esperado de ellos a travs de la subcpula cuya bondad se est contrastando. Esta ltima cantidad viene dada
por el volumen a travs de la subcpula de cada uno de los rectngulos, que viene a ser la probabilidad a travs de ella
de que un par (u,v) se encuentre en el mismo. Para el clculo de estos volmenes basta con disponer del valor de la
subcpula en cada uno de los nodos que surgen al hacer la particin (puntos rojos del grfico anterior).
As, vamos a considerar el espacio constituido por todas las subcpulas cuyo dominio son precisamente esos nodos:
={ C ' C ' subcpula con DomC ' = S 1 x S 2 } , S 1 ={ 0,
1 ,2
n1
1 ,2
m1
, ...
,1} S 2={ 0,
, ...
,1 } (4.2)
n n
n
mm
m
Las condiciones a imponer para que una subcpula C' pertenezca a son:
1.
2.
i
j
C ' ,0 =0 i{ 0,1 ,2 , ... , n } y C ' 0, =0 j{ 0,1,2 ,... , m } (4.4)
n
m
3.
i
i
j
j
C ' ,1= i { 0,1,2 , ... , n } y C ' 1, =
j{0,1 ,2 , ... , m } (4.5)
n
n
m m
4.
i1 i
j1 j
, ] x[
, ]0 i{ 1,2 ,... , n } j { 1,2 , ... , m } (4.6)
n n
m m
- 60 -
n xm
a travs de la subcpula, dado que, de ser as, el volumen de cualquier otro rectngulo cuyos vrtices pertenezcan al
dominio de C' (S1xS2) tambin ser mayor o igual que 0 puesto que su volumen se podr expresar como suma de los
volmenes de algunos de los rectngulos disjuntos.
Es decir, si en el ejemplo grfico que hemos planteado, aseguramos que el volumen de B22 = [1/5,2/5]x[1/5,2/5] y el
volumen de B23 = [1/5,2/5]x[2/5,3/5] son mayores o iguales que cero, entonces, el volumen del rectngulo B =
[1/5,2/5]x[1/5,3/5] (tambin contenido en el dominio de C') ser mayor o igual que 0 por ser suma de los otros.
El objetivo es encontrar, entre todas las subcpulas de , aquella para la que la evaluacin del estadstico de Pearson
(4.1) proporcione el menor valor posible. Este problema puede ser abordado mediante un modelo de programacin
matemtica con las siguientes caractersticas:
Existir una variable c'ij por cada nodo de la rejilla que resulta de hacer la particin. Dichas variables van a
representar el valor que debe tomar la subcpula en cada uno de los nodos.
La funcin objetivo a minimizar ser el propio estadstico de Pearson que, por su estructura, da carcter no
lineal al problema. Se trata de encontrar los c'ij que minimizan dicho estadstico.
Las restricciones que determinan la regin factible van a ser lineales y deben asegurar que la funcin cuyo
valor en cada uno de los puntos de su dominio va a calcularse, sea una subcpula. Para ello:
Variables asociadas a nodos del tipo (i/n, 0) y (0, j/m) deben valer 0 (se debe cumplir la condicin (4.4)).
Variables asociadas a nodos del tipo (i/n, 1) y (1, j/m) deben valer respectivamente i/n y j/m (se debe
cumplir la condicin (4.5)).
i1 i
j1 j
, ]x[
, ] debe satisfacerse la restriccin lineal
n n
m m
i j
i1 j
i j1
i1 j1
C ' , C '
, C ' ,
C '
,
0 (se debe cumplir la condicin (4.6)).
n m
n m
n m
n
m
i S 1 j S 2
s.a
i
j
c ' i0=0 i S 1 ; c ' 0j=0 jS 2 ; c ' im= i S 1 ; c ' nj= jS 2
n
(4.7)
- 61 -
Conviene observar que realmente, las nicas variables de decisin del problema van a ser aquellas asociadas a nodos
que se encuentran en el interior del cuadrado unidad dado que el valor de las fronterizas ya viene prefijado de antemano
por las condiciones (4.4) y (4.5).
Se trata de un problema de programacin fraccional no lineal (vase captulo 13.3 de [HILIE]) que presenta la dificultad
aadida de que, por las caractersticas de la regin factible, los valores que van a tomar las variables se pueden mover
en entornos muy cercanos a 0 y ello puede llevar a que el denominador de la funcin objetivo se anule. Ante la posible
falta de convergencia del algoritmo que se aplique para resolver el problema, se debe poner especial cuidado en la
seleccin de una solucin inicial factible que evite acercarse a valores que puedan anular este denominador.
Se propone como punto de partida, la subcpula producto (vase (1.25) o (AI.3) en el Anexo I) que se define en cada
vrtice
i j
, como
n m
i j
i j
C ' , =
.
n m nm
Teorema 4.1: Existencia de solucin factible al problema de programacin no lineal que permite obtener una
subcpula que optimiza el valor del estadstico de Pearson
Sea una particin del cuadrado unidad en n x m rectngulos del mismo rea. Entonces el problema de programacin
fraccional (4.7) tiene solucin factible. La solucin ptima a dicho problema va a proporcionar la relacin de valores
en cada uno de los puntos del dominio de definicin de la subcpula que optimiza el estadstico de Pearson.
demostracin
Como adelantbamos una solucin factible viene dada por la propia subcpula producto
i j
i j
C ' , =
(aunque
n m nm
c ' i0=
c ' im=
im i
= iS 1 y
nm n
c ' nj=
n j j
=
jS 2 (se cumple la condicin (4.5))
nm m
i j i1 j i j1 i1 j1
1
=
0 i , j S 1 x S 2
nm
nm
nm
nm
nm
- 62 -
El algoritmo que se recomienda, est condicionado al hecho de que las restricciones del problema sean de tipo lineal y
tambin a la dimensin del mismo en lo que al nmero de variables se refiere, o lo que es lo mismo, al nmero de nodos
que resulten al realizar la particin del cuadrado unidad.
Los mtodos que ofrecen mayor fiabilidad y velocidad son aqullos que utilizan la matriz Hessiana. Sin embargo,
cuando la dimensin del problema es muy grande, no se aconseja el empleo de mtodos que impliquen el clculo de las
derivadas de segundo orden de la funcin objetivo que componen dicha matriz puesto que suelen requerir demasiado
tiempo y memoria computacional. En el enlace [SASDOC] (ayuda al usuario de la herramienta SAS) se proporciona
una relacin de tcnicas a utilizar en funcin de las caractersticas del modelo a resolver. Dado que SAS ha sido la
herramienta utilizada para la implementacin de los modelos matemticos que se presentan en esta tesis, hemos
considerado que es el asistente de dicha herramienta el que mejor puede conocer la eficiencia y complejidad de los
algoritmos que tiene programados para tratar este tipo de problemas. Este asistente puede ser consultado para un mayor
conocimiento de cada una de las tcnicas que a continuacin se citan:
Cuando el nmero de variables es inferior a 40, se propone alguno de los algoritmos de Newton-Raphson o el
mtodo de la regin de confianza (Trust Region Method). Estas tcnicas utilizan el Hessiano, el cual, para
problemas de dimensin pequea, no resulta demasiado costoso de calcular y cuyo uso ofrece siempre mayor
fiabilidad.
Cuando el nmero de variables se encuentra entre 40 y 200, se propone el algoritmo Cuasi-Newton que no
utiliza la matriz hessiana, sino la propia funcin objetivo y su gradiente. Si bien esto implica la ejecucin de un
mayor nmero de iteraciones que los mtodos anteriores, stas van a ser ms rpidas y el resultado desde un
punto de vista computacional se ve ms beneficiado.
Si el nmero de variables es superior a 200, se propone el algoritmo del Gradiente Conjugado. En este caso,
el clculo del Hessiano resulta an menos recomendado dada la gran cantidad de memoria computacional que
es necesario reservar para ello. Si bien el nmero de iteraciones que precisa es mayor que el de los algoritmos
Cuasi-Newton, la velocidad con la que stas son llevadas a cabo es mucho mayor.
Una vez resuelto el problema, dispondremos de una subcpula C* cuyo dominio son los puntos de evaluacin del
estadstico de Pearson. La forma en que dicha subcpula ha sido construida asegura que los valores que toma en cada
uno de los puntos de su dominio proporcionan el menor valor posible para el estadstico de Pearson y por tanto aqulla
que mejor se ajusta a los datos de acuerdo al contraste de bondad de ajuste, la que ms se aproxima a la cpula terica
desconocida.
- 63 -
4.2 Etapa II: Construccin de una cpula por interpolacin de una subcpula
Realmente estamos interesados en la cpula que mejor se ajusta a los datos y no en la subcpula que mejor lo hace
porque como veremos, necesitamos conocer cunto vale la funcin en todos los puntos del cuadrado unidad para poder
simular valores de la variable Y a partir de cualquier valor de la variable X y no slo en aquellos x cuyos
transformados son los vrtices de los rectngulos de la particin. Sin embargo, vamos a aprovechar el resultado del
apartado anterior para construir una cpula que tome los mismos valores que los que toma en su dominio de definicin
la subcpula que nos ha proporcionado el modelo de optimizacin y, por tanto, que conserve el valor del estadstico de
Pearson respecto de la particin.
Parece obvio que la forma de fabricar una cpula que tome el mismo valor que una subcpula en una relacin de puntos
(concretamente en aquellos que constituyen su soporte), es mediante algn mtodo de interpolacin. As, se propone
definir una funcin C que pase por los puntos
i j
i j
, , C ' , i {1,2 , ...n } , j{ 1,2 , ... m} , o lo que es lo
n m
n m
mismo, construir una superficie que interpole los valores que toma la subcpula ptima que ha resultado del modelo
matemtico, pero sin descuidar el aspecto ms importante: la funcin C debe ser una cpula.
Lema 4.1
Sea C' subcpula. Entonces existe una cpula C tal que C'(u,v)=C(u,v)
demostracin
Sea Dom(C') = S1 x S2. Se verifica entonces que C' es uniformemente continua en S1 x S2 (teorema 2.2.4 de [NELSEN] ).
Existe un resultado topolgico que nos garantiza que en estas condiciones, C' puede extenderse de forma continua a su
clausura y as, obtenemos
C ' ' : S1x S2 I que seguir siendo subcpula porque C' lo es.
- 64 -
S2 que satisfacen
S1 que satisfacen
a , bI 2
a 1 a a 2 y, anlogamente sean b1 y b2
b 1bb 2
a S1 a 1=a=a 2 e, igualmente, si
b S1 b1 =b=b 2
Sean ahora
aa1
a1
1
1 = a 2a1 = a2a1 a a2 a 1 si a1a2
1
si a1=a 2
bb1
b1
1
1= b2 b1 = b 2b1 b b2 b1 si b1b2
1
sib1=b2
Se define entonces,
V C ' ' B
(4.9)
a2a1 b2 b1
Ilustracin 4.2: Cpula construida por interpolacin bilineal de la subcpula que optimiza el estadstico de Pearson
Construccin de cpulas con valor ptimo del estadstico de Pearson
- 65 -
Al pi de dicha funcin cpula se proporciona el valor obtenido al evaluar la expresin de Pearson respecto de la
particin realizada. Dicha expresin mide, a fin de cuentas, la diferencia entre el nmero de pares muestrales
observados en cada rectngulo de la particin y el nmero de ellos que cabra esperar a travs de la cpula generada.
Esta
diferencia
es
nfima
en
comparacin
con
los
valores
obtenidos
respecto
del
contraste
H 0 : C u , v=C u , v ; para algn para una relacin de familias de cpulas: la de Cola Derecha Pesada
(Heavy Right Tail o HRT, vase (AI.12) en Anexo I), la de Gumbel (vase (AI.8) o (AI.15)) , la de Frank (AI.13), la de
Plackett (AI.37), la Normal (AI.5), la de Ali-Mikhail-Haq (AI.10), la Cpula con Secciones Cbicas (vase ecuacin
(4.3) en [NELQUERO]), la de Clayton (AI.11) y finalmente la cpula Producto ( ) que caracteriza independencia.
En la siguiente tabla, presentamos el valor de los estadsticos as como sus correspondientes p-valores. Hemos obtenido
dos regiones crticas al 95%: una de ellas asociada a las familias uniparamtricas (d = 1) que se calcula a partir de una
Chi-cuadrado con 15 grados de libertad ( n1m1d =15 ) y otra asociada a la cpula con secciones cbicas
que es la nica biparamtrica (d = 2) y para la que el nmero de grados de libertad es 14 (vase apartado 2.5.5).
Tabla 4.1: Evaluacin del estadstico de Pearson para una serie de cpulas
Las cpulas presentadas han sido ordenadas de mayor a menor p-valor, es decir, de mejor a peor ajuste. As, se puede
observar que aun cuando la mayora de los valores obtenidos para el estadstico de Pearson llevara a no poder rechazar
la hiptesis para un nivel de significacin de = 0.05 (nicamente la de Clayton y la de Ali-Mikhail-Haq la rechazaran
por muy poco), las cpulas que mejor se ajustan son la HRT y la de Gumbel, caracterizadas por capturar relaciones en
las que la dependencia es mayor entre las colas derechas de las distribuciones (entre los mximos decrementos de
temperatura del mes de Noviembre y las mximas desviaciones del patrn de demanda construido en condiciones
normales de temperatura). Por el contrario la que peor se ajusta es la cpula producto lo cual, de acuerdo al teorema
2.4.2 que encontramos en [NELSEN], es indicativo de que no puede considerarse independencia entre ambas variables.
Los siguientes grficos, asociados a las densidades de las cpulas HRT y Gumbel, hacen explcita esta relacin
enfatizada entre los extremos. Obsrvese tambin que en la ilustracin (4.2) esta caracterstica queda tambin puesta de
manifiesto pues el escaln de mayor altura se presenta entre los valores ms altos de U y V (los ms prximos al
punto (1,1)).
Construccin de cpulas con valor ptimo del estadstico de Pearson
- 66 -
Ilustracin 4.3: Densidades asociadas a la cpula de Cola Derecha Pesada (HRT) y a la cpula de Gumbel
Vamos a ampliar el repertorio de funciones cpula que se generan por interpolacin de subcpulas para as disponer de
un mayor abanico de posibilidades a la hora de plantearnos cul es la cpula que, proporcionando un buen valor para el
valor del estadstico de Pearson, mejor se ajusta a los datos. Vamos a proponer como ejemplo la construccin de una
funcin cpula por interpolacin cbica mediante polinomios de Hermite. Veremos que la construccin de dicha cpula
no est siempre garantizada sino que es necesario imponer algunas condiciones adicionales al problema de
programacin fraccional (4.7).
Sin embargo, antes de entrar en este extenso desarrollo vamos a presentar otra cpula que tambin se obtiene por
interpolacin mediante unas funciones polinmicas denominadas polinomios de Bernstein. Como principal ventaja de
esta cpula, veremos que su densidad no presenta los bruscos cambios de comportamiento que se aprecian en la cpula
resultante de la interpolacin bilineal y que tambin se observarn en la obtenida por interpolacin cbica. De hecho
una de las razones por las que anteponemos el mtodo de interpolacin de Bernstein al de Hermite es extraer algunas
ideas de dicha tcnica para poder suavizar la superficie cbica interpoladora que construiremos.
- 67 -
Definicin
4.1.-
Sea
()
una
funcin
definida
sobre
una
rejilla
de
(m+1)2
puntos,
siendo
k l
=
k , l { 0,1,2 , ... , m} . Los m intervalos en que han sido divididos los ejes de ordenadas y abscisas que
m m
j
m j
P j , m x= m x 1 x j { 0,1,2 , ... , m } (4.10)
j
k l
, P k , m uP l ,m v (4.11)
m m
Sancetta y Satchell (2004) demuestran que la funcin as definida ser una cpula siempre que () satisfaga las tres
propiedades bsicas de las cpulas.
Como explican Sancetta y Satchell (vase el captulo 1 de [SANSAT]), la cpula de Bernstein puede ser utilizada como
una aproximacin de una cpula conocida o desconocida. En el caso en que se utilice como aproximacin de una cpula
conocida recibe el nombre de Cpula de Bernstein Aproximada (ABC). Esta representacin es particularmente til
cuando el manejo de la cpula paramtrica a la que se aproxima resulta incmodo en cuanto a su operativa, por
presentar una forma muy compleja. La otra posibilidad es utilizar la cpula de Bernstein para aproximar cpulas
desconocidas en cuyo caso, recibe el nombre de Cpula de Bernstein Emprica (EBC).
En lo que a nosotros concierne, vamos a utilizar la cpula de Bernstein para interpolar una subcpula, lo cual no supone
un problema de cara a su construccin dado que este tipo de funciones, por su propia definicin, satisface las tres
propiedades bsicas de las cpulas, lo cual permite aplicar (4.11). As pues, no se trata de una aproximacin a una
cpula conocida sino a una subcpula para la cual conocemos el valor que toma en cada uno de los puntos de su
dominio de definicin. En particular, si () es la subcpula que optimiza el valor del estadstico de Pearson y que se
obtiene como solucin del modelo de programacin fraccional, la funcin CB(u,v) construida a partir de ella ser una
cpula. Sin embargo, conviene observar que la interpolacin por polinomios de Bernstein no es exacta sino que, como
hemos ido comentando, se trata de una aproximacin. En consecuencia, los valores que la cpula de Bernstein as
construida tomar en cada uno de los nodos que resultan de la particin no constituirn exactamente una solucin
ptima del modelo. De hecho, puede comprobarse que el valor que se obtiene al evaluar la expresin de Pearson
respecto de la particin presentada en la ilustracin (4.1), ha aumentado sensiblemente, pasando de ser 0.445
(ilustracin (4.2)) a ser 17.012 (ilustracin (4.4)). Sin embargo, la ganancia obtenida a costa de esta prdida de
optimalidad, es el aspecto suave que estos polinomios interpoladores proporcionan a la densidad cpula, caracterstica
que, por lo general, es de esperar en una relacin de dependencia entre variables
A continuacin se adjuntan los grficos asociados a la cpula construida de esta forma y a la densidad de la que
hablamos. Podemos apreciar la mayor concentracin probabilstica alrededor del punto (u,v) = (1,1), siendo en este
aspecto parecida a las cpulas que reflejan una relacin de dependencia ms fuerte entre sucesos extremos, las cuales,
de acuerdo a la tabla (4.1), constituan unas buenas candidatas para el ajuste (HRT y Gumbel).
De igual forma que hiciramos anteriormente con la cpula que se obtena por interpolacin bilineal, adjuntamos la
ecuacin de la densidad asociada a CB(u,v). Esta expresin ha sido extrada del captulo 2.2 de [SANSAT]:
- 68 -
c B u 1, u 2=
v 1= 0 v 2=0
2
v1 v 2
, m u j v 1u j mv
m m j=1 v j
j
siendo
(4.12)
v v
v
v
2
1 , 2 =m1 1,2 1
, 2
=
m m
m1 m1
v
1
v
1
v 1 v 2
v
v 1
v
v
m12[ 1
, 2
1
,
1
, 2
1
, 2
]
m1 m1
m1 m1
m1 m1
m1 m1
Al ser una funcin 2-creciente (por poseer las condiciones que la definen como subcpula) la expresin definida por
es no negativa y de esta forma, tambin lo ser la densidad en ella basada.
Ilustracin 4.4: Cpula construida por interpolacin mediante polinomios de Bernstein, de la subcpula que
optimiza el valor del estadstico de Pearson
Es cierto que desde la ptica de nuestro problema, la cpula de Bernstein es una buena aproximacin a la subcpula que
optimiza el estadstico de Pearson pero podramos estar ms interesados en funciones cpula que supongan una
interpolacin exacta de la misma pues de esta forma presentar el mismo valor para dicho estadstico.
En este apartado comentaremos la forma en que se propone construir una cpula por interpolacin cbica de la
subcpula cuyos valores en los puntos de su dominio proporciona el problema de optimizacin. Vamos a construir una
funcin a trozos que vaya interpolando los valores que toma la subcpula en cada uno de los 4 vrtices de cada uno de
los
n xm
rectngulos en los que ha sido dividido el cuadrado unidad. As, dado un rectngulo [ui, ui+1]x[vj, vj+1]
(lgicamente los vrtices van a ser puntos consecutivos dentro de la particin realizada en cada eje), consideremos los
valores que ha determinado ptimos el problema de programacin matemtica (C*(ui, vj), C*(ui+1, vj), C*(ui, vj+1) y
C*(ui+1, vj+1)) para que la subcpula por ellos definida minimice el valor del estadstico de Pearson. Nuestro objetivo es
definir una superficie cbica que pase por todos ellos.
Construccin de cpulas con valor ptimo del estadstico de Pearson
- 69 -
En primer lugar es necesario seleccionar el tipo de funciones que se utilizar para llevar a cabo dicha interpolacin. Tal
y como se describe en [FOVAFEHU] una posible alternativa son los polinomios de Hermite. De acuerdo a stos, la
ecuacin que define una superficie interpoladora entre los valores que toma una subcpula cualquiera C' (en nuestro
caso C' = C*) en los vrtices (ui, vj), (ui+1, vj), (ui, vj+1) y (ui+1, vj+1) es la siguiente:
x u , v=U M H G H M TH V T (4.13)
u
siendo
U =[
uu i 3
u u i 2
uu i
1 ] (4.14)
u i1 u i
u i 1ui
u i1u i
V =[
vv j 3
vv j 2
v v j
1] (4.15)
v j1 v j
v j1v j
v j 1v j
[
[
]
]
2 2
u i1u i
u i1 u i
3 3 2 u i1u i u i1 u i
MH =
0
0
u i1u i
0
1
0
0
0
u
2
3
0
2
3
0
M =
v j 1v j 2v j1v j v j 1v j
v j 1v j v j1v j
0
T
Hv
GH =
x
C ' ui , v j
C ' u i , v j 1
C ' u i1 , v j
C ' ui 1 , v j 1
C ' u i , v j
u
C ' ui 1 , v j
u
C ' ui , v j1
u
C ' u i1 , v j1
u
1
0
0
0
(4.16)
(4.17)
C ' u i , v j
v
C ' u i 1 , v j
v
2
C ' ui , v j
uv
2 C ' u i1 , v j
uv
C ' u i , v j1
v
C ' u i1 , v j1
v
2
C ' u i , v j1
uv
2 C ' u i1 , v j 1
uv
(4.18)
Los vectores U y V definen las incgnitas asociadas a los polinomios de Hermite, los cuales responden a una estructura
del tipo
x t=a xt 3b xt 2c xtd x . Los coeficientes de estos polinomios se estiman a travs de la matriz base
de Hermite (MH) y la matriz de geometra de Hermite (GH). Esta ltima consta de cuatro bloques (matrices 2 x 2)
asociados a cada una de las esquinas:
El primero de los bloques (esquina superior izquierda) va asociado a los cuatro valores que van a ser
interpolados; en nuestro caso, se refiere al valor que toma la subcpula C' en cada vrtice del rectngulo
[ui, ui+1] x [vj, vj+1].
- 70 -
Los bloques segundo y tercero (esquinas superior derecha e inferior izquierda) van asociados a las derivadas
respecto de la segunda y primera de las variables respectivamente en cada uno de los vrtices de la superficie
interpoladora; en nuestro caso, van referidos a las coordenadas de los vectores tangentes a la superficie
interpoladora en cada uno de los vrtices del rectngulo [ui, ui+1] x [vj, vj+1].
El bloque cuarto (esquina inferior derecha) est constituido por las derivadas segundas respecto de una y otra
variable en cada uno de los vrtices de la superficie interpoladora. Cuando estos cuatro valores valen 0, la
superficie interpoladora se denomina superficie de Ferguson.
Como resultado de desarrollar la ecuacin (4.13) se obtiene la ecuacin de la funcin que interpola los valores de la
subcpula C' en cada uno de los vrtices del rectngulo [ui, ui+1] x [vj, vj+1]:
C HERMITE u ,v=
2uui 3 3uui 2
2uui 3 3uui 2
[
1C ' ui , v j
C ' ui1 ,v j
ui 1ui 3 ui1ui 2
ui 1ui 3
ui1ui 2
uui 3
2uui 2
C ' ui , v j uui 3
uui 2
C ' ui1 ,v j
uu
]
i
2
2
u
ui1ui ui 1ui
ui1ui ui1 ui u
3
2vv j 3vv j
1
v j 1v j 3 v j1 v j 2
2uui 3 3uui 2
2uui 3 3uui 2
[
1C
'
u
,
v
C ' ui1 ,v j 1
i
j1
ui 1ui 3 ui1ui 2
ui 1ui 3
ui1 ui 2
uui 3
2uui 2
C ' ui , v j 1 uui 3
uui 2
C ' ui1 ,v j 1
uu
]
i
u
ui1ui 2 ui 1ui
ui1ui 2 ui 1ui u
2vv j 3 3vv j 2
v j 1v j 3
v j1 v j 2
3
2
3
2
2uui 3uui
C ' ui , v j 2uui 3uui C ' ui1 ,v j
[
v
ui 1ui 3 ui1ui 2
ui 1ui 3
ui1 ui 2 v
uui 3
2uui 2
2 C ' ui ,v j uui 3
uui 2
2 C ' ui 1 , v j
uu
]
i
u v
ui1ui 2 ui 1ui
ui1 ui 2 ui 1ui u v
vv j 3
2vv j 2
vv j
v j 1v j 2 v j 1v j
2uui 3 3uui 2
C ' ui , v j1 2uui 3 3uui 2 C ' ui1 ,v j1
[
v
ui 1ui 3 ui1ui 2
ui1ui 3
ui 1ui 2 v
uui 3
2uui 2
2 C ' ui ,v j 1 uui 3
uui 2
2 C ' ui 1 ,v j 1
uu
]
i
u v
ui1ui 2 ui 1ui
ui 1ui 2 ui1ui uv
vv j 3
vv j 2
v j 1v j 2 v j 1v j
u , v[ui ,ui1 ] x[v j , v j1 ]
(4.19)
Se trata ahora de saber cules son las condiciones que debe cumplir esta funcin interpoladora para ser una cpula.
- 71 -
4.2.3.1 Condiciones a imponer para que la funcin construida por interpolacin cbica verifique las
propiedades frontera de las cpulas
Veremos que las restricciones a imponer para que se cumplan las dos primeras condiciones que caracterizan a las
funciones cpula, (1.5) y (1.6) (condiciones frontera), van a ser independientes del hecho de que la superficie
interpoladora sea o no de Ferguson, es decir de que los trminos asociados a las derivadas de segundo orden sean o no
distintos de cero. Cuando hayamos de determinar las restricciones a imponer para que se cumpla la propiedad (1.7)
(funcin 2-creciente), s nos va a resultar ms cmodo empezar considerando este tipo de superficies para que los
desarrollos numricos sean ms sencillos y estableceremos, en un paso posterior, las condiciones a satisfacer por una
superficie genrica cualquiera construida por interpolacin mediante polinomios de Hermite para que el resultado sea
una funcin cpula. Los dos lemas que se exponen a continuacin vienen a determinar unas condiciones suficientes
para garantizar que la funcin cbica (4.19) verifica las propiedades frontera de las cpulas.
Lema 4.2: Condicin suficiente para que se cumpla la primera de las propiedades de las funciones cpula
Sea una particin del cuadrado unidad en n x m rectngulos del mismo rea y sea la solucin ptima al problema de
programacin fraccional (4.7) dada por
i j
c *ij=C * , i{ 0,1,2 , ... n } j { 0,1,2 , ... m } que define una
n m
subcpula C* de dominio los puntos de interseccin entre los rectngulos que originan la particin.
Sea CHERMITE(u,v) la funcin que se obtiene por interpolacin cbica de C* mediante polinomios de Hermite.
Si
C HERMITE u k ,0
C HERMITE 0, v l
=0 k { 0,1,2 ,... , n } y
=0 l { 0,1,2 , ... , m} ,
u
v
entonces
la
funcin
CHERMITE(u,v) cumple la primera de las condiciones para ser cpula: CHERMITE(u,0) = CHERMITE(0,v) = 0 para cualesquiera
u y v.
C HERMITE u k ,0 C HERMITE 0, v l
pero no para
y
u
v
C HERMITE u k ,0 C HERMITE 0, v l
que no tienen porqu valer 0. Tambin conviene observar que no ha sido
y
v
u
- 72 -
Lema 4.3: Condicin suficiente para que se cumpla la segunda de las propiedades de las funciones cpula
Sea una particin del cuadrado unidad en n x m rectngulos del mismo rea y sea la solucin ptima al problema de
programacin fraccional (4.7) dada por
i j
c *ij=C * , i{ 0,1,2 , ... n } j { 0,1,2 , ... m } que define una
n m
subcpula C* de dominio los puntos de interseccin entre los rectngulos que originan la particin.
Sea CHERMITE(u,v) la funcin que se obtiene por interpolacin cbica de C* mediante polinomios de Hermite.
Si
C HERMITE u k ,1
C HERMITE 1, v l
=1 k {0,1 ,2 , ... , n } y
=1 l { 0,1 ,2 , ... , m } ,
u
v
entonces
la
funcin
CHERMITE(u,v) cumple la segunda de las condiciones para ser cpula: CHERMITE(u,1) = u y CHERMITE(1,v)=v para
cualesquiera u y v, es decir, C tiene marginales uniformes.
La demostracin de este resultado puede ser consultada en el Anexo III.
necesario que
C HERMITE u k ,1 C HERMITE 1, v l
, no siendo
y
u
v
C HERMITE u k ,1 C HERMITE 1, v l
tomen el valor 1. De igual manera, tampoco ha sido necesario
y
v
u
4.2.3.2 Condiciones a imponer para que la funcin construida por interpolacin cbica verifique la
propiedad 2-creciente de las cpulas
A partir de estos dos lemas que hacen referencia a las condiciones frontera de las cpulas, bastara saber qu
condiciones adicionales son suficientes aadir para que la funcin C, obtenida por interpolacin cbica, sea 2-creciente
(vase expresin (1.7)) y, en consecuencia, una funcin cpula. Para ello, basta aplicar la expresin (4.19) sobre un
rectngulo B cualquiera y estudiar las restricciones que es preciso imponer sobre los elementos variables de dicha
expresin para que el resultado sea mayor o igual que cero. Analizando (4.19) podemos distinguir tantos bloques como
los que fueron identificados en la matriz (4.18). Los valores interpolados C(ui, vj) que aparecen en el bloque 1 son los
nicos que vienen dados de antemano como solucin del problema (4.7). Por tanto, los elementos variables de (4.19) a
los que nos estamos refiriendo son las derivadas de primer y segundo orden respecto de U y V en los vrtices (ui, vj) de
la particin.
- 73 -
4.2.3.2.1 Condicin a imponer para que una superficie interpoladora de Ferguson sea 2-creciente
Llegados a este punto, vamos a empezar considerando una simplificacin que nos permita eliminar variables en los
primeros desarrollos. As, partiremos de una superficie interpoladora de Ferguson, es decir, anularemos las derivadas
segundas de la funcin respecto de U y V, si bien, como decamos, extenderemos despus el resultado a una superficie
de Hermite cualquiera. Sea CFERGUSON la superficie que resulta de hacer 0 en (4.19) las derivadas de segundo orden, es
decir,
C FERGUSON u ,v=
3
2
3
2
2uui 3uui
2uui 3uui
[
1C ' ui , v j
C ' ui1 ,v j
ui 1ui 3 ui1ui 2
ui 1ui 3
ui1ui 2
uui 3
2uui 2
C ' ui , v j uui 3
uui 2
C ' ui1 ,v j
uu
]
i
2
2
u
ui1ui ui 1ui
ui1ui ui1 ui u
2vv j 3 3vv j 2
1
v j 1v j 3 v j1 v j 2
2uui 3 3uui 2
2uui 3 3uui 2
[
1C
'
u
,
v
C ' ui1 ,v j 1
i
j1
ui 1ui 3 ui1ui 2
ui 1ui 3
ui1 ui 2
3
2
3
2
uui
2uui
C ' ui , v j 1 uui
uui
C ' ui1 ,v j 1
uui
]
u
ui1ui 2 ui 1ui
ui1ui 2 ui 1ui u
2vv j 3 3vv j 2
v j 1v j 3
v j1 v j 2
3
2
3
2
2uui 3uui
C ' ui , v j 2uui 3uui C ' ui1 ,v j
[
]
v
ui 1ui 3 ui1ui 2
ui 1ui 3
ui1 ui 2 v
vv j 3
2vv j 2
vv j
v j 1v j 2 v j 1v j
2uui 3 3uui 2
C ' ui , v j1 2uui 3 3uui 2 C ' ui1 ,v j1
[
]
v
ui 1ui 3 ui1ui 2
ui1ui 3
ui 1ui 2 v
vv j 3
vv j 2
v j 1v j 2 v j 1v j
u ,v[ui ,ui 1 ] x[v j ,v j 1 ]
(4.20)
Podemos comprobar que el resultado de aplicar esta expresin a cada uno de los cuatro vrtices de un rectngulo
B I 2
va a dar lugar a otra en la que los nicos factores desconocidos van a ser las derivadas respecto de U y V.
Efectivamente, como ya indicamos, los valores de C' en cada par (ui, vj) sern la solucin dada por el problema de
optimizacin de la subcpula (4.7). Por otra parte, los valores ui y vj sern tambin conocidos dado que son los vrtices
i j
, de la particin. Finalmente los valores u y v irn referidos a cada uno de los vrtices del rectngulo B.
n m
El resultado que permite establecer las restricciones que garantizan la 2-crecencia de C proporciona unos rangos de
variacin para las derivadas primeras. Estos rangos vienen determinados por la regin factible asociada al siguiente
problema de programacin matemtica no lineal y entera:
- 74 -
n1 m1
Max / Min [
i=0 j=0
C ' ui , v j C ' ui , v j
]
u
v
]
[
]3311
V C ' B
u
u
V C ' B
u
u
2ui1 ui C ' ui ,v j C ' ui , v j1 2ui1 ui C ' ui1 ,v j C ' ui1 , v j 1
2415 2
2
[
]
[
]3
11
V C ' B
u
u
V C ' B
u
u
7
2ui1 ui C ' ui , v j C ' ui ,v j1 2ui1 ui C ' ui1 , v j C ' ui1 ,v j1
2
[
]
[
]3312
V C ' B
u
u
V C ' B
u
u
2ui1 ui C ' ui , v j C ' ui ,v j1 22ui1 ui C ' ui1 ,v j C ' ui1 , v j 1
2415 2
]
[
]3
12
V C ' B
u
u
V C ' B
u
u
7
2ui1 ui C ' ui , v j C ' ui ,v j1 2ui1 ui C ' ui1 , v j C ' ui1 ,v j1
]
[
]2413
V C ' B
u
u
V C ' B
u
u
2ui1 ui C ' ui ,v j C ' ui , v j 1 2ui1 ui C ' ui1 ,v j C ' ui1 , v j 1
2
{
[
]
[
]3}
V C ' B
u
u
V C ' B
u
u
2ui1 ui C ' ui , v j C ' ui ,v j1
2u i1 ui C ' ui 1 ,v j C ' ui1 , v j1
[
]
[
]914
V C ' B
u
u
V C ' B
u
u
C ' ui ,v j C ' ui , v j1
[
]0
u
u
C ' ui1 ,v j C ' ui1 , v j1
[
]0
u
u
Restricciones asociadas a las derivadas respecto de V
2v j1 v j C ' ui , v j C ' ui1 ,v j 22v j1v j C ' ui , v j1 C ' ui1 ,v j1
[
]
[
]3311
V C ' B
v
v
V C ' B
v
v
2v j1 v j C ' ui ,v j C ' ui1 , v j 2v j1 v j C ' ui ,v j1 C ' ui1 , v j1
2415 2
2
[
]
[
]3
11
V C ' B
v
v
V C ' B
v
v
7
2v j1v j C ' ui , v j C ' ui1 ,v j 2v j1v j C ' ui , v j1 C ' ui1 ,v j1
2
[
]
[
]3312
V C ' B
v
v
V C ' B
v
v
2v j1v j C ' ui , v j C ' ui1 ,v j 22v j1 v j C ' ui ,v j1 C ' ui1 , v j1
2415 2
]
[
]3
1 2
V C ' B
v
v
V C ' B
v
v
7
2v j1v j C ' ui , v j C ' ui1 ,v j 2v j1v j C ' ui , v j1 C ' ui1 ,v j1
]
[
]2413
V C ' B
v
v
V C ' B
v
v
2v j1 v j C ' ui ,v j C ' ui1 , v j 2v j1v j C ' ui ,v j1 C ' ui1 , v j1
{
[
]
[
]3}2
V C ' B
v
v
V C ' B
v
v
2v j1 v j C ' ui , v j C ' ui1 ,v j
2v j1 v j C ' ui ,v j1 C ' ui1 , v j1
[
]
[
]91 4
V C ' B
v
v
V C ' B
v
v
C ' ui ,v j C ' ui1 , v j
[
]0
v
v
C ' ui ,v j1 C ' ui1 , v j1
[
]0
v
v
1 2 3 4 =1
1 2 3 4 =1
1, 2, 3, 4 { 0,1}
1, 2, 3, 4 { 0,1}
i{ 0,1 ,... , n1} j{ 0,1 , ... , m1}
(4.21)
Obsrvese que existen 2 bloques de restricciones (asociados a los vectores tangentes en las variables U y V) que a su
vez se subdividen en n y m bloques respectivamente. De ah que est planteado para cualesquiera i y j
comprendidos entre 0 y n-1 y 0 y m-1 respectivamente. Dando solucin a este problema, se dispondr de los vectores
tangentes a la superficie interpoladora en los puntos del dominio de definicin de la subcpula. Los valores de estos
- 75 -
vectores en dichos puntos, valores que constituyen las variables de decisin del problema, son siempre positivos pues el
hecho de que la cpula sea 2-creciente implica que sea no decreciente en cada una de sus componentes (vase lema
2.1.4 de [NELSEN]) y en consecuencia las derivadas en todos sus puntos debern ser mayores o iguales que cero. A
raz de esta ltima observacin hemos propuesto como funcin objetivo del problema, maximizar o minimizar la suma
de estos valores positivos con la idea de aumentar o disminuir las pendientes de crecimiento de la distribucin cpula en
los puntos citados. As, conforme por ejemplo crezcan las pendientes (si se maximiza la funcin objetivo), ms grandes
sern los saltos en trminos de probabilidad de la funcin a construir y menos suave resultar la correspondiente
densidad. En cualquier caso, dada una solucin del problema (4.21) y teniendo en cuenta que los valores que toma la
cpula ya han sido estimados (aquellos que minimizan el estadstico de Pearson) y que las derivadas de segundo orden
valen 0 (por ser una superficie de Ferguson), se dispondr de todos los elementos que componen la expresin (4.20).
Podemos proponer entonces el siguiente resultado:
Lema 4.4: Condicin suficiente para que se cumpla la tercera de las propiedades de las funciones cpula en una
superficie interpoladora de Ferguson
Sea una particin del cuadrado unidad en n x m rectngulos del mismo rea y sea la solucin ptima al problema de
programacin fraccional (4.7) dada por
i j
c *ij=C * , i{ 0,1,2 , ... n } j { 0,1,2 , ... m } que define una
n m
subcpula C* de dominio los puntos de interseccin entre los rectngulos que originan la particin.
Sea CHERMITE(u,v) la funcin que se obtiene por interpolacin cbica de una subcpula C * mediante polinomios de
Hermite. Supongamos que las derivadas de segundo orden en el dominio de definicin de la subcpula valen cero, es
2 C HERMITE u i , v j
=0 i{ 0,1,2 ,... , n } j{ 0,1,2 , ... m } , en cuyo caso, CHERMITE(u,v) define una
uv
decir,
C FERGUSON u i , v j
C FERGUSON u i , v j
y
i { 0,1,2 , ... , n } j{0,1 ,2 , ...m }
u
v
proporcionan junto con una relacin de 's y 's una solucin del problema de programacin no lineal entera (4.21),
entonces la funcin CFERGUSON(u,v) cumple la tercera de las condiciones para ser cpula:
VC
[u 1, u 2 ] x [v 1, v 2 ]=C FERGUSON u 2, v 2 C FERGUSON u 2, v 1 C FERGUSON u1, v 2 C FERGUSON u1, v1 0
.
u 1, u 2, v 1, v 2 t.q u 1u 2, v 1 v 2
FERGUSON
El lema, cuya demostracin puede ser consultada en el Anexo IV, establece una relacin de regiones a la que deben
pertenecer las siguientes variables, para que la funcin dada por la ecuacin (4.20) sea 2-creciente:
K ij =
L ij=
2 u i1u i C ' ui , v j
C ' ui , v j 1
[
] (4.22)
V C ' B
u
u
2u i 1u i C ' u i 1 , v j
C ' u i 1 , v j 1
[
] (4.23)
V C 'B
u
u
- 76 -
P ij =
2 v j 1v j C ' u i , v j
C ' u i1 , v j
[
] (4.24)
V C ' B
v
v
Q ij=
2v j1 v j C ' u i , v j1
C ' u i1 , v j 1
[
] (4.25)
V C ' B
v
v
Obsrvese que la funcin CHERMITE que hemos definido (y por tanto CFERGUSON) ofrece un polinomio cbico en V si se fija
el valor de U y, de igual manera, ofrece un polinomio cbico en U si se fija el valor de V. Por ello, una vez establecidas
las condiciones bajo las cuales dicha funcin es una cpula, podremos asegurar tambin que va a tener secciones
cbicas en U y V (vanse las ecuaciones (3.3) y (3.4)). No es por ello de extraar la simetra existente entre la regin
factible del problema (4.21) y la regin que puede encontrarse en el captulo 2 de [NELQUERO] (vase ilustracin
(4.5)) . En su artculo, los autores presentan un mtodo de generacin de familias de cpulas bivariantes con secciones
cbicas. En concreto, algunos de los resultados ms importantes a los que llegan vienen dados por los teoremas 2.4 y
4.1, que a continuacin presentamos:
Teorema 4.2
, :[0,1] dos
Sean
funciones
que
satisfacen
0=1 = 0 = 1=0 y
sea
i)
y [0,1] , el punto
y[0,1] ,
ii.1) o
1 ' y2 y 2 ' y1
ii.2) o
C x , y = xy x 1 x[ y 1 x y x] y C x , y = xy y1 y[ x1 y x y] donde
, , , :[0,1] y
tales
que
0=1 = 0 = 1= 0= 1= 0 =1=0 .
Entonces, C x , y=xyxy1x1y[ A1 y1xA2 1y1xB1 xyB2 x 1y] donde A1, A2, B1, B2
son constantes reales tales que los puntos (A2, A1), (B1, B2), (B1, A1) y (A2, B2) estn todos en S.
Es esta regin S, a la que hace referencia el teorema, la que mantiene el parentesco con la regin factible del problema
(4.21). Basta hacer una traslacin del origen (0,0) al punto (-1,1) y una simetra respecto del eje de ordenadas para
poder conseguir una a partir de la otra. En esta ocasin, son las derivadas de primer orden de ( ,) las que deben
pertenecer a la regin S. En nuestro caso, dicho papel lo juegan las expresiones (4.22)-(4.25), que combinan los valores
que deben tomar las derivadas primeras de la subcpula ptima en los nodos que resultan de hacer la particin de I 2.
La evaluacin de dichas derivadas forma parte de las matrices de geometra de Hermite (vase (4.18)).
Construccin de cpulas con valor ptimo del estadstico de Pearson
- 77 -
Ilustracin 4.5: Regin de factibilidad del problema que permite construir una cpula por interpolacin cbica
El lema (4.4) expuesto establece que, encontrando solucin factible al problema (4.21), podremos construir una funcin
2-creciente. Sin embargo nada nos garantiza que esa solucin vaya a existir siempre y por ello convendra estudiar bajo
qu condiciones es posible determinar una relacin de valores para que todas las derivadas primeras que participan en
(4.20) (o equivalentemente las variables (4.22)-(4.25)) pertenezcan a una regin de tipo S.
Comencemos analizando el modelo planteado por (4.21). Se trata de un problema de programacin no lineal entera
(MINLP). Ambas caractersticas vienen impuestas por la forma de la regin factible presentada en la ilustracin (4.5).
Por un lado la no linealidad viene reflejada por la elipse contenida en la misma, mientras que por otro, el carcter entero
surge de la necesidad de imponer restricciones disyuntivas ante la dificultad de expresar la regin factible con una nica
ecuacin. Como se explica en el apartado 10.6 de [SIXTO], los problemas de programacin entera pueden ser resueltos
mediante el mtodo de ramificacin y acotacin tambin en el caso no lineal, con el inconveniente aadido de que en su
resolucin no est garantizada la optimalidad global. Sin embargo el principal problema que encontraremos de cara a la
implementacin informtica de este problema es la escasez de software que permite resolver el MINLP. No habiendo
encontrado a tal fin un procedimiento adecuado en la herramienta SAS, se propone resolver en su lugar otro problema
cuya regin factible no precise de ser expresada a trozos. En concreto, se propone como regin factible asociada a cada
una de las variables (K,L) (o (P,Q)) el rectngulo [-3,0]x[-3,0]. sta permite obtener una expresin relajada (lineal y
continua) del problema (4.21) que es la que a continuacin se presenta:
- 78 -
n1 m1
Max/ Min [
i=0 j=0
C ' ui ,v j C ' ui , v j
]
u
v
]0
V C ' B
u
u
2ui 1ui C ' ui 1 , v j C ' ui1 ,v j1
3
[
]0
V C ' B
u
u
Restricciones asociadas a las derivadas respecto de V
2v j1 v j C ' ui ,v j C ' ui1 ,v j
3
[
]0
V C ' B
v
v
2v j1 v j C ' ui ,v j1 C ' ui 1 , v j 1
3
[
]0
V C ' B
v
v
i{0,1 ,... ,n1} j{0,1 ,... ,m1}
(4.26)
El resultado equivalente al lema (4.4) para esta relajacin del problema (4.21) es el siguiente:
Lema 4.5: Condicin suficiente relajada para que se cumpla la tercera de las propiedades de las funciones cpula
en una superficie interpoladora de Ferguson
Sea una particin del cuadrado unidad en n x m rectngulos del mismo rea y sea la solucin ptima al problema de
programacin fraccional (4.7) dada por
i j
c *ij=C * , i{ 0,1,2 , ... n } j { 0,1,2 , ... m } que define una
n m
subcpula C* de dominio los puntos de interseccin entre los rectngulos que originan la particin.
Sea CHERMITE(u,v) la funcin que se obtiene por interpolacin cbica de una subcpula C * mediante polinomios de
Hermite. Supongamos que las derivadas de segundo orden en el dominio de definicin de la subcpula valen cero, es
decir,
2 C HERMITE u i , v j
=0 i{ 0,1,2 , ... , n} j{ 0,1 ,2 , ... m }
uv
C FERGUSON u i , v j
C FERGUSON u i , v j
y
i{ 0,1,2 , ... , n} j{ 0,1 ,2 , ... m}
u
v
proporcionan una solucin del problema de programacin matemtica (4.26), entonces la funcin CFERGUSON(u,v)
cumple la tercera de las condiciones para ser cpula:
VC
[u 1, u 2 ] x [v 1, v 2 ]=C FERGUSON u 2, v 2 C FERGUSON u 2, v 1 C FERGUSON u1, v 2 C FERGUSON u1, v1 0
.
u 1, u 2, v 1, v 2 t.q u 1u 2, v 1 v 2
FERGUSON
Si bien parece claro a partir de la ilustracin (4.5) que la nueva regin factible (dada por el rectngulo [-3,0]x[-3,0]) est
contenida en la regin factible del problema (4.21), proponemos consultar su demostracin analtica (Anexo V).
- 79 -
Aunque resolver el problema alternativo (4.26) tiene el inconveniente de omitir soluciones factibles (todas aqullas que
pertenezcan a la elipse y no estn contenidas en dicho rectngulo), presenta la ventaja de ser fcil de tratar por la
mayora de los paquetes estadsticos, dado que se trata de un problema de programacin lineal continua que puede ser
abordado aplicando el algoritmo del Smplex.
Como resumen de este apartado, podemos establecer el siguiente teorema a partir de los lemas (4.2), (4.3) y (4.4 o 4.5):
Teorema 4.4: Condicin suficiente para poder generar una cpula por interpolacin de una subcpula mediante
una superficie de Ferguson
Sea una particin del cuadrado unidad en n x m rectngulos del mismo rea y sea la solucin ptima al problema de
programacin fraccional (4.7) dada por
i j
c *ij=C * , i{ 0,1,2 , ... n } j { 0,1,2 , ... m } que define una
n m
subcpula C* de dominio los puntos de interseccin entre los rectngulos que originan la particin.
Sea CFERGUSON(u,v) la funcin que se obtiene por interpolacin cbica de una subcpula C * mediante superficies de
Ferguson (dada por (4.20)).
Si
C FERGUSON u i , v j
C FERGUSON u i , v j
y
i { 0,1,2 , ... , n } j{0,1 ,2 , ...m } cumplen
u
v
las
siguientes
condiciones:
1.
C FERGUSON u k ,0
C FERGUSON 0, v l
=0 k{0,1 ,2 , ... , n } y
=0 l{ 0,1 ,2 , ... , m }
u
v
2.
C FERGUSON u k ,1
C FERGUSON 1, v l
=1 k { 0,1,2 , ... , n } y
=1 l { 0,1,2 , ... , m }
u
v
3.
Proporcionan una solucin del problema de programacin no lineal entera (4.21) (o bien su relajacin lineal
(4.26))
- 80 -
por construir subcpulas que cumplen una propiedad ms restrictiva que ser 2-creciente. De hecho veremos, que los
rectngulos cuyos vrtices son puntos del dominio de definicin de la subcpula, debern tener un volumen mnimo
(estrictamente mayor que 0) cuyo valor depender de la dimensin de la particin. Es por ello lgico que el valor del
estadstico de Pearson para estas cpulas ms restrictivas sea mayor.
Ilustracin 4.6: Cpula construida por interpolacin cbica mediante superficies de Ferguson, de la subcpula que
optimiza el valor del estadstico de Pearson
Antes de determinar esa condicin suficiente que nos asegure que el problema dado por (4.21) tiene solucin factible,
vamos a estudiar qu restricciones adicionales es preciso aadir, para contemplar la posibilidad de asignar valores
distintos de cero a las derivadas segundas, es decir, para que la superficie interpoladora pueda utilizar polinomios de
Hermite de cualquier tipo sin necesidad de restringirse a las condiciones impuestas para las superficies de Ferguson.
El hecho de imponer que las derivadas de segundo orden valgan 0 es una circunstancia que puede resultar desafortunada
a la vista del grfico anterior, sobre todo si esperamos que la relacin existente entre las variables de anlisis sea suave.
4.2.3.2.2 Condicin a imponer para que una superficie interpoladora de Hermite sea 2-creciente
El desarrollo anterior nos servir de base para conseguir construir una superficie interpoladora mediante polinomios
cbicos de Hermite cualesquiera sin necesidad de restringir a que su derivada segunda valga cero (superficie de
Ferguson). No parece conveniente que la densidad cpula tome valor cero en cada uno de los nodos de unin de la
rejilla unidad (y que definen el dominio de la subcpula que proporciona una valor ptimo del estadstico de Pearson)
puesto que esta circunstancia implica que se sucedan cambios muy bruscos de comportamiento, algo que no parece
adecuado para expresar una relacin de dependencia entre variables y a partir de ella llevar a cabo una prediccin.
Las densidades cpulas son un fiel reflejo de la relacin que existe entre los datos que representan y, salvo raras
excepciones, dicha relacin acostumbra a moverse de forma suave con mayor o menor velocidad (dada por las
derivadas primeras o vectores tangentes a la superficie).
- 81 -
La razn que justifica esta falta de uniformidad no es el hecho de que la cpula no sea paramtrica, sino el empeo que
estamos poniendo en forzar que nuestra cpula conserve el valor ptimo del estadstico de Pearson asociado a la
subcpula a partir de la cual la estamos construyendo. Sirva como ejemplo el grfico de la densidad cpula construida
por interpolacin bilineal (ilustracin (4.2)) caracterizado por su estructura a saltos. Mediante la superficie de Ferguson,
esta forma escalonada se ha transformado en una sucesin de montculos (ilustracin (4.6)) que incluso podra resultar
ms errtica si se utilizara con fines predictivos. Slo en situaciones en las que la relacin de dependencia entre las
variables estuviera concentrada alrededor de varios valores modales (relaciones multimodales), el empleo de esta cpula
podra ser ms conveniente. Sin embargo, como hemos sealado, esta falta de regularidad no es una implicacin del
hecho de que la cpula sea no paramtrica. Segn hemos visto, la densidad cpula de Bernstein presenta la suavidad y
uniformidad que estamos echando en falta (ilustracin (4.4)), y esto es porque dicha cpula no es una interpolacin
exacta que vaya a conservar el valor del estadstico de Pearson sino una interpolacin aproximada del dominio de
definicin de la subcpula C*.
Lo que vamos a hacer para incrementar la suavidad de la densidad asociada a la funcin cbica que estamos
construyendo, es permitir que el valor de la derivada segunda en los nodos que resultan de la particin del cuadrado
unidad no sea necesariamente cero, evitando de esta manera las drsticas cadas que se muestran en la ilustracin (4.6).
Para tener una intuicin del valor al que intentar aproximar estas derivadas de segundo orden, utilizaremos como
referencia el valor que dichas derivadas toman en las dos cpulas anteriores (la obtenida por interpolacin bilineal y la
que emplea polinomios de Bernstein) y que, como veremos, est muy relacionado con el valor del volumen de los
rectngulos que han resultado de hacer la particin. As, vamos a transformar el problema de programacin matemtica
(4.21) en otro con un objetivo adicional (multiobjetivo) consistente en que las derivadas segundas (que pasarn a ser
junto con las de primer orden, variables de decisin) se aproximen lo ms posible a estos valores de referencia.
Esto nos conducir inevitablemente a la definicin de una funcin distancia a minimizar (objetivo) y, en
consecuencia, a un problema de programacin cuadrtica. Habremos de ver qu restricciones es preciso aadir al
problema (4.21) sobre las derivadas segundas para que la funcin resultante sea una cpula. Observemos que, al
construir el problema de optimizacin como extensin del anterior, estaremos garantizando que si existe solucin para
(4.21), dado por una relacin de valores para las derivadas primeras, existir entonces tambin al menos una solucin
para este nuevo problema que tomar el mismo valor en dichas derivadas y el valor cero en las de segundo orden.
Una propuesta para los valores de referencia a los que se aproximarn las derivadas de segundo orden en los vrtices de
la particin se puede obtener simplemente conociendo el valor que en ellos presentan las dos cpulas interpoladoras
que hemos definido, es decir, la bilineal y la densidad cpula de Bernstein.
En el primer caso para la densidad de la cpula obtenida por interpolacin bilineal (vase la ecuacin (4.9)) se
obtiene el valor
V C ' B
V B
= C'
ui 1u i v j1 v j 1 1 (4.27).
n m
- 82 -
2 C ' ui , v j
.
u v
c B u 1, u 2 =
m1 , m2
v 1=0 v 2=0
j=1
m u v 1u mv
j
j
vj
j
siendo
v 1 v2
v
v
2
, =m1 1,2 1
, 2 =
m m
m1 m1
v 1 v 21
v 1 v 2
v
v 1
v
v
m12[ 1
,
1
,
1
, 2
1
, 2 ]
m1 m1
m1 m1
m1 m1
m1 m1
B=[
v1
v
v 1 v 21
, 2 ]x[ 1
,
] , rectngulo que surge de hacer la
m1 m1
m1 m1
m1 x m1
rectngulos (no en
se tiene que
v
lim
m1= lim
m1
m
m
Como
lim
v
lim m=lim
m
m
m
lim m121,2
v 1
v
m m
m v
=
(4.28)
1
v m
m
v
1
v
m1 m1
m1 v
=
(4.29)
1
v m1
m1
v1
v
v
v
2
, 2
=
1
, 2
(4.30)
m1 m1 v 1 v 2 m1 m1
v1 v 2
v
v
2
, = m1 1,2 1
, 2
, podemos concluir que
m m
m1 m1
2
*
v1 v 2 2
v
v
v
v
C
, =
1
, 2
=
1
, 2
(4.31)
m m v 1 v 2 m1 m1 v 1 v 2 m1 m1
En consecuencia es una aproximacin a la derivada segunda de la subcpula C* en uno de los nodos que
surgen al dividir el rectngulo [0,1]2 en
m1 x m1
partes (no en
v
v
1,2 1
, 2 V B
v1 v 2
v
v
m1 m1
, = m121,2 1
, 2 =
= C
m m
m1 m1 1
1
1
1
m1 m1
n1 m1
*
(4.32)
La similitud con el candidato que surga a travs de la cpula que resultaba de hacer la interpolacin bilineal es
clara.
- 83 -
Supongamos que se realiza una particin del cuadrado unidad en n x m rectngulos y obtenemos el valor que tomara
la derivada segunda de la cpula obtenida por interpolacin bilineal y la que tomara la derivada segunda de la cpula
de Bernstein. Estableciendo la comparativa entre ambas expresiones ((4.27) y (4.32)) podemos observar que:
El numerador de ambas expresiones es el volumen de un rectngulo. En el primer caso, se trata del rectngulo
i j
de la particin cuyo vrtice inferior izquierdo es , ; en el segundo se trata del rectngulo (de una
n m
i
j
,
, pudiendo interpretarse
n1 m1
como el rectngulo del mismo orden que se obtiene al aumentar en una unidad la particin del cuadrado
unidad. La ventaja de esta forma de proceder es la posibilidad de asignar un valor propio a los vrtices
fronterizos del cuadrado unidad.
As en el punto
[
n1 1
, , aproximaramos la derivada segunda por el volumen del rectngulo
n m
n1 n
1
2
,
]x[
,
] , y en el punto
n1 n1
m1 m1
n 1
1
, = 1, haramos la aproximacin por el
n m
m
n n1
1
2
n
1
2
,
]x[
,
]=[
,1 ] x [
,
] .
n1 n1
m1 m1
n1
m1 m1
El siguiente grfico permite entender mejor esta explicacin. Se realizan dos particiones sobre el cuadrado
unidad, una de dimensin n x m y la otra de dimensin n1 xm1 y se muestra el rectngulo que ira
asociado al clculo de la derivada segunda en dos situaciones distintas: un vrtice interior y otro fronterizo. Se
marcan en rojo los rectngulos correspondientes a la aproximacin a la cpula obtenida por interpolacin
bilineal y en azul aquellos que resultaran de la aproximacin a la cpula de Bernstein.
- 84 -
punto
el
n1 1
, ,
n m
aproximaramos
la
derivada
n1 n
1 2
n1
1 2
, ] x [ , ]=[
, 1 ] x[ , ] , y en el punto
n n
m m
n
m m
segunda
al
volumen
del
rectngulo
n 1
1
, = 1, haramos la aproximacin al
n m
m
volumen de ese mismo rectngulo. As, la derivada segunda en los vrtices que definen un rectngulo de la
particin (en
n xm
1 1
, mientras que en la
n m
1
1
.
n1 m1
Tenemos as dos tipos de candidatos para los valores de referencia RefV(ui, vj):
Ref V u i , v j =
B
V C ' B
(4.33)
1 1
n m
siendo B el rectngulo de la particin en n x m rectngulos cuyo vrtice inferior izquierdo es (ui, vj).
Ref V u i , v j =
B
V C ' B
1
1
n1 m1
(4.34)
que ocupa la posicin (i, j) dentro del conjunto de todos los vrtices de dicha particin.
El primero de los valores depende directamente del volumen de los rectngulos de la particin de orden n x m , el
cual a su vez depende de los valores asignados a cada vrtice de dicha particin al tratar de optimizar el valor del
estadstico de Pearson (vase ecuacin (4.1)). Sin embargo, para el segundo no se dispone del volumen asociado a los
rectngulos de la particin de orden n1 xm1 a travs de la cpula C porque sta todava no ha sido construida
(su expresin depende del valor de las derivadas segundas en los nodos de la particin, valor que estamos tratando de
aproximar). El hecho de que s conozcamos el volumen de los rectngulos de la particin de orden n x m
a travs de
ella (de C) se debe a que va a ser el mismo que el que se obtenga a travs de la subcpula C* a la que interpola dado que
esta interpolacin se produce precisamente a partir del valor de los vrtices de dichos rectngulos.
- 85 -
Esto provoca lgicamente una dificultad si tratamos de aproximar el valor de las derivadas segundas a la densidad
cpula de Bernstein. La solucin que planteamos a esta dificultad es resolver el problema (4.7) para una particin de
dimensin mayor ( n1 xm1 ) y de esta manera obtener los valores asociados a los vrtices que permiten
calcular, para dicha particin, el mejor valor para el estadstico de Pearson. Dichos valores definiran la referencia a la
que aproximar la densidad cpula ajustada a la particin de dimensin n x m .
Hechas estas consideraciones, se trata nuevamente de aplicar la expresin de la superficie cbica (ahora (4.19) en vez
de (4.20)) a cada uno de los cuatro vrtices de un rectngulo
B I 2
elementos desconocidos van a ser, no slo las derivadas primeras sino tambin las segundas respecto de U y V.
El resultado que a continuacin enunciaremos, permite establecer las restricciones que garantizan la 2-crecencia de C
proporcionando unos rangos de variacin para las derivadas de primer y segundo orden. Estos rangos vienen
determinados por la regin factible asociada al siguiente problema de programacin multiobjetivo no lineal y entera:
- 86 -
n1 m1
Max / Min [
i=0 j=0
n1 m1
C ' ui , v j C ' ui , v j
C ' ui , v j
] y Min [
Ref V ui , v j ]
u
v
i=0 j=0 u v
]
[
]331 1
V C ' B
u
u
V C ' B
u
u
2ui1 ui C ' ui , v j C ' ui , v j1 2ui1 ui C ' ui1 , v j C ' ui1 , v j1
2415 2
2
[
]
[
]3
11
V C ' B
u
u
V C ' B
u
u
7
2ui1ui C ' ui , v j C ' ui , v j1
2ui1 ui C ' ui1 , v j C ' ui1 , v j1
2
[
]
[
]331 2
V C ' B
u
u
V C ' B
u
u
2ui1ui C ' ui , v j C ' ui , v j1 22ui1 ui C ' ui1 , v j C ' ui1 , v j1
2415 2
]
[
]3
12
V C ' B
u
u
V C ' B
u
u
7
2ui1ui C ' ui , v j C ' ui , v j1 2ui1 ui C ' ui1 , v j C ' u i1 , v j1
]
[
]2 41 3
V C ' B
u
u
V C ' B
u
u
2ui1ui C ' ui , v j C ' ui , v j1 2ui1 ui C ' ui1 , v j C ' ui1 , v j1
2
{
[
]
[
]3 }
V C ' B
u
u
V C ' B
u
u
2u i1ui C ' u i , v j C ' ui , v j1
2ui1ui C ' ui1 , v j C ' ui1 , v j1
[
]
[
]914
V C ' B
u
u
V C ' B
u
u
C ' ui , v j C ' ui , v j1
C ' ui1 , v j C ' u i1 , v j1
[
]0 ;[
]0
u
u
u
u
Restricciones asociadas a las derivadas respecto de V
2v j1 v j C ' ui , v j C ' ui1 , v j 22v j1 v j C ' u i , v j1 C ' ui1 , v j1
[
]
[
]3311
V C ' B
v
v
V C ' B
v
v
2v j1v j C ' ui , v j C ' ui1 , v j 2v j1 v j C ' ui , v j1 C ' ui1 , v j1
2415 2
2
[
]
[
]3
1 1
V C ' B
v
v
VC'B
v
v
7
2v j1 v j C ' ui , v j C ' ui1 , v j 2v j1 v j C ' u i , v j1 C ' ui1 , v j1
2
[
]
[
]3312
V C ' B
v
v
V C ' B
v
v
2v j1v j C ' ui , v j C ' ui1 , v j 22v j1 v j C ' ui , v j1 C ' ui1 , v j1
2415 2
]
[
]3
1 2
V C ' B
v
v
V C ' B
v
v
7
2v j1v j C ' ui , v j C ' ui1 , v j 2 v j1 v j C ' ui , v j1 C ' ui1 , v j1
]
[
]241 3
V C ' B
v
v
V C ' B
v
v
2v j1v j C ' ui , v j C ' ui1 , v j 2 v j1 v j C ' ui , v j1 C ' ui1 , v j1
2
{
[
]
[
]3 }
V C ' B
v
v
V C ' B
v
v
2v j1 v j C ' ui , v j C ' ui1 , v j
2v j1v j C ' ui , v j1 C ' ui1 , v j1
[
]
[
]91 4
V C ' B
v
v
V C ' B
v
v
C ' ui , v j C ' ui1 , v j
C ' ui , v j1 C ' u i1 , v j1
[
]0 ;[
]0
v
v
v
v
Restricciones asociadas a las derivadas segundas respecto de U y V
2
C ' ui , v j
C ' ui , v j C ' ui , v j1
]3[
]
u v
u
u
2
C ' ui , v j
C ' ui , v j C ' ui1 , v j
0ui1 ui [
]3[
]
u v
v
v
2
C ' ui , v j1
C ' ui , v j C ' ui , v j1
0v j1 v j [
]3[
]
u v
u
u
2
C ' ui , v j1
C ' ui , v j1 C ' ui1 , v j1
0ui1 ui [
]3[
]
u v
v
v
2
C ' ui1 , v j
C ' ui1 , v j C ' u i1 , v j1
0v j1 v j [
]3[
]
u v
u
u
2
C ' u i1 , v j
C ' ui , v j C ' ui1 , v j
0ui1 ui [
]3[
]
u v
v
v
2 C ' ui1 , v j1
C ' ui1 , v j C ' ui1 , v j1
0v j1 v j [
]3[
]
u v
u
u
2
C ' u i1 , v j1
C ' ui , v j1 C ' u i1 , v j1
0ui1 ui [
]3[
]
u v
v
v
0v j1 v j [
(4.35)
- 87 -
Dando solucin a este problema, se dispondr de todos los elementos que componen la expresin (4.19) pues, adems
de los valores que toma la cpula en los puntos del dominio de definicin de la subcpula ptima C* (aquellos que
minimizan el estadstico de Pearson), se tendrn tambin los vectores tangentes a la superficie interpoladora en dichos
puntos y los valores de la densidad cpula en los mismos (variables de decisin de (4.35)). Formalmente, el resultado es
el siguiente:
Lema 4.6: Condicin suficiente para que se cumpla la tercera de las propiedades de las funciones cpula en una
superficie interpoladora de Hermite
Sea una particin del cuadrado unidad en n x m rectngulos del mismo rea y sea la solucin ptima al problema de
programacin fraccional (4.7) dada por
i j
c *ij=C * , i{ 0,1,2 , ... n } j { 0,1,2 , ... m } que define una
n m
subcpula C* de dominio los puntos de interseccin entre los rectngulos que originan la particin.
Sea CHERMITE(u,v) la funcin que se obtiene por interpolacin cbica de una subcpula C * mediante polinomios de
Hermite.
Si
C HERMITE u i , v j C HERMITE u i , v j
2 C HERMITE u i , v j
,
y
i{ 0,1 , ... , n } j{0,1 , ...m }
u
v
uv
proporcionan
junto con una relacin de 's y 's (variables binarias) una solucin al problema de programacin multiobjetivo no
lineal entera (4.35), entonces la funcin CHERMITE(u,v) cumple la tercera de las condiciones de las funciones cpula:
VC
[u 1, u 2 ] x[v 1, v 2 ]=C HERMITE u 2, v 2 C HERMITE u 2, v 1C HERMITE u1, v 2 HERMITEC u 1, v 1 0
.
u 1, u 2, v 1, v 2 t.q. u 1u 2, v 1v 2
HERMITE
La demostracin de este resultado puede ser consultada en el Anexo VI. En ella, el desarrollo no se plantea a partir del
problema MINLP (4.35) sino de un caso particular del mismo en el que la regin factible es un subconjunto de esta
ltima que da al problema el carcter lineal y continuo (no entero) que lo hace fcilmente resoluble por la mayor parte
del software de optimizacin disponible. Por ello, de igual forma que hemos propuesto el planteamiento (4.26) como
alternativo al (4.21), proponemos ahora considerar el siguiente modelo como simplificacin de (4.35):
- 88 -
n1 m1
Max/ Min [
i=0 j=0
2
n 1 m1
C ' ui ,v j C ' ui , v j
2 C ' ui ,v j
] y Min [
Ref V ui , v j ]
u
v
i= 0 j =0 u v
B
n1 m1
o bien Min{[
i =0 j =0
2
n1 m1
C ' ui ,v j C ' ui , v j
2 C ' ui , v j
]1[
Ref V ui ,v j ]}
u
v
i =0 j=0 u v
B
]0
V C ' B
u
u
2ui 1ui C ' ui 1 , v j C ' ui1 ,v j1
3
[
]0
V C ' B
u
u
Restricciones asociadas a las derivadas respecto de V
2v j1 v j C ' ui ,v j C ' ui1 ,v j
3
[
]0
V C ' B
v
v
2v j1 v j C ' ui ,v j1 C ' ui 1 , v j 1
3
[
]0
V C ' B
v
v
Restricciones asociadas a las derivadas segundas respecto de U y V
2 C ' ui ,v j
C ' ui , v j C ' ui ,v j1
]3[
]
u v
u
u
2 C ' ui , v j
C ' ui ,v j C ' ui1 ,v j
0ui 1ui [
]3[
]
uv
v
v
2
C ' ui ,v j 1
C ' ui ,v j C ' ui , v j1
0v j 1v j [
]3[
]
u v
u
u
2 C ' ui , v j 1
C ' ui , v j 1 C ' ui 1 ,v j 1
0ui 1ui [
]3[
]
uv
v
v
2 C ' ui1 ,v j
C ' ui1 ,v j C ' ui1 ,v j1
0v j 1v j [
]3[
]
u v
u
u
2 C ' ui1 ,v j
C ' ui , v j C ' ui 1 , v j
0ui 1ui [
]3[
]
uv
v
v
2
C ' ui1 ,v j1
C ' ui 1 , v j C ' ui 1 ,v j1
0v j 1v j [
]3[
]
u v
u
u
2 C ' ui1 ,v j 1
C ' ui ,v j 1 C ' ui1 ,v j1
0ui 1ui [
]3[
]
uv
v
v
0v j 1v j [
- 89 -
Lema 4.7: Condicin suficiente relajada para que se cumpla la tercera de las propiedades de las funciones cpula
en una superficie interpoladora de Hermite
Sea una particin del cuadrado unidad en n x m rectngulos del mismo rea y sea la solucin ptima al problema de
programacin fraccional (4.7) dada por
i j
c *ij =C * , i{ 0,1,2 ,... n } j{ 0,1,2 ,... m } que define una
n m
subcpula C* de dominio los puntos de interseccin entre los rectngulos que originan la particin.
Sea CHERMITE(u,v) la funcin que se obtiene por interpolacin cbica de una subcpula C * mediante polinomios de
Hermite.
Si
C HERMITE u i , v j C HERMITE u i , v j
2 C HERMITE u i , v j
,
y
i{ 0,1 , ... , n } j{0,1 , ...m }
u
v
uv
proporcionan
junto con una relacin de 's y 's (variables binarias) una solucin al problema de programacin multiobjetivo no
lineal entera (4.36), entonces la funcin CHERMITE(u,v) cumple la tercera de las condiciones de las funciones cpula:
VC
[u 1, u 2 ] x[v 1, v 2 ]=C HERMITE u 2, v 2 C HERMITE u 2, v 1C HERMITE u1, v 2 C HERMITE u 1, v 1 0
.
u 1, u 2, v 1, v 2 t.q. u 1u 2, v 1v 2
HERMITE
Este lema, permite hacer un tratamiento relajado del problema de programacin matemtica (4.35) motivado por la
escasez de paquetes estadsticos que permiten resolver problemas de programacin no lineal y entera (MINLP). En esta
ocasin:
La no linealidad viene dada no slo por la elipse que participa en la definicin de la regin factible, sino
adems por la segunda funcin objetivo a minimizar que define la distancia (funcin cuadrtica) entre las
derivadas segundas en los nodos de la particin y los valores de referencia RefV(ui, vj).
La existencia de variables enteras viene dada por la necesidad de imponer restricciones disyuntivas para definir
la regin factible asociada a las derivadas de primer orden. La asociada a las de segundo orden es lineal pues es
una acotacin de stas por el valor que toman las de de primer orden.
Emplearemos una regin factible lineal y conexa para las derivadas de primer orden ([-3,0]x[-3,0]) que permite evitar el
uso de variables enteras y simplificar as el problema. La no linealidad no desaparecera dado que, como hemos
sealado, no afecta nicamente a la regin factible sino tambin a la funcin multiobjetivo. Efectivamente, el primero
de los objetivos es una funcin lineal de las derivadas de primer orden que viene a controlar, como ya sealamos, el
apuntamiento de los montculos que se originan como consecuencia de la interpolacin (ilustracin (4.6)). Sin embargo,
el segundo es una funcin de distancia que determina la proximidad a una relacin de valores de referencia que podra
tomar la densidad cpula en los nodos de la rejilla obtenidos al dividir el cuadrado unidad.
Segn se explica en el captulo 9 de [SIXTO], existen varios mtodos para resolver un modelo de programacin
continua multiobjetivo. Recalcamos el trmino continua para dar a entender que los mtodos que se van a citar,
nicamente podran ser aplicados al problema (4.36) pero no as al problema original (4.35). Aqu hacemos una
- 90 -
exposicin a grandes rasgos de algunos de los ms conocidos invitndose al lector a consultar la obra de Sixto para
tener una visin ms detallada de ellos y de cmo pueden ser aplicados en algunos ejemplos reales.
La tcnica que proponemos emplear por su simplicidad, es el mtodo de las ponderaciones que consiste en construir
una nica funcin como suma ponderada de las diferentes funciones objetivo. As, el problema se reducira a una
asignacin de pesos en funcin de la importancia que considersemos tiene cada una de ellas. En nuestro caso se tratara
de maximizar o minimizar la funcin objetivo asociada a las derivadas de primer orden y minimizar la funcin objetivo
asociada a las derivadas segundas. En el caso de la segunda funcin objetivo es evidente la intencin de minimizarla
pues se trata de aproximarse lo ms posible a los valores de referencia que hemos mencionado. Respecto de la primera
funcin objetivo, si la intencin fuese la misma, el objetivo final sera claramente minimizar la suma ponderada de las
dos; si por el contrario la idea fuera su maximizacin, bastara cambiar el signo de dicha funcin para transformar el
objetivo en otro de minimizacin. De esta forma, el objetivo final volvera a ser minimizar la suma ponderada de la
primera funcin transformada (multiplicada por -1) y la segunda con su signo original. La ventaja del mtodo de las
ponderaciones es que el problema queda transformado en un problema de programacin con un nico objetivo (no
lineal o, ms concretamente, cuadrtico).
Otro mtodo de resolucin que reduce el problema a un nico objetivo es el mtodo de las -restricciones el cual
consiste en optimizar la funcin objetivo que se considere ms importante e introducir para la otra (u otras) una relacin
de nmeros reales que la acoten. En nuestro caso, si el objetivo fundamental fuera minimizar la distancia de las
derivadas segundas a los valores de referencia, se tratara de minimizar la segunda de las funciones objetivo (no lineal)
y restringir a que la suma de las derivadas primeras (primera funcin objetivo) fuera mayor (si el objetivo es de
minimizacin) o menor (si es de maximizacin) que un cierto .
Un tercer mtodo que permite la simplificacin al caso uniobjetivo es la programacin por metas (Charnes y
Cooper) en la que el decisor establece una relacin de metas a las que pretende llegar por objetivo y considera como
solucin ptima aquella que minimiza la suma de desviaciones a las metas propuestas. La funcin resultante es una
distancia y como tal no lineal, si bien, como explica Sixto, se puede hacer la transformacin a un formato lineal
mediante la incorporacin de pares de variables (desviacin por exceso y por defecto) asociadas a cada uno de los
objetivos.
La razn por la que proponemos emplear el mtodo de las ponderaciones con respecto al mtodo de las -restricciones
o al de programacin por metas (que tambin permiten tratar el problema como si tuviera un nico objetivo), es no
aumentar el nmero de restricciones y variables del problema que es ya suficientemente amplio (12*n*m restricciones
para (4.36)).
Sealaremos finalmente que existen otras tcnicas que permiten abordar el problema sin necesidad de transformarlo en
otro uniobjetivo en el que el concepto de solucin ptima tiene pleno sentido pues la optimalidad, sin lugar a dudas, se
dar respecto del nico objetivo existente. En contraposicin, el mtodo del Smplex Multiobjetivo de Zeleny aborda
directamente todos los objetivos y surge entonces el concepto de solucin eficiente dado que raramente la solucin
va a ser simultneamente ptima respecto de todos los objetivos. Por definicin, una solucin es eficiente si no existe
otra que mejore el valor de uno de los objetivos sin provocar un empeoramiento en el valor de alguno de los objetivos
restantes.
- 91 -
La primera determina una solucin inicial bsica factible (como en el Smplex uniobjetivo) introduciendo las
variables de holgura y artificiales necesarias para ello.
La tercera genera a partir del punto anterior el resto de puntos (soluciones) extremos eficientes.
El empleo de esta tcnica multiobjetivo pura debe ser aplicada a funciones objetivo de carcter lineal. Esto no es
necesariamente un problema, dado que la no linealidad de (4.36) viene dada por la funcin distancia y sta puede
definirse alternativamente a travs de la funcin valor absoluto (en vez de como una medida cuadrtica), para dar
posteriormente al problema un formato lineal, algo que es posible segn acabamos de comentar para el mtodo de
programacin por metas. Con todo y con eso, el mtodo de Zeleny presenta la dificultad de encontrar un software que
tenga implementado su algoritmo y, an as, deber tenerse en cuenta la complejidad computacional (en tiempo) que
pueden suponer los clculos para particiones de altas dimensiones. Mayores dificultades tendramos an para encontrar
un software que permitiera resolver el problema de programacin multiobjetivo no lineal en su versin binaria (entera)
planteado por (4.35). En este caso, la no-linealidad del problema no es evitable dado que no va asociada slo a uno de
los objetivos sino a la forma de la regin factible. El primer artculo sobre programacin multiobjetivo entera data de
1977 (tcnica de Passy) y aborda objetivos bilineales. Algunos autores posteriores como Bitran (1979) o Winkoffki
proponen tcnicas de enumeracin implcita relacionados con la teora de grafos. En general, los mtodos existentes se
basan en algoritmos de ramificacin y acotacin o de planos de corte en programacin por metas, siendo el libro de
Ignizio (1976) el que recomienda Sixto al lector interesado en implementar un programa que permitiese resolver el
problema (4.35). A modo de resumen podemos establecer el siguiente teorema a partir de los lemas (4.2), (4.3) y
(4.6 o 4.7):
Teorema 4.5: Condicin suficiente para poder generar una cpula por interpolacin de una subcpula mediante
una superficie de Hermite
Sea una particin del cuadrado unidad en n x m rectngulos del mismo rea y sea la solucin ptima al problema de
programacin fraccional (4.7) dada por
i j
c*ij=C * , i{0,1 ,2 , ... n} j{ 0,1 ,2 , ...m } que define una
n m
subcpula C* de dominio los puntos de interseccin entre los rectngulos que originan la particin.
Sea CHERMITE(u,v) la funcin que se obtiene por interpolacin cbica de una subcpula C * mediante polinomios de
Hermite (dada por (4.19)).
Construccin de cpulas con valor ptimo del estadstico de Pearson
- 92 -
Si
C HERMITE u i , v j C HERMITE u i , v j
2 C HERMITE u i , v j
,
y
i{0,1 ,2 , ... , n } j { 0,1,2 ,... m } cumplen las
u
v
u v
siguientes condiciones:
1.
C HERMITE u k ,0
C HERMITE 0,v l
=0 k { 0,1,2 , ... , n } y
=0 l { 0,1,2 ,... , m }
u
v
2.
C HERMITE u k ,1
C HERMITE 1, v l
=1 k { 0,1 ,2 , ... , n } y
=1 l { 0,1 ,2 , ... , m }
u
v
3.
Proporcionan una solucin del problema de programacin multiobjetivo no lineal entera (4.35) (o bien su
relajacin (4.36))
Adjuntamos finalmente el grfico que resultara de dar solucin al problema relajado (4.36) mediante el mtodo de las
ponderaciones para obtener una cpula por interpolacin cbica de Hermite. La muestra de partida es nuevamente la
mostrada en la ilustracin (4.1). Se ha asignado peso 0.5 a cada uno de los objetivos donde el primero de ellos consiste
en minimizar la suma de las derivadas de primer orden mientras que el segundo minimiza la suma de las distancias a los
valores de referencia que, en este caso, han sido establecidos en funcin de la densidad de Bernstein, es decir, tratando
de aproximar los valores de las derivadas segunda a los volmenes de los rectngulos obtenidos en una particin de
dimensin mayor (6 x 6).
Ilustracin 4.8: Cpula construida por interpolacin cbica mediante polinomios de Hermite, de la subcpula que
optimiza el valor del estadstico de Pearson
- 93 -
Se puede establecer la comparativa entre la densidad obtenida con la superficie interpoladora de Ferguson y est ltima.
Haremos esta comparativa mediante un grfico de contorno (o trmico). Este tipo de grficos es muy utilizados en
teora de cpulas dado que permite hacerse una idea muy buena de la forma de la densidad en todos sus frentes gracias a
una perspectiva area mediante curvas de nivel. Cada color va asociado a un determinado nivel alrededor del cual se
mueve la densidad cpula. Dicho nivel vendra a ser el valor del eje z en el grfico anterior.
Ilustracin 4.9: Comparativa entre la densidad cpula interpolada mediante superficies de Ferguson y la
interpolada mediante polinomios de Hermite
Queda claramente puesta de manifiesto la mayor suavidad de la ltima cpula ajustada, pues presenta mayor
continuidad en sus superficies coloreadas (no hay grandes cambios de nivel) y no sufre las bruscas cadas a cero en cada
uno de los vrtices de la particin (los cuales estn representados en el grfico de contorno asociado a la superficie de
Ferguson por pequeos crculos en azul marino). Estas cadas resultan poco verosmiles en una relacin de dependencia
entre variables y ms an cuando se busca extrapolar sta con fines predictivos. Obsrvese adems el hecho de que, de
igual manera que ocurra con el mtodo de interpolacin bilineal (ilustracin (4.2)) y el que empleaba polinomios de
Bernstein (ilustracin (4.4)), existe una mayor densidad en la regin asociada a las colas derechas (cercanas a 1) de las
variables U y V, lo cual es indicio de que esta cpula, de igual manera que ocurre con otras conocidas como la HRT y la
de Gumbel, enfatiza la relacin entre valores extremos. Esto es gracias, como ya hemos sealado, al carcter emprico
de las cpulas construidas, o sea, a la capacidad que tienen para ajustarse localmente a la muestra (ilustracin (4.1)).
Esto es un arma de doble filo dado que, si bien parece conveniente que se ajuste lo ms posible a la muestra, puede ser
que refleje relaciones espurias derivadas de la existencia de pares residuales en alguno de los rectngulos de la
particin. No es tan grave la presencia de rectngulos no informados (sin datos) como la de rectngulos poco
informados que puedan identificar relaciones inexistentes. En estos casos hay que garantizar que los rectngulos que
lleven la parte ms representativa de la relacin tengan una densidad significativamente mayor. As por ejemplo en el
grfico anterior puede observarse que la cpula pone un nfasis especial en el cuadrante superior derecho el cual est
implicado en la ocurrencia conjunta de comportamientos extremos. De hecho, el nmero de puntos en el rectngulo
superior derecho del grfico mostrado en la ilustracin (4.1) es superior al de cualquier otro rectngulo de la particin.
Construccin de cpulas con valor ptimo del estadstico de Pearson
- 94 -
El ltimo paso es establecer las condiciones bajo las cuales el problema (4.35) tiene solucin factible, cuestin que
habamos dejado aparcada justo antes de empezar este desarrollo que ha permitido establecer las restricciones a
satisfacer para que una superficie de Hermite genrica, construida por interpolacin del dominio de una subcpula, sea
una cpula. Esta factibilidad no est siempre garantizada y es la razn que provoca que no siempre sea posible
conservar el valor ptimo del estadstico de Pearson obtenido sobre la clase de todas las subcpulas asociadas a la
particin original.
Si existe solucin factible de (4.26) tambin existe para (4.21) dado que la regin factible de este ltimo
contiene a la del primero.
Como consecuencia, si existe solucin factible de (4.21) tambin existe solucin para (4.35) ya que al menos
existe la solucin en la que el valor de las derivadas primeras es el mismo que el que se haya obtenido para
(4.21) y el valor para las derivadas segundas es 0.
Del mismo modo, la existencia de solucin para (4.26) garantiza la existencia de solucin para (4.36) ya que al
menos existe la solucin en la que el valor de las derivadas primeras es el mismo que el que se haya obtenido
para (4.26) y el valor para las derivadas segundas es 0.
Por ello centraremos nuestros esfuerzos en determinar las condiciones de factibilidad de (4.26) pero antes de ello,
empezaremos proponiendo un ejemplo (ms bien un contraejemplo) que muestra que, al construir la cpula
interpoladora a partir de los lemas (4.2) y (4.3) y del problema (4.26), este ltimo puede no tener solucin factible.
Supongamos que m = 2, n = 4, y que la subcpula que proporciona el menor valor del estadstico de Pearson, y que es el
resultado de resolver el problema (4.7), toma los siguientes valores en su dominio de definicin:
1
1
1
1
3
3
C * 0,1=0, C * ,1= , C * ,1= ,C * ,1= ,C * 1,1=1
4
4
2
2
4
4
1
1
1 * 3 1 3 * 1 1
*
* 1 1
* 1 1
C 0, =0,C , = , C , = ,C , = ,C 1, =
2
4 2 48
2 2 4
4 2 8
2 2
*
* 1
* 1
* 3
*
C 0,0=0,C ,0=0, C ,0=0,C ,0=0,C 1,0=0
4
2
4
- 95 -
Se puede comprobar que, de acuerdo a esta definicin, C* es efectivamente una subcpula pues se cumplen las
propiedades (1.1) - (1.4). El dominio de definicin es S1 x S2 siendo S 1 ={ 0,
1 2 3
1
1 } y S 2={ 0, 1 } ,
4, 4, 4,
2,
ambos contenidos en [0,1] (propiedad (1.1)). Adems, las dos condiciones frontera ((1.2) y (1.3)) se cumplen por la
propia definicin de C*. Finalmente, para verificar (1.4), basta ver que el volumen de cualquiera de los rectngulos
contenidos en el dominio de definicin de C* (vase el grfico anterior) es mayor o igual que cero a travs de la
subcpula. Efectivamente,
1
11
1
1
V R1= 0,V R2= 0,V R3= 0,V R4= 0
48
48
8
8
11
1
1
1
V R5= 0, V R6 = 0,V R7= 0,V R8= 0
48
48
8
8
Luego C* es subcpula.
Sin embargo, vamos a ver que no es posible encontrar una relacin de valores para las derivadas primeras respecto de V
que satisfagan las restricciones del problema (4.26). Obsrvese previamente que
cumplirse para las derivadas asociadas a
v1 =
v j1 v j =
1
. Entonces, deberan
2
1
, las siguientes desigualdades asociadas a los rectngulos que quedan
2
]03V *C B [
]0
V C B
v
v
v
v
*
En consecuencia, se tendra el siguiente conjunto de restricciones asociadas a cada uno de los rectngulos:
- 96 -
C* 0,v1 C * u1, v1
1
R13 [
]0
48 v
v
*
*
11 C u1, v1 C u2, v1
R23 [
]0
48 v
v
*
*
1 C u2, v1 C u3, v1
R33 [
]0
8 v
v
*
*
1 C u3, v1 C 1, v1
R4 3 [
]0
8 v
v
*
*
11 C 0, v1 C u1, v 1
R5 3 [
]0
48 v
v
C* u1, v1 C* u2, v 1
1
R6 3 [
]0
48 v
v
*
*
1 C u2, v1 C u3, v1
R7 3 [
]0
8 v
v
*
*
1 C u3, v1 C 1, v1
R8 3 [
]0
8 v
v
Se pueden eliminar aquellas restricciones que resultan redundantes, siendo el conjunto resultante:
C * 0,v 1 C * u1, v1
1
R13 [
]0
48 v
v
*
*
C u 1, v 1 C u2, v 1
1
R6 3 [
]0
48 v
v
*
*
1 C u 2, v 1 C u 3, v 1
R7 3 [
]0
8 v
v
C * u 3, v 1 C * 1, v 1
1
R8 3 [
]0
8
v
v
Por otra parte, si para construir la cpula interpoladora imponemos que
C * 0,v 1
C * 1, v 1
=0 y
=1
v
v
(de acuerdo a los lemas (4.2) y (4.3)) para garantizar las propiedades frontera, se tiene que,
C * 0,v 1 C * u 1, v 1
C * u1, v 1 3
1
R13 [
]00
48 v
v
v
48
C * u 1, v 1 C * u 2, v 1 C * u 1, v 1 3
3
3
6
R6 0
=
v
v
v
48 48 48 48
C * u 1, v 1 C * u 2, v 1 C * u 3, v 1 C * u 2, v 1 3 6
3 1
R7 0
=
v
v
v
v
8 48 8 2
*
5 C u3, v 1
R8
1
8 v
Basta ver que las desigualdades asociadas a R7 y R8 generan intervalos disjuntos para
verificar que
C * u 3, v 1
1
[0, ]
v
2
y que
C * u 3, v 1
, pues se debe
v
C * u 3, v 1 5
[ ,1] lo cual es imposible.
v
8
Por tanto, no existe siempre solucin factible al problema (4.26). La razn es el volumen tan bajo que se obtiene para
los rectngulos R1 y R6 a travs de C*. Vamos a ver que la manera de resolver esta falta de factibilidad es imponer un
volumen mnimo a travs de C* para los rectngulos contenidos en su dominio de definicin.
- 97 -
Definicin 4.2.- Se define una 2-subcpula-VMIN como aquella 2-subcpula C' tal que el volumen a travs de ella de
cualquier rectngulo B contenido en su dominio de definicin es mayor o igual que VMIN, es decir,
1
V c ' B BDominio C ' . El hecho de aadir el valor
4
VMIN como sufijo en vez de prefijo es por reservar esta posicin para poder hacer referencia a la dimensin de la cpula
(el nmero de variables sobre el que acta). La definicin se puede extender fcilmente a funciones cpula:
Definicin 4.3.- Se define una 2-cpula-VMIN como aquella 2-cpula C tal que el volumen a travs de ella de cualquier
rectngulo
contenido
en
el
rectngulo
unidad
es
mayor
igual
que
VMIN,
es
decir,
Teorema 4.6: Condicin necesaria y suficiente para que el problema de programacin lineal que permite determinar
el valor de las derivadas en el dominio de la subcpula que optimiza el estadstico de Pearson, tenga solucin
Sea una particin del cuadrado unidad en n x m rectngulos del mismo rea y sea la solucin ptima al problema de
programacin fraccional (4.7) dada por
i j
c *ij=C * , i{ 0,1,2 , ... n } j { 0,1,2 , ... m } que define una
n m
subcpula C* de dominio ={los puntos de interseccin entre los rectngulos que originan la particin}.
La condicin necesaria y suficiente para poder definir una cpula CFERGUSON por interpolacin del dominio de C* a
travs de las condiciones suficientes establecidas en los lemas (4.2), (4.3) y (4.5), es que C* sea una 2-subcpula-VMIN
siendo
V MIN =
2
.
3mn
El siguiente paso consiste es saber si sigue estando garantizada la existencia de solucin factible a una modificacin al
problema de programacin fraccional (4.7). La modificacin consiste en imponer que las subcpulas obtenidas sean
tales que, al aplicarlas sobre los rectngulos con vrtices su propio dominio de definicin, proporcionen un volumen
- 98 -
V MIN =
2
. Queremos saber bajo qu condiciones dicho problema va a tener solucin, algo
3mn
que para el problema (4.7) quedaba asegurado a travs del teorema (4.1).
El problema que resulta al hacer la modificacin de (4.7) es el siguiente:
Min
i S 1
N ijnpij 2
Min
np
j S
iS
ij
2
i
j
s.a c ' i0 =0 iS 1 ; c ' 0j=0 jS 2 ; c' im= iS 1 ; c' nj=
jS 2
n
m
2
pij=c' i , j c' i 1, jc ' i , j 1c ' i1, j 1V MIN =
iS 1, jS 2
3mn
S 1={1,2 ,... ,n1 ,n} S 2 ={ 1,2,... , m1 ,m}
(4.39)
Basta observar que, de igual manera que ocurriera para el problema (4.7), la subcpula producto es una solucin factible
a este problema.
Teorema 4.7: Existencia de solucin factible al problema de programacin no lineal modificado que permite
obtener una subcpula que optimiza el valor del estadstico de Pearson
Sea una particin del cuadrado unidad en n x m rectngulos del mismo rea. Entonces el problema de programacin
fraccional (4.39) tiene solucin factible y va a proporcionar la relacin de valores en cada uno de los puntos del
dominio de definicin de la subcpula que optimiza el estadstico de Pearson respecto del espacio de las
2-subcpulas-VMIN siendo
V MIN =
2
3mn
demostracin
i j
i j
Efectivamente, dada la subcpula producto C ' , =
se puede comprobar que es solucin (no
n m n m
i j i1 j i j1 i1 j1 1
2
mn mn
mn
mn
nm 3nm
c.q.d
Obviamente, la regin factible asociada a 2-subcpulas-VMIN (problema (4.39)) est contenida en la que definen las
2-subcpulas (problema (4.7)) y por tanto, el valor que se obtenga para el estadstico de Pearson va a perder calidad.
As, al generar una cpula por interpolacin con polinomios cbicos de Hermite este valor va a ser mayor (y por tanto
peor) que el que se obtendra si la interpolacin se llevara a cabo con polinomios lineales (de orden 1 en U y V).
Construccin de cpulas con valor ptimo del estadstico de Pearson
- 99 -
Teniendo en cuenta los lemas expuestos, podemos resumir que, dada una particin arbitraria del cuadrado unidad en
n xm
1.
2
) para ser la
3mn
que proporcione un valor ms bajo del estadstico de Pearson dentro de la clase de las 2-subcpulas-VMIN.
2.
El problema (4.26) asociado a la subcpula C* (y por tanto los problema (4.21),(4.35) y (4.36)) tambin tienen
solucin. En concreto, el problema (4.35) determina los valores que deben tomar las derivadas de primer y
segundo orden de una funcin interpoladora de los valores de la subcpula C* mediante polinomios cbicos de
Hermite para que dicha funcin interpoladora sea 2-creciente.
3.
A dicha funcin es posible imponer de manera adicional las condiciones impuestas por los lemas (4.2) y (4.3)
y obtener como resultado una funcin cpula CHERMITE que es una interpolacin mediante polinomios cbicos.
Hemos visto tres formas distintas de interpolar los valores de la subcpula para la cual se obtiene un valor ptimo del
estadstico de Pearson asociado al contraste de bondad de ajuste. De cada una de ellas, se puede hacer una sntesis:
La interpolacin mediante polinomios de orden 1 se puede llevar a cabo siempre a partir del conjunto de todas
las subcpulas, es decir, sin necesidad de restringirse a la clase de las subcpulas-VMIN. Sin embargo, la forma
escalonada de la densidad cpula resultante se traduce en que no se har discriminacin respecto de todos los
pares que pertenezcan a un mismo rectngulo. Su aspecto puede ser tan verosmil como el de la funcin de
distribucin emprica discreta (tambin escalonada) como aproximacin de una distribucin dada.
El empleo de esta cpula requiere hacer particiones muy finas con una gran cantidad de rectngulos (siendo
preciso entonces disponer de una muestra suficientemente grande) para poder esperar respuestas distintas de la
variable V (y por tanto de la variable a predecir Y) a partir de un valor u del miembro conocido del par, U
(del valor explicativo de X).
La interpolacin mediante polinomios de orden cbico no se puede hacer a partir de una subcpula cualquiera,
sino que precisa de que sta pertenezca a una subclase que hemos definido como subcpulas-VMIN donde
V MIN =
2
3mn
, las cuales son subcpulas tales que el volumen a travs de ellas de cualquiera de los
rectngulos contenidos en su dominio de definicin es mayor o igual que VMIN. Como consecuencia de ello, el
valor del estadstico de Pearson asociado a la subcpula desde la cual se lleva a cabo la interpolacin, deja de
ser ptimo dentro de la clase de todas las posibles subcpulas asociadas a la particin y pasa a serlo dentro de
- 100 -
la clase de las subcpulas-VMIN. Una vez hecha la interpolacin bajo esta hiptesis, las cpulas obtenidas
presentan una funcin de densidad caracterizada por una sucesin de montculos ms o menos pronunciados
pero que pueden ser suavizados en cierta medida mediante la aproximacin del valor de la densidad en cada
nodo de la particin (ui, vj) a un valor de referencia dado por (4.27) o por (4.32) . Esta aspecto caracterstico de
valles y montaas es una consecuencia directa de ajustar un polinomio bivariante cbico a cada rectngulo
de la particin y convierte a la cpula resultante en una buena candidata para reflejar relaciones multimodales.
En este caso, la dimensin de la particin no tiene por qu ser necesariamente muy alto como pudiera ocurrir
en el caso lineal. Obsrvese que, si bien particiones ms finas pueden ser convenientes para detectar diferentes
valores modales, en el caso ms sencillo (cuando n = m = 1, es decir, en ausencia de particin), la cpula
obtenida es, en cierto modo, una variante de las familias de cpulas con secciones cbicas en U y V que se
presentan en el apartado 3 de [NELQUERO] (expresin (4.3)) y que responden a una expresin general dada
por:
C a ,b u , v =uvuv1u 1v [ ab12u 12v ] (4.40)
siendo =
a
2a 2ab
, =
3
9
225
Algunas de las variantes que se presentan en el artculo citado a modo de ejemplo son la familia de FarlieGumbel-Morgenstern iterada de Kotz y Johnson (vase (AI.50) en Anexo I), la familia de Lin (vase
(AI.51)), la familia de Kimeldorf y Sampson (AI.35) y la familia de Sarmanov (AI.38). El siguiente grfico
pone de manifiesto el parentesco entre la densidad obtenida para uno de los representantes de estas familias y
el que resulta de interpolar con polinomios de Hermite la subcpula que optimiza el valor del estadstico de
Pearson en ausencia de particin (dimensin 1 x 1) y donde los valores de referencia respecto de los cuales se
establece la aproximacin de las derivadas de segundo orden son los de Bernstein.
Ilustracin 4.11: Comparativa entre la densidad de una cpula con secciones cbicas en U y V y la
obtenida por interpolacin cbica de la subcpula que optimiza el valor del estadstico de Pearson
- 101 -
De haber utilizado una superficie interpoladora de Ferguson, el valor de las derivadas segundas (y por tanto de
la densidad cpula) en cada uno de los cuatro vrtices del cuadrado unidad hubiese sido cero. En dicho caso, el
aspecto de la densidad obtenida sin realizar particin alguna hubiese sido el que se muestra en el siguiente
grfico:
Ilustracin 4.12: Densidad cpula construida mediante superficies de Ferguson en ausencia de particin
La interpolacin mediante polinomios de Bernstein trata de suplir las carencias de las cpulas anteriores desde
el punto de vista de la uniformidad de su funcin de densidad. Si bien es verdad que las cpulas anteriores se
adaptan localmente a los datos, el ajuste puede presentar demasiados cambios de comportamiento poco
esperables en la mayor parte de las relaciones de dependencia entre variables. La regularidad puede ser una
caracterstica deseable en la relacin de dependencia entre las variables de estudio y aun cuando pueda
conseguirse mayor o menor suavidad de la superficie interpoladora cbica mediante la aproximacin a los
valores de referencia, la aproximacin mediante polinomios de Bernstein puede ofrecer una solucin ms
satisfactoria. Hay que resaltar que, en contra de este ajuste, juega el hecho de que no se trata de una
interpolacin exacta del dominio de definicin de la subcpula que optimiza el estadstico de Pearson, sino de
una aproximacin a los valores de la subcpula en dicho dominio.
Para la particin de dimensin 5 x 5 mostrada en la ilustracin (4.1), hemos visto que los estadsticos obtenidos
para los representantes de diferentes familias de cpulas convencionales (tabla (4.1)), proporcionan p-valores a
partir de los cuales no es posible rechazar la hiptesis del contraste de bondad de ajuste a la cpula de
expresin desconocida. Pero tambin puede suceder todo lo contrario, es decir, que todas las cpulas sometidas
al contraste conduzcan al rechazo del mismo, siendo en tales ocasiones, en las que las cpulas construidas
empricamente por interpolacin del dominio de aqulla que minimiza el valor del estadstico de Pearson,
puedan suponer una buena alternativa de solucin.
- 102 -
A modo de contraejemplo, podemos considerar otra nube de puntos asociada al mes de Marzo (la presentada
en la ilustracin (4.1) corresponda al mes de Noviembre).
Segn podemos ver en el siguiente grfico, a travs de la cpula construida por interpolacin bilineal de la
subcpula que optimiza la expresin de Pearson, conseguiremos un valor de sta suficientemente pequeo.
Sin embargo, si calculamos los valores de los estadsticos de Pearson para las mismas cpulas candidatas que
plantebamos en el ejemplo anterior, veremos que ninguno de dichos valores permite aceptar (no rechazar)
el contraste de bondad de ajuste al 90% de confianza. Al 95%, la cpula gaussiana y la de Gumbel s
superaran dicho contraste. Estas observaciones pueden ser confirmadas en la siguiente tabla, la cual
muestra los p-valores asociados a los estadsticos calculados para cada una de las cpulas utilizadas.
Tabla 4.2: Evaluacin del estadstico de Pearson para una serie de cpulas
Construccin de cpulas con valor ptimo del estadstico de Pearson
- 103 -
Con esta observacin queremos hacer hincapi en que el empleo de las cpulas interpoladoras puede resultar
interesante en aquellos casos en los cuales ninguna de las familias candidatas proporcione un ajuste
suficientemente bueno, pero parece existir evidencia de dependencia entre las variables (el p-valor ms bajo
corresponde a la cpula producto).
As, proponemos la construccin de estas cpulas interpoladoras en aquellas circunstancias en las
cuales ninguna de las cpulas candidatas nos ofrezca ciertas garantas de que la distribucin conjunta obtenida
a travs de cada una de ellas (mediante el teorema de Sklar), lleve implcita la verdadera relacin de
dependencia existente entre las variables.
Nuestro propsito final consiste en automatizar el proceso de seleccin de la funcin cpula que mejor refleje
la relacin entre un par de variables (demanda de gas/electricidad y temperatura), de cara a su
implementacin informtica, disponiendo de un recurso adicional ante la posibilidad de que los p-valores
asociados a las distintas candidatas, conduzcan al rechazo de la hiptesis planteada por el contraste de
bondad de ajuste a distribuciones bidimensionales. Este recurso adicional viene dado por una cpula emprica
y no paramtrica que respecto de la expresin de Pearson, que es a fin de cuentas una medida de proximidad
entre lo observado en la muestra y lo tericamente esperado a travs de la cpula, presente un valor lo ms bajo
posible.
- 104 -
Como se explica en el apartado 2.5.6 las cpulas pueden ser utilizadas para hacer predicciones a partir de la simulacin
de valores de la distribucin de sus condicionadas C 1 =C VU . Se trata de conocer el valor que se espera para la
variable Y en funcin del valor conocido x de la variable X o lo que es lo mismo, la esperanza asociada a la variable
YX = x . Para calcular esta esperanza, se emplea la funcin de distribucin
H Y X de la cual se genera un
conjunto suficientemente grande de valores mediante tcnicas de simulacin y se puede seleccionar entre ellos por
ejemplo la media o la mediana. La simulacin de valores de
C 1 =C VU con la cual se encuentra relacionada a travs del teorema de Sklar (vase expresin (1.11)). Esto es as
puesto que son las funciones cpula las que se utilizan para calibrar la relacin de dependencia entre X e Y (a travs de
U y V) y seleccionar la distribucin conjunta con marginales X e Y que mejor se adapte a dicha relacin. Dado que la
simulacin de valores se hace para
destransformados a travs de la marginal de la variable Y para obtener valores simulados y. Como bien se resume
en el apartado 2.4.2 de [LIU] la simulacin se puede hacer en los siguientes pasos:
1.
2.
Generar
us y
valores aleatorios que se distribuyen segn una U(0,1). En nuestro caso u viene
dado por
F X x .
Calcular
s s
v s=C 1
21 u ; entonces
u s , v s
( C 21=C 1 ).
3.
Hacer
r sX = F 1 u s y
r sY = F 1 v s
(en nuestro caso bastara con calcular ste ltimo) para obtener
de distribucin de una variable aleatoria continua, es montona y estrictamente creciente, lo cual permite sacar en
1
conclusin que P F X U z= P U F X z = F X z . En consecuencia, las funciones de distribucin de X y Z
Z = F 1
X U , lo cual se traduce en igualar la
funcin de distribucin C1(u,v) a un valor p distribuido segn una uniforme estndar y despejar v para obtener una
expresin en funcin del valor u al cual se condiciona y en funcin tambin de p. Bien es verdad que la inversa de
la cpula condicional no siempre puede calcularse por estos mtodos convencionales (por ejemplo para la t-cpula o
cpula de la t-student) siendo necesario en dichos casos recurrir a aproximaciones numricas.
- 105 -
siendo
}a (5.1)
1
(5.2)
2
1 a
p
a=
siendo
1 1
a a1
1a 1ua } a
(5.3)
2
(5.4)
1
pg1
1
v= ln[1
] (5.5)
a
1gu1p
g z =eaz1 (5.6)
siendo
4 4
t
=1 2 t
dt
a a 0 e 1
(5.7).
La integral de esta expresin (funcin de Debye) se puede resolver a travs de la siguiente aproximacin
B 2ka 2k
(5.8)
k =1
]
et1 dt=a[1 4 2k1
2k !
0
v=
siendo a =
9
(5.10)
2
- 106 -
siendo
=sen
(5.12)
2
u
v j 1v j vi 1v i
v j1C ' u i1 , v j C ' u i , v j v jC ' u i , v j1 C ' u i 1 , v j1
=a jvb j v[ v j , v j 1 ]
v j1v j v i1v i
v j1 v j vi1 v i
C 1 u , v=
(5.13)
C ' u i , v j C ' u i , v j 1 C ' ui 1 , v j C ' u i1 , v j1 V C [u i , u i1 ] x [v j , v j1 ]
=
siendo a j =
v j 1v j v i1v i
u i 1u i v j 1v j
(5.14)
(5.15)
v j 1v j vi 1vi
v j1v j v i1vi
y b j=
Observemos que la ecuacin de la densidad cpula (vase (4.9)) es fcil de calcular a partir de (5.13) pues
C u , v
V [ u , u ] x [v j , v j1 ]
c u , v= 1
=a j= C i i 1
v
u i 1ui v j1 v j
Sea ahora p un valor extrado de una distribucin uniforme (0,1). Si p es tal que
a jv j b j pa jv j1 b j ,
entonces igualando a p la expresin (5.13) y despejando v se llega a la expresin que permite hacer simulaciones de
la cpula construida por interpolacin bilineal:
v=
pv j 1v j ui1 ui
C ' ui ,v j C ' ui1 ,v j
C ' ui 1 , v j 1C ' ui , v j 1
v j 1
v j
(5.16)
V C ' Bi
V C ' Bi
V C ' Bi
verificndose que
v jvv j1
La cpula condicionada asociada a la cpula construida por interpolacin cbica mediante polinomios de Hermite
(4.19) se puede calcular derivando dicha expresin respecto de U. El resultado es:
Simulacin de valores para las cpulas construidas por interpolacin
- 107 -
C HERMITE u , v
2v v j 3 3v v j 2
2vv j 3 3vv j 2
= A
1
B
3
2
3
2
u
v j1 v j v j1v j
v j1 v j
v j1v j
3
vv j
2vv j
vv j
vv j
C
vv j D
v[v j , v j1 ]
2
2
v j 1v j v j 1v j
v j 1v j v j1 v j
(5.17)
siendo
6uu i 2 6 uui
6uu i 2 6 uui
A=[
C
'
u
,
v
C ' u i 1 , v j
i
j
3
2
3
2
u i1u i u i1 u i
u i1u i
u i 1ui
2
2
3uu i 4uu i
C ' u i , v j 3 uu i 2uu i C ' u i 1 , v j
]
u
u i1u i 2 u i1 u i
u i 1ui 2 ui 1u i u
(5.18)
6u u i
6uu i 2 6 uu i
C
'
u
,
v
C ' ui 1 , v j 1
i
j1
3
2
3
2
u i1 u i u i1u i
u i 1u i
u i 1ui
2
2
3uu i 4uu i
C ' u i , v j1 3 uu i 2u u i C ' u i1 , v j 1
]
u
u i1u i 2 u i1 u i
u i 1u i 2 u i1u i u
B=[
6uu i 2
(5.19)
6uu i C ' ui , v j 6uu i 2 6 uu i C ' u i1 , v j
3
2
3
2
v
v
u i1u i ui 1u i
u i1 u i
u i1u i
2
2
2
2
3uu i 4uu i
C ' ui , v j 3uu i 2 uui C ' u i1 , v j
]
uv
u i1u i 2 u i1 u i
ui 1u i 2 u i1u i u v
C =[
6 uui 2
(5.20)
6 uu i
C ' u i , v j 1 6 uu i 2 6uu i C ' u i 1 , v j 1
3
2
3
2
v
v
u i1 u i u i1u i
u i1u i
ui 1u i
2
2
2
3uu i 4uu i
C ' ui , v j1 3uu i 2 uu i C ' u i1 , v j1
]
uv
u i1u i 2 u i1 u i
u i1u i 2 u i1 u i u v
D=[
6uu i 2
(5.21)
La cpula condicionada asociada a la expresin (4.20) (interpolacin realizada mediante una superficie de Ferguson), se
obtendra dando valor 0 a las derivadas segundas.
Para la simulacin de valores en uno u otro caso, bastara igualar la expresin correspondiente a un valor p generado a
partir de una uniforme estndar y resolver en v. Podemos reescribir (5.17) como una funcin de v de la siguiente
forma:
2 AB
CD
}v3
3
2
v j1v j v j 1v j
6ABv j 3 B A 3CDv j 2CD
{
}v 2
3
2
2
v j 1v j
v j 1v j
v j1 v j v j1v j
2
2
6ABv j 6 BAv j 3CDv j 22CD
{
v jC }v
v j1v j
v j 1v j 3
v j1 v j 2
v j1 v j 2
2ABv3j 3BAv2j
CDv3j 2CD 2
{
v j Cv j }= p
3
2
2
v j 1v j
v j 1v j
v j1v j v j1 v j
{
(5.22)
- 108 -
Esta ecuacin se puede resolver mediante la frmula de Cardano-Tartaglia pudiendo darse alguna de las siguientes
posibilidades:
Una de las soluciones a la ecuacin (5.22) es real y las otras dos complejas. En dicho caso, la solucin real v
es la que deberemos tomar como valor simulado.
Se obtiene una nica raz real (triple). En dicho caso, ste es el valor v simulado.
Se obtiene una raz doble y una raz simple. Se tomarn como valores v simulados aquellas soluciones que
pertenezcan al soporte de la variable V (debern estar entre 0 y 1).
Se obtienen tres races simples. De la misma forma que en el caso anterior, slo interesan las soluciones v
que pertenezcan al soporte de V (que se muevan entre 0 y 1).
Cualquiera que sea el caso, una vez obtenido el valor v simulado correspondiente a la distribucin de V, ser
necesario destransformar a travs de la funcin de distribucin estimada para Y (habamos considerado tambin la
funcin de distribucin emprica continua), para obtener el correspondiente valor y simulado condicionado a x
conocido. Sucesivas simulaciones de valores p proporcionarn sucesivos y. La media o mediana de dichos valores
se tomar como valor predicho de la variable Y condicionado a X = x.
C u , v
k l
= , m P l , m v[ ku k 11u mk u k m k1u m k1 ] (5.23)
u
m
m
k
k =0 l =0
La inversin de esta condicionada es complicada. Habramos de igualar la expresin (5.23) a un valor p generado a
partir de una U(0,1) y despejar v. En su lugar se puede resolver la ecuacin resultante mediante aproximaciones
numricas.
- 109 -
- 110 -
Determinar si es necesario o no transformar los datos (logaritmo, raz cuadrada, etc.) con el fin de
disminuir (explicar) la variabilidad de los datos: parmetro de la transformacin de Box-Cox.
Empleo
2.
Evaluar la necesidad de hacer diferencias regulares con el fin de que el modelo recoja (explique) la
de
funciones
cpula
para
predecir
111
Evaluar la necesidad de hacer diferencias estacionales que reflejen (expliquen) posibles periodicidades:
parmetro D del modelo SARIMA(p, d, q) X (P, D, Q) (en caso de que la tendencia se incorpore al
modelo de forma multiplicativa).
Estos tres primeros pasos van orientados a hacer que la serie a modelizar mediante un ARIMA, sea un
proceso estacionario en varianza (1) y en media (2 y 3) dado que esta es una hiptesis que se hace cuando se
ajustan este tipo de modelos: la distribucin de los datos no cambia con el tiempo.
4.
Identificar otros rdenes del modelo que determinen la dependencia del valor a predecir en funcin del
histrico de datos reales (p, P), y otros que hagan que la prediccin se corrija en funcin de los errores
cometidos por el propio modelo (q, Q).
5.
Realizar un anlisis de intervenciones para que queden explicados en el modelo determinados eventos
aislados identificados a partir del propio histrico.
6.
II. FASE DE ESTIMACIN.- supone estimar la relacin de parmetros asociadas a cada una de las variables que
surgen de los pasos 4,5 y 6. Los mtodos convencionales a tal fin son: el mtodo de la mxima verosimilitud
(ML), el mtodo de los mnimos cuadrados condicionados (CLS) y el mtodo de los mnimos cuadrados no
condicionados (ULS).
III. FASE DE CONTRASTE.- supone contrastar la significatividad de los parmetros estimados, de las
correlaciones entre ellos, la hiptesis de ruido blanco, etc.
Los parmetros bsicos del modelo (determinados por los rdenes p y q), as como los asociados a las
variables de intervencin y a los modelos de funcin de transferencia deben ser incluidos poco a poco e ir
contrastando continuamente su significatividad y correlacin. As, las fases I-II-III deben repetirse
paulatinamente hasta que el proceso de error resultante sea ruido blanco y todos los parmetros incluidos en
el modelo sean significativos y no presenten altas correlaciones entre ellos.
IV. FASE DE PREDICCIN.- consiste en aplicar el modelo sobre una muestra que no ha sido utilizada para el
ajuste (conjunto de validacin) y determinar si la calidad de las predicciones a diferentes horizontes
temporales es buena o no:
Si se considera buena, utilizar el modelo para hacer predicciones hasta que ste se desajsute (parmetros
que dejan de ser significativos, el error deja de ajustarse a un proceso de ruido blanco, etc.).
Esto puede venir provocado por un cambio de comportamiento de la serie.
Empleo
de
funciones
cpula
para
predecir
112
Si no se estima satisfactoria, regresar a la fase de identificacin, proponer otro modelo y volver a esta fase
de prediccin. Si tras varios ajustes ninguno resulta satisfactorio, puede ser que la metodologa
Box-Jenkins no sea apropiada para el tratamiento de la serie en cuestin siendo aconsejable en dicho caso,
el empleo de otro tipo de metodologa alternativa (posiblemente no lineal).
Empleo
de
funciones
cpula
para
predecir
113
tengamos ms informacin para intentar hacerlo. En esta lnea, podra pensarse en un mtodo de ajuste secuencial del
proceso de error mediante funciones cpula. Concretamente, vamos a utilizar estas funciones para buscar la relacin de
la variable a predecir con posibles variables explicativas de igual manera que hacen los modelos de funcin de
transferencia.
Supongamos por ejemplo que nos planteamos predecir la variable X a partir de su propio histrico y de m variables
explicativas Y{1},Y{2},...,Y{m}. Para referirnos al valor especfico de cada una de estas variables en el instante t,
utilizaremos la notacin Y{j}(t).
Sea Error{1} el proceso de error porcentual asociado a un modelo SARIMA que ha sido ajustado nicamente a partir
del histrico de X (tambin se ha realizado el correspondiente anlisis de intervenciones) sin emplear ninguna de las
variables explicativas (sin usar modelos de funcin de transferencia). Si P{1} identifica la prediccin hecha para X,
Error {1 }t =
100 X t P {1 } t
(6.1)
P {1 } t
Mediremos el error de forma porcentual con la idea de tratar de evitar la posible dependencia temporal de las unidades
en las que se mide el error (de igual forma que se emplea la correlacin en vez de la covarianza) pues esto puede ser
problemtico si la variabilidad de los datos cambia con el tiempo (vase el apartado siguiente, 6.2).
Partiendo de esta base, el algoritmo de ajuste secuencial mediante cpulas que proponemos, presentado tambin
grficamente en la ilustracin (6.2), sera el siguiente:
Sea j = 1, i = 1 y ME* = ME{1} el error medio o mediano asociado al valor absoluto de la variable Error{1}.
2.
Determinar a partir del histrico, la cpula C{i, j} que mejor refleje la relacin entre el proceso Error{i} y la
variable explicativa Y{j}:
2.1 Si la mejor cpula es la cpula producto ( u , v =uv ), no existe relacin entre Error{i} e Y{j} (la
cpula que mejor se ajusta es aqulla que refleja la independencia entre las variables). Ir al paso 4.
2.2 En caso contrario, ir al paso 3.
Nota: Para seleccionar la cpula que mejor refleje la relacin, proponemos utilizar por ejemplo el contraste de
bondad de ajuste descrito en el apartado 2.5.5, esto es, asociar a cada cpula representante (seleccionada como
la mejor dentro de cada familia candidata) un valor del estadstico de Pearson (y a travs de l un p-valor) y
tomar aqulla que menor valor proporcione (mayor p-valor).
3.
Realizar predicciones mediante la cpula condicionada de C{i,j} a travs del mtodo de la transformada
inversa o bien por aproximaciones numricas. Para ello, simular para cada valor del histrico Y{j}(t), valores
de Error{i}(t), es decir, simular valores de Error{i} condicionado a cada Y{j}(t). Proponer como valor esperado
para Error{i}(t) (sobre el histrico) la media o mediana (Mediana_Error{i}) de dichas simulaciones.
Empleo
de
funciones
cpula
para
predecir
114
Sea P'(t) la prediccin de X(t) corregida por la prediccin del error esperado, es decir,
P ' t=
Mediana _ Error { i }P {i } t
P {i } t (6.2)
100
Considrese el nuevo proceso de error porcentual que determina lo que queda por explicar a raz de esta
prediccin corregida,
Error ' t =
100 X t P ' t
(6.3)
P ' t
Calcular ME' como la media o mediana de estos nuevos errores pero medidos en trminos absolutos.
3.1 Si ME' < ME* (el error medio/mediano de prediccin mejora en valor absoluto) hacer
P {i1 }t = P ' t , Error { i1 } t= Error ' t , ME * =ME ' , i=i1 e ir al paso 4.
3.2 Si no, ir directamente al paso 4. (El proceso de error no se modifica pues la explicacin proporcionada
por Y{j}(t) no mejora la calidad de las predicciones. Por ello, la i se mantiene fija)
4.
Hacer j = j +1.
(Si se viene del paso 3, opcionalmente se puede dejar j fija y tratar de seguir explicando el proceso de error
con la misma variable mediante otra cpula, hasta que aqulla que mejor se ajuste sea la cpula producto).
4.1 Si
jm volver al paso 2.
Ilustracin 6.2: Metodologa de prediccin basada en un el tratamiento del proceso de error de un modelo
ARIMA mediante funciones cpula
Empleo
de
funciones
cpula
para
predecir
115
Observaciones
1.
De acuerdo al paso 2.1 del algoritmo, si la cpula que mejor refleja la relacin de dependencia entre las
variables Y{j} y Error{i} es , podemos descartar la posible vinculacin entre ellas. Esto es una consecuencia
derivada del teorema 2.4.2 que encontramos en [NELSEN], segn el cual, la independencia entre variables
aleatorias queda totalmente caracterizada a partir de la cpula producto (Dos variables aleatorias continuas X
e Y son independientes si y slo si CXY = .).
Esta es una propiedad diferencial de las funciones cpula, su posibilidad para detectar independencia entre
variables frente a otras medidas clsicas que no lo permiten como el coeficiente de correlacin lineal (que en
caso de ser cero, nicamente permite confirmar la ausencia de dependencia lineal entre las variables), e incluso
las propias medidas de concordancia a las que ya nos hemos referido en alguna ocasin en esta tesis: la Tau
de Kendall ((1.19)) y el coeficiente de correlacin de Spearman ((1.20)). Efectivamente, de acuerdo a la
definicin 5.1.7 que se presenta en la obra de Nelsen, el hecho de que X e Y sean independientes implica que
dichas medidas valgan cero, sin que la implicacin recproca sea necesariamente cierta. Slo para medidas de
asociacin que respondan a la definicin de medida de dependencia (definicin 5.3.1 de [NELSEN], y que
viene a ser una adaptacin del conjunto de propiedades discutidas en [Rnyi (1959), Schweizer y Wolff
(1981), Jogdeo (1982), Lancaster (1982)]), esta reciprocidad est garantizada.
2.
En segundo lugar observemos que, en cada iteracin del algoritmo se obtiene un nuevo proceso de error
medido respecto de la variable X (a predecir) que intenta ser explicado por las variables Y que van quedando.
Otra posibilidad alternativa sera medir el error respecto del propio proceso de error que se va obteniendo.
Es decir, en una primera iteracin tratar de predecir el error E resultante del ajuste con el modelo ARIMA. En
la segunda iteracin tratar de predecir el error E' en el que se vuelve a incurrir cuando se hace la prediccin de
E mediante cpulas, pero donde E' est medido respecto de E y no respecto de X.
3.
Finalmente comentaremos que el mtodo de ajuste implica ir midiendo constantemente relaciones entre pares
de variables: un proceso residual y una variable explicativa candidata. Para ello, se utiliza una 2-cpula que
permite evaluar dicha relacin. Sin embargo, tambin sera posible incluir simultneamente varias variables
explicativas (m) para tratar de explicar el error, siendo necesario en dicho caso utilizar una m-cpula para
estudiar la relacin. La razn por la que se propone hacer este ajuste 2 a 2 es, como ya hemos sealado en
alguna ocasin, la amplia literatura que existe para cpulas bivariantes y, en consecuencia, el amplio abanico
de funciones de este tipo de las que puede disponerse.
de
funciones
cpula
para
predecir
116
funciones cpula sirvindonos del algoritmo propuesto puede presentar algunos inconvenientes.
Las funciones cpula nos van a proporcionar buenos resultados si los pares de variables (U,V) entre las que intenta
buscar relacin son ruidosas. Es decir, conviene que no exista ningn tipo de estructura dentro de la propia variable y
por tanto que no exista dependencia temporal, pues en dicho caso, la relacin no quedara establecida nicamente entre
U y V, sino que participara una tercera variable T, el tiempo.
En el captulo 7.3 abordaremos con todo lujo de detalles el tratamiento de la relacin demanda de gas/temperatura
mediante funciones cpula. En concreto, analizaremos la dependencia entre la variable de error de un modelo ARIMA
ajustado a la demanda de gas en Madrid y la temperatura mxima registrada en uno de los observatorios de la provincia.
Segn acabamos de ver, habremos de evitar que cada una de estas variables dependa de su pasado, es decir:
El proceso de error no debe estar correlado con su pasado. Por ello, tomaremos el proceso de error obtenido
una vez ajustada la parte de medias mviles del modelo ARIMA que elimina esta posible correlacin. Adems,
la magnitud del error no debe depender de la tendencia: a medida que pasa el tiempo el valor de la serie crece y
as tambin la magnitud del error (pero no en porcentaje). Por ello, utilizaremos errores medidos en trminos
porcentuales.
Es preciso eliminar la doble dependencia temporal asociada a la variable climtica. Por un lado, la temperatura
de dos das consecutivos acostumbrar a ser parecida, es decir, la de un da ser similar en lneas generales a la
del da anterior (AR(1)). Por otro lado, la temperatura depender de la estacin del ao en la haya sido medida
(en invierno sern bajas y en verano altas). Para eliminar dichas dependencias se propone utilizar por ejemplo
el incremento climtico de un da a otro. El hecho de que la temperatura bajara un determinado nmero de
grados de un da al siguiente no justificara que se produjese otro descenso de la misma magnitud entre los dos
das posteriores. Realmente, ni siquiera existira motivo para suponer que volviera a bajar.
De esta manera, la funcin cpula tratara de ajustarse a la relacin que existe entre las variables error porcentual e
incremento climtico, ambas dos ruidosas.
Con esta explicacin pretendemos justificar que puedan encontrarse problemas al tratar de ajustar una serie temporal
desde los datos originales ya que, si bien siempre es posible considerar una variable de error porcentual que trataramos
de ir explicando, las posibles variables explicativas s podran tener una dependencia temporal.
S se piensa en un modelo ARIMA, los agentes que en ste intervienen y que podran intervenir como variables
explicativas son: el trmino constante (), los trminos autorregresivos (parte AR) y los trminos de medias mviles
(parte MA). Podra comenzarse al ajuste tratando de explicar la serie con el trmino constante () que sera la media de
la propia serie.
Automticamente, se podra obtener un primer proceso de error porcentual asociado a este ajuste que podramos
intentar relacionar mediante una cpula con la variable X(t-1) (o X(t-p) para un AR(p)) para, de esta forma, identificar
un posible efecto de tendencia. Posteriormente, para reflejar una posible estacionalidad de periodo s, se buscara la
relacin entre el proceso de error porcentual obtenido tras el ajuste anterior y la variable X(t-s) y as sucesivamente.
Sin embargo, las variables X(t-1),...,X(t-s) estn relacionadas con su propia historia, tienen estructura temporal, no son
Empleo
de
funciones
cpula
para
predecir
117
ruidosas, y por ello el resultado del ajuste mediante cpulas no resultara adecuado.
Algunos artculos en los que se ha analizado la dependencia dinmica mediante el empleo de funciones cpula son
[PATTON], [FERSCA] y [BOGASA]. En este ltimo, los autores definen la funcin de autoconcordancia como
alternativa a la funcin de autocorrelacin para medir la dependencia dinmica, dado que el autocorrelograma es
diseado nicamente para detectar un proceso lineal autorregresivo. La funcin de autoconcordancia podra permitir en
cambio detectar una estructura dinmica no lineal. Para el clculo de cada uno de los coeficientes de esta funcin, basta
hallar el ndice de Kendall o el de Spearman entre la variable y sus propios retardos. Parece lgico que si los parmetros
asociados a funciones cpula pueden ser estimados a partir del valor muestral de la Tau de Kendall o del coeficiente de
correlacin de Spearman, se utilicen estos mismos indicadores para medir posibles dependencias entre las variables que
relacionan, en vez de emplear el coeficiente de correlacin lineal que es a fin de cuentas, una medida de linealidad.
Por analoga, podramos pensar en definir una funcin de concordancia cruzada, calculada como el ndice de Kendall o
Spearman entre la variable a explicar (por ejemplo el proceso de error porcentual) y los diferentes retardos de la
variable explicativa (el incremento de la temperatura mxima). Esta funcin permitira detectar no slo la posible
dependencia entre las dos variables a relacionar mediante la cpula, sino posibles relaciones entre el valor
contemporneo de una de ellas (el error) y el pasado de la otra (los ltimos incrementos climticos): si la temperatura
ha estado bajando durante la ltima semana, el error que comete el modelo es mayor. Obsrvese que esta situacin
puede producirse sin necesidad de que ninguna de las dos variables presente estructura.
Empleo
de
funciones
cpula
para
predecir
118
Hace cientos de millones de aos, existieron en los ocanos pequeas plantas y animales marinos que, tras completar su
ciclo de vida, se fueron descomponiendo con el tiempo para terminar siendo sepultados por una capa de arena y
sedimentos. Como consecuencia de los cambios de presin y temperatura del planeta, parte de esta materia orgnica
putrefacta, filtrada entre las rocas submarinas, acab transformndose en carbn, petrleo y gas natural.
El gas natural natural se define por ello como un combustible fsil. Est compuesto en ms de un 95% por metano, un
gas integrado por un tomo de carbn y cuatro tomos de hidrgeno. El etano, el propano y otros elementos ms
pesados completan su composicin (vase ilustracin (7.1)).
Las ventajas principales del uso de gas natural desde el punto de vista medioambiental son su bajo ndice contaminante
para la atmsfera gracias al reducido porcentaje de dixido de carbono que produce en combustin, su seguridad para
ser transportado, el hecho de no ser corrosivo o su contribucin a abatir el efecto invernadero por citar algunos
ejemplos. Econmicamente destaca frente a otras fuentes de combustible como el carbn y el petrleo por su precio
competitivo, los reducidos costes de mantenimiento de los equipos de combustin y su alto grado de eficiencia desde su
extraccin hasta su consumo final (9 de cada 10 unidades extradas del suelo son utilizadas).
Desde profundos depsitos subterrneos formados por roca porosa, el gas natural impulsado por su propia presin es
extrado hoy da mediante pozos de perforacin y conducido a la superficie por medio de ductos. Una vez procesado por
centrales de recoleccin el gas es comprimido y preparado para su distribucin.
- 119 -
El gas circula por un entramado de tuberas de acero denominado gasoducto, manteniendo unos altos niveles de presin
que suelen ser normalmente de 72 bares para redes de transporte y de 16 para redes de distribucin siendo en las
estaciones de regulacin y medida en las que se lleva a cabo este cambio de presiones. Cuando la distancia a recorrer
por el gasoducto es muy grande, se intercalan en su recorrido estaciones de bombeo que pueden ser bien yacimientos o
bien puertos de mar a los que llegan buques denominados metaneros (vase ilustracin (7.39)) que lo transportan de
forma licuada a muy alta presin.
Con el objetivo de construir una red de gasoductos que recorra toda la pennsula ibrica (vase ilustracin (7.2)), el
Ministerio de Industria public un decreto el 23 de Marzo de 1972 creando Enags, la empresa nacional de gas.
El gas que llega a la pennsula procede de Noruega y desde Argelia a travs del gasoducto Magreb-Europa (vase
ilustracin (7.3)) siendo este ltimo, de acuerdo a los datos presentados en [PEMEX], uno de los diez pases con
mayores reservas del mundo (vase ilustracin (7.2)).
En la actualidad, Enags es la principal empresa transportista espaola de gas y entre sus activos, cuenta con 7.538 km
de gasoductos de alta presin, tres plantas de regasificacin (Barcelona, Cartagena y Huelva) y la propiedad o gestin
de los almacenamientos de gas natural (vase [ENAGAS]). Una de sus principales funciones es disear un plan de
operaciones a travs del cual pueda garantizar la continuidad y seguridad del suministro de gas natural y la correcta
coordinacin entre los puntos de acceso, los almacenamientos, el transporte y la distribucin teniendo en cuenta las
necesidades y caractersticas de cada uno de sus tipos de clientes tanto dentro del mbito industrial como del domstico.
En el sector industrial los clientes pueden ser desde grandes consumidores como son las centrales de generacin
elctrica o las centrales de cogeneracin, hasta empresas medianas y pequeas que lo emplean en funcin de sus
caractersticas (siderurgia, qumica, azulejeras, celulosa y papel, cemento, etc.). En el sector domstico encontramos un
grueso constituido por millones de clientes residenciales que utilizan el gas como combustible para la calefaccin, para
la cocina o para la obtencin de agua caliente.
Ilustracin 7.2: Red de gasoductos de Enags (a Diciembre de 1996) y datos de reservas estimadas de gas natural
- 120 -
El comportamiento de la demanda de cada segmento es bastante diferente dado que uno y otro estn influenciados por
agentes distintos. El sector industrial tiene un patrn de consumo muy marcado por el efecto del calendario de acuerdo
al cual, la actividad de las industrias acostumbra a ser mayor durante los das laborables que durante los das festivos,
los puentes o los periodos vacacionales. En el caso domstico, si bien este efecto est obviamente presente pues la
presencia o no de las personas en sus hogares puede depender del carcter laboral del tipo de da, existe un claro
condicionante adicional que es el efecto derivado del comportamiento climtico durante los meses invernales.
La influencia de estos agentes resulta adems diferente en funcin de la zona geogrfica en la que se ubica el usuario.
Para Enags, el conocimiento de los perfiles que identifican a sus distintos clientes es un aspecto clave de cara a
elaborar su plan de operaciones. Esto implica, adems de saber por supuesto el nmero de ellos que tiene de cada tipo,
conocer cmo va a variar este nmero en el futuro, el efecto de los planes de expansin de las distribuidoras que van a
permitir el acceso al consumo domstico a nuevas poblaciones, la variacin de los hbitos de consumo en funcin del
progreso y la mejora del nivel de vida, etc.
La gestin del plan de operaciones es una tarea muy compleja que se realiza no slo de acuerdo a los recursos de gas
disponibles sino tambin a la demanda prevista que hay que abastecer en funcin de las necesidades y caractersticas de
cada tipo de cliente y en funcin adems del cumplimiento de los compromisos contractuales tanto con las empresas
suministradoras como con las distribuidoras y comercializadoras.
La aparicin de las comercializadoras de gas ha tenido lugar a raz de la reciente liberalizacin del mercado del gas en
Espaa (desde Enero de 2003). Segn la nueva normativa, un cliente no tiene porqu mantenerse en el mercado
regulado que se rige de acuerdo a las tarifas fijadas por el gobierno, sino que puede comprar directamente en dicho
mercado, elegir una comercializadora a la que pague una tarifa de menor coste o establecer contratos bilaterales.
El crecimiento del nmero de comercializadoras, unido al esperado incremento del consumo y a otro factor
determinante como es la capacidad limitada de la red actual hacen prever a Enags dificultades en un futuro prximo a
la hora de poder elaborar su programacin. Resulta por ello imprescindible para el departamento de operaciones
disponer de unas buenas herramientas de prediccin de la demanda a distintos horizontes para poder adaptarse de
manera adecuada a las necesidades de suministro a medio (1-3 aos) y corto plazo (da/hora). Cuanto mayor sea la
bondad de las predicciones que proporcionen estos sistemas, ms fielmente se ceirn a la realidad los programas y
planes de gestin citados y por tanto ms beneficiosos resultarn los resultados de la operacin.
- 121 -
Empezaremos tratando la prediccin de la demanda de gas a medio plazo con detalle diario. El conocimiento de la
demanda con la suficiente antelacin va a permitir el diseo y la construccin de las infraestructuras que deben existir
para poder prestar el servicio. La construccin de un gasoducto, de una estacin de compresin que provee la energa
necesaria para hacer llegar el gas natural a lo largo y ancho del territorio nacional, de una planta de regasificacin
(vase ilustracin (7.4)), o de cualquiera de las instalaciones que participan en el suministro del gas, es un proceso
largo y complejo condicionado por las exigencias del entorno social. Es necesario cumplir con unos compromisos
medioambientales, una serie de requerimientos de las autoridades autonmicas y locales, tener en cuenta los derechos
de los propietarios que se puedan ver afectados de manera temporal o definitiva, etc. La duracin de este periodo en el
que se concreta el proyecto, se hacen las correspondientes tramitaciones administrativas y se hace la ejecucin
definitiva suele ser de entre 3 y 4 aos.
Aunque pueda pensarse que slo tiene sentido medir la prediccin a tan largo horizonte en unidades mensuales
(demanda mensual), existe una razn que justifica conocer el detalle diario de la prediccin. Se trata de evaluar si la
capacidad del gasoducto es suficiente para soportar en un da cualquiera del futuro la demanda del colectivo industrial y
domstico asociado a una determinada poblacin dado que en funcin de ello se plantear la necesidad de expandir la
infraestructura existente. La herramienta de prediccin a medio plazo debe permitir as no slo conocer el valor diario
de demanda que cabe esperar en cada uno de los dos o tres prximos aos en funcin de la tendencia observada en el
histrico, sino adems valorar el impacto de una ola de fro que se prolongue durante varios das, pues es un
condicionante extremo de este tipo bajo el que se podr esperar un valor mximo (denominado pico en la
terminologa energtica) para la demanda de gas. Es en este contexto de la simulacin donde hacen su aparicin las
funciones cpula.
- 122 -
Existen diferentes planteamientos ante un problema de prediccin de picos de demanda de gas o electricidad a medio
plazo. Algunas buenas referencias las podemos encontrar en el captulo 2 de la tesis de [GUTIER]. Entre ellas se cita
por ejemplo el empleo de modelos economtricos en la lnea de los desarrollados por Spann y Beauvais (1977) en los
que el pico de demanda se expresa como una combinacin lineal de una componente base y otra que refleja la
influencia de las variables climatolgicas:
PD=T (7.1)
siendo PD el pico de demanda, el comportamiento bsico de la demanda cuyo crecimiento viene justificado por la
influencia de variables econmicas y demogrficas y donde T es una funcin de los posibles agentes meteorolgicos
que puedan condicionar el sistema.
Otra metodologa comnmente utilizada para predecir picos de demanda energtica (electricidad o gas) son los modelos
ARIMA y a modo de ejemplo se menciona en [GUTIER] el trabajo de Abraham,B.(1983) para la prediccin de
demanda elctrica en el estado de Iowa (Estados Unidos). La complejidad de estos modelos, de los que hablaremos ms
adelante, depender normalmente de la manera de reflejar en ellos el efecto de las variables climticas.
La metodologa que vamos a proponer combina en cierto modo estas dos que hemos citado. Partiendo de la base de que
un pico de demanda no es ms que una desviacin extrema del comportamiento bsico de la demanda justificada por
una desviacin extrema del comportamiento bsico de unos agentes climatolgicos, plantearemos un modelo
autorregresivo para predecir el consumo en condiciones normales de temperatura y posteriormente llevaremos a cabo un
anlisis mediante funciones cpula para simular posibles valores de la demanda de gas ante situaciones meteorolgicas
especialmente desfavorables. Es decir, en la lnea del modelo de Spann y Beauvais, predeciremos el pico de consumo de
acuerdo a una estimacin del comportamiento bsico o normal de la demanda y a otra estimacin mediante cpulas de
sus posibles desviaciones ante adversidades climticas. Es precisamente la inclusin de este tipo de funciones la que
aporta un carcter ms innovador a la metodologa propuesta.
Las cpulas se mueven habitualmente en el mbito de la simulacin, del condicionamiento a escenarios configurados
por el valor supuesto para ciertas variables explicativas ante la imposibilidad de tener un conocimiento ms preciso de
ellas, como es el caso de los datos diarios de temperatura a 1,2 3 aos. Su utilizacin no es tan comn en problemas de
prediccin a corto plazo en los que la fiabilidad de dichos valores es tal, que pueden ser considerados casi reales en vez
de hipotticos y donde tampoco existe margen de maniobra para plantearse posibles realidades alternativas. A pesar de
ello, en el captulo 7.3 s abordamos el problema de la prediccin a corto plazo apoyndonos en el empleo de cpulas, si
bien consideramos que, dada la gran cantidad de tcnicas que existen para tratar con ciertas garantas este problema, el
potencial de estas funciones puede no resultar siempre tan determinante.
Como paso previo al empleo de las funciones cpula es necesario predecir el comportamiento bsico de la demanda. La
tcnica que utilizaremos viene a ser una extensin de la que habitualmente se utiliza en la modelizacin de este tipo de
series a corto plazo: la metodologa Box-Jenkins de la que ya hemos hablado en el apartado 6.1. La experiencia
demuestra que esta metodologa fundamentada en el empleo de modelos ARIMA es la ms adecuada para predecir a un
- 123 -
horizonte de pocos das frente a otras alternativas como por ejemplo las redes neuronales, las cuales, salvo raras
excepciones, no conducen a mejores resultados. La razn fundamental es que los modelos ARIMA permiten identificar
fcilmente rasgos muy caractersticos de una serie de demanda de gas (o electricidad) como son su tendencia, su
variabilidad, la influencia del calendario a travs de un anlisis de intervencin o el efecto de variables climticas a
travs de modelos de funcin de transferencia (vase apartado 7.3.2.1).
A medio plazo, 1 o 2 aos, se considerara impensable plantear una prediccin diaria con modelos ARIMA ya que
stos son tiles para hacer predicciones para un horizonte temporal corto, entre otras cosas porque el orden asociado a la
parte MA raramente ser superior a 7 (si tiene una estacionalidad semanal), con lo que la capacidad de que la prediccin
sea corregida en funcin de los errores que el modelo comete (una de las principales caractersticas de un ARIMA
reflejada por sus componentes de medias mviles) se perder a partir de dicho horizonte. Otra razn obvia es la
imposibilidad de disponer de previsiones diarias de temperatura fiables a tan largo plazo: el INM no proporciona ms de
10 (y no garantiza la calidad de las previsiones a partir del cuarto da), y algunos otros proveedores (Accuweather.com)
facilitan un mximo de 15.
Lo ms comn para un horizonte anual es realizar la prediccin mensual en funcin de un histrico construido a ese
nivel de detalle, es decir, por meses. De esta forma, el nmero de unidades temporales a predecir se sita entre 12 y 24,
una cantidad razonable pues el posible trmino MA(12), en caso de que exista una estacionalidad anual, garantizara la
correccin de las predicciones realizadas para los doce primeros meses, algo ms sensato que una semana. En esta caso,
el efecto del calendario, de la Semana Santa mvil (que puede aparecer en distintos meses) y de los posibles aos
bisiestos son recogidos mediante variables que cuantifican el nmero de das laborables del mes, la longitud del mismo
(para los bisiestos), etc. Los modelos X11 y X12 que permiten hacer referencia a este tipo de efectos son realmente
ARIMA's especialmente diseados para el tratamiento de series mensuales.
Sin embargo, de acuerdo a la problemtica que hemos planteado, el inters de la compaa es disponer de un patrn
diario de la demanda para los dos prximos aos pues ste le permite intuir la poca del ao (quincena o mes) en la que
puede esperar un pico de demanda y sobre l, suponer unas condiciones climatolgicas especialmente adversas para
conocer cul es el mximo diario que podra llegar a alcanzarse en el futuro planteado. Si bien una posibilidad podra
ser desagregar la prediccin mensual en unidades diarias (vase [GIDEDU]), nos proponemos aprovechar un
planteamiento de prediccin a corto plazo y hacer una extrapolacin a un horizonte mayor. En la metodologa que
vamos a desarrollar, distinguiremos las siguientes fases:
1.
- 124 -
2.
Construccin de un modelo autorregresivo (AR) que permita hacer una prediccin a medio plazo en
condiciones normales de temperatura.- Dicho modelo debe identificar y extrapolar a un horizonte de 1 o 2
aos los rasgos ms caractersticos de este tipo de series, que son:
La estacionalidad es una propiedad presente a lo largo de todo el ao y por tanto extrapolable. Bien es
cierto que el distanciamiento entre lo que llamaremos das intrasemanales y fines de semana puede
variar en funcin del mes o estacin del ao.
El efecto calendario referido a festividades aisladas y periodos vacacionales es identificable a partir del
histrico, conocido de antemano, y por tanto tambin transferible a cualquier da del horizonte de 2 aos
que se contempla.
El efecto climtico es despreciable puesto que al haber construido un histrico en condiciones normales de
temperatura, podemos suponer que la prediccin estar hecha tambin en esas mismas circunstancias.
Hemos dejado para el final dos de los aspectos ms importantes de la serie, la tendencia y la variabilidad que, a
diferencia de las componentes anteriores, no pueden ser tratados por extrapolacin directa de un modelo
diseado para una prediccin a corto plazo.
La tendencia no puede ser establecida nicamente a partir de los ltimos datos pues las predicciones
quedaran estancadas en un nivel fijo (aqul en el que se muevan los ltimos datos). Por ello, se utilizar
como input del modelo una variable que permita recoger la periodicidad anual de la serie. Es este ciclo
anual el que va a permitir expandir las propiedades citadas (calendario, estacionalidad, etc.) a un
horizonte mayor. La construccin de esta variable Ciclo se har extrayendo la seal de baja frecuencia
asociada a la serie mediante una tcnica de suavizado de curvas como por ejemplo las wavelets o los
splines. El comportamiento suave de estas seales es fcilmente extrapolable a varios aos, pudindose
utilizar por tanto como una variable explicativa del modelo autorregresivo. Es sobre esta curva sobre la
que van a incorporarse la estacionalidad y el efecto del calendario.
La variabilidad puede venir inducida como hemos comentado por diferencias en la dispersin entre das
laborables y festivos pertenecientes a una misma semana en distintas pocas del ao. De igual manera que
el modelo autorregresivo en ausencia de la componente Ciclo seguira movindose en el nivel marcado
por los ltimos datos reales del histrico, as lo hara tambin su variabilidad. Para corregir esta
circunstancia y permitir que la variabilidad del modelo cambie a lo largo del ao, introduciremos variables
- 125 -
dummy's que sean capaces de reflejar los rangos de variacin diferentes que pueden esperarse para cada
mes entre los das laborables y los festivos, puentes y fines de semana.
El modelo quedar ajustado cuando consigamos reflejar en una ecuacin todas estas componentes. A partir de
ellas, ser posible realizar la prediccin diaria a 1 o 2 aos en condiciones normales de temperatura.
Obsrvese que en todo momento hemos hablado de modelos autorregresivos (AR), no teniendo sentido la
inclusin de una parte de medias mviles que pudiera corregir la prediccin en funcin de los errores
cometidos. La parte MA del modelo es la que justifica en mayor medida el empleo de los modelos ARIMA
para el tratamiento a corto plazo pues una prediccin tiene en cuenta el error que cometi recientemente (el
ltimo da o el mismo tipo de da de la semana pasada) y en funcin de l se corrige de manera que, si la
prediccin se iba quedando por debajo del dato real, se hace una correccin a la alza y viceversa. A medio
plazo, como decimos, esta correccin carece de sentido.
3.
Simulacin del valor esperado para la demanda ante diferentes escenarios configurados por el valor de
las variables de temperatura.- El ltimo paso es simular la desviacin esperada para la demanda construida,
ante posibles incrementos y decrementos de la temperatura sobre el nivel establecido. En este contexto,
utilizaremos las funciones cpula.
Construiremos una muestra de pares cuya primera componente (X) sea la diferencia entre el dato de
temperatura real y el que ha sido supuesto como normal (para el mes al que pertenece el dato); la segunda
componente (Y) ser la diferencia porcentual entre el dato histrico real de demanda y el que forme parte del
patrn construido en condiciones estndares. La razn de considerar la diferencia porcentual en lugar de
absoluta, es hacer que el par de variables no dependa del tiempo, una circunstancia que como ya hemos
sealado y ms adelante recalcaremos, no es aconsejable a la hora de emplear con libertad las cpulas.
As, buscaremos la cpula C que mejor refleje la relacin de dependencia entre X e Y, es decir, la que mejor se
ajuste a los pares (F(X),G(Y))=(U,V) siendo F y G las distribuciones marginales de X e Y respectivamente. La
relacin entre ambas variables no es lineal y adems presenta un comportamiento difcil de capturar en
situaciones extremas. Veremos que, aquellas cpulas que permiten enfatizar la dependencia entre sucesos
cola, son especialmente apropiadas para capturar este tipo de relacin.
Una vez determinada C, su condicional C1, nos posibilitar hacer simulaciones de valores de V (de Y) a partir
de valores propuestos para U (para X). Esto nos va a permitir conocer el incremento porcentual que se puede
esperar sobre la demanda cuando se supone una variacin en grados del valor normal de temperatura para un
mes concreto. Gracias a ello y teniendo en cuenta el mes en el que se presentar el pico invernal de acuerdo a
la prediccin realizada en condiciones normales de temperatura, podremos simular desviaciones porcentuales
de ese valor ante una bajada extrema de temperatura (la mxima cada recogida sobre el histrico). Tomando la
media o mediana de dichas simulaciones y aplicndola sobre el pico invernal, podremos establecer el valor que
cabra esperar para la demanda ante una bajada de temperatura extrema. Pero adems, el conocimiento de la
- 126 -
distribucin de las simulaciones realizadas y por tanto de sus colas, nos dar una idea del mximo valor que se
puede llegar a esperar y evaluar el riesgo de que ste se presente.
De acuerdo al criterio establecido en el apartado 2.5.5, seleccionaremos aquella cpula que proporcione,
respecto de una particin determinada, un menor valor del estadstico de Pearson (veremos que es una cpula
que enfatiza la relacin entre sucesos extremos) y compararemos los resultados que proporcione con aquellas
otras que son resultado de interpolar la subcpula que para dicha particin optimiza el valor de dicho
estadstico (y que son objeto de estudio de esta tesis). El decantarnos por la familia conocida o por la
construida mediante tcnicas de interpolacin depender de la calidad de las predicciones realizadas (vase
apartado 2.5.6) contrastando para ello, la distribucin de la demanda real y esperada (propuesta por cada
cpula) ante una misma situacin climtica extrema.
Ya hemos mencionado que enfocaremos el tratamiento a medio plazo de este tipo de series como una extensin de un
estudio a corto plazo del que hablaremos en el apartado 7.3 y para el que la mejor solucin viene dada por el empleo de
modelos ARIMA. En este tipo de modelos, el efecto del calendario es reflejado mediante variables de intervencin y la
influencia de la meteorologa a travs de funciones de transferencia, siendo el ajuste de estas ltimas el que ha
permitido determinar las variables que definirn el concepto de normalidad climtica. El hecho de que un alto
porcentaje de la demanda de gas en Madrid proceda del segmento residencial (por encima del 90%), justifica que se
haya contemplado en principio su relacin con diferentes tipos de agentes climticos. Los histricos de stos han sido
proporcionados por la red SYNOP del Instituto Nacional de Meteorologa (INM) para un total de cuatro estaciones de
medida: Barajas, Cuatro Vientos, Getafe y el Puerto de Navacerrada. Estas variables son:
Precipitacin acumulada en 24 horas (de 7:00 a 7:00 horas) medida en litros por metro cuadrado.
Nubosidad (a las 6:00, a las 12:00 y a las 18:00 horas) medida como el nmero de octavos de cielo cubierto.
Velocidad del viento (a las 6:00, a las 12:00 y a las 18:00 horas) medida en metros por segundo.
Humedad relativa (a las 6:00, a las 12:00 y a las 18:00 horas) medida porcentualmente.
- 127 -
Tras contrastar los resultados obtenidos con diferentes modelos ARIMA, en los que el efecto de la meteorologa ha sido
reflejado de maneras distintas, hemos llegado a estas conclusiones:
1.
2.
No proporciona mejores resultados la inclusin de una variable (temperatura, nubosidad,) obtenida como
agregacin ponderada de las variables de su mismo tipo recogidas en cada uno de los observatorios. Es decir,
la consideracin de la variable temperatura mxima de Barajas proporciona un mejor ajuste del modelo y unos
errores de prediccin ms bajos que la variable de temperatura mxima que surge como resultado de la
ponderacin (en funcin de su grado de dependencia de la variable demanda) de las temperaturas mximas de
cada uno de los 4 observatorios.
3.
La incidencia de las variables precipitacin acumulada, nubosidad, velocidad del viento y humedad relativa
resulta ser insignificante para el modelo matemtico de prediccin a corto plazo, ya que el efecto de estas
variables queda absorbido, casi en su totalidad, por las variables de temperatura. Dada la escasa mejora que
sobre el error medio de prediccin aportan estas variables y de cara a simplificar el modelo (el principio de
parsimonia establece la conveniencia de modelos sencillos), se ha despreciado la inclusin de las mismas.
4.
Entre todas las variables de temperatura contempladas, han sido la mxima de Barajas y la mnima de Cuatro
Vientos las que, por su mayor grado de significatividad y por proporcionar mejores resultados de prediccin,
han sido incluidas finalmente en el modelo.
De esta manera la influencia de la meteorologa ha sido reflejada en el modelo ARIMA, del que como decimos
hablaremos en el apartado 7.3, a travs de funciones de transferencia asociadas a las temperaturas de Barajas y Cuatro
Vientos. Es ste el motivo por el cual hemos establecido el concepto de climatologa normal en funcin de los valores
recogidos para dichas estaciones. De ellas, es la variable de temperatura mxima la que presenta una relacin ms clara
con la demanda y la que posee mayor poder predictivo puesto que el valor de temperatura mnima suele darse a altas
horas de la madrugada lo cual no suele condicionar de manera determinante el mayor uso de la calefaccin. Por ello,
tampoco perderemos mucha rigurosidad en el estudio si simplificamos an ms y establecemos el concepto de
normalidad meteorolgica en funcin nicamente de la temperatura mxima de Barajas. Una de las razones
fundamentales que nos ha llevado a tomar esta decisin es facilitar la labor de simulacin de valores de demanda a
partir de una nica variable en vez de dos, sirvindonos para ello de una 2-cpula y no de una 3-cpula para las que
Aplicacin prctica: Prediccin de la demanda de gas natural
- 128 -
Tabla 7.1: Parmetros de localizacin de la temperatura mxima de Barajas por meses: temperaturas normales
Llegados a este punto vamos a hacer una observacin que nos llevar a hablar de datos de demanda normales asociados
a diferentes tipos de da. Como ya hemos comentado en alguna ocasin, la serie tiene una acentuada estacionalidad
semanal. Esta periodicidad a corto plazo viene marcada fundamentalmente por la cada brusca de demanda que se
produce el sbado respecto al viernes, el domingo respecto al sbado y el incremento del domingo al lunes que le
permite recuperar su nivel. Dicho de otra manera, si los sbados y domingos estuvieran al nivel del resto de los das de
la semana, no existira posiblemente componente estacional. Esta apreciacin queda patente en el siguiente grfico.
- 129 -
Ilustracin 7.6: Distorsin del patrn estacional de demanda en funcin del efecto de la temperatura en invierno
- 130 -
El grfico de la izquierda muestra un fin de semana (12 y 13 de Enero) cuyo nivel es demasiado alto. Esto puede venir
justificado porque el periodo anterior era vacacional (Navidad) y en consecuencia el nmero de habitantes en Madrid se
podra esperar que fuera menor (y por tanto el consumo domstico). Sin embargo, lo que ms llama la atencin es que el
valor de demanda del domingo da 13 se sita incluso por encima del da anterior (sbado 12) cuando por lo general
siempre ser inferior la demanda de un domingo (por la repercusin industrial de un da festivo) a la de un sbado.
A partir de los valores de temperatura resulta ms sencillo entender esta circunstancia dada la cada de temperatura que
se produce el domingo. Tambin es significativo el descenso climtico de la semana del 7 con respecto a los ltimos
das de la anterior.
El grfico de la derecha es an ms explcito. El patrn estacional es casi imposible de identificar y se aprecia muy
claramente la relacin de dependencia entre demanda y temperatura pues, para un mismo periodo, el abombamiento de
ambas curvas se abre en sentidos opuestos. Obsrvese tambin que el valor del lunes 27 es incluso inferior al del
domingo anterior, algo que puede llegar a entenderse a la vista del calor que lleg a hacer (pico de temperatura) en
comparacin con las semanas previas.
Los siguientes grficos van asociados a periodos veraniegos. En ellos se puede reconocer fcilmente la estacionalidad
semanal con independencia de las posibles inclemencias del tiempo, quedando los das laborables claramente
diferenciados de los fines de semana.
Ilustracin 7.7: Independencia del patrn estacional de demanda respecto del efecto de la temperatura en verano
En el grfico de la izquierda, vemos que el ltimo lunes de Julio (da 31) la demanda cae un poco por debajo de la que
cabra esperar para un lunes a tenor de lo que se observa en otros de ese mismo mes. En esta ocasin el motivo es el
comienzo del periodo vacacional de Agosto que pudo provocar una salida masiva de personas de la capital,
repercutiendo tanto en el sector industrial como en el domstico (uso regular del gas para cocina, higiene, etc.).
El grfico de la derecha es la prolongacin del anterior (va asociado al mismo ao) y muestra por tanto el periodo
vacacional del que hablamos. A pesar de que se respeta el patrn estacional, podemos encontrar un par de anomalas los
das 14 y 15 de Agosto, lunes y martes en que el nivel de la demanda no es el propio de un da laborable, rompindose
el patrn estacional. Este hecho queda justificado si tenemos en cuenta que el da 15 de Agosto es festivo (da de la
Virgen) con lo que la actividad industrial disminuy. Su situacin en la semana hace comprensible que se produzca el
- 131 -
efecto puente (lunes 14) siendo ste el motivo de que no se recupere dicho da el nivel caracterstico de los lunes.
En resumen, el nivel normal de la demanda para un mes estar condicionado por el tipo de da al que nos estemos
refiriendo: los domingos, los sbados o los das laborables (por lo general de lunes a viernes). Desde un punto de vista
analtico se puede confirmar esta intuicin, estableciendo un contraste de igualdad de medias de la variable demanda
respecto de siete clases que van a ser los das de la semana. Vamos a plantear el contraste de Kruskal-Wallis (vase
Anexo IX) que es una alternativa no paramtrica al mtodo ANOVA y que no precise de validar las hiptesis de
homocedasticidad y normalidad que presupone este ltimo. As, no es necesario ver que el comportamiento de la
demanda se reparte por tipo de da de acuerdo a una distribucin normal, ni tampoco importa el hecho de que la
variabilidad de los datos cambie con el tiempo (heterocedasticidad que, como veremos, si es una de las propiedades de
nuestra serie). Respecto de la tendencia de los datos, si bien es verdad que la media cambia con el tiempo, lo hace de
manera compensada para todas las clases, es decir, al crecer la media de los lunes de un ao a otro tambin lo hace para
el resto de das de la semana y no existe por tanto necesidad de eliminar la tendencia implcita a la serie a la hora de
llevar a cabo el contraste.
Plantearemos el test respecto de los 7 niveles que puede tomar la variable da de la semana (L, M, X, J, V, S, D).
H 0 : L=M = X = J =V =S = D
H 1 :i j para algunos i , j{ L , M , X , J , V , S , D }
El primer resultado al que llegamos es:
Tabla 7.2: Contraste de igualdad de medias de la variable demanda respecto de los 7 das de la semana
El contraste lleva a rechazar la igualdad entre las medias respecto de los 7 tipos de da. Se puede intuir por las
puntuaciones obtenidas que son el tipo de da sbado y el tipo domingo (puntuaciones ms bajas) los que estn
provocando esta desigualdad. Efectivamente se puede comprobar que si establecemos el contraste entre los sbados o
los domingos y cualquiera de los das intrasemanales el resultado del contraste volvera a ser de rechazo. Por el
contrario, cuando se plantea el contraste exclusivamente de estos ltimos entre s, no se puede rechazar la hiptesis de
igualdad.
Aplicacin prctica: Prediccin de la demanda de gas natural
- 132 -
Tabla 7.3: Contrastes de igualdad de medias de la variable demanda respecto de diferentes grupos de das
De igual manera se establece la desigualdad entre sbados y domingos. El contraste al 95% a ellos asociados, tambin
conduce a rechazar la igualdad entre las medias.
Tabla 7.4: Contrastes de igualdad de medias de la variable demanda entre sbados y domingos
Esto nos lleva a considerar en principio 3 tipos de das: domingos, sbados e intrasemanales (resto).
An as, hemos considerado conveniente diferenciar el comportamiento de los lunes y viernes del resto de los das
laborables. La justificacin viene a ser que, en dichos das, el consumo industrial suele ser ligeramente inferior
(maquinaria que empieza a arrancar el lunes o deja de funcionar el viernes a medioda) e incluso el domstico
acostumbra a caer por debajo de su nivel habitual (usuarios que desde el viernes al medioda abandonan su residencia de
trabajo para marchar a su pueblo o a su casa de la playa o la sierra, o estos mismos que vuelven el propio lunes
directamente a trabajar sin pasar por su hogar). Adems, ambos tipos de das estn sujetos a posibles efectos puente
(si el martes o el jueves eran festivos). Tras los correspondientes contrastes analticos se puede comprobar que,
efectivamente, la inclusin de los lunes o los viernes junto con los martes, mircoles y jueves proporciona un valor
menor del p-valor (0.61 y 0.89 respectivamente) que si se contemplaran nicamente estos tres ltimos (0.95).
- 133 -
Tabla 7.5: Contrastes de igualdad de medias de la variable demanda respecto de grupos de das intrasemanales
Adems, el test planteado nicamente sobre las clases lunes y viernes no permite rechazar la igualdad entre este tipo de
das, lo cual nos permite considerar la nueva agrupacin sugerida.
Tabla 7.6: Contrastes de igualdad de medias de la variable demanda entre lunes y viernes
Finalmente, obsrvese que hemos hablado indistintamente de das laborables e intrasemanales cuando algunos de
stos, como hemos visto presentan un comportamiento completamente diferente si caen en puente o en festivo. En el
grfico de la derecha de la ilustracin (7.7) podemos ver que el nivel de una festividad es equiparable al de un domingo
(de hecho ste en s es un festivo) y el de un puente (no todo el mundo lo hace y por tanto no debe ser englobado en la
clase de los festivos) al de un sbado. De acuerdo a esta consideracin final, vamos a distinguir cuatro tipos de das:
- 134 -
Tipo IV: Martes, Mircoles y Jueves que no sean ni festivos ni puentes (estos das slo podran dar lugar al
puente de la Constitucin comprendido entre los festivos 6 y 8 de Diciembre).
Para construir el histrico de demanda en condiciones normales de temperatura necesitaremos para cada mes de cada
ao del histrico, algunos datos asociados a cada uno de los tipos de da que se hayan dado en dichas condiciones.
Se puede entender entonces el riesgo que se corre al establecer como normal todos aquellos datos que se encuentren
en un determinado intervalo alrededor del valor de referencia (dado por la mediana de los 7 aos de datos diarios de
temperatura de los que se dispone). Si por ejemplo la temperatura mxima mediana de Febrero fuese de 13.6C, y
considersemos como normal todo dato que estuviese entre Q1=10.9C y Q3=16.4C, la mala suerte nos podra deparar
un mes de Febrero atpico en nuestro histrico que presentase pocos registros en dichas condiciones y en concreto,
ninguno para alguno de los tipos de da ms reducidos. Por ejemplo, la ausencia de festivos en Febrero simplificara el
grupo I a los cuatro domingos pudiendo ser que ninguno de ellos registrase datos en condiciones normales.
En consecuencia, no tendramos muestra de datos festivos en dichas condiciones para estimar cul fue la demanda que
debi esperarse un festivo normal de Febrero de un ao concreto. Por ello, vamos a establecer el dato de demanda
normal asociado a un tipo de da de un mes y ao determinado como la media ponderada de todos los datos de ese
mismo mes y ao que comparten el mismo grupo de da. La ponderacin se establecer en funcin de la distancia entre
el dato real de temperatura mxima y la mediana que sirve de valor representativo del mes. Datos a menor distancia del
valor mediano del mes (asociados por tanto a temperaturas ms normales) tendrn mayor peso en el clculo de la
media que datos ms alejados. El valor obtenido para cada grupo de da como resultado de esa media ponderada es
propuesto como valor normal de la demanda para todos los das del mismo tipo de ese ao y mes. Se harn algunas
correcciones a posteriori de acuerdo al conocimiento que se tiene de las propiedades que deben guardarse entre los
distintos tipos de da:
1.
Si en un mismo ao y mes, el nivel medio del grupo III (lunes y viernes) es superior al del grupo IV (martes,
mircoles y jueves), se sustituye el valor del tercero por el del cuarto.
2.
Si en un mismo ao y mes, el nivel medio del grupo I (domingos y festivos) es superior al del grupo II
(sbados y puentes), se sustituye el valor del primero por el del segundo.
No ha sido preciso corregir ningn otro tipo de circunstancia ms difcil de presentarse como por ejemplo que el nivel
medio del grupo I o II estuviese por encima del de alguno de los otros grupos (III o IV) si bien en dicho caso, se hubiera
hecho igualmente la correspondiente modificacin de valores.
Vamos a presentar un grfico por cada uno de los tipos de meses en el que comparamos el dato de demanda as
- 135 -
construido (en rojo) con el dato original (en azul). Respecto de los meses estrictamente veraniegos, dado que los datos
no se encuentran condicionados por las variables de temperaturas, podramos considerar que ellos mismos son los que
se presentaron en condiciones normales. Sin embargo, aplicaremos tambin a estos meses el mtodo de normalizacin
del histrico y comprobaremos que ambos datos (el real y el que supuestamente se hubiera presentado en condiciones
normales) estn muy prximos.
No es slo una cuestin de consistencia con la forma de proceder para el resto de los meses, sino tambin como medida
de precaucin ante la existencia de alguna anomala climtica que pudiese justificar contra todo pronstico el mayor uso
de gas durante estos periodos (un final de Septiembre muy fro que anticipa la llegada del invierno). A modo de
ejemplo, haremos referencia a la existencia de una ola de fro inesperada en Mayo de 2003 que se manifest entre los
das 6 y 7 con mximas alrededor de 13C y mnimas entorno a los 6C (frente a los valores normales para dicho mes de
23C y 11C respectivamente). Como consecuencia, se produjo un incremento descomunal de la demanda en un mes en
el que el uso de la calefaccin parecera del todo injustificado.
Ilustracin 7.8: Comparativa entre el histrico real de demanda y el construido en condiciones normales de
temperatura durante los meses de verano
Para los meses asociados al resto de las estaciones del ao (de Octubre a Abril), se han tomado tambin distintos tipos
de meses y aos, con la intencin de dar una idea evolutiva desde el mes que marca el comienzo del histrico (Abril de
1997) hasta el ltimo que sirve de entrada al conjunto de entrenamiento (Marzo de 2004). El resultado es:
- 136 -
Ilustracin 7.9: Comparativa entre el histrico real de demanda y el construido en condiciones normales de
temperatura durante los meses de invierno
A la vista de ellos, podemos hacer una serie de observaciones:
La diferencia entre el dato real y el que consideramos que se presenta en condiciones normales de temperatura
es mayor que en los meses de verano. El patrn estacional real tiende a perderse con frecuencia.
Aunque parezca contradictorio, estas diferencias no son mayores en los meses ms fros (Noviembre,
Diciembre y Enero de acuerdo a la tabla (7.1)) y de hecho el patrn estacional es ms fcilmente identificable
en dichos meses. La razn es que al ser las bajas temperaturas un rasgo comn a todos los das, el incremento
de la demanda sobre el supuesto nivel de normalidad es constante. Los clientes utilizan el gas todos los das al
mximo rendimiento (efecto saturacin) de manera regular y es esa demanda regular la que se incorpora sobre
- 137 -
Uno de los meses ms inestables es Marzo por servir de transicin entre el invierno y la primavera. La
alternancia de periodos con buenas temperaturas y otros en los que se presentan repentinas olas de fro provoca
la irregularidad en el consumo domstico con la consecuente deformacin del patrn estacional.
Como advertimos anteriormente, podemos encontrar meses ms prximos al verano que al invierno que son
sorprendidos por una drstica cada de temperaturas. El resultado salta a la vista en la primera semana del mes
de Mayo representado.
En cualquiera de los meses el patrn construido es puramente estacional y respeta las condiciones impuestas de
antemano en cuanto a las relaciones que se establecen entre los das de una misma semana (grupos I-IV). Sin embargo,
el hecho de proceder de esta manera conlleva que se produzcan saltos bruscos del nivel de la demanda al pasar del
ltimo da de un mes al primero del siguiente. Dado que el valor de la demanda es el mismo para los das centrales de
una semana (Martes, Mircoles y Jueves), el patrn ofrece un aspecto an menos creble si la transicin entre meses se
produce a mitad de semana (vase ilustracin (7.10)). Para mejorar esta falta de suavidad, se ha procedido de la
siguiente manera:
1.
Las semanas de un mes han sido numeradas de 1 a 4 entendindose por una semana el periodo que empieza en
lunes y acaba en domingo. As, la primera semana de un mes MM (que denominaremos como S_1_M_MM =
semana 1 del mes MM, con
lunes de dicho mes. Las semanas sucesivas de dicho mes (S_2_M_MM, S_3_M_MM,) se van construyendo
de manera sucesiva a partir de la primera. Obsrvese que puede ser que no exista semana cuarta (S_4_M_MM)
por no poder incluir dentro del mismo mes una cuarta sucesin de siete das en caso de que la primera semana
(S_1_M_MM) hubiese empezado demasiado tarde (un da 5 o 6 de dicho mes).
2.
Definiremos adems como semana de transicin asociada a un mes MM (ST_M_MM) aquella que comience
un lunes del mes MM y concluya un domingo del mes MM+1. Obsrvese que puede darse el caso de que no
exista semana de transicin en caso de que la ltima semana del mes MM (S_4_M_MM) acabe justamente en
domingo (la semana siguiente es este caso sera S_1_M_{MM+1}).
3.
A partir de variables de este tipo ha resultado fcil proceder al suavizado de los periodos de transicin entre
meses. De esta manera, dados dos meses consecutivos A y B (B = A+1), se ha considerado la variable
S_4_M_A (o en su ausencia S_3_M_A), asociada a la ltima semana completa del mes A, y la variable
- 138 -
S_1_M_B asociada a la primera semana completa del mes B. Posteriormente se ha tomado un representante de
cada grupo de das de cada una de estas dos semanas, por ejemplo un da del grupo IV (martes, mircoles o
jueves que no sea puente ni festivo) de la semana S_4_M_A (o, en caso de no existir sta, S_3_M_A) y otro de
ese mismo grupo de la semana S_1_M_B y se ha calculado el valor medio de ellos. Se ha procedido de la
misma forma para cada uno de los cuatro tipos de da, obtenindose cuatro representantes medios o de
transicin que han sido utilizados para sustituir a las semanas S_4_M_A (o S_3_M_A), S_1_M_B y ST_M_A.
En caso de no existir ST_M_A, las semanas sustituidas por estas semanas medias seran S_3_M_A, S_4_M_A
y S_1_M_B.
El siguiente grfico muestra la transicin entre los meses de Septiembre y Octubre de 1998 para los datos
reales de demanda (en azul), los construidos supuesto que se dieron condiciones normales de temperatura (en
rojo) y los finalmente propuestos una vez hecho el suavizado (en negro). El salto se produce el da 1 de
Octubre que, por estar localizado entre semana (jueves), deforma de manera significativa la estacionalidad
respecto del mismo da de la semana anterior generando un incremento repentino, desmesurado y poco
verosmil. A travs del patrn suavizado no slo se solventa esta irregularidad sino que adems se consigue
una mayor aproximacin a la curva original.
Ilustracin 7.10: Suavizado intramensual del histrico de demanda construido en condiciones normales de
temperatura
4.
Finalmente se valora la subida (o bajada) que han supuesto los niveles de demanda de estas nuevas semanas
(entre ellas coincidentes) con respecto a aquellas a las que han sustituido. Si la semana S_4_M_A (o S_3_M_A)
ha experimentado una subida del
Xa%
el nivel de todas las semanas intermedias no sea el mismo y dotar de mayor suavidad an al histrico, se ha
reajustado la semana S_4_M_A (o S_3_M_A) rebajando su nivel en un
incrementando su nivel en un
Xa
% y la semana S_1_M_B
2
Xb
% . La semana de transicin ST_M_A (o en caso de no existir, S_4_M_4)
2
- 139 -
conservar el valor medio estimado, previamente a este reajuste, como media de las semanas S_4_M_A (o
S_3_M_A) y S_1_M_B. El resultado de este proceso es el siguiente:
Ilustracin 7.11: Reajuste del suavizado intramensual del histrico de demanda construido en
condiciones normales de temperatura
En resumen, el procedimiento consiste en redistribuir el volumen de demanda acumulado durante la ltima semana de
un mes, la primera del siguiente y la intermedia entre ambos para dar al patrn un aspecto ms suave y menos
escalonado. Bastara proceder de esta manera sobre cada uno de los meses de transicin para obtener el hipottico
histrico en condiciones normales de temperatura (mxima).
A continuacin se muestra el resultado de aplicar esta tcnica a un ao completo, pues ste es el periodo mximo que
parece razonable para poder superponer en un mismo grfico la curva original de demanda (en azul) frente a la que
asume un valor contante para todos los das de un mismo grupo dentro de un mes (en rojo). En un grfico posterior
establecemos la comparativa entre esta ltima y la curva de demanda que finalmente se obtiene como suavizado de ella
(en negro).
- 140 -
Ilustracin 7.12: Comparativa, sobre el periodo de un ao, entre el histrico real de demanda y el construido en
condiciones normales de temperatura
Para terminar, presentamos el patrn de demanda que resultara de utilizar este mtodo sobre el histrico completo.
Ilustracin 7.13: Patrn de demanda de gas supuestas unas condiciones normales de temperatura mxima
- 141 -
Vamos a contrastar si el patrn as construido responde a las condiciones meteorolgicas normales que estamos
asumiendo. Para ello vamos a generar a partir de este resultado y de los datos de partida, una muestra bidimensional
donde la primera componente x de cada par refleje la diferencia entre el dato de temperatura mxima que se ha
establecido como normal para el mes al que pertenece el dato y el de temperatura mxima real; la segunda componente
y ser la diferencia porcentual entre el dato real de demanda y el que forma parte de este patrn. Es decir,
Si ambas componentes son positivas, podremos interpretar que cuando la temperatura real se sita por debajo del valor
tomado como normal, el valor real de la demanda estar por encima del nivel marcado por el patrn. Coloquialmente
hablando podemos decir que si hiciera ms fro de lo normal la demanda subira por encima del patrn establecido.
En el caso en el que las dos componentes sean negativas podramos igualmente decir que si hiciera ms calor de lo
normal la demanda caera por debajo del patrn establecido. En uno y otro caso es la relacin de dependencia que
cabra esperar, es decir, la lgica conducira a pensar que el proceso de generacin del patrn ha funcionado bien si
estos pares se concentran en los cuadrantes primero y tercero del plano.
El siguiente grfico viene a confirmar este hecho. nicamente vamos a representar los puntos asociados a los meses
comprendidos entre Noviembre y Marzo (invierno gasista) en los que la influencia de la temperatura se puede
considerar manifiesta y en los que por tanto tiene sentido medir esta relacin. Se representa con un color distinto los
pares correspondientes a cada uno de los meses, dando a entender la necesidad de evaluar de manera diferente la
relacin en cada caso, puesto que por ejemplo, el efecto de una ola de fro no es el mismo en Diciembre y en Marzo.
- 142 -
Casi el 75% de los puntos (3 de cada 4) se sitan en los cuadrantes que podramos considerar lgicos. Adems, para
aqullos que caen en el primero y en el cuarto, el valor de ambas componentes es prximo a cero, circunstancia que
tambin juega a favor del proceso de construccin del histrico dado que parece razonable esperar que cuando la
temperatura experimente cambios muy pequeos respecto de su nivel normal, el valor de la demanda se mantenga ms
o menos constante. La siguiente tabla detalla por meses, el nmero de puntos que cae en cada uno de los cuadrantes y la
proporcin que dicha cantidad representa del total de los pares asociados a cada mes:
Tabla 7.7: Distribucin por mes y cuadrante del plano de los pares (incremento_temperatura, incremento_demanda)
El patrn de demanda que hemos construido nos va a servir de punto de partida para las dos fases siguientes:
Por un lado, disponemos de un histrico en condiciones normales de temperatura con base en el cual podremos
realizar predicciones en dichas condiciones (Fase II).
Por otro lado, tenemos una serie de pares que reflejan el incremento porcentual que se puede esperar de la
demanda ante posibles desviaciones de los valores estndares establecidos para la variable de temperatura
(Fase III).
Antes de pasar a la segunda fase, vamos a hacer una observacin que salta a la vista a partir de la ilustracin (7.14).
Ntese que, si bien la relacin entre las variables parece lineal, el estudio est orientado al anlisis de la dependencia en
situaciones extremas para las que esta linealidad se pierde segn se intuye en la regin ampliada de dicho grfico
(descensos superiores a 5C respecto del valor normal de la temperatura). Para comprobarlo basta ajustar un modelo de
regresin lineal simple para cada uno de los meses a partir de dicho umbral climtico, el resultado del cual se muestra
en la siguiente tabla:
- 143 -
Parece poco aconsejable el empleo de estas ecuaciones para predecir el incremento/decremento del consumo de gas
supuesto una bajada o subida de las temperaturas. Vamos a enumerar las razones que hacen ms aconsejable la
utilizacin de funciones cpula a tal fin:
1.
De entrada, las ecuaciones de regresin ofrecen poca fiabilidad. Para un nivel de confianza del 95%,
nicamente en 2 de los 5 casos la pendiente de la recta se puede considerar significativa y en cuanto a los
valores de los R2 tampoco son representativos de un buen ajuste.
2.
Estos modelos estn ajustados a muestras de datos relativamente pequeas de entre 10 y 20 datos, dado que
van asociadas a comportamientos extremos respecto de la variable de temperatura. Esta circunstancia nos
puede llevar a considerarlas poco representativas para hacer una prediccin. En su lugar, las funciones cpula
actuarn, en cada mes, sobre todos los pares localizados en el primer cuadrante, es decir, sobre conjuntos de
entre 70 y 90 datos (vase tabla (7.7)). Pero adems, las propiedades de las familias de cpulas que vamos a
utilizar (HRT, las familias de valor extremo, o las ajustadas localmente por interpolacin) van a permitir dar un
tratamiento especial a los pares situados en la ventana de riesgo sin necesidad de centrar el ajuste
exclusivamente en ella tal y como hacen los modelos de regresin.
3.
La simetra de los intervalos de confianza asociados a las predicciones que ofrecen los modelos de regresin se
antojan poco verosmiles. Por el contrario, las cpulas permitirn presentar las predicciones a travs de
distribuciones asimtricas, el anlisis de las cuales (de sus colas), permitir evaluar la probabilidad de que se
alcance un rcord histrico de demanda.
7.2.4 FASE II: Construccin de un modelo autorregresivo para hacer una prediccin a medio plazo
La siguiente etapa de esta metodologa consiste en determinar la ecuacin generadora del histrico que hemos supuesto
que debi presentarse en condiciones normales de temperatura. En esta ecuacin debern quedar reflejados sus rasgos
ms caractersticos que son:
Aplicacin prctica: Prediccin de la demanda de gas natural
- 144 -
Su marcada estacionalidad semanal ya patente en los datos reales de demanda pero an ms sealada en el
patrn que hemos construido (vase ilustracin (7.11)). Esta estacionalidad sufrir alteraciones en presencia de
das atpicos conocidos de antemano como son las festividades y puentes que habitualmente son tratados
mediante un anlisis de intervenciones.
Su variabilidad cambiante con mayores y menores diferencias entre das laborables y festivos en funcin del
mes del ao en el que oscilen los datos. Esta propiedad tambin es propia del histrico original, pero
nuevamente se acenta an ms en el patrn debido al tratamiento mensual que hemos llevado a cabo.
Su tambin destacada periodicidad anual (vase ilustracin (7.13)) que una vez identificada (variable Ciclo)
nos va permitir, como veremos, extender el horizonte de prediccin de corto a medio plazo. En este Ciclo irn
implcitos cambios de tendencia y cadas justificadas del nivel de la demanda durante periodos vacacionales
como Navidad o Agosto.
Vamos a ir incorporando en un modelo lineal de regresin cada una de estas componentes de manera secuencial.
Una forma habitual de reflejar comportamientos peridicos en un modelo es incluyendo como variable explicativa el
valor retardado de la propia variable a predecir tantas unidades como longitud tenga el periodo estacional. Este tipo de
modelos en los que la propia variable acta como regresor recibe el calificativo de autorregresivo (AR). El ms
popular y posiblemente el ms utilizado para el tratamiento a corto plazo de series estacionales es el SAR(1)x(1) s el cual
responde a la ecuacin:
11B 11B s X t =t X t=1 X t 11 X t s 11 X t s1t (7.4)
B k X t = X t k , el trmino de error y s
11B y 11B s .
- 145 -
En nuestro caso, de los dos trminos explicativos nicamente nos va a interesar contemplar aqul que modeliza
estacionalidad, dado que sta, de acuerdo al patrn construido, se va a presentar a lo largo de las ms de 700 unidades
temporales (2 aos en das) para las que realizaremos la prediccin. Respecto del trmino tendencia, debe tenerse en
cuenta que ste va ms orientado a una prediccin a corto plazo, de forma que el modelo fundamente la prediccin en el
ltimo dato (decir para maana algo parecido a lo que sucedi hoy) y utilice ste como referencia del nivel en el que
se est moviendo y deber moverse la serie. Sin embargo, no es realista suponer que este pasado inmediato vaya a
condicionar el comportamiento diario de la demanda durante los dos prximos aos y por ello, en principio, no tiene
sentido que contemplemos dicha componente en la frmula. En su lugar, incluiremos una variable Ciclo (apartado
7.2.4.3) que sirva de gua al modelo durante esos dos aos y le informe sobre los cambios de nivel que cabe esperar en
funcin del mes en el que se mueva la serie. Veremos que, de acuerdo a la forma en que definamos dicha variable, la
componente estacional se incorporar sobre ella de manera aditiva o multiplicativa. De momento, empezaremos
planteando una primera ecuacin para la demanda que identifique su estacionalidad:
17B 7 X t =t X t =7X t 7 t (7.6)
Otra manera de plasmar la estacionalidad en la frmula es a travs de (s-1) variables dummy asociadas a cada uno de los
tipos de da (lunes, martes,...), meses (Enero, Febrero,...) o en definitiva, clases distintas, que comprendan un periodo
estacional. Estas variables son binarias y toman valor 1 para todos los datos que pertenecen a la clase que identifican.
As por ejemplo la variable Lunes valdr 1 en cada uno de los lunes del histrico y cero en el resto de das. La razn por
la que se consideran (s-1) variables en lugar de s es por evitar efectos multicolineales derivados de que una de ellas se
pueda expresar como combinacin lineal de las restantes
D = Domingo=1 L M X J V S (7.7)
Pero adems, aunque pudiera pensarse que el nmero de parmetros de la expresin (7.9) es mayor que en (7.6), esto
tampoco es realmente as. Debe tenerse en cuenta que por definicin, estas variables estn recogiendo tambin el efecto
asociado a das festivos y puentes lo cual posibilita evitar llevar a cabo un anlisis de intervenciones que se traducira en
- 146 -
la inclusin de nuevas variables en el modelo. Efectivamente, si planteramos la ecuacin (7.6), este tipo de das
atpicos rompen la estacionalidad marcada por el parmetro autorregresivo de orden 7 y resultara por tanto conveniente
reflejar su influencia en la serie, lo cual incrementara el nmero de variables y, en consecuencia, de parmetros. Bien
es verdad que en este caso no sera necesario incluir demasiadas variables de intervencin. Es cierto que el efecto de
una festividad es diferente en funcin del da de la semana en el que caiga dado que en ocasiones podr dar lugar a un
puente (martes o/y jueves) , ser un puente en s misma (lunes y viernes), o constituir una festividad de forma aislada
(mircoles). Tambin encontraremos diferencias entre festividades de mbito local (que afectan a la comunidad) y de
mbito nacional (celebradas en todo el pas) y dentro de estas ltimas la repercusin de algunas (1 de Enero, 25 de
Diciembre, etc.) puede ser ms fuerte que la de otras (1 de Mayo, 1 de Noviembre, etc.). Sin embargo, para el problema
a medio plazo que estamos planteando no es necesario ser tan meticuloso a la hora de cuantificar con exactitud el
impacto sobre la demanda de un festivo de acuerdo a un cruce concreto de circunstancias (1 de Enero que cae en Jueves
y origina un puente el da 2). Esto, como veremos en el apartado 7.3.2.1, tiene ms sentido para un problema de
prediccin a corto plazo en el que el objetivo es afinar al mximo la prediccin para cualquier tipo de da. En cambio,
en el estudio a medio plazo vamos a hacer una prediccin a partir de un histrico que de entrada, hemos construido
nosotros y donde el objetivo es conocer el pico aproximado de demanda que puede presentarse en un da genrico
(laborable o festivo) del periodo de dos aos que comprende el horizonte de prediccin. Por ello, para el estudio a
medio plazo, bastara con aadir un par de variables dicotmicas a la ecuacin (7.6), una asociada a los festivos y otra a
los puentes (dado que el efecto de ambos tipos de das es distinto). Con su incorporacin esta ecuacin incrementara en
dos el nmero de variables (y de parmetros), cantidad con la que igualara en complejidad al modelo de expresin (7.9)
y que implicara que este ltimo no sufriera una mayor penalizacin en el clculo del ndice AIC. Nos decantaremos
entonces por el modelo (7.9) dado que su forma de recoger la estacionalidad parece ms adecuada al histrico que
hemos construido. Esta ecuacin sin ser exactamente autorregresiva (por no incluir a la propia variable X entre sus
regresores) identifica de forma correcta no slo la estacionalidad, sino la relacin de parentesco que se establece entre
das del mismo tipo.
Una clase de modelos ms sofisticada que los autorregresivos AR (SAR en el caso estacional), son los ARMA pero que,
para un problema de prediccin a medio plazo, tampoco aportan ventajas suficientes que justifiquen su utilizacin.
El papel que desempea en estos modelos los parmetros de la parte MA, o de medias mviles (moving average), es
corregir la prediccin en funcin de los ltimos errores que ha cometido el modelo. As por ejemplo un ARMA(1,1) es
un clsico que en general funciona muy bien puesto que calcula la prediccin a partir del ltimo dato real (AR(1)) y del
ltimo error que cometi el modelo (MA(1)) a partir del cual se corrige (si el modelo se equivoc por defecto har una
prediccin a la alza y viceversa):
11B X t =11 B t X t =1X t 11t 1t (7.10)
El orden de una y otra parte raramente es superior a 2 (o a 2*s si la serie es estacional) ya que, por ejemplo para una
serie diaria, no parece tener sentido que el valor esperado un da dependa del dato real de hace ms de dos semanas (y
mucho menos del error que cometi entonces el modelo). Esta es la razn por la cual no son tiles los modelos ARMA
para realizar predicciones a tan largo plazo. Obviamente el factor corrector MA slo es aplicable mientras se disponga
de un dato real del pasado al que haga referencia (orden de la parte MA) pues de otra manera no podra ser evaluado el
error que cometi el modelo. A partir del horizonte identificado por dicho orden (7 o 14) el error ser desconocido y en
Aplicacin prctica: Prediccin de la demanda de gas natural
- 147 -
consecuencia se asumir que toma valor 0 (se espera que el modelo no se equivoque) con lo que la influencia de dicho
factor desaparece para los ms de 700 das restantes (la parte MA es como si no existiera). Por ello, no incluiremos
trminos de medias mviles en nuestro modelo.
En resumen, propondremos la ecuacin (7.9) como base para realizar una prediccin a medio plazo que tenga en cuenta
la estacionalidad. El resultado del ajuste es el siguiente:
Tabla 7.9: Modelo para la prediccin a medio plazo de la demanda de gas que identifica el efecto estacional
De acuerdo al valor de los t-ratios podemos concluir que las tres variables dummy son muy significativas y el valor del
R2 tambin es representativo de la buena calidad del ajuste. En el siguiente grfico se muestra la prediccin realizada
por este primer modelo. En color azul se presenta el patrn de demanda construido a partir del histrico y en rojo, la
prediccin que se obtendra teniendo en cuenta nicamente las variables estacionales.
- 148 -
Debe observarse que todava no estamos reflejando en el modelo la informacin asociada al nivel en el que debe
moverse la serie. En su ausencia, el patrn estacional semanal se repite de acuerdo a su comportamiento ms reciente
con independencia del mes o estacin del ao que vaya alcanzando el horizonte de prediccin.
Por construccin, la variabilidad del patrn de demanda que hemos generado se mantiene constante a lo largo de todas
las semanas que pertenecen a un mismo mes de un mismo ao. Es decir, las diferencias entre das correspondientes a
clases distintas (un mircoles frente a un sbado, un lunes frente a un domingo, etc.) dentro de un mes comn son
idnticas y en particular valen cero cuando van referidas a miembros de una misma clase. Sin embargo esta igualdad no
tiene porqu presentarse entre semanas asociadas a meses distintos.
Cuando la varianza de la serie no es homognea a lo largo del tiempo decimos que la serie es heterocedstica.
Es conveniente corregir este fenmeno dado que nos interesa que el trmino de error resultante del ajuste sea algo
impredecible y responda a las tres propiedades que caracterizan a un proceso de ruido blanco: de media cero, varianza
constante e incorrelado con su pasado. De no corregir la posible heterocedasticidad de la serie esta propiedad puede
conservarse en el proceso de error, dado que ste viene a ser a fin de cuentas lo que queda por explicar de la serie
conforme el modelo va siendo ajustado y, en consecuencia, no se cumplira la segunda de las hiptesis de ruido blanco.
Para arreglar problemas de heterocedasticidad asociados a una serie temporal lo habitual es aplanarla a travs de una
transformacin. En este contexto gozan de especial popularidad la familia de transformaciones de Box-Cox que
responde a la expresin:
X t 1
si 0
Y =
ln X t si =0
(
t
(7.11)
El mtodo consiste en ajustar modelos sencillos (por ejemplo. un ARMA(p, q) con p y q pequeos) para una relacin de
valores de y utilizar un criterio que permita medir la bondad del modelo respecto de esa transformacin. Las valores
que normalmente se plantean para son 0 (logaritmo), 0.5 (raz cuadrada) y 1 (variable sin transformar). Respecto del
criterio de evaluacin lo normal es emplear alguno de estos dos:
Escoger aquella transformacin para la que se obtiene un mnimo AIC.- este indicador (vase ecuacin
(2.6)) penaliza a los modelos con mayor nmero de parmetros a la vez que favorece a aqullos que
proporcionan un mejor error de prediccin sobre el histrico. Para modelos estructuralmente iguales donde la
nica diferencia radica en la transformacin aplicada sobre la serie, la penalizacin respecto del nmero de
parmetros (p+q para un ARMA(p, q)) es comn, con lo cual elegir el modelo de menor AIC es sinnimo de
tomar aqul que minimiza el error cuadrtico medio (sobre el histrico).
- 149 -
Escoger aquella transformacin que maximiza la funcin de verosimilitud.- para un mismo modelo
ARMA(p,q) se construye la funcin de verosimilitud
de que la serie transformada quede bien representada por los parmetros, seleccionndose aquella
transformacin para la cual se maximiza dicha probabilidad.
El mtodo de Box-Cox plantea modelos de diferentes rdenes respecto de cada una de las potencias de propuestas y
termina seleccionando aqulla que en media proporciona mejores resultados respecto del criterio de evaluacin.
En nuestro caso, respecto del primero de los criterios, la transformacin recomendada es la raz cuadrada segn se
muestra en la siguiente tabla:
Tabla 7.10: Evaluacin del AIC para varias propuestas de transformacin de la variable demanda
El hecho de aplicar la transformacin a los datos, amortigua los cambios de variabilidad entre meses sobre el histrico y
es conveniente desde el punto de vista de las propiedades asociadas al proceso de error resultante. Pero adems estamos
interesados en que esta volatilidad cambiante est presente en cada uno de los 24 meses para los que nos proponemos
hacer la prediccin pues obviamente sta debe ser fiel reflejo del comportamiento histrico o real de la serie. A falta de
ajustar el nivel en el que se mueve la serie a travs de la variable Ciclo cuya construccin detallaremos en el apartado
siguiente, observaremos que, si la prediccin se basara nicamente en la componente estacional descrita por las
variables que hasta ahora hemos incluido, la variabilidad se mantendra constante a lo largo de todos los meses del
horizonte (vase el grfico de la izquierda en la ilustracin (7.16)) dado que no hay nada que informe al modelo de que
esta variabilidad debe cambiar. Para aportar este conocimiento vamos a generar 24 variables binarias MES_TIPO,
donde MES puede ser cualquiera de los 12 del ao y TIPO ser F (festivo) si el da es de tipo I o II o bien L (laborable)
si es de tipo III o IV. Si bien podran generarse tantas variables como cruces entre tipos de meses (12) y tipos de das (4)
aparte de que el nmero de ellas sera excesivo (48) tampoco aportara nada en cuanto a la forma de recoger la
variabilidad asociada a los meses. A fin de cuentas lo que nos interesa es identificar por meses una medida de dispersin
de los datos y esto se puede conseguir a travs de variables que marquen el da en que se dar el mnimo mensual (con
seguridad un festivo) y el mximo (que se presentar un da laborable).
La expresin del modelo que contempla estas variables es la siguiente:
MES=12
MES=1 TIPO { F , L }
- 150 -
A continuacin se presenta el resultado del ajuste. La variable a predecir es la raz cuadrada de la demanda en
condiciones normales de temperatura (RCONSUMO_MEDIO). En cuanto a los nuevos inputs considerados (variables
explicativas MES_TIPO) sealaremos que ha sido omitida una de ellas (DICIEMBRE_L = laborables de Diciembre)
dado que se puede expresar como combinacin lineal de las restantes (deben evitarse efectos multicolineales). Se puede
apreciar la significatividad de todas ellas y la mejora considerable del valor del R2.
Tabla 7.11: Modelo para la prediccin a medio plazo de la demanda de gas que identifica el efecto
estacional y la variabilidad de la serie
Por un lado se recoge el comportamiento cclico anual de la serie, que no es realmente el propsito de estas
variables, ya que no queremos que informen del orden de magnitud en el que la prediccin debe moverse
- 151 -
sino slo de su forma. Adems, el carcter mensual de las variables (una por mes) da un aspecto escalonado
y poco verosmil a la prediccin. Veremos cmo la inclusin de la variable Ciclo permite recoger no slo el
patrn peridico de los datos sino extrapolarlo de manera suave (no a saltos) a un nivel acorde con aqul en el
que debera oscilar la serie.
El segundo, y al que s est orientado la inclusin de estas variables, es que la variabilidad de la prediccin sea
diferente en funcin del mes del ao.
En los siguientes grficos se puede comparar el resultado de incluir o no estas variables en el modelo. Nuevamente en
color azul se presenta el patrn de demanda construido a partir del histrico y en rojo, la prediccin que a partir de l se
obtendra. En el de la izquierda se refleja una prediccin basada slo en la estacionalidad de la serie transformada a
travs de la raz cuadrada. En el de la derecha se contempla el efecto adicional de las variables MES_TIPO.
Ilustracin 7.16: Prediccin de la demanda de gas en condiciones normales mediante un modelo que atiende a la
estacionalidad y variabilidad de la serie
Aun cuando lo que ms llama la atencin es la diferencia en lo que respecta el aspecto peridico de una y otra
prediccin, debemos insistir en el que la prediccin del grfico de la derecha est desubicada y presenta bruscos
cambios de nivel, no es suave. Sin embargo, no olvidemos que el objetivo que perseguamos con la inclusin de las
variables MES_TIPO es una correccin de variabilidad. En ese sentido, el grfico de la derecha s refleja la distinta
variabilidad para la prediccin en funcin del mes del ao, la cual se mantiene esttica en el de la izquierda. As, se
puede ver por ejemplo que un mes de Abril (acotado por las referencias superiores del eje vertical) tiene un rango de
variacin que son 4/5 partes del correspondiente a un mes de Agosto (acotado por las referencias inferiores). Queremos
reincidir tambin en el aspecto escalonado de la prediccin, acentuado como hemos dicho en los meses que sirven de
transicin del invierno al verano (Marzo/Abril), o en otras palabras, del fro al calor, y viceversa (Octubre/Noviembre).
Son meses que separan dos niveles de demanda claramente diferenciados: uno asociado al invierno gasista, que
- 152 -
comienza con el arranque de las calefacciones en la primera semana de Noviembre y termina con el comienzo de la
primavera en la ltima semana de Marzo y otro asociado al resto del ao que, salvo excepciones puntuales (olas de fro
en Abril u Octubre y de manera excepcional en Mayo o Septiembre) es independiente de la climatologa. Es sta la
razn que justifica el hecho de que la magnitud del salto sea mayor durante estas transiciones y tambin que nicamente
hayamos tenido en cuenta el periodo Noviembre-Marzo para representar los pares de puntos que permitirn analizar la
relacin demanda-temperatura (vase ilustracin (7.14)).
A raz de esta observacin, podremos encontrar problemas si planteamos la prediccin desde cualquiera de estos dos
meses. La presencia del escaln no hace fcil conseguir suavidad entre los datos reales de Marzo y las predicciones
realizadas para Abril. Como veremos en el apartado siguiente, si se marca por ejemplo el da 31 de Marzo de 2006
como horizonte final, puede ser recomendable anticiparse un mes (desde el 1 de Marzo) o esperarse al siguiente (desde
el 1 de Mayo) para realizar las predicciones diarias a dos aos (25 o 23 meses respectivamente).
Ahora que disponemos de una prediccin que presenta las dos estacionalidades ms caractersticas de una serie de
demanda, la semanal, generada por el efecto del calendario y cuya oscilacin se amplifica o disminuye en funcin del
mes del ao, y la anual, que si bien presenta un aspecto algo abrupto, da respuesta a la influencia bsica de las
temperaturas (fro o calor) en las distintas estaciones (invierno o verano), el ltimo paso consiste en nivelar dicha
prediccin, esto es, determinar el nivel en el que sta deber moverse.
Mediante tcnicas de suavizado de curvas vamos a ser capaces de identificar un comportamiento bsico anual
subyacente bajo el histrico construido, el cual, de acuerdo a la terminologa empleada en la teora de la seal, vendr
dado por una curva de baja frecuencia o equivalentemente largo periodo ( = frecuencia=
1
1
=
periodo T
).
Esta curva, que pasaremos a denominar Ciclo, adems de determinar el nivel medio alrededor del cual se distribuyen los
datos, nos va a permitir recoger la periodicidad anual histrica de la serie de una manera suave, sin cambios bruscos de
comportamiento. Si conseguimos que su extrapolacin mantenga tambin esta suavidad, la variable Ciclo podr
participar en la expresin (7.12) como una variable explicativa ms, informando al modelo de la base sobre la que
debern actuar las variables que reflejan la estacionalidad semanal y la variabilidad cambiante por meses. Para ser
exactos, dado que la variable a predecir en el modelo es la raz cuadrada de la demanda esperada en condiciones
normales de temperatura, ser tambin la raz cuadrada de la variable Ciclo (Rciclo) la que finalmente sea incluida en el
modelo. Con ella, el modelo quedar planteado de la siguiente manera:
MES=12
MES=1 TIPO { F , L}
(7.13)
El conocimiento de todos los trminos que participan en la expresin anterior (calendario y Ciclo) permitir que sta sea
utilizada para predecir el valor de la demanda en condiciones normales de temperatura.
Las dos metodologas que vamos a ver para extraer este patrn bsico se fundamentan en conseguir expresar el histrico
Aplicacin prctica: Prediccin de la demanda de gas natural
- 153 -
de demanda construido en condiciones normales de temperatura, como una combinacin lineal de los miembros de una
base ortonormal compuesta por funciones suavizadoras, siendo dos las alternativas que para ello planteamos: las
wavelets y los splines. A travs de unas y otras se puede conseguir una aproximacin suficientemente suave de la serie
que refleje el comportamiento peridico anual de los datos y que pasaremos a definir como la variable Ciclo que
participar en el modelo (7.13). La extrapolacin de dicha variable puede ser llevada a cabo de dos maneras diferentes
con independencia de la funcin suavizadora que a tal fin se utilice:
Una primera forma de llevar a cabo la extrapolacin de la componente Ciclo ajustada al histrico, es a travs
de un modelo sencillo que refleje exclusivamente la estacionalidad y tendencia de esta variable. Previamente a
la aplicacin de este modelo ser preciso, obviamente, detectar el comportamiento de baja frecuencia. Para ello
emplearemos una de las clases de funciones suavizadoras, por ejemplo, las wavelets. De ellas, as como de sus
posibilidades para descomponer una seal como suma de procesos que se mueven a distintas frecuencias, se
ofrece una breve descripcin en el Anexo X.
Otra forma alternativa de predecir el Ciclo es mediante el uso de las propias funciones suavizadoras como
variables independientes de un modelo de regresin convenientemente extrapoladas. En esta ocasin ser la
estimacin realizada por el propio modelo la que se utilice como variable Ciclo tanto a pasado (sobre el
histrico) como a futuro (para el horizonte de dos aos al que se plantea el estudio). Es decir, no es necesario
dar un primer paso en el que se extraiga la componente de baja frecuencia y un segundo en el que se lleve a
cabo su prediccin a partir de otra ecuacin diferente, sino que la deteccin del Ciclo y su extrapolacin tienen
lugar en una misma etapa. Segn hemos dicho valdran tanto las funciones wavelets como los splines como
regresores del modelo que realiza la estimacin y prediccin del Ciclo. En este caso nos decantaremos por el
uso de los splines, de cuya teora se ofrece otra breve descripcin en el Anexo XI.
Las funciones wavelets van a permitir expresar la serie de demanda como suma de otras que miden sus variaciones a
diferentes escalas o niveles de resolucin: da, semana, ao, etc. Este proceso de descomposicin recibe el nombre de
anlisis multirresolucin de la seal o MRA (vase Anexo X), siendo necesaria la especificacin de la familia o base
de funciones wavelets como combinacin lineal de las cuales vamos a expresar nuestra serie. Sern las propiedades de
esta ltima las que condicionen la seleccin de una familia u otra.
La primera de las propiedades a contemplar es la continuidad de la componente Ciclo. Esta propiedad lleva a descartar
de entrada la wavelet de Haar dada la forma escalonada (a saltos) que caracteriza a las componentes que resultaran de
realizar el anlisis con este tipo de wavelets. En su lugar deben seleccionarse familias ms suaves, viniendo
determinado el grado de suavidad por el nmero de derivadas que estas funciones admiten.
En segundo lugar, de acuerdo a las caractersticas peridicas del estudio, una buena eleccin podra ser la clase
Aplicacin prctica: Prediccin de la demanda de gas natural
- 154 -
symmlet. Dentro de esta familia es necesario adems especificar la amplitud del soporte de la wavelet (4, 6, 8,...,20,...)
que viene a determinar el grado de suavidad del ajuste. Dado que con la curva Ciclo no tratamos de recoger
caractersticas locales del histrico a un nivel de detalle mximo, nos van a interesar wavelets amplias puesto que la
suavidad de estas funciones crecen de acuerdo a la amplitud de su soporte.
A continuacin, se detalla el MRA llevado a cabo a travs de symmlets de amplitud 6, 8, 10 y 12, es decir, de miembros
de las clases symmlet6, symmlet8, symmlet10 y symmlet12 respectivamente.
Ilustracin 7.17: MRA del histrico de demanda en condiciones normales de temperatura llevado a cabo mediante
symmlets de distintas amplitudes
A travs de cada tipo de wavelet la serie original ha sido descompuesta en un total de 7 seales o niveles, cantidad que
puede ser modificada pero que ha sido suficiente para la deteccin de la componente Ciclo que buscamos. Se presenta
en cada caso la componente ms suave (S6) y el agregado que resulta de sumar sta con una (D6) o dos (D6 y D5) de las
componentes siguientes de ms baja frecuencia. La principal desventaja de la symmlet de amplitud 6 es el claro
problema de ajuste que presenta en la frontera desde la cual se planteara la prediccin (obsrvese la irregularidad que
se presenta en las fechas del histrico ms cercanas al 31 de Marzo de 2004). Por otra parte las componentes obtenidas
como resultado de los anlisis asociados a symmlets de amplitudes grandes (10 y12) no presentan grandes diferencias
que hagan esperar mejoras sustanciales respecto de los resultados que se obtienen para el MRA llevado a cabo con una
symmlet8. Es por ello que ha sido esta familia de wavelets la que finalmente se ha utilizado para descomponer nuestra
serie, siendo el resultado el siguiente:
- 155 -
En el grfico anterior se presentan en la columna de la izquierda cada una de las componentes resultantes del anlisis
multirresolucin en orden creciente de frecuencias (desde S6 hasta D1). La seal ms suave S6, caracteriza el
comportamiento cclico anual de la serie y las seis restantes, D6-D1 recogen oscilaciones asociadas a periodos cada vez
ms cortos o frecuentes, es decir, correcciones cada vez ms detalladas a la curva suave establecida por S6 . La columna
de la derecha muestra el resultado de ir sumando todas las seales de frecuencia ms baja a una dada. En el caso
extremo se obtiene la serie de partida como suma de todas ellas.
De todas las seales acumuladas slo las ms suaves van a servir a nuestros propsitos. Recordemos que nuestro
objetivo es incluir una variable en la ecuacin (7.12) que convenientemente extrapolada permita identificar el nivel en
el que se mover la serie en el futuro y sobre el que se va a incorporar la estacionalidad y variabilidad cambiante por
meses recogida por los otros regresores de la ecuacin. Es sta la razn por la que la variable Ciclo debe ser suave, para
limitarse a recoger la periodicidad anual y no otros efectos redundantes que ya puedan estar aportando otros miembros
de la frmula.
- 156 -
A la vista del grfico anterior, se propone utilizar como Ciclo la componente S6 o a lo sumo la adicin de S6 y D6 ya que
los acumulados posteriores empiezan a presentar irregularidades que no son comunes a todos los aos. Por ejemplo, la
adicin de la componente D5 acenta demasiado un extrao abombamiento en Abril de 2002 (que empieza a
contemplarse a raz de la inclusin de D6), y aporta pequeas cadas asociadas a los periodos navideos de los aos
1999-2000 y 2003-2004. Con la incorporacin de la seal de detalle D4 se incrementan an ms estas deformaciones y
ya con la seal D3 la curva se vuelve demasiado irregular para plantearse su posible extrapolacin con fines predictivos.
En cualquier caso, para extender el Ciclo generado (S6 o S6 + D6) a un horizonte de dos aos y que as pueda ser
utilizado por (7.13) como variable explicativa, vamos a ajustar a dicha variable el siguiente modelo:
365 Ciclo t =1B 365 Ciclot = t Ciclo t =Ciclo t 365t (7.14)
estimar el cual controla el nivel en el que se mueve la serie. Una vez que dispongamos de la variable Ciclo ajustada al
histrico de demanda y de su comportamiento futuro para los dos prximos aos dado por (7.14), la ecuacin (7.13)
podr ser utilizada para realizar predicciones para los dos prximos aos en condiciones normales de temperatura.
En los grficos que a continuacin se presentan se marca con una referencia vertical el ltimo da del conjunto de
entrenamiento (31 de Marzo de 2004) y desde el cual se lanza la prediccin a dos aos. Se presentan los dos ltimos
aos del histrico construido en condiciones normales de temperatura (en azul). ste es utilizado para la construccin
de la variable Ciclo (en rojo) que puede ser S6 o bien la suma de sta con una o varias seales de detalle (Di).
Dicho Ciclo es extrapolado a futuro (en rosa) mediante la ecuacin (7.14). Finalmente, el Ciclo y su prediccin
proporcionada por (7.14) generan a travs de (7.13) una prediccin definitiva que se supone tambin en condiciones
normales de temperatura (en celeste). El primero de los grficos utiliza como variable Ciclo la componente S6.
Se han marcado con un crculo los principales problemas que aporta esta prediccin. Llama fundamentalmente la
atencin las dos grandes discontinuidades asociadas a las transiciones entre los meses de Marzo y Abril. Esto es
consecuencia de que la curva S6 no consigue recoger bien la tendencia descendente del patrn en dicho periodo.
Tambin se ha marcado el apuntamiento invernal que recoge la curva en 2003 y que no se repite al ao siguiente. Estas
observaciones no parecen aconsejar el uso de esta curva como regresor en la ecuacin (7.13).
Ilustracin 7.19: Prediccin de la demanda de gas en condiciones normales mediante un modelo 1 que atiende a la
estacionalidad semanal, variabilidad, tendencia y periodicidad anual de la serie identificada mediante wavelets
Aplicacin prctica: Prediccin de la demanda de gas natural
- 157 -
El siguiente grfico utiliza como variable Ciclo la suma de S6 y D6. Si bien la longitud del salto entre el patrn real y el
predicho es menor y la curva se ajusta mejor al histrico, sigue siendo notoria la falta de continuidad. Se empieza a
sospechar las dificultades que pueden surgir para conseguir suavidad en dicho periodo dado el brusco escaln que, aun
a pesar del suavizado del histrico, se presenta entre dicho meses segn sealbamos en el grfico (7.16).
Ilustracin 7.20: Prediccin de la demanda de gas en condiciones normales mediante un modelo 2 que atiende a la
estacionalidad semanal, variabilidad, tendencia y periodicidad anual de la serie identificada mediante wavelets
Una ltima tentativa con la variable que resulta de sumar las componentes S6, D6 y D5 consigue que la discontinuidad
Marzo-Abril sea an menor. Sin embargo comienzan a aparecer ciertas deformaciones que, si bien pueden estar
justificadas por la influencia de la cada de la demanda durante el periodo de Navidad, anticipan para mayores niveles
de acumulacin, un grado de irregularidad poco deseable pensando en su extrapolacin a futuro.
Ilustracin 7.21: Prediccin de la demanda de gas en condiciones normales mediante un modelo 3 que atiende a la
estacionalidad semanal, variabilidad, tendencia y periodicidad anual de la serie identificada mediante wavelets
- 158 -
Dadas las dificultades que surgen para ajustar completamente el solape entre dato real y predicho y que la causa parece
venir inducida por el cambio brusco que se produce del invierno a la primavera, una solucin alternativa es ajustar el
Ciclo hasta un periodo de transicin menos conflictivo como es Febrero-Marzo y plantear su extrapolacin mediante
(7.14) desde ese instante. La curva extrapolada ser finalmente utilizada para realizar la prediccin final del patrn en
condiciones normales de temperatura a travs de (7.13). El nuevo resultado hace imperceptible la diferenciacin entre
pasado y futuro y adems no presenta irregularidades difciles de justificar. A lo nico que estaramos obligados es a
hacer la prediccin a 25 meses (en vez de 24) pero esto no parece ser un grave problema dado el largo horizonte que de
entrada ya nos venimos planteando.
Ilustracin 7.22: Prediccin de la demanda de gas en condiciones normales mediante un modelo 4 que atiende a la
estacionalidad semanal, variabilidad, tendencia y periodicidad anual de la serie identificada mediante wavelets
As, esta sera una posible propuesta de prediccin diaria en condiciones normales de temperatura para los dos prximos
aos utilizando el mtodo de descomposicin basado en wavelets. Veremos en el apartado 7.2.4.3.3 una correccin del
mismo motivada por la necesidad de alcanzar mejores predicciones fuera de muestra.
De igual manera que hemos expresado el histrico de demanda en condiciones normales de temperatura como una
combinacin de funciones wavelets a travs de un anlisis multirresolucin (o MRA), vamos a expresar ese mismo
histrico en funcin de otra clase de funciones suavizadoras denominadas splines mediante un modelo de regresin
lineal. La estimacin de los parmetros asociados a cada una de estas funciones permite la expresin de la demanda
como combinacin lineal de ellas y, a travs de la ecuacin resultante, predecir su comportamiento futuro.
A tal fin utilizaremos splines cbicos, que son polinomios de grado 3 y de clase C 1. Con el fin de que estas funciones
no tengan una finalidad puramente suavizadora sino que sirvan adems para reflejar la estacionalidad anual del histrico
(pues buscamos un patrn cclico), vamos a considerar un subespacio del espacio de los splines en el que esta
periodicidad quede puesta de manifiesto (vase Anexo XI).
- 159 -
1
Sea S P ={ sC t.q st =s t365 , s |[ t
El subespacio
SP
i1
365k , ti1365k ]
define el conjunto de las funciones de clase C 1 (continuas y diferenciables) de periodo 365 (das)
y definidas como polinomios cbicos en la variable t sobre intervalos centrados en un instante de tiempo
t i dados
t 0, t 1, t 2,... ,t n
determinan el nmero de trozos en que se divide el periodo de un ao. Cuanto mayor sea
este nmero, menor ser la longitud de cada uno de los intervalos y por tanto la funcin se ajustar de forma local a un
conjunto de puntos cada vez ms reducido, proporcionando una curva sobreajustada que no resultara conveniente para
ser extrapolada. Por el carcter mensual del que estamos dotando al estudio, una primera alternativa sera por ejemplo
dividir cada ao en un total de 12 trozos (uno por mes), cantidad que en principio, no parece antojarse demasiado
grande. Para expresar la demanda como combinacin lineal de elementos de S P
dicho espacio dada por una relacin de funciones ,'s (vase Anexo XI) que actuarn como variables independientes
de un modelo de regresin (de ah su denominacin de splines de regresin) en el que la variable de respuesta es la
demanda en condiciones normales de temperatura:
MES =12
MES=12
X t =
MES=1
a 0, MES MES t
b 0, MESMES tt (7.16)
MES=1
Obsrvese que resulta fcil utilizar los propios splines para predecir a travs de esta ecuacin dado que su valor a futuro
es el mismo que a pasado, es decir, el comportamiento de los splines para los dos prximos aos es conocido y por ello
no es preciso predecirlo. La estimacin proporcionada por este modelo,
comportamiento sobre el histrico como el valor esperado en el futuro para el mismo. Para su obtencin basta aplicar el
mtodo de mnimos cuadrados y realizar a travs de l la estimacin de los coeficientes de (7.16). El siguiente grfico
muestra el resultado del ajuste (en rojo) que en s constituye un suavizado del histrico (en azul).
- 160 -
En esta ocasin, de forma opuesta al mtodo de ajuste anterior en el que se utilizaban las wavelets como funciones
suavizadoras, no se utiliza la expresin (7.16) para detectar el Ciclo sobre los datos histricos (como hacamos a travs
del MRA) y otro modelo distinto (tipo (7.14)) para llevar a cabo la extrapolacin al futuro del mismo, sino que es el
propio modelo el que detecta el comportamiento de baja frecuencia y a partir de l plantea directamente la prediccin.
Un primera apreciacin a la vista del grfico anterior es que el modelo ajustado no est consiguiendo capturar el
incremento de consumo que va teniendo lugar de un ao a otro. Sin embargo solventar esta carencia resulta sencillo
dado que basta incluir en la ecuacin anterior una variable que modelice tendencia (una recta dada por ejemplo por la
propia variable t , que determina la fecha a la que va referida el dato histrico) para que dicho efecto incremental sea
tenido en cuenta.
MES=12
X t =t
MES= 1
MES=12
a 0, MESMES t
MES =1
Aunque la mejora es sustancial con respecto al modelo anterior, la curva parece seguir sin adaptarse bien al histrico de
datos sobre todo en lo que se refiere a las cotas anuales presentadas en el periodo invernal y durante los meses
puramente vacacionales como son Julio y, sobre todo, Agosto. Obviamente, dado que nuestro estudio est orientado a la
estimacin del valor mximo diario que se puede esperar para la demanda durante los dos prximos aos, debemos
hacer todo lo posible por conseguir mejorar el resultado de este ajuste.
La consideracin de otros 24 regresores adicionales que sean el producto de cada uno de los ya incluidos por una
variable que refleje tendencia (nuevamente la propia variable t) permitir que la variabilidad de los splines cambie
con el tiempo, consiguiendo adems, dado que cada uno de los splines va referido a un mes concreto, reflejar que el
crecimiento de la demanda de un mes a otro no sea igual para todos los meses del ao. La inclusin de estas variables
permitir la salida de la variable t de la ecuacin (7.17) puesto que la informacin que esta ltima aporta viene ya
recogida por ellas.
Aplicacin prctica: Prediccin de la demanda de gas natural
- 161 -
As, de acuerdo a los nuevos regresores, el modelo quedara planteado de la siguiente manera:
12
X t =
12
MES=1
a 0, MES MES t
MES= 1
12
b 0, MESMES t
MES =1
12
a 1, MESMES tt
MES =1
Conforme a esta expresin, el resultado del ajuste y de la consiguiente extrapolacin sera la que ahora presentamos:
Visualmente el ajuste resulta mucho ms satisfactorio pues la curva parece moverse en sintona con el histrico.
Una ltima apreciacin que podramos hacer se refiere al grado de suavidad del ajuste. Aun cuando hemos considerado
lgico realizar la particin anual en periodos de 12 meses, tal vez no resulte conveniente extrapolar ciertas
irregularidades observadas en el grfico anterior como son los agudos picos observados durante los meses invernales y
veraniegos derivados de las cadas de demanda producidas durante los periodos vacacionales de Navidad y Agosto o los
sutiles abombamientos que se presentan en los meses de Abril. Debemos tener en cuenta que, conforme a la definicin
multiplicativa de los splines que intervienen en (7.18) estos defectos crecern en magnitud de un ao a otro.
Cuando llevbamos a cabo el anlisis mediante funciones wavelets (MRA), estas anomalas comenzaban a aparecer a
partir de la inclusin de la componente D5 en la definicin de la variable Ciclo (vanse las ilustraciones (7.18) y (7.21)),
bastando omitir la presencia de esta componente en dicha definicin para dejarla as planteada nicamente como la
adicin de S6 y D6. En el caso que nos ocupa la forma de conseguir un mayor grado de suavidad consiste en reducir el
nmero de trozos en la particin realizada sobre cada uno de los aos. Las siguientes ecuaciones definen dos nuevos
modelos asociados a una particin bimestral y trimestral respectivamente.
6
X t =
BIM =1
a 0, BIM BIM t
X t =
TRIM =1
BIM =1
b 0, BIM BIM t
a 0,TRIM MES t
TRIM =1
BIM =1
a 1, BIM BIM t t
TRIM =1
BIM =1
a 1,TRIM TRIM t t
TRIM =1
- 162 -
Los grficos presentados muestran el resultado de aplicar dichos modelos sobre estas particiones de tamao 6 y 4.
Ilustracin 7.26: Suavizados del histrico de demanda en condiciones normales de temperatura mediante splines
cbicos de regresin teniendo en cuenta la tendencia y variabilidad del histrico
En el primero de los grficos desaparecen por completo dos de las irregularidades a las que hacamos referencia
(vacaciones de Navidad y abultamiento en el mes de Abril) pero es en el segundo cuando se consiguen suavizar por
completo las tres (vacaciones de Agosto). De esta manera tendramos otra candidata diferente a participar en el modelo
(7.13) como variable Ciclo, a la obtenida a travs del ajuste mediante wavelets. sta constituir otro posible soporte
sobre el que montar las otras componentes reflejadas en dicho modelo, permitiendo en su conjunto, realizar la
prediccin diaria a dos aos vista. Nuevamente se presentan los dos ltimos aos del histrico construido en
condiciones normales de temperatura (en azul), la variable Ciclo sobre el histrico (en rojo) y su extrapolacin a futuro
(en rosa) generadas ambas por el modelo (7.20) y finalmente la prediccin (en celeste) realizada por la ecuacin (7.13)
una vez conocidos todos sus integrantes.
Ilustracin 7.27: Prediccin de la demanda de gas en condiciones normales mediante un modelo 5 que atiende a la
estacionalidad semanal, variabilidad, tendencia y periodicidad anual de la serie identificada mediante splines
- 163 -
7.2.4.3.3 Comparativa entre los mtodos planteados para la generacin de la variable Ciclo
De acuerdo a lo expuesto en los dos apartados anteriores podemos enumerar una serie de aspectos que juegan
claramente a favor del ajuste llevado a cabo mediante la segunda de las tcnicas propuestas:
La solucin al problema se plantea en una nica etapa: el ajuste y la extrapolacin a futuro se lleva a cabo a
partir de una nica ecuacin (expresin (7.20)). El ajuste mediante wavelets necesita realizar un anlisis
multirresolucin previo (MRA) en funcin de una familia de wavelets, a determinar, para la obtencin de una
curva que es posteriormente extrapolada mediante un modelo autorregresivo (expresin (7.14)).
El grado de suavizado de la curva depende de un nico parmetro que es la dimensin de la particin anual.
En el ajuste mediante wavelets existen demasiados elementos que controlan este factor: las propiedades de la
wavelet seleccionada (continua o discreta, simetra, amplitud, etc.), el nmero de niveles a obtener a travs del
MRA y la determinacin del nmero de niveles como suma de los cuales se genera la variable Ciclo.
El modelo puede ser aplicado en cualquier momento del tiempo para aprovechar al mximo toda la
informacin histrica disponible. El ajuste mediante wavelets puede presentar problemas de ajuste en las
fronteras del histrico, es decir, en los primeros y ltimos datos del histrico y en consecuencia, no debera
realizarse la prediccin a partir de estos ltimos. De hecho, a diferencia del tratamiento llevado a cabo con
splines, con las wavelets hemos tenido la necesidad de realizar la prediccin a partir del da 1 de Marzo de
2004 y no desde el 1 de Abril de ese mismo ao.
De manera adicional a todas estas ventajas existe un aspecto fundamental a tener en cuenta que es la calidad de las
predicciones que han sido obtenidas por uno y otro mtodo. Se ha establecido la siguiente frmula de error para validar
la calidad de las predicciones de uno y otro modelo tanto sobre el histrico como a futuro.
real t Prediccion t
Demanda _Prediccion
Error t=100
(7.21)
Sobre el histrico, parece lgico que el resultado conseguido mediante wavelets sea mejor dado que la curva se puede
ajustar de manera particular a cada uno de los aos del histrico, mientras que la obtenida mediante splines es una
funcin peridica que responde a la misma forma en todos ellos, con la nica diferencia de ver amplificada su
variabilidad en el paso de un ao a otro. Hemos comparado las predicciones que proporciona el patrn dentro y fuera de
muestra con los datos reales, para aquellos das cuya diferencia de temperatura con respecto al patrn estndar no
supere los 3C. Es decir, hemos supuesto como datos normales de demanda (no influenciados por la temperatura)
aqullos que se presentaron en das en los que las temperaturas mximas reales no se desviaron ms de 3C del valor
mediano mensual estimado en funcin del histrico. Hemos considerado como referencia esta diferencia de 3C por ser
- 164 -
el nmero aproximado de grados que separa al valor mediano de la temperatura mensual de los valores trmicos
asociados al primer y tercer cuartil (vase tabla (7.1)). Es decir, tomaremos como temperaturas normales el 50% de los
datos de temperatura ms centrados respecto a la mediana (porcentaje comprendido entre Q1 y Q3).
De acuerdo a esta consideracin, la diferencia obtenida entre el error medio para uno y otro modelo y a un horizonte de
1 da in-sampling, est alrededor de un 1.5% a favor del modelo ajustado mediante wavelets (de un 4% frente a un 5.5%
para el modelo basado en splines). Sin embargo, para predicciones fuera de muestra (out-of-sampling) la balanza se
inclina claramente a favor del segundo de los mtodos de ajuste. La prediccin en condiciones normales de temperatura
que genera el modelo que utiliza los wavelets no captura bien la tendencia creciente de los datos pues no se adapta bien
a las cotas mximas de los inviernos. Por ello se ha reforzado el efecto tendencia de la curva ajustada mediante wavelets
incluyendo un trmino autorregresivo de orden 1 en la ecuacin (7.14) que de esta forma ha quedado planteada de la
siguiente manera:
1 B 36511B Ciclot=t Ciclot =Ciclot 365Ciclot 11Ciclot 366t (7.22)
Los resultados obtenidos por la combinacin de modelos (7.22)-(7.13) mejoran durante el periodo invernal los
conseguidos por la combinacin (7.14)-(7.13) pero empeoran durante el periodo estival. Esto podra no ser un problema
dado que nuestro estudio busca la obtencin de buenas predicciones durante los meses comprendidos entre Noviembre
y Marzo. El siguiente grfico establece la comparativa entre ellos, pudiendo apreciarse este ligero crecimiento.
Ilustracin 7.28: Comparativa entre las predicciones a medio plazo llevadas a cabo por dos modelos basados en la
deteccin del comportamiento cclico de la serie mediante funciones wavelets
Sin embargo, las predicciones que para los meses de invierno proporciona (7.22) - (7.13) tampoco han llegado a
alcanzar la calidad conseguida mediante el modelo que emplea la curva ajustada por splines (7.20) - (7.13). Los errores
medios y medianos de prediccin para cada uno de los tres modelos se presentan en la siguiente tabla:
- 165 -
Tabla 7.12: Comparativa entre los errores de prediccin obtenidos por dos modelos que identifican el
ciclo anual de la serie mediante funciones wavelets y uno que lo hace mediante splines
Se representan errores fuera de muestra para los modelos (7.14) - (7.13) identificados por W1 (Wavelets1),
(7.22) - (7.13) identificados por W2 (Wavelets2) y (7.20) - (7.13) identificados por SP (Splines). A la vista de los
resultados se ha optado finalmente por la inclusin de la variable Ciclo (ms concretamente su transformada a travs de
la raz cuadrada, Rciclo) resultante del ajuste por splines. En la tabla siguiente se presentan las estimaciones asociadas a
los parmetros de la ecuacin (7.13) as como su significatividad.
- 166 -
Tabla 7.13: Modelo para la prediccin a medio plazo de la demanda de gas que identifica el efecto estacional, la
variabilidad, la tendencia y la periodicidad anual de la serie (las dos ltimas componentes identificadas por splines)
Si bien el valor del R2 mejora un poco respecto del ltimo ajuste (vase la tabla (7.11)), lo que ms llama la atencin es
que la nueva variable incluida (Rciclo) pasa a ser la que mayor significatividad presenta, modificando de manera
sensible las estimaciones correspondientes al resto de los inputs de la ecuacin. Esta variable adems de cumplir su
propsito fundamental de estimar el nivel en el que se mover la serie durante los dos prximos aos, viene a reforzar la
periodicidad anual de la misma y la variabilidad cambiante por meses ya recogida en parte por las variables
MES_TIPO. Recordemos que, al ir referida la definicin de cada spline a un mes concreto, la variabilidad de stos
cambia con el tiempo permitiendo reflejar que el crecimiento de la demanda de un mes a otro no sea constante.
- 167 -
7.2.5 FASE III: Simulacin del valor esperado de la demanda en situaciones climatolgicas extremas
El resultado de las dos fases anteriores permite cuantificar el valor de la demanda diaria de gas que se espera en Madrid
para los dos prximos aos supuestas unas condiciones climatolgicas normales. El paso final consiste en medir el
impacto sobre dicho patrn, de una circunstancia meteorolgica extrema como puede ser una ola de fro.
El punto de partida de esta ltima fase es la ilustracin (7.14). En el primer cuadrante de sta representbamos pares de
puntos que reflejaban, durante los meses invernales, la relacin existente entre el incremento de la demanda (respecto
del valor que se estima debi presentarse en condiciones normales de temperatura) y un descenso del valor de la
temperatura mxima (respecto de los valores medianos por meses presentados en la tabla (7.1)). La idea que
perseguimos es determinar cul es la distribucin del incremento esperado para la demanda supuesto un descenso
mximo de la temperatura, es decir, conocer la distribucin de la variable
YX = x donde Y es el incremento
porcentual de la demanda real respecto del patrn construido (vase ecuacin (7.3)), X es la desviacin entre el dato
verdadero de temperatura y el establecido como estndar para un mes concreto (vase ecuacin (7.2)) y x es la
mxima desviacin de temperatura respecto del estndar establecido para dicho mes que se tiene registrada en el
histrico.
Una de las principales razones que justifican el tratamiento mensual que se ha dado a este estudio es distinguir la
influencia de la temperatura en cada uno de los meses. Obviamente, no produce el mismo efecto una ola de fro en
Diciembre o Enero, meses puramente invernales durante los cuales los niveles de calefaccin acostumbran a estar al
mximo, que en Marzo, Abril o Mayo, ms primaverales, en los que porcentualmente el consumo de gas se incrementa
muy por encima de la media mensual (vase ilustracin (7.9)). Por ello, buscaremos la funcin de distribucin que
mejor refleje la dependencia entre los pares (x,y) en un mes determinado (de un color concreto en la ilustracin (7.14)).
Es en este contexto de estimacin de funciones de distribucin y simulacin de valores de sus condicionadas, en el que
hemos considerado apropiado utilizar funciones cpula. Queremos resaltar un aspecto importante que es la
independencia temporal que deben satisfacer las variables X e Y. Segn se explica en [FERSCA], un error frecuente que
se suele cometer al utilizar cpulas, es no garantizar la independencia temporal de las variables de anlisis. Una cpula
que se ajusta a los pares de valores (x,y), busca medir la relacin entre X e Y sin tener en cuenta la influencia de una
posible tercera variable (T = tiempo). En los casos en los que esta dependencia temporal exista (por ejemplo, en la
mayora de las series financieras multivariantes), los autores consideran que no deben utilizarse las cpulas
convencionales sino otras diseadas especficamente a tal fin (consltese el apartado 4 de [FERSCA] o los artculos de
Patton que se referencian en esta tesis, [PATTON] y [PATTON2]).
En nuestro caso, no es preciso tener esta precaucin dado que la independencia temporal de las variables X e Y es una
consecuencia directa de su propia definicin. La variable Y no mide la demanda de gas, la cual s depende lgicamente
del tiempo, sino los crecimientos o decrecimientos de demanda con respecto al patrn construido. stos, al estar
medidos en trminos porcentuales, no se ven fuertemente influenciados por sus instantes de ocurrencia t. De igual
modo, la variable X no mide la temperatura que obviamente depende de la estacin del ao, sino el nmero de grados
centgrados que sta se desva respecto de los valores medianos mensuales calculados a partir del histrico. Adems
debe tenerse en cuenta que, por el carcter mensual del estudio, vamos a ajustar una funcin cpula a los pares
Aplicacin prctica: Prediccin de la demanda de gas natural
- 168 -
muestrales de un mismo mes, siendo razonable pensar que la posible dependencia temporal entre las variables X e Y
dentro de un mismo mes sea an menor.
Aun cuando presentaremos los resultados finales para cada unos de los 10 meses invernales que se contemplan en los
dos aos del horizonte de prediccin (dos meses de Noviembre, dos de Diciembre, dos de Enero, dos de Febrero y dos
de Marzo), nicamente para uno de ellos, M, haremos un anlisis ms detallado y mostraremos los grficos y resultados
parciales que vayamos obteniendo en cada una de las etapas de esta ltima fase. stas son las siguientes:
En segundo lugar, determinaremos aquella familia de cpulas CXY,M* , de entre todo un conjunto de candidatas
(arquimedianas, elpticas, de valor extremo, etc.) que mejor se aproxime a la verdadera distribucin conjunta
HXY (de acuerdo a la relacin establecida por el teorema de Sklar). El criterio de seleccin de la cpula por el
que se ha optado, consiste en tomar aqulla que ofrece un mnimo valor respecto del estadstico de Pearson que
evala el contraste de bondad de ajuste a una distribucin desconocida respecto de una particin dada (vase
apartado 2.5.5). La evaluacin del estadstico se har nuevamente sobre datos correspondientes al mes M
localizados en el conjunto de entrenamiento (desde el 1 de Abril de 1997 hasta el 31 de Marzo de 2004).
Finalmente realizaremos predicciones fuera de muestra (out-of-sampling) con la cpula seleccionada CXY,M* .
Adems, se contrastarn dichos resultados con aqullos que proporcionen otras cpulas obtenidas por
interpolacin de la subcpula que optimiza el estadstico de Pearson y cuya generacin se detalla en el captulo
4 de esta tesis. En concreto, se propondr una cpula obtenida por interpolacin bilineal (vase apartado 4.2.1),
otra mediante polinomios interpoladores de Bernstein (vase apartado 4.2.2) y una tercera obtenida por
interpolacin cbica mediante polinomios de Hermite (vase apartado 4.2.3). El criterio de seleccin definitivo
que se ha tomado consiste en elegir aqulla que mejores predicciones proporcione (vase apartado 2.5.6).
Vamos a empezar determinando el mes M para el que iremos detallando cada uno de estos pasos. Podemos considerar
que tal vez, el que pueda ilustrar mejor el proceso completo es aqul para el cual, a futuro, se disponga de una mayor
cantidad de descensos extremos de la temperatura. Esta consideracin es importante pues perseguimos evaluar la
calidad de las predicciones fuera de muestra en situaciones meteorolgicas especialmente adversas y por ello es
conveniente disponer de una muestra de validacin que sea lo ms amplia posible. La siguiente tabla muestra por filas,
para cada uno de los 10 meses invernales fuera de muestra, el nmero de das para los que el valor real de la
temperatura mxima se desva un determinado nmero de grados (por columnas) de los valores medianos recogidos en
la tabla (7.1)).
Aplicacin prctica: Prediccin de la demanda de gas natural
- 169 -
Tabla 7.14: Conteo, sobre el conjunto de validacin, del nmero de das por mes en los que la temperatura mxima
desciende un determinado nmero de grados centgrados respecto del valor establecido como normal
A la vista de esta tabla y de acuerdo al criterio establecido, no existe duda en tomar el mes de Febrero de 2005 como
referencia de estudio. Del mismo modo, si nos restringimos a las desviaciones de temperatura que hemos dejado de
considerar como normales (a partir de 3C) y a cuyo tratamiento est dirigido este anlisis, el nmero de das que
aparecen en dichas condiciones es muy superior (16) al de cualquier otro mes (Noviembre de 2005 y Enero y Febrero
de 2006 como siguientes candidatos, slo tienen 9).
En consecuencia, el soporte de las variables X e Y para el caso que vamos a detallar, estar conformado por datos
referidos a los meses de Febrero comprendidos entre el 1 de Abril de 1997 y el 31 de Marzo de 2004, es decir, un total
de 7 meses, que dan lugar, a una muestra de 198 puntos (vase tabla (7.7)) de los cuales 158 (casi un 80%) caen en los
cuadrantes primero y tercero. Recordemos que son los pares ubicados en estos cuadrantes los que responden a una
relacin lgica entre las variables: cuando la temperatura baja se produce un incremento de demanda y cuando sube se
produce un decremento de la misma. Sin embargo, dado que estamos nicamente interesados en posibles aumentos del
consumo de gas a partir de bajadas de temperatura, vamos a restringir an ms el espacio de anlisis al conjunto de
pares que pertenecen al primer cuadrante. ste se compone de un total de 76 puntos (casi la mitad de los bien
clasificados) que presentamos en la ilustracin (7.30). Este conjunto servir de soporte para obtener las funciones de
distribucin, tanto de X e Y, como de la conjunta (X,Y) a travs del ajuste de una cpula al espacio de pares
transformados (u,v) por las respectivas marginales FX y GY.
Para la generacin de las marginales FX y GY, basta aplicar la definicin de la funcin de distribucin emprica continua
que se presenta en [MATTEIS] y que ya dimos en el apartado 2.2. Tambin podra contrastarse si X e Y responden a
algunas de las distribuciones continuas univariantes conocidas (normal, uniforme, exponencial, etc.). Presentamos a
continuacin el resultado grfico de esta aproximacin emprica.
Aplicacin prctica: Prediccin de la demanda de gas natural
- 170 -
Ilustracin 7.29: Funciones de distribucin empricas continuas asociadas al incremento de la temperatura mxima
y al incremento de la demanda de gas en Febrero
Aplicando estas funciones obtenidas a las muestras respectivas de X e Y obtendremos el espacio transformado de pares
u ,v=F X x,GY y (vase el grfico de la derecha en la ilustracin (7.30)), que utilizaremos para determinar la
cpula CXY,M* que mejor representa la relacin de dependencia entre las variables.
7.2.5.2 Determinacin de una cpula a travs del criterio de seleccin basado en el estadstico de Pearson
Dado que el criterio de seleccin que vamos a seguir est basado en determinar aquella cpula que respecto de una
particin del cuadrado unidad presenta un mejor valor del estadstico de Pearson, es necesario en primer lugar
determinar la dimensin de dicha particin. Si bien sera bueno que cada uno de los rectngulos que resultasen de esta
particin tuviese un nmero mnimo de puntos (existen convenios empricos que fijan en 5 este mnimo), proceder de
esta manera dificultara disponer de un rectngulo en el que se concentrasen claramente los valores extremos de ambas
variables. De no disponer de l, por el carcter emprico de las densidad de las cpulas interpoladoras que vamos a
ajustar, stas no seran capaces de concentrar su probabilidad en esta regin extrema y en consecuencia no seran
capaces de capturar bien correlaciones entre sucesos extremos. As, aunque la particin que asegura este mnimo de
puntos por rectngulo es de dimensin 2 x 2, se ha decidido tantear con particiones de diferentes dimensiones dentro de
unos rangos razonables, para ver cul de ellas termina ofreciendo mejores resultados en trminos de errores de
prediccin. De todas ellas, ha sido la de dimensin 5 x 5 la que ha conseguido esta optimalidad. En el siguiente grfico
se presenta el espacio de anlisis antes y despus de la transformacin llevada a cabo por las marginales FX y GY, as
como la configuracin del reparto de pares en el cuadrado unidad respecto de esta particin.
- 171 -
Ilustracin 7.30: Espacio original de las variables incremento de temperatura e incremento de demanda en
Febrero y espacio transformado mediante sus funciones de distribucin empricas continuas
Observemos que, como acabamos de decir, sera necesario reducir la dimensin del espacio hasta 2 x 2 para garantizar
la presencia de 5 puntos por rectngulo.
Ilustracin 7.31: Tentativas de particin para el espacio transformado que sirve de soporte a una cpula
El siguiente paso nos lleva ahora a considerar una relacin de familias de cpulas uniparamtricas candidatas a reflejar
la relacin entre nuestro par de variables. Son dos las condiciones que vamos a imponer para que una familia de cpulas
pueda ser evaluada como posible alternativa:
YX = x
conocida y, si tambin es posible, que sea fcilmente invertible pues, a partir de dicha funcin, llevaremos a
cabo la simulacin de valores del incremento de demanda en funcin de una desviacin propuesta para la
temperatura mxima. En caso de existir problemas de invertibilidad, siempre podremos generar valores de la
misma a travs de mtodos numricos.
Aplicacin prctica: Prediccin de la demanda de gas natural
- 172 -
Que el parmetro de la cpula se pueda calcular de una forma sencilla a partir de la Tau de Kendall (o del
coeficiente de correlacin de Spearman o incluso del de correlacin lineal) para poder disponer as de un
representante de la familia para el cual calcular el estadstico de Pearson asociado a la particin.
Conforme a este criterio, las familias propuestas, cuya expresin se detalla en el Anexo I, han sido:
Con el fin de reunir un total de 10 familias, hemos considerado otras dos arquimedianas (las nmero 13 (AI.22) y 15
(AI.24) dentro de la clase de las arquimedianas uniparamtricas presentadas en el Anexo I, de nomenclaturas F13 y F15
respectivamente) cuya distribucin condicionada es tambin fcil de calcular y para las que el valor del parmetro es
directamente calculable a travs del estadstico de Kendall. Para conocer las condicionadas asociadas a las cpulas
arquimedianas as como el clculo del valor del parmetro se pueden consultar los Apndices A,B y C de [MATTEIS].
Dentro de ste, estas dos ltimas familias ((AI.22) y (AI.24)) responden a las numeraciones 12 y 14. Tambin hemos
considerado como candidata a la cpula producto (o independiente) para contrastar una posible falta de dependencia
entre las variables.
- 173 -
Gracias a las condiciones impuestas es posible calcular el valor del estadstico de Kendall asociado al conjunto de pares
(u,v) y, a partir de l, estimar el valor del parmetro correspondiente a cada una de las familias candidatas. La cpula
cuyo parmetro tome dicho valor ser considerada como la representante de la familia siempre y cuando el valor
resultante se mantenga en el rango de variacin que para ese parmetro tenga establecido la familia en cuestin.
A modo ilustrativo proponemos como ejemplo seleccionar los representantes asociados a las familias de Gumbel y
Farlie-Gumbel-Morgenstern.
Como paso previo calcularemos los valores de la Tau de Kendall y el coeficiente de correlacin de Spearman respecto
de la muestra (u,v) representada en la ilustracin (7.30). Estas medidas de asociacin, adems de cuantificar la relacin
(no necesariamente lineal) entre las variables U y V, servirn para estimar los parmetros asociados a las dos familias
consideradas.
Tabla 7.15: Valor de la Tau de Kendall y del coeficiente de Spearman para la muestra de
entrenamiento transformada asociada al mes de Febrero
=1
C u , v=exp[ln u ln v ] con 1
1
(vase Apndice B de [MATTEIS]). En consecuencia,
1
1
=
=
=1.961 y as el
1 10.49
C u , v=uv[11u1v] con 11
donde
2
(vase ejemplo 5.2 de [NELSEN]). En consecuencia,
9
9 90.49
=
=
=2.25[1,1 ] y por
2
2
- 174 -
volumen emprico de los rectngulos de la particin y el volumen esperado para ellos a travs de la cpula representante
de una clase, menores sern las cantidades como suma de las cuales se obtiene el estadstico de Pearson y en
consecuencia, menor ser el valor de ste. As, conforme se hace ms pequeo el valor de este estadstico, mayor es el
grado de bondad del ajuste de la cpula a los datos. En la tabla siguiente se muestra para cada uno de los representantes
de las familias de cpulas candidatas, los valores de los respectivos estadsticos de Pearson ordenados de forma
creciente.
Tabla 7.16: Evaluacin del estadstico de Pearson para una serie de cpulas ajustadas a la muestra de
entrenamiento asociada al mes de Febrero
Dado que hemos supuesto que las marginales de X e Y son desconocidas y que hemos procedido a su estimacin a partir
de sus funciones de distribucin empricas, el estadstico de Pearson, segn se expone en el captulo 2 de [DOSCH], se
distribuye segn una Chi-cuadrado con
la cpula gaussiana (NOR) marcara el umbral desde el cual se rechazara el contraste de bondad de ajuste. Si por el
contrario, las funciones FX y GY hubieran sido conocidas, el estadstico de Pearson se hubiera distribuido segn una Chicuadrado con mn1d =5511=23 grados de libertad donde d sera el nmero de parmetros de la cpula.
En esta caso, el valor del estadstico, a un nivel de significacin del 0.05%, hubiese sido 35.17, dando lugar a la regin
crtica RC ={ X X 35.17} . Respecto de esta segunda regin, el contraste sugerira de forma adicional como
posibles alternativas las familias F13 y de Clayton (CLA).
- 175 -
En cualquier caso, como era de esperar la cpula producto () resulta ser la que peor se aproxima a la verdadera
distribucin cpula asociada a los datos, lo cual refuerza la hiptesis de que efectivamente existe estructura de
dependencia entre ellos. Por otra parte, las dos familias de cpulas que mejor parecen reflejar esta relacin de
dependencia entre X e Y (a travs de U y V), con valores del estadstico de Pearson casi parejos, son la de Cola Derecha
Pesada (CHRT) y la de Gumbel (CGUMBEL). Este resultado parece sensato teniendo en cuenta que, de antemano,
esperbamos que la cpula a utilizar enfatizase la relacin entre valores extremos de demanda y temperatura. De todas
las candidatas planteadas son precisamente estas dos las especialmente orientadas a tal fin. La cpula CHRT refuerza la
relacin entre las colas derechas de las distribuciones (mximos incrementos de demanda frente a mximas cadas de
temperatura) y la de Gumbel es en s misma una cpula perteneciente a la clase de valor extremo que, adems de
presentar colas pesadas, manifiesta cierta asimetra tendiendo a concentrar la probabilidad ms en su cola derecha que
en su cola izquierda. Decantarse por cualquiera de ellas es indiferente de acuerdo a los valores tan parecidos que
presentan respecto del estadstico del contraste. Por respetar el resultado obtenido optaremos por la primera de ellas, o
lo que es lo mismo, por la cpula representante de la familia HRT, de ecuacin
1
Ilustracin 7.32: Densidad de la cpula de Cola Derecha Pesada ajustada a la muestra de entrenamiento en Febrero
Los grficos anteriores son dos visiones posibles de la densidad cpula asociada a la expresin (7.24), una mediante un
grfico tridimensional y otra mediante uno de contorno. En ambos queda claramente puesta de manifiesto la
concentracin de probabilidad en la parte de la distribucin conjunta en que se cruzan las dos colas derechas de las
distribuciones marginales. La ecuacin de esta densidad as como algunas otras propiedades y aplicaciones prcticas de
esta cpula pueden ser encontradas en [VENTER]. En dicho artculo encontramos por ejemplo la relacin entre el valor
de la cpula y el estadstico de Kendall, medida por =
1
.
21
- 176 -
1 10.49
=
=0.52 , valor que entra dentro del rango de variacin del parmetro de
De aqu, se concluye que =
2
0.98
1
0.52
(7.25)
Esta expresin es invertible y por tanto se puede utilizar el mtodo de la transformada inversa para generar valores de V
a partir de un valor U = u conocido (vase apartado 5). Efectivamente, si p es un valor generado de una variable
aleatoria P uniforme en (0,1), la igualdad
1
1
0.52
= p (7.26)
permite despejar v de manera sencilla y obtener la ecuacin del valor generado para la variable V en funcin de U,
1
dada por
0.52
generar valores de V. Obviamente, los valores que realmente nos van a interesar son las imgenes inversas mediante GY
de cada v generado, pues sern estos valores simulados de Y los que correspondan a los incrementos porcentuales de
demanda. A travs de estos valores simulados, podremos obtener los respectivos valores de la propia variable demanda
tras despejar en la ecuacin (7.3) de la siguiente manera:
Demanda _ esperada t =Prediccion _ demanda _ en _ condiciones _ normales _ de _ temperatura t 1
y
(7.28)
100
Despus de simular 100 valores de Y, hemos procedido a su representacin a travs de un histograma de frecuencias,
siendo el resultado el que se muestra a continuacin:
- 177 -
La mediana de estos valores, marcada por una fina lnea punteada en rojo, podra ser tomada como el valor esperado
para la demanda. El error porcentual de esta prediccin con respecto al valor real que se present para la demanda es de
un -2.82%, aproximacin que se puede considerar francamente buena. Pero adems, de manera adicional, el
conocimiento de la distribucin permite medir la probabilidad de que el consumo de gas sea an mayor y evaluar
posibles riesgos derivados de que se alcanzaran valores extremos. La forma asimtrica de la distribucin, ms pesada en
su cola derecha, es una consecuencia directa del empleo de la cpula C*HRT.
Vamos ahora a ajustar cpulas de carcter emprico, no paramtricas y que optimizan el valor del estadstico de
Pearson. Para ello empezaremos resolviendo el problema de programacin fraccional (4.7) que proporciona la relacin
de valores c'ij que debe tomar una subcpula C' en cada uno de los vrtices (i, j) de la particin para que el valor del
estadstico de Pearson, calculado a partir de los propios c'ij y del nmero de puntos muestrales Nij que caen en cada uno
de los rectngulos, sea lo menor posible. La siguiente tabla presenta la solucin ptima c*ij a dicho problema. El valor
del estadstico de Pearson que se obtiene a partir de esta solucin es 0.357.
- 178 -
Tabla 7.17: Valores que debe tomar la subcpula que optimiza el valor del estadstico de Pearson en
cada uno de los vrtices de la particin del cuadrado unidad
Se puede demostrar que la funcin C* definida por esta relacin de valores c*ij es una subcpula viendo que verifica
cada unas de las propiedades que caracterizan a estas funciones ((1.1) (1.4)). La comprobacin de las dos condiciones
frontera es inmediata:
i
j
i
i
j
j
C ' , 0=C ' 0, =0 i , j {1,2 ,3,4,5 } y C ' , 1= y C ' 0, = i , j {1,2 ,3 ,4,5} .
5
5
5
5
5 5
Para verificar que C* es 2-creciente, basta ver que para cualquier rectngulo conformado por 4 valores adyacentes de
dicha tabla (la evaluacin de C* sobre los vrtices del rectngulo), la diferencia entre los que se sitan en la diagonal
principal y los que se ubican en la secundaria es siempre mayor o igual que cero. De ser as, como cualquier otro
rectngulo se puede expresar siempre como un agregado de ellos, sus correspondientes volmenes sern tambin
mayores o iguales que cero. Tambin se puede comprobar el lema 2.1.4 que encontramos en [NELSEN] segn el cual,
si efectivamente la funcin C* es 2-creciente entonces debe ser no decreciente en cada una de sus variables. A este
respecto, podemos observar que los valores de la tabla anterior crecen conforme nos movemos hacia arriba o hacia la
derecha. Sin embargo, se trata de una propiedad necesaria (y no suficiente) que no garantiza la 2-crecencia de C*.
Los valores anteriores definen as una subcpula C* que adems presenta el menor valor posible del estadstico de
Pearson para la particin dada, en comparacin con cualquier otra posible subcpula definida sobre ella.
Si construimos una funcin cpula que tome exactamente los mismos valores que la subcpula en los nodos de la
particin, el resultado de la evaluacin del estadstico de Pearson para dicha cpula ser exactamente el mismo.
De acuerdo a lo expuesto en los apartados 4.2.1, 4.2.2 y 4.2.3 de esta tesis, vamos a proponer una cpula generada por
interpolacin bilineal, otra por interpolacin mediante polinomios de Bernstein y una tercera obtenida por interpolacin
mediante polinomios cbicos de Hermite. Finalmente estableceremos la comparativa entre las curvas de distribucin de
demanda predichas para el 23 de Febrero de 2005 con cada una de las cpulas propuestas.
Teniendo en cuenta el lema (4.1) y la ecuacin (4.8) la construccin de la cpula C*BILINEAL que se obtiene por
interpolacin bilineal de C* es inmediata. El valor de la densidad cpula puede ser calculado directamente a partir de la
tabla anterior ya que se define sobre cada rectngulo de la particin como la constante que resulta de realizar el cociente
Aplicacin prctica: Prediccin de la demanda de gas natural
- 179 -
entre el volumen del propio rectngulo y su rea (vase ecuacin (4.9)). sta ltima cantidad es comn a todos los
rectngulos y vale
1 1 1
=
. As por ejemplo, teniendo en cuenta la tabla (7.17), el valor de la densidad en
5 5 25
V *C B
=2510.80.80.766=4.15 .
1/ 25
Los siguientes grficos dan dos visiones distintas de la densidad cpula asociada a C*BILINEAL, funcin que por ser
constante sobre cada uno de los rectngulos presenta un aspecto escalonado. En el grfico de contorno resulta sencillo
validar el resultado de la operacin anterior.
Ilustracin 7.34: Densidad de la cpula obtenida por interpolacin bilineal de la subcpula que optimiza el
estadstico de Pearson ajustada a la muestra de entrenamiento en Febrero
Dado que esta cpula es una interpolacin exacta de los valores que toma C* en cada uno de los puntos de su dominio
de definicin, la evaluacin del estadstico de Pearson vuelve a ser 0.357. Se puede observar como la mayor parte de la
densidad se concentra en la regin de la funcin en la que confluyen las colas derechas de las distribuciones de X e Y, lo
cual es sinnimo de la fuerte correlacin entre ellas y que ya recoga la cpula C*HRT. Aunque en menor medida, otra
parte importante de la densidad se concentra en el rectngulo inferior izquierdo lo cual se puede entender si tenemos en
cuenta que existen bastantes puntos en el mismo (vase ilustracin (7.30)) que reflejan pequeos incrementos de
demanda en respuesta a insignificantes descensos de la temperatura. Esto es una prueba de la buena calidad del proceso
de construccin del histrico de demanda en condiciones normales de temperatura pues es de esperar que, si la
temperatura se desva pocos grados de su valor mensual esperado, el efecto sobre el comportamiento base de la
demanda sea despreciable. La captura de esta segunda regin en la que se concentra la probabilidad no es un hecho
asociado exclusivamente al carcter emprico de la cpula interpoladora. Ya en el ajuste que hemos hecho con la cpula
C*HRT se mostraban leves indicios de correlacin entre las colas izquierdas de las distribuciones, circunstancia que no
pasaba desapercibida en el grfico trmico de la ilustracin (7.32) en el cual se dejaba ver una tenue degradacin del
color cerca del origen. El ltimo paso es nuevamente simular valores de Y a partir de la condicionada de C*BILINEAL, lo
cual se har a travs de la expresin (5.16) segn se detalla en el apartado 5.2.
- 180 -
El segundo tipo de interpolacin que vamos a llevar a cabo es a travs de polinomios cbicos. La idea es ajustar a cada
uno de los rectngulos de la particin un polinomio de orden 3, o superficie cbica en U y V, que interpole los valores
c*ij que toma la subcpula ptima en cada uno de los vrtices (i, j) de dichos rectngulos. Sin embargo, la construccin
de una cpula cbica que pase por dichos puntos no es siempre posible. De acuerdo al teorema (4.6) la construccin de
una cpula mediante superficies cbicas interpoladoras de Hermite est garantizada si C* es una subcpula-VMIN que de
acuerdo a la definicin (4.2) es una subcpula tal que el volumen a travs de ella de cualquier rectngulo de la particin
sea al menos
V MIN =
2
2
2
=
=
.
3mn 355 75
Nuestra subcpula ptima no verifica esta propiedad pues dado por ejemplo el rectngulo
acuerdo
los
valores
presentados
V C B=0.20.200=0
*
en
la
tabla
(7.17),
el
volumen
de
1
4
B=[ 0, ] x [ 1 ] y de
5
5,
dicho
rectngulo
sera
2
. Por ello, un primer paso consiste en definir la subcpula-VMIN C** que optimice
75
nuevamente el valor de la expresin de Pearson o lo que es lo mismo, encontrar la solucin ptima al problema de
programacin matemtica (4.39). La siguiente tabla presenta la relacin de valores c**ij que definen esta solucin.
Tabla 7.18: Valores que debe tomar la subcpula-VMIN que optimiza el valor del
estadstico de Pearson en cada uno de los vrtices de la particin del cuadrado unidad
El valor del estadstico de Pearson que se obtiene a partir de esta solucin y del nmero de puntos muestrales Nij que
caen en cada uno de los rectngulos es 19.00, valor que se conservar para la cpula cbica C**CBICA que construyamos
y que, como era de esperar, es superior al obtenido para la subcpula ptima. Este valor no es directamente comparable
con los presentados para dicho estadstico respecto de las familias uniparamtricas presentadas en la tabla (7.16)
precisamente por la naturaleza no paramtrica de las cpulas interpoladoras que hace que el nmero de grados de
libertad de ellas no sea el mismo. An as, el valor obtenido es muy similar al que ha resultado para las principales
favoritas (prximo a 18 para C*HRT y C*GUMBEL ), con lo cual, si simplemente interpretramos los valores de la expresin
de Pearson como una medida del error de ajuste entre lo observado en cada rectngulo (Nij) y lo esperado a travs de la
cpula (n*pij), podramos considerar que ambos son de magnitud parecida.
- 181 -
La definicin de la superficie cbica interpoladora se establece a partir de la expresin (4.19) la cual requiere del
conocimiento del valor de C**CBICA as como de sus derivadas de primer y segundo orden en cada uno de los vrtices de
la particin. Por su propio carcter interpolador, el valor de C**CBICA en cada par (i, j) es el mismo que el de C**, es
decir, C*ij. Por tanto nicamente sera preciso determinar el valor de sus derivadas en cada (i, j).
Por ser coherentes con el desarrollo presentado en el captulo 4.2.3 de esta tesis, comenzaremos ajustando superficies de
Ferguson, es decir, asumiendo que el valor de la derivada segunda de C**CBICA, a partir de ahora C**FERGUSON, en cada
nodo de la particin es 0, o sea,
2 C **
FERGUSON u i , v j
=0 i { 0,1,2 , ...,5 } j{ 0,1,2 ,...5} .
u v
Entonces, de acuerdo al teorema (4.4) cualquier relacin de valores para las derivadas de primer orden
C **
C **
FERGUSON u i , v j
FERGUSON u i , v j
y
i { 0,1,2 , ...,5 } j{ 0,1,2 ,...5}
u
v
que sean solucin al problema de programacin no lineal entera relajado (4.26) va a generar una superficie
interpoladora de Ferguson (ecuacin (4.20)) que en s misma es una funcin cpula.
De todo el espacio de posibles soluciones, vamos a tomar aqulla que minimiza la suma de las derivadas de primer
orden. Si bien hubiera valido cualquier otra, la bsqueda de este objetivo pretende conseguir que las pendientes de los
vectores tangentes a la superficie tengan menor pendiente y, en consecuencia, el resultado sea ms suave.
Ilustracin 7.35: Densidad de la cpula obtenida por interpolacin cbica mediante superficies de Ferguson de la
subcpula-VMIN que optimiza el estadstico de Pearson ajustada a la muestra de entrenamiento en Febrero
El hecho de que la densidad cpula se obtenga a partir de la derivada segunda de C**FERGUSON respecto de U y V, y de
que hayamos forzado a que el valor de dicha derivada sea cero en todos los nodos de la particin, permite entender las
drsticas cadas a cero que en dichos puntos reflejan los grficos anteriores. Estos picos son por tanto consecuencia de
haber ajustado una superficie de Ferguson. Con vistas a conseguir una curva ms suave, vamos a imponer que el valor
de la derivada segunda en los vrtices de la particin de la nueva superficie a determinar C**CUBICA, a partir de ahora
- 182 -
C**HERMITE, se mueva en consonancia con el nivel que presente esa misma superficie en un entorno de dichos vrtices.
Una aproximacin a este nivel puede venir dada por el volumen a travs de C**HERMITE de los rectngulos que comparten
ese vrtice. Segn se explica en el apartado 4.2.3.2.2, dado un vrtice (ui, vj) un posible valor de referencia al que
V B
2 C **
Ref V u i , v j = C
HERMITE u i , v j
sera
siendo B el rectngulo de la particin cuyo vrtice
1 1
uv
5 5
**
aproximar
propona un segundo valor de referencia dado por la ecuacin (4.34) (aproximacin de Bernstein), pero ste ha sido
finalmente desestimado pues la superficie obtenida tena un aspecto ms irregular.
Esta consideracin conduce a que ahora, la bsqueda de suavidad implicar no slo a las pendientes de los vectores
tangentes a la superficie dadas por las derivadas primeras, sino tambin a las derivadas de segundo orden que
intentaremos aproximar lo ms posible a los valores de referencia citados. Esta aproximacin se plantea a travs de una
funcin distancia que se convierte en un nuevo objetivo a minimizar en nuestro problema de programacin fraccional
dndole a ste la catalogacin de problema multiobjetivo. El tratamiento de este problema se ha llevado a cabo a travs
del mtodo de las ponderaciones, dando peso 0.5 a cada uno de los dos objetivos y resolvindolo como si de un
problema uniobjetivo se tratara. De acuerdo al teorema (4.5) cualquier relacin de valores para las variables de decisin
**
C **
2 C **
HERMITE u i , v j C HERMITE u i , v j
HERMITE u i , v j
,
y
i{ 0,1,2 ,... ,5} j { 0,1 ,2,...5 }
u
v
u v
que sean solucin al problema de programacin no lineal entera multiobjetivo relajado (4.36), y en particular la
ptima, va a generar una superficie interpoladora de Hermite (ecuacin (4.19)) que en s misma es una funcin cpula y
que conserva el valor 19.00 del estadstico de Pearson. La optimalidad del problema no va a proporcionar un valor
mejor para el estadstico de Pearson sino que pretende generar una cpula de aspecto ms suave, condicin que parece
deseable a la hora de emplear sta con fines predictivos. Los grficos siguiente dan dos visiones distintas de la densidad
cpula asociada a C**HERMITE.
Ilustracin 7.36: Densidad de la cpula obtenida por interpolacin cbica mediante polinomios de Hermite de la
subcpula-VMIN que optimiza el estadstico de Pearson ajustada a la muestra de entrenamiento en Febrero
Aplicacin prctica: Prediccin de la demanda de gas natural
- 183 -
Aun cuando el aspecto de esa densidad sigue presentando irregularidades, en el grfico de contorno encontramos una
primera diferencia que salta claramente a la vista con respecto a C**FERGUSON (ilustracin (7.35)) y es la ausencia de los
pequeos crculos en color azul marino (representativo del valor 0) que existan en cada uno de los nodos de la
particin. Nuevamente vemos dos indicios claros de correlacin en el grfico en respuesta a la concentracin de puntos
que se observa en la ilustracin (7.30): una correlacin ms fuerte entre las colas derechas de las distribuciones y otra de
intensidad ligeramente menor entre las colas izquierdas. La simulacin de valores de esta cpula se puede llevar a cabo
a travs de la expresin (5.22) tal y como se explica en el apartado 5.3.
7.2.5.3.3 Construccin de una cpula por interpolacin mediante polinomios de Bernstein
La ltima cpula que vamos a construir C*BERNSTEIN utiliza polinomios de Bernstein (expresin (4.10)) como medio de
aproximacin al dominio de definicin de la subcpula C* aunque stos no permiten hacer una interpolacin exacta de
ella. Esto supone obviamente que, como ya nos sucediera con C**CUBICA, tampoco va a ser posible alcanzar el valor
ptimo del estadstico de Pearson obtenido para C*, si bien a cambio la ventaja es que, por la propia definicin de esta
cpula, su densidad asociada presenta un aspecto muy suave, lejos del comportamiento escalonado y sinuoso que
mostraban los ajustes anteriores.
Para definir la cpula C*BERNSTEIN basta aplicar la ecuacin (4.11) sobre las ternas de valores (i, j, c*ij) e igualmente a
partir de ellos se puede calcular la densidad cpula correspondiente dada por la ecuacin (4.12) y cuyo resultado se
muestra a continuacin:
Ilustracin 7.37: Densidad de la cpula obtenida por interpolacin mediante polinomios de Bernstein de la
subcpula que optimiza el estadstico de Pearson ajustada a la muestra de entrenamiento en Febrero
La suavidad a la que hacamos referencia es la principal propiedad que observamos a la vista de uno y otro grfico.
Adems, el carcter emprico de la cpula vuelve a quedar puesto de manifiesto. Como ocurriera con C*BILINEAL,
- 184 -
C**FERGUSON y C**HERMITE la densidad cpula enfatiza la correlacin en aquellos rectngulos de la particin donde existe
una mayor concentracin de puntos. En coherencia con las cpulas C*HRT y C*GUMBEL, esta correlacin es ms fuerte entre
las colas derechas de las distribuciones de X e Y y algo ms dbil entre los extremos izquierdos de ellas. El valor del
estadstico de Pearson ha vuelto a crecer un poco respecto al de C**CUBICA y se distancia ms del obtenido para las
familias uniparamtricas. Sin embargo, hemos considerado que el aspecto suave de su densidad es una caracterstica
interesante y diferenciadora respecto al de las otras cpulas interpoladoras construidas, constituyendo una razn de
suficiente peso, para plantearnos su empleo como posible alternativa para llevar a cabo la simulacin de valores de la
variable demanda. En este caso este proceso resulta algo ms complicado pues, si bien la cpula condicionada responde
a una expresin conocida (vase (5.23)), su inversin se antoja complicada. En su lugar, para realizar la simulacin de
un valor se puede proceder como se detalla en el apartado 5.4, generando un valor aleatorio p comprendido entre 0 y
1, igualando la expresin de la condicionada a dicho valor, y resolviendo en la variable V mediante mtodos numricos.
A continuacin, se presentan varios histogramas que reflejan la distribucin de la demanda de gas en Madrid esperada
para el da 23 de Febrero de 2005 en el supuesto de que dicho da se produjera una bajada de diez grados centgrados
respecto del valor histrico mediano de las temperaturas mximas registradas en ese mes, que recordemos es 13.7C
(vase tabla (7.1)). Cada histograma es el resultado producido por una cpula distinta: C*HRT, C*GUMBEL, C*BILINEAL,
C**BERNSTEIN y C**CUBICA. Con la idea de poder comparar estas distribuciones todos los histogramas han sido anclados en un
mismo origen y se ha considerado un nmero comn de cajas de la misma amplitud. La lnea punteada azul refleja la
prediccin que proporciona en condiciones normales de temperatura el modelo (7.13). La lnea de color rojo marca la
mediana de los valores simulados para la demanda supuesto un descenso de temperatura de 10C. Finalmente la lnea de
color negro muestra el valor real de la demanda que se present dicho da. Obviamente, esta ltima junto con la primera
son fijas en todos los grficos. Tambin se muestra el error con signo en el que se incurrira si se tomara como valor
predicho para la demanda la mediana de la distribucin.
- 185 -
Ilustracin 7.38: Distribucin de las predicciones simuladas para la demanda mediante distintas familias
de cpulas cuando la temperatura mxima desciende 10C respecto de su valor normal para Febrero
A la vista de los histogramas, parece que son las cpulas C*GUMBEL y C*HRT las que proporcionan mejores resultados con
unos mrgenes de error sorprendentemente buenos. Las predicciones en mediana dadas por las cpulas interpoladoras
quedan ms distantes del valor real de la demanda. De todas maneras no debemos sacar conclusiones de forma
precipitada. Puede ser que el valor mediano sugerido por las cpulas interpoladoras sea realmente ms fiable que el de
las otras dos pero que el dato registrado el 23 de Febrero haya sido un valor atpico y extremo como anuncian las colas
de dichas distribuciones. Es decir, puede ser que el dato real de ese da sea un valor realmente alto que debera haber
Aplicacin prctica: Prediccin de la demanda de gas natural
- 186 -
sido capturado por el mximo de las distribuciones que ofrecen las cpulas C*HRT y C*GUMBEL y no as por su valor
mediano respecto del cual estamos planteando la prediccin. Por ello, de momento consideraremos importante el hecho
de que el dato real (en negro) siempre est comprendido dentro del rango de variacin de todas las distribuciones
presentadas. A raz de este comentario, un posible anlisis sera cuantificar en cuntas ocasiones el dato real queda
incluido entre el mnimo y el mximo de la distribucin de valores simulados por cada funcin cpula.
Para medir definitivamente cul de las cpulas genera mejores predicciones en el mes de Febrero de 2005 vamos a
hacer predicciones para todos aquellos das de ese mes en los que el descenso de la temperatura con respecto al valor
establecido como normal fue al menos de 3C. El nmero de datos segn muestra la tabla (7.14) es 16, el mayor sujeto a
estas circunstancias en comparacin con el resto de los meses. De hecho ha sido sta la razn que nos ha llevado a
realizar el estudio sobre este mes. As, para cada uno de esos das, vamos a hacer el mismo anlisis que para el 23 de
Febrero, es decir, sabiendo de antemano el nmero de grados que baj la temperatura real, haremos las simulaciones de
incrementos de demanda condicionando a ese valor numrico. Los criterios que vamos a establecer para medir la
bondad de las cpulas candidatas son los siguientes:
1.
Valores reales en rango.- Vamos a medir el nmero de veces en el que el dato real de consumo queda
comprendido entre el mnimo y el mximo de los valores simulados. Premiaremos a las dos cpulas que
presenten un mayor nmero de valores en rango.
2.
Fiabilidad de la distribucin.- Vamos a contar cuntos de los valores reales estn cerca de los distintos
percentiles de la distribucin conformada por las simulaciones realizadas. Si el valor real cae entre el mnimo y
el cuartil 1 de la distribucin de la prediccin lo contaremos dentro del grupo BAJA (parte baja de la
distribucin); si cae entre los cuartiles
distribucin); si cae entre el cuartil 3 y el percentil 95 lo asociaremos al grupo ALTA (parte alta de la
distribucin); si cae por encima del percentil 95, el valor corresponder al grupo EXTRM (parte extrema de la
distribucin). Adicionalmente existen los grupos BMIN (bajo mnimo) y SMAX (sobre mximo) que harn
referencia a aquellos valores reales que caen por debajo del valor mnimo de la distribucin y por encima del
valor mximo. La fiabilidad de la distribucin depender de los tres factores siguientes:
Los valores reales deben estar concentrados cerca de la mediana, es decir, en la clase MEDIA el
nmero de valores reales debe ser mayor o igual que en la suma de las clases BMIN y BAJA y tambin
mayor o igual que en la suma de las clases ALTA, EXTRM y SMAX. La interpretacin sera que
cuando la temperatura baja un determinado nmero de grados, el valor real cae fundamentalmente en
el rango de mayor densidad de la distribucin (el rango esperado).
Interesa que los valores reales estn ms concentrados en la cola derecha que en la izquierda, es decir,
deben caer ms veces entre los grupos ALTA, EXTRM y SMAX que entre BMIN y BAJA. De no ser
- 187 -
as, pudiera darse el caso de que las predicciones tendiesen a un mximo que realmente no se alcanza
nunca y no parece conveniente alarmar a la compaa ante la posibilidad de un mximo que nunca
llega a presentarse. O dicho de otra manera, parece fcil establecer un mximo si ste es inalcanzable.
Por ello, debe existir cierta inclinacin de los valores reales hacia la cola derecha de la distribucin de
las simulaciones (debe ser ms pesada).
Dentro de la cola derecha, el nmero de valores reales en el grupo ALTA debe ser mayor o igual que
en el grupo EXTRM y esta misma relacin debe guardar este ltimo respecto del grupo SMAX, es
decir, la frecuencia de valores en la cola derecha debe ser decreciente. De esta forma, el nmero de
valores reales en cada clase de la cola derecha se mover en consonancia con la densidad de las
mismas.
Premiaremos a las dos cpulas que, de manera significativa, mejores resultados presenten respecto de cada uno
de los criterios.
3.
Calidad de las predicciones.- Vamos a calcular las medias de los errores de prediccin cometidos. Se
proponen 3 medidas:
Media de los errores porcentuales absolutos de todos los das simulados (16 datos). Estos errores se
miden, para cada da, comparando el dato real y el valor mediano de la distribucin de la prediccin
que es el que se utilizar como referencia de demanda esperada para ese da.
Media de los errores porcentuales absolutos de los das que caen en el grupo MEDIA. Estos errores se
miden para cada da del grupo MEDIA comparando el dato real y el valor mediano de la distribucin
de la prediccin. Supuesto que en un porcentaje alto de los casos el dato real estar cerca del valor
mediano de la distribucin, se trata de cuantificar el error entre ambos valores.
Media de los errores porcentuales absolutos de los das que caen en los grupo EXTRM y SMAX. Estos
errores se miden para cada da de los grupo EXTRM y SMAX comparando el dato real y el valor
mximo de la distribucin de la prediccin. Se trata de cuantificar el error que se comete al dar como
prediccin el valor mximo de la distribucin.
De igual manera que antes premiaremos a las dos cpulas que, de manera significativa, mejores resultados den
para cada uno de estos criterios.
- 188 -
De acuerdo a lo expuesto, queda patente nuestro inters en medir la calidad de las predicciones en trminos de sus
distribuciones y no nicamente en funcin de su capacidad para acertar de forma puntual. Una de las principales
ventajas que aporta el empleo de cpulas frente a otro tipo de metodologas ms convencionales es la posibilidad de
proporcionar resultados en trminos de distribuciones que no tienen porqu ser necesariamente simtricas. Queremos
destacar (vase por ejemplo la cpula de Gumbel en la ilustracin (7.38)) el hecho de que, con independencia de la
cpula que se utilice, los valores de las colas derechas (en amarillo) se encuentren ms concentrados respecto de la
mediana (que se propone como prediccin) que los de las colas izquierdas (en verde), aun cuando por definicin de la
propia mediana (percentil 50), el nmero de ellos situados en una y otra cola ser el mismo. Esta circunstancia resulta
de gran relevancia para la compaa gasista pues le permitir tener ms controlada (acotada) la incertidumbre asociada
al pico mximo de demanda que, no debemos de olvidar, es el verdadero objetivo de este estudio.
Habiendo realizado este apunte, presentamos a continuacin el resultado obtenido para el mes de Febrero de 2005
respecto de cada uno de los 3 criterios establecidos.
De acuerdo a este primer criterio existe una cpula claramente desfavorecida que es la ajustada mediante interpolacin
cbica. En dicho caso, 5 de los 16 datos reales no se encuentran comprendidos entre el mnimo y el mximo valor
predicho. Por tanto, de acuerdo a este primer criterio podramos empezar descartando dicha cpula. Para las restantes
cpulas, los valores son muy parecidos siendo tan slo mejores en una unidad (un da) para las cpulas obtenidas por
interpolacin de C* que para las pertenecientes a las familias de Gumbel y HRT. Tal vez lo ms justo sera premiar con
un punto a todas las cpulas salvo a C**CUBICA, aun cuando las que mejores resultados consiguen son las otras dos
interpoladoras.
Tabla 7.19: Evaluacin del criterio Conteo de valores en rango para las cpulas candidatas a
reflejar la relacin entre el incremento de la demanda y el incremento de la temperatura en Febrero
- 189 -
Fiabilidad de la distribucin
Respecto del primero, las cpulas C*BERNSTEIN y C**CUBICA son las que presentan ms elementos (7) entre el cuartil
1 y el cuartil 3 (clase MEDIA) pero en ningn caso llegan a suponer al menor el 50% de los datos reales.
Respecto del segundo, todas las cpulas verifican tener ms valores a partir del cuartil 3 (grupos ALTA,
EXTRM y SMAX) que por debajo del cuartil 1 (grupo BAJA), dndose el efecto asimtrico esperado. Las dos
que ms peso tienen en dicha cola son C*BERNSTEIN y C**CUBICA pero tal vez fuera injusto penalizar a las
distribuciones C*HRT y C*GUMBEL. Slo en el caso de C*BILINEAL, el peso de la cola izquierda parece excesivo.
Respecto del tercero, slo la cpula C*BERNSTEIN respeta el orden decreciente en cuanto al nmero de valores
ubicados en las clases ALTA, EXTRM y SMAX.
Por tanto, premiaramos con 2 puntos a C*BERNSTEIN y con 1 a todas las dems salvo a C*BILINEAL que no recibira ningn
punto.
Tabla 7.20: Evaluacin del criterio Fiabilidad de la distribucin para las cpulas candidatas a reflejar la
relacin entre el incremento de la demanda y el incremento de la temperatura en Febrero
- 190 -
Respecto del error medio absoluto de prediccin los resultados son los siguientes:
Teniendo en cuenta todas las predicciones realizadas, los mejores resultados corresponden a las cpula C*HRT y
C*GUMBEL .
Si la medicin se hace respecto de los das que caen en el grupo MEDIA, la media de error ms baja se registra
para las cpulas C*HRT y C*BERNSTEIN .
En cuanto a los errores de prediccin de los grupos EXTRM y SMAX (respecto del valor mximo de la
distribucin) el mejor resultado se obtiene para C*HRT y C*GUMBEL .
As, como resultado de este criterio asignaramos 3 puntos a la cpula C*HRT, 2 a C*GUMBEL y 1 a C*BERNSTEIN.
Tabla 7.21: Evaluacin del criterio Errores de prediccin para las cpulas candidatas a reflejar la relacin entre
el incremento de la demanda y el incremento de la temperatura en Febrero
El recuento de todos los puntos, dara como ganadora a la cpula C*HRT con 5 puntos, seguidas de C*BERNSTEIN y C*GUMBEL
con 4 y finalmente C**CUBICA y C*BILINEAL con 1. Por tanto, en el mes de Febrero de 2005, la cpula que proporcionara el
mejor ajuste sera C*HRT , lo cual nos llevara a sopesar la conveniencia de sta para realizar predicciones en dicho mes
del ao. Tambin podramos plantearnos utilizar C*BERNSTEIN atendiendo a que es la cpula que presenta mejores
puntuaciones respecto del criterio Valores en rango y del primero de los criterios de Fiabilidad de la distribucin,
sin haber recibido un premio adicional por ninguno de ellos. Ser la validacin sobre el mes de Febrero de 2006 la que
incline definitivamente la balanza a favor de una u otra cpula.
A continuacin vamos a presentar estos mismos resultados para cada uno de los 9 meses invernales restantes
comprendidos en los dos aos del horizonte de prediccin que hemos planteado. Dado que para un mismo mes y ao es
muy pequeo el nmero de das en los que la temperatura baja ms de 3C (vase por ejemplo el mes Noviembre de
- 191 -
2004 en la tabla (7.14)), se presentan los resultados por tipo de mes, es decir, en la categora Enero estaran englobados
Enero de 2005 y Enero de 2006. En cada caso, la propuesta de las cpulas candidatas (como en Febrero de 2005 eran
C*HRT y C*GUMBEL) se plantea a partir de la evaluacin del estadstico de Pearson sobre la nube de pares (x, y) asociados al
mes en cuestin. La tabla siguiente presenta el orden en el que estas cpulas deberan ser tanteadas en funcin del valor
del estadstico que para ellas se obtiene. Tan slo se presentan las 3 primeras candidatas para cada uno de los meses.
Tabla 7.22: Evaluacin del estadstico de Pearson para una serie de cpulas ajustadas a cada uno de los meses
invernales de la muestra de entrenamiento
La conclusin que podemos sacar a la vista de las tablas anteriores ((7.16) y (7.22)) es que durante los meses claramente
invernales (Diciembre, Enero y Febrero), las cpulas C*HRT y C*GUMBEL (en este orden) deberan ser las primeras en ser
utilizadas dado que ocupan siempre las dos primeras posiciones. Para los meses de Enero y Diciembre, la cpula
gaussina se plantea como la tercera alternativa, mientras que para Febrero esta tercera posicin est reservada a la
familia de Plackett.
Para los meses que pudiramos considerar de transicin con el Otoo (Noviembre) y la Primavera (Marzo), la familia
de Gumbel sigue ocupando los primeros puestos, pero el representante de la familia de Cola Derecha Pesada
desaparece, permitiendo que aparezcan nuevamente la cpula Normal y la de Plackett.
As, la familia de Gumbel perteneciente a la clase de valor extremo, aporta siempre con independencia del mes de
estudio, un representante para analizar la relacin de dependencia entre la variable de demanda y la climatolgica. Bien
es verdad que en aquellos casos en los cuales la familia de Cola Derecha Pesada aporta un representante, ste genera un
p-valor algo ms alto que permite no rechazar el contraste de bondad de ajuste con un mayor nivel de significatividad.
Finalmente, dado que es C*NORMAL la que en un mayor nmero de ocasiones ocupan el tercer puesto en litigio, ser sta la
que participe juntamente con C*HRT, C*GUMBEL y las cpulas interpoladoras en la presentacin final de resultados (tablas
(7.23)-(7.27)). De acuerdo a ellos, las cpulas C*HRT, C*GUMBEL y C**CUBICA parecen ser las ms apropiadas en lneas
generales. Las dos primeras basan estos buenos resultados en la calidad de las predicciones que generan, mientras que la
interpoladora, a parte de conseguir buenos resultados de prediccin en Enero y Diciembre, justifica sus buenas
puntuaciones en el criterio que hace referencia a la fiabilidad de la forma de la distribucin.
Finalmente sealaremos que, respecto del debate que tenamos abierto entre la posibilidad de utilizar C*HRT o C*BERNSTEIN
para predecir en el mes de Febrero, la incorporacin del ao 2006 al conjunto de validacin establece definitivamente
como ganadora a la primera, siendo la principal razn de ello, la menor magnitud de los errores de prediccin cometidos
fuera de muestra (tercer criterio).
- 192 -
Mes de Enero
Tabla 7.23: Evaluacin de los criterios que permiten determinar la cpula que mejor refleja la
relacin entre el incremento de la demanda y el incremento de la temperatura en Enero
Familia
Criterio 1
Criterio 2
Criterio 3
Total
BER
0+1+0
0+1+0
BIL
0+1+0
0+0+1
CUB
0+1+0
0+1+1
GUM
0+1+0
1+0+0
HRT
0+1+0
1+0+0
NOR
0+1+1
0+0+0
- 193 -
Mes de Febrero
Tabla 7.24: Evaluacin de los criterios que permiten determinar la cpula que mejor refleja la
relacin entre el incremento de la demanda y el incremento de la temperatura en Febrero
Familia
Criterio 1
Criterio 2
Criterio 3
Total
BER
1+1+1
0+0+0
BIL
0+0+0
0+0+0
CUB
1+1+0
0+0+0
GUM
0+1+0
1+1+1
HRT
0+1+0
1+1+1
NOR
1+1+1
1+0+0
- 194 -
Mes de Marzo
Tabla 7.25: Evaluacin de los criterios que permiten determinar la cpula que mejor refleja la
relacin entre el incremento de la demanda y el incremento de la temperatura en Marzo
Familia
Criterio 1
Criterio 2
Criterio 3
Total
BER
0+1+0
0+0+0
BIL
0+1+0
0+0+0
CUB
0+1+0
0+0+0
GUM
0+1+0
1+0+1
HRT
0+1+0
1+1+1
NOR
0+1+0
0+1+0
- 195 -
Mes de Noviembre
Tabla 7.26: Evaluacin de los criterios que permiten determinar la cpula que mejor refleja la
relacin entre el incremento de la demanda y el incremento de la temperatura en Noviembre
Familia
Criterio 1
Criterio 2
Criterio 3
Total
BER
1+1+0
0+0+0
BIL
1+1+0
0+0+0
CUB
1+1+1
0+0+0
GUM
1+0+0
1+1+0
HRT
1+0+0
1+1+0
NOR
1+1+0
0+1+0
- 196 -
Mes de Diciembre
Tabla 7.27: Evaluacin de los criterios que permiten determinar la cpula que mejor refleja la
relacin entre el incremento de la demanda y el incremento de la temperatura en Diciembre
Familia
Criterio 1
Criterio 2
Criterio 3
Total
BER
1+0+0
1+0+0
BIL
0+0+0
0+0+0
CUB
1+0+0
1+1+0
GUM
0+0+0
0+1+0
HRT
0+0+0
0+1+0
NOR
0+0+0
0+1+0
- 197 -
El siguiente captulo del bloque prctico de esta tesis versa sobre la prediccin diaria de la demanda de gas a corto
plazo. Una de las principales necesidades de disponer de una buena previsin a este horizonte es conseguir adaptar el
ritmo uniforme y regular que imponen las suministradoras de gas a la gran heterogeneidad de demanda que a corto
plazo se puede esperar por parte de los clientes finales en funcin de su perfil de consumo. No slo deben tenerse en
cuenta los recursos de gas disponibles sino los contratos firmados con comercializadoras y suministradoras que pueden
implicar por ejemplo la movilizacin de flotas completas de buques metaneros (vase ilustracin (7.39)) que traen el
gas desde Argelia.
La dificultad para mantener la calidad del gas (presin) dentro del gasoducto justifica la necesidad de que la prediccin
no exceda en demasa el dato real de demanda: conforme pasa el tiempo, el gas pierde calidad, calienta menos y, en
consecuencia se necesita ms volumen para producir el mismo calor, con la consiguiente prdida econmica para la
compaa. Si por el contrario el dato predicho se sita significativamente por debajo del real, los clientes industriales
podran ver reducidas sus tasas de produccin y los domsticos plantearse el empleo de otra energa alternativa como
forma de calefaccin para su hogar. Si bien existen tanques de almacenamiento de gas y aun cuando las infraestructuras
del sistema gasista espaol han sido dimensionadas buscando cierta flexibilidad en trminos de regasificacin y
transporte, esta holgura es menor que la que existe en otros pases como Francia o Italia. Por ello, son mayores las
necesidades de ajustar modelos de prediccin muy fiables, que proporcionen unas previsiones de demanda ptimas para
garantizar el buen funcionamiento del transporte al menor coste posible.
La prediccin de demanda a corto plazo es un problema clsico entre las compaas del sector energtico. Existen
multitud de tcnicas contrastadas que proporcionan buenos resultados entre las que gozan de mayor popularidad los
modelos ARIMA basados en la metodologa Box-Jenkins. En este captulo, nos basaremos en la idea propuesta para el
tratamiento a medio plazo de las series de demanda de gas mediante funciones cpula, y propondremos un mtodo de
prediccin alternativo a estos modelos clsicos.
- 198 -
Ya en el apartado 7.2.2 anuncibamos la conveniencia de emplear modelos ARIMA para abordar un problema de
prediccin de demanda de gas o electricidad a corto plazo frente a otras alternativas de modelizacin y argumentbamos
que la razn fundamental es que estos modelos permiten identificar rasgos muy caractersticos de este tipo de series
como son:
La tendencia recogida por los parmetros asociados a los primeros retardos de la variable de consumo
(diferencias regulares o parmetros autorregresivos de rdenes bajo).
La influencia del calendario tanto en el segmento domstico (descenso de la demanda por desuso del gas en la
residencia habitual durante periodos festivos) como en el industrial (cada en esos mismos periodos de la
actividad de fbricas que emplean de forma regular el recurso energtico). Parte de este efecto calendario
ser reflejado a travs de los rdenes estacionales del modelo que permiten basar la prediccin en el da de la
semana anterior. De esta forma quedarn diferenciados los fines de semana del resto de das (por lo general,
laborables). Otra parte ms difcil de modelizar va asociada a situaciones anmalas que deben ser abordadas
mediante un anlisis de intervenciones traducido en la incorporacin de variables binarias en el ARIMA:
El efecto de festividades aisladas puede ser identificado mediante intervenciones tipo pulso
(AO = Additive Outlier o Atpico Aditivo).
El efecto de puentes tambin puede ser recogido mediante outliers tipo AO asociados al puente o,
alternativamente, con outliers tipo TC (Temporary Change o Cambio Temporal) asociados a una
festividad aislada que supone el impacto inicial en la serie y cuyo efecto decae de manera exponencial
y amortiguada en los das siguientes (el del puente).
- 199 -
En el sector residencial los agentes climticos desempean un papel determinante pudiendo ser incluidos en la
ecuacin del ARIMA a travs de modelos de funcin de transferencia. Ya comentamos en el apartado 7.2.3
que, despus de haber contrastado la influencia de las distintas variables que nos proporcion el Instituto
Nacional de Meteorologa asociadas a las estaciones ms cercanas a la zona en que es medido el consumo de
gas, fueron las variables de temperatura (mxima de Barajas y en menor medida, mnima de Cuatro Vientos)
las que proporcionaron mejoras sustanciales en trminos de prediccin. Otras que en un principio se
contemplaron pero que finalmente fueron descartadas por no resultar significativas y jugar en contra de la
parsimonia buscada para el modelo son, por orden decreciente de importancia: la velocidad del viento, la
humedad relativa del aire, la nubosidad (medida como la proporcin de cielo cubierto) y las precipitaciones.
En resumen las predicciones a corto plazo de demanda domstica de gas pueden obtenerse a partir de un modelo
ARIMA debidamente complementado con un anlisis de intervenciones para reflejar el efecto del calendario y la
inclusin de modelos de funcin de transferencia asociados a las variables de temperatura. El criterio principal de
decisin ante el abanico de tcnicas existentes es obviamente la calidad de los resultados, pero tambin conviene citar
otros como por ejemplo la facilidad con que pueden ser interpretados los parmetros que participan en el modelo o, por
poner otro ejemplo, la estabilidad de los mismos, circunstancia que permite reducir el tiempo dedicado a su
mantenimiento y distanciar los periodos dedicados a su revisin.
La metodologa que vamos a proponer consiste en suplir el empleo de las funciones de transferencia por el de funciones
cpula, para modelizar el efecto de la temperatura mxima de Barajas y la mnima de Cuatro Vientos. Partiremos de una
prediccin inicial dada por un modelo ARIMA y estudiaremos la relacin de dependencia del proceso residual
resultante del ajuste con estas variables de temperatura. Obsrvese que este planteamiento mantiene un claro
paralelismo con el desarrollado en el tratamiento a medio plazo. Tenemos por un lado una variable asociada a la
demanda medida en trminos porcentuales que en este caso es el error de un modelo y que en el caso anterior era el
incremento porcentual o por qu no decirlo, el error, entre la demanda real y la que estimbamos en condiciones
normales de temperatura. Por otro lado, dispondremos de una variable de temperatura que en el modelo a medio plazo
era la desviacin con respecto a un valor estndar establecido para cada mes y que en este modelo ser la diferencia en
grados con respecto al da anterior, es decir, el nmero de grados centgrados que la temperatura ha bajado o subido de
un da a otro. Nuevamente ambas variables eliminan la posible dependencia temporal cuya existencia nos obligara,
como tambin hemos mencionado en alguna ocasin, a tener ciertas precauciones si pretendemos utilizar funciones
cpula.
Nuestro objetivo final es comparar los resultados que se obtienen a travs de un modelo ARIMA en el que las variables
de incremento de temperatura intervienen como modelos de funcin de transferencia y otro modelo ARIMA en el que el
efecto que aportan estas funciones es incorporado a travs de funciones cpula. Empezaremos ajustando este modelo
ARIMA que sirve de punto de partida a ambas propuestas de solucin.
- 200 -
7.3.2.1 Ajuste de una serie mediante un ARIMA complementado con modelos de funcin de transferencia
Para ajustar el modelo ARIMA de partida vamos a seguir cada una de las fases que componen la metodologa BoxJenkins y que fueron descritas en el apartado 6.1. Para empezar vamos a empezar distinguiendo entre un conjunto de
entrenamiento con datos comprendidos entre el 1 de Noviembre de 1997 y el 31 de Octubre de 2005 y otro de
validacin cuyos datos se mueven entre el 1 de Noviembre de 2005 y el 31 de Marzo de 2006 que es el ltimo inverno
gasista del que disponemos y para el que parece tener sentido plantear la prediccin fuera de muestra por ser el ms
reciente. Justificado as el hecho de que tomemos el 31 de Octubre como fecha de cierre del conjunto de entrenamiento
diremos que, si bien se dispone de datos desde el 1 de Abril de 1997, hemos preferido tomar como fecha de inicio de
dicho conjunto el da 1 de Noviembre con la idea de que en el ajuste slo participen aos completos, sin posibles
descompensaciones entre meses. A partir de aqu, podemos empezar a aplicar la metodologa citada.
El primer paso de la denominada fase de identificacin consiste en determinar si es preciso o no hacer una
transformacin sobre la variable a predecir con vistas a reducir su variabilidad. En el ajuste a medio plazo en el que esta
variable era la demanda en condiciones normales de temperatura, el criterio de informacin de Akaike (ecuacin (2.6))
sugera el empleo de la transformacin raz cuadrada (vase tabla (7.10)). En este caso, en que el histrico es el mismo
pero sin hacer el depurado del efecto climtico dicho criterio propone nuevamente hacer esta misma transformacin,
circunstancia que obviamente no es de extraar.
Tabla 7.28: Evaluacin del AIC para varias propuestas de transformacin para la variable demanda
El segundo paso es determinar la necesidad de diferenciar la variable a predecir para sta sea estacionaria en media.
Para ello vamos a especificar los rdenes regulares y estacionales del modelo tanto en lo que se refiere a la parte
autorregresiva (AR) como a la de medias mviles (MA) a partir de los resultados parciales que vayan ofreciendo los
grficos de autocorrelacin (correlogramas) obtenidos conforme vayan siendo ajustados los parmetros del modelo.
Estos parmetros se irn recalculando a medida que vayan siendo incluidos nuevos trminos en la frmula. As, la
posible necesidad de diferenciar la serie se contemplar a partir de las estimaciones obtenidas para los coeficientes de la
parte autorregresiva en caso de que stas se muevan suficientemente cerca de de 1.
Para empezar observaremos el grfico de autocorrelacin simple asociada a la serie transformada as como el resultado
de contrastar si dicho proceso es o no ruido blanco. Podramos decir que el grfico corresponde al residuo del modelo
sin estructura.
X t = t (7.29)
siendo
X t = Demanda t .
- 201 -
Ilustracin 7.40: Test de ruido blanco y correlograma para la serie original de demanda de gas
A la vista de este primer grfico se deduce la necesidad de ajustar un modelo AR(1) o incluso, si fuese preciso, una
diferencia regular I(1). Por tanto, un primer modelo sera:
11B X t = t (7.30)
- 202 -
Ilustracin 7.41: Test de ruido blanco y correlograma para el modelo AR(1) ajustado a la serie de demanda de gas
Lo primero que observamos es que la estimacin del parmetro 1 sale muy prxima a 1, lo cual es un claro indicio de
la necesidad de llevar a cabo una diferencia regular ante la posibilidad de que la serie no sea estacionaria en media, y
teniendo en cuenta que los modelos ARMA deben ser ajustados sobre procesos estacionarios. A pesar de que el valor de
la desviacin tpica de la estimacin es pequeo, puede considerarse suficiente para que el valor 1 est incluido en un
intervalo centrado en 1
Por otra parte tambin puede apreciarse que alrededor de cada uno de los retardos estacionales reflejados en el grfico,
aparece el patrn del modelo MA que cabra ajustar a la vista de los tres primeros valores del correlograma, es decir, en
los retardos 6 y 8 (a una unidad de distancia de 7) vemos una pequea correlacin asociada a la autocorrelacin de
orden l (MA(1)); en los retardos 5 y 9 (a dos unidades de distancia) vemos una correlacin ms fuerte asociada a la
- 203 -
autocorrelacin de orden 2, que tambin es ms significativa (MA(2)); finalmente en los retardos 4 y 10 (a tres unidades
de distancia) vemos otra correlacin bastante significativa en concordancia con la autocorrelacin de orden 3. Este
comportamiento peculiar est identificando que la componente estacional se incorpora de manera multiplicativa sobre
la regular y que por tanto hemos de proponer un modelo multiplicativo en vez de aditivo. Sin embargo, antes de
empezar incorporando la parte estacional del modelo, vamos a sustituir el AR(1) por un I(1). Consideremos as el
modelo
1 B X t =t (7.31)
Ilustracin 7.42: Test de ruido blanco y correlograma para el modelo I(1) ajustado a la serie de demanda de gas
A la vista de cualquiera de los dos grficos anteriores queda clara la necesidad de ajustar un trmino autorregresivo de
orden 7 que, en funcin de su magnitud, tambin puede derivar en una nueva diferenciacin de la serie.
Las correlaciones asociadas a los retardos que son mltiplos de 7 son muy significativas y decrecen lentamente hacia 0.
Aplicacin prctica: Prediccin de la demanda de gas natural
- 204 -
Segn hemos observado, este trmino deber incorporarse de manera multiplicativa al modelo y por ello, pasaremos a
distinguir entre la parte regular y la parte estacional del mismo. Sea entonces el modelo SARIMA(0,1,0)x(1,0,0)7:
1 B 17B7 X t = t (7.32)
Ilustracin 7.43: Test de ruido blanco y correlograma para el modelo SARIMA(0,1,0)x(1,0,0)7 ajustado a la serie de
demanda de gas
En esta ocasin, el valor estimado para el parmetro 7 no es lo suficiente prximo a 1 como para traducirlo en una
diferenciacin. La siguiente autocorrelacin residual que presenta mayor significatividad es la asociada al retardo 7 la
cual sugiere la propuesta de un parmetro que cuantifique esa relacin (MA(7)).
- 205 -
Tras incorporar este parmetro a la frmula, tendremos un modelo SARIMA(0,1,0)x(1,0,1)7 dado por:
1 B 17B7 X t =17B 7 t (7.33)
Ilustracin 7.44: Test de ruido blanco y correlograma para el modelo SARIMA(0,1,0)x(1,0,1)7 ajustado a la serie de
demanda de gas
Nuevamente el parmetro asociado a la parte autorregresiva sale muy prximo a la unidad. Parece evidente que tambin
habremos de diferenciar nuestra variable en concepto de estacionalidad para evitar los riesgos de inestabilidad que
pudieran derivarse de la no-estacionariedad semanal del proceso resultante.
- 206 -
Sin embargo, no queremos correr el riesgo de estar sobrediferenciando la serie. Por ello, si bien incluiremos una
diferencia estacional en la frmula, hemos decidido volver a proponer un AR(1) en vez de una diferencia para la parte
regular para ver si efectivamente es necesaria la realizacin de ambas diferencias. Es decir, proponemos como modelo
un SARIMA(1,0,0)x(0,1,1)7 dado por:
11B1 B7 X t =17B 7 t (7.34)
Ilustracin 7.45: Test de ruido blanco y correlograma para el modelo SARIMA(1,0,0)x(0,1,1)7 ajustado a la serie
de demanda de gas
Si bien el parmetro 1 sigue saliendo bastante prximo a la unidad, puede llegar a considerarse significativamente
distinto de 1 si construimos un intervalo alrededor de l y de radio dos veces la desviacin tpica. En cualquier caso, la
verdadera razn por la que hemos optado seguir con el SARIMA(1,0,0)x(0,1,1)7 en vez del SARIMA(0,1,0)x(0,1,1)7
Aplicacin prctica: Prediccin de la demanda de gas natural
- 207 -
es que la calidad de las predicciones fuera de muestra es mayor en el primer caso. Obsrvese tambin que la correlacin
existente entre los parmetros del modelo (1 y 7) se puede considerar pequea.
El ltimo paso a la vista del grfico anterior sera incluir un coeficiente 1 que mida la relacin de dependencia entre el
proceso residual y su retardo de orden 1 o lo que es lo mismo, entre el error de un da y el error del da anterior.
La incorporacin del trmino de medias mviles conduce al modelo final SARIMA(1,0,1)x(0,1,1)7 de ecuacin:
11B1 B7 X t =11B1 7B7 t (7.35)
Una vez incorporado este trmino de medias mviles se obtiene el siguiente resultado:
Ilustracin 7.46: Test de ruido blanco y correlograma para el modelo SARIMA(1,0,1)x(0,1,1)7 ajustado a la serie de
demanda de gas
El resultado final de esta fase de identificacin es un modelo tpico en el ajuste de series de demanda diaria de gas y
electricidad. El modelo basa el comportamiento esperado de la demanda para un da concreto en el dato real del da
anterior y el da del mismo tipo de la semana pasada, a la vez que se corrige en funcin de los errores que hubiera
Aplicacin prctica: Prediccin de la demanda de gas natural
- 208 -
cometido esos mismos das al hacer la estimacin. Si bien en el grfico no parece haber correlaciones demasiado
significativas, el proceso residual no supera el test de ruido blanco. Esto puede resultar complicado de conseguir dado
que por el elevado nmero de datos que compone la serie, el intervalo de confianza del residuo se estrecha bastante y
hace fcil que las autocorrelaciones se salgan de dicha banda. De todas maneras, conviene incluir en el modelo
algunos agentes explicativos que puedan terminar de eliminar la estructura observada en dicho grfico manifestada por
ejemplo a travs de la autocorrelacin de orden 3. A este respecto sealaremos que no es conveniente incluir un trmino
de medias mviles 3 que elimine dicha correlacin puesto que no existe razn para pensar que la prediccin para la
demanda de gas un da est condicionada por el error que cometi el modelo hace tres das.
Las variables con las que trataremos de seguir explicando el proceso de error hacen referencia al calendario laboral.
Como ya hemos comentado en varias ocasiones, la serie se encuentra fuertemente influenciada por el efecto de
festividades aisladas, puentes y periodos vacacionales, en los que la actividad industrial manifiesta un sensible
descenso. Para reflejar el efecto provocado por este tipo de fenmenos vamos a generar una relacin de variables:
Variables asociadas a cada una de las festividades aisladas: V01MAY (asociada al 1 de Mayo), V12OCT
(asociado al 12 de Octubre), etc. Son variables binarias que valen 1 el da en el que se produce la fiesta y 0 en
el resto de das.
Variable PUENTE asociadas a das de puente, que valen 1 si el da cae entre dos festivos (un lunes entre un
domingo y un martes, un viernes entre un jueves y un sbado, etc.) y 0 el resto de das.
Variables asociadas a cada uno de los 3 periodos vacacionales (Navidad, Semana Santa o Agosto) que valen 1
durante dichos periodos y 0 en el resto de das.
Las variables anteriores se denominan variables de intervencin, siendo las pertenecientes a los dos primeros grupos de
tipo pulso y las pertenecientes a la tercera clase de tipo escaln.
Conviene destacar tambin que el efecto de un mismo festivo (por ejemplo el 8 de Diciembre) puede depender del da
de la semana en que se produzca. Si cae en lunes, dar lugar a un puente de 3 das (6,7 y 8), si cae en martes a un puente
de 4 (5,6,7 y 8) y si cae en mircoles al famoso acueducto de 5 das de Diciembre (pues el da 6 es festivo). Por ello,
incluiremos en el modelo otras variables binarias que identifiquen las festividades en funcin del da de la semana en el
que caen. As, un 1 de Noviembre que cae en jueves quedar intervenido mediante dos variables:
Una variable V01NOV para la que se estimar un parmetro a partir del efecto que han producido los das 1 de
Noviembre en aos anteriores.
Una variable FESJUE (jueves festivo) que se estima en funcin de todas las festividades recogidas en el
histrico que hayan cado en jueves.
Esta forma de intervenir los festivos persigue tambin reflejar la influencia de este tipo de das en caso de no disponer
de una muestra de datos suficientemente grande. En dicho caso, pudiera resultar por ejemplo que ninguno de los das 1
- 209 -
de Noviembre almacenados en el histrico hubiese cado entre lunes y viernes (en da laborable) y en consecuencia, la
estimacin asociada al parmetro que acompaa a la variable V01NOV podra no ser significativamente negativa (o
incluso positiva). Sin embargo, dispondremos de otra variable FES(DIA_DE_LA_SEMANA) que por su propia
definicin, se entrena a partir de festivos que caen en das laborables, es decir, identifica das festivos que no caen ni en
sbado ni en domingo, con lo cual su estimacin s ser significativamente negativa y conseguir, en conjuncin con la
anterior, hacer que el impacto sobre la serie sea de cada. Se trata por tanto, de que la suma de las estimaciones
asociadas a los parmetros para cada par de variables que afecta a un festivo concreto sea siempre negativo, para que
as quede reflejada sobre la serie la influencia de un da de tales caractersticas.
Dentro del entorno de las festividades aisladas consideraremos otras variables binarias que denominaremos VISPFES y
POSFES que harn referencia respectivamente a los das que sean vspera de festivo o posterior al mismo, pues se ha
observado que en ambos casos el nivel de la demanda suele ser algo ms bajo de lo habitual. Parece razonable que la
tarde anterior a una festividad pueda ser concedida a algunos trabajadores para que inicien su periodo de descanso y, del
mismo modo, que la reincorporacin a la actividad laboral despus de un da festivo se produzca de forma gradual
(arranque de maquinaria y hornos que utilizan gas, regreso de los usuarios domsticos de su segunda residencia, etc.).
La frmula a la que respondera el modelo una vez incorporada las variables de intervencin presentara la siguiente
estructura:
1 B 7 X t=
Num _ intervenciones
11B 17B 7
t
p iI {t =i } (7.36)
11B
i=0
donde pi son los coeficientes a estimar para cada una de las intervenciones e I{t=i} son funciones indicatrices que valen 1
exclusivamente el da o das a los que hace referencia la intervencin. El resultado de la inclusin de estas nuevas
variables es el que a continuacin se presenta:
- 210 -
Tabla 7.29: Estimaciones de los parmetros del modelo SARIMA(1,0,1)x(0,1,1)7 y de los asociados a las variables
resultante de un anlisis de intervencin para la identificacin del efecto calendario
De todas las variables contempladas nicamente las asociadas a los periodos vacacionales no resultan significativas y
por ello finalmente han sido excluidas del ajuste. En el caso de la Navidad y la Semana Santa este hecho est justificado
dado que existen multitud de variables de festividades, vsperas y puentes que ya recogen este efecto durante dichos
periodos. Nos podramos plantear la inclusin o no de la variable AGOSTO pero tampoco parece que vaya a tener
demasiada importancia de cara a nuestro objetivo que es, recordemos, la calidad de las predicciones fundamentalmente
durante el periodo invernal. Una vez eliminada la presencia de estas variables en el modelo, el resultado ha sido el
siguiente:
- 211 -
Ilustracin 7.47: Test de ruido blanco, correlograma y estimaciones de los parmetros del modelo
SARIMA(1,0,1)x(0,1,1)7 con anlisis de intervencin ajustado a la serie de demanda de gas
Tomando como base este modelo, se han hecho predicciones en muestra y fuera de muestra siendo los resultados los
que se presentan en la siguiente tabla:
- 212 -
k
BB k 01B 2B...nBB
=
Y t N t (7.37).
B
1 1B 2B... nB
donde en nuestro caso X(t) sera la demanda, Y(t) la variable explicativa en cuestin, es decir, las temperaturas y N(t) un
proceso residual. A priori se considera la existencia de una relacin de dependencia de causalidad unidireccional desde
los inputs hacia el output. En cuanto a los polinomios respecto del operador de retardo B se refiere, observemos
que:
El orden del polinomio (B) determina el nmero de periodos (das) desde el cual se considera influye la
variable Y(t) en X(t).
El orden del polinomio (B) determina la forma en la que se transmite el efecto de Y(t) a X(t). Si por ejemplo
este orden es 1, vendra a decir que el valor de la demanda de un da depende del valor de la temperatura de ese
mismo da y que esa influencia decae de forma exponencial con mayor o menor velocidad en funcin de que el
valor de 1 est ms o menos prximo a 0.
El operador de retardo Bk identifica el nmero de das que transcurren antes de que Y(t) comience a tener
efecto sobre la variable dependiente. Puede ser que un cambio de temperatura no afecte de manera instantnea
en la demanda sino que comience a influir por ejemplo a partir del da siguiente. Este efecto que se define en el
captulo tercero de [GIDEDU] como efecto de histresis o retardo se traduce en que los usuarios de gas
- 213 -
pueden no encender la calefaccin inmediatamente despus del momento en el que se produce el descenso de
la temperatura, sino una vez que la misma se mantuvo baja por algunos das.
Hablaremos ahora de qu forma tendrn las variables Y(t) que sern introducidas en la ecuacin del ARIMA con su
correspondiente modelo de funcin de transferencia ya que existen muchas maneras de definir las variables de
temperaturas para que la informacin aportada por stas refleje mejor su influencia sobre la demanda. La forma
inmediata de hacerlo es incluir las propias variables en estado puro, es decir, como el nmero de grados centgrados que
marcan los termmetros un da determinado. Otra manera de hacerlo es sometiendo a las variables a algn tipo de
transformacin que aumente su poder predictivo.
Por ejemplo, vamos a incluir la informacin de temperaturas como el incremento en grados que se produce de un da al
siguiente para lo cual, vamos a definir las variables:
INC_TMAX.- nmero de grados centgrados que sube o baja la temperatura mxima de un da al siguiente.
INC_TMIN.- nmero de grados centgrados que sube o baja la temperatura mnima de un da al siguiente.
La idea es eliminar la dependencia temporal que llevan implcita las variables de temperatura puesto que nuestro
objetivo es comparar el resultado de este ajuste con aqul que obtengamos a travs de funciones cpula y stas se
desenvuelven bien cuando esta dependencia no existe. Previamente hemos comprobado que, de acuerdo a esta
transformacin, los resultados predictivos que se obtienen con un modelo ARIMA en el que las variables INC_TMAX e
INC_TMIN son ajustadas con modelos de funcin de transferencia, son mejores que los que se obtienen cuando se
utilizan las variables originales sin transformar, TMAX y TMIN. Tambin es verdad que existe una transformacin an
mejor para dichas variables que conduce a resultados de mayor calidad y que ms tarde comentaremos.
Otro hecho en el que queremos reincidir es que el efecto de la temperatura no es igual en meses diferentes. As, vamos
a considerar un par de variables (una asociada a la temperatura mxima, INC_TMAX_MES, y otra asociada a la
temperatura mnima, INC_TMIN_MES) para cada uno de los meses no veraniegos del ao y en los que por tanto se
considera influye la temperatura. Estas variables se definen, en cada da del mes al que van asociadas, como el valor del
incremento de temperatura de un da al siguiente, y como 0 en los das correspondientes el resto de los meses del ao.
En cuanto al modelo de funcin de transferencia ajustado a cada una de las variables, se contemplan slo retardos de
rdenes 1 y 2 de la propia variable (n = 2 en la ecuacin (7.37)), de manera que el modelo evale la relacin de
dependencia entre la demanda de un da y el incremento climtico respecto del da anterior, y cuantifique la influencia
de este efecto en un horizonte mximo de dos das, pues no hemos considerado verosmil su repercusin ms all de
este periodo. Tampoco se han tenido en cuenta estructuras ms complejas de modelizacin en las que el efecto de las
temperaturas comience a afectar pasados algunos das o en las que dicho efecto decaiga de acuerdo a un patrn
exponencial o sinusoidal (rdenes k y n en la expresin (7.37)) Teniendo en cuenta estas consideraciones el
modelo quedara planteado como:
Num _ intervenciones
11B 17B7
1 B 7 X t=
t
p iI {t =i }
11B
i =0
(7.38)
- 214 -
Segn puede verse en la ilustracin (7.48), las variables propuestas para cada uno de los meses as como los retardos
definidos a travs de sus modelos de funcin de transferencia han resultado ser en su mayora significativas, salvando
algunas excepciones como son por ejemplo las variables de temperatura mnima correspondientes al mes de Mayo.
S es verdad que el proceso residual sigue sin verificar todava las hiptesis de ruido blanco de acuerdo a lo observado
en la tabla de la derecha.
En cuanto a los errores de prediccin, la tabla (7.31) nos permite comprobar como stos han bajado notoriamente con la
inclusin de las variables de temperatura y ms an conforme se han ido aadiendo trminos en sus modelos de funcin
de transferencia.
Ilustracin 7.48: Test de ruido blanco, correlograma y estimaciones de los parmetros del SARIMA(1,0,1)x(0,1,1)7
con anlisis de intervencin y modelos de funcin de transferencia ajustados a la serie de demanda de gas
Aplicacin prctica: Prediccin de la demanda de gas natural
- 215 -
- 216 -
7.3.2.2 Ajuste de una serie mediante un ARIMA complementado con un algoritmo basado en funciones cpula
Como camino alternativo, proponemos extraer el proceso de error vinculado a la ecuacin (7.36) y buscar su relacin
de dependencia con las variables climticas pero a travs de funciones cpula en sustitucin de las funciones de
transferencia. Para ello vamos a aplicar el algoritmo iterativo de ajuste secuencial mediante funciones cpula descrito
en el apartado 6.1. As, de igual manera que hemos hecho con las funciones de transferencia, buscaremos la cpula que
mejor explique el proceso residual del modelo (7.36) en funcin de las variables de temperatura asociadas a cada uno
de los meses.
Tomemos por ejemplo el mes de Enero. Vamos a considerar un par de variables explicativas adicionales a INC_TMAX
e INC_TMIN y que trataremos de relacionar con los procesos de error que vayan resultando de cada uno de los ajustes:
El objetivo que perseguimos con stas, es reflejar la informacin que en el modelo de funcin de transferencia
introducen las variables retardadas (al especificar el orden n = 1 para el polinomio que aparece en el numerador de
dicha funcin). En cuanto a las familias de cpulas candidatas a medir la relacin de dependencia entre estas variables
y los sucesivos procesos de error que vayan resultando, vamos a utilizar exactamente las mismas que las propuestas en
el estudio de prediccin a medio plazo (vase apartado 7.2.5.2).
Entonces, de acuerdo al algoritmo mencionado, empezaremos estableciendo j = 1, i = 1 y calculando
Mean*HISTORICO = 5.10% la media del error sobre histrico de (7.36) en Enero (vase tabla (7.30)) y
Median*HISTORICO = 4.03% la mediana del mismo. Este proceso de error calculado en funcin del valor real de la
demanda (demanda(t)) y de la prediccin hecha para ella a travs de (7.36), P1(t), sera la variable Error1(t). Adems
Mean*FUTURO = 5.53% es el error medio fuera de muestra cometido para ese mes, es decir, el error medio del mes de
Enero de 2006 mientras que Median*FUTURO = 4.30% es el error mediano.
Ya en el paso 2, tomamos la primera de las variables candidatas a explicar este primer proceso de error. Se trata
entonces de buscar la cpula que mejor establezca la relacin entre Error1 e INC_TMAX. Para ello, vamos a fijar una
dimensin de particin del rectngulo unidad y vamos a ver cul de las familias de cpulas de la relacin de candidatas
que proponemos proporciona un mejor valor del estadstico de Pearson. Como en ocasiones anteriores, hemos dividido
el rectngulo unidad en un total de 25 rectngulos (dimensin 5 x 5). El siguiente grfico muestra el espacio
transformado que sirve de soporte a la funcin cpula buscada y en la tabla se presenta la relacin de estadsticos de
Pearson obtenidos para cada una de las candidatas planteadas:
- 217 -
Ilustracin 7.49: Particin del espacio transformado de las variables INC_TMAX y Error1 (de prediccin de la
demanda) en Enero. Evaluacin del estadstico de Pearson para una relacin de cpulas
Seleccionamos por tanto la cpula de Plackett. De haber salido la cpula producto hubiramos podido interpretar
independencia entre las variables Error1 e INC_TMAX y haber descartado la posible relacin entre ellas.
El siguiente paso del algoritmo (paso 3) nos lleva a simular para cada da t y, en funcin del valor de INC_TMAX(t)
asociado al mismo, valores de Error1(t) a travs de la cpula condicionada de Plackett. Para cada da t se propone
como valor esperado de la variable Error1 la mediana de las simulaciones realizadas y, a partir de ella, proponemos una
nueva prediccin para dicho da P'(t) a travs de la frmula (6.2). Esta prediccin da lugar a un nuevo proceso de error,
Error'(t), cuya media y mediana sobre el histrico as como sobre el conjunto de validacin es Mean'HISTORICO = 3.49%,
Median'HISTORICO = 2.85%, Mean'FUTURO = 3.50% y Median'FUTURO = 2.90%. Dado que Mean'HISTORICO< Mean*HISTORICO y que
Mean'FUTURO< Mean*FUTURA , establecemos Error2(t) = Error'(t), P2(t) = P'(t), Mean*HISTORICO = Mean'HISTORICO ,
Median*HISTORICO = Median'HISTORICO , Mean*FUTURO = Mean'FUTURO, Median*FUTURO = Median'FUTURO, i = 2, j = 2 y volvemos
al paso 2.
Buscaremos ahora la cpula que mejor establezca la relacin de dependencia entre el nuevo proceso de error Error2(t)
y la siguiente de las variables explicativas candidatas INC_TMAX_2. Alternativamente se podra volver a intentar
explicar el error nuevamente con INC_TMAX hasta que el error medio dejara de disminuir o bien hasta que la cpula
que mejor se adaptase a la relacin entre las variables fuese la cpula producto. De acuerdo a una particin de la misma
dimensin que la anterior, el resultado es el siguiente:
- 218 -
Ilustracin 7.50: Particin del espacio transformado de las variables INC_TMAX_2 y Error2 de prediccin de la
demanda en Enero. Evaluacin del estadstico de Pearson para una relacin de cpulas
En este caso, la cpula seleccionada es la de Clayton. A travs de su condicionada simularemos valores de Error2(t)
para cada valor de INC_TMAX_2. Proponemos nuevamente como error esperado para cada da t la mediana de dichas
simulaciones y utilizamos este valor esperado para proponer una nueva prediccin P'(t) a travs de (6.2).
El nuevo proceso de error asociado a esta prediccin Error'(t), tiene por medias y medianas los valores:
Mean'HISTORICO = 3.49%, Median'HISTORICO = 2.84%, Mean'FUTURO = 3.41% y Median'FUTURO = 2.56%. Si bien no existen
claras mejoras sobre histrico respecto de los ltimos valores establecidos, s se aprecia alguna respecto del conjunto de
validacin que hace que no sea descabellado incluir esta variable como explicativa en este proceso de ajuste. As,
establecemos Error3(t) = Error'(t), P3(t) = P'(t), Mean*HISTORICO = Mean'HISTORICO , Median*HISTORICO = Median'HISTORICO ,
Mean*FUTURO = Mean'FUTURO, Median*FUTURO = Median'FUTURO, i = 3, j = 3 y volvemos al paso 2.
La siguiente variable a considerar es INC_TMIN, debiendo analizar la relacin de sta con Error3(t). La siguiente tabla
propone la funcin cpula ms apropiada a tal fin en funcin del valor del estadstico de Pearson.
Ilustracin 7.51: Particin del espacio transformado de las variables INC_TMIN y Error3 de prediccin de la
demanda en Enero. Evaluacin del estadstico de Pearson para una relacin de cpulas
Aplicacin prctica: Prediccin de la demanda de gas natural
- 219 -
La cpula de Cola Derecha Pesada (HRT) es la ms apropiada para establecer la nueva relacin entre variables.
La nueva prediccin generada P'(t) y a travs de ella, el nuevo proceso de error Error'(t) proporciona las siguientes
medidas
de
'
FUTURO
Median
evaluacin:
Mean'HISTORICO
3.33%,
Median'HISTORICO
2.64%,
Mean'FUTURO
2.98%
= 1.89%. La mejora respecto de los ltimos indicadores que tenamos vuelve a ser manifiesta y por ello
Ilustracin 7.52: Particin del espacio transformado de las variables INC_TMIN_2 y Error4 de prediccin de la
demanda en Enero. Evaluacin del estadstico de Pearson para una relacin de cpulas
Nuevamente la cpula de Clayton es la que resulta ms apropiada para representar la relacin de dependencia entre las
variables. Como nota curiosa, observaremos que por primera vez la cpula producto (sinnimo de independencia)
empieza a tener ms importancia que algunas otras alternativas como la de Gumbel o la de Frank. ste puede ser es un
indicio de que estamos llegando a un punto en el que encontraremos dificultades para seguir explicando el proceso de
error. Los valores medios y medianos asociados al nuevo proceso Error'(t) son: Mean'HISTORICO = 3.31%, Median'HISTORICO
= 2.62%, Mean'FUTURO = 2.95% y Median'FUTURO = 1.86%. La mejora respecto al paso anterior es muy pequea tanto en
trminos histricos como en trminos de validacin. Esta circunstancia unida a la que acabamos de mencionar podra
llevarnos a dar por finalizado el proceso iterativo de ajuste mediante funciones cpula. Sin embargo, tambin
podramos seguir adelante y, a falta de nuevas variables explicativas, volver a empezar a utilizar las mismas (una
segunda ronda).
Establezcamos Error5(t) = Error'(t), P5(t) = P'(t), Mean*HISTORICO = Mean'HISTORICO , Median*HISTORICO = Median'HISTORICO ,
Mean*FUTURO = Mean'FUTURO, Median*FUTURO = Median'FUTURO, i = 5, j = 5 y volvamos al paso 2, considerando nuevamente
como variable explicativa candidata INC_TMAX. Volveramos a decantarnos por la cpula que respecto de la particin
realizada para el espacio transformado proporcione un mejor valor del estadstico de Pearson.
- 220 -
Ilustracin 7.53: Particin del espacio transformado de las variables INC_TMAX y Error5 de prediccin de la
demanda en Enero. Evaluacin del estadstico de Pearson para una relacin de cpulas
En esta ocasin, la cpula producto ha ganado una nueva posicin y no todas las familias son apropiadas para reflejar
dicha relacin, dado que la estimacin del parmetro que permite tomar un representante de la familia no se encuentra
comprendido dentro del rango de variacin permitido para dicho parmetro. En cuanto a los errores medios de
prediccin
se
'
HISTORICO
Median
refiere,
los
resultados
'
que
se
obtienen
son
los
siguientes:
Mean'HISTORICO
3.22%,
'
= 2.66%, Mean FUTURO = 2.95% y Median FUTURO = 1.81%, que apenas mejora los ltimos resultados
conseguidos.
El criterio de parada que hemos decidido adoptar es que bien el error medio o bien el error mediano sobre el histrico
deje de mejorar de una iteracin a otra o que, alternativamente, la cpula que mejor explica la relacin de dependencia
entre el par de variables sea la cpula producto. En el caso que nos ocupa, vemos que aun cuando
Mean'HISTORICO = 3.22% mejora el valor de Mean*HISTORICO = 3.31%, no sucede lo mismo respecto de los errores medianos
dado que Median'HISTORICO = 2.66% es mayor que Median*HISTORICO = 2.62%. Por tanto, para el mes de Enero, la parada
podra establecerse despus de haber tanteado una sola vez cada una de las cuatro variables. Podramos resumir
entonces que para realizar una prediccin en un da t del mes de Enero, el procedimiento consiste en lo siguiente:
1.
Realizar una prediccin P1(t) a travs de un modelo base (ecuacin (7.36)) en el que no participan las variables
de temperatura.
2.
Iteracin 1: Utilizar la cpula condicionada de la familia de Plackett cuyo valor del parmetro es 12.23
(ilustracin (7.49)) para predecir el error porcentual Error1(t) que se espera cometer en funcin del incremento
esperado para la temperatura mxima desde el da anterior (t-1). Supuesto este error porcentual, proponer
como nueva prediccin
3.
P2t =
Error1t P1t
P1t .
100
Iteracin 2: Utilizar la cpula condicionada de la familia de Clayton cuyo valor del parmetro es 0.24
(ilustracin (7.50)) para predecir el error porcentual Error2(t) que se espera cometer en funcin del
- 221 -
incremento esperado para la temperatura mxima desde hace dos das (t-2). Supuesto este error porcentual,
proponer como nueva prediccin
4.
P3t =
Error2 t P2t
P2 t .
100
Iteracin 3: Utilizar la cpula condicionada de la familia HRT cuyo valor del parmetro es 1.84 (ilustracin
(7.51)) para predecir el error porcentual Error3(t) que se espera cometer en funcin del incremento esperado
para la temperatura mnima desde el da anterior (t-1). Supuesto este error porcentual, proponer como nueva
prediccin
5.
P4 t=
Error3 tP3t
P3t .
100
Iteracin 4: Utilizar nuevamente la cpula condicionada de la familia de Clayton pero esta vez con valor del
parmetro 0.10 (ilustracin (7.52)) para predecir el error porcentual Error4(t) que se espera cometer en funcin
del incremento esperado para la temperatura mnima desde hace dos das (t-2). Supuesto este error porcentual,
proponer como prediccin final
P5 t=
Error4 t P4t
P4 t .
100
La siguiente tabla viene a resumir los errores porcentuales a los que se ha llegado para cada uno de los meses una vez
completado el proceso de ajuste basado en las cuatro variables explicativas propuestas y despus de probar un par de
veces con cada una de ellas desde el Error1 asociado a la prediccin del modelo (7.36), al Error9 resultante de intentar
predecir el Error8 con la variable INC_TMIN_2 en su segunda participacin.
De acuerdo al criterio de parada propuesto, el proceso se detiene despus de un nmero diferente de iteraciones para
cada mes. Se ha marcado con un rectngulo rojo la iteracin desde la cual el error medio y el error mediano deja de
mejorar, las cuales no tienen porqu coincidir. La mnima de ellas sirve para establecer el criterio de parada, pudiendo
comprobarse que, en la mayora de los casos, resulta ser una decisin acertada a tenor de lo que se observa en la
evolucin de los errores fuera de muestra, habindose marcado en azul la iteracin tras la cual se detendra el algoritmo
en funcin de lo establecido por el histrico. As por ejemplo, el empeoramiento de resultados que se produce en el mes
de Diciembre despus de la primera iteracin sobre el conjunto de entrenamiento, se refleja tambin posteriormente en
el conjunto de validacin, con lo que realizar la parada en ese preciso momento parece haber sido una decisin acertada.
Adems, si comparamos los errores finales en cada caso con los errores obtenidos para el modelo (7.38), recogidos en
la tabla (7.31), se puede apreciar una mejora sustancial generalizada salvo en el mes de Diciembre en el que los
resultados fuera de muestra parecen decantarse ligeramente a favor del modelo ARIMA con funciones de transferencia.
Tngase en cuenta que en ambos casos hemos utilizado el mismo tipo de variables (incrementos de temperatura) e
incluso podramos decir que hemos empleado un nmero menor de ellas en el desarrollo mediante cpulas puesto que
no hemos tenido en cuenta incrementos climticos a 3 das que s han sido contemplados en el modelo (7.38).
Dado que, aun con todo y con eso, los resultados a los que se ha llegado pueden considerarse mejores en lneas
generales, estaramos en disposicin de admitir la validez del mtodo propuesto como alternativa de solucin para un
estudio de prediccin a corto plazo de este tipo.
- 222 -
Tabla 7.32: Errores de prediccin parciales conseguidos al utilizar iterativamente funciones cpula para explicar
mediante las variables INC_TMAX/TMIN, los procesos de error que van resultando de sucesivos ajustes.
El proceso de error inicial se obtiene tras ajustar un modelo SARIMA(1,0,1)x(0,1,1)7 con anlisis de intervencin
Observacin
Conviene observar que en este mtodo de ajuste influye el orden en el que van siendo incluidas las variables
explicativas para ir explicando los sucesivos trminos de error. As,en el caso anterior el orden establecido fue:
INC_TMAX, INC_TMAX_2, INC_TMIN, INC_TMIN_2,
Si en su lugar, hubisemos seguido por ejemplo el orden INC_TMAX, INC_TMAX, INC_TMAX_2, INC_TMAX_2,
INC_TMIN, INC_TMIN, INC_TMIN_2, INC_TMIN_2, el resultado hubiese sido el siguiente:
Aplicacin prctica: Prediccin de la demanda de gas natural
- 223 -
Tabla 7.33: Errores de prediccin parciales conseguidos al utilizar iterativamente funciones cpula para explicar
mediante las variables INC_TMAX/TMIN, los procesos de error que van resultando de sucesivos ajustes.
El proceso de error inicial se obtiene tras ajustar un modelo SARIMA(1,0,1)x(0,1,1)7 con anlisis de intervencin
En este caso el resultado sale un poco peor que en el anterior. De entrada podemos ver que el criterio de parada suele
actuar en un menor nmero de iteraciones (2-3-1-5-1 frente a 4-3-6-5-1), algo que a priori puede parecer que no es
bueno porque el hecho de que se lleven a cabo ms iteraciones es sinnimo de que en cada una de ellas el error de
prediccin ha ido bajando. Adems se ha visto que siguiendo esta secuencia de ajuste alternativa, es mayor el nmero
de veces en el que la mejor cpula para adecuar la relacin de dependencia entre variables es la cpula producto o que,
de ser otra, sta no supera el contraste de bondad de ajuste.
Aplicacin prctica: Prediccin de la demanda de gas natural
- 224 -
Esta es una peculiaridad importante del algoritmo: los resultados obtenidos estn condicionados por el orden en el que
entran las variables explicativas en el modelo.
Hemos visto que para unas mismas variables explicativas, el procedimiento de ajuste basado en un ARIMA y
complementado con funciones cpula proporciona mejores resultados que el que se complementa con modelos de
funcin de transferencia. Sin embargo, de acuerdo a lo observado en la ilustracin (7.48), podramos pensar que este
ltimo no est suficientemente bien ajustado dado que el proceso residual no verifica las hiptesis de ruido blanco. Con
vistas a poder comparar los resultados logrados con las cpulas con un modelo ARIMA de suficientes garantas, vamos
a llevar a cabo una transformacin especfica de las variables de temperatura que aumenta el poder predictivo de stas.
Adems de estas nuevas variables vamos a eliminar parte del histrico para ensanchar la banda de confianza que
establece si las autocorrelaciones del trmino de error que deja el modelo son o no significativas y as facilitar que ste
supere el test de ruido blanco.
En concreto, empezaremos restringindonos a los datos recogidos desde el 1 de Noviembre de 2001 al 31 de Octubre
de 2005, es decir, a los ltimos cuatro aos de histrico. Para este periodo, de acuerdo a la relacin que existe entre la
demanda y cada una de las variables de temperatura (TMAX y TMIN) vamos a generar unas funciones ad-hoc,
(CURVATMAX y CURVATMIN respectivamente), que recojan esta relacin, la cual presentamos en los siguientes
grficos.
Ilustracin 7.54: Transformaciones de las variables de temperatura que aumentan su capacidad para predecir la
demanda cuando son utilizadas como modelos de funcin de transferencia en un modelo ARIMA
- 225 -
Estas funciones estn definidas a trozos de acuerdo a unos umbrales a partir de los cuales la relacin
demanda/temperatura es diferente:
Desde el mnimo valor registrado para la temperatura hasta el primer umbral T1 la dependencia entre ambas
variables es de tipo lineal. En el caso de la temperatura mxima, este lmite lo hemos establecido en 14C
mientras que en el caso de la mnima lo hemos establecido en 8C.
Desde el umbral anterior hasta un segundo umbral T2 , la relacin entre las variables es de tipo cuadrtico.
0 T T 2
2
T T 2
F T = 2T 2 T 1 T 1T T 2
T 1T 2
T T T 1
2
(7.39)
De acuerdo a la observacin que ya hemos hecho en anteriores ocasiones, el efecto de la temperatura no es el mismo en
los distintos meses del ao y por ello vamos a considerar un par de variables para cada uno de los meses no veraniegos,
una asociada a la temperatura mxima, CURVATMAX_MES,
CURVATMIN_MES. Estas variables valen cero fuera del mes de definicin, mientras que en dicho mes, toman el valor
asociado a la temperatura mxima y mnima del da a travs de las respectivas CURVATMAX y CURVATMIN.
Nuevamente, los modelos de funcin de transferencia asociadas a estas variables slo contemplan el valor retardado de
las mismas para un mximo de dos das. Una vez incluidas estas variables en la ecuacin (7.36) resulta el siguiente
modelo:
Num _ intervenciones
11B 17B7
1 B 7 X t=
t
p iI {t =i }
11B
i =0
(7.40)
En las siguientes tablas presentamos las estimaciones obtenidas para esta nueva ecuacin as como el correlograma
asociado al proceso residual. En esta ocasin, no se puede rechazar la hiptesis que plantea que las autocorrelaciones de
dicho proceso son iguales a 0 y, en consecuencia, podemos considerar que ste es ruido blanco, con lo que las
predicciones ofrecidas por (7.40) ofrecern ms fiabilidad que las obtenidas por (7.38). Para demostrar que esta mejora
del proceso residual es una circunstancia asociada a la inclusin de las nuevas variables (CURVATMAX y CURVATMIN
en lugar de INC_TMAX e INC_TMIN), y no al hecho de haber reducido el histrico de entrenamiento, se presentan en la
ilustracin (7.55) los procesos residuales asociados a uno y otro modelo. Es decir, presentamos tambin el resultado al
que se hubiera llegado con las variables INC_TMAX e INC_TMIN recortando el histrico.
- 226 -
Tabla 7.34: Estimaciones de los parmetros del SARIMA(1,0,1)x(0,1,1)7 con anlisis de intervencin y modelos de
funcin de transferencia asociadas a las variables CURVATMAX/TMIN
- 227 -
Ilustracin 7.55: Test de ruido blanco y correlograma del SARIMA(1,0,1)x(0,1,1)7 con anlisis de intervencin y
modelos de funcin de transferencia asociados a las variables CURVATMAX/TMIN e INC_TMAX/TMIN
Esta notable mejora en el ajuste del modelo a partir del nuevo tratamiento de la temperatura, se pone de manifiesto
tambin en la calidad de los resultados en trminos de error tanto sobre el histrico como fuera de muestra, tal y como
se muestra en las tablas siguientes:
- 228 -
Tabla 7.35: Errores de prediccin del SARIMA(1,0,1)x(0,1,1)7 con anlisis de intervencin y modelos de funcin
de transferencia asociados a las variables CURVATMAX/TMIN e INC_TMAX/TMIN
Los errores medios y medianos de prediccin son claramente favorables al modelo que utiliza las transformaciones
dadas por (7.39) para las variables de temperatura. Los resultados asociados al modelo que utiliza las variables
INC_TMAX e INC_TMIN salen incluso un poco peores que aqullos que fueron obtenidos cuando contemplbamos
todo el histrico (tabla (7.31)).
As, terminamos decantndonos por el modelo (7.40) como alternativa a la solucin propuesta mediante cpulas.
Incluso podra proponerse un modelo para el que el trmino de error est an ms incorrelado con su pasado, es decir,
que responde todava mejor a la hiptesis de ruido blanco que sobre l se hace. Para ello, basta observar el correlograma
de la izquierda presentado en la ilustracin (7.55) y darse cuenta de que las autocorrelaciones de rdenes 2 y 3
presentan cierta significatividad. Basta incluir dos nuevos parmetros asociados a ellos en la parte regular de medias
mviles 2 y 3. El modelo resultante sera un SARIMA(1,0,3)x(0,1,1)7 que responde a la expresin:
Num _ intervenciones
11B2B 2 3B 3 1 7B 7
1 B 7 X t=
t
p iI { t=i }
11B
i=0
(7.41)
Segn se puede comprobar en la siguiente tabla, el nuevo modelo presenta estimaciones significativas para los nuevos
parmetros y adems no se establecen altas correlaciones entre los parmetros bsicos del modelo, es decir, aqullos
que hacen referencia a la parte autorregresiva y a la parte de medias mviles. En cuanto al test de ruido blanco se
refiere, existe an menos evidencia emprica para rechazar que las autocorrelaciones del proceso residual valgan cero.
- 229 -
- 230 -
Tabla 7.36: Errores de prediccin de los modelos SARIMA(1,0,1)x(0,1,1)7 y SARIMA(1,0,3)x(0,1,1)7 con anlisis de
intervencin y modelos de funcin de transferencia asociados a las variables CURVATMAX/TMIN
Los resultados proporcionados por cualquiera de estos dos modelos de prediccin mejoran los que hemos obtenido en el
ajuste que combina la prediccin del modelo ARIMA con la correccin llevada a cabo mediante funciones cpula.
Estos ltimos, extrados de la tabla (7.32) son los que se presentan en la siguiente tabla:
Tabla 7.37: Errores de prediccin finales conseguidos al utilizar iterativamente funciones cpula para explicar
mediante las variables INC_TMAX/TMIN, los procesos de error que van resultando de sucesivos ajustes.
El proceso de error inicial se obtiene tras ajustar un modelo SARIMA(1,0,1)x(0,1,1)7 con anlisis de intervencin
La comparacin de unos y otros resultados inclinan la balanza ligeramente a favor de los ARIMA que utilizan modelos
de funcin de transferencia. Sin embargo, teniendo en cuenta que stos emplean unas variables de temperatura que
poseen un mayor poder de prediccin que las que hemos usado para el ajuste mediante cpulas, y que a igualdad de
factores explicativos los resultados obtenidas para estas ltimas eran mejores, parece interesante plantearse la
correccin del trmino de error del modelo ARIMA dado por (7.36) respecto de las variables climticas
- 231 -
que resultan de aplicar la transformacin (7.39). El nico inconveniente que podemos encontrar es que en este caso, no
est tan clara la independencia temporal de la variable de temperatura que vamos a utilizar para ir explicando los
sucesivos trminos de error que vayan surgiendo conforme vayamos aplicando el algoritmo, circunstancia que segn se
explica en [FERSCA] juega en contra del empleo de funciones cpula.
Hemos aplicado nuevamente el algoritmo descrito en el apartado 6.1 utilizando CURVATMAX y su retardo
CURVATMAX_2 y CURVATMIN y su retardo CURVATMIN_2 como variables explicativas habiendo distinguido dos
casos:
En el primero de ellos hemos ajustado el modelo ARIMA (7.36) al histrico comprendido entre el 1 de
Noviembre de 1997 y el 31 de Octubre de 2005, siendo el proceso residual resultante el que hemos ido
aproximando de forma iterativa con las variables mencionadas.
En el segundo de ellos hemos ajustado el modelo ARIMA (7.36) al histrico comprendido entre el 1 de
Noviembre de 2001 y el 31 de Octubre de 2005, dado que ha sido ste el utilizado en los modelos de expresin
(7.40) y (7.41) que hasta ahora han proporcionado las mejores predicciones. Un posible inconveniente es que,
dado que el histrico es de menor dimensin, tambin lo ser el nmero de datos de las sucesivas variables de
error que tendremos para el ajuste de las funciones cpula.
- 232 -
Tabla 7.38: Errores de prediccin parciales conseguidos al utilizar iterativamente funciones cpula para explicar
mediante las variables CURVATMAX/TMIN, los procesos de error que van resultando de sucesivos ajustes.
El proceso de error inicial se obtiene tras ajustar un modelo SARIMA(1,0,1)x(0,1,1)7 con anlisis de intervencin
Modelo entrenado con datos del 1/11/1997 al 31/10/2005
- 233 -
Tabla 7.39: Errores de prediccin parciales conseguidos al utilizar iterativamente funciones cpula para explicar
mediante las variables CURVATMAX/TMIN, los procesos de error que van resultando de sucesivos ajustes.
El proceso de error inicial se obtiene tras ajustar un modelo SARIMA(1,0,1)x(0,1,1)7 con anlisis de intervencin
Modelo entrenado con datos del 1/11/2001 al 31/10/2005
Los resultados de estos dos ltimos conjuntos de tablas se pueden presentar de forma resumida como sigue:
- 234 -
Tabla 7.40: Errores de prediccin parciales conseguidos al utilizar iterativamente funciones cpula para explicar
mediante las variables CURVATMAX/TMIN, los procesos de error que van resultando de sucesivos ajustes.
El proceso de error inicial se obtiene tras ajustar un modelo SARIMA(1,0,1)x(0,1,1)7 con anlisis de intervencin
Los resultados obtenidos son bastante parejos pero, en cualquier caso, peores que los que se obtenan con las variables
de incremento de temperatura (vase tabla (7.37)). Es decir, las variables que tan buenos resultados proporcionan
cuando son utilizadas como modelos de funcin de transferencia, no producen el mismo efecto si son utilizadas en el
ajuste mediante cpulas. Esto, como hemos sealado, puede ser una consecuencia del hecho de que existe cierta
estructura de dependencia temporal en estas variables.
Supongamos por ejemplo que un martes 14 de Noviembre se hiciera una prediccin para el da 15, P15NOV, a travs del
modelo (7.36) que no tiene en cuenta el efecto de la meteorologa. Tal y como est planteado el modelo , dicha
prediccin estara muy condicionada por el dato real de demanda del da 14 (p = 1), por el dato real de la semana pasada
(D = 1) y por los posibles errores de prediccin asociados a esos das (q = 1 y Q = 1). El da 15 en s no presentara
ningn tipo de intervencin adicional por no estar reconocido como una fiesta en el calendario laboral. Dado que el
martes y el mircoles son das laborables, a igualdad de temperatura se podra esperar para ellos un mismo nivel de
demanda. As, si la temperatura mxima prevista para el da 15 fuera de 3C y la temperatura registrada el da 14
estuviese comprendida ente 1C y 5C, la demanda no sufrira un cambio drstico de comportamiento y el modelo
(7.36) incurrira en un bajo error de prediccin. Sin embargo, para esa misma previsin de 3C, un registro de 10C el
da 14 de Noviembre supondra, casi con total seguridad, que la demanda subiera (podra no ser as si el cambio de
temperatura se produjera de un viernes a un sbado o de un laborable a un festivo). En este caso, dado que el modelo
(7.36) no recoge el efecto de la temperatura, la prediccin P15NOV que proporcionara el modelo quedara muy por debajo
del dato real y en consecuencia, el modelo dara lugar a un grave error de prediccin. Vamos a ver que al intentar hacer
la correccin mediante cpulas del error que cometera el modelo el da 15 en este ltimo escenario, llegaramos a
resultados claramente diferenciados en funcin de que estableciramos la relacin de dicho error con el valor de la
variable CURVATMAX o INC_TMAX:
Si utilizramos CURVATMAX, simularamos a travs de la cpula condicionada, posibles errores que pudiera
cometer el modelo (7.36) cuando la temperatura fuese de 3C en Noviembre, errores que como hemos visto,
presentan cierta dependencia temporal. Es decir, si la temperatura el da anterior fuese parecida, el error en que
incurrira el modelo sera bajo, mientras que si el valor de temperatura fuese mucho mayor, el error sera
- 235 -
alto. En la muestra de aprendizaje que sirve a su vez de soporte a la funcin cpula a ajustar, tendramos
errores altos y errores bajos cometidos en Noviembre para un mismo valor de la temperatura, 3C. Por ello, las
simulaciones realizadas no tendran una tendencia clara hacia errores porcentuales grandes o pequeos y la
mediana de las mismas daran lugar a un error intermedio.
Por otra parte, si utilizramos INC_TMAX, la cpula condicionara al valor de una cada de temperatura y las
simulaciones se haran en funcin de ese valor. No se condicionara al hecho de que la temperatura en
Noviembre fuese de 3C sino al hecho de que se hubiera producido una bajada de temperatura en Noviembre
de 7C (de 10C el 14 de Noviembre a 7C el da 15). La cpula se entrenara a partir de cadas bruscas de
temperatura en Noviembre ante las cuales no existe tanta dispersin en el trmino de error. Por lo general, los
errores de prediccin en estas circunstancias suelen ser muy altos.
Para corroborar estas hiptesis de una manera ms formal, podemos utilizar el estadstico de Durbin-Watson el cual
permite identificar la presencia de autocorrelacin positiva o negativa de primer orden, es decir, la existencia de
correlacin entre el valor de la variable cuya dependencia temporal se cuestiona en el instante t (Yt) y en el instante
t-1 (Yt-1) (la hiptesis nula plantea la ausencia de correlacin significativa). Dicho estadstico tiene un rango de
variacin entre 0 y 4 y responde a la expresin:
n
Y t Y t 1 2
DW = t =2
Yt
(7.42)
t =1
En lneas generales, se puede considerar que valores del estadstico prximos a 2 indican escasa autocorrelacin de la
variable que se contrasta, valores entre 0 y 2 una autocorrelacin positiva, y valores entre 2 y 4 una autocorrelacin
negativa. El clculo de dicho estadstico sobre las distintas versiones de la variable temperatura mxima, conduce a los
siguientes resultados:
La dependencia temporal de la variable original (TMAX) es ms que evidente, pues la temperatura de un da ser
habitualmente parecida a la del da anterior. Del mismo modo, la transformacin de dicha variable a travs de la
- 236 -
expresin (7.39) (CURVATMAX) heredar esta propiedad, dado que dos valores de temperatura parecidos (de dos das
consecutivos) sern transformados en valores tambin similares. Es por ello que los valores del estadstico no se
mueven en entornos prximos a 2 para ninguna de estas variables. Sin embargo, para la variable INC_TMAX el
estadstico de Durbin-Watson s proporciona valores cercanos a 2 lo cual denota la ausencia de autocorrelacin de orden
1. Esta circunstancia resulta obvia si tenemos en cuenta que dicha variable se obtiene al aplicar una diferencia de orden
1 sobre TMAX (a fin de cuentas un proceso autorregresivo de orden 1 en el que el parmetro 1 es igual a 1). De esta
manera queda contrastada la dependencia temporal de la variable CURVATMAX y la independencia de INC_TMAX para
la cual hemos obtenido mejores resultados en trminos de error de prediccin. Confirmamos as, la necesidad de
eliminar la influencia temporal al utilizar las funciones cpula a las que venimos haciendo referencia o,
alternativamente, emplear familias que sean capaces de reflejar esta dependencia (cpulas dependientes del tiempo).
- 237 -
- 238 -
8. Conclusiones
En esta tesis proponemos una metodologa para realizar predicciones diarias de demanda de gas/electricidad a corto y
medio plazo. Est orientada fundamentalmente al tratamiento de aquellos casos en los que un porcentaje considerable
de este consumo es de carcter domstico y se encuentra por tanto muy influenciado por la accin de agentes
climticos.
Una de las principales novedades que incorpora esta metodologa es el empleo de una clase de funciones denominadas
cpulas que posibilita, a partir de dos o ms variables con sus respectivas marginales, la construccin de distribuciones
multidimensionales que presenten dichas marginales (teorema de Sklar). Estas funciones permiten capturar la relacin
de dependencia existente entre las variables involucradas en el anlisis (demanda y temperatura) y, a partir de ella,
llevar a cabo la generacin de valores de una de las variables condicionando al valor que pueden tomar las restantes.
A travs de la media o mediana de las simulaciones, somos capaces de proponer valores esperados para una distribucin
condicionada que, a fin de cuentas, viene a ser la esencia de un estudio de prediccin.
El problema que se suele plantear es determinar aquella funcin cpula que genere la distribucin conjunta ms ajustada
a la relacin de dependencia existente entre todas las variables. El criterio de seleccin que hemos utilizado est basado
en un contraste clsico de bondad de ajuste de distribuciones (contraste de la chi-cuadrado), cuantificado por el valor
que toma el estadstico de Pearson P sobre una particin dada del cuadrado unidad, el cual sirve de soporte a esta clase
de funciones.
Hemos implementado un programa informtico que, para un par de variables y una particin de unas dimensiones
especficas, seleccione de manera automtica una funcin cpula de acuerdo a este criterio. Partiendo de un conjunto de
familias cuya expresin es conocida y que por sus propiedades se consideran candidatas interesantes, el programa
propone como mejor alternativa aqulla que, respecto de dicho estadstico, presente un menor valor.
Sin embargo, tambin hemos considerado importante la posibilidad de ofrecer una funcin cpula en aquellos casos en
los que todos los valores calculados para los estadsticos de Pearson correspondientes a las distintas familias, conduzcan
a rechazar el contraste planteado y resulte imposible disponer de una propuesta de ciertas garantas. En estos casos, el
programa proporciona una cpula emprica C* , no paramtrica, que garantiza un buen ajuste respecto del criterio de
seleccin establecido. Dicha cpula se genera por extensin de la funcin subcpula C'* que, para la particin realizada,
ofrece el menor (y por tanto mejor) valor posible de P (P *). Para construir esta funcin subcpula hemos planteado un
modelo de programacin fraccional (por la naturaleza de su funcin objetivo), en el que las variables de decisin son los
propios valores que debe tomar C'* en cada uno de los puntos de su dominio de definicin y en el que el objetivo a
minimizar es el propio estadstico. Este mtodo de construccin de cpulas, que presentan un valor ptimo respecto del
estadstico de Pearson, constituye la principal aportacin terica de esta tesis.
La subcpula producto es suficiente para demostrar la factibilidad del problema de programacin matemtica (teorema
(4.1)) y adems supone un buen punto de partida para la bsqueda de la solucin ptima C'* , dado que, el resultado de
la evaluacin del estadstico sobre los puntos de su dominio, no presenta problemas de nulidad en el denominador.
La generacin de la cpula C* se lleva a cabo por interpolacin de los valores c'*ij que resultan de resolver el modelo de
programacin matemtica, es decir, por interpolacin del dominio de definicin de la subcpula ptima. De esta
manera, se pretende conservar el valor ptimo P * obtenido para ella.
Conclusiones
239
Hemos expuesto tres formas distintas de interpolacin, una bilineal (que permite obtener C*BILINEAL), otra mediante
polinomios cbicos de Hermite (que da lugar a C*HERMITE) y una tercera mediante polinomios de Bernstein (a partir de la
cual se genera C*BERNSTEIN):
La primera de ellas es la nica que conserva el valor del estadstico de Pearson obtenido para C'*.
Su construccin est siempre garantizada si bien el aspecto escalonado de su correspondiente densidad, resulta
poco verosmil para reflejar una relacin de dependencia, y por ello no consideramos apropiada su utilizacin
con fines predictivos. Resulta conveniente en ocasiones hacer particiones muy finas para las cuales es
necesario disponer de grandes volmenes de datos.
Por su parte, la construccin mediante interpolacin cbica no est siempre garantizada. Es necesario que la
subcpula C'* a la que interpola pertenezca a una subclase de funciones que hemos definido como
subcpulas-VMIN (teorema (4.6)). Esta clase est constituida por subcpulas tales que el volumen a travs de
ellas de cualquiera de los rectngulos contenidos en su dominio de definicin es mayor o igual que
V MIN =
2
3mn
unidad. Como consecuencia de esta imposicin, se puede asegurar que la subcpula-VMIN generada, C'**,
presenta el menor valor posible del estadstico de Pearson (P **) dentro de la clase de las subcpulas-VMIN , pero
no as dentro de la clase constituida por todas las subcpulas (P *).
A partir de C'**, hemos determinado unas condiciones suficientes (teorema (4.5)) que permiten asegurar que la
superficie construida por interpolacin mediante polinomios cbicos de Hermite es una funcin cpula.
Las densidades asociadas a ambas cpulas, C*BILINEAL
comportamiento en su afn por interpolar exactamente los valores que toma C'* (alternativamente C'**).
La primera presenta un aspecto escalonado y la segunda uno muy peculiar ondulado, de continuos
abombamientos. Esta circunstancia, si bien no parece aconsejable para reflejar relaciones suaves entre
variables, s puede resultar apropiada para capturar relaciones multimodales en las que existan ncleos
dispersos, alrededor de los cuales se concentre la densidad multivariante.
Finalmente, la densidad de la cpula C*BERNSTEIN muestra mayor regularidad a costa de aproximarse a los
valores de C'* pero, por las propiedades de los polinomios interpoladores (de Bernstein), no logra conseguir
una interpolacin exacta de los mismos. As, si bien no se consigue conservar el valor ptimo P *, su aspecto
ms regular y uniforme s parece ms adecuado para reflejar relaciones de dependencia ms convencionales.
En cualquier caso, haremos hincapi en que sugerimos el empleo de estas cpulas interpoladoras en aquellos casos en
los cuales ninguna de las familias candidatas presente un valor del estadstico que le permita superar el contraste de
bondad de ajuste. De hecho, ste no es el caso que se nos ha planteado al analizar la dependencia que existe entre la
demanda de gas y las variables de temperatura en la serie temporal que hemos analizado.
Conclusiones
240
Desde el punto de vista prctico, hemos incorporado este programa de seleccin de cpulas y de construccin de otras
empricas en aquellos casos en las que el contraste de bondad de ajuste sea rechazado para todas las candidatas, a una
herramienta informtica que hemos implementado y que automatiza el proceso de modelizacin a medio plazo de series
de demanda energtica de acuerdo a una metodologa innovadora. El objetivo consiste en predecir el pico (valor
mximo) diario de demanda que se puede esperar a un horizonte de dos aos. Para ello, hemos propuesto 3 fases:
Fase I: Construccin de un histrico en condiciones normales de temperatura.- Dado que a medio plazo el
valor diario de las temperaturas es imposible de determinar, hemos decidido aislar del histrico, el efecto de las
variables meteorolgicas para, en funcin de l, realizar una prediccin en condiciones de temperatura que
establecemos como normales.
Fase III: Simulacin de escenarios climatolgicos.- A travs de funciones cpula hemos analizado la
relacin de dependencia que vincula, en cada mes, al incremento existente entre el dato real de temperatura y
el establecido mensualmente como normal, con el incremento porcentual que se produce entre el dato real de
demanda y el dato establecido en condiciones climticas de temperatura en la fase I. Concretamente hemos
orientado el uso de funciones cpula, poco habituales en el mbito de prediccin de la demanda energtica, a la
simulacin de las posibles desviaciones que puede experimentar el patrn de demanda establecido para el
horizonte de dos aos, ante diferentes escenarios climatolgicos.
La herramienta que hemos programado da bastantes posibilidades a un analista familiarizado con todas estas tcnicas
expuestas, permitindole configurar a travs de una relacin de parmetros, el tipo de suavizado a utilizar (mediante
wavelets o splines), el grado de suavidad del ajuste, la familia de cpulas para llevar a cabo la simulacin, etc.
La determinacin del mtodo de suavizado ms conveniente (en nuestro caso los splines de regresin) est
condicionado por la calidad de los resultados, evaluados en trminos de error sobre datos recogidos en condiciones
normales de temperatura, los cuales constituyen un grueso del histrico considerable. Sin embargo, respecto de la clase
de cpulas a emplear, el criterio de seleccin se establece en funcin de sus posibilidades para predecir la distribucin
de la demanda bajo supuestos extremos del comportamiento de las variables de temperatura. Por ello, dado el escaso
nmero de datos que permite hacer este contraste, la utilizacin de una u otra clase de cpulas puede antojarse en
algunos casos un tanto subjetiva, siendo sta la razn que nos llevado a volcar nuestros esfuerzos en que la herramienta
pueda sugerir la familia ms adecuada de forma automtica.
Como punto de partida, se propone llevar a cabo la fase de simulacin del comportamiento de la demanda bajo
condiciones meteorolgicas adversas a travs de la distribucin condicionada de aquella cpula, de expresin conocida,
que presente un menor valor del estadstico de Pearson. En el caso en el que ninguna de ellas proporcione un buen
Conclusiones
241
valor, y siempre y cuando la cpula que mejor se ajuste a los datos no sea la cpula producto (que refleja
independencia), la herramienta lleva a cabo la simulacin a partir de la distribucin condicionada de alguna de las tres
cpulas obtenidas por interpolacin del dominio de la subcpula que optimiza el valor del estadstico de Pearson, C'*.
Hemos aplicado la metodologa propuesta al anlisis de la demanda de gas natural en Madrid, cuyo histrico de datos
nos ha sido proporcionado por el Departamento de Anlisis y Simulacin de la compaa Enags.
Esta serie presenta un porcentaje de consumo domstico superior al 80%. Respecto de ella, las familias de cpulas para
las cuales hemos obtenido un menor valor del estadstico de Pearson han sido la de Gumbel y la de Cola Derecha
Pesada. Este resultado nos ha parecido bastante satisfactorio siendo nuestro objetivo predecir el valor mximo esperado
para la demanda, dado que una y otra familia estn especialmente orientadas a enfatizar la relacin de dependencia entre
sucesos extremos (entre una ola de fro y el pico que se puede esperar para la demanda).
Adems, hemos comparado los resultados obtenidos para estas familias con los logrados mediante las cpulas
generadas por interpolacin de C'*. Si bien la balanza se inclina a favor de las primeras, hemos observado que en lineas
generales no son muy diferentes a los que pueden proporcionar las segundas, las cuales, por su naturaleza emprica,
tambin son capaces de amoldarse a las concentraciones de densidad que se producen en las regiones extremas de la
distribucin conjunta. Incluso, en las predicciones llevadas a cabo para algn mes concreto, los resultado obtenidos con
estas cpulas interpoladoras han llegado a ser mejores, con lo cual estimamos que pueden constituir siempre una
interesante alternativa de modelizacin.
En esta tesis proponemos tambin una metodologa para realizar predicciones de demanda energtica a corto plazo a
travs de un algoritmo (apartado 6.1) que, partiendo del proceso residual de un modelo ARIMA ajustado nicamente a
partir del histrico de demanda, suple el empleo de funciones de transferencia por funciones cpula.
De igual manera que en el ajuste a medio plazo, se selecciona (de acuerdo al test de la chi-cuadrado) la funcin cpula
que mejor refleja la relacin de dependencia entre el error porcentual cometido por el ARIMA (a predecir) y las
variables de incremento de temperatura de las que se dispone. En caso de que la cpula que mejor valor proporcione
para el estadstico de Pearson sea la cpula producto, se considera que ambas variables son independientes y se rechaza
la inclusin de la explicativa en el modelo. En caso contrario, la cpula es utilizada para corregir la prediccin
proporcionada por el ARIMA y dar lugar a un nuevo proceso residual que, de ser mejor que el anterior (de menor media
y/o mediana en trminos porcentuales), ser relacionado con algn otro de los regresores disponibles. El proceso de
ajuste termina cuando todos ellos han sido tanteados.
El algoritmo funciona bien si las variables implicadas son ruidosas y no presentan dependencia temporal. Respecto de
la variable residual, esta independencia est siempre garantizada dado que, el punto de partida es el residuo de un
modelo ARIMA y es precisamente al ajuste de la parte MA el que hace que el error obtenido sea incorrelado con su
pasado. Por ello, todo se reduce a garantizar la independencia temporal de las variables explicativas. La razn que
justifica esta necesidad, es que durante el proceso de ajuste se utilizan funciones cpula bidimensionales que
nicamente analizan la relacin existente entre el par de variables (X, Y), no entre las integrantes de la terna (X, Y, T)
donde T representa al tiempo.
Las primeras pruebas que hemos realizado perfilan un futuro bastante prometedor en cuanto a los resultados que
podremos llegar a lograr, dado que, los que ya vamos obteniendo y que aqu hemos presentado, son directamente
comparables a los que ofrecen los modelos de funcin de transferencia.
Conclusiones
242
9. Futuros trabajos
Actualmente estamos incorporando nuevas funcionalidades a la herramienta de prediccin a medio
plazo.
Pretendemos conseguir que participen ms variables en la construccin del histrico de demanda en condiciones
climatolgicas normales y de momento hemos comenzado por hacer que se involucren de manera simultnea en dicho
proceso las temperaturas mxima y mnima. Con la idea de que el usuario pueda simular escenarios en los que
participen de manera conjunta ambas variables, estamos introduciendo funciones 3-copulas que analicen la relacin de
dependencia de dichas variables con la demanda. Concretamente hemos incorporado la 3-cpula de Farlie-GumbelMorgenstern para la cual es sencillo calcular su expresin condicionada y realizar a partir de ella simulaciones, y
estamos trabajando en la incorporacin de algunas familias arquimedianas capaces de capturar otras relaciones
interesantes como la de Gumbel (que como hemos visto acenta la dependencia entre las colas derechas de las
distribuciones), o la de Clayton (que acenta ms la relacin de dependencia entre las colas izquierdas).
De manera adicional a la intencin de mejorar esta herramienta, nuestra atencin est principalmente centrada en el
desarrollo de otra que permitir el tratamiento a corto plazo de este tipo de series de acuerdo al algoritmo propuesto en
el apartado 6.1. Conforme a algunos de los resultados presentados en esta tesis hemos observado que, partiendo de las
predicciones realizadas por un modelo ARIMA que se construye nicamente a partir del histrico de demanda, la
informacin aportada por ciertas variables exgenas (incrementos de temperatura) proporciona mejores predicciones
haciendo uso del citado algoritmo que emplea funciones cpula, en lugar de los tradicionales modelos de funcin de
transferencia. Este algoritmo relaciona de manera iterativa a travs de una 2-cpula, pares de variables en las que una de
ellas es siempre el proceso de error resultante del ajuste anterior. De igual modo que en el sistema de prediccin a
medio plazo, estamos incorporando funciones 3-cpulas que utilicen de forma conjunta la informacin aportada por el
par de variables exgenas (temperatura mxima y mnima), en vez de utilizar stas de manera independiente.
Nuestro inters actual en utilizar funciones cpula como parte de una metodologa de prediccin a corto plazo se
fundamenta, no slo en el hecho de que para un mismo grupo de variables haya proporcionado mejores resultados en
trminos de error que los modelos de funcin de transferencia que complementan a un modelo ARIMA, sino en la
capacidad que tienen las cpulas de poder dar distribuciones de probabilidad asociadas a la prediccin, algo que en
condiciones climatolgicas muy adversas puede ser especialmente interesante para el usuario de negocio. Desde este
punto de vista, la desventaja que presenta el modelo ARIMA es que la estimacin ofrecida por ste aparece centrada en
un intervalo de confianza y no contempla posibles asimetras en la prediccin.
Por otra parte, teniendo en cuenta el alto poder de prediccin que segn hemos visto, parecen presentar algunas
transformaciones de las variables de temperatura, pero cuya dependencia temporal las hace inapropiadas para su
manipulacin mediante cpulas, pretendemos estudiar aqullas que permitan manejar variables en presencia de esta
dependencia temporal o lo que es lo mismo, cpulas dependientes del tiempo en las cuales el parmetro asociado a la
cpula puede venir dado en funcin de l (vase por ejemplo el caso de la cpula gaussiana comentado en el apartado
4.2.2 de [PATTON]). Funciones con estas propiedades podran llevarnos incluso a plantear la posibilidad de aplicar el
algoritmo que proponemos, para relacionar los procesos de error que iterativamente se van obteniendo con variables
que reflejen la demanda del da o la semana anterior. De esta manera, las funciones cpula no seran utilizadas
nicamente para buscar la relacin del residuo de un modelo ARIMA con variables externas, sino que participaran
Futuros
trabajos
243
directamente en la identificacin de caractersticas del histrico tales como la tendencia o la estacionalidad, lo cual
podra conducir a que el proceso de modelizacin completo estuviese basado exclusivamente en el empleo de este tipo
de funciones.
Incluso podra plantearse la posibilidad de llevar a cabo el tratamiento de festividades, puentes y periodos vacacionales
(anlisis de intervencin) mediante funciones cpula. Si bien las variables que recogen este tipo de efecto son discretas
e impiden por tanto el uso del teorema de Transformacin Integral de Probabilidad (teorema (1.2)), existen algunos
autores como Denuit y Lambert (2002) (vase [HEIREN]) que utilizan un mtodo para hacer continuas estas
variables, permitiendo as la aplicacin de funciones cpula a marginales discretas. Podramos por ejemplo definir las
festividades a travs de una variable que tomara 4 valores posibles en funcin de la intensidad de su efecto sobre la
serie (0 = no festivo, 1 = festividad local o comunitaria, 2 = puente asociado a festividad nacional y 3 =
festividad nacional), y utilizar el proceso que proponen los autores mencionados para hacer continuas dichas
variables, de manera que puedan ser tratadas por nuestro algoritmo.
Esta lnea de investigacin focalizada en el tratamiento mediante cpulas de la dependencia dinmica asociada a la
mayor parte de las series temporales, y en la que ya encontramos algunos trabajos (vase por ejemplo [PATTON],
[PATTON2], [BOGASA] o [FERSCA]), ser la que gue nuestros prximos pasos en el futuro.
Futuros
trabajos
244
ANEXOS
2.
3.
Cpula producto
u , v=uv (AI.3)
Cpula emprica
i j n de pares x , y en la muestra tales que xx i e y y j (AI.4)
C n , =
n n
n
ANEXO
I:
Algunas
familias
de
cpulas
245
siendo
[ ][ ]
=corr 1 u , 1 v
1 la inversa de
Cpula de Cauchy
Es un caso particular de la T-Cpula (vase (AI.40)) en el que el nmero de grados de libertad es 1 ( = 1).
No se considera biparamtrica dado que el valor del segundo de los parmetros de los que depende viene
fijado.
1
C u , v =t 21, [ t1
1 u , t 1 u ] con 2 (AI.6)
1.
C u , v =uvexp {ln u ln v } con 0 (AI.7)
2.
3.
siendo
ANEXO
I:
1 la inversa de
Algunas
familias
de
cpulas
246
1.
Familia de Ali-Mikhail-Haq
C u , v=
uv
con 11 (AI.10)
1 1u1v
t=ln
El generador de la cpula es
2.
11t
t
1
El generador de la cpula es t= t 1
3.
C u , v=uv1[1u 1v 1]
con 0 (AI.12)
Esta cpula es realmente la cpula de supervivencia asociada a la familia de Clayton. Por definicin, la cpula
de supervivencia asociada a una cpula C es
4.
e
1
C u , v= ln 1
1ev 1
con \{0} (AI.13)
e 1
5.
C u , v=uv1C 1u ,1 v .
et 1
e 1
7.
ANEXO
I:
Algunas
familias
de
cpulas
247
8.
Nelsen (1999)
C u , v=max 1[1u 1v ]1 / ,0 con 1 (AI.17)
9.
Nelsen (1999)
2uv1u 1v
2121u1v
El generador de la cpula es t=
,0 ] con 1 (AI.19)
1t
11t
C u , v =
[11u 1v ]
con 01
(AI.20)
1
2
(AI.21)
1
1
C u , v=1[ u 1 v 1 ]
con 1 (AI.22)
1
El generador de la cpula es t= 1
t
C u , v=1[ u 1 v 1 ]
con 1 (AI.24)
El generador de la cpula es t= t 1
ANEXO
I:
Algunas
familias
de
cpulas
248
C u , v=max {1[ 1u 1v ] } ,0 con 1 (AI.25)
1
[1u 1 ][1v1 ]
2 1
1t 1
2 1
C u , v =max 1
ln [ e
u1
v1
,0 con 2 (AI.28)
]
C u , v =
con 0
ln e e e
(AI.29)
con 0 (AI.30)
con 1 (AI.31)
ANEXO
I:
Algunas
familias
de
cpulas
249
C u , v=max [11u 11v 1v 1 1u ] ,0 con 01 (AI.32)
2.
C u , v= u v 1
4.
5.
21
21
M u , v12 u , v
W u , v con 11 (AI.36)
2
2
6.
con 0 (AI.35)
Familia de Sarmanov
C u , v=uv uv1u1v [ 35212u 12v ] con 01 (AI.38)
7.
ANEXO
I:
Algunas
familias
de
cpulas
250
T-Cpula
1
C , u , v=t2 , [ t1
u , t u ] con 2 (AI.40)
siendo
t 2 , la funcin de distribucin conjunta de una variable t-student con matriz de covarianzas igual a
[ ]
1
R con R=
2
1
1
, =corr t 1
u , t v y =numero de grados de libertad
y siendo
.
2
1.
Joe (1997)
log v
] } con 1,0 (AI.41)
Joe (1997)
C , u , v={ [u 1 v 1 ] 1}
con 0, 1 (AI.42)
El generador de la cpula es , t =t 1
2.
Joe (1997)
1
C , u , v={ 1 log e
u 1
v 1
1 }
con , 0 (AI.43)
3.
Joe (1997)
1
C , u , v=exp{[ log e
log u
log v
1 ]}
ANEXO
I:
Algunas
familias
de
cpulas
251
4.
Joe (1997)
El generador de la cpula es , t =[log 11t ]
5.
Joe (1997)
1 1
C , u , v=11[11u 11v 1 ] con 1,0 (AI.46)
El generador de la cpula es , t =[11t ] 1
6.
C , u , v=max { 1[1u 1v ] } ,0 con 01,1 (AI.47)
El generador de la cpula es , t =1t
7.
uv1u1v
,0 con 01 (AI.48)
11u1v
1.
2.
3.
4.
5.
ANEXO
I:
Algunas
familias
de
cpulas
252
6.
1
1
7.
8.
C , u , v=uv[ 11u 1v ]
ANEXO
I:
Algunas
familias
de
cpulas
253
ANEXO
I:
Algunas
familias
de
cpulas
254
i j
c *ij=C * , i{ 0,1,2 , ... n } j { 0,1,2 , ... m } que define una
n m
subcpula C* de dominio los puntos de interseccin entre los rectngulos que originan la particin.
Sea CHERMITE(u,v) la funcin que se obtiene por interpolacin cbica de C* mediante polinomios de Hermite.
Si
C HERMITE u k ,0
C HERMITE 0, v l
=0 k { 0,1,2 ,... , n } y
=0 l { 0,1,2 , ... , m} ,
u
v
entonces
la
funcin
CHERMITE(u,v) cumple la primera de las condiciones para ser cpula: CHERMITE(u,0) = CHERMITE(0,v) = 0 para cualesquiera
u y v.
demostracin
Partiremos de la subcpula C* la cual, por definicin, verificar la propiedad (1.2) de manera que
C * u i ,0=C * 0,v j i{0,1 ,2 , ... , n } , j { 0,1,2 , ... , m}
Vamos a hallar la imagen a travs de CHERMITE del punto (u,0). Asociado al punto v = 0 habr que considerar como
vrtices
del
rectngulo
al
que
pertenece
vj
vj+1
1/m.
Teniendo
en
cuenta
que
C HERMITE u k ,0
=0 k { 0,1,2 ,... , n } por hiptesis, y desarrollando la expresin (4.19) para CHERMITE(u,0) se
u
obtendra lo siguiente:
ANEXO
II:
Demostracin
del
lema
4.2
255
C HERMITE u ,0=
3
2
3
2
2uui 3uui
2uui 3uui
*
*
[
1C
u
,0
C ui1 ,0]
i
ui 1ui 3 ui1ui 2
u i 1ui 3
u i1ui 2
2003 3002
1
1/m03 1/ m02
2uui 3 3uui 2
2uui 3 3uui 2
*
[
1C
u
,1/
m
C * ui 1 ,1/m ]
i
ui 1ui 3 ui1ui 2
ui1u i 3
ui 1ui 2
3
2
200 300
3
2
1/m0
1/ m0
3
2
*
3
2
*
2uui 3uui
C ui ,0 2uui 3uui C ui1 ,0
[
v
ui 1ui 3 ui1ui 2
ui 1ui 3
ui1 u i 2 v
uui 3
2uu i 2
2 C * ui ,0 uu i 3
uu i 2
2 C * ui 1 ,0
uui
]
2
2
uv
ui1ui u i 1ui
ui1 ui ui 1ui u v
003
2002
00
2
1/m0 1/ m0
2uui 3 3uui 2
C * ui ,1/m 2uui 3 3uui 2 C * ui 1 ,1/m
[
v
ui 1ui 3 ui1ui 2
u i1 ui 3
ui 1ui 2 v
uui 3
2uu i 2
2 C * ui ,1/m uui 3
uui 2
2 C * ui1 ,1/m
uu
]
i
uv
ui1ui 2 u i 1ui
ui 1ui 2 ui1 u i u v
003
002
=
2
1/m0 1/ m0
2uui 3 3uui 2
2uui 3 3uui 2
*
*
[
1C
u
,0
C ui1 ,0]=0
i
ui 1ui 3 ui1ui 2
u i 1ui 3
u i1ui 2
u[ui , ui1 ]
(AII.1)
La igualdad a cero es consecuencia del hecho de que C* sea una subcpula y por tanto, se cumple la primera de las
propiedades de este tipo de funciones (vase (1.2)).
De igual manera, vamos a hallar la imagen a travs de CHERMITE del punto (0,v). Asociado al punto u = 0 habr que
considerar como vrtices del rectngulo al que pertenece ui = 0 y ui+1 = 1/n. Teniendo en cuenta que
C HERMITE 0, v l
=0 l { 0,1,2 , ... , m}
v
C HERMITE 0,v=
3
2
2vv j 3vv j
2003 3002
*
[
1C
0,v
]
1
j
1/n03 1/n02
v j 1v j 3 v j1 v j 2
2vv j 3 3vv j 2
2003 3002
[
1C * 0,v j 1]
=0
3
2
1/n0 1/n0
v j1v j 3
v j 1v j 2
v[v j ,v j 1 ]
(AII.2)
igualdad que tambin es consecuencia del hecho de que C* sea subcpula y concluyndose as la demostracin del lema.
c.q.d
ANEXO
II:
Demostracin
del
lema
4.2
256
i j
c *ij=C * , i{ 0,1,2 , ... n } j { 0,1,2 , ... m } que define una
n m
subcpula C* de dominio los puntos de interseccin entre los rectngulos que originan la particin.
Sea CHERMITE(u,v) la funcin que se obtiene por interpolacin cbica de C* mediante polinomios de Hermite.
Si
C HERMITE u k ,1
C HERMITE 1, v l
=1 k {0,1 ,2 , ... , n } y
=1 l { 0,1 ,2 , ... , m } ,
u
v
entonces
la
funcin
CHERMITE(u,v) cumple la segunda de las condiciones para ser cpula: CHERMITE(u,1) = u y CHERMITE(1,v)=v para
cualesquiera u y v, es decir, C tiene marginales uniformes.
demostracin
Empezaremos hallando la imagen a travs de CHERMITE del punto (u,1). Asociado al punto v = 1 habr que considerar
como
vrtices
del
rectngulo
al
que
pertenece
vj =
(m-1)/m
vj+1=1.
Teniendo
en
cuenta
que
C HERMITE u k ,1
=1 k { 0,1,2 , ... , n } por hiptesis, y desarrollando la expresin (4.19) para CHERMITE(u,1) se
u
obtendra lo siguiente:
ANEXO
III:
Demostracin
del
lema
4.3
257
C HERMITE u ,1=
3
2
3
2
2uu i 3uu i
2uu i 3uu i
m1
m1
*
*
[
1C
u
,
C u i1 ,
i
m
m
u i 1ui 3 u i1u i 2
ui 1u i 3
u i1 u i 2
m1
m1
C * u i ,
C * u i1 ,
uu i 3
2uu i 2
uu i 3
uu i 2
m
m
uu
]
i
u
u i1u i 2 u i 1ui
u i1 u i 2 u i 1u i u
3
m1
m1
31
m
m
1
3
2
m1
m1
1
m
m
2uu i 3 3uu i 2
2 uu i 3 3 uu i 2
[
1C * u i ,1
C * ui 1 ,1
3
2
3
2
u i 1ui u i1u i
u i1 u i
ui 1u i
3
2
3
2
uu i
2uu i
uu i
uu i
uu
1
1 ]
i
u i1u i 2 u i 1ui
u i1u i 2 u i1 ui
21
m1 3
m1 2
21
31
m
m
m1 3
m1 2
1
m
m
m1
m1
C * ui ,
C * u i 1 ,
3
2
2
uu
3
uu
m
m
i
i
[
v
u i 1ui 3 u i1u i 2
u i1u i 3
u i 1ui 2 v
m1
m1
2 C * u i ,
2 C * u i1 ,
uu i 3
2uu i 2
uu i 3
uu i 2
m
m
uu
]
i
u v
u i1u i 2 u i 1ui
u i 1ui 2 u i1u i u v
2uu i 3
3uu i 2
m1 3
m1 2
1
21
m
m
m1
m
m1 2 1 m1
1
m
m
3
2
*
3
2
*
2uu i 3uu i
C u i ,1 2uu i 3uu i C u i1 ,1
[
v
u i 1ui 3 u i1u i 2
u i 1ui 3
u i1u i 2 v
uu i 3
2uu i 2
2 C * u i ,1 uu i 3
uu i 2
2 C * u i 1 ,1
uu
]
i
2
2
u v
u i1u i u i 1ui
u i1u i u i 1ui u v
3
2
m1
m1
1
1
m
m
=
2
m1
m1
1
m
m
2uu i 3 3uu i 2
2 uu i 3 3 uu i 2
*
[
1C
u
,1
C * ui 1 ,1
i
3
2
3
2
u i 1ui u i1u i
u i1 u i
ui 1u i
uu i 3
2uu i 2
C * u i ,1 uu i 3
uu i 2
C * ui 1 ,1
uu
]
i
u
u i1u i 2 u i 1ui
u i 1u i 2 u i1u i u
u[u i , u i1 ]
Teniendo en cuenta que C* es una subcpula y que por tanto cumple la segunda de las propiedades de este tipo de
funciones (vase (1.3)), se tiene que C*(ui,1) = ui y que C*(ui+1,1) = ui+1. Como consecuencia,
ANEXO
III:
Demostracin
del
lema
4.3
258
C HERMITE u ,1=
3
2
3
2
2uu i 3uu i
2uu i 3u u i
[
1u
u i 1
i
u i 1ui 3 u i1u i 2
ui 1u i 3
u i1 u i 2
uu i 3
2uu i 2
uu i 3
uu i 2
uu i 1
1]=
2
2
u i1u i u i 1ui
u i1u i u i1 ui
3
u]=u
u i1 u i u i 1u i 2 u i1u i
ui 1u i 2
u [u i , u i1 ]
(AIII.1)
De igual manera, vamos a hallar la imagen a travs de CHERMITE del punto (1,v). Asociado al punto u = 1 habr que
considerar como vrtices del rectngulo al que pertenece ui = (n-1)/n y ui+1 = 1. Teniendo en cuenta que
C HERMITE 1, v l
=1 l{0,1 ,2 , ... , m } , y desarrollando la expresin (4.19) de igual forma que antes para
v
CHERMITE(u,1) se llegara a:
C HERMITE 1,v=
3
2
n1
n1
21
31
2 vv j 3 3 vv j 2
n
n
[
v
]
1
j
3
2
3
2
n1
n1
v j 1v j v j1 v j
1
n
n
n1 3
n1 2
21
31
2 vv j 3 3vv j 2
n
n
[
v
]
j1
n1 3
n1 2
v j1v j 3
v j 1v j 2
1
n
n
n1 3
n1 2
21
31
3
2
v v j
2 vv j
n
n
[
1
]
vv j
n1 3
n1 2
v j1v j 2 v j 1v j
1
n
n
3
2
n1
n1
21
31
v v j 3
vv j 2
n
n
[
1
]
=
n1 3
n1 2
v j1v j 2 v j 1v j
1
n
n
3
2
n1
n1
21
31
2 vv j 3 3 vv j 2
n
n
[
v j
3
2
2
v j1 v j
n1
n1
v j 1v j
1
n
n
n1 3
n1 2
21
31
2 vv j 3 3 vv j 2
n
n
[
v v j =v
n1 3
n1 2
v j 1v j 2 v j1 v j
1
n
n
v [v j , v j1 ]
(AIII.2)
lo cual concluye la demostracin del lema.
c.q.d
ANEXO
III:
Demostracin
del
lema
4.3
259
ANEXO
III:
Demostracin
del
lema
4.3
260
i j
c *ij=C * , i{ 0,1,2 , ... n } j { 0,1,2 , ... m } que define una
n m
subcpula C* de dominio los puntos de interseccin entre los rectngulos que originan la particin.
Sea CHERMITE(u,v) la funcin que se obtiene por interpolacin cbica de una subcpula C * mediante polinomios de
Hermite. Supongamos que las derivadas de segundo orden en el dominio de definicin de la subcpula valen cero, es
2 C HERMITE u i , v j
=0 i{ 0,1,2 ,... , n } j{ 0,1,2 , ... m } , en cuyo caso, CHERMITE(u,v) define una
uv
decir,
C FERGUSON u i , v j
C FERGUSON u i , v j
y
i { 0,1,2 , ... , n } j{0,1 ,2 , ...m }
u
v
proporcionan junto con una relacin de 's y 's una solucin del problema de programacin no lineal entera (4.21),
entonces la funcin CFERGUSON(u,v) cumple la tercera de las condiciones para ser cpula:
VC
[u 1, u 2 ] x [v 1, v 2 ]=C FERGUSON u 2, v 2 C FERGUSON u 2, v 1 C FERGUSON u1, v 2 C FERGUSON u1, v1 0
.
u 1, u 2, v 1, v 2 t.q u 1u 2, v 1 v 2
FERGUSON
demostracin
Vamos a ver que las condiciones que deben satisfacerse para que el volumen de un rectngulo arbitrario a travs de
CFERGUSON sea mayor o igual que cero, se traducen en la existencia de una solucin al problema (4.21) dada por una
relacin
de
valores
binarios
asociados
las
variables
's
's
las
tambin
variables
C FERGUSON u i , v j
C FERGUSON u i , v j
y
i { 0,1,2 , ... , n } j{0,1 ,2 , ... , m } .
u
v
Realmente, basta establecer estas condiciones respecto de un rectngulo cualquiera (en rojo en el grfico siguiente)
totalmente contenido o coincidente con alguno uno de los
cuadrado unidad dado que el volumen de cualquier otro rectngulo (en gris en dicho grfico) se podr expresar siempre
como suma de los volmenes de los del primer tipo.
ANEXO
IV:
Demostracin
del
lema
4.4
261
Supongamos un rectngulo B = [ui1, ui2] x [vj1, vj2] totalmente contenido en uno de los rectngulos que conforman la
rejilla, por ejemplo B = [ui,ui+1] x [vj,vj+1]. Vamos a descomponer el volumen de dicho rectngulo a travs de la funcin
CFERGUSON (aplicando (4.20)) en tantos bloques como pueden ser distinguidos en la matriz:de la geometra de Hermite
(4.18):
Un primer bloque asociado al valor de la funcin en cada uno de los vrtices de la superficie interpoladora.
Un segundo bloque asociado al valor de las derivadas de primer orden respecto de U de la funcin en cada
vrtice.
Un tercer bloque asociado al valor de las derivadas de primer orden respecto de V de la funcin en cada
vrtice.
Un cuarto bloque (ira asociado a la funcin CHERMITE pero no a CFERGUSON) asociado al valor de las derivadas
segundas de la funcin en cada vrtice. No mostraremos este bloque dado que al hacer el desarrollo para
CFERGUSON saldra igual a 0.
ANEXO
IV:
Demostracin
del
lema
4.4
262
B=
_ BLOQUE1
2
3
i
i
3
i1
i
2
3
j
j
3
j1
j
2
3
i
i
3
i1
i
2
3
j
j
3
j1
j
2
3
i
i
3
i1
i
1
3
j
j
3
j1
j
2
3
i
i
3
i1
i
1
3
j
j
3
j1
j
1
3
i
i
3
i1
i
2
3
j
j
3
j1
j
1
3
i
i
3
i1
i
2
3
j
j
3
j1
j
1
3
i
i
3
i1
i
1
3
j
j
3
j1
j
1
3
i
i
3
i1
i
1
3
j
j
3
j1
j
HERMITE
3ui2ui 2
2ui2ui 3 3u2i ui 2
1C ' ui ,v j
C ' ui1 , v j ]
2
u u
ui1 ui
ui1 ui 3
ui1 ui 2
2v v 3v2j v j 2
1
v v
v j1 v j 2
2
2
2
3
2
2
2u u 3ui ui
2ui ui 3ui ui
[
1C
'
u
,v
i
j1
2
3
2 C ' u i1 , v j1 ]
u u
ui1 ui
ui1 ui
ui1 ui
2v v 3v2j v j 2
2
v v
v j1 v j
2u u 3ui2ui 2
2ui2ui 3 3u2i ui 2
[
1C ' ui ,v j
C ' ui1 , v j ]
2
u u
ui1 ui
ui1 ui 3
ui1 ui 2
1
2
2v v 3v j v j
2 1
v v
v j1 v j
2
2
2
3
2
2
2u u 3ui ui
2ui ui 3ui ui
[
1C
'
u
,v
C ' ui1 , v j1 ]
i
j1
2
3
2
u u
ui1 ui
ui1 ui
ui1 ui
2v v 3v1j v j 2
v v
v j1 v j 2
1
2
1
3
1
2
2u u 3ui ui
2ui ui 3ui ui
[
1C
'
u
,
v
i
j
2
3
2 C ' u i1 ,v j ]
u u
ui1 ui
ui1 ui
ui1ui
2
2
2v v 3v j v j
1
2
v v
v j1 v j
2u u 3u1i ui 2
2u1i ui 3 3u1i ui 2
[
1C ' ui , v j1
C ' ui1 ,v j1 ]
2
u u
ui1 ui
ui1 ui 3
ui1ui 2
2
2
2v v 3v j v j
2
v v
v j1 v j
1
2
1
3
1
2
2u u 3ui ui
2ui ui 3ui ui
[
1C
'
u
,
v
C ' ui1 ,v j ]
i
j
2
3
2
u u
ui1 ui
ui1 ui
ui1ui
2v v 3v1j v j 2
1
v v
v j1 v j 2
2u u 3u1i ui 2
2u1i ui 3 3u1i ui 2
[
1C ' ui , v j1
C ' ui1 ,v j1 ]
2
u u
ui1 ui
ui1 ui 3
ui1ui 2
1
2
2v v 3v j v j
2 =
v v
v j1 v j
2u2i ui 3 3u2i ui 2
2u1i ui 3 3u1i ui 2
V C ' B[
]
3
2
3
2
ui1 ui
ui1 ui
ui1 ui
ui1ui
2v 2j v j 3 3v2j v j 2
2v1j v j 3 3v1j v j 2
[
]
3
2
v j1 v j
v j 1 v j
v j1v j 3 v j1 v j 2
[
2u u
Por comodidad nos va a interesar descomponer el resultado final en dos sumandos iguales:
VC
B=
_
V C ' B
2ui2ui 3 3u2i ui 2
2u1i ui 3 3u1i ui 2
[
]
2
ui 1 ui 3 ui1 ui 2
ui1ui 3 ui1ui 2
2v2j v j 3 3v 2j v j 2
2v 1j v j 3 3v1jv j 2
[
]
v j1 v j 3 v j1v j 2
v j1 v j 3 v j1v j 2
V C ' B
2ui2ui 3 3u2i ui 2
2u1i ui 3 3u1i ui 2
[
]
3
2
2
ui 1 ui
ui1 ui
ui1ui 3 ui1ui 2
2
3
2
2
1
3
1
2
2v j v j 3v j v j
2v j v j 3v jv j
[
]
3
2
v j1 v j
v j1v j
v j1 v j 3 v j1v j 2
HERMITE
BLOQUE1
(AIV.1)
ANEXO
IV:
Demostracin
del
lema
4.4
263
Segundo bloque:Correspondiente a las derivadas primeras respecto de U de CFERGUSON en los vrtices (ui, vj)
VC
HERMITE
B=
_ BLOQUE2
3
i
2
i
3
j
3
j
3
i
2
i
2
j
j
3
j
3
i
2
i
3
j
3
j
3
i
2
i
1
j
j
3
j
3
i
2
i
3
j
3
j
3
i
2
i
2
j
j
3
j
3
i
2
i
3
j
3
j
3
i
2
i
1
j
j
3
j
2u2i ui 2
C ' ui ,v j u2i ui 3
u2 u 2
C ' ui1 , v j
u2i ui
i i
]
2
u
ui1u ui1 ui
ui1 ui ui1 ui u
2v 2j v 3v2j v j 2
1
v j1 v
v j1 v j 2
2
2
2
2
3
2
2
ui u
2ui ui
C ' ui , v j1 ui ui
ui ui
C ' u i1 , v j 1
[
uui
]
2
u
u
u
u
u
u
ui1u
ui1 ui
i1
i
i1
i
[
2
i
u u
2v v
v j1 v
u2 u
[ i
ui1u
1
2v j v
v j1 v
2
u u
[ i
ui1u
2v v
v j1 v
1
ui u
[
ui1u
2
2v j v
v j1 v
u1 u
[ i
ui1u
2v v
v j1 v
1
u u
[ i
ui1u
2v 1j v
v j1 v
u1 u
[ i
ui1u
2v v
v j1 v
3v2j v j 2
2
v j1 v j
2u2i ui 2
C ' ui ,v j u2i ui 3
u2 u 2
C ' ui1 , v j
2
ui ui
i i
]
2
ui1 ui
u
ui1 ui ui1 ui u
1
3v j v j
2 1
v j1 v j
2
2
2
3
2
2
2ui ui
C ' ui , v j1 ui ui
u u
C ' u i1 , v j 1
uui
i i
]
2
ui1 ui
u
u
u
u
ui1 ui
i1
i
3
3v1j v j 2
v j1 v j 2
1
2
1
3
1
2
2ui ui
C ' ui , v j ui ui
ui ui
C ' ui1 ,v j
1
ui ui
]
2
ui1 ui
u
ui1 ui ui1 ui u
2
3v j v j
1
2
v j1 v j
2u1i ui 2
C ' ui ,v j1 u1i ui 3
u1u 2
C ' u i1 , v j1
uui
i i
]
2
ui1 ui
u
ui 1 ui ui1 ui u
3v j v j
v j1 v j 2
1
2
1
3
1
2
2ui ui
C ' ui , v j ui ui
ui ui
C ' ui1 ,v j
u1i ui
]
2
ui1 ui
u
u
u
u
ui1 ui
i1
i
3v1j v j 2
1
v j1 v j 2
2u1i ui 2
C ' ui ,v j1 u1i ui 3
u1u 2
C ' u i1 , v j1
uui
i i
]
2
ui1 ui
u
ui 1 ui ui1 ui u
3v j v j
2
v j1 v j
]
u
u
2
3
2
2
1
3
1
2
ui ui
2ui ui
ui ui
2ui ui
2
1
[
u
u
ui ui ]
i
i
2
2
ui1 ui ui1 ui
ui1ui u i1 ui
VC
HERMITE
_ BLOQUE2
B =[
3v 2j v j 2
2v 1j v j 3 3v1j v j 2
]
2
3
2
v j1 v i
v j1v j
v j1 v j
v j1 v j
C ' ui1 ,v j C ' ui1 , v j 1
[
]
u
u
2
3
2
2
1
u ui
ui ui
ui ui 3
u1i ui 2
[ i
]
ui1 ui 2 ui1 ui
ui1 ui 2 ui1 ui
[
2v2j v j 3
3
2v2j v j 3
v j1 v i 3
3v 2j v j 2
2v 1j v j 3 3v1j v j 2
]
v j1v j 2
v j1 v j 3 v j1 v j 2
(AIV.2)
ANEXO
IV:
Demostracin
del
lema
4.4
264
Las derivadas respecto de U y de V (vectores tangentes) van a ser las variables con las que vamos a poder jugar para
tratar de conseguir que la funcin que estamos definiendo sea 2-creciente y por tanto una cpula, dado que los valores
de la funcin vienen fijados de antemano (de hecho son los valores que estamos interpolando) y las derivadas de
segundo orden estamos asumiendo que son iguales a 0 (superficie interpoladora de Ferguson). Vamos a asignar un
nombre a las diferencias entre dichas derivadas (cuyo valor habremos de calcular):
C ' ui , v j
C ' u i , v j 1
C ' u i 1 , v j
C ' u i 1 , v j 1
= K 'ij y
= L'ij
u
u
u
u
En vez de dichos valores, podemos considerar sin restriccin de generalidad, otros alternativos proporcionales que, por
su forma, nos van a convenir ms de cara a los clculos posteriores. Sean:
C ' u i , v j C ' u i , v j1 K ijV C ' B
C ' u i1 , v j C ' u i1 , v j 1 L ijV C ' B
=
y
=
u
u
2u i1 u i
u
u
2 u i1u i
K ij=
Lij=
, es decir,
] (AIV.3)
V C ' B
u
u
] (AIV.4)
V C ' B
u
u
VC
HERMITE
_ BLOQUE2
2
B =
3
V C ' B
2v 2jv j 3 3 v 2j v j 2
2v 1jv j 3 3 v 1j v j 2
[
]
3
2
3
2
2
v j1 v i
v j1 v j
v j1 v j
v j1 v j
2
u i ui
2u i u i u i u i
u u i
2 ui ui ui u i
]
u i 1ui 3 u i 1u i 2 u i 1u i
u i1u i 3 u i1u i 2 ui 1u i
u 2u i 3
u 2i u i 2
u 1i u i 3
u1i u i 2
L ij[ i
]}
3
2
3
2
ui 1u i u i1u i
u i 1u i ui 1u i
{[ K ij[
(AIV.5)
Tercer bloque: Correspondiente a las derivadas primeras respecto de V de CFERGUSON en los vrtices (ui, vj)
El desarrollo se puede hacer de forma anloga al anterior. La nica diferencia es que en este caso, las derivadas de
primer orden son respecto de la variable V, pudiendo igualmente definir:
P ij =
2 v j 1v j C ' u i , v j C ' u i 1 , v j
[
] (AIV.6)
V C ' B
v
v
Qij=
2v j 1v j C ' ui ,v j1 C ' ui 1 ,v j 1
[
] (AIV.7)
V C ' B
v
v
ANEXO
IV:
Demostracin
del
lema
4.4
265
VC
HERMITE _ BLOQUE3
B=
V C ' B
2u 2i u i 3 3u i2u i 2
2 u 1i ui 3 3 u 1i ui 2
[
]
3
2
3
2
2
u i 1u i
u i1 u i
u i1 u i
u i 1u i
2
v j v j
2 v j v j v jv j
v v
2v j v j v jv j
j j 3
]
v j1 v j 3 v j 1v j 2 v j1v j
v j 1v j v j1v j 2 v j1 v j
v 2 v j 3
v 2j v j 2
v 1j v j 3
v 1jv j 2
Q ij[ j
]}
3
2
3
2
v j1 v j v j 1v j
v j 1v j v j1 v j
{[ P ij[
(AIV.8)
Recopilando las expresiones de los bloques 1,2 y 3 ((AIV.1), (AIV.5) y (AIV.8)) obtenemos la siguiente ecuacin:
VC
FERGUSON
V ' B
2v j v j 3v j v j
2v j v j 3v jv j
C
[
]
3
2
2
v j 1vi
v j1 v j
v j1v j 3 v j 1v j 2
2
3
2
2
1
3
1
2
2ui ui 3ui ui
2ui ui 3ui ui
{[
]
ui 1ui 3 ui1ui 2
ui 1ui 3 ui 1ui 2
u2ui 3
2u2i ui 2 u2i ui
u1i ui 3
2u1i ui 2 u1i ui
K ij[ i
]
ui 1ui 3 ui 1ui 2 ui1 ui
ui1ui 3 ui 1ui 2 ui1 ui
u2i ui 2
u1i ui 3
u1i ui 2
]}
ui1 ui 3 ui1 ui 2
ui1 ui 3 ui1 ui 2
V ' B
2u2i ui 3 3u2i ui 2
2u1i ui 3 3u1i ui 2
C
[
]
3
2
3
2
2
ui1 ui
ui 1ui
ui1ui
ui1 ui
2
3
2
2
1
3
1
2
2v jv j 3v jv j
2v jv j 3v j v j
{[
]
v j1 vi 3
v j 1v j 2
v j 1v j 3 v j1 v j 2
2
3
2
2
2
1
3
1
2
1
v j v j
2v j v j v j v j
v j v j
2v j v j v j v j
P ij[
]
v j 1v j 3 v j 1v j 2 v j 1v j
v j 1v j 3 v j 1v j 2 v j 1v j
v 2v 3
v 2v 2
v1 v 3
v1 v 2
Q ij[ j j 3 j j 2 j j 3 j j 2 ]}
v j1v j v j1v j
v j 1v j v j 1v j
Lij[
u2i ui 3
(AIV.9)
Este es el volumen de cualquier rectngulo contenido en [ui, ui+1]x[vj, vj+1] a travs de la funcin (4.20). Los elementos a
determinar van a ser las variables K's, L's, P's y Q's, o lo que es lo mismo, las derivadas de primer orden (vectores
tangente) en los vrtices del rectngulo. Se trata de saber qu condiciones deben satisfacer para que la ecuacin sea
mayor o igual que 0 pues, en dicho caso, la funcin ser 2-creciente, que es la tercera restriccin que perseguimos para
que finalmente sea una cpula.
Sean la funciones:
con x 1 =
u 1i ui
u 2u 1
i
= x2 ,
u i1 u i u i1u i
u 1i u i0 y u i1 u i x 1 0 y
ANEXO
IV:
Demostracin
del
lema
4.4
que
son
valores
comprendidos
entre
porque
266
con y 1=
v 1jv j
v 2 v
j 1 =y2 ,
v j 1v j v j 1v j
que
v 1jv j 0 y v j 1v j y 1 0 y
son
valores
comprendidos
entre
porque
Esta funcin es estrictamente decreciente entre 0 (siendo h(0) = 0) y 1 (siendo h(1) = -1). Por tanto, si
h x1h x2 y h y1 h y2 o lo que es
h x2 hx1 0 y h y2 h y1 0
Observemos que podemos expresar el volumen del rectngulo B a travs de CFERGUSON en funcin de f ,g y h de la
siguiente manera:
VC
B=C u 2i , v 2i C u 2i , v 1i C u 1i , v 2i C u 1i , v 1i =
V C ' B
V ' B
{h x 2 h x 1 }{ f x 2 f x 1} C
{h y 2 h y 1 }{g y 2 g y 1 }
2
2
FERGUSON
(AIV.13)
Esta cantidad se compone de dos sumandos cada uno de ellos con 3 factores:
El volumen a travs de C' de B que es mayor o igual que 0 por ser C' una subcpula y B un rectngulo de su
dominio de definicin.
La
funcin
((AIV.12))
cuya
contribucin
al
sumando
es
siempre
negativa
pues
h x2 hx1 0 y h y2 h y1 0 .
El tercero de los factores viene representado por las funciones f y g respectivamente ((AIV.10) y
(AIV.11)).
Por tanto, para que cada uno de los sumandos sea positivo y as tambin el resultado global (en cuyo caso la funcin
sera 2-creciente) basta demostrar que las funciones f y g son estrictamente decrecientes en [0,1] pues x1, x2, y1 e y2
estn entre 0 y 1, y
f x2 f x1 0 y g y2 g y1 0 .
Puesto que ambas funciones responden a la misma estructura, estudiemos para una cualquiera de ellas, por ejemplo f,
ANEXO
IV:
Demostracin
del
lema
4.4
267
qu propiedad debera satisfacerse para que sea estrictamente decreciente en el intervalo [0,1].
Para que una funcin sea decreciente en un intervalo, el signo de su derivada en el mismo debe ser menor o igual que 0.
Dicha derivada viene dada por:
1.
Si
Para que esta recta sea siempre negativa entre 0 y 1, basta imponer que en los extremos, el valor de dicha recta
sea negativo. Es decir,
2.
Lij=2K ij 2Lij0 .
2K ijLij 0
x vertice=
32K ijLij
(AIV.16).
2Kij Lij
iguales que 0, dado que debe tener signo negativo en todos los puntos del intervalo [0,1].
As, en este caso, una primera condicin P0 es que
Para que la parbola se mantenga menor o igual que 0 dentro del intervalo [0,1] debe cumplir una de las
siguientes 3 condiciones:
Condicin P3.- Que la y del vrtice (imagen de la x del vrtice) sea menor que 0.
La nica posibilidad que no debe darse es que la x del vrtice se encuentre entre 0 y 1 y que su imagen sea
positiva, porque en dicho caso, habra al menos un punto cuya imagen a travs de la parbola positiva.
ANEXO
IV:
Demostracin
del
lema
4.4
268
32K ij Lij
0 (AIV.18),
32K ij Lij
la cual se dar cuando numerador y denominador tengan distinto signo lo cual implica que se d alguna de
las siguientes condiciones:
Esta regin factible viene dada por restricciones lineales donde el operador disyuntivo se puede plantear a
travs de una variable binaria 1.
La condicin P2 equivale a que
32K ij Lij
1 (AIV.21)
32K ij Lij
Esta regin factible viene tambin dada por restricciones lineales donde el operador disyuntivo se puede
plantear a travs de una variable binaria 2.
La condicin P3 equivale a que
f xvertice = f
32K ijLij
0 (AIV.24)
2Kij Lij
f x vertice =
32K ij L ij 2
K ij . Para que esta cantidad sea menor
3 2 K ij L ij
ANEXO
IV:
Demostracin
del
lema
4.4
269
con lo cual
K ijL ij1 L ij121 K ij Lij 32
la
ecuacin
general
2
1
de
una
cnica
es
2
2
][ ]
[1
[ ] [ ]
9 3
A=
3 1
1
3
2
3
1
2
o bien
3 1
1
1
3
1
1
6
1
1
6
1
3
(AIV.29)
Sera indiferente considerar cualquiera de las dos matrices pues bastara dividir la ecuacin de la
cnica por 3 para que la segunda de las matrices planteadas fuera tambin vlida.
Es decir, la ecuacin de la cnica que define la condicin P32 es
ANEXO
IV:
Demostracin
del
lema
4.4
270
[1
x 1 x 2 ]
3
1
1
1
1
3
1
6
][ ]
1
1
1
6 x 1 =0
1
x2
3
(AIV.30)
La clasificacin de esta cnica se puede hacer en funcin de sus invariantes, que son aquellas
constantes que no varan a pesar de los cambios que efectuemos en el sistema de referencia respecto
del cual se definen.
El invariante cuadrtico es
1
a
a
J = 11 12 =
a 12 a 22 1
2
1
2
3
= 0
4
que por ser distinto de cero denota que estamos ante una cnica con centro nico.
9
a 00 a 01 a 02
3
K = a 01 a 11 a 12 =
a 02 a 12 a 22 3
El invariante cbico es
3
1
1
2
3
1
9
2 = 0
4
1
que por ser distinto de cero denota que es una cnica no reducible y que, junto al hecho de que J sea
positivo, se traduce en que la cnica sea una elipse.
El invariante lineal es I =a11a22 =2 cuyo signo es distinto al del invariante cbico K, lo que se
traduce en que la cnica que estamos manejando es una elipse real.
Adems, el hecho de que en la matriz A, los trminos a12 no sean cero sugiere que la elipse se
encuentra rotada. Del mismo modo, el que los trminos a01 y a02 no sean cero sugiere que adems se
encuentra trasladada del origen.
Vamos a considerar la forma cannica de la elipse, y vamos a ver como, aplicndole una rotacin y
una translacin concreta obtenemos la matriz A.
donde
a 00 ' =
a ' 00 0
0
A' = 0 a' 11 0
0
0 a ' 22
(AIV.31)
K
=3 .
J
t 2tI J =0 (AIV.32)
con races 1/2 y 3/2, que permiten obtener la ecuacin en forma reducida:
3
1 2
p2 q2
2
3 p q =0 =1 (AIV.33)
2
2
2 6
ANEXO
IV:
Demostracin
del
lema
4.4
271
[ ]
1
A ' '=
cuya matriz es
0
0
0
1
2
0
p 2
q 2
=1 (AIV.34)
2
6
0
0
(AIV.35)
1
6
que conduce finalmente a la ecuacin reducida de la elipse en forma matricial, dada por
[ ][ ]
1
[1
0
1
2
x 1 x 2 ]
1
x 1 =0 (AIV.36)
1
x2
6
0
Vamos a ver qu transformaciones son necesarias hacer a la matriz cannica (AIV.35) para llegar a
obtener aquella otra que representa a nuestra cnica en estudio y que viene dado por (AIV.29).
Ya adelantbamos que dichas trasformaciones iban a traducirse en una rotacin y una traslacin
respecto del sistema de referencia por lo cual, vamos a considerar las matrices que permiten realizar
este tipo de transformaciones.
1
0
0
M = 0 cos sen
0 sen cos
(AIV.37)
donde determina el nmero de grados que debe ser rotado el sistema de referencia.
[1
Para expresar
[1
x 1 x 2 ]=[ 1
x ' 1 x ' 2 ]M [ 1
1 0
0
1
siendo M = 0 cos sen
0 sen cos
x ' 1 x ' 2 ] =[ 1
x 1 x 2 ]M 1 (AIV.38)
(AIV.39)
[1
x ' 1 x ' 2]
1
0
0
0 cos sen
0 sen cos
[ ][
1
0
0
0
1
2
0
0
0
1
6
1
0
0
0 cos sen
0 sen cos
][ ]
1
x ' 1 =0 (AIV.40)
x '2
ANEXO
IV:
Demostracin
del
lema
4.4
272
[ ][
1
1
0
0
0
M A ' 'M T = 0 cos sen
0 sen cos
0
1 0
1
1
2
2
0
cos sen
2
6
1
1
0
sen cos cos sen
2
6
0
1
2
0
1
0
0
0 cos sen =
1
0 sen cos
6
0
0
1
1
sen cos cos sen
2
6
1
1
2
sen cos2
2
6
(AIV.41)
[ ]
3 1
1
1
A=
3
1
1
6
1
1
6
1
3
y por tanto,
En consecuencia, para hallar la matriz de la elipse rotada basta aplicar a la matriz de la base cannica
A'', la matriz de una rotacin de 45, como resultado del cual se obtiene:
[ ][ ][ ] [ ]
1
1 0
1
2
2 2
0
0
A ' ROTADA =M A' 'M T =
2
2
2 2
0
0
2
(AIV.42)
0
0
1
6
2
2
0
2
1 0
1
0
2 =
3
1
2
0
6
2
0
1
6
1
3
[ ][ ]
1
[1
x ' 1 x ' 2 ]
0
0
0
1
3
1
6
0
1
1
6 x ' 1 =0 (AIV.43)
1
x' 2
3
[1
referencia basta aplicar una matriz de translacin, la cual responde a una estructura del tipo
ANEXO
IV:
Demostracin
del
lema
4.4
273
1 C1 C 2
C= 0 1 0
0 0 1
(AIV.44).
donde C1 y C2 marcan las coordenadas respecto del nuevo sistema de referencia, es decir, las
coordenadas de la translacin.
De esta forma, si x''1 y x''2 definen las coordenadas respecto del nuevo sistema,
[1
x ' 1 x ' 2 ]= [ 1
x' '1
1 C 1 C 2
1
siendo C = 0
1
0
0
0
1
(AIV.46)
[1
x ' '1
[ ][
1
1 C 1 C 2
0
x' ' 2 ] 0
1
0
0
0
1
0
0
1
3
1
6
0
1
1
0 0
1
C
1
0
x'
' 1 =0 (AIV.47)
6
1
1 C 2 0 1
x ' '2
3
][ ]
La matriz de esta cnica sera la que estamos buscando. Por tanto, basta igualar el producto de las tres
matrices centrales de la ecuacin anterior a la matriz asociada a la elipse que buscamos (AIV.29) y de
esta forma se podrn determinar los coeficientes de la translacin.
[ ][
1
1 C 1 C 2
0
0 1
0
0 0
1
0
0
1
3
1
6
0
1
1
0 0
6 C 1 1 0 =
1
C 2 0 1
3
1
1
1
1 C 21 C 1C 2 C 22
3
3
3
1
1
C 1 C 2
3
6
1
1
C 1 C 2
6
3
1
1
C 1 C 2
3
6
1
3
1
6
][ ]
1
1
C 1 C 2
3 1
6
3
1
1
1
=
3
6
1
1
1
6
3
1
1
1
1
C 1 C 2=1 y
C 1 C 2=1 C 1=2 y C 2=2
3
6
6
3
1
1
6
1
3
Por tanto, la regin P32 hace referencia a una elipse que ha sido rotada 45C y trasladada del origen
(0,0) al punto (-2,-2)
Recopilando el conjunto de posibles condiciones (R0,P0,P1,P2 y P3) (dadas por (AIV.15) (AIV.17) (AIV.18) (AIV.21)
y (AIV.24)) que deben cumplir los pares (Kij, Lij), podemos hacer el planteamiento analtico de la regin factible
asociada a estos pares para que CFERGUSON sea 2-creciente en el rectngulo [ui, ui+1] x [vj, vj+1]. Dicho planteamiento se
puede expresar mediante restricciones conjuntivas enlazadas por variables binarias:
ANEXO
IV:
Demostracin
del
lema
4.4
274
K ij 2L ij 3311
2415 2
2K ij Lij 3
1 1
7
2K ij L ij 3312
2415 2
K ij2Lij 3
1 2
7
K ij L ij2413
K ij L ij 32 K ijLij 91 4
1 23 4=1
K ij 0
Lij 0
1, 2, 3, 4 { 0,1 }
En el grfico anterior se pueden distinguir las zonas asociadas a cada una de las condiciones que hemos ido definiendo.
Para empezar podemos ver que la regin est definida sobre el tercer cuadrante del plano (condicin P0). Adems, en
color rojo aparecen las regiones definidas por las restricciones lineales P1 y P2 y, en color azul, la regin definida por la
restriccin no lineal P3 a la que pertenece la elipse centrada en el punto (-2,-2) y rotada 45. En color morado se
muestra la zona de interseccin entre ambas regiones.
Para obtener cada una de las ecuaciones lo que se hace es asociar una variable binaria a cada una de las 4 regiones
conexas que se van a definir. stas, no disjuntas, son las siguientes:
Regin
y P22: 32K ij L ij 0 y 2 K ij L ij 0 y
2 K ij Lij 0 y K ij 2Lij 30
2 K ij Lij 0 y K ij 2Lij 30
La idea de asociar una variable binaria a cada regin es que, como slo una de ellas i puede valer 1, pues
1 23 4=1 con 1, 2, 3, 4 { 0,1} , la posible solucin factible est localizada en una sola de las cuatro.
Habr que asegurar sin embargo que las restricciones asociadas a las restantes regiones cuando sus respectivos j (con j
distinto de i) valgan 0, no impongan restricciones adicionales sobre la regin asociada a i. Para ello, es necesario que
ANEXO
IV:
Demostracin
del
lema
4.4
275
en dichos casos, las restricciones definan regiones que, al menos, contengan a la regin seleccionada. Para hacer esto, se
debe calcular el vector gradiente asociado a una restriccin y mover sta en dicha direccin para ver cul es el ltimo
punto de la regin factible al que corta.
As por ejemplo, para la regin 1 definida por las ecuaciones
respectivamente. Si movemos cada ecuacin en la direccin de su vector gradiente, resulta que los ltimos puntos en los
que van a cortar a la regin factible (dada por la unin de las 4 regiones) van a ser
C2=
C1=0,0
186 2 186 2
,
. Evaluando las ecuaciones en dichos puntos se obtienen las imgenes
14
7
f 1 C1=3 y f 2 C2=
2415 2
que van a servir de cotas a las restricciones.
7
Procediendo de la misma manera para las variables P's y Q's que se obtienen a partir de las derivadas primeras respecto
de V, y teniendo en cuenta la definicin de estas variables dada por (AIV.3), (AIV.4), (AIV.6) y (AIV.7), la regin
factible puede plantearse en funcin de los vectores tangentes, pasando a ser stos las variables de decisin.
Si asociamos a dichas restricciones una funcin objetivo, lo que tendramos sera un problema de programacin no
lineal (debido a la restriccin no lineal P32) y adems mixto, pues hay variables de decisin continuas (dadas por las
derivadas de primer orden) y enteras (dadas por los 's asociados a cada regin). La funcin objetivo podra consistir en
maximizar o minimizar las derivadas, lo cual se traducira en que los vectores tangentes a la superficie interpoladora en
cada vrtice de la particin, tuvieran mayor o menor pendiente y, en consecuencia, la superficie fuera ms o menos
suave.
Obsrvese que, si bien, se construye una regin de factibilidad para cada par (Kij, Lij) (y anlogamente para cada par
(Pij, Qij) que representan derivadas de primer orden respecto de V), lo importante es que los pares (Kij, Lij) de dos
rectngulos consecutivos del plano, van a compartir derivadas de primer orden respecto de U.
Una regin factible relaciona variables Lij y Kij. El valor de la variable Lij de un rectngulo depende de la variable de
decisin
]
y depende tambin de K ij=
V C ' B
u
u
u
C ' u i 1 , v j
, pero en esta
u
ocasin a travs del valor de la variable Kij y a su vez depender tambin de otro Lij distinto
Lij =
]
V C ' B
u
u
Es decir, cada variable de decisin Kij (y del mismo modo, cada Lij, Pij o Qij) recoge las derivadas correspondientes a dos
vrtices consecutivos de un rectngulo B que surge de realizar la particin del cuadrado unidad. Dado que un mismo
vrtice puede pertenecer a cuatro rectngulos distintos, existirn diferentes regiones factibles que se entrelazan unas con
otras y por ello, las variables de decisin no se estiman de manera independiente para una regin concreta, sino de
ANEXO
IV:
Demostracin
del
lema
4.4
276
forma conjunta. Es precisamente esta combinacin de regiones factibles la que integra el problema de programacin
matemtica (4.21).
De acuerdo a la demostracin constructiva que hemos desarrollado, la hiptesis de que las variables
C FERGUSON u i , v j
C FERGUSON u i , v j
y
i { 0,1,2 , ... , n } j{0,1 ,2 , ... , m } , proporcionen junto con una
u
v
relacin de 's y 's una solucin del problema de programacin no lineal entera (4.21), implica directamente que el
volumen de un rectngulo arbitrario totalmente contenido en otro de los que conforman la particin del cuadrado unidad
tenga un volumen mayor o igual que cero a travs de CFERGUSON.
As, el volumen de un rectngulo cualquiera trazado sobre el cuadrado unidad ser tambin mayor o igual que cero pues
se podr expresar como suma de los volmenes de rectngulos parcial o totalmente contenidos en los que definen la
particin. Con ello quedara probado el cumplimiento de la tercera de las propiedades de las cpulas (ser 2-creciente)
y consecuentemente el lema.
c.q.d
ANEXO
IV:
Demostracin
del
lema
4.4
277
ANEXO
IV:
Demostracin
del
lema
4.4
278
Sea una particin del cuadrado unidad en n x m rectngulos del mismo rea y sea la solucin ptima al problema de
programacin fraccional (4.7) dada por
i j
c *ij=C * , i{ 0,1,2 , ... n } j { 0,1,2 , ... m } que define una
n m
subcpula C* de dominio los puntos de interseccin entre los rectngulos que originan la particin.
Sea CHERMITE(u,v) la funcin que se obtiene por interpolacin cbica de una subcpula C * mediante polinomios de
Hermite. Supongamos que las derivadas de segundo orden en el dominio de definicin de la subcpula valen cero, es
2 C HERMITE u i , v j
=0 i{ 0,1,2 , ... , n} j{ 0,1 ,2 , ... m }
uv
decir,
Si
proporcionan una solucin del problema de programacin matemtica (4.26), entonces la funcin CFERGUSON(u,v)
cumple la tercera de las condiciones para ser cpula:
VC
[u 1, u 2 ] x [v 1, v 2 ]=C FERGUSON u 2, v 2 C FERGUSON u 2, v 1 C FERGUSON u1, v 2 C FERGUSON u1, v1 0
.
u 1, u 2, v 1, v 2 t.q u 1u 2, v 1 v 2
FERGUSON
demostracin
Vamos a ver que dada una solucin factible del problema (4.26) entonces tambin lo es del problema (4.21).
En consecuencia, se podr aplicar el lema (4.4) que conduce al cumplimiento de la tercera de las propiedades de las
funciones cpula.
Sea
K , L[3,0] x [3,0] y sean las 4 regiones factibles dadas por las condiciones R0, P0, P1, P2 y P3 que
definen la regin del problema (4.21) (vase ilustracin (AIV.2)en el Anexo IV):
RF 0 ={ K , L t.q. K 0, L0,2 K L=0 }={ K , L t.q. K , L cumple R0 }
32K L
0 }={ K , L t.q. K , L cumple P0 y P1 }
3 2 K L
RF 2 ={ K , L t.q. K 0, L0,
32K L
1 }={ K , L t.q. K , L cumple P0 y P2}
32 K L
32K L 2
K 0 }={ K , L t.q. K , L cumple P0 y P3}
32 K L
Para ver la inclusin de (4.26) en (4.21) , basta ver que (K, L) se encuentra en alguna de las 4 regiones. La demostracin
para el par (P, Q) resultara anloga.
Como siempre se implicar que
K , L0 (vase la propiedad P0 del Anexo IV), basta ver que se cumple alguna de
las propiedades R0, P1, P2 o P3. Vamos a plantear 3 situaciones disjuntas para los valores que pueden tomar (K, L) en
ANEXO
V:
Demostracin
del
lema
4.5
279
Si
Si K L2 , entonces vamos a distinguir otras tres situaciones disjunta respecto de la relacin del par
K L2
32K L 2
32K L2
0
K 0 K , L RF 3
32 K L
32 K L
Si K 2L30 3K 3L62K L3 3 K L2 2K L3
2K L3
3 K L22K L3
1 K , LRF 2
3 K L2
Si 2K L30
2K L3
0 K , L RF 1
K L2
K 2L30 K L3 L (AV.1)
2K L30 K L3K (AV.2)
3 K 3 L K L LK L3 (AV.3)
3 L 3 K K L K K L3 (AV.4)
y, en consecuencia,
0K L3 K (AV.7)
0K L3 L (AV.8)
Por tanto,
0K L32 KL K L32 KL K 2 L 22KL96K 6L KL
(AV.9)
K 2 L 2 K L96K 6L0
ANEXO
V:
Demostracin
del
lema
4.5
280
2 K L0 ,
Como
2
el
cociente
anterior
2
ser
menor
igual
que
cumple segn acabamos de ver (AV.9). Luego la propiedad P3 se cumple y, por tanto,
K , LRF 3
Por tanto los rectngulos del tipo [-3,0] x [-3,0] que definen las regiones factibles del problema (4.26) se encuentran
contenidas en las regiones factibles dadas por P0, P1, P2 y P3 que caracterizan al problema (4.21).
c.q.d
ANEXO
V:
Demostracin
del
lema
4.5
281
ANEXO
V:
Demostracin
del
lema
4.5
282
Sea una particin del cuadrado unidad en n x m rectngulos del mismo rea y sea la solucin ptima al problema de
programacin fraccional (4.7) dada por
i j
c *ij=C * , i{ 0,1,2 , ... n } j { 0,1,2 , ... m } que define una
n m
subcpula C* de dominio los puntos de interseccin entre los rectngulos que originan la particin.
Sea CHERMITE(u,v) la funcin que se obtiene por interpolacin cbica de una subcpula C * mediante polinomios de
Hermite.
Si
C HERMITE u i , v j C HERMITE u i , v j
2 C HERMITE u i , v j
,
y
i{ 0,1 , ... , n } j{0,1 , ...m }
u
v
uv
proporcionan
junto con una relacin de 's y 's (variables binarias) una solucin al problema de programacin multiobjetivo no
lineal entera (4.35), entonces la funcin CHERMITE(u,v) cumple la tercera de las condiciones de las funciones cpula:
VC
[u 1, u 2 ] x[v 1, v 2 ]=C HERMITE u 2, v 2 C HERMITE u 2, v 1C HERMITE u1, v 2 HERMITEC u 1, v 1 0
.
u 1, u 2, v 1, v 2 t.q. u 1u 2, v 1v 2
HERMITE
demostracin
De igual manera que se plantea en el Anexo IV, vamos a ver que las condiciones que deben satisfacerse para que el
volumen de un rectngulo arbitrario a travs de CHERMITE sea mayor o igual que cero se traducen en la existencia de una
solucin
al
problema
(4.35)
dada
por
una
relacin
de
valores
para
las
variables
C HERMITE u i , v j C HERMITE u i , v j
2 C HERMITE u i , v j
,
y
i{ 0,1 , ... , n } j{0,1 , ...m } y una asignacin
u
v
uv
ANEXO
VI:
Demostracin
del
lema
4.6
283
VC
B=
V C ' B
[ f y 2 f y1 ][ f x2 f x1 ]K ij[ g x 2g x1 ]Lij[ h x2 h x1 ]
2
V C ' B
[ f x2 f x1 ][ f y 2 f y1 ]Pij[ g y 2g y 1]Qij[ h y 2 h y1 ]
2
2
C ' ui ,v j
[ g x2 g x1 ][ g y2 g y1 ]
u v
2
C ' ui 1 ,v j
[ hx 2h x1 ][ g y2 g y1 ]
u v
2
C ' ui ,v j1
[ g x2 g x 1][ h y 2 h y1 ]
u v
2
C ' ui 1 ,v j1
[ hx 2 hx1 ][ h y 2 h y1 ]
u v
HERMITE
siendo
2ui1 ui C ' ui ,v j C ' ui ,v j1
[
]
V C ' B
u
u
2ui1ui C ' ui1 ,v j C ' ui 1 , v j
Lij=
[
]
V C ' B
u
u
2v j1 v j C ' ui ,v j C ' ui1 ,v j
Pij =
[
]
V C ' B
v
v
2v j 1v j C ' ui ,v j 1 C ' ui1 ,v j 1
Qij=
[
]
V C ' B
v
v
2ui 1ui v j 1v j 2 C ' ui ,v j
Aij=
[
]
V C ' B
u v
2
2ui 1ui v j 1v j C ' ui ,v j1
Bi j 1=
[
]
V C ' B
u v
2ui 1ui v j 1v j 2 C ' ui 1 ,v j
Ci 1 j =
[
]
V C ' B
u v
2
2ui1 ui v j1 v j C ' ui1 ,v j1
Di1 j1=
[
]
V C ' B
u v
K ij=
uik ui
v k v
; y k= j j
ui 1ui
v j1 v j
k {1,2}
(AVI.1)
Vamos a tratar de presentar esta expresin de una forma ms familiarizada con las que hemos utilizado en desarrollos
anteriores (vase Anexo IV), para as poder aprovechar algunos de los resultados a los que hemos llegado para la
superficie interpoladora de Ferguson (Anexo IV). Las funciones f,g y h presentadas en la expresin anterior no
se corresponden con las definidas en el Anexo IV. S es cierto que la funcin que aqu definimos como f es la que en
dicho anexo hemos definido como h. De cualquier modo, podemos proceder de dos formas paralelas para obtener una
ecuacin con ciertas similitudes a (AIV.9).
ANEXO
VI:
Demostracin
del
lema
4.6
284
Expresin 1 para la bsqueda de condiciones que permitan que CHERMITE sea una funcin 2-creciente
VC
HERMITE
B=
V C ' B
V ' B
[ f x2 f x1 ][ f y2 f y1 ] C
[ f x 2 f x1 ][ f y 2 f y1 ]
2
2
V C ' B
V ' B
[ f y 2 f y1 ][ g x 2g x1 ]K ij C
[ g y 2g y 1][ g x 2 g x1 ]Aij
2
2
V C ' B
V ' B
[ f y 2 f y1 ][ h x2 hx1 ]Lij C
[ h y 2 h y1 ][ hx 2hx1 ]Di1 j1
2
2
V C ' B
V ' B
[ f x2 f x1 ][ g y 2 g y1 ]Pij C
[ h x2 hx 1][ g y 2g y 1]C i 1 j
2
2
V C ' B
V ' B
[ f x2 f x1 ][ h y2 h y1 ]Qij C
[ g x 2 g x1 ][ h y2 h y 1]Bi j1 =
2
2
V C ' B
[ f x2 f x1 ][ f y2 f y1 Pijg y 2g y 1Qijh y2 h y1 ]
2
V C ' B
[ g x 2g x1 ][ K ij f y2 f y1 Aij g y2 g y1 Bi j1h y 2h y1 ]
2
V C ' B
[ hx 2 hx1 ][ Lij f y2 f y1 C i1 jg y 2 g y1 Di1 j1h y 2 h y1 ]
2
V C ' B
[ f x2 f x1 ][ f y2 f y1 ]
2
(AVI.2)
Expresin 2 para la bsqueda de condiciones que permitan que CHERMITE sea una funcin 2-creciente
VC
HERMITE
B =
V C ' B
[ f y 2 f y 1 ][ f x 2 f x 1 K ij g x 2g x 1 L ij h x 2h x 1 ]
2
V C ' B
[ g y 2 g y 1 ][ P ij f x 2 f x 1 Aij g x 2 g x 1C i 1 jh x 2 h x 1 ]
2
V C ' B
[ h y 2h y 1 ][Q ij f x 2 f x 1 B i j 1 g x 2 g x 1D i1 j 1 h x 2h x 1 ]
2
V C ' B
[ f y 2 f y 1 ][ f x 2 f x 1 ]
2
(AVI.3)
Cualquiera de estas dos expresiones servira para el propsito que nos proponemos. Observemos que el primer sumando
de cada uno de ellos se corresponde con aquellos que componen la ecuacin (AIV.9) y que habamos demostrado que
stos eran mayores o iguales que cero cuando Kij, Lij, Pij y Qij satisfacan las restricciones del problema (4.21) (o (4.26)).
Del mismo modo, el cuarto sumando es tambin mayor o igual que cero pues es el producto de la mitad del volumen del
rectngulo B por dos cantidades negativas dado que, como vimos, la funcin f (equivalentemente la funcin h en
(AIV.12)) es decreciente. En consecuencia, nuestro anlisis se va a centrar en los sumandos intermedios de dichas
expresiones (el segundo y el tercero). Intuitivamente bastara con que ambos fueran mayores o iguales que cero o bien,
con que la cantidad que restaran (si alguno de los dos fuera negativo, o ambos) no impidiese que el resultado final fuera
positivo (y as, que la funcin fuese 2-creciente).
Tomemos por ejemplo el segundo sumando de la expresin (AVI.2) y preguntmonos bajo qu condiciones dicho
ANEXO
VI:
Demostracin
del
lema
4.6
285
Esta expresin consta de tres factores de los cuales, slo tenemos garanta de que sea positivo el primero de ellos pues
representa el volumen de un rectngulo a travs de una subcpula. El valor del segundo podr ser positivo o negativo en
funcin de los valores de x1 y x2. Ser sobre el tercero sobre el que podamos ejercer algn tipo de influencia para
conseguir nuestros propsitos a travs de los valores de Aij y Bij+1, que estn directamente relacionados con las derivadas
de segundo orden (vase (AVI.1)).
Analicemos entonces el tercer factor,
[ K ij f y 2 f y 1 Aij g y 2 g y 1 B i j 1 h y 2 h y 1 ] (AVI.5)
De antemano, sabemos que Kij se puede mover entre -3 y 0 (tiene mayor maniobrabilidad, pero nos vale ese margen
para esta demostracin), f(y2) - f(y1) es negativo (por ser f decreciente, (AIV.12)) y Aij y Bij+1 son mayores o iguales
que cero pues su definicin involucra slo a trminos positivos (entre ellos el valor de la densidad cpula en los nodos
de la rejilla que resultan de realizar la particin del cuadrado unidad). As, el primero de los sumandos,
K ij f y 2 f y 1 , es mayor o igual que cero. Las diferencias dadas por las imgenes de las funciones g y h
son las que no vamos a tener controladas dado que dichas funciones no son montonas como pone de manifiesto el
grfico siguiente:
En funcin de los valores de dichas funciones, podremos distinguir las siguientes situaciones:
Obviamente, si
sumandos lo son.
ANEXO
VI:
Demostracin
del
lema
4.6
286
Si g y2 g y1 0 y h y2 h y1 0 los
K ij f y 2 f y1
sumandos
g y 2 g y 1 1
(AVI.6).
f y 2 f y 1 3
probar que
Al ser
f y 2 f y 10 y g y 2 g y 1 0 , se tendr que
g y 2 g y 1 1 g y 1 g y 2 1 y 132y21 y 1 y 322y 22 y 2 1
f y 2 f y 1 3
f y 1 f y 2 3 2y313y21 2y323y 22
3
3
y 1 y 2 m y 1 m y 2
con lo cual estara probado (AVI.6). Adems est acotacin se da con independencia del signo que presente
g(y2) - g(y1), slo importa que f sea decreciente en [0,1]. Las implicaciones de esta acotacin son las
siguientes:
g y 1 g y 2 1
3 g y 1 g y 2 f y 1 f y 2
f y 1 f y 2 3
K ij f y 1 f y 2 3K ij g y 1 g y 2 K ij f y 2 f y 1 3K ij g y 2 g y 1
de decisin con las que podremos jugar (de hecho estamos tratando de establecer su rango de valores posibles
para garantizar que la funcin sea 2-creciente), basta hacer 0 Aij 3K ij 0 Aij 3K ij (AVI.7)
y como
K ij f y 2 f y1 3K ij g y2 g y1 Aij g y 2 g y1
K ij f y 2 f y1 Aij g y 2 g y1 0
(AVI.8)
con lo que la expresin (AVI.5) es tambin positiva.
Si g y2 g y1 0 y h y2 h y1 0 los sumandos
K ij f y 2 f y 1 y
A ij g y 2 g y 1
son positivos y el sumando B i j 1 h y 2 h y1 es negativo. Sin embargo, de igual manera que antes,
vamos a demostrar que
vamos a probar que
Al ser
ANEXO
VI:
h y 2 h y 1 1
(AVI.9)
f y 2 f y 1 3
f y2 f y1 0 y h y2 h y1 0 , se tendr que
Demostracin
del
lema
4.6
287
h y 2 h y 1 1 h y 1 h y 2 1 y 13 y 21 y 32 y 22
1
f y 2 f y 1 3
f y 1 f y 2 3 2y313y21 2y323y 22 3
3
y 1 y 2 n y 1 n y 2
con lo cual
estara probado (AVI.9). Adems est acotacin se da con independencia del signo que presente h(y2) - h(y1),
slo importa que f sea decreciente en [0,1]. Las implicaciones de esta acotacin son las siguientes:
h y 1h y 2 1
3h y1 h y2 f y1 f y 2
f y1 f y 2 3
K ij f y1 f y 2 3K ijh y 1 g h2 K ij f y 2 f y 1 3K ijh y 2 h y1
Dado que perseguimos que
como
h y 2 h y10 ,
se
puede
concluir
la
implicacin
que
buscbamos
Finalmente,
g y 2g y 10 y h y 2 h y 1 0 el
si
K ij f y 2 f y 1 mientras que
A ij g y 2 g y1 y
nico
sumando
positivo
es
B i j 1 h y2 h y 1 son negativos.
g y 2 g y 1 h y 2h y 1 1
(AVI.12)
f y 2 f y 1
3
g y 2 g y 1 h y 2 h y 1 1 g y 1 g y 2 h y 1 h y 2 1
f y 2 f y 1
3
f y 1 f y 2
3
3
2
3
2
3
2
3
2
y 1 2y1 y 1 y 2 2y 2 y 2 y 1 y 1 y 2 y 2 1
3
2y 313y122y 323y 22
3 2y313y 21 y 1 32y 323y 22 y 2 2y 313y12 2y323y22 4y31 6y21 3y 14y 326y 223y 2
r y 1 r y 2 siendo r y=4y 36y2 3y
La
funcin
es
y 1 y 2 r y 1 r y 2
tambin
creciente
dado
que
1 2
2
r ' y=12y 12y3=12 y 0 y
2
as,
independencia del signo que presenten g(y2) - g(y1) y h(y2) - h(y1), slo importa que f sea decreciente en
[0,1]. Las implicaciones de esta acotacin son las siguientes:
ANEXO
VI:
Demostracin
del
lema
4.6
288
g y1 g y 2 h y 1h y 2 1
3g y1 g y 2 3h y 1 h y2 f y1 f y2
f y1 f y 2
3
K ij f y1 f y2 3K ijg y1 g y 2 3K ijh y1 h y2
Por otro lado, respetando los rangos de variacin propuestos para Aij y Bij+1 dados por (AVI.7) y (AVI.10), y
teniendo
en
cuenta
que
g y 2g y 10 y
que
h y 2 h y 1 0 se
tiene
que
como
K ij f y 1 f y 2 3K ij g y 1 g y 2 3K ij h y 1 h y 2 ,
se
implica
que
(AVI.5).
As, la condiciones (AVI.7) y (AVI.10) son suficientes para que (AVI.5) sea positiva. Sin embargo, (AVI.5) es slo uno
de los factores del segundo sumando de (AVI.2) (vase (AVI.4)), el cual no es necesariamente positivo pues depende
del signo de g(x2) - g(x1) que, como hemos indicado, no es constante puesto que g no es una funcin montona (vase
ilustracin (AVI.1)).
Antes de resolver este problema, notemos que puede procederse anlogamente con el tercero de los sumandos de
(AVI.2), dado por
V C ' B
[ h x 2 h x 1 ][ L ij f y 2 f y 1 C i1 j g y 2 g y 1 D i1 j 1 h y 2 h y 1 ] (AVI.15)
2
0C i1 j 3L ij (AVI.16)
y 0 Di 1 j13Lij (AVI.17)
son
suficientes
para
que
el
tercero
de
los
factores
de
(AVI.15)
sea
positivo
La imposicin de las restricciones asociadas a las variables de decisin A, B, C y D permiten tener controlado el signo
de casi todos los elementos que intervienen en (AVI.2), salvo g(x2) - g(x1) y h(x2) - h(x1). Estas restricciones vienen
dadas por (AVI.7), (AVI.10), (AVI.16) y (AVI.17).
Veremos sin embargo que es necesario aadir algunas ms para conseguir que la funcin CHERMITE sea 2-creciente pues,
como decamos, existen factores cuyo signo escapa a nuestro control. La intuicin de cules son stas otras condiciones
la podramos obtener haciendo un razonamiento anlogo para (AVI.3) al realizado para (AVI.2).
ANEXO
VI:
Demostracin
del
lema
4.6
289
Procediendo de la misma forma se puede comprobar la necesidad de imponer las siguientes restricciones para llegar a
tener un control de todos los elementos que participan en (AVI.3) salvo g(y2) - g(y1) y h(y2) h(y1):
0 Aij 3P ij (AVI.19)
0B i j13Q ij (AVI.20)
0C i1 j 3P ij (AVI.21)
y 0 D i1 j 13Q ij (AVI.22)
Son estas condiciones las que, en conjuncin con las obtenidas en la bsqueda de que (AVI.5) y (AVI.18) sean factores
positivos, nos van a permitir asegurar que la funcin CHERMITE es 2-creciente. Para ello, recuperaremos la expresin
(AVI.2) y estudiaremos los posibles signos de los factores g(x2) - g(x1) y h(x2) - h(x1).
V C ' B
[ f x2 f x1 ][ f y2 f y1 P ij g y 2g y 1Q ij h y2 h y1 ]
2
V C ' B
[ g x 2g x1 ][ K ij f y2 f y1 Aij g y2 g y1 B i j1h y 2h y1 ]
2
V C ' B
[ h x 2 h x1 ][ L ij f y2 f y1 C i1 j g y 2 g y1 D i1 j1h y 2 h y1 ]
2
V C ' B
[ f x2 f x1 ][ f y2 f y1 ]
2
siendo
0Aij 3K ij ; 0B i j1 3K ij ; 0C i1 j3Lij ; 0Di 1 j13L ij ;
Como consecuencia de estas restricciones,
V C ' B
[ f x 2 f x 1 ][ f y 2 f y 1 P ij g y 2g y 1Q ij h y 2 h y 1 ]0
2
[ K ij f y 2 f y 1 Aij g y 2 g y 1 Bi j1h y 2 h y 1 ]0
[ Lij f y 2 f y 1C i 1 j g y 2g y 1 D i1 j 1 h y 2 h y 1 ]0
[ f x 2 f x 1 ][ f y 2 f y 1 ]0
En funcin de los valores de g(x2) - g(x1) y h(x2) - h(x1), podremos distinguir las siguientes situaciones:
Si
Si
embargo, vamos a demostrar que esta cantidad no es suficiente para contrarrestar el valor positivo acumulado
por el resto de los sumandos, en particular, por el primero y el cuarto, que podemos agrupar en uno solo como:
ANEXO
VI:
Demostracin
del
lema
4.6
290
V C ' B
[ f x 2 f x 1 ][ f y 2 f y 1 P ij g y 2g y 1Q ij h y 2 h y 1 ]
2
V C ' B
[ f x 2 f x 1 ][ f y 2 f y 1 ]=
2
V C ' B
[ f x 2 f x 1 ][ 2 f y 2 f y 1 P ij g y 2 g y 1 Qijh y 2 h y 1 ]
2
(AVI.23)
Es decir, vamos a probar que
[ f x 2 f x1 ][ 2 f y 2 f y1 P ij g y 2 g y 1 Q ijh y 2 h y1 ]
[ g x2 g x1 ][ K ij f y2 f y 1 Aij g y2 g y1 B i j1h y 2 h y1 ]0
o equivalentemente, que
[ f x1 f x2 ][ 2 f y1 f y 2 P ij g y 1 g y2 Q ijh y1 h y2 ]
[ g x 1 g x 2 ][ K ij f y2 f y1 Aij g y2 g y1 B i j1h y 2 h y1 ]
(AVI.24)
Para ello, empezaremos utilizaremos la acotacin (AVI.6) ya probada que recordemos viene dada por
g x 2 g x 1 1
.
f x 2 f x 1 3
Como
g x1 g x2 1
f x1 f x2 3g x1 g x2 que es mayor que cero.
f x1 f x 2 3
Por otra parte, como
[ 2 f y 1 f y 2 P ij g y1 g y2 Q ij h y 1 h y2 ]
[ f y 1 f y2 P ij g y 1 g y 2 Q ijh y1 h y2 ]=
[ f y2 f y1 P ij g y 2 g y 1 Q ijh y 2h y 1]0
(AVI.25)
Dado que todas estas cantidades son positivas podemos multiplicar sin cambiar el signo de la desigualdad
f x 1 f x 2 3 g x 1 g x 2 y establecer que
[ f x1 f x2 ][ 2 f y1 f y2 P ij g y 1 g y2 Q ijh y1 h y2 ]
3[ g x1 g x2 ][ 2 f y1 f y2 P ij g y1 g y 2 Q ij h y1 h y2 ]
(AVI.26)
Vamos a probar que esta ltima expresin es mayor o igual que
ANEXO
VI:
Demostracin
del
g x 2g x1 0 ,
lema
4.6
291
3[ g x1 g x2 ][ 2 f y1 f y2 P ij g y 1g y 2Qij h y1 h y 2 ]
[ g x1 g x2 ][ K ij f y2 f y 1 Aij g y2 g y1 B i j 1 h y2 h y 1 ]
K ij6 f y 2 f y 1 Aij 3P ij g y 2 g y1 Bi j1 3Q ij h y2 h y1 0
(AVI.28)
y que por tanto, bastara probar esta ltima desigualdad. Por la estructura que sta presenta, podemos intuir la
conveniencia de que se cumplan restricciones adicionales para Aij y Bij+1, concretamente las que ya fueran
planteadas por las expresiones (AVI.19) 0 Aij 3P ij y (AVI.20) 0 Bi j13Q ij .
Estas restricciones si bien no haban sido deducidas del desarrollo de (AVI.2) ya mostramos que s hubieran
resultado de haber procedido de manera anloga para (AVI.3).
Imponer dichas condiciones implica conocer ms signos en la expresin (AVI.28) y as, sabemos que
03 K ij 66 , f y 2 f y 10 por ser f decreciente ente 0 y 1,
A ij3P ij 0 y
B i j 13Q ij0 , con lo cual los nicos signos que no controlamos son nuevamente los asociados a las
funciones g y h.
Podemos nuevamente plantearnos cuatro casos:
Si
sumandos de la expresin son negativos (cada uno de ellos es el producto de un factor positivo y otro
negativo).
Aij 3Pij g y 2g y1 y
sumandos positivos
negativo K ij6 f y 2 f y1 . Sin embargo, vamos a ver que la aportacin conjunta de los
positivos no va a ser superior a la de este ltimo y que, por tanto, el resultado final ser negativo.
Para ello, vamos a recordar
g y1g y 2h y 1 h y2 1
f y 1 f y2 3 g y 1g y 23h y1 h y2
f y1 f y2
3
3 f y 1 f y2 9 g y1 g y2 9 h y 1 h y2
(AVI.29)
y que 3 K ij6 K ij6 f y 2 f y1 3 f y 2 f y 1 pues f decrece en [0,1]. Entonces,
podemos deducir que:
K ij6 f y 2 f y 13 f y 1 f y 2 9 g y 1 g y 2 9 h y1 h y 2 (AVI.30)
ANEXO
VI:
Demostracin
del
lema
4.6
292
equivalentemente
Pero esta ltima desigualdad es cierta pues ambos sumandos son positivos ya que cada uno de ellos es el
producto de dos factores positivos.
Efectivamente,
por
hiptesis
g y 1 g y 20 y h y 1 h y 2 0 y
de
adems,
manera
anloga,
Demostrado este caso, no hara falta verificar los dos que quedan, puesto que en cada uno de ellos la
contribucin positiva es menor ya que slo existe un sumando con ese signo (en vez de dos). Vamos a
comprobar que esto es realmente as.
g y2 g y1 0 y h y2 h y1 0 ,
Si
los
K ij 6 f y 2 f y1 y
sumandos
Aij 3Pij g y 2g y1 es
positivo. Sin embargo, vamos a ver que la aportacin de este ltimo no es superior a la del primero y que,
por tanto, el resultado final es tambin negativo. Teniendo nuevamente en cuenta la acotacin
g y 1 g y2 1
3g y 1g y2 f y1 f y 2
f y1 f y2 3
9g y1 g y2 3 f y1 f y2
(AVI.33)
y que
K ij6 f y 2 f y1 3 f y 2 f y1 =3 f y1 f y2 9g y1 g y2 (AVI.34)
Vamos a probar que esta ltima cantidad es inferior a A ij3P ij g y 1 g y 2 lo cual traera
como consecuencia que
Efectivamente,
equivale
probar
0 Aij3P ij9 g y1 g y 2 lo cual es cierto pues ambos factores son positivos ya que
g y1 g y2 0 por hiptesis y
P ij 3 3P ij9 Aij3P ij A ij9 Aij 3P ij 9 Aij 0
ANEXO
VI:
Demostracin
del
lema
4.6
293
Finalmente, si
g y2 g y1 0 y h y2 h y1 0 , los sumandos
K ij 6 f y 2 f y1 y
Bi j 13Qij h y2 h y1 es
positivo. Sin embargo, vamos a ver que la aportacin de este ltimo no es superior a la del primero y que,
por tanto, el resultado final es tambin negativo. Teniendo nuevamente en cuenta la acotacin
h y1 h y 2 1
3 h y1 h y2 f y 1 f y2
f y1 f y 2 3
9h y1 h y 23 f y1 f y2
(AVI.36)
y que
K ij6 f y 2 f y1 3 f y 2 f y1 =3 f y1 f y2 9g y1 g y2 (AVI.37)
Vamos a probar que esta ltima cantidad es inferior a B i j 13Q ij h y 2 h y 1 lo cual traera
como consecuencia que
Efectivamente,
En definitiva, si
volumen a travs de CHERMITE del rectngulo B es mayor o igual que cero, propiedad que convierte a CHERMITE en
una funcin 2-creciente.
Si
embargo, vamos a demostrar que esta cantidad no es suficiente para contrarrestar el valor positivo acumulado
por el resto de los sumandos, en particular por el primero y el cuarto, que como se puede ver en la expresin
(AVI.23) podemos agrupar as:
V C ' B
[ f x 2 f x 1 ][ 2 f y 2 f y 1 P ij g y 2 g y 1 Q ijh y 2 h y 1 ]
2
[ f x 2 f x1 ][ 2 f y2 f y1 P ij g y 2 g y1 Q ijh y2 h y1 ]
[ h x2 h x 1 ][ L ij f y2 f y1C i 1 j g y2 g y 1D i1 j 1 h y2 h y 1 ]0
o, equivalentemente, que
ANEXO
VI:
Demostracin
del
lema
4.6
294
[ f x 2 f x1 ][ 2 f y2 f y1 P ij g y 2 g y1 Q ijh y2 h y1 ]
[ h x1 h x 2 ][ L ij f y2 f y1C i 1 j g y2 g y 1D i1 j 1 h y2 h y 1 ]0
(AVI.39)
Para ello, empezaremos utilizando la acotacin ya demostrada dada por (AVI.9) que recordemos era
h x 2 h x 1 1
.
f x 2 f x 1 3
Como
h x1h x2 1
f x1 f x2 3hx 1h x2 que es mayor que cero.
f x1 f x 2 3
f y1 f y2 0 (por ser f decreciente), se verifica tambin la siguiente inecuacin
[ 2 f y 1 f y 2 P ij g y1 g y2 Q ij h y 1 h y2 ]
[ f y 1 f y2 P ij g y 1 g y 2 Q ijh y1 h y2 ]=
[ f y2 f y1 P ij g y 2 g y 1 Q ijh y 2h y 1]0
(AVI.40)
Dado que todas estas cantidades son positivas podemos multiplicar sin cambiar el signo de la desigualdad
f x 1 f x 2 3h x 1 h x 2 y establecer que
[ f x1 f x2 ][ 2 f y1 f y 2 P ij g y1 g y 2 Q ijh y1 h y2 ]
3[ h x 1 h x 2 ][2 f y1 f y 2 P ij g y 1 g y 2 Q ij h y1h y 2 ]
(AVI.41)
Vamos a probar que esta ltima expresin es mayor o igual que
h x2 hx1 0 ,
3[ h x 1h x2 ][ 2 f y 1 f y2 P ij g y1 g y 2 Q ij h y1 h y 2 ]
[ h x1 h x 2 ][ L ij f y 2 f y1 C i 1 j g y2 g y 1 D i1 j 1 h y2 h y 1 ]
L ij6 f y2 f y 1C i1 j 3P ij g y 2 g y1 D i1 j13Q ij h y 2 h y10
(AVI.43)
y que por tanto, basta probar esta ltima desigualdad. Por la estructura que presenta sta, podemos intuir la
conveniencia de que se cumplan restricciones adicionales para Ci+1j y Di+1j+1, concretamente las que ya fueran
planteadas por las expresiones (AVI.21) 0C i 1 j3P ij y (AVI.22)
0Di 1 j13Qij .
Gracias a ellas, podemos conocer el signo de una gran parte de los factores que interviene en (AVI.43):
Ci 1 j 3Pij0 y
, con lo cual los nicos signos que no controlamos son nuevamente los asociados a
ANEXO
VI:
Demostracin
del
lema
4.6
295
Si
sumandos de la expresin son negativos (cada uno de ellos es el producto de un factor positivo y otro
negativo).
dicho
caso,
existen
dos
sumandos
g y2 g y1 0 y h y2 h y1 0 .
positivos
Ci 1 j3Pijg y2 g y1 y
g y1 g y 2 h y1 h y 2 1
f y1 f y2 3 g y1 g y 2 3h y1 h y 2
f y 1 f y 2
3
3 f y 1 f y 2 9 g y1 g y 2 9h y1 h y2
(AVI.44)
y que
(AVI.46)
bien
que
Pero esta ltima desigualdad es cierta pues ambos sumandos son positivos ya que cada uno de ellos es el
producto de dos factores positivos. Efectivamente, por hiptesis
g y 1 g y 20 , h y 1 h y 2 0 y adems,
P ij 3 3P ij9 C i1 j 3P ij C i 1 j9 C i1 j 3P ij 9C i 1 j 0
De manera anloga,
Q ij3 D i1 j 13Q ij D i1 j1 9 Di 1 j1 3Q ij9 D i 1 j1 0 .
No entraremos en la demostracin de los otros dos casos que son una implicacin directa de ste. Basta
observar que en cada uno de ellos la contribucin positiva a (AVI.2) sera menor ya que slo existe un
sumando con ese signo (en vez de dos).
En definitiva, si
ANEXO
VI:
Demostracin
lema
4.6
296
volumen a travs de CHERMITE del rectngulo B es mayor o igual que cero, propiedad que convierte a CHERMITE en
una funcin 2-creciente.
El ltimo caso, y tambin el que ms en contra estara del hecho de que (AVI.43) fuese positiva, se
presentaracuando
o, equivalentemente, que
[ f x1 f x2 ][ 2 f y1 f y2 P ij g y1 g y 2 Q ijh y1 h y 2 ]
[ g x 1 g x 2 ][ K ij f y2 f y 1 Aij g y2 g y1 B i j1h y 2 h y1 ]
[ h x 1 h x2 ][ L ij f y2 f y 1C i 1 j g y2 g y1 D i1 j 1 h y 2 h y1 ]0
(AVI.48)
Para
ello,
empezaremos
utilizaremos
la
acotacin
(AVI.12)
que
recordemos
era
g x2 g x1 hx 2h x1 1
.
f x2 f x1
3
Como
g x 1 g x 2 h x 1 h x 2 1
f x 1 f x 2 3 g x 1 g x 2 3h x 1 h x 2
f x 1 f x 2
3
que
es
[ 2 f y 1 f y 2 P ij g y 1 g y 2 Qijh y 1h y 2 ]
[ f y 1 f y 2 P ij g y 1 g y 2Q ij h y 1 h y 2 ]=
[ f y 2 f y 1 P ij g y 2 g y 1Q ij h y 2 h y 1 ]0
(AVI.49)
Dado que todas estas cantidades son positivas podemos multiplicar sin cambiar el signo de la desigualdad
f x 1 f x 2 3 g x 1 g x 2 3h x1 h x 2 y establecer que
ANEXO
VI:
Demostracin
del
lema
4.6
297
[ f x 1 f x 2 ][ 2 f y 1 f y 2 P ij g y 1 g y 2 Q ijh y1 h y 2 ]
3[ g x 1 g x 2 ][ 2 f y 1 f y 2 P ij g y 1 g y 2 Q ijh y 1h y 2 ]
3[ h x 1 h x 2 ][ 2 f y 1 f y 2 P ij g y 1g y 2 Q ijh y 1 h y 2 ]
(AVI.50)
Vamos a probar que esta ltima expresin es mayor o igual que
[ g x 1 g x 2 ][ K ij f y 2 f y 1 A ij g y 2 g y 1 B i j 1 h y 2 h y 1 ]
[ h x 1 h x 2 ][ Lij f y 2 f y 1C i 1 j g y 2g y 1 D i1 j 1 h y 2 h y1 ]
(AVI.51)
lo cual completara la demostracin que perseguimos.
Observemos que, como
g x 2 g x 1 0 y h x 2h x 1 0
3[ g x 1 g x 2 ][ 2 f y 1 f y 2 P ij g y 1 g y 2Q ij h y 1 h y 2 ]
3[ h x 1 h x 2 ][ 2 f y 1 f y 2 P ij g y 1 g y 2 Q ijh y 1 h y 2 ]
[ g x 1 g x 2 ][ K ij f y 2 f y 1 Aij g y 2 g y 1 B i j1h y 2h y 1 ]
[ h x 1h x 2 ][ L ij f y 2 f y 1 C i1 j g y 2 g y 1 D i1 j1h y 2 h y 1 ]
K ij6 f y 2 f y 1 Aij 3P ij g y 2 g y 1 Bi j1 3Q ijh y 2 h y 1
L ij6 f y 2 f y 1 C i1 j 3P ij g y 2 g y 1 D i1 j13Q ij h y 2 h y 10
(AVI.52)
y que por tanto, basta probar esta ltima desigualdad.
Atendiendo a las demostraciones de los casos anteriores, basta darse cuenta de que las condiciones
(AVI.19)-(AVI.22) son suficientes para que se d la desigualdad (AVI.52) no siendo necesario repetir los
cuatro casos que podran plantearse para las funciones g y h.
puesto
que
stas
una
traduccin
directa
de
que
las
variables
C HERMITE u i , v j C HERMITE u i , v j
2 C HERMITE u i , v j
,
y
i{0,1 , ... , n} j{0,1 , ...m } proporcionen
u
v
u v
junto con una relacin de 's y 's una solucin del problema de programacin multiobjetivo no lineal entera (4.35), se
implicar, de acuerdo a la demostracin que hemos desarrollado, que el volumen de un rectngulo arbitrario totalmente
contenido en otro de los que conforman la particin del cuadrado unidad tenga un volumen mayor o igual que cero a
travs de CHERMITE.
De igual manera que deducamos en el Anexo IV, el volumen de otro rectngulo cualquiera trazado sobre el cuadrado
unidad ser tambin mayor o igual que cero pues se podr expresar como suma de los volmenes de rectngulos parcial
o totalmente contenidos en los que definen la particin. As, quedara probado el cumplimiento de la tercera de las
propiedades de las cpulas (ser 2-creciente) y consecuentemente el lema.
c.q.d
ANEXO
VI:
Demostracin
del
lema
4.6
298
i j
c *ij=C * , i{ 0,1,2 , ... n } j { 0,1,2 , ... m } que define una
n m
subcpula C* de dominio ={los puntos de interseccin entre los rectngulos que originan la particin}.
La condicin necesaria y suficiente para poder definir una cpula CFERGUSON por interpolacin del dominio de C* a
travs de las condiciones suficientes establecidas en los lemas (4.2), (4.3) y (4.5), es que C* sea una 2-subcpula-VMIN
siendo V MIN =
2
.
3mn
demostracin
) Supongamos que tenemos una cpula CFERGUSON cuya definicin responde a (4.20) y tal que el valor de sus
derivadas primeras respecto de U y V responde a las condiciones establecidas en los lemas (4.2), (4.3) y (4.5), las cuales
permiten la definicin de dicha cpula.
Es decir, tenemos una relacin de valores (variables del problema (4.26)) para las derivadas respecto de U y V,
C FERGUSON u i , v j
C FERGUSON ui , v j
,
i { 0,1,2 ,... , n} j{ 0,1 ,2 , ...m } tales que:
u
v
C FERGUSON u k ,0
C FERGUSON 0, v l
=0 k{0,1 ,2 , ... , n} y
=0 l { 0,1 ,2 , ... , m } (lema (4.2))
u
v
C FERGUSON u k ,1
C FERGUSON 1, v l
=1 k { 0,1,2 ,... , n } y
=1 l { 0,1,2 , ... , m } (lema (4.3))
u
v
Sea VMIN el volumen mnimo que deben tener cada uno de los n x m rectngulos (que resultan de hacer la particin del
cuadrado unidad) a travs de la funcin C* (y por tanto a travs de CFERGUSON) por obtenerse sta por interpolacin de C*.
Vamos a ver que necesariamente
V MIN
ANEXO
teorema
VII:
Demostracin
del
2
y por tanto que C* es 2-subcpula-VMIN.
3mn
4.6
299
Vamos a analizar en primer lugar las variables de decisin asociadas a hileras horizontales, la primera de las cuales se
mueve en la ordenada v = 0. Estas variables responden a la nomenclatura de P's y Q's y son las que relacionan las
primeras derivadas de la cpula respecto de V (vanse (4.24) y (4.25)):
P ij =
2 v j 1v j C * u i , v j
C * u i 1 , v j
[
]
V C B
v
v
*
Q ij=
2v j1 v j C * ui , v j 1
C * u i1 , v j1
[
]
V C B
v
v
*
Basaremos el anlisis en variables P's , siendo indiferente el haberlo hecho para variables Q's puesto que unas y otras
estaran referidas al suelo (vj) y al techo (vj+1) de los rectngulos de cada hilera horizontal, circunstancia irrelevante para
este estudio. Si furamos absolutamente puristas con la notacin, deberamos utilizar variables P's para la ordenada 0,
variables Q's para la ordenada 1 y cualquiera de las dos para ordenadas comprendidas entre 1 y m-1.
Entonces, como P0,0 pertenece a la regin factible asociada al problema (4.26), debe ser menor o igual que 0 y, mayor o
igual que -3 . Adems, tambin por hiptesis, suponemos que deben darse las condiciones impuestas por los lemas (4.2)
y (4.3).
Teniendo en cuenta todo esto, podemos hacer el desarrollo siguiente:
1
2
*
C * u 1, 0
C * 0,0 C u1, 0
m
P 0,0 =
[
]0
0 (AVII.1)
V MIN
v
v
v
1
2
*
C * u 1, 0 3V MIN m
C * 0,0 C u1, 0
m
P 0,0 =
[
]3
V MIN
v
v
v
2
(AVII.2)
VII:
Demostracin
del
teorema
4.6
300
1
2
C * u n1 ,0 C * 1,0
C * u n1 ,0
C * u n1 ,0
m
P n1,0 =
[
]0 [
1]0 [
]1 (AVII.3)
V MIN
v
v
v
v
1
2
*
*
C * un 1 ,0
3V MIN m
m C un1 ,0 C 1,0
P n1,0 =
[
]3[
1]
V MIN
v
v
v
2
C * un 1 ,0
3V MIN m
[
]1
v
2
(AVII.4)
En funcin de las ecuaciones (AVII.2) y (AVII.4) se tiene que:
C * u 1, 0 C * u n 1 ,0 3V MIN m
3V MIN m
1
=13V MIN m (AVII.5)
v
v
2
2
Por otra parte, teniendo en cuenta la cota inferior para el resto de las P's de las variables de ordenada 0, se tiene que:
1
2
C * u 1, 0 C * u 2, 0
C * u1, 0 C * u 2, 0 3V MIN m
m
P 1,0 =
[
]3 [
]
V MIN
v
v
v
v
2
(AVII.6)
1
2
C * u 2, 0 C * u 3, 0
C * u 2, 0 C * u 3, 0 3V MIN m
m
P 2,0 =
[
]3 [
]
V MIN
v
v
v
v
2
(AVII.7)
...
1
2
C * u n 2 ,0 C * u n1 ,0
C * u n 2 ,0 C * u n1 ,0 3V MIN m
m
P n2,0 =
[
]3 [
]
V MIN
v
v
v
v
2
(AVII.8)
C * u 1,0 C * u n1 ,0 3V MIN m n2
]
v
v
2
(AVII.9)
Atendiendo
los
extremos
de
la
expresin
3V MIN mn2
2
13V MIN m V MIN
2
3mn
anterior,
podemos
establecer
finalmente
que,
(AVII.11).
A este mismo resultado se podra haber llegado para otra hilera horizontal cualquiera. Efectivamente, si consideramos
las variables de decisin asociadas a una ordenada arbitraria j, se tiene que:
Como P0,j debe pertenecer a la regin factible, debe ser menor o igual que 0 y, mayor o igual que -3
1
2
C * 0, v j C * u 1, v j
C * u 1, v j
m
P 0, j =
[
]0
0 j{0,1 , ... , m } (AVII.12)
V MIN
v
v
v
ANEXO
VII:
Demostracin
del
teorema
4.6
301
1
2
C * 0, v j C * u 1, v j
C * u 1, v j 3V MIN m
m
P 0, j =
[
]3
1
2
*
*
C * un 1 ,v j
m C u n1 ,v j C 1, v j
P n1, j=
[
]0[
1]0
V MIN
v
v
v
C * un1 ,v j
[
]1 j { 0,1 ,... ,m }
v
(AVII.14)
1
2
C * u n1 , v j C * 1, v j
C * u n1 , v j
3V MIN m
m
P n1, j=
[
]3 [
1 ]
V MIN
v
v
v
2
C * u n 1 , v j
3V MIN m
[
]1
j{ 0,1 ,... , m }
v
2
(AVII.15)
En funcin de (AVII.13) y (AVII.15) se tiene que
C * u 1, v j C * u n1 , v j 3V MIN m
3V MIN m
1
=13V MIN m j{0,1 , ... , m } (AVII.16)
v
v
2
2
Por otra parte, teniendo en cuenta la cota inferior para el resto de las P's asociadas a la ordenada j, se tiene que:
1
2
*
*
*
*
C u1, v j C u2, v j 3V MIN m
m C u1, v j C u2, v j
P 1, j =
[
]3[
]
j{0,1 ,..., m } (AVII.17)
V MIN
v
v
v
v
2
1
2
*
*
*
*
C u2, v j C u3, v j 3V MIN m
m C u 2, v j C u3, v j
P 2, j =
[
]3 [
]
j { 0,1 ,... ,m } (AVII.18)
V MIN
v
v
v
v
2
...
2 1 C* u ,v C* u ,v
C * un2 , v j C* u n1 , v j 3V MIN m
m
n2
j
n1
j
Pn2, j =
[
]3[
]
j{0,1,... , m}
V MIN
v
v
v
v
2
(AVII.19)
La suma de estas n-2 expresiones da lugar a
[
C * u 1, v j C * u n1 , v j 3V MIN m n2
]
j{0,1 , ... , m } (AVII.20)
v
v
2
ANEXO
VII:
Demostracin
del
teorema
4.6
302
y en consecuencia a que
3V MIN mn2
2
13V MIN m V MIN
2
3mn
(AVII.22)
El mismo razonamiento aplicado a las hileras verticales nos va a conducir a la acotacin de VMIN en funcin de la
dimensin n. Dichas hileras van asociadas a variables K's y L's (vase (4.22) y (4.23)).
K ij =
2 u i1u i C * u i , v j
C * u i , v j 1
[
]
V C B
u
u
*
y L ij=
2u i 1u i C * u i 1 , v j
C * u i1 , v j1
[
]
V C B
u
u
*
Dado que el utilizar unas u otras resulta nuevamente irrelevante, emplearemos por ejemplo las variables K's.
Supuesta una hilera vertical cualquiera asociada a la abscisa i, entonces Ki,0 debe pertenecer a la regin factible
asociada al problema (4.26) y por tanto, debe ser menor o igual que 0 y, mayor o igual que -3 . Esto, junto con el hecho
de que se verifican las condiciones impuestas por los lemas (4.2) y (4.3) sobre las derivadas primeras, permite hacer el
siguiente desarrollo:
1
2
C * u i ,0 C * u i , v 1
C * u i , v 1
n
K i ,0 =
[
]0
0 i{ 0,1 , ... , n } (AVII.23)
V MIN u
u
u
1
2
C * u i ,0 C * u i , v 1
C * u i , v 1 3V MIN n
n
K i ,0 =
[
]3
i{ 0,1 ,... , n }
V MIN u
u
u
2
(AVII.24)
1
2
*
*
C * u i , vm1
n C u i ,v m1 C u1,1
K i , m1=
[
]0[
1]0
V MIN u
u
u
C * ui ,v m1
[
]1 i{ 0,1,... ,n }
u
(AVII25)
1
2
*
*
C * ui ,v m1
3V MIN n
n C u i ,v m1 C u1,1
K i , m1=
[
]3[
1]
V MIN u
u
u
2
C * ui ,v m1
3V MIN n
[
]1
i{ 0,1,... , n}
u
2
(AVII.26)
En funcin de (AVII.24) y (AVII.26) se tiene que:
C * u i , v 1 C * ui , v m 1 3V MIN n
3V MIN n
1
=13V MIN n i{ 0,1 , ... , n } (AVII.27)
u
u
2
2
Por otra parte, teniendo en cuenta la cota inferior para el resto de las K's asociadas a la abscisa i, se tiene que:
1
2
*
*
*
*
C ui ,v 1 C ui , v2 3V MIN n
n C ui ,v 1 C ui , v2
K i,1=
[
]3[
]
i{0,1 ,..., n} (AVII.28)
V MIN u
u
u
u
2
ANEXO
VII:
Demostracin
del
teorema
4.6
303
1
2
*
*
*
*
C ui ,v 2 C ui , v 3 3V MIN n
n C ui ,v 2 C ui , v3
K i,2 =
[
]3[
]
i { 0,1 ,... ,n} (AVII.29)
V MIN u
u
u
u
2
...
21
*
*
C * ui , vm2 C * ui , v m1 3V MIN n
n C ui ,v m2 C ui ,v m1
K i ,m2=
[
]3[
]
i{0,1,... ,n }
V MIN u
u
u
u
2
(AVII.30)
La suma de estas m-2 expresiones da lugar a
[
C * u i , v 1 C * u i , v m1 3V MIN n m2
]
i{ 0,1 , ... , n } (AVII.31)
u
u
2
y en consecuencia a que
3V MIN nm2
2
13V MIN n V MIN
2
3mn
(AVII.33)
As, por cualquiera de las vas ((AVII.11), (AVII.22) y (AVII.33)) se llega a que la condicin necesaria para poder
encontrar solucin al problema (4.26) es que
V MIN =
2
3mn
V MIN
2
o lo que es lo mismo, que C* sea 2-subcpula-VMIN con
3mn
2
) Supongamos ahora que C* es 2-subcpula-VMIN con V MIN = 3mn .
Sea
entonces
C*
la
solucin
ptima
al
problema
de
programacin
fraccional
dada
por
i j
c *ij=C * , i{ 0,1,2 ,... n } j{ 0,1,2 ,... m } . Veamos que se puede definir CFERGUSON dada por (4.20)
n m
cuyo
valor
para
las
derivadas
de
primer
orden
respecto
de
C FERGUSON i j
j C FERGUSON i j
i
, = ,
, = i{ 0,1 ,2 , ... , n } j{ 0,1,2 ,... m }
u
n m m v
n m n
viene
dado
por
(AVII.34)
Es decir, vamos a ver que con esta definicin se van a dar las condiciones para que se cumplan los lemas (4.2), (4.3) y
(4.5). Efectivamente,
C FERGUSON i
C FERGUSON
j
,0=0 i{ 0,1 ,2 , ... , n} y
0, =0 j{0,1 ,2 , ... , m} (se cumple el
u
n
v
m
lema (4.2))
ANEXO
VII:
Demostracin
del
teorema
4.6
304
C FERGUSON i m
m
, =1= =1 i{ 0,1 ,2 , ... , n} y
u
n m
m
C FERGUSON n
j
n
=1, = =1 l{0,1 ,2 , ... , m} (se cumple tambin el lema (4.3))
v
n
m n
Proporcionan una solucin factible al problema (4.26) dado que, teniendo en cuenta que u i1 ui =
y que [
C FERGUSON i j
C
i j1
j
j1 1
, FERGUSON ,
]=
=
u
n m u
n m
m m
m
1
n
(AVII.35)
1
2
2
u
u
C
j
i j1
n 1
i 1
i
FERGUSON i
se tiene que
[
, FERGUSON ,
]=
0 (AVII.36)
V MIN
u
n m u
n m
V MIN m
Por otro lado, como consecuencia del hecho de ser 2-subcpula-VMIN, y considerando (AVII.35) resulta que
3mn 2
m m 2
C FERGUSON i j
C
3nV MIN
i j1
[
, FERGUSON ,
]
u
n m u
n m
2
C
1 C FERGUSON i j
i j1
2 [
, FERGUSON ,
]
n u
n m u
n m
3
V MIN
C FERGUSON i j
C
i j1
2 u i1u i [
, FERGUSON ,
]
u
n m u
n m
3
V MIN
V MIN
(AVII.37)
La conjuncin de (AVII.36) y (AVII.37) da lugar a la primera de las restricciones asociadas a las derivadas
respecto de U del problema (4.26).
Para la segunda, basta observar que, igualmente,
[
C FERGUSON i1 j
C
i1 j1
j
j1 1
, FERGUSON
,
]=
=
u
n
m u
n
m
m m
m
(AVII.38)
con lo cual, los desarrollos que conducen a las acotaciones (AVII.36) y (AVII.37) son exactamente los
mismos.
Respecto de las restricciones asociadas a las derivadas en V,
[
C FERGUSON i j
C
i1 j
i i1 1
, FERGUSON
, ]=
=
v
n m v
n
m
n n
n
[
(AVII.39)
C FERGUSON i j1 C FERGUSON i1 j1
i i1 1
,
,
]=
=
v
n m
v
n
m
n n
n
(AVII.40)
donde para cualquiera de ellas se puede hacer un razonamiento anlogo al realizado para las derivadas en U.
ANEXO
VII:
Demostracin
del
teorema
4.6
305
v j1v j=
1
y procediendo por ejemplo a partir de (AVII.39) se tiene que:
m
1
2
2 v j 1v j C FERGUSON i j
C FERGUSON i1 j
m 1
[
,
, ]=
0 (AVII.41).
V MIN
u
n m u
n
m
V MIN n
La conjuncin de esta ltima expresin con la hiptesis de que C* es 2-subcpula-VMIN permite obtener la otra
acotacin,
3mn 2
n n
2
C FERGUSON i j
C
3mV MIN
i1 j
[
, FERGUSON
, ]
u
n m u
n
m
2
C FERGUSON i j
C
1
i1 j
2 [
, FERGUSON
, ]
m u
n m u
n
m
3
V MIN
C FERGUSON i j
C
i1 j
2 v j 1v j [
, FERGUSON
, ]
u
n m u
n
m
3
V MIN
V MIN
(AVII.42).
De esta forma, los vectores tangentes en el dominio de definicin de la subcpula definidos por (AVII.34)
constituyen una solucin factible del problema de programacin matemtica (4.26) y por tanto se cumplen las
condiciones del lema (4.5).
As, hemos encontrado una relacin de valores para las derivadas primeras (AVII.34) que satisfacen las condiciones
suficientes establecidas en los lemas (4.2), (4.3) y (4.5). Esto permite asegurar que la funcin CFERGUSON construida por
interpolacin cbica de C* es una cpula, quedando completada as la demostracin de este teorema.
c.q.d
ANEXO
VII:
Demostracin
del
teorema
4.6
306
Para llevarlo a cabo, se trocea el rango de variacin de la distribucin a contrastar en una serie de clases y se comprueba
si el nmero de valores muestrales observados en cada una de las clases (Oi) se parece al nmero de ellos que cabra
esperar (Ei) bajo el supuesto de que se distribuyeran segn F0.
Para distribuciones unidimensionales estas categoras seran intervalos, mientras que por ejemplo para distribuciones
bidimensionales (2-cpulas), seran rectngulos.
Formalmente, segn se explica por ejemplo en [NEWBOLD], supuesta una particin en K clases, la hiptesis nula
K
p 1, p 2,... , p K (con
pi =1
i =1
O i E i 2
P= i=1
(AVIII.1)
Ei
Efectivamente, este estadstico cuantifica la diferencia entre el nmero de valores muestrales en una clase i (Oi) y el
valor esperado en ella (Ei). Por ello, valores bajos del estadstico de Pearson conducirn a no rechazar la hiptesis nula.
Se puede demostrar que
P~ 2K 1, y as, cuando
Este contraste necesita muestras de gran tamao y su potencia crece conforme crece el nmero de clases. Existe un
convenio emprico que aconsejan el empleo de este contraste cuando el tamao muestral es mayor que 30, el nmero de
intervalos considerados (clases) es mayor que 5 y la frecuencia terica de cada clase (Ei) es mayor o igual que 5 (de no
ser as, se recomienda reagrupar las clases).
- 307 -
Kolmogorov y Smirnov estudiaron la distribucin asinttica de este estadstico. Si H0 es cierta (F = F0) , segn el
teorema de Glivenko-Cantelli se tiene que
supremoF n x F x
0 (AVIII.3)
c.s
x
Por tanto, valores bajos de Dn conducen a admitir que los datos se ajustan a la distribucin de probabilidad supuesta
F0 o ms estrictamente hablando, a no rechazar la hiptesis H0.
- 308 -
H 0 :1 =2 =...=k
(AIX.1)
H 1 :i j para algunos i , j{ 1,2 ,... , k }
o equivalentemente, si define la media global de las k poblaciones combinadas y Fi la diferencia entre dicho valor y
la media de la poblacin del i-simo grupo ( F i=i i{1,2,..., k } ),
la aleatoriedad en la extraccin de las muestras sin hacer referencia a las hiptesis de homocedasticidad y normalidad
que ste precisa. Por ello, acostumbra a utilizarse cuando el analista intuye que la poblacin que est analizando tiene
una distribucin significativamente diferente de la Normal.
Los pasos a seguir para realizar este contraste son:
k
1.
Ordenar las
ni=n
observaciones
i =1
{ Rij } (posicin). En caso de existir datos repetidos, se puede proceder de la siguiente manera:
Supongamos que tenemos 4 datos repetidos que ocupan las posiciones 2, 3, 4 y 5, es decir,
18 (1), 22.3 (2), 22.3 (3), 22.3 (4), 22.3 (5), 25 (6),...
2345
=3.5 y asignar a los 4 datos este
4
rango. El dato sexto y los sucesivos (salvo nueva repeticin), conservaran su rango.
2.
Para cada una de las k muestras, calcular Ri como la suma de los rangos { Rij } de sus observaciones
(tambin en orden creciente). La hiptesis H0 ser falsa si estas cantidades son muy diferentes.
ANEXO
IX:
Contraste
de
Kruskal-Wallis
309
3.
K W =
k
Ri2
12
3 n1 (AIX.3)
n n1 i =1 ni
que, bajo H0, se distribuye segn una Chi-cuadrado con k-1 grados de libertad
4.
ANEXO
IX:
Contraste
de
Kruskal-Wallis
2k1 , y rechazar H0 si
K W 2k1 , .
310
1.
u du=0
(AX.1)
Esta primera condicin asegura que cualquier actividad de la wavelet en el eje real positivo se ver
compensada por otra de signo contrario dndole as el aspecto de una onda.
2.
Es cuadrado-integrable, es decir,
2 u du=1
(AX.2)
T ,
2 u du1
y as,
2 u du1
T
2 u du0 cuando 0 .
,T
As, la actividad de la wavelet est restringido a un intervalo de tiempo pequeo en comparacin con la recta
real.
En el contexto de las series temporales, estas funciones miden cmo vara el valor medio de una serie entre dos periodos
de longitud . Valores de suficientemente grandes permiten detectar comportamientos suaves o de baja frecuencia (en
los histricos de demanda de gas que se presenta en las aplicaciones prcticas de esta tesis iran referidos a periodos de
365 das que definen el ciclo anual) mientras que valores pequeos de dicho parmetro identifican cambios rpidos (de
una semana a otra) y, en el caso extremo, una seal de error (de un da a otro).
A continuacin se presenta la idea intuitiva que justifica esta cualidad de las wavelets para medir variaciones del nivel
en que se mueve una funcin.
b
El valor medio de una funcin x(.) sobre un intervalo [a,b] viene dado por
ANEXO
X:
Anlisis
mediante
wavelets
a , b=
1
xu du (AX.3).
ba a
311
En consecuencia, fijado un instante de tiempo t , el valor medio de la funcin en el intervalo de longitud centrado
1
A , t t t =
2, 2
x u du
t
(AX.4).
La variacin de este valor medio entre dos intervalos consecutivos (t-, t) y (t, t+) vendr dada por
t
1
1
D , t = A , t A , t = x u du x u du= ,t u xu du (AX.5)
2
2 t
t
donde
1
si tut
lamda ,t u =
1
si tut
(AX.6)
que para = 1 y t = 0, es proporcional a la primera wavelet que encontramos en la literatura, debida a Alfred Haar
.Dado
HAAR t =
que
HAAR
1
si 1u0
u= 2
1
si 0u1
2
de
la
misma
(AX.7).
manera
se
implica
que
La extrapolacin de la funcin de Haar a un instante arbitrario t y una escala cualquiera proporciona la wavelet
1
si tut
HAAR
2
,t u=
1
si tut
2
(AX.8)
W HAAR , t = HAAR
, t u x u du D , t .
(CWT) de Haar de la funcin x(.). Esta transformada es proporcional a la diferencia entre dos medias adyacentes de
escala , la primera comenzando en el instante t (sobre el intervalo (t, t+)) y la segunda terminando en dicho
instante (sobre (t-, t)) quedando as justificado el hecho de que estas funciones permitan medir la variacin del valor
medio de una seal entre dos periodos de tiempo consecutivos.
ANEXO
X:
Anlisis
mediante
wavelets
312
A travs de otro tipo de funciones wavelets se puede hacer que las medias calculadas sobre dichos intervalos se
encuentren ponderadas en funcin de su proximidad a un punto interior de los mismos. Por ejemplo las CWT asociadas
a wavelets gaussinas, las cuales se obtienen a partir de la derivacin de la funcin de densidad gaussiana, pueden ser
proporcionales a la diferencia entre dos medias ponderadas asociadas a periodos consecutivos. Las transformadas
continuas correspondientes a otras wavelets de esta familia o de alguna otra como la popularmente conocida como
sombrero mexicano (segunda derivada de la funcin de densidad gaussina) recogen la variacin entre una media
ponderada asociada a un periodo de tiempo y la media de otras dos calculadas sobre los dos intervalos circundantes a l.
El siguiente grfico ilustra la forma que presentan las funciones wavelets citadas.
Adems de las presentadas en dicho grfico existen otras muchas clases de wavelets como las daublets, las symmlets o
las coiflets, por citar algunos de los ejemplos ms conocidos. Asociada a cada una de estas familias existen unos
representantes o padres denominados wavelet padre y wavelet madre a partir de los cuales se pueden obtener
todos los miembros restantes mediante operaciones de escalado (o dilatacin) y translacin (o desplazamiento).
De igual manera que sucede con las funciones cpula, uno de los problemas principales consiste en determinar qu
familia de wavelets puede ser ms apropiada para el tratamiento de una determinada seal en funcin de las
caractersticas de sta. De hecho, una parte importante de la investigacin actual en este campo esta focalizada en la
construccin de funciones wavelets (cabezas de familia) que proporcionen una descripcin informativa y eficiente de
la seal que se desea analizar en funcin de las propiedades de sta. Esto se traduce normalmente en la bsqueda de
aquellas restricciones a imponer sobre las funciones wavelets (adicionales a (AX.1) y (AX.2)) para poder realizar con
ellas un anlisis til. Una de las propiedades que goza de mayor popularidad, garantiza la reconstruccin de una seal
x(.) a partir de la CWT asociada a una wavelet determinada , si su transformada de Fourier, dada por
f = u e i2 f u du , verifica que
0C =
0
u 2
df (propiedad de admisibilidad) y la seal
f
x 2 t dt
ANEXO
X:
Anlisis
mediante
wavelets
313
x t=
1
1
du ] 2 d
[ W , t 1 tu
C 0
y la consecuencia directa es que la CWT contiene la misma informacin que la funcin x(.) pero presentada de forma
diferente, descompuesta como suma de funciones que se mueven a diferentes velocidades o frecuencias. As, de la
misma manera que el anlisis de Fourier consiste en descomponer una seal como una combinacin de funciones senos
que se mueven a diferentes frecuencias, el anlisis mediante wavelets permite la descomposicin en versiones escaladas
y trasladadas de una wavelet madre.
Si bien la CWT, como su propio nombre indica, permite el tratamiento de seales continuas, existe una coleccin de
variables equivalente para la descomposicin de funciones discretas definidas sobre un conjunto finito de instantes t ,
's,, como son las series temporales y que van a ser las que verdaderamente nos van a interesar. As, a travs de la
transformada wavelet discreta (DWT) podemos expresar una serie temporal como combinacin lineal de funciones
wavelets 's, que se obtienen por dilatacin o translacin de sus padres y que miden la variacin de la seal x(.) a
distintas escalas. Las wavelets ms relacionadas con su padre ( 's) van asociada a las partes ms suaves (S = suave o
del ingls smooth) o de baja frecuencia de la serie y en contraposicin, aquellas que heredan las caractersticas de la
wavelet madre ( 's) resultan apropiadas para la representacin de las partes ms detalladas (d = detalles o del ingls
details) o componentes de ms alta frecuencia. Es decir, los padres de una clase generan una base de L 2 dada
por una relacin de funciones wavelets en funcin de las cuales es posible representar una seal.
x t= S J , k J , k t d J , k J ,k t d J 1, k J 1, k t ... d 1, k 1, k t (AX.9)
k
Los coeficientes de esta combinacin van asociados a un instante concreto t y a una escala de orden 2j (escalas
dyadic). Por ejemplo, el coeficiente d j , k
k
en la escala
2j
1
. De esta forma, las wavelets consiguen adaptarse a caractersticas locales de la seal x(.).
2j
J
X = D jS J (AX.10)
j=1
que define un anlisis multirresolucin (MRA) de la serie temporal X y que originalmente fue investigada por
Stphane Mallat e Yves Meyer (1989). A travs de esta ecuacin, la serie queda representada como suma de J + 1
vectores denominados cristales que vienen a ser componentes de la serie X que se mueven a diferentes escalas o
niveles de resolucin (de ah el calificativo de multirresolucin). En nuestro caso, los niveles de resolucin ms altos
(S6, D6, etc.) son los que emplearemos para la deteccin del comportamiento cclico anual del histrico de demanda
construido bajo unas supuestas condiciones normales de temperatura.
Otra aplicacin del MRA podra ser llevar a cabo un blanqueado de la serie eliminando el ruido mediante la sustraccin
de la componente de ms alta frecuencia (D1) que vendra a representar las variaciones de consumo que se producen de
un da al siguiente. Sobre nuestro histrico de datos original estas variaciones estaran relacionadas con, aparte
obviamente del efecto del calendario (impacto de un da festivo respecto al anterior) con los cambios de temperatura
que puedan provocar el que la demanda suba o baje de un da al siguiente.
ANEXO
X:
Anlisis
mediante
wavelets
314
t 1, t 2 ,...,t n
una serie de puntos dados en un intervalo [a,b] (denominados nodos) y tales que
at 1t 2...t n b . Un spline cbico es una funcin g definida en [a,b] que satisface las dos condiciones
siguientes:
1.
2.
En cada ti, g as como sus dos primeras derivadas (g' y g'') son continuas. Por tanto las tres funciones son
continuas en todo el intervalo [a,b]
Cuando se verifica de manera adicional que la derivada segunda y tercera de g en a, y b toma el valor 0
(condiciones frontera naturales) el spline recibe la denominacin de spline cbico natural.
Para escribir la ecuacin del spline, basta dar su definicin en cada uno de los trozos en que ha sido dividido su dominio
de definicin. Por ejemplo, un spline definido sobre el intervalo [a,b] de acuerdo a la particin anterior sera
g t =d itti 3c itt i 2bitt i a i t itt i 1 , i=0,1 , ... , n , t 0=a , t n 1=b (AXI.1)
La razn que justifica el empleo de este tipo de funciones como aproximacin de una curva dada es la siguiente.
Supongamos que tenemos una serie temporal Y(t), es decir, la respuesta de una variable Y en una relacin de instantes
de tiempo t . Podemos plantear el ajuste de Y en funcin de t a travs de la ecuacin Y t = g tt (AXI.2)
En el caso en el que g(t) sea una recta nos encontraramos con el tpico modelo de regresin lineal. Sin embargo, si el
ajuste de una recta resulta inapropiado, una alternativa clsicamente considerada consiste en proponer para g un
ANEXO XI: Anlisis mediante splines de regresin
- 315 -
polinomio de orden bajo y proceder a la estimacin de sus coeficientes a travs del mtodo de los mnimos cuadrados.
Al utilizar esta tcnica debe ponerse especial cuidado dado que siempre puede encontrarse un polinomio de orden n-1
que pase por los n pares (t,Y(t)) de manera que el error cuadrtico medio es exactamente cero y por tanto mnimo.
Para ello, bastara considerar la poligonal que pasa por todos ellos, es decir, unir mediante lneas rectas todos los pares.
Pero no es necesario tomar una funcin tan poco esttica como la poligonal, de la cual conocemos su falta de
diferenciabilidad en los puntos de unin. Tambin es posible fijar unas condiciones de suavizado sobre stos y construir
otra curva distinta con derivada continua en todos los pares y que pase por todos ellos. Es decir puede disponerse de una
curva suave g que interpola todos los puntos y cuyo error de ajuste es 0 y por tanto mnimo. El sobreajuste de una
curva a unos datos consiste precisamente en esto, reducir inconscientemente el error sobre la muestra sin tener en cuenta
que la funcin resultante no ser buena para sacar conclusiones: la interpolacin abusiva de los valores muestrales se
mueve en contra de la extrapolacin del resultado a otras muestras distintas. Por ello, una posible alternativa a la hora
de estimar la curva es penalizar el sobreajuste, es decir, castigar la presencia de bruscas oscilaciones que buscan pasar lo
ms cerca posible de los pares muestrales. A este respecto existe el mtodo de los mnimos cuadrados penalizados que
estima aquella funcin g que minimiza la suma de cuadrados penalizados dada por la expresin
n
i=1
El primer trmino de la expresin anterior es el error cuadrtico medio, cantidad que trata de minimizar el mtodo de
mnimos cuadrados. El segundo es una evaluacin del grado de fluctuacin de la curva g. La motivacin de este
trmino como medida de la oscilacin de una curva, es que dos funciones g1 y g2 que difieran nicamente en una
constante o en una funcin lineal, tengan la misma medida de oscilacin, algo que parece deseable dentro del contexto
de la regresin. Si bien podran tomarse otros funcionales de g'', el empleo de la integral del cuadrado de la funcin
presenta ventajas importantes desde el punto de vista computacional.
El parmetro cuantifica la importancia que se da a uno u otro trmino. Valores grandes de conducen a curvas
especialmente suaves pues el objetivo se centra en minimizar la medida de fluctuacin. Por el contrario, valores
pequeos quitan importancia a dicha medida y centran la atencin en la minimizacin del error cuadrtico medio, dando
lugar a curvas ms variables (ms ajustadas a los datos).
Resulta que si S[a,b] representa el conjunto de todas las funciones suaves en el intervalo [a,b], el miembro de este
b
{ g ' ' x }2 dx
nodos ti. Es esta propiedad la que sustenta el empleo de los splines como mtodos de aproximacin de curvas.
Adems, existe un teorema que demuestra que este spline puede ser siempre construido y para ello basta con resolver un
sistema no singular de ecuaciones lineales para las derivadas de g en los nodos ti. La complejidad lineal del problema
(O(n) operaciones aritmticas) se traduce en una sencillez computacional especialmente deseable para su
implementacin y aplicacin.
Una de las principales utilidades que se saca al empleo de los splines, es la posibilidad de aproximar una funcin f a
travs de una combinacin lineal de ellos (de una base de splines), planteando un modelo de regresin en el que
participan como regresores para explicar la variable dependiente f.
ANEXO XI: Anlisis mediante splines de regresin
- 316 -
A modo ilustrativo vamos a mostrar cmo podra llevarse a cabo la construccin de los elementos de la base en funcin
de la cual quedara representada nuestro histrico de demanda. La idea es mostrar la facilidad con que sta pueda ser
construida, propiedad que como decamos hace especialmente atractivo el empleo de este tipo de funciones.
Dado que nuestra intencin es que la curva suavizadora de nuestro histrico (el Ciclo) se comporte de forma peridica
(anual), no debemos considerar una clase de splines cualquiera, sino que resulta conveniente considerar un espacio
constituido pos splines peridicos orientados a reflejar esta propiedad. Sea entonces,
S P ={ sC 1 [ a , b ] t.q s t =s t365 , s |[ t
i1
365k , ti1365k ]
Dado que Sp es hilbertiano por ser un subespacio de L2(a, b), una base del mismo est compuesta por funciones
i t j = 0 si ji
1 si j=i
} ; ' t =0
i
i t j =0 ; i ' t j = 0 si ji
1 si j=i
(AXI.4)
(AXI.5)
Bastara determinar el valor que deben tomar los coeficientes de la ecuacin (AXI.1), dada por
t , t =d i tti 3 c itt i 2b itti ai t itt i1
Los otros dos, se calculan a partir del valor de la funcin y su derivada en ti+1:
i t i 1 =d it i1 ti 3 cit i 1t i 21=0 (AXI.8)
i ' t i 1=3d it i 1t i 22c i t i1t i =0 (AXI.9)
3
(AXI.10)
t i1t i 2
d i=
2
(AXI.11)
t i 1t i 3
En consecuencia,
i t =
2
3
tti 3
tt i 2 1 t itt i1 (AXI.12)
t i 1t i 3
t i1 t i 2
- 317 -
Los otros dos, se calculan igualmente a partir del valor de la funcin y de su derivada en ti+1:
i t i 1=d it i1 t i 3 c it i1t i 2t i 1t i =0 (AXI.15)
i ' t i 1=3d it i 1t i 22c i ti 1t i 1=0 (AXI.16)
2
t i1 ti
d i=
(AXI.17)
1
(AXI.18)
t i 1t i 2
En consecuencia,
i t =
1
2
tt i 3
tti 2 tt i t itt i1 (AXI.19)
t i 1ti 2
t i1 t i 2
Debe tenerse en cuenta que la variable t no crece de forma constante con el tiempo a lo largo de toda la recta real sino
que lo hace exclusivamente dentro de cada intervalo [1,365] definido sobre ella, es decir, los intervalos [ti-1, ti+1] estn
contenidos siempre en el segmento [1,365]. As, por ejemplo si el primer da que forma parte de nuestro histrico es el 1
de Abril de 1997, se le asociar a dicho da el valor t = 1, al da 2 de Abril de 1997 el valor 2, al da 31 de Marzo de
1998 el valor 365 y al da 1 de Abril de 1998 nuevamente el valor t = 1. Procediendo sucesivamente de esta forma, las
expresiones (AXI.12) y (AXI.19) definen funciones peridicas que, se puede comprobar, verifican las propiedades
(AXI.4) y (AXI.5) y definen por tanto una base.
En el caso en el que el nmero de trozos fuera 12, los valores a los que haran referencia los intervalos seran
t i=
12i
365
y cada funcin estara centrada en el da 1 de cada mes abarcando el periodo de 60 das comprendido por
- 318 -
Ilustracin AXI.1: Base de funciones splines utilizada para suavizar el histrico de demanda
- 319 -
- 320 -
Bibliografa
[ARMGAL], Margaret Armstrong y Alain Galli (2002), "Sequential non gaussian simulations
using the FGM Copula", Cerna Working Paper.
[AZTRI], Antonio Aznar y Francisco Javier Trvez (1993), "Mtodos de prediccin en
economa, Vol. II", 1 ed., Barcelona, Ariel Economa.
[BOGASA], Eric Bouy, Nicolas Gaussel y Mark Salmon (2001), "Investigating dynamic
dependence using copulae", Financial Econometrics Research Center.
[DOSCH], Jadran Dobric y Friedrich Schmid (2005),"Testing goodness of fit for parametric
families of copulas-an application to financial data", Communications in Statistics:
Simulation and Computation, Vol. 34, N 4, pp. 1053 1068.
[ENAGAS], Enags, http://www.enagas.es.
[FERSCA], Jean-David Fermanian y Olivier Scaillet (2005), "Some statistical pitfalls in
copula modelling for financial applications", Technical report.
[FIREAST], R.Fildes, A.Randall y P.Stubbs (1997), "One day ahead demand forecast in the
utility industries: Two case studies", Journal of the Operational Research Society, Vol. 48,
N 1, pp. 15-24(10).
[FOVAFEHU], James D. Foley, Andries van Dam, Steven K. Feiner y John F. Hughes
(1995), "Computer graphics. Principles and practice", 2 ed., Addison-Wesley Publishing
Company Inc.
[FRENERO], Gregory A. Fredricks, Roger B. Nelsen, Jos Antonio Rodrguez-Lallena
(2005), "Copulas with fractal supports", Insurance: Mathematics and Economics 37, 4248.
[GIDEDU], S.Gil, J. Deferrari y L.Duperron (2002), "Modelo generalizado de prediccin de
consumos de gas natural a mediano y corto plazo", Tercer Congreso Latinoamericano y del
Caribe de gas y electricidad, Santa Cruz de la Sierra, Bolivia.
Bibliografa
321
[GREEN], P.J. Green (1994), "Non parametric regression and generalized linear models" ,
London, Chapman and Hall.
[GUTIER], Ester Gutirrez Moya (2003), "La demanda residencial de energa elctrica en la
comunidad autnoma de Andaluca: un anlisis cuantitativo", Tesis doctoral Universidad de
Sevilla: Facultad de Ciencias Econmicas y Empresariales.
[HEIREN], Andras Heinen y Erik Rengifo (2003), "Multivariate autoregresive modelling of
time series count data using copulas", CORE Discussion Paper 2003/25, Universit
Catholique de Louvain.
[HILIE], Frederick S. Hillier y Gerald J. Lieberman (2001), "Investigacin de operaciones",
7 ed., Mxico, McGraw-Hill.
[HUSASC], Matthew Hurd, Mark Salmonn y Christoph Schleicher (2005), "Using copulas to
construct foreign exchange distributions with an application to the sterling exchange rate
index", CEPR Discussion Papers 5114.
[JOE], Harry Joe (1997), "Multivariate Models and Dependence Concepts", London,
Chapman and Hall.
[KETTLER], Paul C. Kettler y Fred Espen Benth (2006), "Dynamic copula models for the
spark spread", Pure Mathematics, N 14.
[LIU], Wei Liu (2005), "Distributions of currencies portfolio Return: A copula methodology".
[LYXUE], Ly Fie Sugianto y Xue-Bing Lu, "Demand forecasting in the deregulated market: a
bibliography survey", School of Business Systems, Monash University 3800 Victoria,
Australia.
[MATTEIS], Roberto De Matteis (2001), "Fitting copulas to data", Diploma Thesis, Institute
of Mathematics of the University of Zurich.
[MEHRA], M.Mehra (2002), "Demand forecasting for electricity".
Bibliografa
322
Bibliografa
323
[PERWHI], Tony Perchard y Clive Whitehand (2000), "Short term gas demand forecasting",
en Ellul I,ed.Proceedings of the 32nd Annual Meeting on Pipeline Simulation Interest
Group.Savannah.
[QUEGAR], Vicente Quesada Paloma y Alfonso Garca Prez (1985), "Curso bsico de
clculo de probabilidades", Madrid, ICE.
[ROMANO], Claudio Romano (2002), "Calibrating and simulating copula functions: an
application to the italian stock market", Working paper N 12, CIDEM.
[SANSAT], Alessio Sancetta y Stephen Satchell (2004), "The Bernstein copula and its
applications to modeling and approximations of multivariate distributions", Econometric
Theory 20: 535562.
[SASDOC], SAS Institute,http://v8doc.sas.com/sashtml.
[SEGERS], Johan Segers (2004), "Extreme-Value Copulas".
[SIXTO], Sixto Ros Insua (1993), "Investigacin operativa: optimizacin", 2 ed., Madrid,
Centro de Estudios Ramos Areces, S.A.
[VACHUNTA], Vanaja Iyer, Chun Che Fung y Tamas Gedeon (2003), "A fuzzy neural
approach to electricity load and spot price forecasting in a deregulated electricity",
TENCON 2003: Conference on Convergent Technologies for Asia-Pacific Region, Vol. 4,
pp. 1479-1482.
[VANLAM], F. Vandenhende y P.Lambert (2002), "Local dependence estimation using nonparametric archimedian copulas".
[VENTER], Gary G. Venter (2001), "Tails of copulas", en Proceedings ASTIN Washington,
USA, pp. 68113.
Bibliografa
324