Sunteți pe pagina 1din 4

ICS 2121 Métodos de Optimización, Sem 2015-2

Prof. Jorge Vera

Examen. Solución

Pregunta 1 (15 puntos):


Responda las siguientes preguntas en forma breve, precisa y justificada.
a) (3 pts) Explique por qué los métodos de primer orden, basados en gradientes, pueden ser, globalmente, más
eficientes que el Método de Newton, pese a que este último tiene convergencia cuadrática.
Respuesta: Este es el argumento estándar relativo a que cada iteración de Newton puede ser muy cara.
b) (3 pts) Como usted sabe, en un algoritmo de punto interior se usa una iteración del Método de Newton para
obtener una solución suficientemente cercana a la trayectoria central. ¿Qué pasarı́a (qué impacto tiene en la
convergencia y eficiencia del método) si se usara en vez de Newton, un método Quasi-Newton (BFGS, por
ejemplo)?
Respuesta: El argumento de convergencia depende de manera fundamental del hecho que, cuando se actualiza
el parámetro de penalización, se deteriora la medida de cercanı́a a la trayectoria central. Sin embargo, la
convergencia cuadrática de Newto permite restaurar esa cercanı́a en una iteración. Si se usa un método Quasi-
Newton, la convergencia no es cuadrática y no se restaurará la cercanı́a. Esto afecta todo ela rgumento de
convergencia.
c) (3 pts) En Optimización Estocástica, un problema de 2-etapas con “recurso” puede ser resuelto en forma aprox-
imada mediante el método SAA: Sample Average Approximation. Esto lleva a un problema de optimización
estructurado. ¿Qué método de resolución para problemas de gran tamaño es el que se puede usar para resolver
ese problema con etructura tan especial? Justifique con precisión argumentando respecto a la estructura del
problema que hay que manejar.
Respuesta: El método a usar es la Descompisción de Benders, la razón es la estructura: las variables de
primera etapa pueden separarse de las de segunda cuando estas se consideran fijas (acá es aceptable un dibujo
que meustre las estructuras).
d) (3 pts) Considere el siguiente problema de optimización linea:
Pn
min cj x j
P) Pj=1
n
s.a. j=1 aij xj ≥ bi , i = 1, . . . , m

Suponga le dicen que los coeficientes aij son inciertos y siguen distribuciones de probabilidad normales con
2
media āij y varianza σij . Si imponemos restricciones probabilı́sticas independientes, el problema es:
Pn
z ∗ = min j=1Pcj xj
P C) n
s.a. Prob( j=1 aij xj ≥ bi ) ≥ αi , i = 1, . . . , m
donde 1/2 ≤ αi < 1. Sabemos que esto da origen a un problema convexo. En forma alternativa a esto, se
puede pedir lo que se llama “joint chance constraint”, de la siguiente forma:
Pn
min cj xj
j=1P
P JC) n
s.a. Prob( j=1 aij xj ≥ bi , i = 1, . . . , m) ≥ β
donde 1/2 ≤ β < 1.
Suponga se resuelve el problema PC) y x̂ es solución óptima. ¿Puede garantizarse algún valor β que haga
factible a x̂ para el problema PJC)? ¿Deben cumplir los αi alguna condición para ser consistentes con la
formulación PJC? Justifique con precisión, explicitando los supuestos que use.
Respuesta: Dado que Qm hay independencia, si cumplo cada restricción con probabilidad αi , la probabilidad de
cumplirlas todas es i=1 αi . Se debe tener
Ym
αi ≥ β.
i=1
Qm
Adicionalmente, debiera tenerse que i=1 αi ≥ 1/2. Puede obtenerse una condición más explı́cita asumiendo,
por ejemplo, que todos los αi sean iguales, digamos a α. En ese caso, hay que cumplir con que α ≥ β 1/m
y además que ≥ (1/2)1/m . Es interesante notar que si β = 0, 95, por ejemplo, y m = 10 (un valor bastante
chico), debe tenerse α = 0, 995, un valor muy alto de cumplimiento.
e) (3 pts) Con el mismo problema P) de la parte d) anterior, suponga que ahora le dicen que los coeficientes
cumplen aij ∈ [āij − sij , āij − sij ], ∀i, j y se calcula una solución robusta (con cualquiera de las metodologı́as
explicadas en el curso) que entrega un valor óptimo al problema robusto igual a zR . ¿Cómo se comparan z ∗ y
zR ?
Respuesta: De la forma en que está originalmente escrito el enunciado, la respuesta es que puede ser mayor
o menor según cuánto sean los valores que se están pidiendo de cumplimiento, es decir, los αi , y de cuánta
pobustez se pida. Muchas veces el robusto va a ser más exigente que el probabilı́stico y en ese caso se tendrı́a que
z ∗ ≤ zR . Si se asumió que z ∗ era el valor óptimo de P ), con los valores nominales (āij ), entonces definitivamente
z ∗ ≤ zR .
Pregunta 2 (14 puntos)
Uno de los problemas principales que enfrenta cualquier gran hospital complejo es la programación de las operaciones
en los quirófanos. Suponga que quiere ayudar a un hospital a la programación de las operaciones durante un perı́odo
dado (una semana, por ejemplo), para lo cual debe determinar qué quirófanos serán usados y qué operaciones se
realizarán en qué quirófano. No nos preocuparemos del orden de las operaciones en dı́as particulares ya que esa
decisión se toma en un horizonte de tiempo más corto. Tenemos N quirófanos y cada quirófano está disponible T ,
en tiempo normal, horas en el perı́odo. Se deben organizar un total de P operaciones y la duración de la operación i
es de wi horas. De ser eventualmente necesario, un quirófano puede funcionar tiempo extra, pero en cada quirófano
ese tiempo extra no puede superar Q horas. Existe un costo fijo Kj por usar el quirófano j en el perı́odo y un costo
adicional cj por hora de sobretiempo que se asigne al quirófano j. El siguiente modelo de optimización determina
qué quirófanos usar y cuánto sobretiempo asignar de modo de cumplir con todas las cirugı́as y minimizar los costos.
La variables yj indica si un quirófano se usa o no, la variables xij indica si la operación i se hace en el quirófano j y
tj es la cantidad de sobretiempo asignado al quirófano j:
N
P
min {Kj yj + cj tj }
j=1
PN
s.a. xij = 1, i = 1, . . . , P (1)
j=1
PP
wi xij ≤ T yj + tj , j = 1, . . . , N (2)
i=1
tj ≤ Qyj , j = 1, . . . , N (3)
xij , yj ∈ {0, 1}, tj ≥ 0, i = 1, . . . , P ; j = 1, . . . , N. (4)
Tal como está escrito, este es un problema de optimización lineal entera mixta y podrı́a ser resuelto mediante
cualquier método para esos problemas, como el algoritmo de ramificación y acotamiento. Sin embargo, la duración
de las operaciones es evidentemente estocástica. Le dicen que la duración de la operación i distribuye normal con
media w̄i y varianza σi2 . Queremos ver cómo tomar esto en consideración para la asignación.

a) (8 pts) Queremos modelar el problema mediante un enfoque de decisiones en dos etapas, reconociemdo que la
duración real de las operaciones sólo se manifiesta cuando estas se hacen de verdad. Escriba una formulación
de optimización estocástica de 2 etapas cono recurso para este problema. Sea claro en indicar cuáles son sus
decisiones “aquı́ y ahora” y cuál es el problema de segunda etapa (Ind: no se asuste, aquı́ hay algo distinto a
los ejemplos que vimos en clases, pero se puede desarrollar sin problemas extendiendo las ideas estudiadas).

Respuesta: Las decisiones “aquı́ y ahora”, es decir las de la primera etapa son las y y los x ya que t se ajusta
a la incertidumbre. El problema es:

N
P
min {Kj yj } + E(Q(x, y))
j=1
PN
s.a. xij = 1, i = 1, . . . , P (1)
j=1
xij , yj ∈ {0, 1} i = 1, . . . , P ; j = 1, . . . , N. (4)
donde
N
P
Q(x, y) = min {cj tj }
j=1
PP
s.a. wi xij ≤ T yj + tj , j = 1, . . . , N (2)
i=1
tj ≤ Qyj , j = 1, . . . , N (3)
tj ≥ 0, j = 1, . . . , N. (4)

b) (6 pts) Para su modelo propuesto en b), escriba un problema de SAA (Sample Average Approximation) para
este caso.

Respuesta: Para escribir el problema de SAA asumimos que se han generado escenarios a partir de la dis-
tribución de probabilidad normar de los parámetros wi . Llamemos wi1 , . . . , wir a un total de, digaos, r escenarios.
El problema SAA es, entonces:

N r P
N
1
cj tkj
P P
min Kj yj + r
j=1 k=1 j=1
PN
s.a. xij = 1, i = 1, . . . , P (1)
j=1
P
wik xij ≤ T yj + tkj ,
P
j = 1, . . . , N ; k = 1, . . . , r (2)
i=1
tkj ≤ Qyj , j = 1, . . . , N ; k = 1, . . . , r (3)
xij , yj ∈ {0, 1}, tkj ≥ 0, i = 1, . . . , P ; j = 1, . . . , N ; k = 1, . . . , r. (4)

Pregunta 3 (12 puntos)

Como usted debe recordar, en LASSO y otros problemas similares se quiere encontrar una solución al sistema de
ecuaciones Ax = b, donde A ∈ Rm×n (tı́picamente con m < n), b ∈ Rm , pero que tenga la menor cantidad posible de
elementos no nulos. Una forma de aproximarse a esto es obtener una solución con la menor norma kxk1 . En vez de
considerar el tradicional problema de regularización L-1, que ya hemos usados, vamos a plantear mejor directamente
el problema:
min kxk1
P)
s.a. Ax = b
Si bien es verdad que la norma kxk1 (función convexa no diferenciable) puede ser reescrita en términos puramente
lineales, aquı́ haremos otra cosa: vamos a aproximar kxk1 por una función convexa diferenciable de la forma:
 
Xn q
Φ(x) =  (xj )2 + µ2  − nµ
j=1

donde µ > 0 es un parámetro definido a priori (mientras más pequeño sea µ, mejor aproxima Φ a la norma).
Queremos, entonces, resolver ahora el problema

min Φ(x)
PM)
s.a. Ax = b

a) (4 pts) Escriba el problema penalizado que habrá que resolver cuando se use el método de penalización cuadrática
para el problema PM). ¿Existe alguna similitud con lo que se hace al usar un método de primer orden para el
problema original (con la regularización L-1, por ejemplo)?.

Respuesta: Sea α1 , . . . , αm los vectores filas de la matriz A. El problema de penalización cuadrática es:
m
X
minn Φ(x) + µ (αiT x − bi )2
x∈R
i=1

donde µ > 0 es el parámetro de penalización. Lo anterior es lo mismo que es lo mismo que:

min Φ(x) + µkAx − bk22


x∈Rn
El problema de regularización L-1 era:

min µkxk1 + µkAx − bk22


x∈Rn

Este problema es no diferenciable y se puede usar la función Φ para aproximar kxk1 , como ya sabemos. El
problema aproximado diferenciable es:
minn µΦ(x) + kAx − bk22
x∈R

el que es, salvo por la forma en que se usa el parámetro de penalización, idéntico al de penalización cuadratica.

b) (6 pts) Explique ahora cómo funcionará un método de gradiente proyectado para el problema. Indique los pasos
principales (Ind: es más simple que lo que desarrollamos en el curso, aprovéchese de la forma de las restricciones).

Respuesta: El método de gradiente proyectado calculará, en la iteración xk, la proyección de ∇Φ(xk ) sobre el
espacio de las restricciones activas. Sin embargo, en este caso el problema sólo tiene restricciones de igualdad,
ası́ que se calcula hk = P royS (∇Φ(xk ), donde P royS denota la proyección sobre S = {x : Ax = b}. Después
se hace la búsqueda unidireccional en la dirección hk :

min Φ(xk + thk )


t≥0

Acá no hay que preocuparse de ningún lı́mite adicional para t dado que no hay restricciones de desigualdad.
El punto ası́ encontrado es xk+1 .

c) (2 pts) ¿Tiene sentido usar el método de Frank-Wolfe para el problema PM)? Explique con precisión.

Respuesta: No tiene sentido. La razón es la siguiente: FW resoverı́a el problema de programación lineal:

min ∇Φ(xk )T d
s.a. Ad = 0

Este problema, sin embargo, es no acotado salvo que ∇Φ(xk ) esté en el espacio ortogonal a Ad = 0, cosa que
no ocurrirá casi nunca.

S-ar putea să vă placă și