Ejercicios Metodos de Opti

ICS 2121 Métodos de Optimización, Sem 2015-2
Prof. Jorge Vera
Examen. Solución
Pregunta 1 (15 puntos):

Responda las siguientes preguntas en forma breve, precisa y justificada.
a) (3 pts) Explique por qué los métodos de primer orden, basados en gradientes, pueden ser, globalmente, más
eficientes que el Método de Newton, pese a que este último tiene convergencia cuadrática.
Respuesta: Este es el argumento estándar relativo a que cada iteración de Newton puede ser muy cara.
b) (3 pts) Como usted sabe, en un algoritmo de punto interior se usa una iteración del Método de Newton para
obtener una solución suficientemente cercana a la trayectoria central. ¿Qué pasarı́a (qué impacto tiene en la
convergencia y eficiencia del método) si se usara en vez de Newton, un método Quasi-Newton (BFGS, por
ejemplo)?
Respuesta: El argumento de convergencia depende de manera fundamental del hecho que, cuando se actualiza
el parámetro de penalización, se deteriora la medida de cercanı́a a la trayectoria central. Sin embargo, la
convergencia cuadrática de Newto permite restaurar esa cercanı́a en una iteración. Si se usa un método Quasi-
Newton, la convergencia no es cuadrática y no se restaurará la cercanı́a. Esto afecta todo ela rgumento de
convergencia.
c) (3 pts) En Optimización Estocástica, un problema de 2-etapas con “recurso” puede ser resuelto en forma aprox-
imada mediante el método SAA: Sample Average Approximation. Esto lleva a un problema de optimización
estructurado. ¿Qué método de resolución para problemas de gran tamaño es el que se puede usar para resolver
ese problema con etructura tan especial? Justifique con precisión argumentando respecto a la estructura del
problema que hay que manejar.
Respuesta: El método a usar es la Descompisción de Benders, la razón es la estructura: las variables de
primera etapa pueden separarse de las de segunda cuando estas se consideran fijas (acá es aceptable un dibujo
que meustre las estructuras).
d) (3 pts) Considere el siguiente problema de optimización linea:
Pn
min cj x j
P) Pj=1
n
s.a. j=1 aij xj ≥ bi , i = 1, . . . , m
Suponga le dicen que los coeficientes aij son inciertos y siguen distribuciones de probabilidad normales con
2
media āij y varianza σij . Si imponemos restricciones probabilı́sticas independientes, el problema es:
Pn
z ∗ = min j=1Pcj xj
P C) n
s.a. Prob( j=1 aij xj ≥ bi ) ≥ αi , i = 1, . . . , m
donde 1/2 ≤ αi < 1. Sabemos que esto da origen a un problema convexo. En forma alternativa a esto, se
puede pedir lo que se llama “joint chance constraint”, de la siguiente forma:
Pn
min cj xj
j=1P
P JC) n
s.a. Prob( j=1 aij xj ≥ bi , i = 1, . . . , m) ≥ β
donde 1/2 ≤ β < 1.
Suponga se resuelve el problema PC) y x̂ es solución óptima. ¿Puede garantizarse algún valor β que haga
factible a x̂ para el problema PJC)? ¿Deben cumplir los αi alguna condición para ser consistentes con la
formulación PJC? Justifique con precisión, explicitando los supuestos que use.
Respuesta: Dado que Qm hay independencia, si cumplo cada restricción con probabilidad αi , la probabilidad de
cumplirlas todas es i=1 αi . Se debe tener
Ym
αi ≥ β.
i=1
Qm
Adicionalmente, debiera tenerse que i=1 αi ≥ 1/2. Puede obtenerse una condición más explı́cita asumiendo,
por ejemplo, que todos los αi sean iguales, digamos a α. En ese caso, hay que cumplir con que α ≥ β 1/m
y además que ≥ (1/2)1/m . Es interesante notar que si β = 0, 95, por ejemplo, y m = 10 (un valor bastante
chico), debe tenerse α = 0, 995, un valor muy alto de cumplimiento.
e) (3 pts) Con el mismo problema P) de la parte d) anterior, suponga que ahora le dicen que los coeficientes
cumplen aij ∈ [āij − sij , āij − sij ], ∀i, j y se calcula una solución robusta (con cualquiera de las metodologı́as
explicadas en el curso) que entrega un valor óptimo al problema robusto igual a zR . ¿Cómo se comparan z ∗ y
zR ?
Respuesta: De la forma en que está originalmente escrito el enunciado, la respuesta es que puede ser mayor
o menor según cuánto sean los valores que se están pidiendo de cumplimiento, es decir, los αi , y de cuánta
pobustez se pida. Muchas veces el robusto va a ser más exigente que el probabilı́stico y en ese caso se tendrı́a que
z ∗ ≤ zR . Si se asumió que z ∗ era el valor óptimo de P ), con los valores nominales (āij ), entonces definitivamente
z ∗ ≤ zR .
Pregunta 2 (14 puntos)
Uno de los problemas principales que enfrenta cualquier gran hospital complejo es la programación de las operaciones
en los quirófanos. Suponga que quiere ayudar a un hospital a la programación de las operaciones durante un perı́odo
dado (una semana, por ejemplo), para lo cual debe determinar qué quirófanos serán usados y qué operaciones se
realizarán en qué quirófano. No nos preocuparemos del orden de las operaciones en dı́as particulares ya que esa
decisión se toma en un horizonte de tiempo más corto. Tenemos N quirófanos y cada quirófano está disponible T ,
en tiempo normal, horas en el perı́odo. Se deben organizar un total de P operaciones y la duración de la operación i
es de wi horas. De ser eventualmente necesario, un quirófano puede funcionar tiempo extra, pero en cada quirófano
ese tiempo extra no puede superar Q horas. Existe un costo fijo Kj por usar el quirófano j en el perı́odo y un costo
adicional cj por hora de sobretiempo que se asigne al quirófano j. El siguiente modelo de optimización determina
qué quirófanos usar y cuánto sobretiempo asignar de modo de cumplir con todas las cirugı́as y minimizar los costos.
La variables yj indica si un quirófano se usa o no, la variables xij indica si la operación i se hace en el quirófano j y
tj es la cantidad de sobretiempo asignado al quirófano j:
N
P
min {Kj yj + cj tj }
j=1
PN
s.a. xij = 1, i = 1, . . . , P (1)
j=1
PP
wi xij ≤ T yj + tj , j = 1, . . . , N (2)
i=1
tj ≤ Qyj , j = 1, . . . , N (3)
xij , yj ∈ {0, 1}, tj ≥ 0, i = 1, . . . , P ; j = 1, . . . , N. (4)
Tal como está escrito, este es un problema de optimización lineal entera mixta y podrı́a ser resuelto mediante
cualquier método para esos problemas, como el algoritmo de ramificación y acotamiento. Sin embargo, la duración
de las operaciones es evidentemente estocástica. Le dicen que la duración de la operación i distribuye normal con
media w̄i y varianza σi2 . Queremos ver cómo tomar esto en consideración para la asignación.
a) (8 pts) Queremos modelar el problema mediante un enfoque de decisiones en dos etapas, reconociemdo que la
duración real de las operaciones sólo se manifiesta cuando estas se hacen de verdad. Escriba una formulación
de optimización estocástica de 2 etapas cono recurso para este problema. Sea claro en indicar cuáles son sus
decisiones “aquı́ y ahora” y cuál es el problema de segunda etapa (Ind: no se asuste, aquı́ hay algo distinto a
los ejemplos que vimos en clases, pero se puede desarrollar sin problemas extendiendo las ideas estudiadas).
Respuesta: Las decisiones “aquı́ y ahora”, es decir las de la primera etapa son las y y los x ya que t se ajusta
a la incertidumbre. El problema es:
N
P
min {Kj yj } + E(Q(x, y))
j=1
PN
s.a. xij = 1, i = 1, . . . , P (1)
j=1
xij , yj ∈ {0, 1} i = 1, . . . , P ; j = 1, . . . , N. (4)
donde
N
P
Q(x, y) = min {cj tj }
j=1
PP
s.a. wi xij ≤ T yj + tj , j = 1, . . . , N (2)
i=1
tj ≤ Qyj , j = 1, . . . , N (3)
tj ≥ 0, j = 1, . . . , N. (4)
b) (6 pts) Para su modelo propuesto en b), escriba un problema de SAA (Sample Average Approximation) para
este caso.
Respuesta: Para escribir el problema de SAA asumimos que se han generado escenarios a partir de la dis-
tribución de probabilidad normar de los parámetros wi . Llamemos wi1 , . . . , wir a un total de, digaos, r escenarios.
El problema SAA es, entonces:
N r P
N
1
cj tkj
P P
min Kj yj + r
j=1 k=1 j=1
PN
s.a. xij = 1, i = 1, . . . , P (1)
j=1
P
wik xij ≤ T yj + tkj ,
P
j = 1, . . . , N ; k = 1, . . . , r (2)
i=1
tkj ≤ Qyj , j = 1, . . . , N ; k = 1, . . . , r (3)
xij , yj ∈ {0, 1}, tkj ≥ 0, i = 1, . . . , P ; j = 1, . . . , N ; k = 1, . . . , r. (4)
Pregunta 3 (12 puntos)
Como usted debe recordar, en LASSO y otros problemas similares se quiere encontrar una solución al sistema de
ecuaciones Ax = b, donde A ∈ Rm×n (tı́picamente con m < n), b ∈ Rm , pero que tenga la menor cantidad posible de
elementos no nulos. Una forma de aproximarse a esto es obtener una solución con la menor norma kxk1 . En vez de
considerar el tradicional problema de regularización L-1, que ya hemos usados, vamos a plantear mejor directamente
el problema:
min kxk1
P)
s.a. Ax = b
Si bien es verdad que la norma kxk1 (función convexa no diferenciable) puede ser reescrita en términos puramente
lineales, aquı́ haremos otra cosa: vamos a aproximar kxk1 por una función convexa diferenciable de la forma:
 
Xn q
Φ(x) =  (xj )2 + µ2  − nµ
j=1
donde µ > 0 es un parámetro definido a priori (mientras más pequeño sea µ, mejor aproxima Φ a la norma).
Queremos, entonces, resolver ahora el problema
min Φ(x)
PM)
s.a. Ax = b
a) (4 pts) Escriba el problema penalizado que habrá que resolver cuando se use el método de penalización cuadrática
para el problema PM). ¿Existe alguna similitud con lo que se hace al usar un método de primer orden para el
problema original (con la regularización L-1, por ejemplo)?.
Respuesta: Sea α1 , . . . , αm los vectores filas de la matriz A. El problema de penalización cuadrática es:
m
X
minn Φ(x) + µ (αiT x − bi )2
x∈R
i=1
donde µ > 0 es el parámetro de penalización. Lo anterior es lo mismo que es lo mismo que:
min Φ(x) + µkAx − bk22

x∈Rn
El problema de regularización L-1 era:
min µkxk1 + µkAx − bk22

x∈Rn
Este problema es no diferenciable y se puede usar la función Φ para aproximar kxk1 , como ya sabemos. El
problema aproximado diferenciable es:
minn µΦ(x) + kAx − bk22
x∈R
el que es, salvo por la forma en que se usa el parámetro de penalización, idéntico al de penalización cuadratica.
b) (6 pts) Explique ahora cómo funcionará un método de gradiente proyectado para el problema. Indique los pasos
principales (Ind: es más simple que lo que desarrollamos en el curso, aprovéchese de la forma de las restricciones).
Respuesta: El método de gradiente proyectado calculará, en la iteración xk, la proyección de ∇Φ(xk ) sobre el
espacio de las restricciones activas. Sin embargo, en este caso el problema sólo tiene restricciones de igualdad,
ası́ que se calcula hk = P royS (∇Φ(xk ), donde P royS denota la proyección sobre S = {x : Ax = b}. Después
se hace la búsqueda unidireccional en la dirección hk :
min Φ(xk + thk )

t≥0
Acá no hay que preocuparse de ningún lı́mite adicional para t dado que no hay restricciones de desigualdad.
El punto ası́ encontrado es xk+1 .
c) (2 pts) ¿Tiene sentido usar el método de Frank-Wolfe para el problema PM)? Explique con precisión.
Respuesta: No tiene sentido. La razón es la siguiente: FW resoverı́a el problema de programación lineal:
min ∇Φ(xk )T d
s.a. Ad = 0
Este problema, sin embargo, es no acotado salvo que ∇Φ(xk ) esté en el espacio ortogonal a Ad = 0, cosa que
no ocurrirá casi nunca.

Ejercicios Metodos de Opti

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Ejercicios Metodos de Opti

Încărcat de

Drepturi de autor:

Formate disponibile

ICS 2121 Métodos de Optimización, Sem 2015-2

Prof. Jorge Vera

Pregunta 1 (15 puntos):

Pregunta 3 (12 puntos)

donde µ > 0 es el parámetro de penalización. Lo anterior es lo mismo que es lo mismo que:

min Φ(x) + µkAx − bk22

min µkxk1 + µkAx − bk22

min Φ(xk + thk )

Respuesta: No tiene sentido. La razón es la siguiente: FW resoverı́a el problema de programación lineal:

S-ar putea să vă placă și