Sunteți pe pagina 1din 29

Estrategias Evolutivas

The Theory of Evolution Strategies - Beyer Goldberg, 1989),

(2001) • Programación Evolutiva (PE) (Fogel et

Los algoritmos evolutivos son métodos sugeri- al.,1966, Fogel, 1992).

dos por el paradigma Darwiniano de la evolución. Aunque estas clases fueron fáciles de distinguir
El principio de variación y selección puede consi- unas de otras en la fase inicial, hoy en día es difí-
derarse como el principio fundamental de la evolu- cil crear conjuntos disyuntivos. Solo hoy es posible
ción Darwiniana. Este principio, combinado con el una diferenciación, el límite del PE: por lo general,
cambio de la generación (reproducción), construye la recombinación no se utiliza en absoluto en los al-
los componentes fundamentales del ciclo evoluti- goritmos de PE contemporáneos (Fogel y Stayton,
vo. 1994); La mutación es, por consiguiente, el opera-
A un nivel muy abstracto, la evolución puede dor de búsqueda decisivo. Por otro lado, algunos de-
considerarse como un proceso de selección de es- fensores de los AG consideran al operador de muta-
tructuras o estados (Beyer, 1989a), donde la selec- ción solo como un operador de fondo; sin embargo,
ción está determinada por las propiedades de ap- el número de estos adherentes parece ser de ten-
titud física de las estructuras. Las estructuras que dencia decreciente.
podrán sobrevivir, es decir, que se reproduzcan a sí Las EE tiene una posición intermedia. Por lo ge-
mismas, ya sea que aparezca una estructura estable neral, la mutación y la recombinación tienen la mis-
(estado estacionario) o que se produzcan caracte- ma importancia, en la medida en que se conside-
rísticas periódicas / caóticas, se dejan abiertas en el ra la optimización de parámetros de valor real, y se
marco de esta caracterización. Sin embargo, la evo- aplican a todos los individuos de forma predetermi-
lución darwiniana a menudo se considera análoga a nada. Las diferencias más importantes entre las va-
la optimización, y los algoritmos inspirados en ella riantes de EE y de AGs (como se describe en Gold-
se aplican casi exclusivamente para la optimización berg, 1989) son el método de selección, y si los pará-
de las funciones de acondicionamiento físico. metros estratégicos sensibles se ajustan (durante la
Incluso cuando se aplican los AE como un mé- evolución) o no (es decir, la tasa de mutación cons-
todo de optimización, el principio Darwiniano no tante en AGs versus autoadaptación de la fuerza de
garantiza una optimización exitosa en absoluto. mutación en la EE). El énfasis del uso de cadenas
Hay diferentes clases de AE o escuelas. Si solo de bits en los algoritmos genéticos es comparativa-
se consideran los métodos de optimización, existen mente poco importante. Además, la diferenciación
tres clases principales establecidas de AE: con respecto a la selección ya no es válida para mu-
chas variantes modernas de GA: mientras tanto, la
• Estrategias Evolutivas (EE) (Rechenberg, 1973,
selección (µ, λ) y (µ + λ) también existen en la clase
Schwefel, 1995),
de AG en una forma similar, aunque bajo el nombre
• Algoritmos Genéticos (AG) (Holland, 1975, de selección de truncamiento o selección elitista. Y la

1
auto-adaptación se experimenta también con algo- pende del problema de optimización. No hay res-
ritmos genéticos. tricciones a la aplicabilidad del algoritmo de EE, es
La existencia de diferentes clases de AE con di- decir, todas las alternativas yi ∈ R, o yi ∈ N, o yi ∈ B
ferente énfasis del papel de los operadores genéti- son permitidas, además, se pueden realizar varian-
cos (esencialmente: selección, reproducción, muta- tes mixtas, así como estructuras de datos más com-
ción y recombinación) definitivamente no es solo plejas. Una concretización es necesaria primero en
una cuestión de marcado o separación de los pro- las investigaciones teóricas, especialmente para el
tagonistas. La razón principal puede ser la falta de cálculo de las tasas de progreso.
una teoría unificadora. Dicha teoría debería carac- La EE, inventadas por Rechenberg, Schwefel y
terizar el efecto de los operadores y permitiría una Bienert a mediados de la década de 1960 (Rechen-
comparación objetiva entre las diferentes combina- berg, 1965, 1973; Schwefel, 1974), opera con pobla-
ciones de operadores en cuanto a su poder de opti- ciones B de tamaño (µ /ρ+, λ). En esta notación, µ re-
mización. La deficiencia es especialmente evidente presenta el número de individuos padres y λ el nú-
en la clase AG. Solo en los últimos años, se ha ob- mero de descendientes. Un individuo consiste en
servado un cambio desde el teorema del esquema un conjunto de parámetros de objeto y , parámetros
como la teoría dominante a enfoques alternativos. de estrategia endógenos (es decir, evolutivos) s , y de
La historia de la AG se gobernó más a través del su función de aptitud F (y )
pragmatismo puro, y su teoría persistió en el teo-
a B (y , s , F (y )). (3)
rema del esquema durante mucho tiempo. En con-
traste, la historia de ES contenía desde el principio
El conjunto de parámetros de estrategia endóge-
el esfuerzo por comprender los algoritmos teórica-
nos s , s ∈ S sirven para la autoadaptación del algo-
mente, es decir, estimar el rendimiento de un ope-
ritmo de EE, una especialidad de las EE y la PE. No
rador genético con respecto a su rendimiento de
participa en el cálculo de la aptitud del individuo;
optimización.
sin embargo, se pasa a la descendencia en función
El Algoritmo (µ /ρ+, λ)−
λ)−EE
del valor físico del individuo. El estado de un indi-
Considera un problema de optimización para la
viduo a está definido por la tupla de tres (y , s , F (y ))
función aptitud F (y ), F ∈ F ,
completamente. El total de estos elementos com-
F (y ) → Opt. (1) pone el espacio de estados A,

donde y es un vector de parámetro de objeto N- A = Y × S × F, (4)


dimensional en el espacio de parámetros de objeto
Y, y ∈ Y, y la ubicación del óptimo se representa donde la evolución toma lugar.
como ŷ Los individuos a construyen una población, for-
mada de µ padres a m , m = 1, . . . , µ , y λ descen-
y B (y 1, . . . , y N )T y ŷ B (ŷ 1, . . . , ŷ N )T . (2)
dientes ãa l , l = 1, . . . , λ. Los parámetros µ y λ son
El tipo de los componentes yi de y , y por lo tanto, los parámetros de estrategia exógenos, es decir, que
el espacio de búsqueda Y abarcado por ellos, de- no son modificados por la EE, sin embargo, pueden

2
evolucionar usando un algoritmo Meta-EE. Las po- dencia λ, que forman juntos la población de des-
(g )
blaciones de los padres y de descendientes en un cendientes B̃
Bλ .
(g ) (g )
tiempo g se representan como Bµ y Bλ , respec-
tivamente
Los operadores genéticos de las EE
(g )
( (g ) )  (g ) (g )

Bµ B am = a 1 , . . . , a µ
(5)
(g )
( (g ) )  (g ) (g )

Bλ B al = a1 , . . . , a λ
Los operadores genéticos son la carne(?) de cada
Adicionalmente a los parámetros de estrategia
AE. Además de la elección de la estructura adecuada
exógenos µ y λ, el parámetro exógeno λ aparece en
de datos específicos del problema, los operadores
la notación (µ /ρ+, λ). Este parámetro determina el
determinan esencialmente el rendimiento del AE.
número de padres el cual toma parte de la procrea-
El desarrollo de tales operadores es ciertamente un
ción de un individuo (número de apareamiento de
tipo de arte, y parece ser difícil dar reglas de diseño
grupo, número de mezcla), donde 1 ≤ ρ ≤ µ . Los
generales. La heurística domina el campo de la in-
padres son casados por el operador de reproduc-
vestigación; en la mayoría de los casos falta un fon-
ción a través de una selección aleatoria y forman el
do satisfactorio. Especialmente en el dominio de los
conjunto de la familia padre, el cual es una ρ-tupla
AG, esto condujo a un crecimiento salvaje de ope-
E, y que consta de ρ miembros cada uno
radores genéticos. Afortunadamente, esta inflación
E B a m 1 , a m 2 , . . . , a mr , . . . , a m ρ . (6) está limitada en el dominio de las EE. Sin embar-


go, generalmente existe un cambio de fase entre la


Para el caso ρ = 1, se tiene una reproducción ase-
práctica y la teoría: los rápidos éxitos prácticos en la
xual, es decir, los operadores de recombinación des-
implementación dificultan muy a menudo un aná-
critos son operadores 1, por lo tanto, no cambian la
lisis teórico exhaustivo.
información genética. El caso ρ = 2 es el caso es-
tándar en biología. Para ρ > 2, toma lugar la multi-
recombinación. Se observa en la naturaleza solo en Ocasionalmente, la comunidad de los AE ofre-
la familia de los unicelulares (protozoos), especial- ce la opinión de que no existen principios genera-
mente en bacterias, pero también en ciliados (Mar- les de AE. En cambio, cada clase de problema y cla-
gulis y Sagan, 1988). se de AE debe tener sus propios principios especí-
Cada AE contiene un mecanismo de selección ficos; además, las EE y los AG casi no tienen simili-
como el componente fundamental. En las EE, la se- tudes. El análisis teórico de los procesos complejos
lección se representa por (+, ), donde se puede utili- de los AE depende siempre del modelo considera-
zar la selección (+) (selección más) o la selección (, ) do. Por lo tanto, es una buena idea concentrarse en
(selección coma). algunos operadores genéticos que han demostrado
Los operadores genéticos utilizados en las EE tener éxito en la práctica. Como consecuencia, no
son la reproducción, recombinación, mutación y todos los operadores genéticos posibles se definen
selección. Cada generación g consiste en una po- aquí. Solo se mencionarán los que se analizan, al
(g )
blación de padres B µ de la que se genera la descen- menos parcialmente.

3
Noisy Optimization with Evolution Stra- nes candidatas con la mayor rapidez y el menor es-
tegies - Arnold (2002) fuerzo posible. El esfuerzo involucrado en una bús-
queda generalmente se cuantifica por el número
La optimización es una rama de las ciencias
de evaluaciones de funciones objetivas realizadas.
computacionales que se ocupa de determinar solu-
Las estrategias de búsqueda local pueden evaluar-
ciones óptimas para ciertos problemas matemáti-
se cuantitativamente y pueden compararse en fun-
cos. Con frecuencia, tales problemas matemáticos
ciones objetivas específicas considerando tasas de
surgen como modelos de la realidad física en to-
mejora de los valores de la función objetiva a lo lar-
das las áreas de las ciencias naturales, en ingenie-
go del tiempo.
ría, economía y administración. Resolver un proble-
El ruido es un factor común en la mayoría de los
ma de optimización es encontrar una combinación
problemas de optimización del mundo real. En par-
de valores de parámetros que optimice una canti-
ticular, la evaluación del valor de la función objetivo
dad dada, posiblemente sujeta a restricciones en los
de una solución candidata puede estar sujeta a per-
rangos de parámetros permitidos. La cantidad que
turbaciones. Nos referimos a una función objetivo
se optimiza se conoce como unión de objetivos, las
en combinación con un modelo de ruido como en-
limitaciones en los rangos de parámetros permiti-
torno de testigo. Las fuentes de ruido incluyen, por
dos se conocen comúnmente como restricciones.
nombrar solo unas pocas, las limitaciones físicas de
Para muchos problemas de optimización, es im-
la medición, los modelos de simulación estocásti-
posible encontrar un optimizador global, es decir,
ca, el muestreo incompleto de espacios grandes y
una combinación de valores de parámetros que sa-
la interacción hombre-computadora. Si bien pue-
tisfaga todas las restricciones y que tenga la pro-
de mejorar las propiedades de convergencia global
piedad de que no existe una mejor combinación de
de algunos algoritmos en entornos multimodales,
valores de parámetros que satisfaga todas las res-
el ruido suele ser perjudicial para el rendimiento lo-
tricciones. Con frecuencia, las mejores estrategias
cal de las estrategias de búsqueda. Puede conducir a
de búsqueda local son aquellas que intentan mejo-
la sustitución de soluciones candidatas por solucio-
rar de forma iterativa la calidad de las combinacio-
nes inferiores, o al rechazo de soluciones candida-
nes de valores de parámetros a las que nos referi-
tas superiores basadas en comparaciones de valo-
mos como soluciones candidatas. La calidad de una
res de funciones objetivas ruidosas. Las cantidades
solución candidata está determinada directamen-
excesivas de ruido pueden dar lugar a divergencias
te por la función objetivo del problema en cues-
de estrategias de búsqueda incluso en las funciones
tión. Las estrategias de búsqueda local utilizan in-
objetivas más simples.
formación sobre la función objetivo solo desde den-
tro de un vecindario de la ubicación actual en el es- Las aplicaciones industriales de los algoritmos
pacio de parámetros de la búsqueda. El objetivo no evolutivos se remontan al menos a la década de
es generar una secuencia de soluciones candidatas 1960, y las áreas de aplicación actuales incluyen la
que probablemente se conviertan en un optimiza- gestión, el control, el diseño, la programación, el re-
dor global, sino mejorar la calidad de las solucio- conocimiento de patrones y la toma de decisiones.

4
Una serie de conferencias internacionales y varias más allá de lo que se puede aprender de la mera ex-
revistas internacionales están dedicadas al campo perimentación.
de la computación evolutiva. En muchos casos, los Una estrategia de evolución aplicada a un pro-
algoritmos evolutivos han demostrado ser robustos blema de búsqueda forma un sistema iterado, esto-
y se emplean con frecuencia para resolver proble- cástico, no lineal y dinámico. Para estudiar la diná-
mas difíciles en los que los métodos tradicionales mica, se deben tener en cuenta los entornos especí-
son propensos a fallar, como los problemas de op- ficos de fitness. Excepto por problemas de búsque-
timización con funciones objetivas altamente dis- da muy simples, el análisis es prohibitivamente difí-
continuas o donde solo se dispone de datos no con- cil. Los entornos de acondicionamiento físico sim-
fiables. Las principales razones para el uso genera- ples pueden servir para resaltar las diferencias entre
lizado de los algoritmos evolutivos son su aplicabi- las variantes de la estrategia, pueden ayudar a desa-
lidad universal y la relativa facilidad con que se en- rrollar la intuición con respecto a los principios de
tiende e implementa el paradigma subyacente. trabajo de los operadores que emplea la estrategia y
pueden motivar la invención de nuevas herramien-
El tema de investigación del presente libro es el
tas para el análisis de los algoritmos que luego se
desempeño local de estrategias de evolución en es-
pueden usar en más Casos complejos. Si el propó-
pacios de búsqueda continua con mediciones de
sito del análisis es estudiar la influencia de paráme-
aptitud corrompidas por el ruido. Los problemas
tros como la dimensionalidad del espacio de bús-
que surgen en los espacios de búsqueda continua a
queda, el tamaño de la población o la intensidad del
veces son bastante diferentes de los encontrados en
ruido, la mayoría se puede aprender al considerar
los espacios de búsqueda discretos. El cálculo dife-
los entornos de acondicionamiento físico no trivia-
rencial y la teoría de orden estadística proporcionan
les más simples, ya que conducen a los resultados
herramientas matemáticas poderosas, y el trabajo
más transparentes.
de Rechenberg [66,67], Schwefel [76,77] y Beyer [27]
ha establecido un marco dentro del cual los análi- (µ /ρ+, λ)
λ)−EE básico

sis pueden proceder. El objetivo de dicha investiga- Los algoritmos evolutivos se esfuerzan por lle-
ción es determinar cómo el rendimiento de las es- var las poblaciones de soluciones candidatas a un
trategias de evolución se adapta a los parámetros problema de optimización hacia regiones cada vez
del problema, como la dimensionalidad del espacio mejores del espacio de búsqueda mediante la varia-
de búsqueda o la intensidad del ruido, y de la estra- ción y la selección. Una (µ /ρ+, λ)−EE opera con una
tegia de búsqueda, como el tamaño de la población población P de soluciones candidatas µ . El tiempo
o la potencia de mutación. Las leyes de escalamien- transcurre en pasos discretos y se indica con un su-
to permiten la comparación de diferentes variantes períndice (t ) cuando sea necesario. En cada paso t ,
de las estrategias, proporcionan pautas para ajustar un conjunto Q (t ) de λ soluciones candidatas es crea-
las estrategias de evolución para obtener el máximo do a partir de P (t ) por medio de los operadores va-
rendimiento y ofrecen perspectivas y una compren- riacionales de recombinación y mutación. El sím-
sión del comportamiento de las estrategias que va bolo ρ indica el número de soluciones candidatas

5
padre involucradas en la creación de cada solución La recombinación crea nuevos individuos, también
candidata descendiente. Las soluciones candidatas llamados descendientes, de la población de padres.
que forman la población P (t +1) de paso t + 1 son se- Los dos tipos principales de recombinación, la re-
leccionadas en base a su aptitud individual depen- combinación dominante y la intermedia, se distin-
diendo del tipo de selección, ya sea P (t ) ∪ Q (t ) o de guen típicamente: en la recombinación dominante,
Q (t ) . la descendencia hereda una propiedad de un pa-
dre, es decir, esta propiedad domina la propiedad
Contemporary Evolution Strategies - correspondiente de los otros individuos. Para la re-
Bäck (2013) combinación intermedia, se tienen en cuenta las
propiedades de todos los individuos, de modo que,
Optimización
por ejemplo, en el caso más simple, se utiliza su va-
Las estrategias de evolución son especialmente
lor medio.
adecuadas (y desarrolladas) para tareas de optimi-
El operador de mutación proporciona la princi-
zación no lineales, que se definen a continuación:
pal fuente de variación de la descendencia en una

f (x) = min! para x ∈ Rn donde (7) estrategia de evolución. En base al muestreo de va-
riables aleatorias, se modifican las propiedades de
g i (x) ≤ 0, i ∈ I = {1, . . . , m } , h j (x) = 0,
(8) los individuos. Luego se evalúa a los individuos re-
j ∈ J = {1, . . . , r } , cién creados, es decir, se calculan sus valores de ap-
y el conjunto titud física. Basándose en estos valores de aptitud
física, la selección identifica un subconjunto de in-
M = x ∈ Rn : g i (x) ≤ 0, ∀i ∈ I , h j (x) = 0, ∀j ∈ J

dividuos que forman la nueva población que se uti-
(9)
liza en la siguiente iteración del ciclo de evolución.
se denomina conjunto de puntos factibles y define
El ciclo se termina en función de un criterio de ter-
el espacio de búsqueda del problema de optimiza-
minación establecido por el usuario, como alcanzar
ción. Un punto x∗ ∈ Rn es llamado un mínimo glo-
un número máximo de evaluaciones, alcanzar un
bal, si
valor de aptitud objetivo o estancamiento del pro-
f ∗ = f (x ∗ ) ≤ f (x) para todo x ∈ M (10) ceso de búsqueda.
Según [58], las estrategias de evolución como
A la inversa, se llama un mínimo local si la desigual-
una instanciación específica de algoritmos evoluti-
dad anterior solo se mantiene para x dentro de un
vos se caracterizan por las siguientes cuatro propie-
-ambiente U(x ) ⊆ M .
dades:
Durante la inicialización, se crea la primera ge-
neración, que consta de uno o más individuos, y • La selección de individuos para la recombina-
se evalúa la aptitud física de sus individuos. Des- ción es imparcial.
pués de la inicialización, se ingresa al llamado bu-
• La selección es un proceso determinista.
cle de evolución, que consiste en la recombinación,
mutación, evaluación y selección de los operadores. • Los operadores de mutación están parametri-

6
zados y, por lo tanto, pueden cambiar sus pro- tiples óptimos locales. Tales problemas se denomi-
piedades durante la optimización. nan problemas de optimización multimodal y, por
lo general, son difíciles de resolver. Los métodos de
• Los individuos consisten en parámetros de
búsqueda local, es decir, los métodos que mejoran
decisión así como también en parámetros de
con avidez las soluciones basadas en la búsqueda
estrategia.
en la vecindad de una solución, a menudo solo en-
cuentran un óptimo local arbitrario que puede no
Machine Learning for Evolution Strate- ser el global. Los métodos más exitosos en la opti-
gies - Kramer (2016) mización global se basan en componentes estocás-
ticos, que permiten escapar de los óptimos locales y
Optimización
superar el estancamiento prematuro. Una clase fa-
La optimización es una clase de problema im-
mosa de métodos de optimización global es ES. Son
portante en ciencias de la computación que en-
excepcionalmente exitosos en espacios de solución
cuentra numerosas aplicaciones en dominios como
continua. Los ES pertenecen a los métodos evoluti-
la ingeniería eléctrica, la gestión de la información y
vos más famosos para la optimización de blackbox,
muchas más. Las variables de optimización pueden
es decir, para escenarios de optimización, donde no
ser numéricas, discretas o combinatorias.
se dan explícitamente expresiones funcionales y no
Muchos problemas del mundo real tienen múl-
se pueden calcular derivados. Los ES imitan el prin-
tiples óptimos locales. Tales problemas se denomi-
cipio biológico de la evolución [1] y pueden servir
nan problemas de optimización multimodal y, por
como una excelente introducción al aprendizaje y la
lo general, son difíciles de resolver. Los métodos de
optimización. Se basan en tres mecanismos princi-
búsqueda local, es decir, los métodos que mejoran
pales orientados al proceso de evolución darwinia-
con avidez las soluciones basadas en la búsqueda
na, que llevaron al desarrollo de todas las especies.
en la vecindad de una solución, a menudo solo en-
Los conceptos evolutivos se traducen en operado-
cuentran un óptimo local arbitrario que puede no
res algorítmicos, es decir, recombinación, mutación
ser el global. Los métodos más exitosos en la opti-
y selección.
mización global se basan en componentes estocás-
Primero, se define un problema de optimización
ticos, que permiten escapar de los óptimos locales y
formalmente. La función f : Rd → R es la función
superar el estancamiento prematuro. Una clase fa-
aptitud a ser minimizada en el espacio de solucio-
mosa de métodos de optimización global es ES. Son
nes Rd .
excepcionalmente exitosos en espacios de solución
continua. Los ES pertenecen a los métodos evoluti- Historia

vos más famosos para la optimización de blackbox, A principios de la década de 1950, surgió la idea
es decir, para escenarios de optimización, donde no de utilizar algoritmos para la resolución de proble-
se dan explícitamente expresiones funcionales y no mas orientados al concepto de evolución. En Ale-
se pueden calcular derivadas. mania, la historia de la computación evolutiva co-
Muchos problemas del mundo real tienen múl- menzó con ES, desarrollada por Rechenberg y Sch-

7
wefel en los años sesenta y setenta del último si- el Congreso sobre Computación Evolutiva (CEC) y
glo en Berlín [3–5]. Al mismo tiempo, Holanda in- EvoStar en Europa contribuyen a la comprensión
trodujo el concepto de cálculo evolutivo en los Es- y distribución de las EA como conceptos sólidos y
tados Unidos conocido como algoritmos genéticos métodos de búsqueda.
[6]. También Fogel introdujo la idea en ese momen- Relacionados con la búsqueda evolutiva están la
to y llamó a este enfoque programación evolutiva estimación de algoritmos de distribución (EDA) y
[7]. Durante aproximadamente 15 años, las disci- algoritmos de optimización de enjambre de partí-
plinas se desarrollaron independientemente unas culas (PSO). Ambos se basan en operadores aleato-
de otras antes de crecer juntas en los años ochen- rios como EA, mientras que los algoritmos de PSO
ta. Otra rama famosa de la computación evolutiva también están inspirados en la naturaleza. PSO mo-
se propuso en los años noventa del siglo pasado, es dela el vuelo de soluciones en el espacio de solucio-
decir, la programación genética (GP) [8]. GP es so- nes con velocidades, mientras se orienta a las me-
bre la evolución de los programas mediante la evo- jores posiciones de partículas. Todos los métodos
lución. Estos programas pueden basarse en nume- inspirados en la naturaleza pertenecen a la discipli-
rosos conceptos y lenguajes de programación, por na de la inteligencia computacional, que también
ejemplo, programas de ensamblador o estructuras comprende redes neuronales y lógica difusa. Las re-
de datos como árboles. Los operadores de progra- des neuronales están inspiradas en el procesamien-
mación genética están orientados a principios si- to neuronal natural, mientras que la lógica difusa es
milares como otros EA, pero adaptados a los pro- una lógica inspirada en la forma difusa del lenguaje
gramas en evolución. Por ejemplo, la recombina- y los conceptos humanos.
ción combina elementos de dos o más programas.
En las representaciones de árboles, se intercambian Multi-Objective Optimization using
subárboles. La mutación cambia un programa. En Evolutionary Algorithms - Deb (2001)
el código del ensamblador, se puede elegir un nuevo
Más o menos contemporáneo al desarrollo de
comando. En representaciones de árbol, se puede
Algoritmos Genéticos (AG), la investigación en un
generar un nuevo subárbol. La mutación también
campo muy similar a tales algoritmos estaba en
puede alargar o acortar los programas.
progreso en Alemania. Como resultado de este tra-
Los operadores de mutación avanzados, los me- bajo, P. Bienert, I. Rechenberg y H. P. Schwefel de la
canismos de tamaño de paso y los métodos para Universidad Técnica de Berlín sugirieron la llamada
adaptar la matriz de covarianza como el CMA-ES Estrategia Evolutiva (EE). Las primeras aplicaciones
[9] han hecho de ES uno de los optimizadores más de las EE fueron experimentales e intentaron resol-
exitosos en optimización continua sin derivados. ver la optimización de forma de una tubería dobla-
Para representaciones binarias, discretas y combi- da (Lichtfuss, 1965), la minimización de resistencia
natorias, se conocen otros conceptos. Las confe- al avance de placas unidas (Rechenberg, 1965), y la
rencias internacionales anuales como la Conferen- optimización de la forma de una boquilla destellan-
cia de Computación Genética y Evolutiva (GECCO), te (Schwefel, 1968), junto con otros problemas. Da-

8
do que la evaluación de una solución en cada uno 2. Crea una solución mutada:
de estos problemas fue difícil y llevó mucho tiem-
y = x + N(0, σ), (11)
po, se utilizó una simple EE de dos miembros en los
primeros estudios. Sin embargo, Schwefel fue el pri-
donde N(0, σ) es un vector de instancias
mero en simular una versión diferente de las EE en
creadas utilizando una distribución normal
una computadora en 1965. A partir de entonces, se
de media cero y con una desviación estándar
sugirieron EE de varios miembros, EE recombinan-
σ.
tes y EE autoadaptables. Sin embargo, el procedi-
3. Si f (y) < f (x), reemplaza a x con y.
miento inicial de las EE es fundamentalmente dife-
rente de los AG binarios principalmente de dos ma- 4. Si se satisface el criterio de terminación, para.
neras: De otra manera, ve al paso 2.

- las EE utilizan valores de parámetros reales, Aquí, todas las variables de decisión son muta-
das con una distribución normal teniendo la misma
- las primeras EE no usan ningún operador de fuerza de mutación (término usado para la desvia-
tipo cruce. ción estándar). Es intuitivo que el éxito de este algo-
ritmo en la búsqueda de una solución cercana a la
Sin embargo, un principio de funcionamiento de las verdadera solución óptima depende en gran medi-
EE es similar al de un AG de parámetro real utili- da del valor elegido de σ.
zado solo con operadores de selección y mutación. La fuerza de mutación óptima debe cambiar di-
Al darse cuenta de la similitud entre estos dos pro- námicamente, y debe ser inversamente proporcio-
cedimientos (aunque se practicaron en dos lugares nal al número de variables y, a medida que la solu-
geográficamente distantes), los estudios recientes ción se acerca más y más al óptimo, la fuerza de la
de las EE han introducido operadores de tipo cru- mutación debe reducirse proporcionalmente. Este
ce. fenómeno se explota en el desarrollo de las EE au-
Estrategias evolutivas no recombinantes toadaptables.
EE de dos miembros: (1+1)-EE Una mutación se define como exitosa si la des-

Este es el más simple de las estrategias evoluti- cendencia mutada es mejor que la solución origi-
vas. En cada iteración, un padre es usado ara crear nal. Si se observan muchas mutaciones exitosas, es-
un descendiente utilizando un operador de muta- to indica que las soluciones residen en una mejor
ción gaussiano. El procedimiento paso a paso es región en el espacio de búsqueda. Por lo tanto, es
mostrado a continuación. (El procedimiento se da hora de aumentar la fuerza de la mutación con la es-
para resolver problemas de minimización). peranza de encontrar mejores soluciones más cerca

EE de dos miembros: (1+1)-EE de la solución óptima.


EE Multimiembro: (µ + λ)-EE y (µ, λ)-EE
1. Elija una solución inicial x y una fuerza de mu- El enfoque de una población de varios miem-
tación (desviación estándar) σ. bros en las EE convierte a estas en algoritmos mu-

9
cho mejores. Existen dos maneras de introducir algoritmo para encontrar el mejor descendiente. El
múltiples miembros en una estrategia evolutiva: procedimiento (µ, λ)-EE es no elitista.
EE Multimiembro: (µ + λ)-EE Una estrategia, donde se eligen algunas copias

1. Escoge una población inicial P de µ solucio- limitadas de las mejores soluciones padres y el res-

nes x(i ), i = 1, 2, . . . , µ y una fuerza de muta- to se llena de la población descendiente, introduci-


ción σ. ría el elitismo de una manera controlada y podría
convertirse en un buen arreglo entre (µ + λ)-EE y
2. Crea soluciones mutadas λ:
(µ, λ)-EE.
y (j )
=x (i )
+ N(0, σ) (12) Estrategias evolutivas recombinantes
Para crear la descendencia j −ésima, un padre En las EE recombinantes, un conjunto de pa-
i se elige aleatoriamente de µ soluciones. dres elegidos se recombinan primero para encon-
trar una nueva solución. A partir de esto, la solución
3. Modifica la población de padres P combinan-
está mutada como antes. En lugar de elegir dos pa-
do padres y descendientes:
dres o todos los padres para la recombinación, un
P = ∪jλ=1 y (j ) ∪ ∪i =1 x (i )
 ( )  µ ( )
(13)
conjunto de ρ (un valor entre 1 y µ ) padres elegidos
De P , las mejores soluciones µ son elegidas y aleatoriamente. Un valor de ρ = 1 quiere decir no
el resto es eliminado. recombinación. Dos tipos de recombinación se uti-
lizan principalmente:
4. Si se satisface el criterio de terminación, para.
De otra manera, ve al paso 2.
- Intermedia: en este operador, los vectores
Como en la operación de selección se usan po- promedio de solución elegidos ρ se calculan
blaciones de padres e hijos, las (µ +λ)-EE es un algo- de la siguiente manera:
ritmo elitista. En ciertos problemas, donde nuevas ρ
1 X (i )
mutaciones exitosas son difíciles de lograr, la bús- y= x (15)
ρ i =1
queda en una (µ + λ)-EE se estancará. Para evitar
este problema, se sugiere una alternativa (µ, λ)-EE. Está claro que si todos los padres se usan en

La única diferencia entre los dos tipos de algoritmos cada recombinación, o ρ = µ , el procedimien-

se encuentra en el paso 3. En lugar de combinar las to tiene una tendencia a agruparse alrededor

poblaciones progenitoras y descendientes antes de del centro de la población actual. En proble-

la selección, solo se utiliza la población descendien- mas donde una población se encuentra entre

te. Por lo tanto, la población modificada P antes de el verdadero óptimo, esta puede ser una bue-

la selección es: na estrategia.

P = ∪jλ=1 y (j )
( )
(14)
- Discreta: en esta recombinación, cada varia-
Esto requiere que λ ≥ µ . De esta manera, las ble de decisión se elige de uno de los ρ pa-
soluciones padre son ignoradas y el éxito del algo- dres al azar. Este operador es similar al pro-
ritmo (µ, λ)-EE dependerá de la habilidad de dicho cedimiento de cruce uniforme utilizado en los

10
algoritmos genéticos. Mediante este procedi- se han explorado con estrategias evolutivas (Bäck,
miento, se pueden obtener diferentes combi- 1992, 1997; Beyer, 1995a, 1995b; Hansen and Os-
naciones de variables de decisión de las solu- termeier, 1996; Rechenberg, 1973; Sarvanan et al.,
ciones existentes. El procedimiento paso a pa- 1995; Schwefel, 1987a) y también con programa-
so de todo el algoritmo es el siguiente: ción evolutiva (Fogel et al., 1995), aunque exis-
ten algunos estudios de autoadaptación en algorit-
EE recombinante: (µ /ρ + λ)-EE
mos genéticos con el operador de mutación (Bäck,
1. Escoge una población inicial P de µ solucio- 1992). Cuando se aplica a la optimización de fun-
nes x(i ), i = 1, 2, . . . , µ y un vector de fuerza de ciones, hay una serie de razones por las cuales los
mutación σ. algoritmos evolutivos deben prestar atención a la

2. Crea λ soluciones mutadas, cada una de las autoadaptación:


cuales utilice ρ padres elegidos aleatoriamen- 1. El conocimiento de los límites inferior y supe-
te de µ padres, de la siguiente manera: rior para la solución óptima puede no cono-

a) Calcule la solución recombinante y cerse a priori.

usando una recombinación intermedia o


2. Puede ser necesario conocer la solución ópti-
discreta de los padres (ρ).
ma con precisión arbitraria.
b) Muta la solución recombinada:
3. La función objetivo y la solución óptima pue-
y = y + N(0, σ) (16) den cambiar con el tiempo.

3. Modifica la población de padres P combinan- Hay tres formas diferentes en que la autoadap-
do los padres y descendientes: tación se introduce en las EE:

P = ∪jλ=1 y (j ) 1. Una meta-EE basada en la población organi-


 ( )  µ ( )
∪ ∪i =1 x(i ) (17)
zada de una manera jerárquica (Herdy, 1992).
De P , las mejores soluciones µ son elegidas y
el resto es eliminado. 2. Adaptación de la matriz de covarianza
(AMC) que determina la distribución de pro-
4. Si se satisface el criterio de terminación, para.
babilidad para la mutación (Hansen y Oster-
De otra manera, ve al paso 2.
meier, 1996).
Para las (µ /ρ, λ)-EE, solo la población descendiente
3. Uso explícito de parámetros de control au-
se usaría para crear la nueva población en el paso 3
toadaptativos (Rechenberg, 1973; Schwefel,
del algoritmo anterior.
1987a).
Estrategias evolutivas autoadaptativas
La autoadaptación es un fenómeno que hace El método meta-EE de autoadaptación utiliza
que los algoritmos evolutivos sean flexibles y más dos niveles de EE: el nivel superior optimiza los pa-
cercanos a la evolución natural. Entre los méto- rámetros de la estrategia (como las fortalezas de la
dos evolutivos, las propiedades de autoadaptación mutación), una solución de la cual se utiliza para

11
optimizar la verdadera función objetivo en las EE decisión y fortalezas de mutación son las siguien-
de nivel inferior. El segundo método (AMC) registra tes:
(t +1)
= σi e (τ N (0, 1)+τNi (0, 1)),
(t ) 0
el historial de la población para un cierto número σi (20)
de iteraciones para calcular la información de cova- (t +1)
xi
(t )
= x i + σi
(t +1)
Ni (0, 1), (21)
rianza y varianza entre las variables objetivo. El es-
donde τ 0 ∝ (2n )−1/2 y τ ∝ (2n 1/2 )−1/2 . Debido a la
fuerzo de búsqueda posterior está influenciado por
falta de resultados teóricos sobre esta EE autoadap-
estos valores de varianza.
table, los coeficientes de progreso para la (µ, λ)-EE
Básicamente hay tres implementaciones dife-
o (µ /µ, λ)-EE se utilizan normalmente como cons-
rentes que están en uso.
tante de proporcionalidad para τ 0 y τ. Se pueden
Autoadaptación isotrópica (0)
elegir valores iniciales similares para σi , como se
En esta EE autoadaptativa, se usa una sola fuer-
discutió para las EE autoadaptativas isotrópicas.
za de mutación σ para todas las variables. Además,
Autoadaptación correlacionada
para las n variables objetivo, el parámetro de estra-
En la autoadaptación correlacionada, además
tegia σ también se usa en un miembro de la pobla- n
!
de n fuerzas de mutación, las covarianzas son
ción. Las reglas de actualización logarítmica para 2
incluidas en cada solución !individual. Por lo tan-
las variables de decisión y la fuerza de la mutación n
!
to, hay un total de + n parámetros de estra-
son las siguientes: 2
tegias exógenas que se actualizarán para cada solu-
σ (t +1) = σ (t )e τ0 N (0, 1), (18) ción. Por lo que, este tipo de EE autoadaptativa pue-
de adaptarse a problemas donde las variables de de-
(t +1)
= x i + σ (t +1) Ni (0, 1),
(t )
xi (19)
cisión (x) están correlacionadas.
donde N (0, 1) y Ni (0, 1) son realizaciones de una Schwefel (1981) sugirió que, en lugar de usar co-
variable aleatoria distribuida normalmente unidi- varianzas, se pueden reemplazar por un ángulo de
mensional con una media cero y una desviación rotación correspondiente a cada par de coordena-
estándar uno. El parámetro τ0 es el parámetro de das. En un problema correlacionado (donde las va-
aprendizaje que debe establecerse como t0 ∝ n −1/2 , riables de decisión interactúan no linealmente en-
donde n es la dimensión del vector de variables tre sí), la tarea es encontrar todas las rotaciones de
(Schwefel, 1987a). coordenadas por pares y la dispersión de soluciones
Autoadaptación no isotrópica en cada sistema de coordenadas rotado para que
Aquí, se usa una fuerza de mutación σi diferente la función objetivo esté completamente no corre-
para cada variable. Por lo tanto, este tipo de EE auto- lacionada en el nuevo sistema de coordenadas. Por
adaptativa es capaz de aprender a adaptarse a pro- lo tanto, las reglas de actualización se sugieren para
blemas donde cada variable tiene una contribución n variables
! de decisión, n fuerzas de mutación σi y
n
desigual a la función objetivo. Además de n varia- ángulos de rotación α j :
2
bles objetivo, otros parámetros de estrategia se in- (t +1)
= σi e (τ N (0, 1)+τNi (0, 1)),
(t ) 0
σi (22)
cluyen en el vector de variable de decisión. Las re-
(t +1) (t )
glas de actualización logarítmica para variables de αj = α j + βα N j (0, 1), (23)

12
x(t +1) = x(t ) + N 0, C σ (t +1), α (t +1) ,
  
(24) Evolutiva (CE) es que los cambios debidos a la mu-
tación solo se aceptan en caso de éxito. En otras pa-
donde N 0, C σ (t +1), α (t +1) es un vector de mu-

labras, los individuos mutados solo se aceptan si la
tación correlacionado y distribuido normalmente
mutación resulta en una mejora de la forma física
con un vector de media cero y una matriz de co-
del individuo. También es interesante en las EE que
varianza C. El parámetro βα se fija como 0.0873 (o
la descendencia también se puede producir a partir
5◦ ) (Schwefel, 1987a). Siempre que un ángulo α j
de más de dos padres.
va fuera del rango [−π, π], está mapeado dentro del
(1+1)-EE
rango, es decir, si |α j | > π, α j = α j − 2π α j /|α j | .


Los parámetros τ 0, τ y σi
(0)
se establecen como an- El primer ES fue desarrollado para la optimiza-

tes. Los ángulos de rotación se inicializan en cero y ción experimental, aplicado a problemas hidrodi-
180 grados aleatoriamente. námicos (Rechenberg, 1965). Esta EE, denominada
(1 + 1)-EE, no hace uso de una población. Se usa un
solo individuo a partir del cual se produce una des-
Computational Intelligence: An
cendencia mediante la aplicación de un operador
introduction - Engelbrecht (2007) de mutación.

Rechenberg razonó que, dado que los procesos Las (1 + 1)-EE son unos de los primeros algorit-

biológicos han sido optimizados por la evolución, mos evolutivos que representa a un individuo co-
y la evolución es un proceso biológico en sí mismo, mo una tupla que consiste en el vector de decisión,
entonces debe ser el caso de que la evolución se op- x, que se optimizará y un vector de parámetros de
timice a sí misma (Rechenberg, 1994). Las Estrate- estrategia, σ. El vector del parámetro de estrate-
gias Evolutivas (EE), pilotadas por Rechenberg en gia representa el tamaño de paso de mutación para
la década de 1960 (Rechenberg, 1965, 1973) y más cada dimensión, que se adapta dinámicamente de
tarde exploradas por Schwefel (1975) se basan en acuerdo con el rendimiento.
el concepto de la evolución de la evolución. Mien- La representación individual es representada
tras que las EE consideran tanto la evolución geno- como una tupla:
típica como la fenotípica, el énfasis se pone en el
comportamiento fenotípico de los individuos. Ca- χ(t ) = (x(t ), σ(t )) (25)
da individuo está representado por sus bloques ge-
néticos y un conjunto de parámetros de estrategia De acuerdo con la observación biológica de que los
que modela el comportamiento de ese individuo en descendientes son similares a sus padres, y que las
su entorno. Por lo que la evolución consiste en la desviaciones más pequeñas de los padres ocurren
evolución de las características genéticas y los pa- con mayor frecuencia que las más grandes, los des-
rámetros de la estrategia, donde la evolución de las cendientes
características genéticas está controlada por los pa- χ 0(t ) = (x 0(t ), σ 0(t )) (26)
rámetros de la estrategia. Una diferencia adicional
entre las EE y otros paradigmas de la Computación son creados (muy similar a la Programación Evolu-

13
tiva Clásica (PEC)) agregando un ruido gaussiano: blación de µ > 1 padres. Dos padres son selecciona-
dos aleatoriamente y recombinados por cruce mul-
x j0 (t ) = x j (t ) + N j (0, σ j (t ))
tipunto discreta para producir una descendencia. Si
= x j (t ) + σ j (t )N j (0, 1) (27)
x1 (t ) y x2 (t ) indican a los dos padres, entonces

Los parámetros de estrategia se adaptan según la re-


x 1j (t ) si r j ≤ 0.5




gla de éxito de 1/5 propuesta por Rechenberg: au- x j (t ) = 
0
(31)
x 2j (t ) de otra manera



mentan las desviaciones, σ j , si la frecuencia relativa 
de mutaciones exitosas durante un cierto periodo y
es mayor a 1/5; de lo contrario, las desviaciones se  σ1j (t ) si r j ≤ 0.5




σ j (t ) =  (32)
reducen. Schwefel (1981,1995) propuso que, des-  σ2j (t ) de otra manera



pués de t > 10nx , si t mod nx = 0, el número de

donde r j ∼ U (0, 1), j = 1, . . . , nx .
mutaciones exitosas, nm , que han ocurrido durante
La descendencia está mutada en cuanto a (1+1)-
los pasos t − 10nx a t − 1 es calculado. Las desviacio-
ES. Se sigue un enfoque elitista para seleccionar la
nes son actualizadas usando
nueva población: los mejores µ individuos del µ +
ασ j (t ) si nm < 2nx 1 (padres y descendientes) sobreviven hasta la si-







(28) guiente generación.

σ j0 (t ) = 

 σ j (t )/α si nm > 2nx
Debido a problemas de autoadaptación de los




 σ j (t )

 si nm = 2nx
 tamaños de paso, las (µ + 1)-ES (también conocidas
donde α = 0.85. Una mutación exitosa produce una como las EE de estado estable) no se usan regular-
descendencia con un estado físico que es mejor que mente.
la aptitud del padre. En las (1 + 1)-EE originales no Algoritmo genérico de las estrategias evolutivas
se adaptan las desviaciones. Se ha propuesto varia- Un marco genérico para la implementación de
ciones donde σ j (t ) = σ, j = 1, . . . , nx . las EE se da a continuación. Los parámetros µ y λ in-
El operador de selección elige el mejor entre el dican el número de padres y de descendientes, res-
padre y la descendencia. Es decir, asumiendo la mi- pectivamente.
nimización,

Como se resume en el algoritmo anterior, una EE


 x (t ) si f (x (t )) < f (x(t ))
0 0




x(t + 1) =  (29) usa los siguientes componentes principales:
 x(t ) de otra manera




• Inicio: para cada individuo, su genotipo se ini-
y
cia para quedar dentro de las restricciones de
 σ (t ) si f (x (t )) < f (x(t ))
0 0

límites del problema. Los parámetros de la es-



σ(t + 1) =  (30)
 σ(t ) de otra manera trategia también se inician.




Rechenberg (1973) sugirió que las (1 + 1)-EE se • Recombinación: La descendencia es produci-
pueden extender a EE multimiembro, denomina- da a través de la aplicación de un operador de
das como (µ + 1)-EE. Esta estrategia utiliza una po- cruce en dos o más padres.

14
• Mutación: Los descendientes son mutados, donde xi ∈ Rnx representa el genotipo (el vector
donde los tamaños de paso mutación son de- de variables de decisión), y σi es el vector de pará-
terminados por parámetros de estrategia au- metros de la estrategia de desviación. Usualmente,
toadaptativa. σ ∈ Rn+x . Sin embargo las EE tienen que ser proba-
dos usando una desviación para todos los compo-
• Evaluación: Se usa una función de aptitud ab-
nentes del genotipo, es decir, σi j = σi , j = 1, . . . , nx ,
soluta para determinar la calidad de la solu-
en este caso σi ∈ R+ (Bäck, 1994,1996).
ción representada por el genotipo del indivi-
El uso de más parámetros estratégicos propor-
duo.
ciona más grados de libertad a los individuos para
• Selección: Los operadores de selección se uti-
ajustar su distribución de mutaciones en todas las
lizan para dos propósitos en una EE. En pri-
dimensiones.
mer lugar, para seleccionar a los padres pa-
Si las desviaciones se utilizan como los únicos
ra la recombinación, y en segundo lugar, pa-
parámetros de estrategia, las mejores direcciones
ra determinar qué individuos sobreviven a la
de búsqueda se determinan a lo largo de los ejes del
siguiente generación.
sistema de coordenadas en el que reside el espacio
Parámetros de estrategia y autoadaptación de búsqueda. No siempre es el caso que la mejor di-
Al igual que con la Programación Evolutiva (PE), rección de búsqueda (es decir, el gradiente) esté ali-
los parámetros de estrategia están asociados con neada con los ejes. En tales casos, se ha demostrado
cada individuo. Estos parámetros estratégicos se que la trayectoria de búsqueda fluctúa a lo largo del
autoadaptan para determinar la mejor dirección de gradiente, disminuyendo la tasa de progreso hacia
búsqueda y el tamaño de paso máximo por dimen- el óptimo (Bäck et al., 1991). Se necesita más infor-
sión. En esencia, los parámetros de la estrategia de- mación sobre la búsqueda para acelerar la conver-
finen la distribución de la mutación a partir de la gencia en tales casos. Se puede obtener más infor-
cual se muestrean los tamaños de pasos de muta- mación acerca de la función de aptitud, que define
ción. El objetivo principal de una estrategia de au- el espacio de búsqueda, mediante la matriz de Hes-
toadaptación es refinar la distribución de las mu- siana de la función de aptitud. Si se utiliza el Hes-
taciones de modo que se mantenga el progreso de siano como parámetro de estrategia, las mutacio-
búsqueda máximo. nes se realizan de la siguiente manera:
Tipos de parámetros de estrategia
En las primeras implementaciones de las EE se xi0(t ) = xi (t ) + N (0, H−1 ) (34)

utilizó un tipo de parámetro de estrategia, es de-


donde H es la matriz Hessiana. Sin embargo, no es
cir, la desviación del ruido con distribución nor-
factible utilizar la matriz de Hessiana. No siempre
mal, utilizado por el operador de mutación (Re-
se garantiza que las funciones de aptitud (objetivo)
chenberg, 1965, 1973; Schwefel, 1981). En este ca-
tengan una derivada de segundo orden. Incluso si
so, los individuos son representados como
existe una derivada de segundo orden, es compu-
χi (t ) = (xi (t ), σi (t )) (33) tacionalmente costoso calcular el Hessiano.

15
Schwefel (1981) propuso que la matriz de cova- que es el producto de nx (nx − 1)/2 matrices de rota-
rianza, C−1 , descrita por los parámetros estratégicos ción. Cada matriz de rotación Rl j (ωi ) es una matriz
de desviación de los individuos, puede ser usada co- identidad con rll = cos(ωi k ) y rl j = −r jl = − sen(ωi k ),
mo información adicional para determinar los ta- con k = 1 ⇔ (l = 1, j = 2), k = 2 ⇔ (l = 1, j = 3), · · · .
maños de paso óptimo y las direcciones. En este ca- La matriz rotacional es usada por el operador de
so, mutación.
xi0(t ) = xi (t ) + N (0, C) (35) Variantes de los parámetros de estrategia

donde N (0, C) se refiere a un vector r distribuido Los dos tipos de parámetros de estrategia que se

normalmente con una esperanza 0 y densidad de han utilizado son la desviación estándar de los ta-
probabilidad (Bäck, 1991), maños de pasos de mutación y los ángulos de ro-
tación que representan las covarianzas de los ta-
det C − 1 rT Cr
fG (r) = e 2 (36)
(2π)xn maños de pasos de mutación. Estos parámetros es-

Los elementos de la diagonal de C−1 son las cova- tratégicos han dado lugar a una serie de variantes
rianzas, σ j2 , mientras que los elementos fuera de la de autoadaptación (Bäck, 1996; Hildebrand et al.,
diagonal son las covarianzas de los tamaños de paso 1999). Para la discusión a continuación, n σ es el nú-
de las mutaciones. mero de parámetros de desviación utilizados, y n ω

Las covarianzas están dadas por ángulos de ro- el número de ángulos de rotación. Se han usado los
tación que describen las rotaciones que deben de siguientes casos:
realizarse para transformar un vector de mutación • n σ = 1, n ω = 0. Esto quiere decir que solo es
no correlacionado en un vector correlacionado. Si usado un parámetro de desviación (σ j = σ ∈
ωi (t ) representa el vector de ángulos de rotación pa- R+, j = 1, . . . , nx ) para todos los componentes
ra los individuos i , entonces dichos individuos son del genotipo y sin ángulos de rotación. La dis-
representados como una terna, tribución de la mutación tiene una forma cir-

χi (t ) = (xi (t ), σi (t ), ωi (t )) (37) cular.El punto medio del círculo indica la po-


sición del padre, xi , mientras que los límites
donde xi (t ) ∈ Rnx , σi (t ) ∈ Rn+x , ωi (t ) ∈ Rnx (nx −1)/2 , y
indican la desviación. Esta distribución indica
ωi k (t ) ∈ (0, 2π], k = 1, . . . , nx (nx − 1)/2.
la probabilidad de la posición del descendien-
Los ángulos de rotación se utilizan para repre-
te xi0, con la probabilidad más alta en el centro.
sentar las covarianzas entre las variables genéticas
El parámetro de estrategia es ajustado:
nx en el vector genético x i . Debido a que la matriz

de covarianza es simétrica, se puede usar un vector σi0(t ) = σi (t )e τN (0, 1) (39)


para representar los ángulos de rotación en lugar de 1
donde τ = √ .
una matriz. Los ángulos de rotación se utilizan pa- nx
Si bien el ajuste del parámetro único es
ra calcular una matriz de rotación ortogonal, T (ωi ),
computacionalmente rápido, el enfoque no es
como
x −1
nY nx
Y flexible cuando las coordenadas tienen dife-
T (ωi ) = Rl j (ωi ) (38)
l =1 j =i +1 rentes gradientes.

16
• n σ = nx , n ω = 0. Cada componente tiene su Lee et al. (1999) y Müller et al. (2002) propusie-
propio parámetro de desviación. La distribu- ron que el aprendizaje de refuerzo se use para adap-
ción de la mutación tiene una forma elíptica, tar los parámetros de la estrategia, de la siguiente
donde σ1 < σ2 . En este caso, el aumento del manera:
número de parámetros provoca un aumento
σi0j (t ) = σi j (t )e Θi (t )|τ N (0, 1)+τN (0, 1)|
0
(42)
lineal en la complejidad computacional, pero
los grados de libertad añadidos proporcionan donde Θi (t ) es la suma de las ganancias temporales
una mejor flexibilidad. Los diferentes gradien- durante las últimas nΘ generaciones para el indivi-
tes a lo largo de los ejes de coordenadas ahora duo i , es decir,
se pueden tener en consideración. nΘ
1 X
Θi (t ) = θi (t − t 0) (43)
Por lo tanto, los parámetros de estrategia son nθ
t 0 =0

los siguientes: Se pueden utilizar diferentes métodos para calcular


la ganancia de cada individuo a cada paso de tiem-
σi0j (t ) = σi j (t )e τ N (0, 1)+τN (0, 1)
0
(40)
po. Lee et al. (1999) propusieron lo siguiente:
1 1
donde τ0 =√ yτ= q
2nx √
2 nx



 0.5 si ∆ f (xi (t )) > 0




θi j (t ) =  (44)

• n σ = nx , n ω = nx (nx − 1)/2, donde además de  0 si ∆ f (xi (t )) = 0



las desviaciones, se usan ángulos de rotación.

si ∆ f (xi (t )) < 0

 −1


La distribución de la mutación elíptica se rota
donde el deterioro en la aptitud es muy penalizado.
con respecto a los ejes de coordenadas. Tales
En la ecuación anterior,
rotaciones permiten una mejor aproximación
de los contornos del espacio de búsqueda. ∆ f (xi (t )) = f (xi (t )) − f (xi (t − 1)) (45)

Los parámetros de desviación se actualizan


Müller et al. (2002) sugirieron una ganancia de
usando la ecuación (40), mientras que los án-
+1, 0 o −1 dependiendo del rendimiento. Alternati-
gulos de rotación se actualizan usando
vamente, ellos sugieren que

ωi0k (t ) = ωi k (t ) + γN j (0, 1) mód 2π (41) • θi j (t ) = f (xi (t ))− f (xi (t −1)), con 0 < ∆t < t . Es-
te enfoque basa las recompensas en los cam-
donde γ ≈ 0.0873 (Bäck, 1996).
bios del comportamiento fenotípico, según lo
Agregar los ángulos de rotación mejora la fle-
cuantificado por la función de aptitud. Cuan-
xibilidad, pero a costa de un aumento cuadrá-
to más mejora un individuo su estado físico
tico en la complejidad computacional.
actual, mayor es la recompensa. Por otro lado,
• 1 < n σ < nx . Esta aproximación permite dife- cuanto peor se vuelve la aptitud del individuo,
rentes grados de libertad. Para toda j > n σ , se mayor es la penalización para ese individuo.
utiliza la desviación σnσ .
• θi j (t ) = sign( f (xi (t ))− f (xi (t −∆t ))). Este esque-
Estrategias autoadaptativas ma resulta en ganancias de +1, 0, −1.

17
• θi j (t ) = ||xi (t ) − xi (t − ∆t )||sign( f (xi (t )) − f (xi (t − Operador de selección
∆t ))). Aquí la ganancia (o penalización) es La selección es usada para dos tareas en las EE:
proporcional al tamaño del paso en el espacio 1. para seleccionar los padres que tomarán parte
de decisión (genotípico). en el proceso de recombinación.

Ostermeier y Hansen (1999) consideraron un 2. para seleccionar la nueva población.


esquema de autoadaptación donde n σ = 1, y se uti-
Usualmente los padres son seleccionados alea-
liza una matriz de covarianza. En este esquema, la
toriamente. Para cada generación, λ descendientes
desviación de un descendiente se calcula como una
son generados y mutados a partir de µ padres. Des-
función de las desviaciones de aquellos progenito-
pués de la cruce y la mutación, se seleccionan los in-
res de los que se ha derivado la descendencia. Para
dividuos para la siguiente generación. Se han desa-
cada descendiente, xl0(t ), l = 1, . . . , λ
rrollado dos estrategias principales:
s Y • (µ + λ)-EE: En este caso (también denomina-
σl0(t ) = .. σi (t )// e ξ (46)
* +
ρ

i ∈Ωl (t )
das estrategias más) la EE genera λ descen-
, -
dientes a partir de µ padres, con 1 ≤ µ ≤ λ <
donde Ωl (t ) es el conjunto de indices de los ρ padres
∞. La siguiente generación consiste de los me-
de las descendencias xl0(t ), y la distribución de ξ es
jores individuos µ seleccionados de los padres
tal que prob(ξ = 0.4) = prob(ξ = −0.4) = 0.5.
e hijos. La estrategia (µ + λ)-EE implementa el
Kursawe (1995) usó un esquema de autoadap-
elitismo para asegurar que los padres más ap-
tación donde 1 ≤ n σ ≤ nx , y cada individuo usa
tos sobrevivan a la próxima generación.
un número diferente de parámetros de desviación,
n σ (t ). En cada generación, t , el número de pará- • (µ, λ)-EE: En este caso (también conocidas co-

metros de desviación puede incrementar o dismi- mo las estrategias coma), la siguiente genera-

nuir con una probabilidad de 0.05. Si el número de ción consiste en los mejores individuos µ se-

parámetros de desviación aumenta, es decir, n σi = leccionados de la descendencia λ. No se utili-

n σi (t − 1), entonces el nuevo parámetro de desvia- za el elitismo, por lo que este enfoque exhibe

ción es: una baja presión selectiva que las estrategias

i (t −1)
n σ,X más. La diversidad es, por lo tanto, más lar-
1
σi nσ, i (t ) (t ) = σi k (t ) (47) ga que las estrategias mencionadas anterior-
n σ, i (t − 1)
k =1
mente, lo cual resulta en una mejor explora-
Operadores de las estrategias evolutivas
ción. Las (µ, λ)-EE requieren que 1 ≤ µ < λ <
En las EE se utilizan tres operadores principales
∞.
de la computación evolutiva:
La mejor estrategia de selección para usar de-
1. Selección pende del problema que se está resolviendo. Los es-
pacios de búsqueda altamente intrincados necesi-
2. Cruce
tan más exploración, por lo cual, la (µ, λ)-EE es más
3. Mutación aplicable.

18
Debido a que la información sobre las caracte- Los operadores de cruce difieren en el número
rísticas del espacio de búsqueda generalmente no de padres usados para producir una sola descen-
está disponible, no es posible decir qué esquema dencia y en la manera en la que el material genéti-
de selección será más apropiado para una función co y los parámetros de estrategia de los padres son
arbitraria. Por este motivo, Huang y Chen (2000) combinados para formar la descendencia. En gene-
desarrollaron un controlador difuso para decidir la ral, la notación (µ /ρ+, ) es usada para indicar que los
cantidad de padres que podrían sobrevivir hasta la ρ padres son usados por aplicación del operador de
próxima generación. El controlador difuso recibe cruce. Basado en el valor de ρ, se pueden encontrar
medidas de diversidad de la población como insu- los siguientes dos enfoques:
mo e intenta equilibrar la exploración con la explo-
• cruce local (ρ = 2): donde un descendiente es
tación.
generado a partir de dos padres seleccionados
Runarsson y Yao (2002) desarrollaron un méto-
aleatoriamente.
do de selección continua para las EE, que es esen-
cialmente una versión continua de (µ, λ)-EE. La ba- • cruce global (2 < ρ ≤ µ ): donde dos o más

se de este método de selección es que la pobla- padres seleccionados aleatoriamente son usa-

ción cambia continuamente, y no discretamente dos para producir un descendiente. Cuanto

después de cada generación. No hay selección de mayor es el valor de ρ, más diversa es la des-

una nueva población a intervalos generacionales cendencia generada en comparación con va-

discretos. La selección solo se usa para seleccionar lores ρ más pequeños. El cruce global con ρ

padres para la recombinación, según un clasifica- grande mejora la capacidad de exploración de

ción de la aptitud de los individuos. Tan pronto co- la EE.

mo se crea una nueva descendencia, se inserta en la


Tanto en la cruce global como local, se utiliza la
población y la clasificación se actualiza inmediata-
recombinación de dos maneras:
mente. La consecuencia es que, en cada creación de
un descendiente, se elimina el peor individuo entre • Recombinación discreta: donde el alelo real

los µ padres e hijos. de los padres se usa para construir la descen-


dencia. Para cada componente de los vecto-
Operadores de cruce
res de parámetros de genotipo o estrategia,
En orden de introducir la recombinación en las
se utiliza el componente correspondiente de
EE, Rechenberg (1973) propuso que las (1 + 1)-EE
un elemento primario seleccionado al azar. La
pueden extenderse a (µ + 1)-EE. Las (µ + 1)-EE son,
notación (µ /ρD +, λ) es usada para indicar la re-
por lo tanto, las primeras EE en utilizar este opera-
combinación discreta.
dor. En las EE, la cruce es aplicada tanto para el ge-
notipo (vector de variables de decisión) como pa- • Recombinación intermedia: el alelo para la
ra los parámetros de estrategia. La cruce es imple- descendencia es un promedio ponderado del
mentada de manera diferente para otros algoritmos alelo de los padres (las representaciones de
evolutivos. punto flotante se suponen para el genotipo).

19
La notación (µ /ρI +, λ) es utilizada para indicar índice i2 es reemplazado con r j ∼ Ωl . Alter-
la recombinación intermedia. nativamente, el promedio de los padres pue-
de ser calculado a partir de los descendientes
En base a lo anterior, se han identificado cinco
(Beyer, 1995):
tipos principales de recombinación para las EE:
ρ ρ ρ
1X 1X 1X
• No recombinación: Si χi (t ) es el padre, el des- χ̃l (t ) = * xi (t ), σi (t ), ωi (t )+
ρ
, i =1 ρ i =1
ρ i =1
cendiente simplemente es χ̃l (t ) = χi (t ).
-
(53)
Izumi et al. (1997) propuso una recombina-
• Recombinación local y discreta:
ción aritmética entre el mejor individuo y el
 χi1 j (t ) si U j (0, 1) ≤ 0.5

promedio sobre todos los padres:



χ̃l j (t ) =  (48)
 χi2 j (t ) de otra manera ρ

1 X


 x̃l (t ) = r ŷ(t ) + (1 − r ) xi (t ) (54)
ρ i ∈Ω
El descendiente χ̃l (t ) = (x̃l (t ), σ̃l (t ), ω̃l (t )) he- l

reda de ambos padres, donde ŷ(t ) es el mejor individuo de la genera-


χi1 (t ) = (xi1 (t ), σi1 (t ), ωi1 (t )) y ción actual. Lo mismo se puede aplicar a los
χi2 (t ) = (xi 2 (t ), σi2 (t ), ωi2 (t )) parámetros de estrategia. Esta estrategia ase-
gura que los descendientes estén ubicados al-
• Recombinación local e intermedia:
rededor del mejor individuo. Sin embargo, se
x̃l j (t ) = r x i1 j (t ) + (1 − r )x i2 j (t ), ∀j = 1, . . . , nx debe tener cuidado ya que este operador pue-
(49) de causar un estancamiento prematuro, espe-
y cialmente para r grandes.

σ̃l j (t ) = r σi1 j (t ) + (1 − r )σi2 j (t ), ∀j = 1, . . . , nx Operadores de mutación


(50) Toda la descendencia producida por el operador
con r ∼ U (0, 1). Si los ángulos rotacionales son de cruce es mutada con una probabilidad de uno.
usados, entonces Este operador ejecuta dos pasos para cada descen-
diente:
ωlk (t ) = r ωi1 k (t ) + (1 − r )σi2 k (t )
 

• El primer paso se adapta automáticamente a


mód 2π, ∀k = 1, . . . , nx (nx − 1) (51)
los parámetros de estrategia como se discutió
• Recombinación global discreta: en Variantes de parámetros de estrategia y Es-
trategias de autoadaptación.
 χi1 j (t ) si U j (0, 1) ≤ 0.5




χ̃l j (t ) =  (52)
 χr j j (t ) de otra manera


 • El segundo paso muta la descendencia, χ̃l , pa-
ra producir una descendencia mutada, χl0:

con r j ∼ Ωl ; Ωl es el conjunto de índices de los
padres ρ seleccionados para el cruce. xl0(t ) = x̃l (t ) + ∆xl (t ) (55)

• Recombinación global intermedia: esta es si- La descendencia mutada λ,


milar a la recombinación loca, excepto que el χl0(t ) = (xl0(t ), σ̃l (t ), ω̃l (t )) toma parte en el pro-

20
ceso de selección, junto con los padres depen- Cauchy para producir las EE rápidas (Fast ES). Hu-
diendo de si es usada (µ + λ)-EE o (µ, λ)-EE. band et al. (2003) desarrollaron una mutación pro-
babilística como se usa en los Algoritmos Genéticos
En esta parte considera solo la mutación del ge-
y en la Programación Genética, donde cada compo-
notipo, ya que la mutación (autoadaptación) de los
nente del genotipo está mutado con una probabili-
parámetros de la estrategia se ha discutido anterior-
dad dada. Se propone que la probabilidad de mu-
mente.
tación sea 1/nx . Este enfoque impone un efecto de
Si solo se usan desviaciones como parámetros
suavizado en las trayectorias de búsqueda.
de estrategia, el genotipo, x̃l (t ), de cada descendien-
Hildebrand et al. (1999) propusieron una mu-
te, χ̃l (t ), l = 1, . . . , λ, es mutada:
tación dirigida, donde se puede dar preferencia a
• Si n σ = 1, ∆xl j (t ) = σl (t )N j (0, 1), las direcciones de coordenadas específicas. Este ti-
∀j = 1, . . . , nx . po de mutación da como resultado una distribución
de probabilidad de mutación asimétrica. Como ca-
• Si n σ = nx , ∆xl j (t ) = σl j (t )N j (0, 1),
da componente del genotipo está mutado indepen-
∀j = 1, . . . , nx . dientemente, es suficiente para definir una función

• Si 1 < n σ < nx , ∆xl j (t ) = σl j (t )N j (0, 1), de densidad de probabilidad asimétrica unidimen-


sional. Hildebrand et al. (1999) propusieron la si-
∀j = 1, . . . , n σ y ∆xl j (t ) = σl nσ (t )N j (0, 1),
guiente función:
∀j = n σ + 1, . . . , nx
2 2
!
− xσ si x < 0
Si se utilizan las desviaciones y los ángulos rotacio- √ e


 √  
 πσ 1 + 1 + c



fD (x ) =  (58)
nales, asumiendo que n σ = nx , entonces: 2 x2
!
− σ(1+
si x ≥ 0

e c)


 √  √ 
 πσ 1 + 1 + c

∆xl (t ) = T(ω̃l (t ))S(σ̃l (t ))N(0, 1) (56)


donde c > 0 es el valor direccional positivo.
donde T(ω̃(t )) es la matriz de rotación ortogonal, El método de mutación direccional usa solo
x −1
nY nx
Y desviaciones como parámetros de estrategia, pero
T(ω̃l (t )) = Rab (ω̃l (t )) (57)
a =1 b =a +1 asocia un valor direccional, c j , con cada desviación,

el cual es un producto de matrices de rotación σ j . Tanto σ y x son autoadaptativos, dando un to-

nx (nx −1)/2. Cada matriz de rotación, Rab (ω̃l (t )), tie- tan de 2nx parámetros de estrategia. Esto es compu-

ne una matriz identidad con cada elemento defini- tacionalmente más eficiente que usar un vector ro-
do como: r = cos(ω̃lk ) y r ab = −rba = − sen(ω̃lk ) para tacional nx (nx − 1), y proporciona más información
k = 1, . . . , nx (nx − 1)/2 y k = 1 ⇔ (a = 1, b = 2), k = sobre direcciones de búsqueda preferidas y tama-

2 ⇔ (a = 1, b = 3), . . . . ños de pasos que las desviaciones solas.

S(σ̃l (t )) = diag(σ̃l 1 (t ), σ̃l 2 (t ), . . . , σ̃l nx (t )) es la matriz Si D (c , σ) indica la distribución asimétrica, en-


diagonal que representa las desviaciones. tonces ∆xi j (t ) = D j (c i j (t ), σi j (t )).
Basado en un razonamiento similar a la Pro- Ostermeier y Hansen (1999) desarrollaron un
gramación Evolutiva, Yao y Liu (1997) reemplazó operador de mutación invariante del sistema de
la distribución Gaussiana por una distribución de coordenadas con autoadaptación. Los genotipos

21
son mutados usando desviaciones y correlaciones: ros reales. Se refiere al caso (µ + λ)-EE, cuando los

1 X padres producen λ hijos, mediante un solo opera-


xl0(t ) = xl (t ) + σ̃l N (0, Cl (t )) (59)
ρ dor genético aplicado en el proceso de evolución,
i ∈Ωl (t )

denominado mutación. Luego se toma los µ mejo-


donde
nm
X res, según sus aptitudes, de los (µ + λ) padres e hi-
Cl (t ) = ξlk (t )ξTlk (t ) (60)
k =1 jos para formar la siguiente población (Greenwood
1
con ξlk (t ) ∼ N (0, Ci (t )) y nm es la fuerza de y Zhu, 2001). Realmente esta selección es una so-
P
ρ i ∈Ωl (t )

mutación. Para valores grandes de nm , la fuerza de brevivencia de los más aptos y, automáticamente,
mutación es pequeña, debido a que una gran mues- incorpora la idea de elitismo. También existe una
tra, variante, llamada (µ, λ)-EE, donde se crean λ hijos
ξ1, ξ2, . . . , ξnm , proporciona una aproximación cer- con mutación, y los µ mejores de ellos son escogi-
cana a la distribución original que una muestra más dos. Aquí, ningún padre sobrevive.
pequeña. Ostermeier y Hansen (1999) sugirieron Algoritmos (1+1)-EE
que nm = nx .
Al principio, las estrategias evolutivas se basaron
en (1 + 1)-EE, o sea, una población de un solo in-
Búsqueda y exploración estocástica - de dividuo que produce un hijo mediante el operador
los Cobos Silva et al. (2010) genético de mutación. La diferencia con los algorit-
mos genéticos, fue representar a un individuo como
Las estrategias evolutivas (EE) fueron desarro-
un vector de números reales, x en <n , donde el vec-
lladas en la década de 1960 en Alemania por Bie-
tor x representa una posible solución en el espacio
nert, Rechenberg, y Schwefel, para atacar el proble-
de búsqueda de la función de aptitud. La mutación
ma de encontrar la forma óptima de cuerpos suje-
se lleva a cabo reemplazando x por x + δ, donde δ
tos a viento, el cual es un problema de optimización
es un vector de números aleatorios de la distribu-
numérica. Las diferencias principales entre estrate-
ción normal o gaussiana, N (0, σi2 ), con media igual
gias evolutivas y algoritmos genéticos (AG) radican
a cero y desviaciones estándares σi , i = 1, . . . , n . Es-
en que las estrategias, directamente, usan vectores
ta convenció se dio debido a que una evolución na-
de números reales en lugar de cadenas binarias, e
tural ocurren más a menudo pequeños cambios en
incorporan los operadores de selección y mutación,
lugar de cambios drásticos. Se acepta el resultado
pero no cruzamiento.
de la mutación como un nuevo miembro de la po-
Algoritmos (µ + λ)-EE y (µ, λ)-EE
blación reemplazando a su padre siempre y cuando
Generalmente, una estrategia evolutiva empieza
tenga mejor aptitud que este, es decir, sea f la fun-
con µ > 0 “padres” en la población que inicialmente
ción objetivo, el hijo x + δ, reemplaza a su padre x si
están escogidos aleatoriamente. Aquí la terminolo-
f (x + δ) > f (x ). En otro caso, el hijo se elimina y la
gía usada es “padre” o “hijo”, en lugar de “cromoso-
población se mantiene sin cambios.
ma” para el caso de un AG. Otra vez, el padre o hijo
codifica una solución posible al problema de opti- Adaptación determinista de los parámetros

mización, generalmente como un vector de núme- Cuando se permite que la desviación estándar

22
cambie periódicamente en el algoritmo, es conoci- ción, se puede considerar a los parámetros como
do como auto-adaptación. Rechenberg propuso la parte de la representación y también codificarlos
siguiente regla heurística para modificar el valor de (Eiben y Smith, 2007). En este caso, la represen-
la desviación estándar, σ, conocida como “la regla tación tiene la forma (x 1, . . . , x n , σ1, . . . , σn ), donde
de éxito 1/5”, durante los algoritmos (1 + 1)-EE: en- (x 1, . . . , x n ) es un punto en el espacio de búsqueda, y
cuentra el porcentaje, p s , de mutaciones que tuvie- (σ1, . . . , σn ) son las desviaciones estándares inicia-
ron mayores aptitudes que sus padres (considera- les correspondientes a las mutaciones.
dos como exitosas) en alrededor de 10n experimen- En el caso más sencillo, donde cada parámetro
tos, donde n es la dimensión de x . Entonces, con de mutación tiene el mismo valor, σ, se obtiene el
c = 0.85, se modifica σ de la siguiente forma: hijo, (x 10 , . . . , x n0 , σ 0), del padre (x 1, . . . , x n , σ) de la si-
guiente forma:
σ = σ/c si p s > 1/5 (61)

σ = cσ si p s < 1/5 (62) 1. σ 0 = σe t δ , donde δ es un número aleatorio de

σ=σ si p s = 1/5 (63) la distribución normal N (0, 1).

La auto-adaptación puede mejorar el desempe- 2. xi0 = xi + δ 0, donde δ 0 es un número aleatorio

ño de un algoritmo, pero no garantiza su conver- de la distribución normal N (0, σ 0).

gencia a un óptimo global, y se puede permanecer


donde t es una constante fijada por el usuario y,
en un máximo local. Greenwood y Zhu (2001) mo- 1
usualmente, proporcional a √ .
n
dificaron la regla de Rechenberg de la siguiente ma-
Múltiples padres
nera:
Anteriormente se describieron los algoritmos
σ = mı́n(σ/c , D ) si p s > 1/5 (64) (µ + λ)-EE y (µ, λ)-EE, donde el número de padres e

σ = cσ si 1/20 ≤ p s < 1/5 (65) hijos puede ser mayor a 1. En la práctica, es común
tomar el valor de λ más grande que µ (frecuente-
σ = mı́n(2σ, D ) si p s < 1/20 (66)
mente λ = 7µ ). En el caso (µ + λ)-EE, se generan λ
σ=σ si p s = 1/5 (67)
hijos a partir de los µ padres, utilizando un operador
donde D es el diámetro del espacio de búsqueda. de mutación, y después se toma los µ mejores de to-
La modificación principal es cuando p s < 1/20, en dos para la siguiente generación. Para el algoritmo
este caso se aumenta σ, esto ayuda a escapar de (µ, λ)-EE, se toma los µ mejores de los λ hijos gene-
máximos locales. con esta regla, Greenwood y Zhu rados nada más, y los padres nunca sobreviven.
(2001) demostraron un teorema de convergencia al ¿ Cuáles padres se usan para generar los hijos?
óptimo global, con probabilidad uno, para una cla- No se toma los padres más aptos, como es usual en
se de funciones objetivas generales. los algoritmos genéticos, sino se escogen de manera
Adaptación aleatoria de los parámetros de la aleatoria de la población de individuos.
mutación Además, con múltiples padres se puede intro-
En lugar de utilizar una regla determinista pa- ducir un nuevo operador llamado recombinación
ra la auto-adaptación de los parámetros de muta- o cruzamiento. Dos maneras comunes de hacerlo

23
son: Cada una de estas técnicas tiene sus particularida-
Sean (x 1, . . . , x n ), (y 1, . . . , y n ) dos individuos y des, especialmente en lo que concierne a sus pa-
formar un nuevo individuo (z 1, . . . , z n ) según: rámetros de sintonización así como sus principa-
les operadores. Las EE fueron propuestas por estu-
1. recombinación discreta: cada zi es x i o yi .
diantes de doctorado de la Universidad Técnica de
(xi + yi )
2. recombinación intermedia: zi = . Berlín; este método no fue originalmente planeado
2
para optimizar funciones en general, sino más bien
Nota: un individuo puede incluir parámetros tam-
como una base de reglas para resolver un proble-
bién.
ma combinatorio de diseño de boquillas, y original-
mente se nombró recorrido de solución cibernético
Algoritmos evolutivos: un enfoque prácti- −cybernetic solution path−.
co - Araujo y Cervigón (2009) La primer versión de EE se nombró (1 + 1)−EE,

En los años 60 aparecieron las estrategias evolu- donde cada generación del algoritmo, por cada pa-
tivas, desarrolladas por Rechenberg y Schwefel co- dre en la población se generaba un descendiente.
mo un método de resolución de problemas de opti- Debido a esta característica, esta versión se estacio-
mización e ingeniería. naba fácilmente en óptimos locales, por lo que los

En este tipo de estrategias se utilizan los siguien- primeros años después de su creación se dedica-
tes parámetros: ron a mejorar la estrategia para obtener a los des-
cendientes entre generaciones. Posteriormente se
• µ : tamaño de la población inicial.
desarrollaron tres versiones más: (µ + 1)−EE, (µ +

• λ: tamaño de la población descendiente. λ)−EE, y (µ, λ)−EE. En el algoritmo (µ + 1)−EE se


tomaban dos padres de manera aleatoria de entre
• ρ: número de padres (1 ≤ ρ ≤ µ ). una población de individuos, y se generaba un só-
lo descendiente; en los casos segundo y tercero, de
Cada individuo de la población se define por el
igual manera se tomaban al azar dos individuos pa-
par (x , σ) donde x es un punto en el espacio < de-
dre de la población y se generaban λ ≥ 1 hijos, so-
finido por (x 1, x 2, . . . , x n ) y σ es un vector de desvia-
lamente en el caso (µ + λ)−EE los hijos competían
ciones definido como (σ1, σ2, . . . , σn ).
con los padres para sobrevivir a la siguiente genera-
ción, mientras que en la versión (µ, λ)−EE los hijos
Optimización Algoritmos programados
generados sustituían a los padres en la siguiente ge-
con MATLAB - Cuevas-Jiménez
neración. Es importante señalar que, en la versión
et al. (2016) coma, se debe de cumplir que λ ≥ µ .

El primer grupo de algoritmos metaheurísticos En las EE, como en la mayoría de los algoritmos
está conformado por los Algoritmos Genéticos, la metaheurísticos, el rendimiento depende del ajus-
Programación Evolutiva, las Estrategias Evolutivas, te de los parámetros y, en este caso, de la evolu-
y más recientemente, la Programación Genética. ción de estos. Otro factor importante es que la mu-

24
tación es el operador primario en este algoritmo, a res de valores numéricos reales, por lo que la inicia-
diferencia de los AG, donde es secundario. No obs- lización se hacía de manera sencilla mediante la se-
tante lo anterior, los operadores involucrados en es- lección uniforme de valores dentro del espacio de
ta técnica están inspirados básicamente en la mis- búsqueda de las variables de decisión:
ma analogía que los AG: la teoría de la evolución
x i , n = ln + r and (·)∗ (u n − ln ) (68)
de las especies. En este sentido, tales operadores
son selección, mutación, recombinación y elitis- Donde i = 1, . . . , µ y n = 1, . . . , d , µ es el tamaño
mo. Aunque similares en los nombres de los ope- de la población, d representa el número de dimen-
radores, existen diferencias sustanciales de las Es- siones de la solución candidata, y l , u son las llama-
trategias Evolutivas y el resto de los algoritmos ins- das restricciones de caja, o los límites del espacio
pirados en la evolución; por ejemplo, aunque la co- de búsqueda. Esta forma de inicializar a los indivi-
dificación de los individuos puede ser binaria, tam- duos se utiliza en la actualidad en distintos algorit-
bién puede suceder el caso de que estén codifica- mos evolutivos, debido principalmente a su facili-
dos como números reales, enteros, permutaciones, dad de implementación.
e incluso pueden ser combinaciones de estos tipos.
Aunado a lo anterior, en las EE algunos parámetros Recombinación
son fijos durante la evolución del algoritmo (pará-
Existen siete tipos de recombinación tanto se-
metros exógenos), mientras que otros parámetros
xual como asexual en las EE, y en cada tipo pueden
están codificados dentro del mismo individuo (pa-
participar desde uno hasta el total de padres de la
rámetros endógenos), y por lo tanto evolucionan de
población µ ):
manera acorde con cada uno de los individuos, por
lo que no es necesaria una sintonización previa de 1. Sin recombinación
ellos.
2. Discreta
Las EE son una técnica muy flexible que se ha
aplicado con éxito a problemas de optimización 3. Panmítica discreta
con restricciones, para determinar los parámetros
4. Intermedia
de una máquina de vector soporte, entre otros.
Las EE son algoritmos inspirados en la evolu- 5. Panmítica intermedia
ción y al igual que otros basados en tal metáfora,
6. Intermedia generalizada
sus individuos realizarán una evolución, o mejora,
con respecto a alguna función objetivo y mediante 7. Panmítica intermedia generalizada
operadores que imitan dicho proceso.
Sin recombinación
Este tipo de recombinación solamente conside-
Inicialización
ra un padre para generar a cada uno de los descen-
En este algoritmo la representación de los indi- dientes de cada iteración. Por cada uno de los des-
viduos que se propuso inicialmente fue con vecto- cendientes se obtiene un número aleatorio entero

25
r 1i ∈ 1, . . . , µ que se utilizan como índice para se- i = 1, . . . , λ

leccionar al padre a ser clonado. Se denomina clo-


Este tipo de recombinación es determinista en
nación ya que no existe intercambio de material ge-
cuanto a la modificación de los genes, ya que todos
nético entre padres.
se modifican de acuerdo con esta ecuación.
x i = xr 1i (69) Panmítica intermedia
La recombinación panmítica intermedia es muy
i = 1, . . . , λ
parecida a la intermedia simple, solamente que, co-
Discreta
mo en el caso de la panmítica discreta, se toman
Para generar a cada descendiente se generan dos
n + 1 individuos padre para crear al descendiente:
números aleatorios enteros r 1i , r 2i ∈ 1, . . . , µ para 
xr 2n − xr 1i
seleccionar a los padres, y el hijo se formará por ele- x i = xr 1i + (73)
2
mentos de éstos, utilizando la siguiente ecuación:
i = 1, . . . , λ, n = 1, . . . , d
x i = xr 1i || xr 2i (70)
Intermedia generalizada
i = 1, . . . , λ
Este tipo de recombinación considera que la di-
En este caso, por cada una de las dimensiones, se ferencia entre los vectores padre será pesada por un
toman elementos de uno o del otro padre ||, hasta factor aleatorio uniformemente distribuido χ, que
completar el descendiente. se aplicará por igual a cada uno de los elementos
Panmítica discreta que conforman a los padres. La siguiente ecuación
Se genera un número aleatorio r 1i ∈ 1, . . . , µ pa- muestra este tipo de recombinación:
ra seleccionar al primer padre de la recombinación,
x i = xr 1i + χ xr 2i − xr 1i (74)

el cual será fijo para el hijo i ; también se generan n
números enteros aleatorios r 2i n ∈ 1, . . . , µ , quienes
i = 1, . . . , λ
serán los posibles segundos padres que darán for-
ma al hijo. La siguiente ecuación muestra esta re- A diferencia de los tipos anteriores, donde el factor
combinación que multiplica a la diferencia de los padres es fija,

x i = xr 1i || xr 2i (71) en esta recombinación tal factor es aleatorio.


Panmítica generalizada intermedia
i = 1, . . . , λ, n = 1, . . . , d
En el último tipo de recombinación tenemos bá-
Intermedia
sicamente a la intermedia generalizada, con la va-
Similar al caso de la discreta, en este tipo de re-
riante que se toman n + 1 padres aleatoriamente de
combinación también se obtienen dos padres de la
la población, considerando a los padres xr 2i , xr 1i , y
población de forma aleatoria a través de los índices
además se generan n valores de χ:
r 1i , r 2i ∈ 1, . . . , µ ; dichos padres mezclan sus genes
x i = xr 1i + χn xr 2i n − xr 1i (75)

mediante la siguiente ecuación:

xr 2i − xr 1i
x i = xr 1i + (72) i = 1, . . . , λ, n = 1, . . . , d
2

26
Mutación ción del algoritmo. En las EE, el operador de selec-
ción se aplica sobre poblaciones completas, tal co-
El operador de mutación es el más importante
mo ocurre en otros algoritmos evolutivos, tomando
en las EE, debido a que es un operador primario.
como consideración el valor de la función objetivo
Este operador se aplica de manera secuencial, te-
de los individuos contenidos en la población inter-
niendo en cuenta que i = 1, . . . , λ. En el algoritmo,
media.
primero se realiza una mutación con una desvia-
En la versión (µ +λ)−EE es posible el elitismo, de-
ción estándar original, que representa el tamaño de
bido a que siempre se mantiene al mejor individuo
paso, considerando a una distribución logarítmica
de cada generación.
norma.
σi , n = σi , n · e τ si +τsi n
0
(76)

i = 1, . . . , λ, n = 1, . . . , n
A Brief Introduction to Conti-

Y donde si y si n son números aleatorios normalmen- nuous Evolutionary Optimization


te distribuidos con media cero y desviación están-
- Kramer (2014)
dar unitaria, aunque si se genera una sola vez para
el individuo actual, mientras que si n corresponde a Muchos problemas del mundo real son multi-
una matriz d × d . Además, se consideran los valores: modales, lo que hace que un problema de optimiza-
1 1
τ0 = √ , τ = q . ción sea difícil de resolver. Los métodos de búsque-
2d √
2 d
da local, es decir, los métodos que mejoran con avi-
dez las soluciones basadas en la búsqueda en el en-
Selección de la población
torno de una solución, a menudo solo encuentran
Los signos ‘+’ y ‘, ’ en las EE indican que el ti- un óptimo local arbitrario que no se garantiza que
po de selección de los individuos que sobrevivirán sea el global. Los métodos más exitosos en la opti-
a la siguiente generación. En el caso de la versión mización global se basan en componentes estocás-
más existe una población original de µ padres de ticos, ya que permiten escapar de los óptimos loca-
los cuales se generan λ descendientes, se conforma les y superar el estancamiento prematuro. Una fa-
una población intermedia, y finalmente se seleccio- mosa clase de métodos de optimización global son
nan de esta los µ individuos con los mejores valores las estrategias de evolución que son exitosas en es-
de la función objetivo para sustituir a los padres ori- pacios de soluciones de valor real. Las estrategias de
ginales. evolución pertenecen a los métodos evolutivos más
La versión coma utiliza la población original de famosos para la optimización de caja negra, es de-
µ padres para generar λ descendientes, igual que cir, para escenarios de optimización, donde no se
en la anterior selección; sin embargo, la población dan explícitamente expresiones funcionales y no se
intermedia se forma a partir de tomar los µ mejo- pueden calcular derivados. En el curso de este tra-
res individuos de la población de hijos, descartando bajo, las estrategias de evolución jugarán un papel
completamente a los padres para la siguiente itera- importante. Están orientados al principio biológico

27
de la evolución [1] y pueden servir como un exce- optimización general, los métodos evolutivos son
lente punto de partida para los métodos de apren- una buena opción. Los algoritmos evolutivos (EA)
dizaje y optimización. Se basan en tres mecanismos pertenecen a la clase de métodos de optimización
principales que se traducen en operadores evoluti- estocástica libres de derivadas. Su motivación bio-
vos: lógica los ha hecho muy populares. Después de dé-
cadas de investigación, una larga historia de apli-
• recombinación
caciones e investigaciones teóricas han demostra-
• mutación, y do su éxito. En Alemania, la historia de la compu-

• selección tación evolutiva comenzó con estrategias de evolu-


ción, desarrolladas por Rechenberg y Schwefel en
Primero, definimos formalmente un problema de
los años sesenta y setenta del último siglo en Berlín
optimización. Se tiene que f : S → R sea La fun-
[3–5]. Al mismo tiempo, John Holland introdujo el
ción de aptitud debe minimizarse en el espacio de
concepto de cálculo evolutivo en los Estados Uni-
soluciones S . Los problemas que consideramos en
dos conocido como algoritmos genéticos [6]. Hoy
este trabajo son problemas de minimización a me-
en día, los operadores de mutación avanzados, los
nos que se indique explícitamente. Alta aptitud sig-
mecanismos de tamaño de paso y los métodos para
nifica bajos valores de aptitud. La tarea es encontrar
adaptar la matriz de covarianza como el CMA-ES [7]
un elemento x∗ ∈ S tal que f (x∗ ) ≤ f (x) para to-
los han convertido en uno de los optimizadores más
do x ∈ S . Una propiedad deseable de un método de
exitosos en la optimización global sin derivadas.
optimización es encontrar el x∗ óptimo con f ∗ den-
La búsqueda evolutiva está basada en un con-
tro de un número finito y preferiblemente bajo nú-
junto de padres P = x1, . . . , xµ y un conjunto de

mero de evaluaciones de función. En la mayoría de
soluciones hijos P 0 = {x1, . . . , xλ }, también llama-
las partes de este trabajo, consideramos problemas
dos individuos. Los individuos son sujetos a cam-
de optimización continua, es decir, el espacio de la
bios aleatorios de manera iterativa y con una selec-
solución S = RN . El problema f puede ser un pro-
ción del la mejor solución. el proceso de optimiza-
blema de optimización combinatorio, es decir, un
ción consiste en tres pasos principales:
sistema de ingeniería civil como una simulación o
• El operador de recombinación selecciona ρ
un modelo matemático.
padres y combina sus partes para obtener
Si hay derivadas disponibles, los métodos y va-
nuevas soluciones λ.
riantes de Newton son elecciones algorítmicas re-
comendables. De esta clase de métodos, el algorit- • El operador de mutación agrega cambios
mo de Broyden-Fletcher-Goldfarb-Shanno (BFGS) aleatorios (es decir, ruido) para la solución
pertenece a las técnicas más modernas [2]. Este tra- candidata. La calidad de los individuos al mo-
bajo se concentra en problemas de optimización de mento de resolver el problema de optimiza-
caja negra. En la optimización de la caja negra, el ción es llamada aptitud. La aptitud de la nue-
problema no tiene que cumplir ninguna suposición va solución del descendiente es evaluada con
o propiedades limitantes. Para tales escenarios de una función de aptitud. Todos los individuos

28
de una generación son agregadas a la pobla- • Los µ individuos son seleccionados y consti-
ción de los descendientes P 0 tuyen la nueva población de padres P de la si-
guiente generación.

29