Documente Academic
Documente Profesional
Documente Cultură
dos por el paradigma Darwiniano de la evolución. Aunque estas clases fueron fáciles de distinguir
El principio de variación y selección puede consi- unas de otras en la fase inicial, hoy en día es difí-
derarse como el principio fundamental de la evolu- cil crear conjuntos disyuntivos. Solo hoy es posible
ción Darwiniana. Este principio, combinado con el una diferenciación, el límite del PE: por lo general,
cambio de la generación (reproducción), construye la recombinación no se utiliza en absoluto en los al-
los componentes fundamentales del ciclo evoluti- goritmos de PE contemporáneos (Fogel y Stayton,
vo. 1994); La mutación es, por consiguiente, el opera-
A un nivel muy abstracto, la evolución puede dor de búsqueda decisivo. Por otro lado, algunos de-
considerarse como un proceso de selección de es- fensores de los AG consideran al operador de muta-
tructuras o estados (Beyer, 1989a), donde la selec- ción solo como un operador de fondo; sin embargo,
ción está determinada por las propiedades de ap- el número de estos adherentes parece ser de ten-
titud física de las estructuras. Las estructuras que dencia decreciente.
podrán sobrevivir, es decir, que se reproduzcan a sí Las EE tiene una posición intermedia. Por lo ge-
mismas, ya sea que aparezca una estructura estable neral, la mutación y la recombinación tienen la mis-
(estado estacionario) o que se produzcan caracte- ma importancia, en la medida en que se conside-
rísticas periódicas / caóticas, se dejan abiertas en el ra la optimización de parámetros de valor real, y se
marco de esta caracterización. Sin embargo, la evo- aplican a todos los individuos de forma predetermi-
lución darwiniana a menudo se considera análoga a nada. Las diferencias más importantes entre las va-
la optimización, y los algoritmos inspirados en ella riantes de EE y de AGs (como se describe en Gold-
se aplican casi exclusivamente para la optimización berg, 1989) son el método de selección, y si los pará-
de las funciones de acondicionamiento físico. metros estratégicos sensibles se ajustan (durante la
Incluso cuando se aplican los AE como un mé- evolución) o no (es decir, la tasa de mutación cons-
todo de optimización, el principio Darwiniano no tante en AGs versus autoadaptación de la fuerza de
garantiza una optimización exitosa en absoluto. mutación en la EE). El énfasis del uso de cadenas
Hay diferentes clases de AE o escuelas. Si solo de bits en los algoritmos genéticos es comparativa-
se consideran los métodos de optimización, existen mente poco importante. Además, la diferenciación
tres clases principales establecidas de AE: con respecto a la selección ya no es válida para mu-
chas variantes modernas de GA: mientras tanto, la
• Estrategias Evolutivas (EE) (Rechenberg, 1973,
selección (µ, λ) y (µ + λ) también existen en la clase
Schwefel, 1995),
de AG en una forma similar, aunque bajo el nombre
• Algoritmos Genéticos (AG) (Holland, 1975, de selección de truncamiento o selección elitista. Y la
1
auto-adaptación se experimenta también con algo- pende del problema de optimización. No hay res-
ritmos genéticos. tricciones a la aplicabilidad del algoritmo de EE, es
La existencia de diferentes clases de AE con di- decir, todas las alternativas yi ∈ R, o yi ∈ N, o yi ∈ B
ferente énfasis del papel de los operadores genéti- son permitidas, además, se pueden realizar varian-
cos (esencialmente: selección, reproducción, muta- tes mixtas, así como estructuras de datos más com-
ción y recombinación) definitivamente no es solo plejas. Una concretización es necesaria primero en
una cuestión de marcado o separación de los pro- las investigaciones teóricas, especialmente para el
tagonistas. La razón principal puede ser la falta de cálculo de las tasas de progreso.
una teoría unificadora. Dicha teoría debería carac- La EE, inventadas por Rechenberg, Schwefel y
terizar el efecto de los operadores y permitiría una Bienert a mediados de la década de 1960 (Rechen-
comparación objetiva entre las diferentes combina- berg, 1965, 1973; Schwefel, 1974), opera con pobla-
ciones de operadores en cuanto a su poder de opti- ciones B de tamaño (µ /ρ+, λ). En esta notación, µ re-
mización. La deficiencia es especialmente evidente presenta el número de individuos padres y λ el nú-
en la clase AG. Solo en los últimos años, se ha ob- mero de descendientes. Un individuo consiste en
servado un cambio desde el teorema del esquema un conjunto de parámetros de objeto y , parámetros
como la teoría dominante a enfoques alternativos. de estrategia endógenos (es decir, evolutivos) s , y de
La historia de la AG se gobernó más a través del su función de aptitud F (y )
pragmatismo puro, y su teoría persistió en el teo-
a B (y , s , F (y )). (3)
rema del esquema durante mucho tiempo. En con-
traste, la historia de ES contenía desde el principio
El conjunto de parámetros de estrategia endóge-
el esfuerzo por comprender los algoritmos teórica-
nos s , s ∈ S sirven para la autoadaptación del algo-
mente, es decir, estimar el rendimiento de un ope-
ritmo de EE, una especialidad de las EE y la PE. No
rador genético con respecto a su rendimiento de
participa en el cálculo de la aptitud del individuo;
optimización.
sin embargo, se pasa a la descendencia en función
El Algoritmo (µ /ρ+, λ)−
λ)−EE
del valor físico del individuo. El estado de un indi-
Considera un problema de optimización para la
viduo a está definido por la tupla de tres (y , s , F (y ))
función aptitud F (y ), F ∈ F ,
completamente. El total de estos elementos com-
F (y ) → Opt. (1) pone el espacio de estados A,
2
evolucionar usando un algoritmo Meta-EE. Las po- dencia λ, que forman juntos la población de des-
(g )
blaciones de los padres y de descendientes en un cendientes B̃
Bλ .
(g ) (g )
tiempo g se representan como Bµ y Bλ , respec-
tivamente
Los operadores genéticos de las EE
(g )
( (g ) ) (g ) (g )
Bµ B am = a 1 , . . . , a µ
(5)
(g )
( (g ) ) (g ) (g )
Bλ B al = a1 , . . . , a λ
Los operadores genéticos son la carne(?) de cada
Adicionalmente a los parámetros de estrategia
AE. Además de la elección de la estructura adecuada
exógenos µ y λ, el parámetro exógeno λ aparece en
de datos específicos del problema, los operadores
la notación (µ /ρ+, λ). Este parámetro determina el
determinan esencialmente el rendimiento del AE.
número de padres el cual toma parte de la procrea-
El desarrollo de tales operadores es ciertamente un
ción de un individuo (número de apareamiento de
tipo de arte, y parece ser difícil dar reglas de diseño
grupo, número de mezcla), donde 1 ≤ ρ ≤ µ . Los
generales. La heurística domina el campo de la in-
padres son casados por el operador de reproduc-
vestigación; en la mayoría de los casos falta un fon-
ción a través de una selección aleatoria y forman el
do satisfactorio. Especialmente en el dominio de los
conjunto de la familia padre, el cual es una ρ-tupla
AG, esto condujo a un crecimiento salvaje de ope-
E, y que consta de ρ miembros cada uno
radores genéticos. Afortunadamente, esta inflación
E B a m 1 , a m 2 , . . . , a mr , . . . , a m ρ . (6) está limitada en el dominio de las EE. Sin embar-
3
Noisy Optimization with Evolution Stra- nes candidatas con la mayor rapidez y el menor es-
tegies - Arnold (2002) fuerzo posible. El esfuerzo involucrado en una bús-
queda generalmente se cuantifica por el número
La optimización es una rama de las ciencias
de evaluaciones de funciones objetivas realizadas.
computacionales que se ocupa de determinar solu-
Las estrategias de búsqueda local pueden evaluar-
ciones óptimas para ciertos problemas matemáti-
se cuantitativamente y pueden compararse en fun-
cos. Con frecuencia, tales problemas matemáticos
ciones objetivas específicas considerando tasas de
surgen como modelos de la realidad física en to-
mejora de los valores de la función objetiva a lo lar-
das las áreas de las ciencias naturales, en ingenie-
go del tiempo.
ría, economía y administración. Resolver un proble-
El ruido es un factor común en la mayoría de los
ma de optimización es encontrar una combinación
problemas de optimización del mundo real. En par-
de valores de parámetros que optimice una canti-
ticular, la evaluación del valor de la función objetivo
dad dada, posiblemente sujeta a restricciones en los
de una solución candidata puede estar sujeta a per-
rangos de parámetros permitidos. La cantidad que
turbaciones. Nos referimos a una función objetivo
se optimiza se conoce como unión de objetivos, las
en combinación con un modelo de ruido como en-
limitaciones en los rangos de parámetros permiti-
torno de testigo. Las fuentes de ruido incluyen, por
dos se conocen comúnmente como restricciones.
nombrar solo unas pocas, las limitaciones físicas de
Para muchos problemas de optimización, es im-
la medición, los modelos de simulación estocásti-
posible encontrar un optimizador global, es decir,
ca, el muestreo incompleto de espacios grandes y
una combinación de valores de parámetros que sa-
la interacción hombre-computadora. Si bien pue-
tisfaga todas las restricciones y que tenga la pro-
de mejorar las propiedades de convergencia global
piedad de que no existe una mejor combinación de
de algunos algoritmos en entornos multimodales,
valores de parámetros que satisfaga todas las res-
el ruido suele ser perjudicial para el rendimiento lo-
tricciones. Con frecuencia, las mejores estrategias
cal de las estrategias de búsqueda. Puede conducir a
de búsqueda local son aquellas que intentan mejo-
la sustitución de soluciones candidatas por solucio-
rar de forma iterativa la calidad de las combinacio-
nes inferiores, o al rechazo de soluciones candida-
nes de valores de parámetros a las que nos referi-
tas superiores basadas en comparaciones de valo-
mos como soluciones candidatas. La calidad de una
res de funciones objetivas ruidosas. Las cantidades
solución candidata está determinada directamen-
excesivas de ruido pueden dar lugar a divergencias
te por la función objetivo del problema en cues-
de estrategias de búsqueda incluso en las funciones
tión. Las estrategias de búsqueda local utilizan in-
objetivas más simples.
formación sobre la función objetivo solo desde den-
tro de un vecindario de la ubicación actual en el es- Las aplicaciones industriales de los algoritmos
pacio de parámetros de la búsqueda. El objetivo no evolutivos se remontan al menos a la década de
es generar una secuencia de soluciones candidatas 1960, y las áreas de aplicación actuales incluyen la
que probablemente se conviertan en un optimiza- gestión, el control, el diseño, la programación, el re-
dor global, sino mejorar la calidad de las solucio- conocimiento de patrones y la toma de decisiones.
4
Una serie de conferencias internacionales y varias más allá de lo que se puede aprender de la mera ex-
revistas internacionales están dedicadas al campo perimentación.
de la computación evolutiva. En muchos casos, los Una estrategia de evolución aplicada a un pro-
algoritmos evolutivos han demostrado ser robustos blema de búsqueda forma un sistema iterado, esto-
y se emplean con frecuencia para resolver proble- cástico, no lineal y dinámico. Para estudiar la diná-
mas difíciles en los que los métodos tradicionales mica, se deben tener en cuenta los entornos especí-
son propensos a fallar, como los problemas de op- ficos de fitness. Excepto por problemas de búsque-
timización con funciones objetivas altamente dis- da muy simples, el análisis es prohibitivamente difí-
continuas o donde solo se dispone de datos no con- cil. Los entornos de acondicionamiento físico sim-
fiables. Las principales razones para el uso genera- ples pueden servir para resaltar las diferencias entre
lizado de los algoritmos evolutivos son su aplicabi- las variantes de la estrategia, pueden ayudar a desa-
lidad universal y la relativa facilidad con que se en- rrollar la intuición con respecto a los principios de
tiende e implementa el paradigma subyacente. trabajo de los operadores que emplea la estrategia y
pueden motivar la invención de nuevas herramien-
El tema de investigación del presente libro es el
tas para el análisis de los algoritmos que luego se
desempeño local de estrategias de evolución en es-
pueden usar en más Casos complejos. Si el propó-
pacios de búsqueda continua con mediciones de
sito del análisis es estudiar la influencia de paráme-
aptitud corrompidas por el ruido. Los problemas
tros como la dimensionalidad del espacio de bús-
que surgen en los espacios de búsqueda continua a
queda, el tamaño de la población o la intensidad del
veces son bastante diferentes de los encontrados en
ruido, la mayoría se puede aprender al considerar
los espacios de búsqueda discretos. El cálculo dife-
los entornos de acondicionamiento físico no trivia-
rencial y la teoría de orden estadística proporcionan
les más simples, ya que conducen a los resultados
herramientas matemáticas poderosas, y el trabajo
más transparentes.
de Rechenberg [66,67], Schwefel [76,77] y Beyer [27]
ha establecido un marco dentro del cual los análi- (µ /ρ+, λ)
λ)−EE básico
sis pueden proceder. El objetivo de dicha investiga- Los algoritmos evolutivos se esfuerzan por lle-
ción es determinar cómo el rendimiento de las es- var las poblaciones de soluciones candidatas a un
trategias de evolución se adapta a los parámetros problema de optimización hacia regiones cada vez
del problema, como la dimensionalidad del espacio mejores del espacio de búsqueda mediante la varia-
de búsqueda o la intensidad del ruido, y de la estra- ción y la selección. Una (µ /ρ+, λ)−EE opera con una
tegia de búsqueda, como el tamaño de la población población P de soluciones candidatas µ . El tiempo
o la potencia de mutación. Las leyes de escalamien- transcurre en pasos discretos y se indica con un su-
to permiten la comparación de diferentes variantes períndice (t ) cuando sea necesario. En cada paso t ,
de las estrategias, proporcionan pautas para ajustar un conjunto Q (t ) de λ soluciones candidatas es crea-
las estrategias de evolución para obtener el máximo do a partir de P (t ) por medio de los operadores va-
rendimiento y ofrecen perspectivas y una compren- riacionales de recombinación y mutación. El sím-
sión del comportamiento de las estrategias que va bolo ρ indica el número de soluciones candidatas
5
padre involucradas en la creación de cada solución La recombinación crea nuevos individuos, también
candidata descendiente. Las soluciones candidatas llamados descendientes, de la población de padres.
que forman la población P (t +1) de paso t + 1 son se- Los dos tipos principales de recombinación, la re-
leccionadas en base a su aptitud individual depen- combinación dominante y la intermedia, se distin-
diendo del tipo de selección, ya sea P (t ) ∪ Q (t ) o de guen típicamente: en la recombinación dominante,
Q (t ) . la descendencia hereda una propiedad de un pa-
dre, es decir, esta propiedad domina la propiedad
Contemporary Evolution Strategies - correspondiente de los otros individuos. Para la re-
Bäck (2013) combinación intermedia, se tienen en cuenta las
propiedades de todos los individuos, de modo que,
Optimización
por ejemplo, en el caso más simple, se utiliza su va-
Las estrategias de evolución son especialmente
lor medio.
adecuadas (y desarrolladas) para tareas de optimi-
El operador de mutación proporciona la princi-
zación no lineales, que se definen a continuación:
pal fuente de variación de la descendencia en una
f (x) = min! para x ∈ Rn donde (7) estrategia de evolución. En base al muestreo de va-
riables aleatorias, se modifican las propiedades de
g i (x) ≤ 0, i ∈ I = {1, . . . , m } , h j (x) = 0,
(8) los individuos. Luego se evalúa a los individuos re-
j ∈ J = {1, . . . , r } , cién creados, es decir, se calculan sus valores de ap-
y el conjunto titud física. Basándose en estos valores de aptitud
física, la selección identifica un subconjunto de in-
M = x ∈ Rn : g i (x) ≤ 0, ∀i ∈ I , h j (x) = 0, ∀j ∈ J
dividuos que forman la nueva población que se uti-
(9)
liza en la siguiente iteración del ciclo de evolución.
se denomina conjunto de puntos factibles y define
El ciclo se termina en función de un criterio de ter-
el espacio de búsqueda del problema de optimiza-
minación establecido por el usuario, como alcanzar
ción. Un punto x∗ ∈ Rn es llamado un mínimo glo-
un número máximo de evaluaciones, alcanzar un
bal, si
valor de aptitud objetivo o estancamiento del pro-
f ∗ = f (x ∗ ) ≤ f (x) para todo x ∈ M (10) ceso de búsqueda.
Según [58], las estrategias de evolución como
A la inversa, se llama un mínimo local si la desigual-
una instanciación específica de algoritmos evoluti-
dad anterior solo se mantiene para x dentro de un
vos se caracterizan por las siguientes cuatro propie-
-ambiente U(x ) ⊆ M .
dades:
Durante la inicialización, se crea la primera ge-
neración, que consta de uno o más individuos, y • La selección de individuos para la recombina-
se evalúa la aptitud física de sus individuos. Des- ción es imparcial.
pués de la inicialización, se ingresa al llamado bu-
• La selección es un proceso determinista.
cle de evolución, que consiste en la recombinación,
mutación, evaluación y selección de los operadores. • Los operadores de mutación están parametri-
6
zados y, por lo tanto, pueden cambiar sus pro- tiples óptimos locales. Tales problemas se denomi-
piedades durante la optimización. nan problemas de optimización multimodal y, por
lo general, son difíciles de resolver. Los métodos de
• Los individuos consisten en parámetros de
búsqueda local, es decir, los métodos que mejoran
decisión así como también en parámetros de
con avidez las soluciones basadas en la búsqueda
estrategia.
en la vecindad de una solución, a menudo solo en-
cuentran un óptimo local arbitrario que puede no
Machine Learning for Evolution Strate- ser el global. Los métodos más exitosos en la opti-
gies - Kramer (2016) mización global se basan en componentes estocás-
ticos, que permiten escapar de los óptimos locales y
Optimización
superar el estancamiento prematuro. Una clase fa-
La optimización es una clase de problema im-
mosa de métodos de optimización global es ES. Son
portante en ciencias de la computación que en-
excepcionalmente exitosos en espacios de solución
cuentra numerosas aplicaciones en dominios como
continua. Los ES pertenecen a los métodos evoluti-
la ingeniería eléctrica, la gestión de la información y
vos más famosos para la optimización de blackbox,
muchas más. Las variables de optimización pueden
es decir, para escenarios de optimización, donde no
ser numéricas, discretas o combinatorias.
se dan explícitamente expresiones funcionales y no
Muchos problemas del mundo real tienen múl-
se pueden calcular derivados. Los ES imitan el prin-
tiples óptimos locales. Tales problemas se denomi-
cipio biológico de la evolución [1] y pueden servir
nan problemas de optimización multimodal y, por
como una excelente introducción al aprendizaje y la
lo general, son difíciles de resolver. Los métodos de
optimización. Se basan en tres mecanismos princi-
búsqueda local, es decir, los métodos que mejoran
pales orientados al proceso de evolución darwinia-
con avidez las soluciones basadas en la búsqueda
na, que llevaron al desarrollo de todas las especies.
en la vecindad de una solución, a menudo solo en-
Los conceptos evolutivos se traducen en operado-
cuentran un óptimo local arbitrario que puede no
res algorítmicos, es decir, recombinación, mutación
ser el global. Los métodos más exitosos en la opti-
y selección.
mización global se basan en componentes estocás-
Primero, se define un problema de optimización
ticos, que permiten escapar de los óptimos locales y
formalmente. La función f : Rd → R es la función
superar el estancamiento prematuro. Una clase fa-
aptitud a ser minimizada en el espacio de solucio-
mosa de métodos de optimización global es ES. Son
nes Rd .
excepcionalmente exitosos en espacios de solución
continua. Los ES pertenecen a los métodos evoluti- Historia
vos más famosos para la optimización de blackbox, A principios de la década de 1950, surgió la idea
es decir, para escenarios de optimización, donde no de utilizar algoritmos para la resolución de proble-
se dan explícitamente expresiones funcionales y no mas orientados al concepto de evolución. En Ale-
se pueden calcular derivadas. mania, la historia de la computación evolutiva co-
Muchos problemas del mundo real tienen múl- menzó con ES, desarrollada por Rechenberg y Sch-
7
wefel en los años sesenta y setenta del último si- el Congreso sobre Computación Evolutiva (CEC) y
glo en Berlín [3–5]. Al mismo tiempo, Holanda in- EvoStar en Europa contribuyen a la comprensión
trodujo el concepto de cálculo evolutivo en los Es- y distribución de las EA como conceptos sólidos y
tados Unidos conocido como algoritmos genéticos métodos de búsqueda.
[6]. También Fogel introdujo la idea en ese momen- Relacionados con la búsqueda evolutiva están la
to y llamó a este enfoque programación evolutiva estimación de algoritmos de distribución (EDA) y
[7]. Durante aproximadamente 15 años, las disci- algoritmos de optimización de enjambre de partí-
plinas se desarrollaron independientemente unas culas (PSO). Ambos se basan en operadores aleato-
de otras antes de crecer juntas en los años ochen- rios como EA, mientras que los algoritmos de PSO
ta. Otra rama famosa de la computación evolutiva también están inspirados en la naturaleza. PSO mo-
se propuso en los años noventa del siglo pasado, es dela el vuelo de soluciones en el espacio de solucio-
decir, la programación genética (GP) [8]. GP es so- nes con velocidades, mientras se orienta a las me-
bre la evolución de los programas mediante la evo- jores posiciones de partículas. Todos los métodos
lución. Estos programas pueden basarse en nume- inspirados en la naturaleza pertenecen a la discipli-
rosos conceptos y lenguajes de programación, por na de la inteligencia computacional, que también
ejemplo, programas de ensamblador o estructuras comprende redes neuronales y lógica difusa. Las re-
de datos como árboles. Los operadores de progra- des neuronales están inspiradas en el procesamien-
mación genética están orientados a principios si- to neuronal natural, mientras que la lógica difusa es
milares como otros EA, pero adaptados a los pro- una lógica inspirada en la forma difusa del lenguaje
gramas en evolución. Por ejemplo, la recombina- y los conceptos humanos.
ción combina elementos de dos o más programas.
En las representaciones de árboles, se intercambian Multi-Objective Optimization using
subárboles. La mutación cambia un programa. En Evolutionary Algorithms - Deb (2001)
el código del ensamblador, se puede elegir un nuevo
Más o menos contemporáneo al desarrollo de
comando. En representaciones de árbol, se puede
Algoritmos Genéticos (AG), la investigación en un
generar un nuevo subárbol. La mutación también
campo muy similar a tales algoritmos estaba en
puede alargar o acortar los programas.
progreso en Alemania. Como resultado de este tra-
Los operadores de mutación avanzados, los me- bajo, P. Bienert, I. Rechenberg y H. P. Schwefel de la
canismos de tamaño de paso y los métodos para Universidad Técnica de Berlín sugirieron la llamada
adaptar la matriz de covarianza como el CMA-ES Estrategia Evolutiva (EE). Las primeras aplicaciones
[9] han hecho de ES uno de los optimizadores más de las EE fueron experimentales e intentaron resol-
exitosos en optimización continua sin derivados. ver la optimización de forma de una tubería dobla-
Para representaciones binarias, discretas y combi- da (Lichtfuss, 1965), la minimización de resistencia
natorias, se conocen otros conceptos. Las confe- al avance de placas unidas (Rechenberg, 1965), y la
rencias internacionales anuales como la Conferen- optimización de la forma de una boquilla destellan-
cia de Computación Genética y Evolutiva (GECCO), te (Schwefel, 1968), junto con otros problemas. Da-
8
do que la evaluación de una solución en cada uno 2. Crea una solución mutada:
de estos problemas fue difícil y llevó mucho tiem-
y = x + N(0, σ), (11)
po, se utilizó una simple EE de dos miembros en los
primeros estudios. Sin embargo, Schwefel fue el pri-
donde N(0, σ) es un vector de instancias
mero en simular una versión diferente de las EE en
creadas utilizando una distribución normal
una computadora en 1965. A partir de entonces, se
de media cero y con una desviación estándar
sugirieron EE de varios miembros, EE recombinan-
σ.
tes y EE autoadaptables. Sin embargo, el procedi-
3. Si f (y) < f (x), reemplaza a x con y.
miento inicial de las EE es fundamentalmente dife-
rente de los AG binarios principalmente de dos ma- 4. Si se satisface el criterio de terminación, para.
neras: De otra manera, ve al paso 2.
- las EE utilizan valores de parámetros reales, Aquí, todas las variables de decisión son muta-
das con una distribución normal teniendo la misma
- las primeras EE no usan ningún operador de fuerza de mutación (término usado para la desvia-
tipo cruce. ción estándar). Es intuitivo que el éxito de este algo-
ritmo en la búsqueda de una solución cercana a la
Sin embargo, un principio de funcionamiento de las verdadera solución óptima depende en gran medi-
EE es similar al de un AG de parámetro real utili- da del valor elegido de σ.
zado solo con operadores de selección y mutación. La fuerza de mutación óptima debe cambiar di-
Al darse cuenta de la similitud entre estos dos pro- námicamente, y debe ser inversamente proporcio-
cedimientos (aunque se practicaron en dos lugares nal al número de variables y, a medida que la solu-
geográficamente distantes), los estudios recientes ción se acerca más y más al óptimo, la fuerza de la
de las EE han introducido operadores de tipo cru- mutación debe reducirse proporcionalmente. Este
ce. fenómeno se explota en el desarrollo de las EE au-
Estrategias evolutivas no recombinantes toadaptables.
EE de dos miembros: (1+1)-EE Una mutación se define como exitosa si la des-
Este es el más simple de las estrategias evoluti- cendencia mutada es mejor que la solución origi-
vas. En cada iteración, un padre es usado ara crear nal. Si se observan muchas mutaciones exitosas, es-
un descendiente utilizando un operador de muta- to indica que las soluciones residen en una mejor
ción gaussiano. El procedimiento paso a paso es región en el espacio de búsqueda. Por lo tanto, es
mostrado a continuación. (El procedimiento se da hora de aumentar la fuerza de la mutación con la es-
para resolver problemas de minimización). peranza de encontrar mejores soluciones más cerca
9
cho mejores. Existen dos maneras de introducir algoritmo para encontrar el mejor descendiente. El
múltiples miembros en una estrategia evolutiva: procedimiento (µ, λ)-EE es no elitista.
EE Multimiembro: (µ + λ)-EE Una estrategia, donde se eligen algunas copias
1. Escoge una población inicial P de µ solucio- limitadas de las mejores soluciones padres y el res-
La única diferencia entre los dos tipos de algoritmos cada recombinación, o ρ = µ , el procedimien-
se encuentra en el paso 3. En lugar de combinar las to tiene una tendencia a agruparse alrededor
la selección, solo se utiliza la población descendien- mas donde una población se encuentra entre
te. Por lo tanto, la población modificada P antes de el verdadero óptimo, esta puede ser una bue-
P = ∪jλ=1 y (j )
( )
(14)
- Discreta: en esta recombinación, cada varia-
Esto requiere que λ ≥ µ . De esta manera, las ble de decisión se elige de uno de los ρ pa-
soluciones padre son ignoradas y el éxito del algo- dres al azar. Este operador es similar al pro-
ritmo (µ, λ)-EE dependerá de la habilidad de dicho cedimiento de cruce uniforme utilizado en los
10
algoritmos genéticos. Mediante este procedi- se han explorado con estrategias evolutivas (Bäck,
miento, se pueden obtener diferentes combi- 1992, 1997; Beyer, 1995a, 1995b; Hansen and Os-
naciones de variables de decisión de las solu- termeier, 1996; Rechenberg, 1973; Sarvanan et al.,
ciones existentes. El procedimiento paso a pa- 1995; Schwefel, 1987a) y también con programa-
so de todo el algoritmo es el siguiente: ción evolutiva (Fogel et al., 1995), aunque exis-
ten algunos estudios de autoadaptación en algorit-
EE recombinante: (µ /ρ + λ)-EE
mos genéticos con el operador de mutación (Bäck,
1. Escoge una población inicial P de µ solucio- 1992). Cuando se aplica a la optimización de fun-
nes x(i ), i = 1, 2, . . . , µ y un vector de fuerza de ciones, hay una serie de razones por las cuales los
mutación σ. algoritmos evolutivos deben prestar atención a la
3. Modifica la población de padres P combinan- Hay tres formas diferentes en que la autoadap-
do los padres y descendientes: tación se introduce en las EE:
11
optimizar la verdadera función objetivo en las EE decisión y fortalezas de mutación son las siguien-
de nivel inferior. El segundo método (AMC) registra tes:
(t +1)
= σi e (τ N (0, 1)+τNi (0, 1)),
(t ) 0
el historial de la población para un cierto número σi (20)
de iteraciones para calcular la información de cova- (t +1)
xi
(t )
= x i + σi
(t +1)
Ni (0, 1), (21)
rianza y varianza entre las variables objetivo. El es-
donde τ 0 ∝ (2n )−1/2 y τ ∝ (2n 1/2 )−1/2 . Debido a la
fuerzo de búsqueda posterior está influenciado por
falta de resultados teóricos sobre esta EE autoadap-
estos valores de varianza.
table, los coeficientes de progreso para la (µ, λ)-EE
Básicamente hay tres implementaciones dife-
o (µ /µ, λ)-EE se utilizan normalmente como cons-
rentes que están en uso.
tante de proporcionalidad para τ 0 y τ. Se pueden
Autoadaptación isotrópica (0)
elegir valores iniciales similares para σi , como se
En esta EE autoadaptativa, se usa una sola fuer-
discutió para las EE autoadaptativas isotrópicas.
za de mutación σ para todas las variables. Además,
Autoadaptación correlacionada
para las n variables objetivo, el parámetro de estra-
En la autoadaptación correlacionada, además
tegia σ también se usa en un miembro de la pobla- n
!
de n fuerzas de mutación, las covarianzas son
ción. Las reglas de actualización logarítmica para 2
incluidas en cada solución !individual. Por lo tan-
las variables de decisión y la fuerza de la mutación n
!
to, hay un total de + n parámetros de estra-
son las siguientes: 2
tegias exógenas que se actualizarán para cada solu-
σ (t +1) = σ (t )e τ0 N (0, 1), (18) ción. Por lo que, este tipo de EE autoadaptativa pue-
de adaptarse a problemas donde las variables de de-
(t +1)
= x i + σ (t +1) Ni (0, 1),
(t )
xi (19)
cisión (x) están correlacionadas.
donde N (0, 1) y Ni (0, 1) son realizaciones de una Schwefel (1981) sugirió que, en lugar de usar co-
variable aleatoria distribuida normalmente unidi- varianzas, se pueden reemplazar por un ángulo de
mensional con una media cero y una desviación rotación correspondiente a cada par de coordena-
estándar uno. El parámetro τ0 es el parámetro de das. En un problema correlacionado (donde las va-
aprendizaje que debe establecerse como t0 ∝ n −1/2 , riables de decisión interactúan no linealmente en-
donde n es la dimensión del vector de variables tre sí), la tarea es encontrar todas las rotaciones de
(Schwefel, 1987a). coordenadas por pares y la dispersión de soluciones
Autoadaptación no isotrópica en cada sistema de coordenadas rotado para que
Aquí, se usa una fuerza de mutación σi diferente la función objetivo esté completamente no corre-
para cada variable. Por lo tanto, este tipo de EE auto- lacionada en el nuevo sistema de coordenadas. Por
adaptativa es capaz de aprender a adaptarse a pro- lo tanto, las reglas de actualización se sugieren para
blemas donde cada variable tiene una contribución n variables
! de decisión, n fuerzas de mutación σi y
n
desigual a la función objetivo. Además de n varia- ángulos de rotación α j :
2
bles objetivo, otros parámetros de estrategia se in- (t +1)
= σi e (τ N (0, 1)+τNi (0, 1)),
(t ) 0
σi (22)
cluyen en el vector de variable de decisión. Las re-
(t +1) (t )
glas de actualización logarítmica para variables de αj = α j + βα N j (0, 1), (23)
12
x(t +1) = x(t ) + N 0, C σ (t +1), α (t +1) ,
(24) Evolutiva (CE) es que los cambios debidos a la mu-
tación solo se aceptan en caso de éxito. En otras pa-
donde N 0, C σ (t +1), α (t +1) es un vector de mu-
labras, los individuos mutados solo se aceptan si la
tación correlacionado y distribuido normalmente
mutación resulta en una mejora de la forma física
con un vector de media cero y una matriz de co-
del individuo. También es interesante en las EE que
varianza C. El parámetro βα se fija como 0.0873 (o
la descendencia también se puede producir a partir
5◦ ) (Schwefel, 1987a). Siempre que un ángulo α j
de más de dos padres.
va fuera del rango [−π, π], está mapeado dentro del
(1+1)-EE
rango, es decir, si |α j | > π, α j = α j − 2π α j /|α j | .
Los parámetros τ 0, τ y σi
(0)
se establecen como an- El primer ES fue desarrollado para la optimiza-
tes. Los ángulos de rotación se inicializan en cero y ción experimental, aplicado a problemas hidrodi-
180 grados aleatoriamente. námicos (Rechenberg, 1965). Esta EE, denominada
(1 + 1)-EE, no hace uso de una población. Se usa un
solo individuo a partir del cual se produce una des-
Computational Intelligence: An
cendencia mediante la aplicación de un operador
introduction - Engelbrecht (2007) de mutación.
Rechenberg razonó que, dado que los procesos Las (1 + 1)-EE son unos de los primeros algorit-
biológicos han sido optimizados por la evolución, mos evolutivos que representa a un individuo co-
y la evolución es un proceso biológico en sí mismo, mo una tupla que consiste en el vector de decisión,
entonces debe ser el caso de que la evolución se op- x, que se optimizará y un vector de parámetros de
timice a sí misma (Rechenberg, 1994). Las Estrate- estrategia, σ. El vector del parámetro de estrate-
gias Evolutivas (EE), pilotadas por Rechenberg en gia representa el tamaño de paso de mutación para
la década de 1960 (Rechenberg, 1965, 1973) y más cada dimensión, que se adapta dinámicamente de
tarde exploradas por Schwefel (1975) se basan en acuerdo con el rendimiento.
el concepto de la evolución de la evolución. Mien- La representación individual es representada
tras que las EE consideran tanto la evolución geno- como una tupla:
típica como la fenotípica, el énfasis se pone en el
comportamiento fenotípico de los individuos. Ca- χ(t ) = (x(t ), σ(t )) (25)
da individuo está representado por sus bloques ge-
néticos y un conjunto de parámetros de estrategia De acuerdo con la observación biológica de que los
que modela el comportamiento de ese individuo en descendientes son similares a sus padres, y que las
su entorno. Por lo que la evolución consiste en la desviaciones más pequeñas de los padres ocurren
evolución de las características genéticas y los pa- con mayor frecuencia que las más grandes, los des-
rámetros de la estrategia, donde la evolución de las cendientes
características genéticas está controlada por los pa- χ 0(t ) = (x 0(t ), σ 0(t )) (26)
rámetros de la estrategia. Una diferencia adicional
entre las EE y otros paradigmas de la Computación son creados (muy similar a la Programación Evolu-
13
tiva Clásica (PEC)) agregando un ruido gaussiano: blación de µ > 1 padres. Dos padres son selecciona-
dos aleatoriamente y recombinados por cruce mul-
x j0 (t ) = x j (t ) + N j (0, σ j (t ))
tipunto discreta para producir una descendencia. Si
= x j (t ) + σ j (t )N j (0, 1) (27)
x1 (t ) y x2 (t ) indican a los dos padres, entonces
14
• Mutación: Los descendientes son mutados, donde xi ∈ Rnx representa el genotipo (el vector
donde los tamaños de paso mutación son de- de variables de decisión), y σi es el vector de pará-
terminados por parámetros de estrategia au- metros de la estrategia de desviación. Usualmente,
toadaptativa. σ ∈ Rn+x . Sin embargo las EE tienen que ser proba-
dos usando una desviación para todos los compo-
• Evaluación: Se usa una función de aptitud ab-
nentes del genotipo, es decir, σi j = σi , j = 1, . . . , nx ,
soluta para determinar la calidad de la solu-
en este caso σi ∈ R+ (Bäck, 1994,1996).
ción representada por el genotipo del indivi-
El uso de más parámetros estratégicos propor-
duo.
ciona más grados de libertad a los individuos para
• Selección: Los operadores de selección se uti-
ajustar su distribución de mutaciones en todas las
lizan para dos propósitos en una EE. En pri-
dimensiones.
mer lugar, para seleccionar a los padres pa-
Si las desviaciones se utilizan como los únicos
ra la recombinación, y en segundo lugar, pa-
parámetros de estrategia, las mejores direcciones
ra determinar qué individuos sobreviven a la
de búsqueda se determinan a lo largo de los ejes del
siguiente generación.
sistema de coordenadas en el que reside el espacio
Parámetros de estrategia y autoadaptación de búsqueda. No siempre es el caso que la mejor di-
Al igual que con la Programación Evolutiva (PE), rección de búsqueda (es decir, el gradiente) esté ali-
los parámetros de estrategia están asociados con neada con los ejes. En tales casos, se ha demostrado
cada individuo. Estos parámetros estratégicos se que la trayectoria de búsqueda fluctúa a lo largo del
autoadaptan para determinar la mejor dirección de gradiente, disminuyendo la tasa de progreso hacia
búsqueda y el tamaño de paso máximo por dimen- el óptimo (Bäck et al., 1991). Se necesita más infor-
sión. En esencia, los parámetros de la estrategia de- mación sobre la búsqueda para acelerar la conver-
finen la distribución de la mutación a partir de la gencia en tales casos. Se puede obtener más infor-
cual se muestrean los tamaños de pasos de muta- mación acerca de la función de aptitud, que define
ción. El objetivo principal de una estrategia de au- el espacio de búsqueda, mediante la matriz de Hes-
toadaptación es refinar la distribución de las mu- siana de la función de aptitud. Si se utiliza el Hes-
taciones de modo que se mantenga el progreso de siano como parámetro de estrategia, las mutacio-
búsqueda máximo. nes se realizan de la siguiente manera:
Tipos de parámetros de estrategia
En las primeras implementaciones de las EE se xi0(t ) = xi (t ) + N (0, H−1 ) (34)
15
Schwefel (1981) propuso que la matriz de cova- que es el producto de nx (nx − 1)/2 matrices de rota-
rianza, C−1 , descrita por los parámetros estratégicos ción. Cada matriz de rotación Rl j (ωi ) es una matriz
de desviación de los individuos, puede ser usada co- identidad con rll = cos(ωi k ) y rl j = −r jl = − sen(ωi k ),
mo información adicional para determinar los ta- con k = 1 ⇔ (l = 1, j = 2), k = 2 ⇔ (l = 1, j = 3), · · · .
maños de paso óptimo y las direcciones. En este ca- La matriz rotacional es usada por el operador de
so, mutación.
xi0(t ) = xi (t ) + N (0, C) (35) Variantes de los parámetros de estrategia
donde N (0, C) se refiere a un vector r distribuido Los dos tipos de parámetros de estrategia que se
normalmente con una esperanza 0 y densidad de han utilizado son la desviación estándar de los ta-
probabilidad (Bäck, 1991), maños de pasos de mutación y los ángulos de ro-
tación que representan las covarianzas de los ta-
det C − 1 rT Cr
fG (r) = e 2 (36)
(2π)xn maños de pasos de mutación. Estos parámetros es-
Los elementos de la diagonal de C−1 son las cova- tratégicos han dado lugar a una serie de variantes
rianzas, σ j2 , mientras que los elementos fuera de la de autoadaptación (Bäck, 1996; Hildebrand et al.,
diagonal son las covarianzas de los tamaños de paso 1999). Para la discusión a continuación, n σ es el nú-
de las mutaciones. mero de parámetros de desviación utilizados, y n ω
Las covarianzas están dadas por ángulos de ro- el número de ángulos de rotación. Se han usado los
tación que describen las rotaciones que deben de siguientes casos:
realizarse para transformar un vector de mutación • n σ = 1, n ω = 0. Esto quiere decir que solo es
no correlacionado en un vector correlacionado. Si usado un parámetro de desviación (σ j = σ ∈
ωi (t ) representa el vector de ángulos de rotación pa- R+, j = 1, . . . , nx ) para todos los componentes
ra los individuos i , entonces dichos individuos son del genotipo y sin ángulos de rotación. La dis-
representados como una terna, tribución de la mutación tiene una forma cir-
16
• n σ = nx , n ω = 0. Cada componente tiene su Lee et al. (1999) y Müller et al. (2002) propusie-
propio parámetro de desviación. La distribu- ron que el aprendizaje de refuerzo se use para adap-
ción de la mutación tiene una forma elíptica, tar los parámetros de la estrategia, de la siguiente
donde σ1 < σ2 . En este caso, el aumento del manera:
número de parámetros provoca un aumento
σi0j (t ) = σi j (t )e Θi (t )|τ N (0, 1)+τN (0, 1)|
0
(42)
lineal en la complejidad computacional, pero
los grados de libertad añadidos proporcionan donde Θi (t ) es la suma de las ganancias temporales
una mejor flexibilidad. Los diferentes gradien- durante las últimas nΘ generaciones para el indivi-
tes a lo largo de los ejes de coordenadas ahora duo i , es decir,
se pueden tener en consideración. nΘ
1 X
Θi (t ) = θi (t − t 0) (43)
Por lo tanto, los parámetros de estrategia son nθ
t 0 =0
ωi0k (t ) = ωi k (t ) + γN j (0, 1) mód 2π (41) • θi j (t ) = f (xi (t ))− f (xi (t −1)), con 0 < ∆t < t . Es-
te enfoque basa las recompensas en los cam-
donde γ ≈ 0.0873 (Bäck, 1996).
bios del comportamiento fenotípico, según lo
Agregar los ángulos de rotación mejora la fle-
cuantificado por la función de aptitud. Cuan-
xibilidad, pero a costa de un aumento cuadrá-
to más mejora un individuo su estado físico
tico en la complejidad computacional.
actual, mayor es la recompensa. Por otro lado,
• 1 < n σ < nx . Esta aproximación permite dife- cuanto peor se vuelve la aptitud del individuo,
rentes grados de libertad. Para toda j > n σ , se mayor es la penalización para ese individuo.
utiliza la desviación σnσ .
• θi j (t ) = sign( f (xi (t ))− f (xi (t −∆t ))). Este esque-
Estrategias autoadaptativas ma resulta en ganancias de +1, 0, −1.
17
• θi j (t ) = ||xi (t ) − xi (t − ∆t )||sign( f (xi (t )) − f (xi (t − Operador de selección
∆t ))). Aquí la ganancia (o penalización) es La selección es usada para dos tareas en las EE:
proporcional al tamaño del paso en el espacio 1. para seleccionar los padres que tomarán parte
de decisión (genotípico). en el proceso de recombinación.
i ∈Ωl (t )
das estrategias más) la EE genera λ descen-
, -
dientes a partir de µ padres, con 1 ≤ µ ≤ λ <
donde Ωl (t ) es el conjunto de indices de los ρ padres
∞. La siguiente generación consiste de los me-
de las descendencias xl0(t ), y la distribución de ξ es
jores individuos µ seleccionados de los padres
tal que prob(ξ = 0.4) = prob(ξ = −0.4) = 0.5.
e hijos. La estrategia (µ + λ)-EE implementa el
Kursawe (1995) usó un esquema de autoadap-
elitismo para asegurar que los padres más ap-
tación donde 1 ≤ n σ ≤ nx , y cada individuo usa
tos sobrevivan a la próxima generación.
un número diferente de parámetros de desviación,
n σ (t ). En cada generación, t , el número de pará- • (µ, λ)-EE: En este caso (también conocidas co-
metros de desviación puede incrementar o dismi- mo las estrategias coma), la siguiente genera-
nuir con una probabilidad de 0.05. Si el número de ción consiste en los mejores individuos µ se-
n σi (t − 1), entonces el nuevo parámetro de desvia- za el elitismo, por lo que este enfoque exhibe
i (t −1)
n σ,X más. La diversidad es, por lo tanto, más lar-
1
σi nσ, i (t ) (t ) = σi k (t ) (47) ga que las estrategias mencionadas anterior-
n σ, i (t − 1)
k =1
mente, lo cual resulta en una mejor explora-
Operadores de las estrategias evolutivas
ción. Las (µ, λ)-EE requieren que 1 ≤ µ < λ <
En las EE se utilizan tres operadores principales
∞.
de la computación evolutiva:
La mejor estrategia de selección para usar de-
1. Selección pende del problema que se está resolviendo. Los es-
pacios de búsqueda altamente intrincados necesi-
2. Cruce
tan más exploración, por lo cual, la (µ, λ)-EE es más
3. Mutación aplicable.
18
Debido a que la información sobre las caracte- Los operadores de cruce difieren en el número
rísticas del espacio de búsqueda generalmente no de padres usados para producir una sola descen-
está disponible, no es posible decir qué esquema dencia y en la manera en la que el material genéti-
de selección será más apropiado para una función co y los parámetros de estrategia de los padres son
arbitraria. Por este motivo, Huang y Chen (2000) combinados para formar la descendencia. En gene-
desarrollaron un controlador difuso para decidir la ral, la notación (µ /ρ+, ) es usada para indicar que los
cantidad de padres que podrían sobrevivir hasta la ρ padres son usados por aplicación del operador de
próxima generación. El controlador difuso recibe cruce. Basado en el valor de ρ, se pueden encontrar
medidas de diversidad de la población como insu- los siguientes dos enfoques:
mo e intenta equilibrar la exploración con la explo-
• cruce local (ρ = 2): donde un descendiente es
tación.
generado a partir de dos padres seleccionados
Runarsson y Yao (2002) desarrollaron un méto-
aleatoriamente.
do de selección continua para las EE, que es esen-
cialmente una versión continua de (µ, λ)-EE. La ba- • cruce global (2 < ρ ≤ µ ): donde dos o más
se de este método de selección es que la pobla- padres seleccionados aleatoriamente son usa-
después de cada generación. No hay selección de mayor es el valor de ρ, más diversa es la des-
una nueva población a intervalos generacionales cendencia generada en comparación con va-
discretos. La selección solo se usa para seleccionar lores ρ más pequeños. El cruce global con ρ
19
La notación (µ /ρI +, λ) es utilizada para indicar índice i2 es reemplazado con r j ∼ Ωl . Alter-
la recombinación intermedia. nativamente, el promedio de los padres pue-
de ser calculado a partir de los descendientes
En base a lo anterior, se han identificado cinco
(Beyer, 1995):
tipos principales de recombinación para las EE:
ρ ρ ρ
1X 1X 1X
• No recombinación: Si χi (t ) es el padre, el des- χ̃l (t ) = * xi (t ), σi (t ), ωi (t )+
ρ
, i =1 ρ i =1
ρ i =1
cendiente simplemente es χ̃l (t ) = χi (t ).
-
(53)
Izumi et al. (1997) propuso una recombina-
• Recombinación local y discreta:
ción aritmética entre el mejor individuo y el
χi1 j (t ) si U j (0, 1) ≤ 0.5
promedio sobre todos los padres:
χ̃l j (t ) = (48)
χi2 j (t ) de otra manera ρ
1 X
x̃l (t ) = r ŷ(t ) + (1 − r ) xi (t ) (54)
ρ i ∈Ω
El descendiente χ̃l (t ) = (x̃l (t ), σ̃l (t ), ω̃l (t )) he- l
20
ceso de selección, junto con los padres depen- Cauchy para producir las EE rápidas (Fast ES). Hu-
diendo de si es usada (µ + λ)-EE o (µ, λ)-EE. band et al. (2003) desarrollaron una mutación pro-
babilística como se usa en los Algoritmos Genéticos
En esta parte considera solo la mutación del ge-
y en la Programación Genética, donde cada compo-
notipo, ya que la mutación (autoadaptación) de los
nente del genotipo está mutado con una probabili-
parámetros de la estrategia se ha discutido anterior-
dad dada. Se propone que la probabilidad de mu-
mente.
tación sea 1/nx . Este enfoque impone un efecto de
Si solo se usan desviaciones como parámetros
suavizado en las trayectorias de búsqueda.
de estrategia, el genotipo, x̃l (t ), de cada descendien-
Hildebrand et al. (1999) propusieron una mu-
te, χ̃l (t ), l = 1, . . . , λ, es mutada:
tación dirigida, donde se puede dar preferencia a
• Si n σ = 1, ∆xl j (t ) = σl (t )N j (0, 1), las direcciones de coordenadas específicas. Este ti-
∀j = 1, . . . , nx . po de mutación da como resultado una distribución
de probabilidad de mutación asimétrica. Como ca-
• Si n σ = nx , ∆xl j (t ) = σl j (t )N j (0, 1),
da componente del genotipo está mutado indepen-
∀j = 1, . . . , nx . dientemente, es suficiente para definir una función
nx (nx −1)/2. Cada matriz de rotación, Rab (ω̃l (t )), tie- tan de 2nx parámetros de estrategia. Esto es compu-
ne una matriz identidad con cada elemento defini- tacionalmente más eficiente que usar un vector ro-
do como: r = cos(ω̃lk ) y r ab = −rba = − sen(ω̃lk ) para tacional nx (nx − 1), y proporciona más información
k = 1, . . . , nx (nx − 1)/2 y k = 1 ⇔ (a = 1, b = 2), k = sobre direcciones de búsqueda preferidas y tama-
21
son mutados usando desviaciones y correlaciones: ros reales. Se refiere al caso (µ + λ)-EE, cuando los
mutación. Para valores grandes de nm , la fuerza de brevivencia de los más aptos y, automáticamente,
mutación es pequeña, debido a que una gran mues- incorpora la idea de elitismo. También existe una
tra, variante, llamada (µ, λ)-EE, donde se crean λ hijos
ξ1, ξ2, . . . , ξnm , proporciona una aproximación cer- con mutación, y los µ mejores de ellos son escogi-
cana a la distribución original que una muestra más dos. Aquí, ningún padre sobrevive.
pequeña. Ostermeier y Hansen (1999) sugirieron Algoritmos (1+1)-EE
que nm = nx .
Al principio, las estrategias evolutivas se basaron
en (1 + 1)-EE, o sea, una población de un solo in-
Búsqueda y exploración estocástica - de dividuo que produce un hijo mediante el operador
los Cobos Silva et al. (2010) genético de mutación. La diferencia con los algorit-
mos genéticos, fue representar a un individuo como
Las estrategias evolutivas (EE) fueron desarro-
un vector de números reales, x en <n , donde el vec-
lladas en la década de 1960 en Alemania por Bie-
tor x representa una posible solución en el espacio
nert, Rechenberg, y Schwefel, para atacar el proble-
de búsqueda de la función de aptitud. La mutación
ma de encontrar la forma óptima de cuerpos suje-
se lleva a cabo reemplazando x por x + δ, donde δ
tos a viento, el cual es un problema de optimización
es un vector de números aleatorios de la distribu-
numérica. Las diferencias principales entre estrate-
ción normal o gaussiana, N (0, σi2 ), con media igual
gias evolutivas y algoritmos genéticos (AG) radican
a cero y desviaciones estándares σi , i = 1, . . . , n . Es-
en que las estrategias, directamente, usan vectores
ta convenció se dio debido a que una evolución na-
de números reales en lugar de cadenas binarias, e
tural ocurren más a menudo pequeños cambios en
incorporan los operadores de selección y mutación,
lugar de cambios drásticos. Se acepta el resultado
pero no cruzamiento.
de la mutación como un nuevo miembro de la po-
Algoritmos (µ + λ)-EE y (µ, λ)-EE
blación reemplazando a su padre siempre y cuando
Generalmente, una estrategia evolutiva empieza
tenga mejor aptitud que este, es decir, sea f la fun-
con µ > 0 “padres” en la población que inicialmente
ción objetivo, el hijo x + δ, reemplaza a su padre x si
están escogidos aleatoriamente. Aquí la terminolo-
f (x + δ) > f (x ). En otro caso, el hijo se elimina y la
gía usada es “padre” o “hijo”, en lugar de “cromoso-
población se mantiene sin cambios.
ma” para el caso de un AG. Otra vez, el padre o hijo
codifica una solución posible al problema de opti- Adaptación determinista de los parámetros
mización, generalmente como un vector de núme- Cuando se permite que la desviación estándar
22
cambie periódicamente en el algoritmo, es conoci- ción, se puede considerar a los parámetros como
do como auto-adaptación. Rechenberg propuso la parte de la representación y también codificarlos
siguiente regla heurística para modificar el valor de (Eiben y Smith, 2007). En este caso, la represen-
la desviación estándar, σ, conocida como “la regla tación tiene la forma (x 1, . . . , x n , σ1, . . . , σn ), donde
de éxito 1/5”, durante los algoritmos (1 + 1)-EE: en- (x 1, . . . , x n ) es un punto en el espacio de búsqueda, y
cuentra el porcentaje, p s , de mutaciones que tuvie- (σ1, . . . , σn ) son las desviaciones estándares inicia-
ron mayores aptitudes que sus padres (considera- les correspondientes a las mutaciones.
dos como exitosas) en alrededor de 10n experimen- En el caso más sencillo, donde cada parámetro
tos, donde n es la dimensión de x . Entonces, con de mutación tiene el mismo valor, σ, se obtiene el
c = 0.85, se modifica σ de la siguiente forma: hijo, (x 10 , . . . , x n0 , σ 0), del padre (x 1, . . . , x n , σ) de la si-
guiente forma:
σ = σ/c si p s > 1/5 (61)
σ = cσ si 1/20 ≤ p s < 1/5 (65) hijos puede ser mayor a 1. En la práctica, es común
tomar el valor de λ más grande que µ (frecuente-
σ = mı́n(2σ, D ) si p s < 1/20 (66)
mente λ = 7µ ). En el caso (µ + λ)-EE, se generan λ
σ=σ si p s = 1/5 (67)
hijos a partir de los µ padres, utilizando un operador
donde D es el diámetro del espacio de búsqueda. de mutación, y después se toma los µ mejores de to-
La modificación principal es cuando p s < 1/20, en dos para la siguiente generación. Para el algoritmo
este caso se aumenta σ, esto ayuda a escapar de (µ, λ)-EE, se toma los µ mejores de los λ hijos gene-
máximos locales. con esta regla, Greenwood y Zhu rados nada más, y los padres nunca sobreviven.
(2001) demostraron un teorema de convergencia al ¿ Cuáles padres se usan para generar los hijos?
óptimo global, con probabilidad uno, para una cla- No se toma los padres más aptos, como es usual en
se de funciones objetivas generales. los algoritmos genéticos, sino se escogen de manera
Adaptación aleatoria de los parámetros de la aleatoria de la población de individuos.
mutación Además, con múltiples padres se puede intro-
En lugar de utilizar una regla determinista pa- ducir un nuevo operador llamado recombinación
ra la auto-adaptación de los parámetros de muta- o cruzamiento. Dos maneras comunes de hacerlo
23
son: Cada una de estas técnicas tiene sus particularida-
Sean (x 1, . . . , x n ), (y 1, . . . , y n ) dos individuos y des, especialmente en lo que concierne a sus pa-
formar un nuevo individuo (z 1, . . . , z n ) según: rámetros de sintonización así como sus principa-
les operadores. Las EE fueron propuestas por estu-
1. recombinación discreta: cada zi es x i o yi .
diantes de doctorado de la Universidad Técnica de
(xi + yi )
2. recombinación intermedia: zi = . Berlín; este método no fue originalmente planeado
2
para optimizar funciones en general, sino más bien
Nota: un individuo puede incluir parámetros tam-
como una base de reglas para resolver un proble-
bién.
ma combinatorio de diseño de boquillas, y original-
mente se nombró recorrido de solución cibernético
Algoritmos evolutivos: un enfoque prácti- −cybernetic solution path−.
co - Araujo y Cervigón (2009) La primer versión de EE se nombró (1 + 1)−EE,
En los años 60 aparecieron las estrategias evolu- donde cada generación del algoritmo, por cada pa-
tivas, desarrolladas por Rechenberg y Schwefel co- dre en la población se generaba un descendiente.
mo un método de resolución de problemas de opti- Debido a esta característica, esta versión se estacio-
mización e ingeniería. naba fácilmente en óptimos locales, por lo que los
En este tipo de estrategias se utilizan los siguien- primeros años después de su creación se dedica-
tes parámetros: ron a mejorar la estrategia para obtener a los des-
cendientes entre generaciones. Posteriormente se
• µ : tamaño de la población inicial.
desarrollaron tres versiones más: (µ + 1)−EE, (µ +
El primer grupo de algoritmos metaheurísticos En las EE, como en la mayoría de los algoritmos
está conformado por los Algoritmos Genéticos, la metaheurísticos, el rendimiento depende del ajus-
Programación Evolutiva, las Estrategias Evolutivas, te de los parámetros y, en este caso, de la evolu-
y más recientemente, la Programación Genética. ción de estos. Otro factor importante es que la mu-
24
tación es el operador primario en este algoritmo, a res de valores numéricos reales, por lo que la inicia-
diferencia de los AG, donde es secundario. No obs- lización se hacía de manera sencilla mediante la se-
tante lo anterior, los operadores involucrados en es- lección uniforme de valores dentro del espacio de
ta técnica están inspirados básicamente en la mis- búsqueda de las variables de decisión:
ma analogía que los AG: la teoría de la evolución
x i , n = ln + r and (·)∗ (u n − ln ) (68)
de las especies. En este sentido, tales operadores
son selección, mutación, recombinación y elitis- Donde i = 1, . . . , µ y n = 1, . . . , d , µ es el tamaño
mo. Aunque similares en los nombres de los ope- de la población, d representa el número de dimen-
radores, existen diferencias sustanciales de las Es- siones de la solución candidata, y l , u son las llama-
trategias Evolutivas y el resto de los algoritmos ins- das restricciones de caja, o los límites del espacio
pirados en la evolución; por ejemplo, aunque la co- de búsqueda. Esta forma de inicializar a los indivi-
dificación de los individuos puede ser binaria, tam- duos se utiliza en la actualidad en distintos algorit-
bién puede suceder el caso de que estén codifica- mos evolutivos, debido principalmente a su facili-
dos como números reales, enteros, permutaciones, dad de implementación.
e incluso pueden ser combinaciones de estos tipos.
Aunado a lo anterior, en las EE algunos parámetros Recombinación
son fijos durante la evolución del algoritmo (pará-
Existen siete tipos de recombinación tanto se-
metros exógenos), mientras que otros parámetros
xual como asexual en las EE, y en cada tipo pueden
están codificados dentro del mismo individuo (pa-
participar desde uno hasta el total de padres de la
rámetros endógenos), y por lo tanto evolucionan de
población µ ):
manera acorde con cada uno de los individuos, por
lo que no es necesaria una sintonización previa de 1. Sin recombinación
ellos.
2. Discreta
Las EE son una técnica muy flexible que se ha
aplicado con éxito a problemas de optimización 3. Panmítica discreta
con restricciones, para determinar los parámetros
4. Intermedia
de una máquina de vector soporte, entre otros.
Las EE son algoritmos inspirados en la evolu- 5. Panmítica intermedia
ción y al igual que otros basados en tal metáfora,
6. Intermedia generalizada
sus individuos realizarán una evolución, o mejora,
con respecto a alguna función objetivo y mediante 7. Panmítica intermedia generalizada
operadores que imitan dicho proceso.
Sin recombinación
Este tipo de recombinación solamente conside-
Inicialización
ra un padre para generar a cada uno de los descen-
En este algoritmo la representación de los indi- dientes de cada iteración. Por cada uno de los des-
viduos que se propuso inicialmente fue con vecto- cendientes se obtiene un número aleatorio entero
25
r 1i ∈ 1, . . . , µ que se utilizan como índice para se- i = 1, . . . , λ
26
Mutación ción del algoritmo. En las EE, el operador de selec-
ción se aplica sobre poblaciones completas, tal co-
El operador de mutación es el más importante
mo ocurre en otros algoritmos evolutivos, tomando
en las EE, debido a que es un operador primario.
como consideración el valor de la función objetivo
Este operador se aplica de manera secuencial, te-
de los individuos contenidos en la población inter-
niendo en cuenta que i = 1, . . . , λ. En el algoritmo,
media.
primero se realiza una mutación con una desvia-
En la versión (µ +λ)−EE es posible el elitismo, de-
ción estándar original, que representa el tamaño de
bido a que siempre se mantiene al mejor individuo
paso, considerando a una distribución logarítmica
de cada generación.
norma.
σi , n = σi , n · e τ si +τsi n
0
(76)
i = 1, . . . , λ, n = 1, . . . , n
A Brief Introduction to Conti-
27
de la evolución [1] y pueden servir como un exce- optimización general, los métodos evolutivos son
lente punto de partida para los métodos de apren- una buena opción. Los algoritmos evolutivos (EA)
dizaje y optimización. Se basan en tres mecanismos pertenecen a la clase de métodos de optimización
principales que se traducen en operadores evoluti- estocástica libres de derivadas. Su motivación bio-
vos: lógica los ha hecho muy populares. Después de dé-
cadas de investigación, una larga historia de apli-
• recombinación
caciones e investigaciones teóricas han demostra-
• mutación, y do su éxito. En Alemania, la historia de la compu-
28
de una generación son agregadas a la pobla- • Los µ individuos son seleccionados y consti-
ción de los descendientes P 0 tuyen la nueva población de padres P de la si-
guiente generación.
29