Documente Academic
Documente Profesional
Documente Cultură
DESARROLLO DE PROPUESTA
DE ARQUITECTURA ABIERTA PARA LA GESTIN
DE CONFIGURACIN Y ADMINISTRACIN DE
RECURSOS EN CENTROS DE DATOS
2013
Universidad Politcnica de Madrid
Escuela Tcnica Superior de Ingenieros de Telecomunicacin
Mster Universitario en
Ingeniera de Redes y Servicios Telemticos
DESARROLLO DE PROPUESTA
DE ARQUITECTURA ABIERTA PARA LA GESTIN
DE CONFIGURACIN Y ADMINISTRACIN DE
RECURSOS EN CENTROS DE DATOS
Autor
Roberto Saavedra Neira
Director
Prof. David Fernndez Cambronero
2010
Resumen
Los centros de datos son una parte clave de la infraestructura sobre la que se
construyen gran variedad de servicios de tecnologa de la informacin. Como
los centros de datos siguen creciendo en tamao y complejidad, es conveniente
entender los aspectos de su diseo que son dignos de llevar adelante, as como
las deficiencias y los retos existentes o futuros que tendran que abordarse.
En los ltimos aos, las tecnologas y los mercados relacionados con los
centros de datos han sido objeto de rpidos cambios y crecimiento. Los centros
de datos estn jugando un papel importante en la implementacin de
Infraestructura TIC y en la promesa para convertirse en una plataforma comn
para casi todas las infraestructuras sociales. A pesar de que la investigacin se
han centrado en las tecnologas de redes, otros estudios son necesarios para el
desarrollo de centros de datos a gran escala, de alto rendimiento, rentable y
flexible. Para entender mejor estas tecnologas, examinamos los esfuerzos de
investigacin, desarrollo y recientes resultados, de acuerdo con la taxonoma de
un centro de datos.
i
Abstract
Data centers form a key part of the infrastructure upon which a variety of
information technology services are built. As data centers continue to grow in
size and complexity, it is desirable to understand aspects of their design that are
worthy of carrying forward, as well as existing or upcoming shortcomings and
challenges that would have to be addressed.
In recent years, technologies and markets related to data centers have been
rapidly changing and growing. Data centers are playing an important role in
ICT infraestructura deployment and promise to become common platforms for
almost all social infraestructures. Even though research have been focused on
networking technologies, various are needed to develop high-performance,
cost-efficient, and flexible large-scale data centers. To understand these
technologies better, we survey recent research and development efforts and
results in accordance with a data center network taxonomy.
In accordance with many changes, such as the number of users, the volumen
of analyzed / processed data, and the complexity of the provided service logic,
the role and configuration of data centers have changed drastically. They have
now become more open an based on commodity technologies, larger scale,
greener and more widely distributed to handle the mixture of huge number of
customers serviced.
iii
ndice
general
Resumen .................................................................................................................................. i
Siglas ...................................................................................................................................... ix
1 Introduccin......................................................................................................................1
v
7
Requisitos de la Gestin de Recursos en Centros de Datos .....................................50
Conclusiones .........................................................................................................................72
Bibliografa ............................................................................................................................73
vi
ndice
de
figuras
vii
Siglas
CLOS Network (Charles Clos) : Modelo de Red de Charles Clos basado en circuitos
ix
EC2 (Elastic Cloud 2) : Nube Elstica 2 de Amazon
x
NAND (Negated AND) : Compuerta Lgica de Negacin AND o Not AND
xi
SATA (Serial Advanced Technology Attachment) : Tecnologa Avanzada de Adicin
Serial
xii
VM (Virtual Machine) : Mquina Virtual
Zipf (George Kingsley Zipf Empirical Law) : Ley Emprica de Estadsticas Matemticas
de George Kingsley Zipf
xiii
1 Introduccin
1
centros de datos y las nuevas cuestiones planteadas por ellos. Las siguientes
secciones se discuten temas especficos en detalle, incluyendo almacenamiento,
redes, gestin de energa y problemas trmicos. Por ltimo, se propone una
arquitectura abierta para la gestin de la configuracin de elementos de red,
basada en software de cdigo abierto y se presenta una prueba de concepto. En
particular, se abordan las capacidades y caractersticas de la herramienta
OpenQRM, como plataforma de gestin que combina las funcionalidades
requeridas para la eficaz administracin y gestin de la infraestructura del
centro de datos.
2
2 Organizacin
y
problemas
del
centro
de
datos
3
uso de Blades tiene un correspondiente incremento en el consumo de energa
por rack, que a su vez pueden impactar de manera importante la
infraestructura de distribucin de energa. En particular, muchos centros de
datos estn diseados con alrededor de 7 KW de potencia por rack, mientras
que bastidores cargados con servidores Blade que pueden acercarse a 21 KW.
4
Figura 2. Arquitectura de Red Convencional vs. Arquitectura de N-aria de Topologa Fat Tree
5
comunicacin externa. Las funciones bsicas de la BMC incluyen el monitoreo
de varios sensores de hardware, gestin de hardware diferentes y alertas de
software, arrancar y apagar el servidor, el mantenimiento de los datos de
configuracin de varios dispositivos y controladores, y proporcionar
capacidades de administracin remota. Cada chasis o bastidor pueden integrar
en s mismo un controlador de administracin de nivel superior que se
comunica con el controlador de nivel inferior.
6
2.4 Infraestructura
elctrica
y
refrigeracin
Incluso los centros de datos de tamao medio pueden tener un consumo de
energa mximo de varios megavatios. Para tales cargas de energa, se hace
necesario utilizar suministros de alta tensin (por ejemplo, 15 KV en tres fases)
conjuntamente con un sistema de transformacin en las instalaciones a 240V a
travs de un sistema de alimentacin ininterrumpida (UPS ). La unidad UPS
debe convertir AC a DC para cargar sus bateras y luego convertir DC a AC en
el extremo de salida. Dado que la unidad UPS se encuentra directamente en el
circuito de alimentacin, se puede seguir suministrando potencia de salida
ininterrumpida en caso de prdida de potencia de entrada. La salida de la UPS
(por lo general 240/120 V, en sola fase) se encamina a la unidad de distribucin
de energa (PDU) que, a su vez, suministra alimentacin a los servidores
instalados en bastidor o chasis de Blades individuales. A continuacin, la
potencia es reducida, convirtiendo la corriente alterna (AC) en corriente directa
(DC) parcialmente regulada, a fin de producir los tpicos 12V y 5V de salida,
con los valores de corriente deseados (20 - 100 A). Estos voltajes son entregados
a la placa base, donde los reguladores de tensin (VR) deben convertirla en
diversos valores de voltaje, segn las exigencias de diseo del servidor.
7
requieren plantas enfriadoras, ventiladores y sistemas de recirculacin de aire.
La evolucin de las tecnologas de refrigeracin tienden a enfatizar un
enfriamiento ms localizado, o tratar de simplificar la infraestructura de
refrigeracin. Los bastidores de equipos de red, almacenamiento y servidores
generalmente se colocan en una cmara de sobrepresin elevada, dispuestos en
forma alternada orientados hacia atrs, creando los llamados pasillos fros y
calientes. El aire fro es forzado hacia arriba en los pasillos a travs del suelo
tcnico, y los ventiladores de los servidores o chasis lo impulsan a travs del
servidor hacia la parte posterior. El aire caliente de la parte posterior se dirige (a
veces mediante el uso de deflectores) hacia la planta de enfriamiento para su
recirculacin. Esta configuracin bsica no es costosa, pero tambin puede crear
puntos calientes irregulares, ya sea debido a un enfriamiento desigual o la
mezcla de aire caliente y fro.
8
datos. Los entornos virtualizados introducen temas de gestin de la
configuracin a un nivel lgico (en lugar de fsico). A medida que la
complejidad de servidores, entornos operativos y las aplicaciones aumenta, la
gestin eficaz en tiempo real de grandes centros de datos heterogneos se hace
muy compleja. Estos desafos y algunos enfoques actuales se discutirn
posteriormente.
9
fundamental para los centros de datos es encontrar mecanismos viables que
permitan reducir el crecimiento de la vulnerabilidad conjuntamente con su
tamao. Bsicamente, la seguridad debe implementarse de forma que ningn
compromiso pueda proporcionar acceso a un gran nmero de mquinas o gran
cantidad de datos. Otra cuestin importante es que en un entorno virtualizado
y externalizado, ya no es posible hablar de "dentro" y "fuera" de los centros de
datos. Los intrusos podran muy bien ser los que comparten la misma
infraestructura fsica para sus fines comerciales.
10
3 Evolucin
de
los
Centros
de
Datos
11
puede permitir la consolidacin a gran escala, proporcionando capacidades
para labrar secciones bien aisladas de la granja de servidores (o "parches de
servidores") y asignarlos a diferentes clientes. En este caso, el PIL ser
responsable de la gestin de las fronteras en todo el parche del servidor en
trminos de seguridad, cortafuegos, y la reserva de ancho de banda de acceso.
Por ejemplo, la configuracin y la gestin de redes LAN virtuales se realiza a
travs de la PIL.
12
varias granjas de servidores fsicos con el fin de crear un centro de datos
virtualizado distribuido geogrficamente (DVDC). Esta capa debe definir y
gestionar las tuberas virtuales entre distintos centros de datos virtuales. Esta
capa tambin sera responsable de la ubicacin geogrfica a travs del
despliegue, la ejecucin y la migracin de las aplicaciones, cada vez que sea
necesario. En funcin de sus capacidades, VICL podra ser explotado para otros
fines, tales como la reduccin de los costos de energa al distribuir la carga a
travs de husos horarios y tarifas de servicios pblicos, proporcionando
recuperacin ante desastre o gran escala de tolerancia a fallos, e incluso
permitiendo clculos distribuidos verdaderamente grandes.
13
4 Infraestructura
de
Red
en
Centros
de
Datos
14
que el trfico se identifique con una VLAN ID de 12 bits. En un caso de
asignacin esttica simple, las VLAN ID son estticamente asignadas a los
puertos del switch. Esto permite que las VLAN puedan proporcionar un fuerte
aislamiento en el trfico que pertenece a una VLAN y no pueda ser dirigido a
los puertos que no estn asignadas a esa VLAN. Existe tambin un esquema de
asignacin dinmica que puede asignar una VLAN a un conjunto nico de los
puertos en funcin de la direccin MAC de origen o de otros atributos del
trfico.
16
deficiencias desde una perspectiva de centro de datos. En particular, es bien
sabido que el logro de una buena calidad de servicio es muy difcil con TCP ya
que mltiples flujos TCP que compiten tendern a dividir el ancho de banda
disponible igualmente, en vez de hacerlo de acuerdo a las fracciones
especificadas. Del mismo modo, el control de congestin TCP puede ser
innecesariamente pesado para los centros de datos. En particular, TCP ofrece
esquemas elaborados para hacer frente a las prdidas de paquetes, que rara vez
se presentan en los centros de datos bien configurados. Las prdidas de
paquetes tambin pueden ser altamente indeseables a altas velocidades en las
que pueden degradar sustancialmente el rendimiento de la aplicacin. Las
implementaciones TCP basadas en retraso, tales como TCP-Vegas son mucho
ms apropiados para los centros de datos, pero estas versiones no son muy
populares.
TCP tambin sufre de otros puntos dbiles que se han tratado por otros
protocolos compatibles como SCTP (protocolo de transmisin de control de
stream). SCTP surgi de la necesidad de emular capacidades en el Internet en
el sistema de sealizacin N 7 (SS7). Aunque SCTP es un protocolo an ms
pesado que el TCP y por lo tanto puede ser difcil de escalar a altas velocidades,
ofrece un nmero de caractersticas que pueden ser tiles en los centros de
datos. Estas incluyen:
17
3. Mejor robustez debido al CRC de 32 bits (frente a 16 bits para TCP) y una
funcin de mecanismo heartbeat. A altas velocidades de datos de 16 bits, CRC
puede dar lugar a errores no detectados con bastante frecuencia.
18
caractersticas muy diferentes, dan lugar a desafos muy diferentes. Por
ejemplo, un control de flujo basado en el crdito simple es apropiada para las
comunicaciones intra parches de servidores porque ofrece pequeos tiempos de
ida y vuelta (RTT), mnima prdida de paquetes, y un uso muy bajo de CPU.
Por otro lado, para las comunicaciones inter parches de servidores, un buen
rendimiento bajo prdida de paquetes debido a la congestin o los errores es
muy importante, y por lo tanto un control sofisticado (como en TCP o SCTP)
pueden ser necesarios.
Aunque se espera que las tecnologas de red de cable (cobre y/o fibra) de
permanecern dominantes en los centros de datos, las tecnologas inalmbricas
como Wi-Fi, ultra-ancha (UWB) y transmisiones pticas en el espacio libre estn
encontrando nichos para su aplicacin a medida que aumenta el ancho de
banda disponible. Por ejemplo, el ancho de banda inalmbrica disponible
puede ser adecuados para centros de datos de gama baja que ejecuten
aplicaciones de clculo intensivo. Incluso en los centros de datos ms grandes,
la tecnologa inalmbrica puede resultar muy adecuada como para una red de
gestin. Las tecnologas inalmbricas tienen la importante ventaja de eliminar el
problema de gestin de cables, para permitir la adicin/supresin de la
infraestructura, y proporcionar un medio de comunicacin de difusin (a
diferencia de punto a punto) que puede ser explotado de manera inteligente.
Para apoyar esta diversidad en capas MAC, debera ser posible elegir el
mecanismo de control de congestin en funcin de las capas atravesadas. Para
un protocolo orientado a conexin, el control de la congestin puede ser
negociado durante el establecimiento de la conexin, sin embargo, en algunos
casos, los ajustes dinmicos automatizados pueden tambin ser necesarios.
19
fenmeno llamado "memoria-wall". Por lo tanto, adems de la colocacin
directa de los datos en las memorias cach, es necesario ir ms all de la
arquitectura VI y hacer que los protocolos sean tan ligeros como sea posible.
Ello va directamente ligado una mayor funcionalidad necesaria para hacer
frente a la seguridad, la flexibilidad y otras cuestiones. A tasas muy altas de
datos, toda la pila de protocolos incluyendo MAC, las capas de red y transporte
deben ser tratadas. Esto puede plantear problemas importantes en el
mantenimiento de la compatibilidad con las normas.
20
de las necesidades de toda la aplicacin, ms que en las necesidades de un flujo
individual entre dos puntos finales. Esta es la principal diferencia entre el tipo
de QoS que se aqu se discute, y las nociones tradicionales de QoS. Las
etiquetas pueden ser utilizadas para garantizar que los clusters virtuales que
compiten en una ruta de acceso compartido son provistos de ancho de banda,
ya sea de acuerdo con algunos criterios fijos (por ejemplo, prioridad relativa o el
tipo de aplicacin que se ejecuta en el clster virtual) o basarse en los cambios
dinmicos de las necesidades de las aplicaciones. Una forma de estimar la
necesidad de ancho de banda dinmico es hacer un seguimiento del uso de
ancho de banda real durante los perodos sin congestin y luego dividir el
ancho de banda disponible en esa proporcin durante los perodos de
congestin.
21
dentro de un centro de datos debido a la abundancia de switches de Nivel 2.
22
escalables para ellos puede ser muy difcil.
23
Un problema recurrente es la asignacin independiente de direcciones MAC y
VLAN ID que conducen a la potencial duplicacin de estas en la red fsica.
VNI reconduce cada trama de MAC interna originada por la mquina virtual
individual. Por lo tanto, podra haber superposicin o solapamiento de
direcciones MAC a travs de segmentos, pero nunca tener trfico cruzado entre
ellos, ya que el trfico es aislado utilizando el identificador VNI. Este
identificador se encuentra en un encabezado exterior a la trama MAC interno
originada por la VM. En lo sucesivo, el trmino "segmento VXLAN" se usa de
manera intercambiable con el trmino "red superpuesta VXLAN."
24
Nivel 3. Los tneles son stateless, as que cada trama se encapsula segn un
conjunto de reglas. El punto final del tnel (VTEP) se encuentra dentro del
hipervisor en el servidor que aloja las mquinas virtuales. As, el VNI y el tnel
VXLAN, conjuntamente con la cabecera, son visibles nicamente a al VTEP (la
mquina virtual no lo ve). Los VTEPs tambin podran encontrarse en un
switch o servidor fsico y podran ser implementados en software o hardware.
25
- Banderas (8 bits) : Donde la bandera I debe establecerse en 1 para un ID
de red VXLAN vlido. Los otros 7 bits (designados "R") son campos reservados
y se deben establecer en cero.
26
3. Encabezado IP Exterior : Contiene la direccin IP de origien, indicando la
direccin IP del VTEP sobre el que se comunican las VMs (tal como lo
representan la direccin de MAC interna). La direccin IP de destino puede ser
unicast o multicast. Cuando es una direccin IP unicast, contiene la direccin IP
del VTEP que conecta a las VMs que estn comunicndose.
27
pertenencia de VM en las redes superpuestas. Se espera que esta asignacin se
haga y se notifique a la entidad de gestin en el VTEP y las pasarelas utilizando
los mtodos existentes de seguridad.
28
5 Almacenamiento
en
los
Centros
de
Datos
29
disco duro son capaces de ofrecer a las cargas de trabajo con componente de
acceso aleatorio significativo o falta de localidad. Aunque un disco duro actual
consume mucha menos energa que otros componentes de un servidor (por
ejemplo, aproximadamente 12 W frente a 150 W para el subsistema de
procesador), el gran nmero de dispositivos de almacenamiento se traduce en
que un 20 - 30 % de la energa del centro de datos podra ser consumida por el
almacenamiento.
30
El almacenamiento compartido generalmente se aprovisiona por separado en
una "torre de almacenamiento" y se accede a travs de NAS o SAN. NAS
proporciona un archivo conveniente o acceso a nivel de objeto para los
servidores y se puede utilizar el entramado de redes tradicionales, como
Ethernet. Sin embargo, el acceso de alto nivel puede ser demasiado lento o no
apto para aplicaciones que prefieren hacer su propia gestin de
almacenamiento (por ejemplo, los sistemas de base de datos). Tanto NAS y
SAN (se discute a continuacin) encuentran un lmite de almacenamiento entre
8 y 16 TB debido al direccionamiento de 32 bits utilizado en las
implementaciones.
31
En general, un volumen de almacenamiento puede propagarse a travs de
mltiples dispositivos de almacenamiento fsicos o lgicos, y una visin
consistente requiere de "virtualizacin del almacenamiento". La virtualizacin
del almacenamiento puede ser basado en host, basada en la red o en dispositivo
de almacenamiento. Una solucin basada en host ampliamente desplegada es
Logical Volume Manager (LVM) en el sistema operativo husped, el cual
maneja volmenes de almacenamiento repartidos en varios dispositivos bajo su
control. La virtualizacin basada en red realiza la misma tarea utilizando
algunos "aparatos" directamente conectados a la red de servidores. En una
versin ms sofisticada de este enfoque las rutas de datos y de meta-datos
pueden ir a travs de redes separadas. En an otra variacin, la funcionalidad
de virtualizacin puede estar integrada en el switch de SAN (tal vez usando
ASIC), de modo que el conmutador puede dirigir la solicitud al volumen de
almacenamiento adecuado y de ese modo reducir el nmero de saltos de la red.
Por ltimo, el dispositivo de almacenamiento en s puede proporcionar esta
funcionalidad. Con la mayora de estas soluciones, la virtualizacin se extiende
slo al alcance del agente de control (host OS, switch, etc) y la interoperabilidad
se hace difcil ya que los diferentes sistemas operativos, aplicaciones y
dispositivos de almacenamiento pueden implementar la virtualizacin de
forma diferente.
32
5.2 Almacenamiento
en
discos
de
estado
slido
e
hbridos
La mejora continua en el coste y el rendimiento de almacenamiento basado
en memoria flash ha hecho de los discos de estado slido (SSD) una tecnologa
viable en los centros de datos. Por otra parte, existen otras tecnologas RAM
(NVRAM) que pueden alterar significativamente el paisaje de almacenamiento
en el futuro cercano. Algunas de las tecnologas ms prominentes incluyen
NVRAM RAM magntica (MRAM), la memoria de cambio de fase (PCM o
PRAM) y la RAM Ferro-elctrica (FeRAM). Las tecnologas NVRAM ofrecen
varias ventajas sobre los medios magnticos rotativos:. Latencias de acceso
inferiores y ms previsibles para las solicitudes al azar, factores de forma ms
pequeos, menor consumo de energa, la falta de ruido y mayor robustez a las
vibraciones y la temperatura. Puesto que la memoria flash NAND es el ms
maduro y popular de ellos en este momento, vamos a utilizar esta tecnologa
como representativa para conducir la discusin.
Cada pgina del flash puede estar en uno de tres estados diferentes: (i)
vlida, (ii) no vlido y (iii) libre / borrado. Cuando ningn dato se ha escrito en
una pgina, se encuentra en estado libre o borrado. Una escritura puede hacerse
33
slo a una pgina libre, cambiando su estado a vlido. Un recolector de basura
(GC) se ejecuta peridicamente e identifica los bloques que slo contienen
pginas no vlidas y las borra. Durante los perodos de GC, el rendimiento
ofrecido por un dispositivo de memoria flash puede disminuir
significativamente. La frecuencia de GC y sus gastos computacionales
empeoran con el aumento de la aleatoriedad en la escritura.
Por ltimo, las celdas de memoria flash pueden ser de un solo nivel (SLC) o
Multi-Level-Cell (MLC). Como el nombre implica, SLC almacena un bit por
celda y MLC almacena ms de uno. MLC proporciona una mayor densidad y
por lo tanto menor coste global, sin embargo, esto se produce a expensas de una
velocidad ms lenta, significativamente menor tiempo de vida, y menor
temperatura de funcionamiento (debido a la mayor probabilidad de errores
causados por la corriente de fuga a temperaturas ms altas). Por lo tanto, las
unidades de estado slido (SSD) utilizan invariablemente SLC, siendo MLC
ms comn en las aplicaciones de consumo tales como unidades flash.
Con el fin de mantener la compatibilidad con los discos duros, los SSD estn
diseados para utilizar interfaces de E/S estndar tales como buses de SCSI o
SATA. Un procesador integrado implementa la llamada Capa Traduccin Flash
(FTL) para ocultar la identidad del flash y lograr que el mismo software pueda
trabajar tanto con unidades de disco duro y SSD. La funcionalidad clave
implementada por el FTL incluye: (i) la traduccin de direcciones lgicas a
direcciones fsicas para permitir la nivelacin del desgaste, (ii) actualizaciones
fuera de rango y recoleccin de basura, y (iii) las polticas de nivelacin de
desgaste. La calidad de la ejecucin FTL es una clave para el rendimiento SSD,
por ejemplo, se ha determinado que para ciertas cargas de trabajo de escritura
realizadas al azar (por ejemplo, las cargas de trabajo de DBMS) los tiempos
empleados de GC y de nivelacin de desgaste a veces puede hacer a los SSDs
ms lentos que los discos duros. Para accesos secuenciales, los discos duros
pueden superar fcilmente los SSD. Sin embargo, los SSD tienen un gran
potencial para un rendimiento ms alto y ms predecible que los discos duros.
34
principal y el disco duro de almacenamiento secundario. Sin embargo, muchos
otros problemas en la integracin de los SSD's y discos duros para un
rendimiento ms rpido y ms consistente an no se han resuelto.
35
por diversas instancias del sistema de archivos tiene en s misma la
probabilidad de seguir distribuciones similares a Zipf. En consecuencia, la
gestin de meta-datos debe ser diseada para tomar ventaja de los pequeos
tamaos del sistema de archivos siempre que sea el caso. Problemas similares
aplican con respecto a tamao de los archivos tambin. El diseo debe ser capaz
de proporcionar asignacin, acceso y actualizaciones eficientes no slo para
archivos de gran tamao que pueden acumular petabytes, sino tambin a los
pequeos archivos que son slo unos pocos cientos de bytes.
36
de finalizacin E/S es muy grande en comparacin con el coste de un cambio
de contexto. Sin embargo, tal cambio no tiene sentido para un acceso a la
memoria.
37
6 Gestin
de
la
configuracin
en
los
centros
de
datos
La gestin global de los activos del centro de datos tiene necesariamente que
lidiar con su ciclo de vida. El ciclo de vida se extiende desde el punto de que el
activo ingres en el centro de datos, hasta que finalmente se retir del servicio,
como se discute en ms detalle en el Captulo 6.1.
Gestin generalmente implica dos partes distintas: (a) las operaciones y (b) el
control. En trminos generales, las operaciones se refieren a la instalacin,
configuracin, actualizacin y otras actividades de tiempo con gruesa
granularidad; mientras que el control se refiere a la gestin de grano fino de los
recursos.
38
realizar de forma rentable (por ejemplo, con un mnimo de tiempo
administrador de TI), rpidamente, de forma segura, y con mnima exposicin a
errores humanos. A continuacin, se elabora sobre los desafos de la gestin del
ciclo de vida automatizado.
Los tres primeros pasos en esta lista incluyen BMC, que es la nica parte del
servidor que aparecer automticamente cuando un nuevo servidor se conecta.
El aprovisionamiento se inicia con el BMC encendiendo el servidor principal y
comunicndose con su firmware para arrancar el proceso de descubrimiento y
cualificacin. Muchas de las otras tareas se pueden hacer en o fuera de banda, o
mediante una combinacin de ambas.
Los modelos CIM representan sistemas y sus parmetros sobre todo a nivel
estructural (la mayor parte de la semntica de los parmetros y la inteligencia
para configurar adecuadamente se encuentra fuera del mbito de la CIM). Por
ejemplo, la CIM no est diseada para especificar las relaciones complejas entre
los valores de los parmetros de varias entidades o las condiciones en que los
parmetros deben establecerse de una manera particular. Tradicionalmente,
esta inteligencia se encuentra en el cdigo de gestin. El consorcio World Wide
Web (W3C) ha estandarizado recientemente el lenguaje de modelado de
servicios (SML) para llenar este vaco. SML puede describir esquemas
utilizando XML DTD 's (definiciones de tipos de datos). Los documentos SML
pueden hacer referencia a elementos en otros documentos SML y pueden
especificar relaciones complejas con Schematron. As, SML puede permitir la
gestin de los recursos basada en las limitaciones declaradas. Sin embargo, la
especificacin y el procesamiento de las restricciones complejas utilizando un
lenguaje declarativo como SML sigue siendo todo un reto.
41
actualizar mediante WSMAN, CIM-CLI u otros medios. Sin embargo, depender
exclusivamente del repositorio de la CIM para hacer aprovisionamiento u otras
decisiones se vuelve poco prctico, incluso con un pequeo nmero de
servidores, por dos razones: (a) repositorios CIM suelen almacenar valores de
los parmetros detallados de dispositivos individuales en lugar de atributos de
nivel superior (por ejemplo, la capacidad del servidor) que se requieren para la
administracin dinmica y (b) el acceso a repositorios de CIM es generalmente
muy lento debido a su base de firmware y la interfaz de servicios web. Una
gestin viable requiere invariablemente alguna base de datos de nivel superior
que contenga no slo porciones de la CIM del repositorio, sino tambin algunos
atributos derivados que se pueden utilizar ms directamente en la toma de
decisiones de aprovisionamiento. Esta base de datos se conoce a menudo como
la base de datos de gestin de configuracin (CMDB). De hecho, una CMDB no
depende enteramente de repositorios CIM, sino que tambin puede contener
una cantidad significativa de datos operativos obtenidos tanto desde fuera de
banda y las interfaces en banda.
42
compatibles con los dems. Los datos de algunos de los planes de gestin (por
lo general los del mismo proveedor) pueden consolidarse en una sola CMDB,
pero esto an deja el problema de administrar varias CMDB. El resultado es
una serie de repositorios con superposicin o solapamiento de informacin,
pero incompatibles entre s. El enfoque alternativo de un nico sistema de
gestin integral de un solo proveedor tambin es indeseable debido a la falta de
flexibilidad.
43
medida que aumenta la dinmica de datos, en particular con respecto a la
informacin residente en el firmware. En el otro extremo, el mantenimiento de
datos dinmicos principalmente en bases de datos externas no slo es imposible
de escalar sino que tambin introduce dependencias indeseables. Por ejemplo,
la imposibilidad de acceder a la base de datos externa podra daar la
configuracin de activos y causar accidentes.
44
una versin coherente de todos los datos pertinentes abstrados de bases de
datos de nivel inferior. Este es un reto no slo en trminos de crear una visin
unificada de los datos, pero tambin puede ser infranqueable debido a la
centralizacin de todos los datos en una CMDB.
45
apropiados requiere de por lo menos tres aspectos: (a) la capacidad residual del
servidor, (b) ancho de banda de red y almacenamiento disponible, y (c) las
latencias de acceso a los datos con los que la aplicacin trabajar. Para
aplicaciones en clster, existe tambin un cuarto elemento que se relaciona con
el ancho de banda de la comunicacin entre servidores y la latencia de sta.
46
uno o ms nodos (incluido el ancho de banda de comunicacin), (b) las
consideraciones de optimizacin (por ejemplo, mover la aplicacin hacia un
servidor con poca carga de manera que se obtengan mejores estados de bajo
consumo), o (c) ocurrencia de eventos especficos, como fallas o actividades de
mantenimiento. De ellos, (a) y (b) requieren del equilibrio de varios factores
incluyendo el coste de no hacer el cambio, el coste de control, coste de
reaprovisionamiento, y el coste de seleccionar una opcin incorrecta de
servidores a los que se mueve la carga de trabajo. En la mayora de los casos, es
difcil hacer que estas soluciones sea eficientes, debido a la complejidad del
entorno. Algunos autores discuten el uso de tcnicas de aprendizaje automtico,
por ejemplo, para la gestin coordinada de mltiples recursos en
multiprocesadores. Tcnicas similares pueden ser tiles en contextos provisin
dinmica ms genera. En el caso de (c), el aspecto ms importante es reanudar
rpidamente el servicio en vez de hacer la eleccin ptima de un nuevo
servidor. Por ejemplo, el servicio puede ser trasladado primero a otro servidor
en el mismo chasis / bastidor para reducir al mnimo la latencia de la migracin
de la VM.
47
infrautilizados, etc.). El nivel superior de esta jerarqua es relevante slo si el
centro de datos se extiende a travs de mltiples ubicaciones fsicas.
48
grupo de mquinas virtuales, sin embargo, la asignacin de este grupo a la
infraestructura fsica requiere de la interaccin entre los dominios virtuales y
fsicos. En otras palabras, los controladores de las cuatro jerarquas no operan
en forma independiente, sino que necesitan comunicarse y coordinarse con el
fin de realizar las diferentes tareas del ciclo de vida, indicadas en el Captulo
6.1. Por lo tanto el diseo de una arquitectura global de cooperacin entre
jerarquas de controladores es en s una tarea difcil.
49
7 Requisitos
de
la
Gestin
de
Recursos
en
Centros
de
Datos
50
este entorno. Servidores Web con mltiples niveles, aplicaciones de renderizado
multimedia, simulaciones a gran escala, y otras cargas de trabajo orientadas a
servicios son ya escalables a un gran nmero de servidores. Este nuevo mundo
plantea retos tanto a los propietarios de estos centros de datos y los clientes o
usuarios que ejecutan las aplicaciones. Los propietarios de centros de datos
deben gestionar los recursos a nivel de instalaciones, como la red elctrica los
aires acondicionados de las salas de ordenadores, adems de tecnologa de TI
tradicional. Los usuarios deben gestionar las aplicaciones que se pueden
ejecutar en el hardware compartido, incluidas las mquinas virtuales y las redes
de rea local virtuales y en entornos heterogneos. La magnitud de este desafo
ha motivado el trabajo reciente en marcos de supervisin y control coordinada
de las infraestructuras de computacin a gran escala. Los enfoques ms
comunes se basan en controlar, analizar, planear y ejecutar lazos de control.
51
El segundo es el desarrollo de herramientas de anlisis para reconocer
patrones y diagnosticar anomalas en los datos. Por ltimo, dado que los
operadores humanos pueden ser incapaces de evaluar los eventos lo
suficientemente rpido como para responder con eficacia, hay un creciente
inters en "cerrar el crculo" con herramientas para planificar las respuestas, y
ejecutar la gestin del sistema a travs de interfaces de programacin
(actuadores). Este es un objetivo clave a largo plazo de las iniciativas de
computacin autonmica y las empresas de adaptacin respectivamente. Estas
tendencias se combinan en la idea de un "plano de conocimiento" para otros
sistemas de gran escala e Internet.
52
resultados.
7.1 Monitorizacin
Los Centros de Datos se han convertido en el corazn de las actividades de
negocio de las organizaciones. Sus complejas infraestructuras, en las que
convergen lo fsico y lo virtual, ha hecho que sus administradores tengan que
hacer frente a numerosos retos que tienen como fin ltimo optimizar los
recursos para dar una mejor respuesta a las necesidades del negocio, de los
clientes y de los empleados.
Los responsables deben definir los parmetros necesarios para que estos
Centro de Datos ofrezcan servicios de calidad y sean capaces de estar
preparados para futuros requerimientos, adaptndose a las nuevas tecnologas
y reglamentos, al tiempo que se mantiene estable el control de costos, se mejora
la productividad, se reduce el consumo energtico y se consigue un mejor
aprovechamiento de los recursos.
53
Con las soluciones de DCIM se localizan, visualizan, identifican y
administran los recursos fsicos del Data Center (servidores, rack, sistemas de
almacenamiento, de energa y refrigeracin...), as como virtuales; al tiempo que
se obtiene informacin para medir, monitorizar, gestionar y controlar el
rendimiento del consumo de energa de las estructuras.
Una solucin de DCIM debe ofrecer una visin holstica, que permita la
mejora continua de la infraestructura crtica, que aporte una visin global y en
tiempo real de toda la instalacin, tanto de la infraestructura informtica
(virtual, fsica y las cargas de trabajo a nivel de software) como del entorno de
instalacin (alimentacin elctrica, enfriamiento, etc.). De esta forma, se podr
conocer la localizacin, capacidad y disponibilidad de todos los recursos y estar
preparado para dar respuesta a posibles eventualidades, preparar cambios o
modificaciones.
El pilar de las soluciones de DCIM se sustenta sobre una base de datos que
sirve de repositorio de todos los recursos, atributos y relaciones del Data
Center, adems de los aplicativos necesarios para buscar, documentar y
visualizar los sistemas fsicos y virtuales. La automatizacin es otra de las claves
de estas soluciones y, por eso, la mayora de estos productos incluyen
funcionalidades automticas que facilitan la creacin y gestin de la base de
datos y otras prestaciones que agilizan los procesos.
54
La informacin recopilada debe ser transmitida de forma inmediata para que
los interesados puedan intervenir. Las maneras ms habituales son mediante IP
Webserver, envo de e-mail, envo de SMS, envo de traps y centralizacin en
gestores de edificios, etc.
Algunas de las alarmas deben ser capaces de interactuar con otros equipos
para la minimizacin de daos como puede ser el apagado automtico de
servidores (Shut Down), actuacin de contactores y relees y actuacin en electro
vlvulas.
56
1. Es heurstica. La gestin de recursos implica proyecciones bajo
incertidumbre y problemas de optimizacin que son NP-completo en su forma
general, lo que nos obliga a adoptar heursticas adaptadas a las necesidades y
configuraciones especficas. No existe una solucin de "talla nica".
La mayor parte de las diferencias entre los enfoques de gestin tienen que
ver con cuestiones relacionadas con las polticas implementadas, o cuestiones
relacionadas con quines son los participantes y la cantidad de energa que
consumen, o diferentes supuestos de aplicacin que en ltima instancia tienen
poco impacto en los requisitos de gestin de los recursos disponibles. Estas
diferencias superficiales dejan abierta la posibilidad de una gestin comn. En
particular, a medida que aumentan las utilidades de red, el control basado en
arquitecturas abiertas se convierte en atractivo como base para la adjudicacin
de recursos flexible y adaptable.
57
8 OpenQRM
:
Plataforma
Abierta
de
Gestin
de
Centros
de
Datos
58
OpenQRM crea interfaces automatizadas y genricas entre los diferentes
componentes a travs de su arquitectura de software modular. En realidad, el
servidor de base de OpenQRM est diseado para tener una sola funcin :
gestionar plugins. De esta manera nuevas caractersticas como el despliegue de
recursos adicionales, el almacenamiento y el tipo de virtualizacin se pueden
agregar a OpenQRM sin cambiar una sola lnea de cdigo en el servidor de
base. Mediante ste concepto se mantiene el servidor de base siempre pequeo,
esttico y robusto, pero tambin permite que varios desarrolladores trabajen en
diferentes plugins de forma paralela sin que estos interfieran entre s.
59
virtualizacin utilicen su propio formato de disco duro virtual hace que los
sistemas de migracin a otra tecnologa de virtualizacin, o incluso volver al
sistema fsico, sea una tarea compleja.
60
resultado es an ms complejidad.
61
almacenamiento externo o remoto.
62
8.3 Capa
de
Almacenamiento
Dado que los mtodos de despliegue rpido de OpenQRM se basan en
sistemas de almacenamiento centralizados, constituyen un componente clave en
la red de gestin OpenQRM. La capa de almacenamiento en OpenQRM
proporciona al servidor la ubicacin de la imagen remota. Dependiendo del
tipo de almacenamiento esta ubicacin de imgen puede ser un NFS-export, un
LUN iSCSI, un volumen AOE o cualquier otro dispositivo que contenga un
contenido de raz del sistema de archivos vlido.
63
8.4 Gestor
de
Virtualizacin
La virtualizacin se gestiona a travs de la interfaz de modelaje de mquinas
virtuales. El tipo de recurso especfico en la configuracin de la mquina
virtual indica la interfaz que utilizar OpenQRM para gestin. Por esta razn, el
host de virtualizacin debe estar integrado y disponible en OpenQRM. Esto se
puede hacer mediante la implementacin de un servidor host de virtualizacin
que est enlazado a un recurso de "inactivo" existente. En los casos en que sea
requerido gestionar un host de virtualizacin existente, ste puede ser
fcilmente integrado a travs del mdulo local-server.
De sta manera el sistema que se ejecuta en una mquina virtual tiene total
independencia de su Host hipervisor y puede migrado a otros hipervisores de
la misma o diferente tecnologa de virtualizacin o incluso de sistemas fsicos a
mquinas virtuales y viceversa. OpenQRM soporta P2V, V2P, y V2V;
permitiendo la migracin P2P sin ningn cambio en la configuracin de la
imagen provista para el sistema.
8.5 Monitorizacin
OpenQRM dispone de un cliente de monitorizacin, instalado
64
automticamente en todos los sistemas gestionados en la red OpenQRM a
travs de el sistema base, que incluye una utilidad de seguimiento. Este monitor
consiste en un shell script que enva las estadsticas al servidor OpenQRM a
travs del protocolo HTTPS. Las estadsticas incluyen datos de tiempo de
actividad, carga, modelo y nmero de CPUs, nmero de interfaces de red y el
trfico asociado, memoria, swap, etc. OpenQRM rene esas estadsticas y las
ingresa en su base de datos.
8.5.1 Nagios
Nagios es una herramienta de monitorizacin bien conocida, probada y
ampliamente utilizada, que est disponible para OpenQRM mediante un
mdulo integrable adicional. La combinacin de la monitorizacin mediante
Nagios y la gestin de errores automatizados, centro crea un entorno potente y
dinmico que reduce al mnimo el tiempo de inactividad de los sistemas y
servicios en un centro de datos moderno.
65
creacin de plugins de OpenQRM para la interfaz cliente de Nagios y la
arquitectura del servidor Nagios base. El servidor Nagios se ejecuta en un
servidor web Apache y consiste en scripts de Shell y Perl, mezclados con
herramientas binarias ejecutadas a travs de la interfaz CGI. A intervalos
configurables, comprueba diversos servicios como SMTP, POP3, HTTP, NNTP,
etc., y proporciona la informaci recogida en una interfaz web. Tambin
supervisa los recursos del sistema, como la carga de CPU, el uso de memoria y
disco, procesos en ejecucin, registros, etc. y factores relevantes tales como la
temperatura de la CPU, placa base, o temperatura ambiente.
8.5.2 Collectd
Collectd es un programa residente (daemon) que recoge las estadsticas de
rendimiento del sistema peridicamente y proporciona mecanismos para
almacenar los valores en ficheros RRD. La integracin de collectd como un
plugin de OpenQRM proporciona una configuracin automtica del servidor
collectd y el cliente en todos los dispositivos gestionados dentro de la red
OpenQRM. Los Clientes collectd envan informacin estadstica al servidor
collectd principal que se ejecuta en el servidor OpenQRM. Los grficos
generados a partir de las estadsticas del sistema estn integrados en la interfaz
de usuario OpenQRM y tambin est disponible para los usuarios de sistemas
virtualizados gestionados.
8.5.3 Zabbix
Zabbix es una muy nueva herramienta de supervisin de sistemas que se
caracteriza por su gran capacidad de ampliacin y escalabilidad. Es una
solucin de monitorizacin de clase empresarial de cdigo abierto, tambin
disponible en OpenQRM como un plugin adicional.
66
El plugin Zabbix proporciona un servidor automatizado y la configuracin
de cliente para los dispositivos gestionados por OpenQRM. Los clientes Zabbix
son detectados automticamente por el servidor Zabbix a travs de la interfaz
de usuario personalizada integrada en el sistema y los controles de red que
puedan definirse.
Para estar mejor informado acerca de los servicios que se ejecutan en las
instancias OpenQRM del centros de datos, puede utilizarse el mapping
automatizado de servicios a travs de la integracin nagios3. Este modo
67
especial de Nagios mostrar exactamente los servicios de red que estn
disponibles en el entorno administrado OpenQRM. Para obtener informacin
detallada de los servicios disponibles se recomienda utilizar los plugins collectd
y Zabbix disponibles en OpenQRM.
68
provisin, y consecuentemente la administracin de recursos ms adecuada
segn ubicacin geogrfica, poder de cmputo, tiempos de acceso, entre otros.
69
9 Prueba
de
Concepto
:
Integracin
de
Gestin
de
VLANs
En nuestro caso, hemos utilizado Apache versin 2.4 como servidor Web y el
paquete de desarrollo PHP versin 5.3.15. El sistema operativo utilizado fue
MacOS X Server versin 10.8.3.
70
con diferentes mecanismos de autenticacin. Desde la interfaz grfica es
posible enviar diversos comandos SNMP, en mltiples versiones del protocolo,
para gestionar y administrar las VLAN de los switches HP Procurve.
9.2 ShellInABox
ShellInABox implementa un servidor web que puede exportar las
herramientas de lnea de comandos con un emulador de terminal basado en la
web. Este emulador es accesible a cualquier navegador web que tenga
habilitado JavaScript y CSS, y no requiere ningn tipo de plugins de
navegacin adicionales.
71
Conclusiones
Varias fuerzas estn dando forma al paisaje del centro de datos y esperamos
que los futuros centros de datos sean mucho ms que simplemente versiones
ms grandes de las que hoy existen. Estas tendencias emergentes muestran que
los centros de datos evolucionan hacia sistemas distribuidos en infraestructuras
virtualizadas de varias capas, que presentan una serie de retos difciles.
72
disminuyendo de forma considerable los costes asociados sin poner en riesgo la
operatividad y los servicios provistos.
73
Bibliografa
[1] Moore J., Chase J., Farkas K., Ranganathan P., 2009
[2] Greenberg A., Lahiri P., Maltz D., Patel P., Sengupta S., 2008
and Commoditization.
[4] Chase J., Grit L., Irwin D., Marupadi V., Shivam P., Yumerefendi., 2009
Architecture
74
The Growth of Open Source Software in Organizations
[9] Dutt D., Duda K., Argawal P, Kreeger L., Sridhar T, Bursel M., 2013
75