(SDTF 13 14) EdgarOliveira PedroJesus PDF

Fault-tolerant virtual cluster
experiments on federated
sites using BonFIRE
Grupo:
Edgar Oliveira, E8385

Pedro Jesus, M6369
O Problema:
A falha dos sites na Cloud e a variabilidade da performance das
mquinas virtuais (VMs) neste ambiente.
Exemplo:
No vero de 2012, dois dos maiores fornecedores de servios
cloud sofreram interrupes no servio em algumas reas.
Como consequncia, servios dos seus clientes estiveram total
ou parcialmente parados.
1. Introduo
Tem-se observado uma variao na performance na Amazon
EC2, mesmo em dois nveis diferentes de performance para a
mesma configurao da mesma infraestrutura virtual mas
medidas em alturas diferentes.
1. Introduo (cont.)
Neste caso, para manter a qualidade do servio, uma possvel
estratgia explorar a elasticidade da Cloud para se auto adaptar
a esta variabilidade indesejada.
Significa isto usar um Indicador Chave da performance da
Aplicao (KAI) para activar o alargamento da infraestrutura virtual
que o suporta quando necessrio ou para o reduzir quando em
repouso, para evitar custos desnecessrios.
1. Introduo (cont.)
Para verificar o desenho desta arquitetura, esta foi testada em
trs experincias:
Execuo da aplicao numa configurao de mltiplos

sites
Experimentao sobre Objetivos Especficos de Deadline

onde o Elasticity Engine toma decises sobre o
alargamento do Cluster com novas VMs para atingir o
Deadline.
1. Introduo (cont.)
E um teste de Tolerncia a Falhas onde se simula a perda de
uma parte do cluster virtual, restaurando a performance da
aplicao no Site da Cloud sobrevivente, usando mecanismos
de recuperao e regras de elasticidade, sem interrupo do
servio.
2. Materiais e mtodos
[2.1] Arquitectura de Cluster Virtual
A Arquitetura de Cluster
Virtual (VC) contempla:
dois nodos principais
("Master" e "Shadow")
dois conjuntos de nodos

de computao (CE);
cada conjunto est
associado a um dos
nodos principais.
Portanto, o VC separado
em duas parties que
podem ser implantado em
localizaes diferentes.
[2.1] Arquitetura de Cluster Virtual (cont.)

Para o construir, duas imagens de VM tm de ser configuradas:
uma para os nodos principais (master e shadow);

outra para os nodos.
As dependncias entre nodos, a localizao de cada partio, e
outros requerimentos tcnicos so automaticamente
autoconfigurados durante a instalao final.
[2.1] Arquitectura de Cluster Virtual (cont.)

O Nodo "Master" tem quatro
tarefas:
Servidor de dados para os CEs que

esto localizados no mesmo Site da
Cloud.
O Nodo "Shadow" tem trs tarefas:
Servidor de dados para os seus clientes.
Controlador da queue de backup.

Gestor das aplicaes de backup.
Controlador da queue
Gestor de aplicaes
E configurao do Cluster
Os Nodos de computao (CEs) tm

apenas uma tarefa:
Execuo de trabalhos.

Os quatro componentes que o VC tem de ter para executar as tarefas
descritas atrs:
1 - Recursos de armazenamento partilhados:
necessrio para controlar e sincronizar o sistema de 'queue', e para
armazenar todos os dados dos processos em execuo.
tambm includo um volume vazio em cada um dos Nodos principais
(master e shadow). O contedo de ambos os volumes replicado e
sincronizado. A sincronizao inicial pode implicar uma elevada carga no
setup do VC. Para diminuir essa carga, os volumes partilhados so criados
previamente em sites BonFIRE como DATABLOCKs e preenchidos de zeros.

2 - Sistema de Queue:
Para distribuir tarefas paralelas entres os nodos usado o "Open Grid
Scheduler" (OGS). Os nodos master e shadow so configurados como
master daemon e shadow daemon no OGS, respectivamente. Ambos
so submit hosts e administration hosts.
Apenas os CEs so execution hosts. Independentemente da sua partio
podem comunicar com o master (ou shadow quando o master no est
disponvel) para operaes de queue ou distribuio de tarefas.

3- Autoconfigurao:
Interveno externa indesejvel depois de submeter o pedido de setup do VC.
Por isso o cluster autoconfigura-se. O master detecta as mquinas iniciais no
cluster e configura todos os componentes. Tambm conecta ao shadow
usando SSH para fazer a sua configurao.

4 - Software da aplicao:
Tem de ser uma aplicao que pode ser dividida em vrias tarefas e que pode
informar o VC sobre a sua performance, usando um indicador, KAI.
Tambm para ser completamente autnomo, se estas tarefas so controladas
por uma aplicao mestre, deve ser executada no cluster e deve ser tolerante
a falhas, i.e., deve recuperar de falhas no restart ou ser cluster ready.

Baseado nesta arquitetura geral, podem-se implementar trs configuraes
diferentes numa Cloud:
Single-site Virtual Cluster: O caso mais simples. O cluster

instalado numa nica localizao fsica e inclui apenas os Nodos
Master e de computao.
Distributed Virtual Cluster: Apenas os Nodos Master e de
computao so lanados, mas as ltimas VM so distribudas entre
dois sites (ou fornecedores de Cloud). Pode ser usado num setup
hibrido de Cloud, combinando Clouds pblicas e privadas, ou para
ultrapassar a limitao de recursos nos fornecedores.

Baseado nesta arquitectura geral, podem-se implementar trs configuraes
diferentes numa Cloud:
Fault Tolerant Virtual Cluster: o cluster implementado em dois
sites para ser tolerante a falhas de sites.
O master est num site, o shadow em outro, e os nodos de
computao esto distribudos entre os dois.
Nesta configurao, se um site falha, a restante estrutura do cluster
pode recuperar e aplicar regras de elasticidade, alargando-se para
fornecer resultados para o utilizador em tempo til.

A configurao dos CEs completamente assncrona, podendo assim
ser adicionados a qualquer altura.
Esta arquitetura de cluster suporta ainda dois tipos de falhas:

Perda de CEs: neste caso as tarefas simplesmente tm de ser
redistribudas para outro nodo.
Falha completa de uma localizao: quando a localizao que
falha host do master, o shadow pode ficar com o papel de master
e continuar a execuo do cluster.
[2.2] Elasticity Engine

O
algoritmo de elasticidade monitoriza a performance da aplicao

periodicamente e gere a adio ou remoo de CEs para chegar ao
Tempo Limite Desejado (DTL) para um Indicador Chave da Aplicao
(KAI).
Tempo Limite Desejado (DTL)

Indicador Chave da Aplicao (KAI)
performance do cluster (CP)
performance estimada (EP)

(LOW_PERFORMANCE_INTERVAL)
O numero de cores calculado como um mltiplo do nmero de cores

em atividade, segundo a equao:
coresNeeded = min(MAX_CORES, (EP/CP 1) totalCores)
[2.2] Elasticity Engine (cont.)

Quando
a performance do cluster (CP) maior que a performance

estimada (EP), o DTL pode ser atingido com um nmero menor de
nodos, reduzindo o custo de execuo.
Para
calcular o nmero de cores a remover usada a seguinte

expresso:
coresNeeded = ((1 + MARGIN) EP/CP 1 ) totalCores
[2.2] Elasticity Engine(cont.)

O algoritmo requer calibrao destes
parmetros para cada fornecedor de Cloud,
um monitor especfico para a aplicao para
esta recolher dados sobre a sua performance
e um mecanismo para arrancar VMs novas a
partir do cluster sem input externo.
Na experincia a seguir o Elasticity Engine usa
as features do BonFIRE para oferecer s
VMs credenciais para aceder API do
BonFIRE, assim o master node pode gerir
recursos sem interveno do utilizador.
[2.3] Infraestrutura BonFIRE

BonFIRE um projecto para fornecer um servio de teste em multicloud para a comunidade da Internet dos servios. Inside em vrios
servidores de cloud na europa, Frana, Ingaterra, Alemanha, Belgica.
Cada um destes especifca a sua mquina virtual.
Para instalar o cluster virtual foi utilizado o Experiment Manager da

arquitetura BonFIRE usando um script de definio JSON.
[2.3] Infra-estrutura BonFIRE (cont.)

O Experiment Manager interpreta o input JSON e pede as diferentes VMs
aos sites Cloud finais.
O Experiment Manager devolve um Experiment ID que permite mais

tarde recolher informao sobre o seu estado ou de cada um dos
componentes. Aps iniciado o cluster os elementos da experincia
podem ser mudados (adicionar ou remover VMs) usando o BonFIRE
Resource Manager.
Este
pedido pode ser feito do exterior ou pelas prprias VMs que o

compem.
O mesmo mecanismo explicado no Elasticity Manager anteriormente.
[2.4] Plataforma eIMRT
uma infra-estrutura de computao remota para o fornecimento de

ferramentas computacionais intensivas para o planeamento de
radioterapia utilizando o paradigma software como um servio.
Consiste na verificao de tratamentos por radioterapia e recalcul-los

utilizando mtodos de Monte Carlo , comparando os resultados
obtidos com algoritmos rpidos mas com menor preciso.
Mtodos de Monte Carlo consistem na combinao dos pacotes de
software BEAMnrc e DOSXYZnrc.
O processo de verificao baseado num conjunto de 5 etapas por forma a

calcular as doses administradas ao paciente, como possvel visualizar no
esquema abaixo.
Etapa 1
Leitura dos ficheiros de input.
Criao de ficheiros para a aplicao BEAMnrc .

Estes ficheiros BEAMnrc simulam as diferentes posies (ngulos) da
cabea do acelerador linear assim como as posies das folhas do
collimator utilizado no tratamento.
Etapa 2
Execuo de um elevado nmero de simulaes que podem correr em
paralelo (individualmente pequenas).
So
necessrios aproximadamente 3 minutos num processador 2.27

Nehalem.
As tarefas so transmitidas como
arrays ao OGS para prevenir problemas
de calendarizao.
Cada tarefa transfere os dados de input do volume de dados partilhado

para o disco local temporrio no incio por forma a executar localmente.
Retorna os dados de output para o volume de dados partilhado aps a

execuo.
Etapa 3
Execuo no Master Node.
Adquire os dados de output da simulao do acelerador e cria novos
ficheiros de input para a simulao de paciente que sero utilizados pela
aplicao DOSXYZnrc.
So transferidos mais de 10GB de dados.
Etapa 4
Novamente cada tarefa copia os ficheiros de input para o disco local e
depois armazena os ficheiros de output no volume partilhado.
As tarefas de maior durao so executadas, levando aproximadamente

mais de 40 minutos cada uma no processador.
Etapa 5
Todos os ficheiros de output so ps-processados no Master Node.
So unidos num ficheiro de dosagem nico (na ordem das dezenas de
MB), terminando o processo de verificao.
O sistema de controlo externo deteta o fim da verificao, realizando o

download do output final e undeploy do cluster.
Backend para Cloud

A soluo implementada para a transferncia de dados calculados em
backend para a Cloud consiste na criao de um cluster virtual para cada
pedido.
Isto
garante que cada simulao de tratamento processada

independemente solucionando problemas anteriores detetados nos
clusters locais, tal como a interferncia entre dois pedidos em
simultneo.
Exemplo
Utilizando o sistema de Tomografia por computador que distribudo
pelo Hospital da Universidade de Wrzburg, foi definida a execuo da
verificao de tratamentos.
Para experincias normais, o nmero de partculas a simular reduzido,

o que significa que uma verificao completa pode ser executada em
poucas horas.
LINK:
http://www.daten.strahlentherapie.uni-wuerzburg.de/quasimodo.html
[3.0] Experincias/Testes
Foram
executadas 3 experincias para verificar se a arquitetura

implementada funciona corretamente:
- Distribuio Multi-site;
- Caso com um objetivo especfico definido (deadline);
- Sistema de Tolerncia a Falhas;
Antes da sua execuo foi realizada uma seleo para os parmetros do

Motor de Elasticidade.
[3.1] Elasticity Engine

Os parmetros do elasticity engine dependem da infraestrutura a utilizar
assim como da aplicao. No exemplo que se segue, o algoritmo
aplicado independentemente nas fases 2 e 4 do eIMRT e para cada fase:
Key Application Indicator (KAI) nmero total de partculas iniciais a

simular (referenciadas como histrias);
DTL o limite de tempo para cada fase;

Monitorizao fornece o rcio correspondente para cada n em histrias
por segundo (hist/s);
Parmetros
ELASTICITY_PERIOD
DEPLOYMENT_PERIOD
UNDEPLOYMENT_PERIOD
LOW_PERFORMANCE_INTERVAL
MAX_CORES
MARGIN
[3.2] Distribuio Multi-site

Foi distribudo um cluster virtual em dois sites BonFIRE:
- INRIA (master node e 7 CEs)
- HLRS(apenas 8 CEs)
O HLRS apesar de ser mais lento na distribuio das mquinas mais

rpido na execuo da aplicao (processador e ns fsicos muito
superiores).
[3.3] Objetivo definido (Deadline)

O objetivo era terminar a fase 2 em 5.000 segundos para 3.000.000 de
histrias. Ou seja o rcio desejado seria de 600 histrias por segundo
(h/s).
[3.4] Sistema de Tolerncia a Falhas

O sistema completo de tolerncia a falhas foi implementado entre as
instncias INRIA e HLRS com 4 ns de trabalho em cada uma. O master
node foi implementado no HLRS enquanto que o shadow node corria na
INRIA.
O diagrama que se segue descreve um exemplo de uma falha induzida

no sistema por forma a testar a forma como este responde a possveis
falhas.
[3.4] Sistema de Tolerncia a Falhas
[3.5] Resultados
A
arquitetura de virtual cluster proposto preencheu os requisitos

estabelecidos:
- Pode ser implementada em ambientes single cloud ou multi-cloud

utilizando diferentes configuraes;
- Pode utilizar o indicador de performance da aplicao para ativar
elasticidade horizontal
- Pode ser implementada numa configurao multi-site com tolerncia a

falhas que consegue recuperar de uma falha.
Apesar do teste deadline no ter sido alcanado antes do fim do DTL,

o elasticity engine funcionou como esperado, adaptando o tamanho do
cluster de forma dinmica por forma a atingir a performance desejada
para a aplicao.
[4.0] Outras Implementaes
Tordsson
Montero
Omer
Yang
Niehorster
[5.0] Concluses
Esta arquitetura pode ser implementada de vrios modos diferentes
utilizando plataformas cloud laaS single site ou multi site:
- single site;
- distributed sites;
- single sites e distributed sites tolerantes a falhas;
A arquitetura foi complementada com um Elasticity Engine que utiliza

a performance da aplicao como um trigger
aumentar ou diminuir o tamanho do cluster
para decidir entre
[5.0] Concluses
Foi demonstrado que a performance da aplicao pode ser utilizada
para tomar decises de elasticidade, resultando no aumento do VC por
forma a atingir o deadline, apesar ser necessria alguma metodologia
para calibrar os vrios parmetros.
As caratersticas do sistema de tolerncia a falhas foram testadas na

simulao de falha de um dos sites da Cloud, recuperando a
performance da aplicao sem uma falha geral da simulao.
contra partida do Elasticity Engine depender dos valores dos

parmetros do fornecedor de Cloud e da sua infraestrutura. Como tal
deveria ser desenvolvido um algoritmo de Elasticity Engine melhor,
com menos parmetros e independente do fornecedor de Cloud.

(SDTF 13 14) EdgarOliveira PedroJesus PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

(SDTF 13 14) EdgarOliveira PedroJesus PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Fault-tolerant virtual cluster

Edgar Oliveira, E8385

Execuo da aplicao numa configurao de mltiplos

Experimentao sobre Objetivos Especficos de Deadline

dois conjuntos de nodos

[2.1] Arquitetura de Cluster Virtual (cont.)

uma para os nodos principais (master e shadow);

[2.1] Arquitectura de Cluster Virtual (cont.)

Servidor de dados para os CEs que

O Nodo "Shadow" tem trs tarefas:

Servidor de dados para os seus clientes.

Controlador da queue de backup.

Os Nodos de computao (CEs) tm

[2.1] Arquitectura de Cluster Virtual (cont.)

[2.1] Arquitetura de Cluster Virtual (cont.)

[2.1] Arquitetura de Cluster Virtual (cont.)

[2.1] Arquitetura de Cluster Virtual (cont.)

[2.1] Arquitetura de Cluster Virtual (cont.)

Single-site Virtual Cluster: O caso mais simples. O cluster

[2.1] Arquitetura de Cluster Virtual (cont.)

[2.1] Arquitectura de Cluster Virtual (cont.)

Esta arquitetura de cluster suporta ainda dois tipos de falhas:

[2.2] Elasticity Engine

algoritmo de elasticidade monitoriza a performance da aplicao

Tempo Limite Desejado (DTL)

performance estimada (EP)

O numero de cores calculado como um mltiplo do nmero de cores

coresNeeded = min(MAX_CORES, (EP/CP 1) totalCores)

[2.2] Elasticity Engine (cont.)

a performance do cluster (CP) maior que a performance

calcular o nmero de cores a remover usada a seguinte

coresNeeded = ((1 + MARGIN) EP/CP 1 ) totalCores

[2.2] Elasticity Engine(cont.)

[2.3] Infraestrutura BonFIRE

Cada um destes especifca a sua mquina virtual.

Para instalar o cluster virtual foi utilizado o Experiment Manager da

[2.3] Infra-estrutura BonFIRE (cont.)

O Experiment Manager devolve um Experiment ID que permite mais

pedido pode ser feito do exterior ou pelas prprias VMs que o

O mesmo mecanismo explicado no Elasticity Manager anteriormente.

[2.4] Plataforma eIMRT

uma infra-estrutura de computao remota para o fornecimento de

Consiste na verificao de tratamentos por radioterapia e recalcul-los

O processo de verificao baseado num conjunto de 5 etapas por forma a

Criao de ficheiros para a aplicao BEAMnrc .

necessrios aproximadamente 3 minutos num processador 2.27

As tarefas so transmitidas como

arrays ao OGS para prevenir problemas

Cada tarefa transfere os dados de input do volume de dados partilhado

Retorna os dados de output para o volume de dados partilhado aps a

So transferidos mais de 10GB de dados.

As tarefas de maior durao so executadas, levando aproximadamente

O sistema de controlo externo deteta o fim da verificao, realizando o

Backend para Cloud

garante que cada simulao de tratamento processada

Para experincias normais, o nmero de partculas a simular reduzido,

executadas 3 experincias para verificar se a arquitetura

Antes da sua execuo foi realizada uma seleo para os parmetros do

[3.1] Elasticity Engine

Key Application Indicator (KAI) nmero total de partculas iniciais a

DTL o limite de tempo para cada fase;

[3.2] Distribuio Multi-site

O HLRS apesar de ser mais lento na distribuio das mquinas mais