Introdução A Computação Paralela Com o OpenMPI

Captulo
2
Introduo a Computao Paralela com o Open
MPI
Sandro Athaide Coelho
Abstract
This paper introduces an overview about Distributed Parallel Computing and related
technologies using Message Passing Interface approach (MPI). MPI is a standard
specification to message-passing systems sponsored by MPI-Forum.
Resumo
Este minicurso introduz uma viso geral sobre programao paralela distribuda
atravs da abordagem de message passing. O MPI (Message Passing Interface) uma
especificao mantida pelo MPI-Forum e se tornou um padro para comunicao de
dados em Computao Paralela e de Alto Desempenho.
2.1. Introduo
Um dos grandes desafios da Cincia da Computao atualmente viabilizar solues
computacionais que reduzam o tempo de processamento e forneam respostas ainda
mais precisas. Frequentemente surgem propostas com as mais diversas abordagens que
exploram novas formas de resolver tais problemas ou tentam ainda melhorar as solues
existentes.
Uma das grandes reas que se dedica a propor tais melhorias a computao
paralela e de alto desempenho HPC (High Performance Computing) do ingls que
tem como base vrias subreas da Cincia da Computao, como por exemplo,
arquitetura de computadores, linguagens de programao, compiladores, teoria da
computao e computabilidade, recebendo ainda , influncias de varias outras reas, tais
como computao grfica.
Este minicurso introduzir o padro MPI (Message Passing Interface). O MPI
um conjunto de especificaes de protocolos de comunicao utilizados em HPC,
desenvolvido pelo consrcio MPI Forum, composto por pesquisadores e pela indstria.
24
A linguagem de programao utilizada durante o minicurso ser o C e o
conjunto de bibliotecas do Open MPI. Esta implementao fornece ainda compiladores
para as linguagens de programao Fortran e C++ que no sero abordadas no
minicurso, porm, aps o entendimento dos exemplos podem ser facilmente adaptados.
O minicurso est organizado da seguinte maneira. A seo 2.2 apresenta
motivaes para aprender computao paralela e suas aplicaes. A seo 2.3 introduz
aspectos de arquitetura de computadores. J a seo 2.4 mostra a classificao de Flynn.
Na seo 2.5 introduzido os dispositivos de interconexo voltados para computao
paralela. Na seo 2.6 h uma explicao sobre Clusters e Grids. Na seo 2.7
mostrado algumas mtricas para computao paralela. Na seo 2.8 apresentado o
padro MPI e sua API, enquanto a seo 2.9 apresenta uma concluso sobre o tema.
2.2. Motivaes para Computao Paralela

Tcnicas que otimizem o tempo de processamento, algoritmos mais eficientes e
computadores mais rpidos abrem novos horizontes possibilitando realizar tarefas que
antes eram inviveis ou mesmo levariam muito tempo para serem concludas. Sutter
(2005), em seu artigo The free lunch time is over, afirma que no podemos mais
esperar que nossos algoritmos fiquem mais rpidos apenas com atualizaes de CPU.
Muitos aplicativos se aproveitaram do fenmeno do almoo grtis, com ganhos
regulares de desempenho por dcadas, simplesmente esperando novas verses de CPU,
memrias e discos mais rpidos.
A Lei de Gordon Moore [Moore 1965] previa um crescimento exponencial de
transistores dos chips 100% a cada 18 meses pelo mesmo custo. Este crescimento
traduzia em ganhos exponenciais de velocidade do Clock e no nmero de instrues
executadas. Porm este crescimento no pode mais, at o momento, superar os limites
fsicos e problemas como gerao e dissipao de calor alm do alto consumo de
energia. Existem ainda problemas relativo ao custo no desenvolvimento de pesquisas
para reduzir componentes, sem quebrar a compatibilidade do modelo atual.
A sada da indstria para superar tal limitao tem sido disponibilizar mais de
um ncleo nos processadores, ao invs se concentrarem somente no aumento do Clock.
Infelizmente algoritmos estritamente seriais no so beneficiados.
Com os avanos da cincia, o mtodo cientifico (observao, teoria e
experimentao ) ganhou um importante aliado: a simulao numrica. Este por sua vez
passou a ser definido como mtodo cientifico moderno [Quinn 2003]. Ainda segundo
Quinn (2003) a simulao numrica uma importante ferramenta para os cientistas que
as vezes no podem testar suas teorias, seja pelos custos e tempo que isto envolve, por
questes ticas ou ainda quando impossvel realiz-las.
Simular eventos naturais como a previso do tempo, dinmica de fludos,
sequenciamento gentico ou mesmo buscar novas drogas para a cura de doenas
requerem modelos mais complexos e com grande poder computacional. Devido a
magnitude de tais problemas, estes por sua vez so categorizados como os Grandes
Desafios da Cincia[Quinn 2003].
Durante a construo de tais modelos, alm da preocupao direta com a soluo
do problema, necessrio atender requisitos como preciso e/ou tempo total de
25
processamento -Wall Clock Time. Para estes aspectos, devem ser avaliadas a
utilizao de tecnologias que suportem tais requisitos e ainda promovam escalabilidade.
Este ltimo ponto muito importante pois afeta diretamente a continua evoluo e
aprimoramento da abordagem numrica proposta.
Fora do contexto cientfico, vivenciamos tambm uma exploso no volume de
dados. As corporaes, por exemplo, buscam cada vez mais ferramentas que
transformem estes dados em informaes valiosas, com o objetivo de fornecer respostas
as necessidades de seus negcios e os ajudem a otimizar seus processos.
Em geral, tais tecnologias tem como base a trade Recognition Minning
Synthesis [Chen 2008], que utilizam gigantescos datasets e lanam mo do uso de
solues massivamente paralelas para processar e obter suas respostas.
reas emergentes como a Web semntica, por exemplo, buscam algoritmos e
formas de resolver a escalabilidade com nfase na capacidade de processamento de
tarefas mais complexas e na habilidade de processar grandes datasets [Peiqiang et al.
2009].
H fascinantes aplicaes e excelentes oportunidades onde a computao
paralela pode representar ganhos de desempenho significativos. Poderamos relacionar
inmeros outros casos, porm acredito que os exemplos acima so suficientes e nos
motivam a investir tempo para conhecimento e aprimoramento do assunto.
2.3. Arquitetura de Computadores
2.3.1. Memria distribuda (Distributed Memory)

Ambientes computacionais onde cada unidade de processamento possui suas prprias
memrias e processadores(Figura 2.1), que esto conectados atravs de um barramento
de rede onde trocam informaes, so classificados como ambiente de memria
distribuda.
Figura 2.1. Exemplo de arquitetura paralela distribuda
A grande vantagem desta configurao a flexibilidade em expandir ou reduzir

quantas unidades de processamento forem necessrias, com o objetivo de dimensionar o
seu parque computacional de acordo com o problema a ser tratado.
26
Os modelos que exploram ambientes computacionais de memria distribuda so
os que adotam o paradigma de message passing (troca de mensagens). Tais modelos so
formados por rotinas de comunicao e sincronizao de tarefas - sendo o MPI um
exemplo - que podem ser ativadas a partir de trs modos:
disponibilidade: o processo somente poder enviar uma mensagem se o receptor
estiver disponvel;
standard: uma mensagem pode ser enviada mesmo se no houver um receptor
para ele;
sncrono: similar ao modo padro, porm o processo de envio s considerado
como concludo quando o receptor inicia a operao de recebimento.
Estes modelos so altamente portveis e habilitam a execuo de programas nos
mais diferentes tipos de mquinas paralelas.
2.3.2. Memria compartilhada (Shared Memory)

Nesta arquitetura vrios processadores compartilham o mesmo pool de memrias
(Figura 2.2). A comunicao entre eles realizada atravs de leitura e escrita neste
espao compartilhado que podem ser explorados por modelos de programao
relativamente simples.
Figura 2.2. Exemplo de arquitetura paralela de memria compartilhada
A vantagem desta arquitetura a velocidade e simplicidade dos programas,

superando por exemplo o modelo distribudo, que exige uma programao mais
elaborada e depende de uma camada de interconexo para a troca de informaes. J a
principal desvantagem est na escalabilidade: os programas ficam limitados a
capacidade fsica do computador onde esto sendo executados.
No passado, mquinas com esta arquitetura apresentavam custos elevados,
porm com a deciso da indstria em trabalhar ganhos de desempenho, adicionando
27
vrios ncleos em um mesmo chip, conhecidos atualmente como cores, reduziu
significativamente os preos desta tecnologia.
Os modelos de programao projetados para este tipo de arquitetura geralmente
usam processos com baixo custo computacional. Estes por sua vez so conhecidos como
Threads. As abordagens mais conhecidas so as disponveis nos sistemas operacionais,
como o Pthreads em sistemas Unix Like e WinThreads no Windows .
H ainda modelos de alto nvel como o OpenMP, que fornece uma API de alto
nvel, portvel, composta de diretivas de compilao, bibliotecas de execuo e
variveis de ambientes. O OpenMP baseado no modelo fork-join (Figura 2.3).
Figura 2.3. Fork-join no OpenMP
A seguir apresentado um exemplo de uma funo que soma um vetor

paralelamente, usando o OpenMP (Figura 2.4).
Figura 2.4. OpenMP: a diretiva #pragma omp parallel for informa ao compilador
que a regio deve ser paralelizada.
2.3.3. UMA (Uniform Memory Access)

possvel ainda subdividir as duas grandes classificaes anteriores: Memria
Distribuda e Memria Compartilhada, de acordo com vrios critrios, dentre os quais
citamos o tempo de acesso memria.
O modelo UMA (Uniform Memory Access) uma arquitetura de memria
compartilhada, sendo o tempo de acesso ao pool de memrias uniforme, independente
da localizao do processador. Cada processador possui um cache privado que
sincronizado com a memria principal atravs de algoritmos de cache-coherence
embarcados no hardware [Martin et al. 2012].
Devido as suas caractersticas, este modelo tornou-se muito adequado a
aplicaes de uso geral.
28
2.3.4. NUMA (Non-Uniform Memory Access)
Quando o tempo de acesso de memria est intrinsecamente relacionado a localizao
do processador, este grupo denominado como NUMA. Esta arquitetura desenhada
para prover o compartilhamento total de recursos, executando um mesmo sistema
operacional. Como a memria de todas as mquinas participantes so mapeadas em um
mesmo espao de endereamento, a comunicao se d por uma rede de interconexo.
2.4. Classificao de Flynn

Flynn (1972) elaborou uma classificao muito difundida e aceita atualmente para
arquiteturas paralelas (Figura 2.5). Foram usados como parmetros o fluxo de instrues
e de dados para gerar a tabela de enquadramento das arquiteturas. Como resultado,
temos as 4 (quatro) grandes classes, relacionadas a seguir:
Single Instruction, Single Data (SISD): nesta categoria temos os computadores
que no exploram nenhum tipo de paralelismo. Uma nica unidade de controle
responsvel por processar um nico fluxo de instrues num nico fluxo de
dados. Os exemplos nesta categoria so os antigos computadores pessoais,
antigos mainframes e demais mquinas que implementam a arquitetura
tradicional de von Neumann [Navaux 2003];
Single Instruction, Multiple Data (SIMD): projetos de arquiteturas onde uma
nica instruo executada simultaneamente em mltiplos fluxos de dados.
Navaux (2003) ressalta que para que este tipo de processamento ocorrer, a
unidade de memria no pode ser implementada como um nico mdulo.
Enquadram-se neste grupo mquinas Array como o Cray J-90, o CM-2e o
MasPar, alm das GPUs [Hennesy, 2012]. Seriam categorizados como MISD, as
arquiteturas que apresentam mltiplos fluxos de instruo e executam suas
instrues sob um mesmo fluxo de dados;
Multiple Instruction, Single Data (MISD): esta categoria fonte de divergncia
entre os vrios cientistas e pesquisadores da rea de arquitetura de
computadores. De acordo com Navaux (2003), Mattson (2005) nenhum sistema
conhecido se encaixa nesta categoria. Entretanto Quinn (2003) aponta como
exemplo para esta categoria o systolic array;
Multiple Instruction, Multiple Data (MIMD): finalmente encaixam-se aqui os
multiprocessadores (memria compartilhada) e os multicomputadores (memria
privada). As duas arquiteturas apresentam mltiplas unidades de processamento
que manipulam diferentes fluxos de instruo com diferentes fluxos de dados .
29
Figura 2.5. Classificao de Flynn.
2.5. Dispositivos de Interconexo

Canais de comunicao de alta velocidade, com baixa latncia e mxima largura de
banda so desejados para a construo de solues distribudas. Estes por sua vez devem
atender requisitos como escalabilidade, facilidade de atualizao, alta disponibilidade e
bom relacionamento na relao custo/desempenho.
No artigo A Network Interface Controller Chip for High-Performance
Computing with Distributed Pcs, Watanabe et al. (2007) afirma que a maioria dos
clusters de alto desempenho utilizam solues SAN (System Area Network), como o
padro aberto chamado Myrinet. Este padro prov alto desempenho e comunicao
eficiente de pacotes de rede, com uma boa relao custo/desempenho. Porm para
conectar computadores que esto posicionados a longas distncias no andar de um
prdio ou mesmo ao longo de um edifcio, esta soluo se torna inadequada. Por outro
lado a utilizao da Ethernet e do protocolo TCP/IP, em pequenas redes locais, tornou-
se muito popular como camada de interconexo entre computadores, principalmente
aps a popularizao do Beowulf cluster.
Os esforos na eliminao de gargalos de comunicao e a maximizao da
velocidade de transmisso esto presentes em tecnologias como Memory Channel,
Quadrics e o Infiniband. No iremos abordar este assunto com maior aprofundamento,
porm, a seguir, encontra-se um resumo de como funcionam estas tecnologias.
30
Memory Channel: segundo Dantas (2005), a abordagem conhecida como
Memory Channel fornece at 100Mb/s de velocidade de transferncia e a
distncia fsica pode ser de at 10 (dez) metros. Esta tecnologia usa um switch
externo e placas especficas para realizar a sincronizao dos dados.
Quadrics ou QsNET: a topologia desta rede do tipo Fat-Tree, sendo possvel
expandir a rede a milhares de dispositivos de comutao. A taxa de transferncia
pode atingir a centenas de Mb/s e fornece baixa latncia. Utiliza uma interface
de rede programada chamada Elan [Dantas 2005].
Infiniband: uma especificao para protocolos de comunicao gerida pelo
grupo Infiniband Trade Association (http://www.infinibandta.org). Este grupo
composto por fornecedores lderes de mercado tais como HP, IBM, Intel,
Lellanox, Oracle, Qlogic e System Fabric Works. Este protocolo fornece uma
interface de comunicao com elevadas taxas de transferncia e suporte a
endereamento para at 64.000 dispositivos, suportando failover e QoS (Quality
of Service).
2.6. Clusters e Grids

Os clusters so aglomerados de computadores, interconectados atravs de uma mesma
rede, que utilizam sistemas e componentes de hardwares especializados, fornecendo ao
usurio final uma imagem unificada do sistema. Neste arranjo, cada componente do
aglomerado chamado de n e geralmente existe um deles responsvel por controlar e
gerenciar os demais, denominado mestre. Para que sejam eficientes, a camada de
comunicao deve ser rpida e confivel o suficiente para maximizar a utilizao dos
processadores e no gerar perdas de dados.
Durante o projeto e implementao destes aglomerados, so estudadas
caractersticas importantes para garantir a confiabilidade do sistema. Aspectos como
escalabilidade, tolerncia a falhas, disponibilidade e a interdependncia entre estes
fatores so reunidas em torno da meta de construir um sistema que seja aderente ao
propsito final, com menor custo de processamento/hora.
H disponvel no mercado clusters com as mais diversas finalidades, porm os
mais comuns so os relacionados a seguir:
alto desempenho: utilizados para executar aplicaes que requerem grande
quantidade de processamento como em aplicaes que envolvem clculos
numricos, simuladores e programas cientficos em geral;
alta disponibilidade: so clusters construdos com aplicaes auto gerenciveis,
que conseguem identificar falhas e proteger o sistema garantindo o uptime dos
aplicativos em execuo;
balanceamento de carga: composto de mecanismos que gerenciam a carga de
trabalho entre os ns do agrupamento, escalonando de forma controlada, para
no sobrecarregar somente alguns recursos. Conta tambm com recursos que
identificam a indisponibilidade e falhas dos ns gerenciados.
Computadores de mltiplos domnios, trabalhando em torno de uma mesma
tarefa com o objetivo de finalizar-la o mais rpido possvel so classificados como Grid.
31
Os Grids utilizam middlewares que dividem uma grande tarefa em pequenas partes
distribuindo entre os ns participantes e consolidando os resultados.
Um dos mais bem-sucedidos middlewares para computao em Grid o projeto
open source encabeado pela Universidade da Califrnia, nos EUA. O Berkeley Open
Infrastructure for Network Computing, mais conhecido pelo seu acrnimo BOINC. O
BOINC um software para computao voluntria utilizado em importantes projetos
como o SETI@home, que analisa ondas de rdio provenientes do espao sideral em
busca de vidas extraterrestres. O CERN (European Organization for Nuclear Research)
tambm utiliza este software para analisar os dados gerados pelo Grande Colisor de
Hdrons , o LHC. H ainda projetos especficos como o World Community Grid e o
Folding@Home, este ltimo da universidade de Standford, que se dedicam a buscar
cura para doenas.
2.7. Mtricas em Computao Paralela

Em um primeiro contato com a computao paralela, podemos nos deixar levar pela
errnea ideia de que ao dividir o trabalho em n unidades de processamento, os ganhos
desempenho seriam proporcionalmente em n vezes. importante ressaltar que isto nem
sempre possvel. Navaux (2003) relaciona os grandes desafios na rea de
processamento de alto desempenho, que explicam o motivo pelo qual nem sempre
possvel obter tal resultado. Os mesmos esto pautados em 4 (quatro) aspectos:
arquiteturas paralelas, gerenciamento das mquinas, linguagens mais expressivas que
consigam extrair o mximo de paralelismo e finalmente uma maior concorrncia nos
algoritmos.
Para nos auxiliar a mensurar os ganhos ao paralelizar algoritmos seriais,
podemos utilizar a mtrica denominada Speedup. Em computao paralela, o Speedup
utilizado para conhecer o quanto um algoritmo paralelo mais rpido que seu
correspondente sequencial. Pode ser obtido pela seguinte equao:
Tempo serial
Speedup=
Tempo Paralelo
O resultado deve variar entre 0 (zero) quanto mais prximo a zero, maiores
foram os ganhos - e 1 (um). Caso seja superior a 1 (um), o algoritmo paralelo menos
eficiente que o serial e precisa ser avaliado para a remoo de gargalos, ou ainda, para
apurar se foram escolhidas as melhores abordagens durante o projeto do seu cdigo.
Objetivando, portanto, estimar teoricamente os ganhos ao se paralelizar todo ou
parte de um cdigo, foi anunciada a lei de Amdahl, a qual assume que o desempenho do
algoritmo fica limitado pela frao de tempo das partes paralelizveis durante sua
execuo, sendo obtido a partir da equao:
1
Speedup=
Frao Sequencial do Programa
( Frao Sequencial do Programa+(1 ))
Nmero de Processadores
Alguns cientistas consideram o Speedup obtido pela lei de Amdahl uma
abordagem pessimista, pois no avalia a complexidade e o tamanho do problema a ser
tratado. Diante disto, foi anunciada uma segunda lei, que leva em conta tais fatores,
segundo a equao:
32
Speedup=Nm.processadoresFrao sequncial do programa( Nm.processadores1)
Esta lei conhecida como lei de Gustafon-Barsis.
2.8. O MPI
Durante a dcada de 90, foram produzidas duas especificaes que unificaram os
trabalhos dos participantes do MPI Forum (http://www.mpi-forum.org) na rea de
processamento paralelo e distribudo. Este trabalho foi encabeado por um grupo
formado por cerca de 60 pessoas provenientes de mais de 40 organizaes dos Estados
Unidos e Europa, sendo fortemente influenciado pelos resultados at ento alcanados
nos grupos do IBM T.J. Watson Research Center, Intel's NX/2 , Express, nCUBE's
Vertex, p4 e o PARMACS. Outras importantes contribuies vieram tambm do
Zipcode, Chimp, PVM, Chameleon e PICL.
A primeira verso MPI-1 - foi publicada no ano de 1994 contando com os
requisitos base necessrios para o padro de troca de mensagens. Os pontos mais
complexos foram deixados para a verso MPI-2, lanada posteriormente em 1997
[Mattson et al. 2010] .
Os trabalhos mais recentes do MPI Forum remontam aos anos de 2008 e 2009,
tendo como diretrizes a correo de bugs, a compilao das duas especificaes MPI-1
e MPI-2 - em um nico documento e a publicao de revises minor: MPI-2.1 e MPI-
2.2. A ltima atualizao aconteceu em setembro de 2012, quando o grupo publicou o
maior grupo de atualizaes no padro, incluindo novas extenses, a remoo de
bindings obsoletos para o C++ e o suporte ao FORTRAN 2008. Este ltimo release foi
nomeado como MPI-3.0.
Apesar de no ser uma norma homologada por institutos como IEEE, IETF, o
MPI De facto um padro para arquiteturas de memria distribuda, escrito e
ratificado pelo MPI Forum. A idia central do MPI consiste em prover rotinas de
sincronizao e controle processos, alm da distribuio e consolidao dos dados entre
os computadores interconectados, utilizando para isto o paradigma de troca de
mensagens.
O modelo da API do MPI, entrega ao programador uma camada de abstrao,
altamente portvel, entre o sistema operacional/tecnologias de comunicao e a
aplicao, permitindo escalar a execuo do programa entre os computadores da rede,
com o uso de suas memrias e poder de processamento, baseado no padro de diviso e
conquista. Por ser uma camada de alto nvel, possvel utilizar o mesmo programa em
uma grande variedade de computadores que estejam interconectados. A API muito
adequada a programas de propsito geral desenhados para sistemas SIMD e MIMD.
O padro tem como foco auxiliar a todos que precisem ou desejem criar
aplicativos portveis e paralelos em Fortran e C, fornecendo uma interface simples que
atenda desde solues menos sofisticadas at as mais avanadas, voltadas para o alto
desempenho, como as disponveis em computadores massivamente paralelos.
Cabe enfatizar que o MPI uma especificao. No entanto, h disponveis no
mercado implementaes livres e pagas. Podemos relacionar no modelo pago o Intel
MPI, HP MPI e o MATLab MPI. J as implementaes open source mais utilizadas so
33
o Open MPI e o MPICH. Fabricantes de supercomputadores costumam incluir features e
ferramentas especficas que visam maximizar o desempenho em suas mquinas.
Apesar de todas as facilidades do padro, a identificao das zonas paralelas
(reas do cdigo que podem ser executadas simultaneamente a outras tarefas) e o
dimensionamento de carga entre os computadores participantes, ficam a cargo do
desenvolvedor e devem ser explicitadas no programa. Uma anlise prvia do problema a
ser tratado, ir auxili-lo nesta tarefa.
Como o objetivo o aumento de desempenho, deve-se ter em mente o projeto de
um programa que realiza a menor troca de mensagens possvel, visando anular e/ou
reduzir o impacto do tempo despendido na distribuio e consolidao dos dados, no
tempo total de execuo. Podemos relacionar como exemplos os Hipercubos e Meshes,
que so formas de interconexo que visam reduzir e otimizar o processamento. No
iremos abordar este tema aqui por ser tratar de um tpico complexo para quem est
comeando a explorar computao paralela.
Para finalizar a apresentao do padro, vamos conhecer alguns conceitos
importantes inerentes a API, os quais nos ajudaro a compreender as funes
disponveis e como funciona o MPI. Estes so:
Processo: o mdulo executvel, ou seja, seu programa, que pode ser dividido
em N partes, e executado em uma ou mais mquinas;
Grupo: o conjunto de processos. No MPI a constante MPI_COMM_WORLD
armazena o comunicador de todos os processos definidos na aplicao MPI;
Rank: o controle de execuo do programa em MPI depende diretamente da
correta identificao do processador no grupo de trabalho. Esta identificao
um nmero inteiro que varia de 0 a N-1 processos. A funo MPI_Comm_rank
determina qual o identificador de cada processo dentro do comunicador;
Comunicador: o componente que representa o domnio de uma comunicao
em uma aplicao MPI;
Buffer de Aplicao: o espao reservado em memria para armazenar os dados
das mensagens que um processo necessita enviar ou receber, gerenciado pela
aplicao;
Buffer de Sistema: o espao reservado em memria pelo sistema para o
gerenciamento de mensagens.
2.8.1 Estrutura de um cdigo MPI

Antes de avanarmos nas funes que compe a API, precisamos compreender alguns
aspectos estruturais no cdigo. Na declarao de dependncias, obrigatrio a incluso
do cabealho mpi.h em todos os arquivos que utilizarem algum recurso do MPI. Este
cabealho contm as definies de funes e constantes necessrios durante o
desenvolvimento e compilao do seu programa. Todas as chamadas MPI devem estar
entre o MPI_Init e o MPI_Finalize, conforme a seguir(Figura 2.6).
34
Figura 2.6. Estrutura de um cdigo em C/MPI.
O MPI emprega uma consistente padronizao, que ajuda o desenvolvedor a

identificar facilmente mtodos e tipos da API. Todos os identificadores possuem o
prefixo MPI_. Tipos e constantes esto em letras maisculas (Ex. MPI_SHORT) e as
funes esto definidas com a primeira letra em maiscula e as demais letras em
minsculas. (Ex. MPI_Send).
Para o tratamento de excees, a biblioteca conta com um manipulador de erros
prprio. Caso ocorra algum problema durante a execuo, o mesmo responsvel por
sinalizar a ocorrncia para seu aplicativo e abortar as chamadas MPI .
Devido ao suporte a vrias linguagens, foi necessrio criar tabelas de
equivalncia de tipos de dados entre a API e as linguagens. A seguir, a tabela de
equivalncia para o C (Tabela 2.1):
Tabela 2.1. Equivalncia de tipos de dados
Tipo de Dados do MPI Tipo de Dados do C
MPI_CHAR signed char
MPI_SHORT signed short int
MPI_INT signed int
MPI_LONG signed long int
MPI_UNSIGNED_CHAR unsigned char
MPI_UNSIGNED_SHORT unsigned short int
MPI_UNSIGNED unsigned int
MPI_UNSIGNED_LONG unsigned long int
35
MPI_FLOAT float
MPI_DOUBLE double
MPI_LONG_DOUBLE long double
MPI_PACKED
MPI_BYTE
2.8.2 MPI_Init
Este mtodo inicializa o ambiente de execuo do MPI, sincronizando os processos
entre os computadores participantes e deve ser invocado uma nica vez durante toda a
execuo do seu aplicativo. Caso contrrio, o MPI ir sinalizar com o erro
MPI_ERR_OTHER. A assinatura do mtodo encontra-se a seguir:
int MPI_Init( int *argc, char ***argv );

argc
Ponteiro indicando o nmero de argumentos
argv
Ponteiro do vetor com os argumentos
Listagem 2.1. MPI_Init
Devemos assegurar que a chamada seja realizada por apenas uma Thread e que
esta mesma Thread invoque, ao final do processamento, o mtodo MPI_Finalize.
2.8.3 MPI_Finalize
Finaliza o ambiente de execuo do MPI, liberando os recursos utilizados durante o
processamento. Deve ser invocado sob a mesma Thread que executou o MPI_Init. Este
mtodo no possui argumentos.
2.8.4 Envio e recebimento de dados sncrono: MPI_Send e MPI_Recv

O MPI disponibiliza vrias rotinas para realizar as operaes de envio e recebimento de
mensagens entre os processadores, enquanto a de envio feita pela funo MPI_Send, a
de recebimento pelo MPI_Recv. Estes dois mtodos realizam a operao de envio e
recebimento de mensagens de forma sncrona, ou seja, aguarda a confirmao de
recebimento da mensagem para passar para a prxima instruo. As definies
encontram-se a seguir:
int MPI_Send(void *buf, int count, MPI_Datatype datatype, int

dest,int tag, MPI_Comm comm);
buf
Endereo do buffer de dados a ser enviado.
count
Nmero de elementos a ser enviado (nmero inteiro e no negativo).
36
datatype
Tipo do dado.
dest
Rank do destinatrio.
tag
Identificador para a mensagem (nmero inteiro).
comm
Comunicador. Em SIMD (MPI_COMM_WORLD), Em MIMD (O comunicador criado pela
funo MPI_Comm_create)
Listagem 2.2. MPI_Send
int MPI_Recv(void *buf, int count, MPI_Datatype datatype,int source,

int tag, MPI_Comm comm, MPI_Status *status);
buf
Endereo do buffer para receber os dados.
count
Nmero de elementos a ser recebido (nmero inteiro e no negativo).
datatype
Tipo do dado.
source
Rank do remetente.
tag
comm
Status
Status da mensagem
Listagem 2.3. MPI_Recv
2.8.5 Envio e recebimento de dados assncrono: MPI_Isend e MPI_Irecv

O MPI_Isend e o MPI_Irecv fornecem a funcionalidade de envio e recebimento
assncrono, respectivamente. Como s o comportamento modificado, possvel
combinar os mtodos MPI_Send/MPI_Recv com os mtodos MPI_Isend/MPI_Irecv.
int MPI_Isend(void *buf, int count, MPI_Datatype datatype, int dest,

int tag, MPI_Comm comm, MPI_Request *request);
buf
Endereo do buffer de dado a ser enviado.
count
datatype
Tipo do dado.
dest
tag
comm
37
request
Solicitao de envio. Utilizado pelas funes de bloqueio como MPI_Wait para assegurar a
concluso do processamento.
Listagem 2.4. MPI_Isend
int MPI_Irecv(void *buf, int count, MPI_Datatype datatype,int source,

int tag, MPI_Comm comm, MPI_Request *request);
buf
Endereo do buffer para receber os dados.
count
Nmero de elementos a ser recebido (nmero inteiro e no negativo).
datatype
Tipo do dado.
source
Rank do remetente.
tag
comm
Comunicador. Em SIMD (MPI_COMM_WORLD), Em MIMD ( O comunicador criado pela
request
Solicitao de recebimento. Utilizado pelas funes de bloqueio como MPI_Wait para assegurar
a concluso do processamento.
Listagem 2.5. MPI_Irecv
2.8.6 MPI_Wait
Ao realizar operaes assncronas, podemos nos deparar com situaes de dependncia (
dados, instrues, entre outros) onde necessrio assegurar a concluso dos mesmos
antes de executar a prxima instruo. Para solucionar tais questes o MPI fornece
funes como o MPI_Wait.
int MPI_Wait(MPI_Request *request, MPI_Status *status);
request
Identificador da requisio a ser bloqueada.
status
Retorna a informao sobre a situao da operao. Para testar o status utilize a funo
MPI_Test
Listagem 2.6. MPI_Wait
2.8.7 Comunicaes Coletivas

At o momento, foram apresentadas rotinas que fazem a comunicao entre dois
processos especficos, denominados ponto-a-ponto. Adicionalmente a estas funes, o
MPI prov suporte a operaes que devem ser realizadas simultaneamente em mais de
38
dois processos de um grupo de trabalho, especificados atravs do contexto - para
arquiteturas SIMD (MPI_COMM_WORLD), j em MIMD (o comunicador criado pela
funo MPI_Comm_create).
As operaes mais comuns nas comunicaes coletivas so as que realizam
sincronizao, distribuio de dados (Broadcast) e finalmente, as redues (Reduction)
para operaes de consolidao de dados, como operaes de soma por exemplo.
2.8.8 MPI_Barrier
O MPI_Barrier define um ponto de sincronizao entre todos os processos participantes
da comunicao coletiva, isto , o cdigo no pode prosseguir enquanto todos no
estiverem no sincronizados no mesmo ponto.
int MPI_Barrier(MPI_Comm comm);
comm
Listagem 2.7. MPI_ Barrier
2.8.9 MPI_Bcast
A distribuio de uma mensagem para todos os processos do grupo realizado pela
funo MPI_Bcast.
int MPI_Bcast(void *buffer, int count, MPI_Datatype datatype,int

root, MPI_Comm comm);
buf
Endereo do buffer de dados a ser enviado.
count
datatype
Tipo do dado.
root
comm
Listagem 2.8. MPI_ Bcast
2.8.10 MPI_Reduce
Para a consolidao dos resultados do processamento em comunicaes coletivas, a
funo MPI_Reduce fornece vrios tipos de operaes (Tabela 2.2).
Tabela 2.2. Operaes do MPI_Reduce no MPI
ID Operao
MPI_MAX Maior nmero
39
MPI_MIN Menor nmero
MPI_SUM Soma
MPI_PROD Produto
MPI_LAND Conjuno lgica E
MPI_BAND Conjuno lgica bit a bit E
MPI_LOR Conjuno lgica OU
MPI_BOR Conjuno lgica bit a bit OU
MPI_LXOR Disjuno lgica
MPI_BXOR Disjuno lgica bit a bit
MPI_MAXLOC Mximo e sua localizao
MPI_MINLOC Mnimo e sua localizao
int MPI_Reduce(void *sendbuf, void *recvbuf, int count,MPI_Datatype

datatype, MPI_Op op, int root, MPI_Comm comm)
sendbuf
Endereo do buffer de envio.
recvbuf
Endereo do buffer de recebimento.
count
datatype
Tipo do dado.
op
Identificador da operao de reduo.
root
Rank do processo que realizar a operao de reduo.
comm
Listagem 2.9. MPI_Reduce
2.8.11 MPI_Scatter e MPI_Gather

Para a distribuio e recolhimento de mensagens contendo pedaos de dados de mesmo
tamanho, o MPI fornece dois mtodos: o MPI_Scatter e o MPI_Gather. Estas duas
funes so muito teis em operaes envolvendo lgebra linear, como multiplicao de
matrizes, por exemplo. O MPI_Scatter responsvel pela distribuio dos dados, j o
MPI_Gather pelo recolhimento.
int MPI_Scatter(void *sendbuf, int sendcount, MPI_Datatype
40
sendtype,void *recvbuf, int recvcount, MPI_Datatype recvtype, int
root,MPI_Comm comm)
sendbuf
Endereo do buffer para envio dos dados.
sendcount
sendtype
Tipo do dado.
recvcount
Nmero de elementos no buffer de recebimento (nmero inteiro e no negativo).
recvtype
Tipo do dado.
root
Rank do processo de envio.
comm
Listagem 2.10. MPI_Scatter
int MPI_Gather(void *sendbuf, int sendcount, MPI_Datatype

sendtype,void *recvbuf, int recvcount, MPI_Datatype recvtype, int
root,MPI_Comm comm)
sendbuf
sendcount
sendtype
Tipo do dado.
recvcount
recvtype
Tipo do dado.
root
Rank do processo de envio.
comm
Listagem 2.10. MPI_Gather
2.8.12 MPI_Allgather
Quando todos os processos precisam receber os dados coletados dos demais processos
do grupo, o MPI_Allgather deve ser utilizado. Novamente aqui os dados precisam ser
do mesmo tamanho.
int MPI_Allgather(void *sendbuf, int sendcount,MPI_Datatype

sendtype, void *recvbuf, int recvcount,MPI_Datatype recvtype,
MPI_Comm comm)
sendbuf
41
sendcount
sendtype
Tipo do dado.
recvbuf
Endereo do buffer para recebimento dos dados.
recvcount
recvtype
Tipo do dado.
comm
Comunicador. Em SIMD ( MPI_COMM_WORLD), Em MIMD (O comunicador criado pela
funo MPI_Comm_create) .
Listagem 2.11. MPI_Allgather
2.8.13 Tipos derivados de dados.

Os mecanismos bsicos de comunicao do MPI podem ser usados para enviar ou
receber sequncias de elementos de mesmo tipo, que podem ser ou no contguos em
memria. O objetivo amortizar o custo desta operao e prover ganhos no tempo total
de execuo do seu algoritmo.
Diferentemente da abordagem de declarao em tempo de desenvolvimento, no
MPI os tipos de dados so criados em tempo de execuo, entre as funes MPI_Init e
MPI_Finalize. O ciclo de vida destes tipos possuem as seguintes etapas: declarao,
alocao, o uso efetivo do tipo durante a execuo do programa e, finalmente, a
liberao dos recursos. Os mtodos de construo destes tipos so:
MPI_Type_contiguous: o construtor mais simples dentre os disponibilizados
no MPI. Gera um novo tipo contnuo a partir de cpias de um tipo de dados
existente.
MPI_Type_vector: semelhante ao MPI_Type_contiguous, porm permite a
configurao de lacunas (strides) nos deslocamentos. H ainda a funo
MPI_Type_hvector que um MPI_Type_vector, porm definido em bytes.
MPI_Type_indexed: gera uma matriz de deslocamentos do tipo de dados como
um mapa para o novo tipo de dados. H ainda a sua variao em bytes:
MPI_Type_hindexed.
MPI_Type_struct: dos tipos derivados, este o mais genrico. O novo tipo
formado de acordo com cada componente da estrutura de dados.
Antes de ser utilizado, necessrio informar aos processadores da comunicao
coletiva que o tipo est disponvel. Esta operao feita atravs da funo
MPI_Type_commit. Para a liberao dos recursos alocados, a funo a
MPI_Type_free. Como o free no C, o MPI_Type_free evita o consumo de memria
desnecessrio, para os tipo de dados que no so mais utilizados.
A utilizao de tipos derivados recomendada por prover uma soluo portvel
e elegante para o envio de dados no contguos, maximizando a eficincia dos mtodos
de envio e recebimento de dados, promovendo ganhos no tempo total de execuo do
seu programa.
42
2.9. Concluses
Neste minicurso buscamos explorar uma viso geral sobre arquiteturas paralelas e o
modelo de programao baseado no paradigma de message passing. A partir das
funes e ideias apresentadas, possvel construir cdigos explorando paralelismo com
o MPI. As features mais complexas do MPI no abordadas retratam questes de
refinamento de desempenho e manipulao de arquivos de forma paralela. Estas
caractersticas podem ser conhecidas atravs do site do MPI-Forum( http://www.mpi-
forum.org) ou por intermdio das bibliografias listadas nas referncias.
Em Computao Paralela, h ainda outras tecnologias que podem ser utilizadas
em conjunto ao MPI. Em Memria Compartilhada (Shared Memory), por exemplo, o
modelo do OpenMP fornece os mesmos benefcios de portabilidade do OpenMPI para
este tipo de arquitetura. H ainda abordagens que exploram paralelismo em placas de
vdeo , como o modelo livre chamado OpenCL, definido pelo consrcio de empresas
chamado Khronos Group, alm dos modelo proprietrios propostos pela NVIDIA
(CUDA) e o OpenACC(http://www.openacc-standard.org/), encabeado atualmente pela
PGI, Nvidia, Caps e Cray.
Referncias
Chen, Yen-Kuang. (2008), Convergence of Recognition, Mining, and Synthesis
Workloads and Its Implications, http://ieeexplore.ieee.org/xpl/login.jsp?
tp=&arnumber=4479863&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls
%2Fabs_all.jsp%3Farnumber%3D4479863, Maio.
Dantas, Mario. (2005), Computao Distribuda de Alto Desempenho, Axcel, 1 edio.
De Rose, Csar A. F. Navaux, Phillippe O. A. (2005), Arquiteturas Paralelas, Bookman,
1 edio.
Gebali, Fayez. (2011), Algorithms and Parallel Computing, Wiley, 1 edio.
Hennesy. John L. Patterson, David A. (2012), Computer Architecture, Morgan
Kaufamann, 5 edio.
Kirk, David B. Hwu, Wen-mei W. (2010), Programming Massively Parallel Processors,
Morgan Kaufmann, 1 edio.
Martin, Milo M. K. Hill,Mark D. Sorin,Daniel J. (2012), Why on-chip cache coherence
is here to stay, http://doi.acm.org/10.1145/2209249.2209269, Julho
Mattson, T.G, Sanders. B.A., Massingill, B.L. (2010), Patterns for Parallel
Programming. Addison-Wesley, 1 edio.
Mishra, Bhabani Shankar. and Dehuri, Satchidananda (2011). Parallel Computing
Environments: A Review., http://tr.ietejournals.org/article.asp?issn=0256-
4602;year=2011;volume=28;issue=3;spage=240;epage=247;aulast=Mishra;t=6, Maio
MPI Forum. (2012), MPI-3.0 Standard Specification, http://www.mpi-
forum.org/docs/mpi-3.0/mpi30-report.pdf, Setembro.
43
Peiqiang, L. Zeng, Y. Kotoulas, S. Urbani, J. and Zhong, N. (2009) The Quest for
Parallel Reasoning on the Semantic Web, http://dx.doi.org/10.1007/978-3-642-
04875-3_45, Novembro.
Pitt-Francis, J. and Whiteley, J. (2012), An Introduction to Parallel Programming Using
MPI - Guide to Scientific Computing in C++ ,Springer, 1 edio
Quammen, Cory. (2005). Introduction to programming shared-memory and distributed-
memory parallel computers, http://doi.acm.org/10.1145/1144382.1144384 , Outubro
Quinn, Michael J. (2003), Parallel Programming in C with MPI and OpenMP, Mc Graw
Hill, 1 edio.
Watanabe, K. Otsuka, T. Tsuchiya, J. Nishi, H. Yamamoto, J. Tanabe, N. Kudoh, T. and
Amano, H. (2007), A Network Interface Controller Chip for High Performance
Computing with Distributed PCs, Parallel and Distributed Systems,
http://ieeexplore.ieee.org/stamp/stamp.jsp?
tp=&arnumber=4288127&isnumber=4288116, Setembro.
44

Introdução A Computação Paralela Com o OpenMPI

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Introdução A Computação Paralela Com o OpenMPI

Încărcat de

Drepturi de autor:

Formate disponibile

Captulo

Sandro Athaide Coelho

2.2. Motivaes para Computao Paralela

2.3. Arquitetura de Computadores

2.3.1. Memria distribuda (Distributed Memory)

Figura 2.1. Exemplo de arquitetura paralela distribuda

A grande vantagem desta configurao a flexibilidade em expandir ou reduzir

2.3.2. Memria compartilhada (Shared Memory)

Figura 2.2. Exemplo de arquitetura paralela de memria compartilhada

A vantagem desta arquitetura a velocidade e simplicidade dos programas,

Figura 2.3. Fork-join no OpenMP

A seguir apresentado um exemplo de uma funo que soma um vetor

2.3.3. UMA (Uniform Memory Access)

2.4. Classificao de Flynn

2.5. Dispositivos de Interconexo

2.6. Clusters e Grids

2.7. Mtricas em Computao Paralela

2.8.1 Estrutura de um cdigo MPI

O MPI emprega uma consistente padronizao, que ajuda o desenvolvedor a

Tipo de Dados do MPI Tipo de Dados do C

MPI_CHAR signed char

MPI_SHORT signed short int

MPI_INT signed int

MPI_LONG signed long int

MPI_UNSIGNED_CHAR unsigned char

MPI_UNSIGNED_SHORT unsigned short int

MPI_UNSIGNED unsigned int

MPI_UNSIGNED_LONG unsigned long int

MPI_LONG_DOUBLE long double

int MPI_Init( int *argc, char ***argv );

Listagem 2.1. MPI_Init

2.8.4 Envio e recebimento de dados sncrono: MPI_Send e MPI_Recv

int MPI_Send(void *buf, int count, MPI_Datatype datatype, int

Listagem 2.2. MPI_Send

int MPI_Recv(void *buf, int count, MPI_Datatype datatype,int source,

Listagem 2.3. MPI_Recv

2.8.5 Envio e recebimento de dados assncrono: MPI_Isend e MPI_Irecv

int MPI_Isend(void *buf, int count, MPI_Datatype datatype, int dest,

Listagem 2.4. MPI_Isend

int MPI_Irecv(void *buf, int count, MPI_Datatype datatype,int source,

Listagem 2.5. MPI_Irecv

int MPI_Wait(MPI_Request *request, MPI_Status *status);

Listagem 2.6. MPI_Wait

2.8.7 Comunicaes Coletivas

int MPI_Barrier(MPI_Comm comm);

Listagem 2.7. MPI_ Barrier

int MPI_Bcast(void *buffer, int count, MPI_Datatype datatype,int

Listagem 2.8. MPI_ Bcast

MPI_MAX Maior nmero

MPI_LAND Conjuno lgica E

MPI_BAND Conjuno lgica bit a bit E

MPI_LOR Conjuno lgica OU

MPI_BOR Conjuno lgica bit a bit OU

MPI_LXOR Disjuno lgica

MPI_BXOR Disjuno lgica bit a bit

MPI_MAXLOC Mximo e sua localizao

MPI_MINLOC Mnimo e sua localizao

int MPI_Reduce(void *sendbuf, void *recvbuf, int count,MPI_Datatype

Listagem 2.9. MPI_Reduce

2.8.11 MPI_Scatter e MPI_Gather

int MPI_Scatter(void *sendbuf, int sendcount, MPI_Datatype

Listagem 2.10. MPI_Scatter

int MPI_Gather(void *sendbuf, int sendcount, MPI_Datatype

int MPI_Wait(MPI_Request request, MPI_Status status);

int MPI_Reduce(void sendbuf, void recvbuf, int count,MPI_Datatype