ASC - 13 - Benchmarking Serial Paralel

Arhitectura Sistemelor de
Calcul – Curs 13
Universitatea Politehnica Bucuresti

Facultatea de Automatica si Calculatoare
cs.pub.ro
curs.cs.pub.ro
Cuprins
2
• Benchmarking – nevoia de a compara

sisteme de calcul
• Benchmark-uri pentru masini “seriale”
• HPCC: HPC Challenge Benchmark
– Motivatie
– Prezentarea componentelor software
– Grafice & Date
1
Motivatie
3
• Lectura specificatiilor unor sisteme de calcul nu

este suficienta pentru a ne oferi o imagine
completa asupra performantelor acestuia
• Asadar, a fost necesara crearea unor teste
(benchmark-uri) care sa permita compararea
performantelor intre sisteme/arhitecturi diverse
• Testele constau din seturi de programe care sunt
menite sa scoata in evidenta performantele
diverselor componente ale unui SC:
– Floating Point CPU Performance
– Caracteristici de interconectare (Bandwidth/Latenta)
– Memorii externe (Hard-Drives)
Caracteristici & Probleme

4
• Sunt create pentru a “simula” comportamentul

aplicatiilor reale (sintetice)
• Cele mai bune benchmark-uri sunt aplicatiile
utilizator in sine…
• Asadar, trebuie sa fim intotdeauna circumspecti
cand utilizam benchmark-uri!
• Cateva probleme:
– Producatorii HW fac “tuning”
– Performantele masinilor se degradeaza cand load-ul
depaseste o valoare de prag
– Securitatea, disponibilitatea, fiabilitatea, serviceabilitatea
sau scalabilitatea NU sunt obiectul unui benchmark
2
Tipuri de Benchmark-uri
5
1. Aplicatii reale: procesoare de text, aplicatii utilizator

2. Kernel: contine doar parti esentiale dintr-o varietate
de programe (i.e. Linpack), cu rezultate in MFlops
3. Micro-benchmark-uri: dezvoltate de utilizatori pentru
a testa componente ale sistemului
4. Sintetice: se strang date statistice asupra operatiilor
efectuate de aplicatii si se construiesc programe
care sa respecte proportia aflata astfel
(Whetstone/Dhrystone)
5. Pentru sisteme I/O
6. Pentru sisteme paralele
Cuprins
6

sisteme de calcul
– Motivatie
– Grafice & Date
3
SPEC
7
• SPEC (Standard Performance Evaluation

Corporation) realizeaza benchmark-uri pentru
sisteme de calcul si le publica pe web
• Incearca sa simuleze situatii reale:
– SPECweb testeaza performantele unui server de web
pentru diferite tipuri de cereri HTTP paralele
– SPEC CPU testeaza CPU-ul ruland
• SPEC sunt scrise in C sau Fortran (compilatoarele
pot avea optimizari pentru acest tip de aplicatie)
• Se distribuie cu o licenta
• Exista un conflict cu GPL (foloseste cod GPL)…
• http://www.spec.org/
TPC & BAPCo & Sandra

8
• TPC (Transaction Processing Performance

Council) a definit benchmark-uri pentru procesarea
tranzactiilor si a bazelor de date:
– http://www.tpc.org/
• Consortiul BAPCo (Business Application
Performance Corporation) este format din Intel,
AMD, Dell, HP, NVidia, Apple & Microsoft, etc:
– WEBmark, SYSmark 2004SE, si MobileMark
– http://www.bapco.com/
• SiSoftware Sandra (System ANalyser, Diagnostic
and Reporting Assistant) este un program de
testare si diagnoza:
– http://www.sisoftware.net/
4
Cuprins
9

sisteme de calcul
– Motivatie
– Grafice & Date
The LINPACK Benchmark

10
• Avantaje
– Ofera ca rezultat un singur numar Rmax = performanta maxima
realizata; Rpeak = performanta maxima teoretica de varf (estimata)
– Usor de definit si usor de clasificat pe baza lui
– Permite modificarea dimensiunii problemei
– Ocupa sistemul testat cu un job de lunga durata
• Dezavantaje
– Scoate in evidenta doar viteza “peak” si numarul de procesoare
– Nu evidentiaza rata de transfer locala (bandwidth)
– Nu evidentiaza reteaua de comutare
– Nu testeaza mecanisme de tipul gather/scatter
– Ignora legea lui Amdahl – permite doar scalare “slaba”
• Un singur numar nu poate caracteriza performanta totala a
unui sistem de calcul!
• In mod evident, ceva mai complex decat LINPACK este
necesar…
5
Relevanta LINPACK
11
• Daca luam in considerare anii 70’-80’, poate ca

LINPACK era cel mai potrivit benchmark
• Atunci, “zidul” memoriei era mai mult o “treapta”
• Memoria era mult mai
“apropiata” de CPU:
– n ciclii pentru a executa
o instructiune si n ciclii
pentru a aduce un cuvant
din memorie
• LINPACK arata de asemenea gradul de optimizare
al compilatoarelor
Schimbari ale Sistemelor de Calcul

12
• In ultimii 40 de ani s-au schimbat foarte multe in

hardware-ul sistemelor de calcul:
– Arhitecturi vectoriale, superscalare, distribuite, cu
memorie partajata, sisteme multicore, etc
• Cu toate ca LINPACK a fost modificat, nu toate
modificarile reflecta
progresele hardware
• Ierarhia memoriilor
este mult mai complexa
acum
6
HPC Challenge Benchmark
13
• Un Benchmark ce evidentiaza
– Procesoarele
– Memoria
HPCS = High Productivity Computing Systems
– Reteaua de interconectare DARPA = Defense Advanced Research Projects Agency
• Avantajul major al HPCC – arhitecturile pot fi descrise cu

mult mai multe metrici decat FLOPS-urile LINPACK
• Scopuri ale HPCC
– Sa fie complementar cu TOP 500
– Sa ofere benchmark-uri care exprima performata aplicatiilor ca o
functie a caracteristilor accesului la memoria sistemului (ca localitate
spatiala si temporala)
– Sa permita optimizari
• Sa inregistreze efortul necesar pentru tuning-ul aplicatiilor
• Rularea necesita MPI si BLAS
– Rezultatele obtinute sa poata fi verificate
– Sa arhiveze rezultatele
Testarea unui singur Procesor si a

unui intreg Sistem de Calcul
14
• Local: un singur procesor

participa la calculele dorite
• Embarrasingly Parallel: fiecare

procesor din sistem participa la
calcule, insa ele nu comunica
explicit intre ele
• Global: toate procesoarele din

sistem participa la calcule si
comunica explicit intre ele
7
HPC Challenge Benchmark
15
• HPCC e format din 7 benchmark-uri diferite si este

de fapt un framework pentru adaugarea de
benchmark-uri relevante:
1. HPL (LINPACK) – MPI Global (Ax=b)
2. STREAM – Local Local
*STREAM – EP
3. PTRANS – MPI Global (A ← A + BT)
4. RandomAccess – Local, MPI Global
EP
*RandomAccess – EP
5. BW and Latency – MPI
6. FFT – Local, Global & EP
7. Matrix Multiply – Local & EP Global
Scopul HPCC
16
• HPCS incearca prin HPCC sa:

– Uniformizeze diferentele existente in ierarhia de memorie
– Imbunatateasca performantele aplicatiilor reale
– Usureze programarea sistemelor (paralele) de calcul
8
Functionarea HPCC
17
• Benchmark-ul functioneaza ca un program de sine statator
• Similar ca fisier de intrare/specificare cu HPL
• HPCC este format dintr-un “Base Run”, urmat de eventuale
“Optimization Runs”:
– Base Run este rularea Benchmark-ului “out of the box”
– Utilizatorul trebuie sa instaleze pe masinile de test MPI si BLAS
– In Optimized Runs se pot inlocui anumite subrutine, pentru a creste
performantele unei anume componente
• Rezultatele se upload-eaza pe web la:
http://icl.cs.utk.edu/hpcc/
• Se pot genera apoi tabele html sau Excel cu rezultatele
obtinute:
– In mod intentionat nu se va oferi un singur criteriu de evaluare
– Astfel NU se vor obtine clasificari generale!
• Scopul declarat al HPCC: sa NU necesite mai mult de
dublul unei rulari HPL
Resurse vs HPCC
18
• Din ce sunt formate componentele HPCC?
9
Rezultate HPCC
19
Diagrame Kiviat
20
• HPL, STREAM,
DGEMM: tehnologia
de interconectarea NU
conteaza; HPL
scaleaza bine iar
STREAM si DGEMM
nu comunica (sunt
locale)
• RandomRing
Bandwidth: Cray-ul are
cel mai mare
bandwidth
• RandomRing Latency:
Cray-ul are si cea mai
mica latenta
• Random Access:
Tehnologia de
interconectare
conteaza mult –
senzitivitate la latenta
• PTRANS & FFTE:
Tehnologia de
interconectare
conteaza mult –
senzitivitate la
bandwidth
10
HPL & HPCC Benchmarks
21
• On February 22nd 2009 we broke the 1TFlops barrier

with 28 of our 32 IBM HS21 blades (2xQuad-Core)
• HPL performance:
55.88%
1003 GFlops from
1792 GFlops peak
• System dimension:
230.000 (Ax=b)
Further Performance Improvements

22
• Employ the IBM XL C/C++ Compiler Suite

• Employ the Intel Cluster Toolkit Compiler Suite
• Use optimized MKL,
MASS libraries
• Use the QS22 Cell
Xi Blades together
with the extra HS21
Blades → 256 Xeon
Cores & 64 SPUs
11
Dezvoltarea Viitoare a HPCC
23
• Proiectul doreste crearea unui cadru pentru

dezvoltearea de benchmark-uri
• Se doreste dezvoltarea unor “semnaturi” ale
fiecarei masini
• In viitor, colectia de benchmark-uri trebuie marita
– De exemplu pentru operatii cu matrici rare
• Portarea HPCC pe cat mai multe sisteme
• Implementarea diversa a HPCC
– In noi limbaje (Fortran, UPC, Co-Array)
– In noi medii
– In noi paradigme
Suggested Hands-On!
24
• SPEC/TPC/BAPCo/Sandra
• Hai sa vedem cum arata pe clusterul nostru
un Base Run HPCC
• Fisierul de intrare: hpccinf.txt
• Fisierul de iesire: hpccout.txt
• Cateva cuvinte despre configurare/instalare:
– MPI (mpich)
– BLAS (Atlas)
– Compilatoare & optimizari
12

ASC - 13 - Benchmarking Serial Paralel

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

ASC - 13 - Benchmarking Serial Paralel

Încărcat de

Drepturi de autor:

Formate disponibile

Arhitectura Sistemelor de

Universitatea Politehnica Bucuresti

• Benchmarking – nevoia de a compara

• Lectura specificatiilor unor sisteme de calcul nu

Caracteristici & Probleme

• Sunt create pentru a “simula” comportamentul

1. Aplicatii reale: procesoare de text, aplicatii utilizator

• Benchmarking – nevoia de a compara

• SPEC (Standard Performance Evaluation

TPC & BAPCo & Sandra

• TPC (Transaction Processing Performance

• Benchmarking – nevoia de a compara

The LINPACK Benchmark

• Daca luam in considerare anii 70’-80’, poate ca

Schimbari ale Sistemelor de Calcul

• In ultimii 40 de ani s-au schimbat foarte multe in

• Avantajul major al HPCC – arhitecturile pot fi descrise cu

Testarea unui singur Procesor si a

• Local: un singur procesor

• Embarrasingly Parallel: fiecare

• Global: toate procesoarele din

• HPCC e format din 7 benchmark-uri diferite si este

• HPCS incearca prin HPCC sa:

• Din ce sunt formate componentele HPCC?

• On February 22nd 2009 we broke the 1TFlops barrier

Further Performance Improvements

• Employ the IBM XL C/C++ Compiler Suite

• Proiectul doreste crearea unui cadru pentru

S-ar putea să vă placă și