Documente Academic
Documente Profesional
Documente Cultură
MICROPROCESOARE
2018
CURS 13 – ARHITECTURI
PERFORMANTE DE CALCUL
ș.l. dr. ing. Radu PIETRARU
radu.pietraru@aii.pub.ro
CONCEPTE CHEIE
Standardizarea sistemelor
multiprocesor / multinucleu.
2
INTEL SMP – MULTIPROCESSOR
SPECIFICATION V1.4
HTTP://WWW.INTEL.COM/DESIGN/PENTIUM/DATASHTS/24201606.PDF
3
INTEL SMP
Model multiprocesor pentru microprocesoarele 80486
și Pentium ce implementează o arhitectură simetrică
puternic cuplată a sistemului de memorie, a
sistemului de întreruperi și a sistemului I/O.
Funcționalitatea tuturor microprocesoarelor este
identică; nu există ierarhie sau relație master-slave.
Sistemul de memorie este simetric: toate procesoarele
partajează același spațiu de adrese – avantaj:
microprocesoarele pot executa aceiași copie a
sistemului de operare.
Sistemul I/O și sistemul de întreruperi sunt simetrice:
toate microprocesoarele partajează același spațiu de
adrese I/O și orice microprocesor poate primi o cerere
de întrerupere din orice sursă. 4
INTEL SMP
5
BOOTSTRAP PROCESSOR
6
INTEL HYPER-THREADING
7
INTEL CORE 2 DUO PROCESSOR
8
AMD OPTERON
Circuit destinat
serverelor, primul
microprocesor care
suportă AMD64
1 – 16 nuclee (K8 –
K10)
http://support.amd.com/TechDocs/40546.pdf
AMD OPTERON
Nu mai este folosită
arhitectura de
interconectare de tip
magistrală – utilizează o
arhitectură de tip Direct
Connect Architecture
(DCA) în conjuncție cu
tehnologia
HyperTransport (HT).
DCA este o arhitectură
de tip punct la punct
evitând bottleneck-urile
cauzate de arhitecturile
clasice.
10
AMD OPTERON
System Request
Interface (SRI) conține
partea de mapare a
spațiului de adrese și
plajele alocate
nodurilor.
Dacă este vorba de acces
la o memorie locală se
face legătura cu Memory
Controller dacă este
vorba de un acces off-
chip se face legătura cu
un port HT. 11
AMD OPTERON – ARHITECTURĂ NUMA
12
CCNUMA (CACHE COHERENT)
13
http://ftps.zdnet.com.cn/files/2/15966.pdf
INTEL NEHALEM (CORE I7)
14
http://home.ustc.edu.cn/~shengjie/PAPER/PACT09_Nehalm_Memory_Performance.pdf
INTEL NEHALEM
15
SUN ULTRASPARC T1
http://www.opensparc.net/publications/books/opensparc-internals.html 16
IBM CELL BROADBAND ENGINE
http://www.ibm.com/developerworks/power/library/pa-cellperf/
17
IBM CELL BROADBAND ENGINE
Arhitectură eterogenă
formată din două
elemente de
procesare:
PowerPC Processing
Element (PPE) –
procesor pe 64 de biți
PowerPC
Synergistic Precessor
Element (SPE) – 8
nuclee optimizate
pentru rularea
aplicațiilor SIMD 18
IBM POWER4
19
http://www.cc.gatech.edu/~bader/COURSES/UNM/ece637-Fall2003/papers/TDF02.pdf
IBM POWER4
20
IBM POWER
21
IBM POWER7
22
ARM CORTEX-A15
23
ARM CORTEX-A15
24
MANY-CORE ARHITECTURE –
TILE ARHITECTURE
25
NVIDIA CUDA
26
INTEL MIC (MANY INTEGRATED CORE)
XEON PHI până la 61 de nuclee și 16GB GDDR5
rulează uOS Linux
27
https://books.google.ro/books?id=wZ-9AAAAQBAJ
PROBLEMATICĂ – LIMITAREA
PERFORMANȚEI
28
TOP500 SUPERCOMPUTERS SITES
HTTP://WWW.TOP500.ORG
29
TOP 10 – NOIEMBRIE 2016
Nume Arhitectură Locați Tflop/s Scop Nuclee
e
Sunway Sunway MPP, Sunway SW26010 260C 1.45GHz,
TaihuLight Sunway China 93014 Research 10649600
TH-IVB-FEP Cluster, Intel Xeon E5-2692 12C
Tianhe-2 2.200GHz, TH Express-2, Intel Xeon Phi 31S1P China 33862 Research 3120000
Cray XK7 , Opteron 6274 16C 2.200GHz, Cray
Titan Gemini interconnect, NVIDIA K20x USA 17590 Research 560640
Sequoia BlueGene/Q, Power BQC 16C 1.60 GHz, Custom USA 17173 Research 1572864
Cray XC40, Intel Xeon Phi 7250 68C 1.4GHz, Aries
Cori interconnect USA 14014 Research 622336
Oakforest- PRIMERGY CX1640 M1, Intel Xeon Phi 7250 68C
PACS 1.4GHz, Intel Omni-Path Japonia 13554 Research 556104
K computer, SPARC64 VIIIfx 2.0GHz, Tofu
Kcomputer interconnect Japonia 10510 Research 705024
Mira BlueGene/Q, Power BQC 16C 1.60GHz, Custom USA 8586 Research 786432
Cray XC40, Xeon E5-2698v3 16C 2.3GHz, Aries
Trinity interconnect Cray Inc. USA 8100 Research 301056
Cray XC30, Xeon E5-2670 8C 2.600GHz, Aries
Piz Daint interconnect , NVIDIA K20x Cray Inc. Elveția 6271 Research 115984
30
PERFORMANȚA TOTALĂ REPREZENTATĂ
GEOGRAFIC
31
GREEN500
WWW.GREEN500.ORG
32
SUNWAY TAIHULIGHT
HTTP://WWW.NETLIB.ORG/UTK/PEOPLE/JACKDONGARRA/PAPERS/SUNWAY-
REPORT-2016.PDF
33
SUNWAY TAIHULIGHT
HTTP://WWW.NETLIB.ORG/UTK/PEOPLE/JACKDONGARRA/PAPERS/SUNWAY-
REPORT-2016.PDF
34
SUNWAY TAIHULIGHT
HTTP://WWW.NETLIB.ORG/UTK/PEOPLE/JACKDONGARRA/PAPERS/SUNWAY-
REPORT-2016.PDF
35
TIANHE-2 (TH-2) – MILKYWAY-2
Dezvoltat de NUDT (National University of
Defense Technology) și Inspur (companie
comercială).
Bazat pe arhitectura Intel Ivy Bridge Xeon și
Xeon Phi, performanță teoretică 54,9Pflop/s.
Fiecare nod de calcul este compus din două
procesoare Xeon și trei plăci de extensie Xeon
Phi, nodurile sunt organizate câte două per placă,
16 plăci per sistem, 4 sisteme per rack, sistemul
este alcătuit din 125 de rack-uri.
36
TIANHE-2 (TH-2) – MILKYWAY-2
Fiecare dintre cele 16.000 de noduri dispune de 88 GB
(64GB pentru procesoarele Xeon, 8 GB pentru fiecare
procesor Xeon Phi) totalizând 1,34PB.
La încărcare maximă sistemul consumă aproximativ
17MW iar sistemul de răcire circa 24MW. Aria
acoperită de sistem este 720 m2.
Sistemul de comandă (front-end system) constă în
4096 de procesoareGalaxy FT-1500 (un derivat de
nucleu Spark V9) fiecare cu câte 16 nuclee la 1,8GHz.
Rețeaua de interconectare folosită este TH-Express-2
(concepută special de NUDT) de tip fat-three bazată
pe 13 switch-uri fiecare cu câte 576 porturi.
Tianhe-2 rulează Kylin Linux, o versiune de sistem de
operare dezvoltată de NUDT. Managementul
resurselor se bazează pe Simple Linux Utility for
Resource Management (SLURM). 37
ARHITECTURA UNUI NOD DE CALCUL
38
TIANHE-2 (TH-2) – MILKYWAY-2
39
TITAN (CRAY XK7)
Supercalculator dezvoltat de compania Cray în
cadrul Oak Ridge National Laboratory pentru
utilizare în diverse proiecte științifice. Este o
îmbunătățire a sistemului Jaguar; se bazează
procesoare grafice (GPU).
Titan utilizează procesoare AMD Opteron 6274
în conjuncție cu procesoare grafice Nvidia Tesla
K20 (18,688 de perechi CPU+GPU / 32GB+6GB
RAM – 710TB în total) atingând o performanță
teoretică de 27.1 petaFLOPS (24.5 GPU + 2.6
CPU)– a ocupat locul I în TOP500 până în
noiembrie 2012.
Utilizează o rețea de interconectare proprietar: 40
Cray Gemini 3D Torus. Consum 8.9MW.
AMD OPTERON 6274 & NVIDIA TESLA
K20
41
16 nuclee de procesare 14 nuclee SIMD (streaming
multiprocessors)
2.688 nuclee CUDA
ARHITECTURA UNUI NOD
42
ARHITECTURA SISTEMULUI
43
TITAN – ARII DE CERCETARE
44
TITAN (CRAY XK7)
45
IBM BLUEGENE
BlueGene este un proiect IBM demarat în 1999
destinat să realizeze supercalculatoare care să
atingă performațe de ordinul T-PFLOPS. În
cadrul proiectului există trei generații de sisteme:
BlueGene/L (2004, 70TFLOPS), BlueGene/P
(2007, 1 PFLOPS, prezent în GREEN500) și
BlueGene/Q (2011, 17PFLOPS).
Se bazează pe nuclee IBM PowerPC organizate în
compute card, node card și rack-uri.
46
BLUEGENE/Q
47
BLUEGENE/Q
Blue Gene/Q se bazează pe circuite cu 18 nuclee de tip PowerPC A2
(64 biți 4-way simultaneously multithreaded, 1,6 GHz). Fiecare
nucleu dispune de o unitate SIMD Quad-vector în virgulă mobilă
dublă precizie (IBM QPX). 16 nuclee sunt folosite pentru calcule, unul
pentru a îndeplini funcții specifice sistemului de operare (întreruperi,
I/O) și unul de rezervă. Nucleele sunt interconectate printr-o rețea
crossbar cu memoria cache L2.
➢ 1.6 GHz
➢ L1 I/D cache = 16kB/16kB
➢ L1 prefetch engines
➢ multiversioned cache
will support transactional memory,
speculative execution.
➢ supports atomic ops
Dual memory controller
➢ 16 GB external DDR3 memory
➢ 1.33 Gb/s
➢ 2 * 16 byte-wide interface (+ECC)
Chip-to-chip networking
➢ Router logic integrated into BQC chip. 49
External IO
➢ PCIe Gen2 interface
SEQUOIA BLUEGENE/Q
50
FUJITSU K COMPUTER
52
RESURSE HPC ROMÂNIA
CPU Peak GPU
Institution System Name CPU cores performance GPU cores performance
(double precision) (double precision)
West University
of Timisoara Blue Gene 4096 11.7 Tflops
(UVT)
Horia Hulubei
National
Institute for
Physics and IFIN_BC 1040 11.06 Tflops 2048 665 Gflops
Nuclear
Engineering
(IFIN)
University
NCIT Computing
Politehnica of 786 4.5 Tflops
Cluster
Bucharest
UBB - UTCN CMMCCC 1120
Technical
University from RO-09-UTCN 1024 10.25 Tflops
Cluj-Napoca
INCDTIM, Cluj-
IBM Cluster 512 9 Tflops 1024 665 Gflops
Napoca
53
sursă: http://www.arcas.org.ro/resurse-hpc.php