Sunteți pe pagina 1din 53

SISTEME CU

MICROPROCESOARE
2018
CURS 13 – ARHITECTURI
PERFORMANTE DE CALCUL
ș.l. dr. ing. Radu PIETRARU
radu.pietraru@aii.pub.ro
CONCEPTE CHEIE

 Standardizarea sistemelor
multiprocesor / multinucleu.

 Rezolvarea problemelor specifice sistemelor


multiprocesor/multinucleu la diverse arhitecturi.

 Arhitectura sistemelor HPC.

2
INTEL SMP – MULTIPROCESSOR
SPECIFICATION V1.4
HTTP://WWW.INTEL.COM/DESIGN/PENTIUM/DATASHTS/24201606.PDF

 Standard care își propune să extindă


specificațiile PC/AT dincolo de limita impusă de
sistemele uniprocesor și în același timp să
păstreze compatibilitatea cu sistemele
anterioare.
 Destinat sistemelor multiprocesor bazate pe
familia x86 și sistem de întreruperi implementat
cu ajutorul unui APIC (Advanced Programmable
Interrupt Controller).

3
INTEL SMP
 Model multiprocesor pentru microprocesoarele 80486
și Pentium ce implementează o arhitectură simetrică
puternic cuplată a sistemului de memorie, a
sistemului de întreruperi și a sistemului I/O.
 Funcționalitatea tuturor microprocesoarelor este
identică; nu există ierarhie sau relație master-slave.
 Sistemul de memorie este simetric: toate procesoarele
partajează același spațiu de adrese – avantaj:
microprocesoarele pot executa aceiași copie a
sistemului de operare.
 Sistemul I/O și sistemul de întreruperi sunt simetrice:
toate microprocesoarele partajează același spațiu de
adrese I/O și orice microprocesor poate primi o cerere
de întrerupere din orice sursă. 4
INTEL SMP

5
BOOTSTRAP PROCESSOR

6
INTEL HYPER-THREADING

7
INTEL CORE 2 DUO PROCESSOR

8
AMD OPTERON

 Circuit destinat
serverelor, primul
microprocesor care
suportă AMD64

 1 – 16 nuclee (K8 –
K10)

http://support.amd.com/TechDocs/40546.pdf
AMD OPTERON
 Nu mai este folosită
arhitectura de
interconectare de tip
magistrală – utilizează o
arhitectură de tip Direct
Connect Architecture
(DCA) în conjuncție cu
tehnologia
HyperTransport (HT).
 DCA este o arhitectură
de tip punct la punct
evitând bottleneck-urile
cauzate de arhitecturile
clasice.
10
AMD OPTERON
 System Request
Interface (SRI) conține
partea de mapare a
spațiului de adrese și
plajele alocate
nodurilor.
 Dacă este vorba de acces
la o memorie locală se
face legătura cu Memory
Controller dacă este
vorba de un acces off-
chip se face legătura cu
un port HT. 11
AMD OPTERON – ARHITECTURĂ NUMA

12
CCNUMA (CACHE COHERENT)

13

http://ftps.zdnet.com.cn/files/2/15966.pdf
INTEL NEHALEM (CORE I7)

14

http://home.ustc.edu.cn/~shengjie/PAPER/PACT09_Nehalm_Memory_Performance.pdf
INTEL NEHALEM

15
SUN ULTRASPARC T1

http://www.opensparc.net/publications/books/opensparc-internals.html 16
IBM CELL BROADBAND ENGINE

http://www.ibm.com/developerworks/power/library/pa-cellperf/

17
IBM CELL BROADBAND ENGINE
 Arhitectură eterogenă
formată din două
elemente de
procesare:
 PowerPC Processing
Element (PPE) –
procesor pe 64 de biți
PowerPC
 Synergistic Precessor
Element (SPE) – 8
nuclee optimizate
pentru rularea
aplicațiilor SIMD 18
IBM POWER4

19

http://www.cc.gatech.edu/~bader/COURSES/UNM/ece637-Fall2003/papers/TDF02.pdf
IBM POWER4

20
IBM POWER

21
IBM POWER7

22
ARM CORTEX-A15

23
ARM CORTEX-A15

24
MANY-CORE ARHITECTURE –
TILE ARHITECTURE

25
NVIDIA CUDA

26
INTEL MIC (MANY INTEGRATED CORE)
XEON PHI până la 61 de nuclee și 16GB GDDR5
rulează uOS Linux

27

https://books.google.ro/books?id=wZ-9AAAAQBAJ
PROBLEMATICĂ – LIMITAREA
PERFORMANȚEI

28
TOP500 SUPERCOMPUTERS SITES
HTTP://WWW.TOP500.ORG

 Începând cu 1993 menține lista cu cele mai


puternice sisteme de calcul din lume (locație,
scop, arhitectură, producător, consum…).
 Topul se realizează pe baza rezultatelor rulării
Linpack Benchmark (bazat pe rezolvarea unui
sistem linear dens de ecuații – factorizare LU cu
pivotare parțială – 2/3n^3+O(n^2) numere în
virgulă mobilă dublă precizie).

29
TOP 10 – NOIEMBRIE 2016
Nume Arhitectură Locați Tflop/s Scop Nuclee
e
Sunway Sunway MPP, Sunway SW26010 260C 1.45GHz,
TaihuLight Sunway China 93014 Research 10649600
TH-IVB-FEP Cluster, Intel Xeon E5-2692 12C
Tianhe-2 2.200GHz, TH Express-2, Intel Xeon Phi 31S1P China 33862 Research 3120000
Cray XK7 , Opteron 6274 16C 2.200GHz, Cray
Titan Gemini interconnect, NVIDIA K20x USA 17590 Research 560640
Sequoia BlueGene/Q, Power BQC 16C 1.60 GHz, Custom USA 17173 Research 1572864
Cray XC40, Intel Xeon Phi 7250 68C 1.4GHz, Aries
Cori interconnect USA 14014 Research 622336
Oakforest- PRIMERGY CX1640 M1, Intel Xeon Phi 7250 68C
PACS 1.4GHz, Intel Omni-Path Japonia 13554 Research 556104
K computer, SPARC64 VIIIfx 2.0GHz, Tofu
Kcomputer interconnect Japonia 10510 Research 705024
Mira BlueGene/Q, Power BQC 16C 1.60GHz, Custom USA 8586 Research 786432
Cray XC40, Xeon E5-2698v3 16C 2.3GHz, Aries
Trinity interconnect Cray Inc. USA 8100 Research 301056
Cray XC30, Xeon E5-2670 8C 2.600GHz, Aries
Piz Daint interconnect , NVIDIA K20x Cray Inc. Elveția 6271 Research 115984
30
PERFORMANȚA TOTALĂ REPREZENTATĂ
GEOGRAFIC

31
GREEN500
WWW.GREEN500.ORG

32
SUNWAY TAIHULIGHT
HTTP://WWW.NETLIB.ORG/UTK/PEOPLE/JACKDONGARRA/PAPERS/SUNWAY-
REPORT-2016.PDF

33
SUNWAY TAIHULIGHT
HTTP://WWW.NETLIB.ORG/UTK/PEOPLE/JACKDONGARRA/PAPERS/SUNWAY-
REPORT-2016.PDF

34
SUNWAY TAIHULIGHT
HTTP://WWW.NETLIB.ORG/UTK/PEOPLE/JACKDONGARRA/PAPERS/SUNWAY-
REPORT-2016.PDF

35
TIANHE-2 (TH-2) – MILKYWAY-2
 Dezvoltat de NUDT (National University of
Defense Technology) și Inspur (companie
comercială).
 Bazat pe arhitectura Intel Ivy Bridge Xeon și
Xeon Phi, performanță teoretică 54,9Pflop/s.
 Fiecare nod de calcul este compus din două
procesoare Xeon și trei plăci de extensie Xeon
Phi, nodurile sunt organizate câte două per placă,
16 plăci per sistem, 4 sisteme per rack, sistemul
este alcătuit din 125 de rack-uri.

36
TIANHE-2 (TH-2) – MILKYWAY-2
 Fiecare dintre cele 16.000 de noduri dispune de 88 GB
(64GB pentru procesoarele Xeon, 8 GB pentru fiecare
procesor Xeon Phi) totalizând 1,34PB.
 La încărcare maximă sistemul consumă aproximativ
17MW iar sistemul de răcire circa 24MW. Aria
acoperită de sistem este 720 m2.
 Sistemul de comandă (front-end system) constă în
4096 de procesoareGalaxy FT-1500 (un derivat de
nucleu Spark V9) fiecare cu câte 16 nuclee la 1,8GHz.
Rețeaua de interconectare folosită este TH-Express-2
(concepută special de NUDT) de tip fat-three bazată
pe 13 switch-uri fiecare cu câte 576 porturi.
 Tianhe-2 rulează Kylin Linux, o versiune de sistem de
operare dezvoltată de NUDT. Managementul
resurselor se bazează pe Simple Linux Utility for
Resource Management (SLURM). 37
ARHITECTURA UNUI NOD DE CALCUL

38
TIANHE-2 (TH-2) – MILKYWAY-2

39
TITAN (CRAY XK7)
 Supercalculator dezvoltat de compania Cray în
cadrul Oak Ridge National Laboratory pentru
utilizare în diverse proiecte științifice. Este o
îmbunătățire a sistemului Jaguar; se bazează
procesoare grafice (GPU).
 Titan utilizează procesoare AMD Opteron 6274
în conjuncție cu procesoare grafice Nvidia Tesla
K20 (18,688 de perechi CPU+GPU / 32GB+6GB
RAM – 710TB în total) atingând o performanță
teoretică de 27.1 petaFLOPS (24.5 GPU + 2.6
CPU)– a ocupat locul I în TOP500 până în
noiembrie 2012.
 Utilizează o rețea de interconectare proprietar: 40
Cray Gemini 3D Torus. Consum 8.9MW.
AMD OPTERON 6274 & NVIDIA TESLA
K20

41
16 nuclee de procesare 14 nuclee SIMD (streaming
multiprocessors)
2.688 nuclee CUDA
ARHITECTURA UNUI NOD

42
ARHITECTURA SISTEMULUI

43
TITAN – ARII DE CERCETARE

44
TITAN (CRAY XK7)

45
IBM BLUEGENE
 BlueGene este un proiect IBM demarat în 1999
destinat să realizeze supercalculatoare care să
atingă performațe de ordinul T-PFLOPS. În
cadrul proiectului există trei generații de sisteme:
BlueGene/L (2004, 70TFLOPS), BlueGene/P
(2007, 1 PFLOPS, prezent în GREEN500) și
BlueGene/Q (2011, 17PFLOPS).
 Se bazează pe nuclee IBM PowerPC organizate în
compute card, node card și rack-uri.

46
BLUEGENE/Q

47
BLUEGENE/Q
 Blue Gene/Q se bazează pe circuite cu 18 nuclee de tip PowerPC A2
(64 biți 4-way simultaneously multithreaded, 1,6 GHz). Fiecare
nucleu dispune de o unitate SIMD Quad-vector în virgulă mobilă
dublă precizie (IBM QPX). 16 nuclee sunt folosite pentru calcule, unul
pentru a îndeplini funcții specifice sistemului de operare (întreruperi,
I/O) și unul de rezervă. Nucleele sunt interconectate printr-o rețea
crossbar cu memoria cache L2.

 32 de compute cards sunt interconectate formând Q32 compute


drawer.

 “Midplane" este format din 16 compute drawers având 512 noduri de


calcul interconectate printr-o rețea 5D torus (4x4x4x4x2). Toate
conexiunile la acest nivel sunt optice. Rack-urile conțin două
midplanes, deci 32 compute drawers, totalizând 1024 compute nodes,
16,384 nuclee și 16 TB RAM.

 Unitățile I/O (I/O drawers) sunt conținute de fiecare rack și conțin 8


compute cards și 8 PCIe expansion slots de tip Infiniband or 10 48
Gigabit Ethernet networking.
SINGLE CHIP MODULE
SYSTEM-ON-A-CHIP DESIGN : INTEGRATES PROCESSORS,
MEMORY AND NETWORKING LOGIC INTO A SINGLE CHIP

 360 mm² Cu-45 technology (SOI)


➢ ~ 1.47 B transistors
 16 user + 1 service processors
➢ plus 1 redundant processor
➢ all processors are symmetric

➢ each 4-way multi-threaded


➢ 64 bits PowerISA™

➢ 1.6 GHz
➢ L1 I/D cache = 16kB/16kB
➢ L1 prefetch engines

➢ each processor has Quad FPU


(4-wide double precision, SIMD)
 Central shared L2 cache: 32 MB
➢ eDRAM

➢ multiversioned cache
will support transactional memory,
speculative execution.
➢ supports atomic ops
 Dual memory controller
➢ 16 GB external DDR3 memory
➢ 1.33 Gb/s
➢ 2 * 16 byte-wide interface (+ECC)

 Chip-to-chip networking
➢ Router logic integrated into BQC chip. 49
 External IO
➢ PCIe Gen2 interface
SEQUOIA BLUEGENE/Q

50
FUJITSU K COMPUTER

80.000 procesoare SPARC64 VIIIfx cu câte 8 nuclee = 640k nuclee


1 PB memorie
51
Rețea de interconectare Tofu – 6D mesh/torus
10PFLOPS
K COMPUTER ARHITECTURĂ

52
RESURSE HPC ROMÂNIA
CPU Peak GPU
Institution System Name CPU cores performance GPU cores performance
(double precision) (double precision)

West University
of Timisoara Blue Gene 4096 11.7 Tflops
(UVT)
Horia Hulubei
National
Institute for
Physics and IFIN_BC 1040 11.06 Tflops 2048 665 Gflops
Nuclear
Engineering
(IFIN)
University
NCIT Computing
Politehnica of 786 4.5 Tflops
Cluster
Bucharest
UBB - UTCN CMMCCC 1120
Technical
University from RO-09-UTCN 1024 10.25 Tflops
Cluj-Napoca
INCDTIM, Cluj-
IBM Cluster 512 9 Tflops 1024 665 Gflops
Napoca
53

sursă: http://www.arcas.org.ro/resurse-hpc.php

S-ar putea să vă placă și