Recapitulare

Recapitulare examen ASC
Curs 1
Un sistem de calcul este format din mai multe blocuri functionale:
-elemente de procesare - P
- elemente de memorare - M
- elemente de interconectare de tip magistrala - L
- unitati de comanda - K
- operatori de date - D
- switch-uri de interconectare - S
- terminale - T
- curs 1 - pag 9 - diagrama masinii von Neumann
- pag 10 - componentele arhitecturii
- pag 11 - memoria
Arhitectura von Neumann este alcatuita din - Ucmd, UAL, registre, memorie,
interfata input, output, echipamente periferice input, output
Un sistem de calcul este alcatuit din: masina de baza (unitatea
centrala( unitatea centrala de prelucrare (Ucmd, UAL, RG ), memoria ),
interfata input, output), echipamentele periferice, software de baza.
UAL realizeaza calcule in virgula fixa(int) si mobila(float), s-a extins catre
coprocesorul matematic.
Ucmd- realizeaza etapele de intruction fetch, decode, execute - citire,
interpretare, executia instructiunilor masina. Setul de instructiuni poate fi
RISC, CISC.
Subsistemul I/E - asigura transferul datelor intre UC si mediul extern.
Interfetele I/E asigura o adaptare electrica intre EP si UCP. Transfer de date
intre EP si UC: transfer programat(busy waiting - UCP lucreaza la viteza EP,
sistem de intreruperi), DMA - transfer de date intre EP si M fara interventia
UCP, dialogul intre UCP si DMA are loc doar la initiere si incheiere. Arbitrarea
conflictului de acces la M al UCP / DMA se face prin furt de ciclu sau rafala.
Dou metode de efectuare a transferului DMA:
1. Prin utilizarea intervalelor de timp n care UCP nu face acces la memorie;
metoda se numete transfer prin furt de ciclu (cycle stealing), deoarece
modulul
DMA fur un ciclu de memorie de la UCP. Activitatea UCP nu este
influenat
de operaiile DMA, cu excepia cazului cnd se ajunge la un punct n
care este necesar memoria.
2. Prin suspendarea operaiilor efectuate de UCP n timpul transferului i
trecerea
magistralei n starea de nalt impedan. Ciclul de instruciuni se va relua
apoi
din punctul n care a fost suspendat. Metoda se numete transfer n rafal
(data break).
Pentru a nu irosi cicli de procesor subsistemul I/E mai are 2 metode: Canalul
de I/E - este un proceosr specializat care asigura transferul EP - > M fara

interventia UCP. Dialogul UCP - EP se face printr-un program de canal - din M
se da doar adresa de inceput a programului. Poate inlantui mai multe
transferuri(mai bine ca la DMA).
Calculator de I/E, sc poate avea toate facilitatile de mai sus : DMA, canal I/E,
transfer programat. Folosit des in sistemele multiprocesor.
Curs 2 - pms
Nivelul structural de descriere al sistemelor numerice - PMS (Processor
Memory Switches)
PMS - procesoare, memorii, switch-uri de interconectare, legaturi, unitati de
comanda, operator de date, terminal, procesoare de I/E.
- curs 2 - pag 3 - memoria, procesorul central
- pag 4 - switch, legatura
- pag 5 - unitate de comanda, procesor de I/E
- pag 6 - operator de date, terminal
The best example of a system-level environment is PMS [Bell and Newell].

PMS stands for "processor-memory-switch," three of the components in this
environment (see Fig. 2.4). In addition to processors, memories, and
switches, this environment has components for links, data operations,
transducers, and control units. The following paragraphs describe the seven
primitives of the PMS environment.
The processor component (P) is used to represent the central processing
element of a computer. This includes the instruction fetch, decode, and
execution but does not include the instruction or data memory, nor any of the
input/output (I/O) devices. This distinction can be difficult because some
processors have built-in memory for stacks, caches, or microinstruction sets
and, in these cases, the memory is considered to be part of the processor
component. Also, all internal state such as machine registers and status bits
are part of the processor. The intention is to encapsulate a component that is
typically indivisible and the same in any less abstract environment.
Memory components (M) are generally connected to processors. Although the
precise amount of memory need not be specified, the nature of the memory
is given as a subscript on the component letter. For example, Mp indicates
primary memory, which might distinguish it from secondary memory, fast
memory, double-ported memory, or any other scheme in a given PMS
diagram.
A switch (S) is a general component for joining multiple objects in a
controllable fashion. Switches can be used to select among multiple I/O
devices on a processor, multiple memories, or even multiple processor

components. Their presence in a PMS diagram indicates that there is a choice
in the use of the connecting components.
The link (L) is used to indicate an unusual connection configuration. For
example, the connection of two separate processors is frequently done with
some sort of link that moves information across physical distances. Buses,
networks, and telephone lines are all links. Some processors do not need links
to communicate if, for example, they share memory or are directly connected
with common internal state.
A data operation (D) is any functional block that generates data. The
category includes processors but is really meant to cover those devices that
perform input, such as digitizers and keypads. The opposite of a data
operation is a transducer (T), which takes data and transforms them for some
other use. All output devices are transducers, including printers, displays, and
robots.
The final primitive component of the PMS environment is the control unit (K).
A control unit is one that causes another component to function. Thus, to
make a transducer or data operation work, a control unit is needed.
Processors are the only other components that have control and so they can
replace these control units in situations that demand more intelligence.
Curs 3a - sbc
SBC = Reprezentarea PMS a unei structuri multiprocesor organizata pe o
magistrala comuna
Resurse SBC - procesor, sistem de intreruperi, interfete (S/P), memorie locala,
globala(RAM)
- curs 3 - pag 2 - mai ales schema
- pag 3 mecanisme acces magistrala - Ks , K bus, K ml, schema
- pag 5,6 descriere Kbus, Kml
Pentru a gestiona accesul pe magistrala (exclusiv) sunt necesare:
Kbus - unitate de comanda pentru accesul la magistrala
Kml - unitate de control a accesului la memoria locala
KLd - unitate de comanda a memoriei locale(refresh,etc)
Ks - unitate de comanda a intregului sistem - asigura controlul procesoarelor
la resursele sistemului
http://en.wikipedia.org/wiki/Single-board_computer
Curs 3b - comutatoare
Comutatoare - ierarhice - conecteaza o componenta de tip a cu una de tip b
(p-m)
- neierarhice - conecteaza 2 componente de acelasi tip ( p - p )
- curs 3 - pag 2, 3, 4
Ierarhice
Comutatoare duplex - comunicatie intre o componenta de tip a si mai multe
de tip b
Comutatoare dual duplex - 2 componente de tip a si mai multe de tip b
Comutatoare de tip legatura multipla (cross - bar switch) - comunicatia intre
m componente de tip a si n componente de tip b
Comutatoare de tip trunchi K - k linii de comunicatie - k optim - poate fi
min(m,n) - imbina conectivitatea oferita de S cross bar cu costul redus al
celorlalte tipuri de comutatoare
- curs 3 - pag 6, 7
Neierarhice - conexiunea intre elemente de acelasi tip(p - p , m -m ):
Comutatoare duplex neierarhice - vezi schema
Comutatoare legatura multipla - tip central
Comutatoare trunchi K neierarhic
Curs 4 - Memoria cache

Deoarece nu putem realiza memorii suficient de rapide si ieftine s-a dezvoltat
ierarhia de memorie (cache L1,L2,L3, ram , disk)
Notiuni de localitate spatiala si temporala pentru cache. Localitatea este
exploatata de caching.
Un cache hit este atunci cand regasim datele cautate la un nivel din cache.
Cache miss cand nu au fost gasite si cautam mai jos in ierarhia de memorie.
Un cache miss duce la un overhead de lat(latenta memoriei) + S(dimensiune
bloc in bytes)/ bw(latime de banda bytes /s ).
Hit time timpul de accesare al cacheului. Miss penalty timpul necesar mutarii
datelor pe diferite nivele de cache.
Memoria virtuala: Daca sistemul de calcul permite memoriei principale - ram
sa fie utilizata ca un cache pt discurile fizice
Dimensiunea cache - avantaje, dezavantaje mai mare, avantaje, dezavantaje
mai mica - trebuie sa fie eficienta pentru aplicatii tipice
Block placement - unde se scrie un bloc in cache in functie de organizarea
cache
- mapare directa - 1 singura locatie pentru un bloc
- mapare total asociativa - oriunde
- mapare set asociativa - pentru n blocuri in fiecare subset == mapare n set
asociativa
Block identification - tag(t biti), index (s biti), block offset ( b biti)
b - ultimii b biti sunt pentru offsetul blocului

s = primii (t + s) biti % nr_seturi
t = primii(t + s ) biti / nr_seturi - catul - folosit pentru compararea adreselor
Block replacement - plasare random, FIFO, LRU
Write Strategy - optimizat pt citiri pentru ca sunt mai multe
-politici de scriere:
- write through - datele sunt scrise in blocul de cache si in memoria
principala
- write back - datele sunt scrise in memoria principala doar cand un
bloc din cache este eliberat si se scriu doar daca dirty bit indica ca au fost
facute modificari pe acele date
Miss la scriere:
- write allocate: blocul este adus din memorie in cache si e modificat - folosit
cu write - back
- no-write allocate: nu e adus in cache, se scrie direct in ram - folosit cu write
through
Imbunatatirea performantelor - miss penalty mai mic, mai putine missuri,
nespargerea liniei de cache - parcurgere a matricilor conform cu modul de
stocare din limbajul de programare: row major sau column major.
Masurarea liniei de cache. Sarim din Step in step elemente pana cand timpul
de acces devine uniform. Dupa ce step >= L (dimensiunea liniei de cache)
accesul devine uniform avand miss la fiecare acces.
Timpul de acces la memorie = hit_time + miss_rate * miss_penalty
Curs 5 - CELL
http://cs.curs.pub.ro/wiki/asc/asc:lab6:index
Un Cell conine un Power Processor Element (PPE) i opt Synergistic
Processor Elements (SPE) interconectate prin magistrala Element
Interconnect Bus (EIB). Procesorul PPE i SPE-urile comunic ntre ele, cu
spaiul principal de stocare (main storage) i cu elementele I/O prin
intermediul magistralei EIB.
Magistrala EIB: Limea de band intern a magistralei EIB este de 96
bytes pe ciclu i suport mai mult de 100 de cereri DMA n ateptare ntre
SPE-uri i spaiul principal de stocare (Main Storage).
Power Processor Element conine un procesor de uz general pe 64 de bii

bazat pe arhitectura Power. Setului su de instruciuni de tip RISC i-au fost
adugate instruciuni pentru calcul vectorial i un set de 32 registre de 128
bii. Instruciunile vectoriale sunt executate de ctre o unitate SIMD, iar
celelalte instruciuni de ctre unitatea de execuie pentru numere ntregi, n
virgula fix, sau de ctre cea pentru numere n virgula mobil.
PPE-ul este format din Power Porcessor Unit (PPU) i din Power Processor
Storage Subsystem (PPSS). Power Processor Storage Subsystem se ocup cu
cererile de acces la memorie venite din partea PPE sau din partea altor
procesoare i dispozitive I/O. Acesta conine un cache de nivel 2 (L2) de 512
KB, o serie de cozi (queues) i o unitate de interfa cu magistrala (arbitru de
magistral).
Synergistic Processor Element conine un procesor RISC pe 128 bii cu un
set de instruciuni vectoriale, numit Synergistic Processor Unit (SPU) i un
Memory Flow Controller. Acest tip de arhitectur este potrivit aplicaiilor ce
necesit calcul intens asupra unor seturi multiple de date (stream-uri video,
prelucrare imagini etc). SPU-urile sunt procesoare simple fr cache, cu o
memorie local (Local Store) pentru instruiuni i date (256 KB SRAM). Ca
structur, procesorul folosete un banc de 128 registre de 128 bii, o unitate
de execuie n virgul mobil i dou uniti n virgul fix. Aceste uniti
execut numai instruciuni vectoriale (SIMD).
SPU-ul execut instruciunile din Local Store i lucreaz cu datele din Local
Store. Acesta nu poate accesa direct memoria principal sau Local Store-urile
altor SPE-uri. Pentru a permite transferul de date ntre PPE i SPE, sau ntre
SPE-uri, se folosesc mecanisme precum transfer DMA i mailboxes. SPE = SPU
+ MFC (memory flow controller) care se ocupa cu accesele la memoria locala
SPE-ului.
ntr-un sistem care ruleaz Linux, thread-ul iniial al unui program este un
thread Linux care ruleaz pe PPE. Acest thread poate crea unul sau mai multe
task-uri Linux pentru Cell Broadband Engine.
Un task Linux pentru Cell Broadband Engine are unul sau mai multe threaduri Linux asociate cu acesta, care ruleaz fie pe PPE (thread-uri PPE), fie pe
SPE (thread-uri SPE), n funcie de codul executabil ncrcat. Un thread SPE
este un thread de Linux care ruleaz pe SPE. Acesta are asociat un context
care include starea celor 128 de registre, contorul program si cozile de
comenzi pentru MFC.
De asemenea, este recomandat ca programele/threadurile executate pe SPUuri s se axeze pe folosirea capabilitilor de calcul vectorial, i s nu conin
foarte multe branch-uri (SPU-ul nu are branch predictor).
Pasii pentru a executa un program pe SPE:
1.PPU-ul creeaz thread-uri folosind pthread_create

2.PPU-ul creeaz contexte folosind spe_context_create
3.Programul SPE care trebuie s ruleze ntr-un context este dat folosind
spe_program_load
4.Contextele se pornesc folosind spe_context_run
5.Se ateapt execuia thread-urilor folosind pthread_join
6.Dup terminarea execuiei contextelor, deci dup terminarea thread-urilor,
se pot distruge contextele folosind spe_context_destroy
Mailboxes - inbound mailbox de la ppu la spu 4 mesaje maxim, outbound
mailbox , outbound interrupt mailbox de la spu la ppu 1 mesaj maxim
Transferul DMA este folosit pentru a trimite date ntre spaiul principal de
stocare i memoria local. SPE-urile pot folosi transfer DMA asincron (folosind
unitatea specializata MFC) pentru a ascunde latena memoriei i overhead-ul,
ocupndu-se n paralel de calcule.
pe spu - mfc_get, mfc_put
pe ppu - spe_mfcio_put, spe_mfcio_get
Memory wall, Eficiency wall, Power wall
Specs: >200GFLOPS single precision, > 20 GFLOPS double precision
25 gb / s memory b/w, 75gb/s io b/w, 300gb/s EIB, 4GHz top frecq
PPU -specializat pe control, caching , task switch
SPU - specializat pe compute intensive tasks, fara cache, fara branch
prediction, 256kb local store, risc - 32 bit fixed instructions, 16 transferuri
dma
BIC - comunicatie cu i/e - 60gb/s latime de banda
MIC - comunicatie / acces la memoria ram - 25.6 gb/s
Pasii de creare a unui program cell - pag 28 curs 5
Curs 6 - Taxonomii Flynn

- procesor cu 10.000TFLOPS necuantic imposibil - curs 6 pag 3
- paralelism la nivel de bit (operatii in virgula mobila), la nivel de
instructiune(mai multe instructiuni pe ciclu), la nivelul memoriei, la nivelul
sist de operare(thread), distribuit - pag 4
Clasificarea sistemelor de calcul Flynn - SISD(von Neumann), SIMD(masini
vectoriale), MISD, MIMD.
Clasificarea sistemelor de calcul: Sisteme matriceale(Processor Array),
Multiprocesor, pipeline
curs 6 pag 8 Flux de instructiuni si de date - clasificarea sistemelor de calcul
pag 9 -> 16 poze cu sisd, simd, mimd, misd
Strans cuplate - shared memory - acelasi sistem - multiprocesor
Slab cuplate - distributed memory - sisteme unite printr-o retea - transfer de
mesaje
curs 6 de citit mimd pag 13 - 16
Curs 7 - Arhitecturi SIMD

-curs 7 pag 2 schema cu reteaua de comutatie
Instructiuni masina cu vectori SIMD:
LOAD A: ACC[k] = A[0,k] incarcare in registrul acumulator
STO A: A[0,k] = ACC[k]
ADD A[I]: ACC[k] = ACC[k] + A[index[i], k]
MUL A[I] - idem
BCAST i: ACC[k] = ACC[index[i]]
Suma pe linii, coloane in O(n) pag 12 - 13 curs 7
Curs 8 - Comunicatii in SIMD - permutarile

Interconexiune circulara - deplasare ciclica a datelor intre procesoare - se
realizeaza deoarece conexiunile sunt permise doar cu vecinii - structura in
forma de inel, interconexiune matriceala - conexiuni cu cei 4 vecini
Intercalare perfecta - shuffle - asigura conectarea intre procesoarele unei
structuri simd de n procesoare cu n-2 comunicatii simultane, dupa log2n
iteratii datele ajung pe procesorul sursa.
i -> i << 1 + primul bit
Inverse Shuffle - iesirile devin intrari pt shuffle si intrarile devin iesiri
Permutari elementare: specifica conexiunea intre n resurse ca o functie
bijectiva pe o multime ordonata
1. Permutarea de baza - Base line permutation == intercalarea perfecta
inversa
an an-1 ... a1 a0 -> a0 an an-1 .... a1 (bitul cel mai nesemnificativ devine cel
mai semnificativ)
2. Permutare cu intercalare perfecta - Shuffle permutation

bitul cel semnificativ devine cel mai nesemnificativ an an-1 ... a1 a0 -> an1 ...a1 a0 an
-variatii : k superioara duce bitul n dupa bitul a n-k + 1
k inferioara duce bitul k-1 ultimul
3. Permutarea cu negare de bit - negate bit permutation
bitul cel mai nesemnificativ este negat an an-1 ... a1 a0 -> an an-1 ...a1 (a0
negat)
-variatii negarea bitului k
4. permutare fluture - butterfly permutation
se interschimba bitul cel mai semnificativ cu cel mai putin semnificativ permutare simetrica
- variatii k inferioara se aplica pe ultimii k
k superioara se aplica pe primii k
5. permutare cu ordine inversa - bit reversal permutation
se interschimba complet ordinea bitilor
-variatii idem mai sus
6. permutare cu incrementare modulo - increment permutation
- conexiune inelara intre module alaturate- se incrementeaza si apoi se face
mod nr de valori
Curs 9 MIMD
Fiecare procesor poate functiona autonom ca un sistem universal - pot prelua
taskurile altor procesoare, previn degradarea performantelor sistemului,
fiecare procesor ar trebui sa aiba acces la toata memoria.
Structurile MIMD dpdv arhitectural se pot imparti in:
- sisteme multiprocesor - paralel
- sisteme multicalculator - distribuit
Dpdv accesul la memorie MIMD sunt:
- cu memorie shared - comunicarea se face prin retele de comutatie,
magistrale
- cu memorie distribuita - comunicatie prin mesaje, LAN
Sisteme cu memorie partajata - UMA, NUMA - CC NUMA, COMA
Sisteme cu memorie distribuita - transfer de mesaje - acces doar la memoria
locala
Sisteme strans / slab cuplate
slab - de tip cluster - calculatoare conectate intre ele - interactiunea intre
procesoare e minima
strans pag 11 curs 9
Structura Cm* pag 13 - 14 - conecteaza mai multe module individuale structura multipla de calculatoare == cluster
Curs 10 - Comunicare inter si intra Cluster

- foarte important pag 2 curs 10
Element componente ale K map cele 3 procesoare K bus, P map, link si
comunicatia intre ele
Comunicare inter si intra cluster 11- 14
Curs 11 GPU
Procesorul grafic are o arhitectura de tip SIMD si un spatiu propriu de
memorie (GPU dedicat VRAM, GPU integrat parte din RAM). In cadrul unui
sistem procesorul general care coordoneaza executia este numit HOST (CPU)
pe cand unitatea care efectueaza calculele este numit TARGET (GPU). Orice
fel de procesare necesita in prealabil un transfer din spatiul de memorie de la
CPU catre spatiul de memorie de la GPU. In cazul unui procesor grafic dedicat
acest transfer se face printr-o magistrala (PCIe, AGP, USB). Viteza de
transfer RAM-VRAM via magistral este inferioara vitezei RAM/VRAM si prin
urmare necesita eficientizata
Motivul discrepantei intre performanta in virgula mobila dintre CPU si GPU
este faptul ca GPU sunt specializate pentru procesare masiv paralela si
intensiva computational (descrierea perfecta a taskurilor de randare grafica)
si construite in asa fel incat majoritatea tranzistorilor de pe chip se ocupa de
procesarea datelor in loc de cachingul datelor si controlul fluxului executiei.
Un Streaming Processor (SP) este un microprocesor cu executie secventiala,
ce contine un pipeline, 2 unitati aritmetico-logice (ALU) si o unitate de calcul
in virgula mobila (FPU). Nu are un cache, fiind bun doar la executia multor
operatii matematice.
8 SP impreauna cu 2 Special Function Units (SFU) sunt incapsulate intr-un
Streaming Multiprocessor. Fiecare SFU contine 4 unitati pentru inmultire in
virgula mobila, utilizate pentru operatii transcendente (sin, cos) si interpolare.
MT se ocupa cu trimiterea instructiunilor pentru executie la SP si SFU.
Pe langa acestea, exista si un cache (de dimensiuni reduse) pentru
instructiuni, unul pentru date precum si memorie shared de 16KB, partajata
de cele 8 SP. Urmatorul nivel de incapsulare este Texture / Processor Cluster
(TPC). Acesta contine 3 SM, logica de control si un bloc de handling pentru
texturi. Acest bloc se ocupa de modul de adresare al texturilor, logica de
filtrare a acestora precum si un cache pentru texturi.
Ultimul nivel de incapsulare este Streaming Processor Array (SPA), ce contine

10 TPC.
De asemenea, exista si un model de programare numit modelul Volkov.
Acesta implica rularea unui numar de threaduri egal cu numarul de theaduri
suportate fizic de catre arhitectura. Rezultatul este un model de programare
SIMD. Pentru anumite probleme, folosind acest model, se obtine un spor de
performata de 5-20%.
Ierarhia de memorie - registri, shared memory, globala - locala, constanta,
dedicata texturilor
registri - accesibili doar de catre thread
shared memory - accesibila tuturor threadurilor dintrun bloc
variabile built it - threadIdx , blockDim, blockIdx
- cudaMalloc aloca in memoria globala
Retele de comutatie : o intrare poate fi conectata la orice iesire, o intrare

poate fi conectata simultan la mai multe iesiri, o iesire poate fi conectata
numai la o intrare
Curs 12 - Retele de comutare

Retele de comutare ierarhice - realizate din crossbar-uri de mici dimensiuni
asezate pe mai multe nivele de interconectare
Exemplu structura Beizer - Benes - retea n x n cu 2 module de n/2 x n / 2
Retele de comutare de tip delta - comutatoare ierarhice cu a^n intrari si b^n
iesiri ce utilizeaza crossbar-uri a x b si retele de permutare de tip intercalare
perfecta (shuffle) pag 2,3 poze. Functia shuffle -ului este de a interconecta
nivelele retelei delta.
Retele bazate pe rutare - legaturi directe intre o resursa si cele considerate
vecine. Se caracterizeaza prin gradul nodului, diametrul retelei, regularitate,
simetrie. Topologii ortogonale, strict ortogonale - hipercub, tor, pasa ndimensionala, arbore
Curs 13 - Benchmark
Benchmark reprezinta un program sau un pachet de programe dezvoltate
pentru diagnosticarea si evaluarea performantelor unui sistem. Benchmarkurile vizeaza testarea randamentului hardware si/sau software relativ la alte
sisteme sau arhitecturi.
- tipuri de benchmark : aplicatii reale, kernel, pentru sistemele i/o , pentru
sisteme paralele, micro-benchmarkuri , sintetice

Testarea procesoarelor - local un procesor, embarrasingle parallel fiecare
procesor participa la calcule dar nu comunica explicit cu altele, global
participa toate proc si comunica explicit intre ele
HPCC tests - 7 benchmarkuri:
-HPL( LINPACK ) - ofera ca rezultat un numar Rmax - perfomanta maxima
realizata, Rpeak perfomanta maxima teoretica, usor de clasificat pe baza lui;
scoate in evidenta nr de procesoare, nu evidentiza rata de transfer locala,
reteaua de comutare, mecanisme gather scatter, un singur numar nu poate
caracteriza perfomanta unui intreg sistem; MPI GLOBAL
-stream local , *ep
- ptrans mpi global
- random acces local, mpi global, *ep
- bw and latency - mpi
- fft - local , global & ep
- matrix multiple local & ep
TOP 10:
TITAN - aplicatii stiinta, medicina, meteorologie, cercetare
- cel mai puternic hpc din us, nr 2 in top 10, anul 2012
- familia de sisteme cray xk7, cray linux
- nr procesoare 560.640
- rmax 17,590 PFLOPS
- rpeak 27,113 PFLOPS
- memorie 710 TB
- consum 8209 kw
- interconectare - cray gemini interconnect
- proceosr opteron 2.2 ghz, nvidia k20x

Recapitulare

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Recapitulare

Încărcat de

Drepturi de autor:

Formate disponibile

Recapitulare examen ASC

de I/E - este un proceosr specializat care asigura transferul EP - > M fara

The best example of a system-level environment is PMS [Bell and Newell].

devices on a processor, multiple memories, or even multiple processor

Curs 4 - Memoria cache

b - ultimii b biti sunt pentru offsetul blocului

Power Processor Element conine un procesor de uz general pe 64 de bii

1.PPU-ul creeaz thread-uri folosind pthread_create

Curs 6 - Taxonomii Flynn

Curs 7 - Arhitecturi SIMD

Curs 8 - Comunicatii in SIMD - permutarile

2. Permutare cu intercalare perfecta - Shuffle permutation

Curs 10 - Comunicare inter si intra Cluster

Ultimul nivel de incapsulare este Streaming Processor Array (SPA), ce contine

Retele de comutatie : o intrare poate fi conectata la orice iesire, o intrare

Curs 12 - Retele de comutare

sisteme paralele, micro-benchmarkuri , sintetice

S-ar putea să vă placă și