Documente Academic
Documente Profesional
Documente Cultură
FACULTATEA DE INGINERIE
2007
Cuvânt înainte,
i
Al treilea seminar prezintă procedura de realizare a overclocking-
ului plăclor video, adică procedura de îmbunătăţire a performanţelor
acestora.
Seminarul numărul patru prezintă modul general de testare şi
evaluare a ecranelor TFT-LDC, şi criteriile de alegere a acestora
Ultimele două lucrări prezintă procedura de realizare a
overclocking-ului la procesoarele Intel şi AMD64
Autorul
ii
Prelegere
La prima vedere, pare o problemă absurdă, o chestiune fără sens şi prea vagă
pentru a fi discutată. La urma urmei, cum se poate măsura performanţa unui sistem fără
a aluneca în groapa discuţiilor fără sfârşit legate de platforme şi setări diferite şi
benchmark-uri inconsistente? Ei bine, aceasta e problema cea mai importantă...
Avem de-a face cu o gamă aşa de diversificată de produse încât încercarea de a
da consistenţă rezultatelor ce măsoară performanţa unui sistem informatic se transformă
într-o luptă cu morile de vânt. Adevăraţii entuziaşti ai benchmark-urilor ignoră în mod
voit problemele ivite, fiindcă altfel ar rămâne fără pasiunea care îi motivează. În cele ce
urmează vom încerca să explicăm în ce fel un sistem de calcul se transformă dintr-un
standard într-un unicat.
Un calculator poate fi definit în termeni vagi ca fiind alcătuit dintr-o unitate
centrală şi periferice. Bineînţeles că există şi excepţii, dar haideţi să ne concentrăm
asupra sistemului care respectă această regulă. Unitatea centrală este alcătuită, la rândul
ei, din componente de bază (fără de care sistemul nu poate funcţiona) şi componente
opţionale. Acestea din urmă pot fi îndepărtate din „demonstraţie” fără a avea un impact
asupra concluziei. Rămân, deci, componentele de bază.
1. Placa de bază - prezentată în forme şi tipuri diverse (ATX, micro-ATX, BTX,
etc.), motorizată de chipset-uri la fel de diverse (Intel, NVIDIA, ATI, ULi, VIA etc), cu
suport divers pentru procesoare diverse (Socket 462, 478, 754, 775, 939, 940, AM2 etc),
cu suport video variat (grafică integrată, slot AGP, PCI Express, SLI etc), cu suport
felurit pentru memorii (de la bătrânele SDRAM şi RIMM la DDR, DDR2 etc).
Menţionăm pe scurt şi alte caracteristici care pot lărgi şi mai mult varietatea plăcilor de
bază (IDE, S-ATA, S-ATA II, sunet integrat de diferite tipuri şi performanţe, numărul
de porturi USB, tipul şi numărul de conectori LAN etc).
2. Placa video - a cărei alegere se poate dovedi dificilă chiar şi pentru un
specialist. Un cumpărător obişnuit se uită în special la cantitatea de memorie video,
obicei „prins” repede de către producători şi care este exploatat la maximum, rezultând
hibrizi cum ar fi plăci video cu performanţe slabe şi cantitate de memorie prea mare faţă
de capacităţile „motorului”, sau faimoasele plăci video cu „memorie” TurboCache. Pe
lângă aceasta, numărul şi varietatea de motoare grafice existente în prezent simultan pe
piaţă fac genomul uman să se înverzească de ciudă. În afară de seriile ATI (numerotate
de la 9200 la 9800 şi de la X300 la X850) şi GeForce (de la 5100 la 7800) trebuie să
acordăm atenţie şi sufixelor (SE, TD, VL, VE, TC, GT, GTO, GT2, GT3 etc) care
contribuie cu succes la îndesirea peretelui de fum ce acoperă sub nume frumoase
performanţe uneori dezamăgitoare.
3. Memoriile - cu denumiri create în mod special pentru a suna frumos şi cu
caracteristici reale ascunse de către producător mai bine decât chipul femeilor din
Afghanistan. Cumpărătorul este din nou orbit de frecvenţele scrise cu litere uneori
uriaşe şi ignoră existenţa acelui termen esenţial numit „latenţe”, permiţând
producătorilor să vândă bine memorii cu latenţe uriaşe, preţuri colosale şi performanţe
nu cu mult mai mari decât cele ale memoriilor cu frecvenţe mai mici dar latenţe strânse.
4. Am ajuns şi la componenta care părea să aibă o descriere mai simplă însă este,
se pare, încă mai dificil de înţeles, şi anume procesorul. Limitându-ne doar la cei mai
mari „jucători” de pe piaţa actuală (AMD şi Intel), enumerăm doar câteva dintre
caracteristicile ce afectează performanţa: frecvenţa de funcţionare, dimensiunea cache-
iii
ului, dimensiunea tranzistorilor, tipul şi numărul de instrucţiuni. Bineînţeles că goana
după procente de vânzare i-a făcut pe ambii producători să creeze coduri şi denumiri
care „bagă în ceaţă” un utilizator obişnuit. Avem Athlon 64 X2 4000+ sau Pentium 4
640+, Sempron 2500+ Palermo sau Celeron D315…, denumiri teribile şi confuze.
La această „supă primordială” se adaugă şi alte componente (sursa de
alimentare, monitorul, o tastatură, un mouse, alte componente interne opţionale) care
pot „face diferenţa” afectând pozitiv sau negativ performanţa sistemului.
Cu atâtea posibilităţi de a combina componente de bază, rezultatul testelor este
nicicum altfel decât neconcludent. Încă mai mult, aceleaşi teste, efectuate succesiv pe
acelaşi sistem sau pe sisteme absolut identice, dau rezultate diferite (şi ne referim aici la
diferenţe cuprinse între 1% şi 3%). Cu alte cuvinte, se ridică încă o întrebare: este un
benchmark o soluţie sigură de măsurare a performanţei unui sistem de calcul, mai ales
luând în considerare existenţa altei variabile care poate afecta puternic modul în care se
comportă un calculator: software-ul?
De ce software-ul? Fiindcă un calculator fără un sistem de operare este inutil. Iar
un calculator cu un sistem de operare... este un sistem cu performanţă condiţionată de o
mulţime de factori suplimentari: versiunea şi calitatea driverelor, modul în care sistemul
de operare „ştie” să lucreze nativ cu anumite componente, cantitatea şi tipul resurselor
consumate de către alte produse software instalate etc. Dar înainte de sistemul de
operare şi lucrând în strânsă relaţie cu componentele hardware se află BIOS-ul,
„călcâiul lui Ahile”, un conglomerat de linii de cod care, configurat incorect, poate
transforma un iepure în broască ţestoasă.
Ei bine, soluţia a venit tot din partea entuziaştilor: să măsurăm întregul pe
bucăţi! Au apărut testele axate pe măsurarea performanţelor procesorului, memoriei,
plăcii video, hard disk-ului, unităţilor optice, apoi au apărut testele care verifică fiecare
componentă din punct de vedere al performanţei şi, folosind un algoritm uneori obscur
şi complicat, generează un scor final. Ca urmare, au apărut şi jocuri murdare (driver
care detectează prezenţa unui program de benchmark şi îl „minte” pentru a obţine
scoruri mai mari), au apărut contestaţii, a apărut o întreagă industrie bazată pe testarea
performanţelor unui sistem faţă de altul. Toată această „goană după aur” continuă să fie
alimentată de spiritul de competiţie tipic uman, reprezentat în acest caz prin expresia
„scorul meu e mai mare ca al tău!”.
La final, ne lovim de o întrebare de 100 de puncte: având în vedere toate aceste
diferenţe care fac ca două sisteme să nu poată fi comparate obiectiv, care este cel mai
bun program de benchmarking? Răspunsul amar şi evident este: nici unul. De fapt,
răspunsul corect este: cea mai bună măsură a performanţei unui sistem este utilizatorul
acestuia, fiindcă este la fel de subiectiv ca şi un soft de testare. În sensul că dacă mie îmi
este de ajuns sistemul X, degeaba râd alţii de mine că nu scot nici 1000 de puncte în
3DMark 05, iar dacă sunt un mega-super-hiper pretenţios, pot să am 15.000 de puncte în
PCMark 05, tot nemulţumit rămân. Ergo, satisfacţia unui utilizator nu este egală cu cifra
afişată ca rezultat de respectivul program de testare. Dar cine se poate lupta cu spiritul
de competiţie al omului?
iv
1. Noţiuni de bază privind evaluarea performanţelor
Benchmarking este un proces utilizat în management şi în particular
management strategic, în care organizaţia evaluează mai multe aspecte ale propriilor
procese în relaţie cu "best practice" (succesul), de obicei în interiorul sectorului propriu
de activitate. Acest proces permite organizaţiilor să dezvolte planuri despre cum să
adopte aceste poveşti de succes (best preactice), cu scopul de a obţine creşteri în
performanţei. Benchmarking-ul poate fi un eveniment de singular, dardeseori este tratat
ca un proces continuu în care organizaţia caută în mod permanent să-şi îmbunătăţească
practicile.
Traducere:
Bench-mark = (inf) mulţime bench-mark (mulţime cu un număr minim de
lucrări, utilizată pentru evaluarea performanţelor);
6
Cap 1: Noţiuni de bază privind evaluarea performanţelor
metode de încărcat date, caracteristica ratei de tranzacţie când sunt conectaţi mai mulţi
utilizatori şi chiar efectele utilizării unei versiuni noi a produsului.
1.2.2. Provocări
Benchmarking-ul nu este uşor şi deseori implică mai multe runde iterative
înainte de a obţine concluzii predictibile şi utile. Interpretarea datelor benchmark-ului
1
RISC = reduced instruction set computer
2
VLIW = Very Long Instruction Word
7
Evaluarea performanţelor sistemelor de calcul
este, de asemenea, extraordinar de dificilă. Iată câteva din provocările normale ale
benchmarking-ului:
• producătorii au tendinţa de a potrivi specificaţiile produselor după standardele
industriale;
• benchmark-urile în general nu dau nici o garanţie pentru calitatea serviciilor.
Exemple de ne-măsurare a calităţii serviciilor includ: securitatea,
disponibilitatea, fiabilitatea, integritatea execuţiei, durata de serviciu,
scalabilitatea (în special abilitatea de a adăuga sau modifica capacităţi în mod
nedistructiv);
• în general, benchmark-urile nu măsoară TCO3. Specificaţiile TCP4 Benchmark
se adresează parţial asupra costului de proprietate prin specificarea faptului că
trebuie utilizată o metrică preţ/performanţă.
• Benchmarkul rareori măsoară performanţele din lumea reală a sarcinilor mixate
– rularea unor aplicaţii multiple concurenţiale într-un context multi-
departamental / multi-aplicaţie. De exemplu, serverul mainframe IBM excelează
în sarcini mixate, dar standardele industriale de evaluare nu tind să măsoare
puterea I/O şi design-ul mare şi rapid al memoriilor de care are nevoie serverul.
Multe alte arhitecturi de server dictează o funcţie fixă, un scop unic: server de
baze de date, server de aplicaţii, server de fişiere, server web;
• Producătorii de benchmark-uri tind să ignore necesităţile pentru capacităţile de
dezvoltare, testare şi recuperarea în caz de dezastru. Producătorilor le place să se
raporteze doar la necesităţile restrânse ale capacităţilor de producţie.
• Benchmark-urile au probleme în adaptarea la lumea serverelor distribuite, în
special datorită sensibilităţii topologiei reţelelor;
• Utilizatorii pot avea percepţii foarte diferite a performaneţei pe care benchmark-
ul o poate sugera. În particular, utilizatorii apreciază predictabilitatea – servere
care întotdeauna îndeplinesc sau depăşesc SLA5. Bgenchmark-ul tinde să
accentueze un scor (din perspectiva IT).
• Multe arhitecturi de servere se degradează dramatic la un nivel ridicat de
utilizare (apropiat de 100%) - ("fall off a cliff" = cădere în pantă, bruscă), dar
benchmark-ul nu ia întotdeauna în calcul acest factor. Producătorii au tendinţa să
publice rezultatele benchmark-ului pentru o utilizare constantă de 80% a
serverelor, o situaţie total nereală, şi să nu ne informeze despre ce se întâmplă la
supraîncărcarea sistemului, când vârful de sarcină trece epste acest prag.
3
TCO = Total cost of ownership
4
TCP Benchmark = Transaction Processing Performance Council
5
SLA = Service Level Agreement
8
Cap 1: Noţiuni de bază privind evaluarea performanţelor
o linpack benchmark (cnţine subrutine algebrice lineare scrise în limbajul
FORTRAN);
6
o rezultatele sunt prezentate în MFLOPS
3. Toy Benchmark/ micro-benchmark
o Utilizatorii le pot programa şi utiliza pentru a testa componentele de bază
ale calculatorului;
o Detectează automat parametrii componentelor hardware ale
calculatoarelor, cum ar fi: număr de înregistrare, dimensiune cache,
întârzierea memoriei;
4. Synthetic Benchmark
o Procedura pentru programarea unui synthetic Bench mark
Se culeg date statistice despre toate tipurile de operaţii de la
programele de aplicaţii;
Se obţine proporţia fiecărei operaţii
Se scrie un program bazat pe proporţiile obţinute anterior.
o Tipuri de Synthetic Benchmark:
Whetstone
Dhrystone
o Rezultatele sunt reprezentate în KWIPS (kilo whetstone instructions per
second). Acest test nu este adecvat
pentru a măsura pileline-ul (conductele)
computerelor.
5. I/O benchmarks
6. Benchmark-uri paralele: sunt utilizate pe
maşini cu procesoare multiple sau sisteme ce
onstau din mai multe maşini.
6
MFLOPS = FLoating point Operations Per Second, operaţii în virgulă mobilă pe secundă
9
Evaluarea performanţelor sistemelor de calcul
În ingineria calculatoarelor, arhitectura calculatoarelor este un design conceptual
şi structurarea funcţionării fundamentale a unui sistem de calcul. Ea reprezintă copia
fidelă şi descrierea funcţională a cerinţelor (în special viteze şi interconexiuni) şi
designul implementării pentru diferite părţi ale calculatorului, concentrându-se pe larg
asupra modului în care unitatea centrală de calcul (procesorul) realizează funcţiile sale
interne şi accesează adresele din memorie.
Arhitectura calculatoarelor cuprinde cel puţin trei ari categorii:
• arhitectura setului de instrucţiuni, sau ISA, - este o imagine abstractă a
sistemului de calcul care este văzută de limbajul maşină (limbajul de
asamblare), şi include setul de instrucţiuni, modul de adresare al memoriei,
regiştrii procesor şi adresarea şi formatul datelor;
• micro-arhitectura, cunoscută ca şi organizarea calculatorului, - este de nivel
scăzut, mai concret, descrierea sistemului care implică cum părţile
constituente ale sistemului sunt interconectate şi cum inter-operează ele
pentru a implementa ISA. De exemplu, dimensiunea memoriei cache, este o
caracteristică organizaţională care, în general, nu are nimic în comun cu ISA.
• designul sistemului, care include toate celelalte componente hardware din
calculator, cum ar fi:
o sistemul de interconectare: magistrale şi comutatoare;
o controllerul de memorie şi ierarhie;
o mecanismul de acces direct la memorie al CPU;
o facilităţi ca multiprocesarea.
Consumul de energie
Consumul de putere este un alt criteriu de design. Eficienţa energetică poate fi
deseori tratată pentru performanţă sau eficienţă economică. Odată cu creşterea densităţii
de energie în circuitele numerice moderne datorată creşterii numărului de tranzistori din
chip, eficienţa energetică a crescu ca importanţă. Designul procesoarelor moderne, cum
este şi IntelCore 2 pune un accent mai mare pe creşterea eficienţei energetice. Astfel, în
lumea calculatoarelor capsulate, eficienţa energetică a fost şi rămâne principala ţintă în
proiectare, alături de performanţă.
7
latenţa de întrerupere - timpul scrus de la generarea unei întreruperi de către un dispozitiv şi deservirea
acelui disozitiv.
11
2. Evaluarea performanţelor plăcilor de bază
2.1. Plăcile de bază: funcţionare, istorie
2.1.1. Definiţii de bază: chipset-ul
Chip-ul reprezintă denumirea pentru un circuit integrat, construit pe bază de
siliciu, care are un rol bine definit în funcţionarea unui echipament electronic.
Procesorul, memoria, placa de bază, placa grafică, placa de sunet, toate înglobează unul
sau mai multe astfel de chip-uri, fiecare având rolul său, ce poate fi ori de execuţie a
anumitor operaţii, ori de memorare a unor date, de obicei temporară. Spre exemplu,
funcţia procesorului este uşor de înţeles: execuţia propriu-zisă a operaţiilor necesare
desfăşurării activităţilor unui computer. Placa grafică deţine un chip principal ce
efectuează operaţii similare dar optimizate pentru domeniul grafic, atât 2D cât şi 3D.
Memoria nu face altceva decât să stocheze temporar informaţii necesare celorlalte
echipamente. Am ajuns la placa de bază, al cărei rol este mai greu de înţeles. Mulţi vor
considera că singurul ei rol este acela de a lega componentele între ele, aşadar ce nevoie
mai avem de chip-urile prezente pe ea? În primul rând, placa de bază nu este pur şi
simplu un element de legătură ci componenta principală a unui sistem, care coordonează
toate activităţile. Ea joacă rol de arbitru şi direcţionează fluxurile de date între procesor
şi memorie, memorie şi hard disk, procesor şi tastatură şi altele asemenea. Nimic nu
poate funcţiona „pur şi simplu”, este nevoie de o componentă „supremă” care să ştie să
folosească resursele celorlalte componente dintr-un PC. Un astfel de echipament poartă
numele de controller. Putem spune că placa de bază este un controller general, diferitele
segmente ale ei oferind funcţia de controller local. De exemplu, controller-ul de
memorie este circuitul care „dă viaţă” memoriei, fără el minunatele memorii DDR
PC3200 vor fi alimentate cu energie şi nimic mai mult, neexistând nimeni care să
exploateze posibilităţile oferite de ele.
(placă de bază pentru procesoare 486) (placă de bază modernă: Epox 4PCA3+)
13
Evaluarea performanţelor sistemelor de calcul
aceasta ne putem da seama parţial doar privind specificaţiile. Să luăm nişte exemple:
VIA KT266A şi KT333. Primul poate lucra cu memorie DDR la frecvenţa de 133 MHz,
al doilea poate creşte viteza acesteia la 166 MHz, de unde rezultă performanţe mai bune.
Există şi altă situaţie, aceea în care specificaţiile sunt aceleaşi dar performanţele diferă:
KT266A este mai rapid decât KT266, deşi ambele suportă acelaşi tip de memorie, din
cauza optimizărilor interne. Uneori, aceste optimizări
depăşesc în eficienţă forţa brută a creşterii frecvenţei,
cum este şi în cazul de faţă: saltul de performanţă de la
KT266 la KT266A este mai mare decât în cazul
comparaţiei KT266A - KT333.
Există mai multe tipuri de controllere de
memorie, în funcţie de tipul acesteia. Unele pot lucra şi
cu memorie SDR şi cu cea DDR, altele sunt dedicate
special celor de tip Rambus, altele oferă tehnici de
dublare a vitezei efective (încă o dată faţă de DDR); este
vorba de tehnologia dual-channel. Iar alte chipset-uri nici nu conţin acest controller, el
fiind integrat în procesor, precum este cazul procesoarelor din familia AMD64.
A doua sarcină principală a northbridge-ului este comunicarea cu procesorul.
Aici apar diferenţele fundamentale dintre chipset-uri şi de aceea există incompatibilităţi
între anumite chipset-uri şi anumite procesoare. Limbajul folosit pentru comunicare
trebuie să fie comun şi, din cauza faptului că există mai multe generaţii şi mai multe
companii care produc procesoare, există şi mai multe standarde în ceea ce priveşte
chipset-urile. Astfel, găsim câteva platforme distincte: Athlon XP (Socket A), Pentium
4 (Socket 478, LGA 775), Athlon 64 (Socket 754 şi 939) şi exemplele pot continua.
Pentru fiecare din ele există o serie de chipset-uri care „cunosc” limbajul procesoarelor
în cauză şi astfel pot dota plăci de bază corespunzătoare acestora. Acest limbaj, care
permite comunicarea „pe aceeaşi lungime de undă” între orice două componente dintr-
un sistem, se numeşte bus.
Deja se naşte o întrebare firească: care este viteza de comunicare dintre
northbridge şi procesor? Această viteză este dată de PSB (Processor Side Bus), variază
în funcţie de procesor dar şi de setările plăcii de bază şi se măsoară în MHz.
Procesoarele până la Pentium III aveau acest PSB setat la frecvenţe între 66 şi 133 MHz
(nu vorbim aici de creşterea artificială, adică overclocking). Pentru procesoarele din
familia AMD K7 (Athlon, Athlon XP, Duron), el variază între 100 şi 200 MHz, în
funcţie de procesor, frecvenţă care este multiplicată cu 2. În termeni electronici, spunem
că informaţia este transmisă atât pe frontul crescător cât şi pe cel descrescător al
semnalului, de unde rezultă o dublare a vitezei (şi nu o dublare a frecvenţei), tehnică
folosită şi la memoria DDR. Departamentele de marketing au profitat imediat de situaţie
şi au afirmat că FSB-ul procesoarelor Athlon este de 200-400 MHz, afirmaţie teoretic
greşită, practic neafectând cu nimic adevărul „palpabil”. Pentium 4 foloseşte un
mecanism asemănător prin care multiplică de patru ori PSB-ul, rezultând 400, 533, 800
şi 1066 MHz virtuali în loc de 100, 133, 200 şi 266.
Bus-urile AGP şi PCI Express reprezintă a treia sarcină a northbridge-ului. Orice
sistem modern deţine o placă grafică cu capabilităţi 3D, componentă care comunică cu
northbridge-ul prin bus-ul AGP sau PCI Express X16. Frecvenţa celui AGP este de 66
MHz, egală cu dublul frecvenţei PCI, însă ea este multiplicată opţional de un număr de
ori, corespunzător x-ului indicator: AGP 2x, AGP 4x, AGP 8x, ultimul oferind valoarea
impresionantă de 2.1 GB/s. Sunt valabile aceleaşi considerente de la comunicarea dintre
14
Cap 2: Evaluarea performanţelor plăcilor de bază
cele două componente ale chipset-ului, aşadar necesarul efectiv este în majoritatea
cazurilor mult mai mic decât cel oferit de AGP 8x. Drept dovadă, micşorarea forţată a
transferului la nivelul lui AGP 2x nu scade performanţele cu mai mult de 10-30%.
În cazul lui PCI Express, lucrurile stau altfel: atât bus-ul X16, necesar plăcii
grafice (eventual X8 în unele cazuri), cât şi cele destinate plăcilor obişnuite (X1, X4)
sunt gestionate de northbridge. Frecvenţa sa este de 100 MHz,
iar rata de transfer în modul 1x este similară lui AGP 1x şi dublă
faţă de PCI.
Utilitatea memoriei RAM este foarte mare, ea beneficiind în plus faţă de alte
medii de stocare a informaţiilor de o viteză extrem de mare, fiind de mii de ori mai
rapidă decât un hard disk, de exemplu. Există două tipuri principale de RAM: memorie
statică (SRAM = Static RAM) şi dinamică (DRAM = Dynamic RAM), diferenţele
constând în „stabilitatea” informaţiilor. Astfel, memoria statică păstrează datele pentru o
perioadă de timp nelimitată, până în momentul în care ea este rescrisă, asemănător unui
mediu magnetic. În schimb, memoria dinamică necesită rescrierea permanentă, la câteva
fracţiuni de secundă, altfel informaţiile fiind pierdute. Avantajele memoriei SRAM:
utilitatea crescută datorită modului de funcţionare şi viteza foarte mare; dezavantaj:
preţul mult peste DRAM.
În realitate, memoria de tip SRAM este folosită cel mai adesea ca memorie
cache pe când DRAM-ul este uzual în PC-urile moderne, fiind prezent în primul rând ca
memorie principală a oricărui sistem. De acest din urmă tip ne vom ocupa în continuare,
enumerând tipurile uzuale de DRAM prezente de-a lungul istoriei, toate concepute în
scopul creşterii performanţelor DRAM-ului standard: FPM DRAM (Fast Page Mode
DRAM), EDO DRAM (Extended Data Out DRAM), BEDO RAM (Burst EDO DRAM),
RDRAM (Rambus DRAM), în prezent impunându-se SDRAM (Synchronous DRAM),
cu variantele DDR SDRAM (Double Data Rate SDRAM) şi DDR2 SDRAM.
De asemenea, pentru plăcile grafice au fost concepute mai multe tipuri de
memorie, printre care VRAM (Video RAM), WRAM (Windows RAM), SGRAM
(Synchronous Graphics RAM) şi GDDR3, ele fiind variante de DRAM (primele două),
SDRAM şi respectiv DDR2 SDRAM, optimizate pentru a fi folosite ca memorie video.
Ar mai fi de menţionat alte două elemente care influenţează viteza, stabilitatea şi
preţul memoriilor: funcţiile ECC şi Registered, integrate în unele module de memorie.
Cele ECC (Error Correction Code) deţin o funcţie specială care permite corectarea
erorilor ce apar pe parcursul utilizării iar cele Registered (numite şi Buffered), deţin un
buffer (zonă de memorie suplimentară) care depozitează informaţia înainte ca ea să fie
transmisă controller-ului, permiţând verificarea riguroasă a acesteia.
Memoriile Registered sunt mai lente decât cele normale sau ECC şi extrem de
scumpe, folosirea lor fiind justificată doar în cazuri speciale, când corectitudinea
15
Evaluarea performanţelor sistemelor de calcul
informaţiilor prelucrate şi stabilitatea sistemului este vitală, de exemplu în cazul server-
elor. În general, atât timp cât memoria nu este supusă unor situaţii anormale de
funcţionare (frecvenţă, tensiune sau temperatură în afara specificaţiilor) ea oferă o
stabilitate extrem de apropiată de perfecţiune, arhisuficientă pentru un calculator
obişnuit.
Ne-am referit până acum la chip-urile de memorie, când vine vorba de modulele
în sine (plăcuţele care se introduc în slot-urile plăcii de bază), avem câteva modele
constructive. După perioada de început, când chip-urile de memorie se înfigeau pur şi
simplu în placa de bază, primul model uzual a fost SIMM-ul pe 30 de pini, urmat de cel
pe 72 de pini. Denumirea de SIMM provine de la Single Inline
Memory Module, modulul prezentând o lăţime de bandă de 8
biţi pentru prima versiune şi de 32 pentru cea de-a doua;
dimensiunea fizică a SIMM-ului pe 30 de pini este de două ori
mai mică decât în cazul celeilalte variante. Diferenţele de viteză
dintre ele corespund perfect perioadei de glorie: dacă prima versiune era uzuală pe
timpul sistemelor 286 şi 386, SIMM-ul pe 72 de pini a stat la baza generaţiei 486,
Pentium şi Pentium Pro. Chip-urile folosite au fost de tip DRAM, FPM şi, mai târziu,
EDO DRAM.
Urmaşul lui SIMM s-a chemat DIMM, adică Dual Inline Memory Module. După
cum îi spune şi numele, el oferă o lăţime de bandă de 64 de biţi, dublă faţă de SIMM-
urile pe 72 de pini, având la bază un fel de dual-channel intern, dacă ni se permite
comparaţia. Numărul de pini a fost de 168 sau de 184 de pini, în funcţie de tip: SDRAM
sau DDR SDRAM. A existat şi un număr limitat de modele de DIMM bazate pe EDO
DRAM dar ele nu au avut succes pentru că trecerea de la SIMM la DIMM a coincis cu
cea de la EDO la SDRAM.
RIMM (Rambus Inline Memory Module) este modelul constructiv al memoriilor
RDRAM. Numărul de pini este de 184 (ca şi la DDR SDRAM) dar asemănările se
opresc aici, configuraţia pinilor şi modul de lucru fiind total diferit. Mai amintim de
modulele SO-DIMM, destinate calculatoarelor portabile, care deţin un număr diferit de
pini: 184 pentru SDRAM şi 200 pentru DDR SDRAM.
Practic vorbind, montarea modulelor SIMM era o operaţie greoaie şi necesita
experienţă şi îndemânare. Odată cu modulele DIMM (şi RIMM, care au acelaşi sistem
de prindere) chinul a fost dat uitării, oricine putând monta o memorie, fiind necesară
doar puţină atenţie. Montarea inversă a unui DIMM (care necesită, totuşi, destulă forţă)
duce întotdeauna la arderea memoriei.
Diferenţele de viteză dintre memorii se bazează în mare parte pe diferenţele de
frecvenţe. Să luăm cazul memoriei principale, inclusă în sisteme ca memorie de lucru.
În primă fază, până la apariţia procesoarelor 80486, frecvenţa sa era egală cu cea a
procesorului şi a PSB-ului (de ordinul zecilor de MHz), însă în momentul în care
procesoarele au atins frecvenţe de peste 50 MHz, s-a pus problema faptului că nu există
posibilitatea fabricării (la preţuri acceptabile) de memorii la astfel de frecvenţe. Aşa că
s-a recurs la un truc: s-a hotărât ca memoria şi PSB-ul să lucreze la o frecvenţă mai
mică decât cea a procesorului, setându-se astfel un raport fix între PSB şi procesor.
Astfel, un 486 DX4 la 100 MHz avea un PSB de 33 MHz (memoria rulând şi ea la
această frecvenţă) iar un Pentium MMX la 233 MHz avea un PSB de 66 MHz. Spunem
că procesorul rulează asincron faţă de PSB, în primul caz cu un multiplicator de 3x iar
în al doilea de 3.5x. Nu numai imposibilitatea creşterii frecvenţei memoriei a dus la
16
Cap 2: Evaluarea performanţelor plăcilor de bază
această situaţie ci şi limitările celorlalte bus-uri, la acea vreme ISA, VLB şi PCI, care nu
suportau frecvenţe mult mai mari decât cele standard.
Observaţie: Nu trebuie confundată frecvenţa PSB cu cea a memoriei, sunt
lucruri total diferite, PSB-ul fiind viteza de comunicare dintre procesor şi northbridge.
Întâmplător, controller-ul de memorie se afla în northbridge şi, tot întâmplător, memoria
rula sincron cu FSB-ul. Vom vedea că mai târziu că situaţia s-a schimbat.
66 MHz a fost un prag greu de trecut pentru memorie, poate şi datorită faptului
că această frecvenţă corespunde dublului frecvenţei bus-ului PCI şi egalului frecvenţei
bus-ului AGP (care a apărut mai târziu), iar pentru a creşte frecvenţa RAM independent
de aceste două bus-uri era necesară implementarea acestei funcţii în chipset. Dar poate
cel mai important factor a fost instabilitatea preţului la memorie, care a oscilat
permanent foarte puternic, existând cazuri în care el a crescut de câteva ori pe parcursul
unei singure luni; scăderea a fost, desigur, mult mai lentă. Trecerea la SDRAM şi
creşterea FSB-ului uzual de la 66 la 100 MHz (odată cu Pentium II Deschutes şi K6-2) a
facilitat depăşirea acestei bariere, ajungându-se rapid la 100 şi apoi la 133 MHz (chiar şi
cu păstrarea FSB-ului la 100 MHz). Următorul prag, de 166 MHz, nu a mai fost atins de
SDRAM dar nici exclus total, ci mai degrabă neglijat datorită apariţiei memoriei DDR
SDRAM, care dubla lăţimea de bandă a unui SDRAM. Chiar dacă frecvenţa reală era de
100, 133 sau 166 MHz, memoria se comporta aproape identic cu una la frecvenţă dublă
şi de aceea au fost încetăţenite frecvenţele improprii de 200, 266 şi 333 MHz
(memoriile fiind marcate ca DDR200, DDR266 şi DDR333 sau PC1600, PC2100 şi
PC2700, corespunzător lăţimii de bandă: 1.6, 2.1 şi respectiv 2.7 GB/s). Ulterior s-a
ajuns la 400 MHz (DDR400, PC3200) şi chiar mai sus, amatorii de overclocking
dezlănţuindu-şi pasiunea odată cu module DDR533 (PC4200) sau chiar DDR625
(PC5000), care costă totuşi o avere.
Următorul pas a fost DDR2 SDRAM, un standard asemănător
cu DDR, dar care permite, la latenţe mai ridicate, frecvenţe mai mari.
S-a început cu DDR2-400 (PC2-3200), urmând apoi DDR2-533
(PC2-4300), ultima realizare fiind DDR2-800 (PC2-6400). Deşi
numele ar sugera dublarea vitezei, un modul DDR2 nu este mai rapid
decât unul DDR la aceeaşi frecvenţă, ci dimpotrivă: latenţele mai
ridicate scad uşor performanţa. Avantajul constă în posibilitatea creşterii frecvenţei mult
dincolo de DDR400, standardul la care s-a poticnit DDR SDRAM (DDR533 şi
următoarele sunt pseudo-standarde, nefiind ratificate).
Pentru plăcile grafice, avem GDDR3 SDRAM, fiind anticipat o nouă versiune,
numită (cum altfel?) GDDR4. Este vorba de o optimizare a standardului DDR2 pentru
plăcile grafice, la fel cum era SGRAM pentru SDRAM.
Ca o mică paranteză, am folosit termenul de PSB (Processor Side Bus) care s-a
metamorfozat în cazul lui Pentium II în FSB (Front Side Bus). Aceste denumiri au
generat şi generează în continuare confuzii; termenul de FSB a fost introdus special
pentru procesoarele al căror cache level 2 era extern procesorului, FSB-ul fiind bus-ul
care lega chipset-ul plăcii de bază de acest cache. Bus-ul BSB (Back Side Bus) era cel
care făcea legătura mai departe, între cache-ul L2 şi nucleu.
Procesoarele cu cache-ul L2 inclus în pastila centrală au bus-urile FSB şi BSB
unificate sub denumirea de PSB. Aşadar, denumirea de FSB are sens doar cu privire la
procesoarele Pentium II, o parte din modelele Pentium III (doar cele cu nucleu Katmai)
şi unele variante de Athlon, toate având la bază platforma Slot 1 (pentru Intel) şi
17
Evaluarea performanţelor sistemelor de calcul
respectiv Slot A (pentru AMD). Aşadar, orice procesor inserabil într-un socket, nu are
FSB, ci PSB.
Deşi nu intră în categoria de mai sus, trebuie să
menţionăm în final şi un alt tip de memorie: ROM (Read
Only Memory). După cum îi spune şi numele, această
memorie nu poate fi decât citită, nu şi scrisă prin metode
obişnuite. Distingem şi aici mai multe varietăţi, diferite de
ROM-ul standard: PROM (Programmable ROM) - care
poate fi scrisă o singură dată, similar unui CD-R, EPROM
(Erasable Programmable ROM) - care poate fi şi rescrisă,
similar unui CD-RW şi EEPROM (Electrically Erasable Programmable ROM) -
memorie care poate fi rescrisă inclusiv prin metode software. Acest din urmă tip este
folosit îndeosebi în cazul BIOS-urilor diverselor componente (plăci de bază, plăci
grafice), BIOS care este rescris în caz de necesitate (se spune că „i se face update”).
BIOS-ul (Basic Input Output System) reprezintă interfaţa dintre hardware şi
software, elementul care face posibilă comunicarea dintre un program şi o componentă
hard. Îl putem numi controller la nivel software, fiind în esenţă un program care traduce
comenzile software-ului într-un limbaj propriu al componentei respective şi invers. Ar
putea fi asemănat şi cu un driver, dar BIOS-ul lucrează la un nivel „mai low-level”, mai
apropiat de hardware şi deţine doar câteva funcţii elementare, pe care se va baza
driverul.
Legat de EPROM şi EEPROM, este puţin forţată denumirea de ROM pentru că,
la prima vedere, funcţionalitatea unei astfel de memorii este asemănătoare memoriei
RAM: informaţia poate fi alterată. Însă modul de construcţie îi oferă o viteză redusă şi o
face utilizabilă doar ocazional şi în cantităţi mici.
19
Evaluarea performanţelor sistemelor de calcul
2.1.4. Interfeţele externe: serial, paralel, USB etc
Pe lângă interfeţele care permit conectarea componentelor interne, în speţă
plăcile de extensie, porturile externe permit ataşarea de dispozitive exterioare PC-ului
care îndeplinesc diverse funcţii, de la mouse până la DVD writer.
Porturile serial şi paralel sunt prezente în practic toate
sistemele, de la apariţia PC-ului încoace, fiind utilizate în principal
pentru cuplarea unor dispozitive periferice externe (mouse serial,
imprimantă, modem, scanner etc). Diferenţele dintre ele privesc
modul de funcţionare: portul serial transmite date pe un singur fir (bit
cu bit), faţă de cel paralel care transferă datele pe opt linii paralele
(byte cu byte).
Iniţial, portul paralel era capabil de transmisie unidirecţională
(într-un singur sens), aceasta datorită limitării standardului SPP
(Standard Parallel Port); odată cu EPP (Enhanced Parallel Port),
problema a dispărut iar viteza maximă atinsă a crescut de la 150 KB/s la 2 MB/s.
Nevoia tot mai mare de viteză a adus un nou impediment privind creşterea ratei de
transfer: utilizarea prea mare a procesorului sistemului. Pentru a se evita inconvenientul
a fost introdus standardul ECP (Extended Capabilities Port) care lucra în aşa-numitul
mod DMA (Direct Memory Access), utilizarea procesorului fiind minimă. Pe lângă
aceasta, EPP a oferit compresie/decompresie în timp real, ceea ce a constituit un ajutor
remarcabil pentru dispozitivele ce necesitau rate mari de transfer.
Perifericele conectate la portul paralel sunt diverse, cuprinzând în primul rând
imprimantele, scanner-ele, unităţile de bandă dar şi altele mai exotice, precum webcam-
urile. Însă odată cu necesităţile tot mai mari de la sfârşitul anilor '90, portul paralel a
început încet-încet să fie dat uitării, locul său fiind preluat de alte standarde
incompatibile cu acesta.
Portul serial, datorită vitezei scăzute, nu poate fi utilizat decât
de componente care nu necesită viteze mari, precum mouse-ul sau
modem-ul. Un avantaj al său, de cele mai multe ori ignorat, este
posibilitatea de transmitere a datelor la distanţe mult mai mari decât
portul paralel. Putem adăuga şi numărul de fire de transmisie mai mic
(3 în cazul portului serial faţă de 19 sau 25 pentru paralel), deci
costurile cablurilor sunt mai reduse.
Concluzionând, nu putem pune o relaţie comparativă între
portul serial şi paralel pentru că ele au fost concepute pentru utilizări
diferite. Ambele se află în declin, însă nici un alt standard nu a reuşit
să se impună puternic din cauza costurilor ridicate, cu excepţia celui
PS/2 - utilizat azi pentru tastatură şi mouse. Acesta a fost introdus de
IBM în 1987, odată cu seria de PC-uri numită PS/2 (Personal
System/2), un eşec total pentru Big Blue. Însă Intel s-a folosit de standard, el devenind
uzual abia odată cu introducerea în 1997 a form factor-ului ATX, despre care vom vorbi
mai târziu. Reţinem că atât mouse-ul cât şi tastatura (conectată până atunci prin
standardul AT - compatibil pin la pin cu PS/2, dar de formă mai mare) se leagă în
prezent la computer prin acest port.
Un nou standard, pe numele său USB (Universal Serial Bus), a apărut din
dorinţa de a se oferi o interfaţă universală, capabilă să conecteze la PC orice fel de
dispozitiv, de la mouse, imprimantă, până la interfaţă externă de sunet (similară unei
plăci de sunet dar situată în exteriorul PC-ului), TV tuner, hard disk şi unitate optică.
20
Cap 2: Evaluarea performanţelor plăcilor de bază
Interfaţa este plug&play şi hot-swappable, ceea ce înseamnă că orice dispozitiv va fi
recunoscut automat de sistemul de operare şi respectiv va putea fi conectat sau
deconectat „din zbor”, fără a fi necesară o repornire.
USB s-a impus foarte greu, pe parcursul câtorva ani el progresând lent din cauza
performanţelor reduse ale dispozitivelor conectate la acest port, fapt datorat limitării
transferului la 12 Mbps. Spre exemplu, unui CD-ROM 40x îi era imposibil să se
conecteze la portul USB pentru că ar fi avut nevoie de un transfer de 6 MB/s (48
megabiţi pe secundă), de patru ori mai mult decât limitele bus-ului. De aceea, USB a
fost destinat doar dispozitivelor lente (totuşi mult mai rapide decât portul serial, care era
limitat la câteva sute de Kbps).
Soluţia la problemă a fost oferită de USB 2.0, a doua versiune a standardului, ce
prevedea viteze de până la 480 Mbps (60 MB/s, deci şi un ipotetic CD-ROM 400x ar
face faţă). În prezent, majoritatea plăcilor de bază suportă interfaţa USB 2.0 şi
dispozitivele ce se conectează la aceasta sunt din ce în ce mai multe. Totuşi, cei mai
mulţi utilizatori preferă soluţiile comune (dacă ele există), care costă mai puţin şi oferă
aproape aceleaşi facilităţi.
Un port cu funcţii mai avansate şi cu o vechime mai mare este FireWire, numit
şi IEEE 1394, standard introdus de către Apple la mijlocul anilor '80 şi oferit apoi către
IEEE (Institute of Electrical and Electronics Engineers) pentru standardizare, de unde şi
numele alternativ.
În 1995, acest institut lansa specificaţiile sale oficiale, oferind trei rate de
transfer posibile: 100, 200 şi 400 Mbps. Aceasta în perioada în care USB, în prima sa
versiune (12 Mbps) era doar în proiect... Totuşi, scopul lui FireWire este diferit: el
doreşte să conecteze la computer dispozitive ce au nevoie (şi aveau nevoie încă de la
acea dată) de viteze foarte mari, precum camerele video digitale, Sony adoptând rapid
standardul. Încet-încet, FireWire a câştigat popularitate, devenind astăzi ceva doar cu
puţin mai exotic decât USB (nefiind prezent pe orice placă de bază, dar cele high-end
sigur îl deţin). În prezent, utilizarea sa este destul de largă, fiind folosit de dispozitive
real-time de editare audio/video, dar şi de produse destinate publicului larg, precum
scannere, webcam-uri, unităţi optice de stocare sau hard disk-uri portabile.
Altă interfaţă întâlnită pe majoritatea plăcilor de bază, dar mai rar folosită, este
IrDA (Infrared Data Association), care permite schimbul de date wireless („fără fir”) cu
alte echipamente ce au incorporată o astfel de tehnologie (imprimante, laptop-uri, PDA-
uri, telefoane mobile, camere digitale etc) sau chiar cu un alt PC. Tot la capitolul
interfeţe wireless mai merită menţionat standardul Bluetooth, relativ folosit, dar încă
exotic pentru utilizatorii obişnuiţi. Prin intermediul acestuia, PC-urile, PDA-urile,
telefoanele mobile, imprimantele şi alte dispozitive, pot fi conectate folosind undele
radio, pe distanţe scurte sau medii.
Cum subiectul este destul de complex pentru a fi detaliat aici, trecem la capitolul
următor.
Serial ATA (sau S-ATA) a fost următorul pas. Schimbările palpabile au fost
reprezentate de noile tipuri de cabluri, atât pentru alimentare cât şi pentru date (ultimul
mult mai comod de folosit, fiind mai subţire, cu doar 7 fire), precum şi de eliminarea
conceptelor de Master şi Slave, fiecare hard disk având canalul său dedicat. Un alt
avantaj remarcabil este hot-swapping-ul, fiind posibilă introducerea/eliminarea hard
22
Cap 2: Evaluarea performanţelor plăcilor de bază
disk-ului fără a opri PC-ul; practic, orice hard disk normal poate fi acum folosit precum
unul portabil.
Standardul ATA a fost redenumit retroactiv în Parallel ATA (sau P-ATA),
pentru a se putea diferenţia uşor de S-ATA. Denumirile provin chiar de la modul în care
sunt transmise datele: P-ATA foloseşte mai multe „căi” pentru transmiterea în paralel a
informaţiilor (de aici şi numărul mare de fire necesar), pe când S-ATA efectuează o
transmisie serială.
Versiunile curente sunt Serial ATA „original” (150 MB/s) şi Serial ATA II (300
MB/s), dar se aşteaptă adoptarea în viitor a lui Serial ATA III pentru 600 MB/s.
Separat de ATA/IDE şi variantele sale, SCSI (Small Computer System Interface
- pronunţat „scazi”, în două silabe şi cu accent pe „a”) a devenit, începând cu mijlocul
anilor '80 , un standard foarte utilizat în workstation-uri, servere şi, ocazional, în PC-
urile high-end.
Avantajele sunt numeroase (viteză mai mare, ocupare minimă a procesorului în
timpul transferului, daisy-chaining etc) şi nu afectează în mare măsură utilizatorul
obişnuit. SCSI este folosit şi în alte scopuri, precum conectarea imprimantelor sau a
scanner-elor.
Orice controller P-ATA/S-ATA/SCSI poate fi integrat pe placa de bază (este
cazul P-ATA, cel puţin pentru plăcile fabricate în ultimii 10 ani, a celor S-ATA pentru
mai toate modelele de plăci din ultimul an, precum şi cazul SCSI pentru plăcile de bază
de servere), dar se poate găsi şi separat, sub forma unei plăci de extensie ce se ataşează
prin intermediul unui slot (PCI, eventual VLB sau ISA).
În finalul acestui capitol, trebuie să spunem câteva cuvinte şi despre unitatea de
dischete, al cărei controller a trecut prin multe faze, începând cu MFM (controller care
putea gestiona atât floppy-ul cât şi hard disk-ul), el fiind azi integrat pe placa de bază.
Cablul de date este asemănător celui IDE, însă cu numai 34 de fire.
De notat că unităţile floppy se mai pot conecta prin SCSI sau USB
25
Evaluarea performanţelor sistemelor de calcul
2.2.3. Testarea efectivă
Sistemul de test a constat într-un procesor Athlon 64 3200+ (nume de cod
Winchester - 0.09 microni, 2000 MHz, 512 KB L2 cache, 1.4V, frecvenţa maximă la
care rula stabil: 2550 - 2600 MHz la 1.6 – 1.65V), un kit de memorii Corsair
TwinX1024-3200XLPT ce totalizau 1 GB, o placă grafică Gigabyte GV-NX66T128D
cu chip GeForce 6600 GT (128 MB, 500 MHz core, 1000 MHz memoria), un hard disk
Western Digital Caviar SE (WD800JB) de 80 GB cu 8 MB cache pe Parallel ATA, iar
pentru evaluarea performanţei controller-ului Serial ATA am montat un Seagate
Barracuda 7200.7 SATA cu aceleaşi specificaţii. Driverele au fost cele mai noi oficiale
la data începerii testării, şi anume nForce4 Standalone Kit 6.39 şi ForceWare 66.93.
Sistemul de operare, desigur, Windows XP SP2.
Fiecare placă a fost setată, după un update al BIOS-ului (dacă exista unul mai
nou decât cel cu care placa venea), la maximul de performanţă pe care îl puteam obţine
în condiţii de stabilitate perfectă. Stabilitatea a fost măsurată cu al cincilea test din
Memtest86+1, urmată de câteva procente din testul 7. Nu am rulat Prime952 pentru că
procesorul nu avea prea mult motive să manifeste instabilitate, iar testele rulate pentru a
evalua performanţa sunt suficient de stresante pentru acesta pentru a se bloca sau a da
erori în caz de probleme. Setările principale de memorie, şi anume CAS Latency, tRCD,
tRP, tRAS şi Command per Clock au fost setate la minimul posibil, de obicei CL2 2-2-5
1T, însă au fost şi cazuri în care am rulat în CL1.5 2-2-0 1T. tRC, tRFC, tRRD, tWR,
tWTR, tRTW, tREF sunt alte câteva setări, primele două ieşind în evidenţă prin faptul
că au valori mari, de minim 7 şi respectiv 9. Rareori am rulat stabil în aceste condiţii,
valorile normale fiind 9 şi respectiv 12. De asemenea, Bank Interleave a fost şi el
activat.
Overclocking-ul a fost testat în două moduri, în ambele situaţii scopul fiind
obţinerea unui bus HTT maxim (în paşi de 5 MHz). Am setat multiplicatorul (dacă
placa a permis acest lucru) în aşa fel încât frecvenţa finală a procesorului să fie cel puţin
egală cu cea implicită, de 2 GHz, iar celelalte setări au fost puse la minim sau aproape
de minim, în aşa fel încât ele să nu afecteze stabilitatea (LDT 2x sau 3x, CL3 4-4-8 2T
etc). Apoi am setat memoria atât sincron cu HTT-ul cât şi la un raport de 1:2 faţă de
acesta. Tensiunea procesorului a fost ajustată la 1.65V (sau cea mai apropiată valoare
mai mică de 1.65V pe care o permitea BIOS-ul) - maximul la care putem sta liniştiţi că
nu urmează o mică explozie în interiorul acestuia. De asemenea, tensiunea memoriei a
fost urcată până la maxim 2.9V iar dacă placa permitea setarea voltajului chipset-ului,
am realizat şi această modificare, crescând valoarea la maxim. Nu am folosit programe
de tip A64 Tweaker sau ClockGen pentru a efectua alte setări decât cele ale BIOS-ului
sau a încerca creşterea HTT-ului direct din Windows.
1
http://www.memtest.org/
2
http://www.mersenne.org/freesoft.htm
26
Cap 2: Evaluarea performanţelor plăcilor de bază
este creată special pentru jocuri, atât datorită performanţelor extreme ce pot fi obţinute
cât şi faptului că placa a fost lipsită de anumite componente pe care gamerii nu le
folosesc - făcând referire, probabil, la absenţa porturilor serial şi paralel. Aşadar, avem
de-a face cu o campanie de marketing aparent reuşită, mai ales dacă ţinem seama de
aspectul exterior al produsului, extrem de atrăgător. Să vedem ce surprize ne mai
rezervă. Cele două cutii incluse în pachet, cu care Abit ne-a obişnuit de ceva vreme,
conţin diverse accesorii utile plăcii. Nu s-a pus atât de mult accent pe cantitate, precum
vedem la plăcile Gigabyte high-end. Astfel, nu avem decât un bracket USB
2.0/FireWire, totalizând (împreună cu porturile din back-panel) şase şi respectiv trei
porturi. Însă pe placă avem un singur conector extern de FireWire, ceea ce nu justifică
cele două porturi prezente pe bracket.
Cablurile Serial ATA sunt în număr de patru, iar pentru alimentarea hard disk-
urilor este disponibil un convertor molex – SATA, ce conţine doi conectori. Cablurile
Parallel ATA sunt în număr de unu, însă el iese în evidenţă prin faptul că este de tip
rounded, acoperit cu un plastic transparent, astfel încât cele 80 de fire se află la vedere.
Şi cablul floppy este rounded, însă de culoare neagră. Un efect deosebit s-ar fi obţinut
dacă şi aceste din urmă cabluri erau de culoare roşu-vişiniu, precum cele SATA, PCB-ul
plăcii, slot-urile PCI şi DIMM şi cele câteva LED-uri. Dacă până aici nu am găsit nimic
ieşit din comun, situaţia se schimbă dramatic odată ce punem ochii pe OTES RAMFlow,
un set de două ventilatoare de 40 mm înglobate într-o carcasă de plastic şi destinate
răcirii memoriilor. Ele se aşează deasupra slot-urilor DIMM, prinzându-se cu ajutorul a
două cleme, menţinând astfel memoriile la o temperatură la care să suporte un
overclocking superior condiţiilor normale. Iată că încet-încet acele performanţe extreme
promise încep să-şi arate colţii...
Răcirea extremă este lucrul de care Abit s-a îngrijit cel mai mult. Tranzistorii de
tip MOSFET sunt acoperiţi de radiatoare, iar dacă temperatura acestora depăşeşte o
anumită limită, spre ele încep să bată două ventilatoare „Dual OTES” tot de 40 mm dar
mai adânci decât cele normale, poziţionate în locul porturilor PS/2, serial şi paralel pe
plăcile obişnuite. De asemenea, răcirea chip-ului principal (nu a chipset-ului, pentru că
nForce4 este construit dintr-un singur chip) este, după spusele lui Abit, eficientă,
radiatorul fiind realizat din cupru. Practic, este vorba de cooler-ul clasic Abit, întâlnit de
exemplu la modelul NF7, doar culoarea roşie trădează materialul din care a fost
confecţionat. Nu putem trece mai departe fără a enumera succint celelalte elemente de
27
Evaluarea performanţelor sistemelor de calcul
pe placă: un slot PCI Express X16, două X1, trei PCI, două porturi IDE aşezate culcat
(un „bravo!” la ergonomie), patru Serial ATA 300 coordonate de „southbridge”-ul
integrat în chip-ul central, iar de reţeaua Gigabit se ocupă un integrat Vitesse. În caz că
neglijăm alimentările de ventilatoare deja ocupate (două cu răcirea surselor de putere,
una cu chip-ul nForce4, una opţională pentru răcirea memoriilor), găsim doar două fan
headere libere, ceea ce nu prea stă bine unui produs Abit, care ne-a obişnuit cu patru sau
chiar cu cinci astfel de conectori. Dacă mufa de floppy nu s-ar fi aflat într-o poziţie
extrem de proastă, şi anume în spatele ultimului slot PCI, nota la ergonomie ar fi fost
mare. Oricum, la acest capitol AN8 stă bine, peste medie.
Performanţele nu au dezamăgit, fiind normale pentru o placă bazată pe acelaşi
chipset (sper că îmi este permisă folosirea în continuare a acestui termen, el specifică
foarte clar la ce se face referirea deşi este impropriu numit astfel).
Trecând la analiza BIOS-ului, primul lucru care iese în evidenţă este
imposibilitatea setării multiplicatorului. Imposibil şi inadmisibil pentru o placă Abit, cu
atât mai mult cu cât e vorba de una de vârf. În testul de overclocking, placa se oprea fără
drept de apel la un HTT de 255 MHz din cauza procesorului care nu reuşea să ruleze
stabil la frecvenţe mai mari (reamintesc că este vorba de un Athlon 64 3200+ ce rulează
stabil la puţin sub 2600 MHz, frecvenţa standard fiind de 2 GHz). Problema poate fi
rezolvată cu versiunea beta de BIOS (12 beta 1, varianta iniţială fiind 11), ce rezolvă
problema multiplicatorului. Frecvenţele maxime atinse prin overclocking au fost de 310
MHz sincron şi 375 MHz cu raport de 2:1 între HTT şi memorie, valori foarte bune. În
acordarea notei sa ţinut seama doar de funcţionarea cu acest BIOS beta deoarece
lansarea variantei finale de către Abit este iminentă.
BIOS-ul este foarte bun, deşi nu de excepţie. Setările uzuale sunt la locul lor, în
meniul SoftMenu, devenit acum µGuru. Tensiunea procesorului poate fi ajustată până la
1.75V, cea a memoriei până la 2.8V, valori aproape deranjant de comune. Nu aveam
pretenţia la 4V la memorie, rulăm cu Abit, nu cu DFI, dar un 3.2V pentru a „hrăni”
memorii precum Winbond BH5 nu ar fi stricat deloc. Voltajul chipset-ului poate urca
până la 1.8V, valoarea cea mai mare întâlnită (pe majoritatea plăcilor el se limitează la
1.65V). Temperatura cooler-ului de pe chipset nu a fost deloc mică, semn că radiatorul
de cupru lucrează la maximul de care este capabil. Setarea greşită a parametrilor
sensibili poate duce, desigur, la imposibilitatea pornirii. Placa detectează automat aceste
situaţii, nefiind necesară nici măcar apăsarea clasicei taste Insert pentru ca sistemul să
POST-eze. În cel mai rău caz, avem la dispoziţie LED-urile binecunoscute, ce indică
printr-un cod de eroare starea în care sistemul s-a „agăţat”.
Turaţiile celor maxim şase ventilatoare pot fi reglate în fel şi chip, existând
posibilitatea setării unei valori minime de temperatură la care să intre în funcţiune
ventilatorul la o turaţie mică (reglabilă în volţi), cât şi o valoare destinată turaţiei
maxime. Monitorizarea este bună, atât pentru temperatură cât mai ales pentru voltaje,
fiind prezente şi câmpuri rar întâlnite, precum voltajul de standby al chipset-ului. O
problemă destul de gravă am întâlnit-o chiar de la pornirea plăcii: după câteva secunde,
ea s-a închis irevocabil din cauza ventilatorului pentru procesor alimentat din alt
conector. Pe lângă faptul că suntem obligaţi să folosim, la prima montare a plăcii (sau
după reset-area BIOS-ului) un anume conector, sunt ventilatoare care se alimentează din
mufa molex şi care practic nu pot fi folosite pe această placă până nu îi este setată în
BIOS opţiunea de a nu stinge sistemul dacă observă că CPU Fan raportează zero turaţii.
Soft-ul livrat include, pe lângă un program de scriere a BIOS-ului din Windows,
Abit EQ şi OC Guru, utilitare capabile cam de aceleaşi lucruri ca şi meniurile de
28
Cap 2: Evaluarea performanţelor plăcilor de bază
monitorizare şi respectiv overclocking din BIOS. În plus, în cazul lui Abit EQ există trei
preset-uri: Quiet, Normal şi Turbo, ce corespund valorilor de 204, 210 şi 216 MHz
pentru HTT, ajustându-se în acelaşi timp şi voltajul memoriei şi procesorului. Întâlnim
acelaşi 204, valoare considerată implicită de anumite plăci Abit, precum AV8. De
aceea, putem face presupunerea că viitoarele BIOS-urile de AN8 ar putea recurge la
aceeaşi metodă, nu foarte ortodoxă, de a creşte performanţa plăcii.
Ce lipseşte? Dispozitivul extern 3rd Eye, prezent pe multe plăci mai slab cotate.
Dar dacă „săpăm” puţin, descoperim că există şi modelul cu „al treilea ochi”, puţin mai
scump.
Concluzie
Nu este foarte plăcut să afli că placa de bază pe care tocmai ai cheltuit o sumă
impresionantă are un BIOS în stadiu beta, deşi marcat ca oficial. Acesta este unul dintre
puţinele impedimente care pot hotărî un entuziast să nu cumpere Abit AN8 Fatal1ty.
+ potenţial mare de overclocking
+ răcire excelentă
+ LED-uri de diagnosticare
+ prezentare atrăgătoare
- BIOS beta
- doar 2.8V pentru memorie
- preţ mare
Concluzie
+ potenţial mare de overclocking
+ răcire bună
29
Evaluarea performanţelor sistemelor de calcul
+ LED-uri de diagnosticare
+ prezentare atrăgătoare
- BIOS beta
- doar 2.8V pentru memorie
30
Cap 2: Evaluarea performanţelor plăcilor de bază
3
http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=2322
31
Evaluarea performanţelor sistemelor de calcul
pe placa de baza, pe care am avut ocazia să le apreciem în timpul testelor, placa având
funcţionalitate deplină fără a necesita folosirea unei carcase.
Mai departe, descoperim un BIOS extrem de bogat care, pe lângă numărul foarte
mare de setări legate de memorie, permite reglarea tensiunii Vcore (pentru procesor)
până la 2.1V, VDD (chipset) până la 1.8V, LDT (HyperTransport) până la 1.5V şi, cel
mai impresionant, Vdimm (cea a memoriei) până la 4V. Deşi această din urmă setare e
utilă doar în cazul în care sunt folosite memorii cu anumite chip-uri Winbond ce
răspund dar mai ales rezistă la asemenea valori, notăm încă un punct în plus pentru DFI
din partea entuziaştilor. Toate setările legate de overclocking sunt strânse într-o singură
categorie a BIOS-ului, numită „Genie BIOS” - şi când zic „toate” nu mă refer doar la
memorie şi voltaje, ci şi la posibilitatea de a dezactiva anumite device-uri on-board ce ar
putea limita overclocking-ul extrem (porturi S-ATA, on-board LAN etc) - de unde
putem afla tensiunile critice şi, foarte interesant, avem posibilitatea de a rula
Memtest86+ imediat după POST (test ce este integrat în chip-ul de BIOS). „Ambalajul
de jucării” conţine, se pare, şi ceva jucării de oameni mari.
Un lucru de asemenea special este CMOS Reloaded, ce constă în posibilitatea de
a stoca patru configuraţii ale BIOS-ului, ce se pot încărca mai târziu prin simpla apăsare
a unei taste; alături de modul „Safe Boot” selectabil printr-un jumper (pentru a nu fi
necesar să resetăm BIOS-ul), este o unealtă foarte utilă în cazul overclocking-ului sau al
testării componentelor.
Trecând mai departe la măsurarea performanţelor, am observat un comportament
excelent, placa stabilind referinţa pentru celelalte incluse în test, mai ales datorită
faptului că a suportat setări ale memoriei mai agresive decât în cazul celorlalte modele.
Astfel, setările CAS şi TRAS au mers coborâte până la unele valori mai neobişnuite, şi
anume 1.5 şi respectiv 0, în timp ce la celelalte modele testate nu am reuşit sa le
coborâm în condiţii de stabilitate mai jos de 2, respectiv 5. De asemenea, tRC, tRFC si
tRRD au coborât până la 7-9-0, comparativ cu 9-12-2 la celelalte. Cea mai mare
diferenţă de performanţă a avut loc în compresia WinRAR, unde placa a punctat cu
1.5% mai bine decât următoarea clasată. Overclocking-ul este însă capitolul unde DFI
arată cu adevărat tot ce poate. Forţând memoriile Corsair la latenţe crescute, am reuşit
să le împingem până la o frecvenţă stabilă de 315 MHz, destul de impresionant având în
vedere că ele sunt certificate la o frecvenţă de lucru de 200 MHz (cu latenţe mult mai
strânse însă). Cel mai impresionant lucru a fost HTT-ul atins, şi anume 445 MHz,
folosind un divizor 2:1 pentru memorie; astfel, placa a dovedit că poate rula stabil la o
frecvenţă aproape de două ori şi jumătate mai mare faţă de specificaţii.
Software-ul inclus pe CD-ul cu drivere constă într-un program de monitorizare
(ITE SmartGuardian) ce permite şi controlul turaţiei ventilatoarelor în funcţie de
temperaturi, soft-ul NVIDIA nTune precum şi un alt utilitar numit ITE SmartSpeed.
Acesta conţine, pe lângă funcţionalitatea lui ITE SmartGuardian, şi posibilitatea setării
tensiunilor Vcore, Vdimm si VDD, precum şi un overclocking limitat. Această din urmă
funcţie este total nereuşită, posibilităţile de supratactare fiind practic nefuncţionale,
aceasta pe lângă greşelile evidente de limbă engleză din program.
Per total, micul producător DFI reuşeşte să se prezinte cu o ofertă excepţională,
singurele categorii care ar putea fi îmbunătăţite fiind legate de documentaţie şi de
funcţionalitatea software-ului; având însă în vedere că target-ul produsului se află mai
degrabă în zona power-user, aceste lipsuri sunt ca şi inexistente.
32
Cap 2: Evaluarea performanţelor plăcilor de bază
Concluzie
Performanţa şi posibilităţile deosebite de overclocking fac din DFI LANParty
UT nF4 Ultra-D câştigătorul testului nostru, chiar şi în competiţie cu modelele high-end
de la producători consacraţi. Titlul de XF Award l-a primit cu greu din cauza absenţei
de pe piaţa românească la data efectuării testelor.
+ overclocking extrem atins în practică
+ BIOS special conceput pentru overclocking
+ numeroase setări de memorie
+ poate fi transformată uşor pentru lucrul în mod SLI
- documentaţia şi software-ul lasă de dorit
În cealaltă cutie avem deja obişnuitul DPS (Dual Power System) cu care ne
răsfaţă Gigabyte de circa doi ani încoace, precum şi o placă al cărui nume spune totul:
802.11 Wireless LAN Card. Să nu uităm nici de cele trei bracket-uri USB (şase porturi
în total, fără a le menţiona pe cele patru de pe placă), unul servind şi conectării a două
dispozitive FireWire. Analizând acum placa, observăm cele două slot-uri PCI Express,
fiecare putând suporta o placă grafică performantă. Modul SLI este reflectat de un mic
card, asemănător modulelor SO-DIMM, ce permite selectarea modului de operare: SLI
sau Normal. Cu alte cuvinte, 1x PCI Express 16x sau 2x PCI Express 8x - evident că
dacă cea de-a doua placă lipseşte, vom alege prima variantă.
DPS este, după cum spuneam anterior, o placă suplimentară (dotată şi cu sistem
de răcire separat) ce se aşează într-un slot special (asemănător ca şi construcţie cu
vechiul ISA, dar mult mai mic decât acesta), ce conţine o sursă de putere suplimentară,
33
Evaluarea performanţelor sistemelor de calcul
utilă în caz de stres maxim (overclocking, temperaturi mari, consum foarte mare din
partea procesorului). Practic, am observat că aceasta preia cea mai mare parte din
sarcina surselor de putere deoarece tranzistorii de tip MOSFET prezenţi pe placa de
bază au rămas reci, cei de pe DPS fiind fierbinţi.
Analizând mai departe, mai reperăm două slot-uri PCI Express X1, aşezate
alternativ cu cele X16, precum şi două PCI „normal”. Interfeţele de unităţi de stocare
sunt în număr de zece, două Parallel şi opt Serial-ATA, de patru din acestea din urmă
ocupându-se chipset-ul (pardon, chip-ul), restul căzând în sarcina unui controller
separat, de la Silicon Image. Fiecare controller este capabil de funcţia RAID, ultimul
permiţând şi RAID 5. Back-panel-ul este asemănător cu cel clasic, conectorul serial
fiind înlocuit de o intrare şi o ieşire SPDIF, iar conectarea la reţea este servită de două
interfeţe capabile de 1 Gbps, chip-urile răspunzătoare fiind produse de Marvell şi
Vitesse. Este ciudată alegerea a două chip-uri diferite destinate acestui scop, însă
opţiunea producătorului nu poate fi privită decât ca un plus, utilizatorul având acum de
unde alege.
Ergonomia. Aproape nimic de reproşat, minusurile fiind de înţeles având în
vedere numărul de componente care au încăput pe placă. Spaţiu în jurul procesorului?
Este. Spaţiu între placa grafică şi DIMM-uri? Este. Plasare potrivită a conectorului de
alimentare? Este. Ce nu prea este e spaţiul dintre slot-urile PCI Express, slot-ul X1
dintre cele două plăci grafice fiind practic inutilizabil pentru că plasarea unei plăci în
acesta ar crea probleme grave răcirii plăcii grafice din vecinătate.
BIOS-ul plăcii este excelent, cel puţin după apăsarea tastelor Ctrl+F1, operaţie
necesară pentru a putea accesa opţiunile ascunse şi destinată utilizatorilor experimentaţi.
Găsim astfel posibilităţi de overclocking practic nelimitate, de la banala setare a bus-
ului HTT (era să spun FSB) până la reglaje fine ale memoriei. Numărul de setări legate
direct sau indirect de memorie este de 12, putând fi întâlnite o serie de timing-uri care
lipsesc cu desăvârşire în BIOS-urile plăcilor ieftine. Tensiunile, atât pentru memorie cât
şi pentru procesor, pot fi ajustate până la maxim 2.8V şi respectiv 1.75V, ceea ce nu mai
reprezintă nimic deosebit. Deosebit este posibilitatea de overclocking a plăcii grafice.
Da, aţi citit bine, placa poate seta din BIOS frecvenţele VPU-ului şi a memoriei plăcii
(plăcilor) video în procente, plaja de valori fiind între 100% şi 255%. Performanţele
atinse au fost foarte bune, deşi nu cele mai bune. Prin setarea unor latenţe foarte
agresive pentru memorie, am obţinut o instabilitate exemplară. Schimbând valorile la
unele mai „de bun simţ” dar în continuare foarte agresive, am scăzut performanţa
extrem de puţin, dar sistemul a rulat stabil. (Reamintesc faptul că testul de performanţă
a fost rulat cu o singură placă grafică. Prezenţa celui de-al doilea slot PCI Express X16
a contat doar la capitolul dotare.)
Overclocking-ul a produs mari dureri de cap. Deşi frecvenţele atinse au fost de
315 MHz asincron şi 265 MHz sincron (destul de modeste, sub pretenţiile pe care le
34
Cap 2: Evaluarea performanţelor plăcilor de bază
aveam de la o astfel de placă), am fost lovit de diverse probleme de stabilitate în condiţii
uneori hilare. De exemplu, am reuşit să aduc placa în situaţia de a nu trece de POST la
un HTT mai mare de 213 MHz şi aceasta în condiţiile în care, peste câteva ore, la exact
aceleaşi setări, am obţinut 315 MHz. Altfel spus, placa a funcţionat haotic în condiţii de
stres, la un moment dat la circa două din cinci porniri intrând în funcţiune Dual BIOS-
ul, fiind detectată coruperea BIOS-ului. Alarmele erau în mod clar false, astfel că am
dezactivat opţiunea Auto Recovery (practic, am dezactivat funcţionalitatea Dual BIOS-
ului) şi am putut realiza testele. Nu se poate pune problema calităţii slabe a
componentelor de pe placă, temperaturile atinse nefiind foarte mari (mai puţin
temperatura DPS-ului care a ajuns la valori deranjante odată cu setarea unei tensiuni
mari pentru procesor), iar condensatorii Nichicon ce „învăluie” socket-ul procesorului
sunt consideraţi ca având o fiabilitate peste medie, putând rezista vreme îndelungată la
temperaturi mari. De asemenea, însăşi prezenţa unei surse de putere suplimentare prin
prezenţa DPS-ului creşte în mod teoretic fiabilitatea produsului, precum şi şansele de
reuşită ale unui overclocking extrem. Aşadar, vina nu se poate spune a cui e. Cert este
că alte exemplare ale acestui model au rulat fără probleme la un HTT mai mare şi este
posibil ca acest exemplar să fi avut unele probleme, eventual versiunea BIOS-ului (F6,
ultimul disponibil la data testării) să creeze probleme. Oricum, aceasta este fraza clasică
pe care orice tester o afirmă în situaţii de acest gen, drept urmare impresia subiectivă
asupra posibilităţilor de overclocking ale plăcii de faţă - şi luând în calcul experienţele
similare pe plăci mai vechi ale aceluiaşi producător - nu este pozitivă.
În rest, producătorul taiwanez a fost la înălţime. Dotările extravagante, chiar
dacă au şanse mici să fie folosite în practică, oferă o aură de supremaţie, placa fiind
printre cele mai bine dotate plăci pe care am avut ocazia să le testez.
Concluzie
Cu puţină atenţie suplimentară la detalii, Gigabyte ar putea accede la fotoliul de
lider al plăcilor de bază destinate entuziaştilor, deţinut în prezent de alte nume sonore pe
care vă lăsăm plăcerea să le descoperiţi mai departe în acest capitol. Până atunci, nota
10 la dotare şi doar notă de trecere la overclocking.
+ dotare excelentă
+ acceptă două plăci grafice în mod SLI
+ setări bune de overclocking în BIOS
+ Dual BIOS
- lipsă aproape totală a monitorizărilor în BIOS
- overclocking-ul efectiv a creat mari probleme
35
Evaluarea performanţelor sistemelor de calcul
K8NXP-SLI. În plus, a rulat aparent stabil la un LDT de 5x (deci 1000 MHz), e drept,
fără să fie conectate la placă prea multe dispozitive şi fără a se efectua teste riguroase.
36
Cap 2: Evaluarea performanţelor plăcilor de bază
Testul de latenţă a memorie din ScienceMark nu ne-a oferit nici un rezultat
relevant; ne aşteptam la altceva.
Copiere fişiere (Unitatea de măsură: secunde; mai mic = mai bine)
La copierea fişierelor, un test al controller-ului Serial ATA, diferenţele au fost
mici, ţinând cont că el este acelaşi la toate cele trei plăci.
Arhivare WinRAR (Unitatea de măsură: secunde; mai mic = mai bine)
Comprimarea cu WinRAR a scos la iveală cele mai mari diferenţe: Abit AN8 a
fost cea mai lentă placă din test, DFI-ul luând un avans de peste două procente faţă de
aceasta.
PovRay (Unitatea de măsură: secunde; mai mic = mai bine)
Randarea unei imagini în PovRay depinde aproape în totalitate de procesor,
drept pentru care placa DFI a „stors” doar un 0.6% în faţa lui Abit.
2.2.10. Concluzii
Este greu de tras linia şi făcut totalul după doar cinci plăci testate, mai ales când
două dintre ele sunt variante mai sărace ale modelelor de vârf. Practic, am avut în test
trei plăci de bază.
DFI LanParty UT nF4 Ultra-D este fără discuţie câştigătorul testului. Ea s-a
comportat excelent, o dovadă în plus că DFI este un producător care poate accede uşor
la trofeele cele mai mari din domeniul overclocking-ului, orientarea firmei schimbându-
se total în ultima perioadă. Şi, să nu uităm, versiunea testată nu este cea mai dotată placă
a producătorului taiwanez, iar preţul este foarte tentant.
Abit s-a prezentat exemplar prin AN8, atât cu, cât şi fără sufixul Fatal1ty.
Acesta din urmă încarcă substanţial preţul, oferind un plus de facilităţi pe care, cel mai
probabil, nu le veţi folosi, sau care nu vă vor ajuta prea mult. Dotarea şi overclocking-ul
sunt foarte bune, însă la aceiaşi bani se pot găsi produse care nu poartă „ştampila” Abit
şi care pot oferi satisfacţii similare.
Gigabyte a ocupat ultimele două locuri. Dacă la dotare este de neegalat (SLI, opt
porturi Serial ATA şi alte „minunăţii”), restul facilităţilor nu au excelat, modelul GA-
K8NXP-SLI fiind un produs mediu pentru categoria sa. Cât despre codaşa
clasamentului, GA-K8NF-9, ea reprezintă fără discuţie best buy-ul acestui test,
dovedind că nu avem nevoie de o gaură în buget de 200$ pentru a obţine o placă bună.
37
3. Evaluarea performanţelor procesoarelor
3.1. Arhitectura lui Pentium 4 Prescott
3.1.1. Introducere
Ultima realizare de la Intel, ce poartă aceeaşi
denumire comercială ca şi predecesorii săi, Pentium 4,
este cunoscută sub numele de cod Prescott. Dacă AMD
preferă denumiri legate de cai pentru a-şi promova
CPU-urile (Morgan, Palomino, Thoroughbred sunt
rase de cai) iar VIA foloseşte termeni cu rezonanţă
religioasă (Nehemiah, Joshua, Ezra), Intel preferă
nume de localităţi sau regiuni geografice din America
(Willamette şi Coppermine sunt râuri, Northwood este denumirea atribuită mai multor
localităţi), Prescott fiind atât o pădure, un orăşel în Arizona cu o populaţie de câteva
zeci de mii de locuitori, cât şi un nume, marele fizician englez Joule având numele
complet de James Prescott Joule. Cam atât cu poveştile, să trecem la lucruri serioase.
Modificările aduse de Intel arhitecturii vechiului Pentium 4 (cod Willamette sau
Northwood) nu sunt atât de marcante ca în cazul trecerii de la Pentium III la Pentium 4
însă putem spune că, din anumite puncte de vedere, ele se aseamănă cu precedentul salt
de tehnologie. Arhitectura NetBurst a fost păstrată, deci vom avea în continuare un
procesor ce rulează cu un PSB efectiv începând cu de patru ori mai mare decât frecvenţa
de bază, şi anume 4x200=800 MHz, frecvenţă cunoscută de la ultimele modele de
Northwood, ajungându-se la modelele ulterioare la 4x266=1066 MHz. Simplificând,
schimbările aduse de către Prescott se bazează pe încercarea producătorului de a creşte
performanţa în primul rând prin creşterea frecvenţei; pentru aceasta, au fost necesare
unele schimbări interne care au dus inevitabil la scăderea vitezei comparativ cu alte
procesoare la aceeaşi frecvenţă. Cu alte cuvinte, Northwood este mai rapid decât
Prescott la aceeaşi frecvenţă în anumite aplicaţii, la fel cum Pentium III Coppermine era
mai rapid decât Pentium 4 Willamette dacă se comparau două CPU-uri rulând la tacturi
similare.
Nu trebuie să vă îngrijoraţi: Intel a făcut tot posibilul pentru a minimaliza
efectele încercării oarecum forţate de creştere a frecvenţei. Astfel, dimensiunea cache-
ului L2 a fost dublată, o serie de unităţi ale procesorului, precum cache-ul şi unitatea
pentru numere întregi au fost optimizate, iar câteva instrucţiuni suplimentare au extins
setul SSE2, el devenind acum SSE3. În acelaşi timp, numărul de stagii ale conductelor
de prelucrare (aşa numitele pipeline-uri) a fost crescut în continuare, el ajungând la
peste 30 (10 la Pentium III, 20 la Pentium 4 Willamette şi Northwood). Această
modificare, împreună cu creşterea latenţei cache-ului, oferă noi orizonturi privind
potenţialul de a atinge frecvenţe uriaşe, de ordinul a 5 GHz. Nu este nevoie de prea
multă imaginaţie pentru a afla motivul acestor schimbări, el fiind unul comercial: mai
mulţi megahertzi înseamnă pentru cei mai mulţi mai multă performanţă, fapt ce se
dovedeşte a fi din ce în ce mai fals. Vom explica în continuare majoritatea schimbărilor
aduse de Prescott lui Pentium 4 Northwood, explicând (cel puţin sumar) toate noţiunile
care ar putea produce dificultăţi în urmărirea textului pentru un cititor începător.
38
Cap 3: Evaluarea performanţelor procesoarelor
Câteva cuvinte despre tehnologia de fabricaţie. Numărul de microni întâlnit în
specificaţiile oricărui procesor se referă la distanţele dintre tranzistorii procesorului. Cu
cât acestea sunt mai mici, cu atât se măreşte potenţialul creşterii frecvenţei de tact.
Aceasta este teoria clasică, ce tinde să nu mai fie valabilă din cauza atingerii unor
distanţe critice: 0.13 microni pentru Pentium 4 Northwood şi 0.09 microni (90
nanometri) pentru Prescott. Pe de o parte, tranzistorii pot lucra mai rapid, pe de altă
parte apar fenomene nedorite, în special datorită dimensiunii foarte mici a pastilei,
devenind necesare unele schimbări de ordin intern. Astfel, tehnologia Strained Silicon
rezolvă parţial neajunsurile datorate arhitecturii pe 0.09 microni a lui Prescott.
40
Cap 3: Evaluarea performanţelor procesoarelor
dimensiune dublă faţă de predecesor, atât (parţial) pentru L1 cât şi pentru L2, noul
model de Pentium 4 are o latenţă mai mare a cache-ului. Motivul este faptul că ambele
nivele de cache rulează la frecvenţa internă a procesorului. Cu alte cuvinte, frecvenţele
uriaşe pentru care este proiectat Prescott trebuie să fie suportate şi de cache, iar pentru
aceasta sunt necesari timpi „morţi” suplimentari sau costuri de fabricaţie mai mari. Intel
a preferat prima variantă.
3.1.3. Latenţa
Latenţa reprezintă timpul
(măsurabil în cicluri de tact) scurs
de la solicitarea unei operaţii până
la executarea efectivă a acesteia. Pentru cache-ul L1, acest număr este de două cicluri la
Pentium 4 Northwood şi de patru cicluri la Prescott. Nivelul doi de cache deţine o
latenţă de 19 cicluri pentru Northwood şi 28 pentru Prescott. Cu toate acestea, avantajul
(parţial pentru L1, total pentru L2) dublării cache-ului este probabil superior
dezavantajului scăderii eficienţei sale. Aceasta se datorează frecvenţei mari a
procesorului, deoarece importanţa unui cache mare creşte odată cu creşterea diferenţei
dintre viteza CPU-ului şi cea a memoriei. Să vedem şi de ce.
Dacă un procesor poate face multe, un singur lucru nu poate: să stocheze date
(excluzând cache-ul). Pentru aceasta, este nevoie de memoria sistemului. Spre exemplu,
dacă procesorul are de adunat 1000 de numere, el le va solicita pe rând, primind
informaţiile şi oferind imediat rezultatul cerut. Dar ce se întâmplă când în algoritm
apare, după terminarea adunării, solicitarea de a refolosi cel de-al 537-lea număr din
şirul de 1000? Procesorul ar trebui să ceară memoriei elementul cu numărul de ordine
537. Însă câte cicluri de tact trec de la efectuarea cererii până la obţinerea informaţiei?
Dacă procesorul rulează la peste 3 GHz iar memoria la câteva sute de MHz, este uşor de
înţeles că soluţia aceasta pune procesorul în situaţia de a aştepta rezultatul în loc să
execute alte operaţii, ceea ce duce, evident, la scăderea performanţelor. Situaţia reală
este alta: al 537-lea număr se află în cache, alături de celelalte elemente ale şirului şi de
multe alte informaţii recent utilizate, durata obţinerii valorii acelui element fiind astfel
mult mai mică. Probabilitatea ca o instrucţiune sau o variabilă recent folosită să fie din
nou necesară într-un interval scurt este foarte mare.
Cu cât frecvenţa procesorului este mai mare, cu atât diferenţa dintre viteza
acestuia şi cea a memoriei creşte şi, pe de altă parte, cu atât procesorul va solicita mai
rapid informaţii. Dacă cache-ul nu este suficient de mare, acesta se va umple rapid şi
procesorul va trebui să ceară memoriei ceea ce îşi doreşte. Pentru a se evita această
situaţie, a cărei frecvenţă de apariţie creşte odată cu creşterea frecvenţei procesorului,
41
Evaluarea performanţelor sistemelor de calcul
trebuie crescută dimensiunea cache-ului. Din păcate, aplicaţiile de azi sunt mai sensibile
la creşterea latenţei cache-ului decât la creşterea dimensiunii sale, astfel că, cel puţin din
punct de vedere al cache-ului level 2, Northwood este mai rapid decât Prescott.
Ce limbi vorbeşte?
O altă caracteristică a lui Prescott (dar şi a altor procesoare din familia P4) este
HyperThreading-ul. Acesta reprezintă, în esenţă, un set de instrucţiuni capabil să
simuleze funcţionarea procesorului în mod dual, software-ul comportându-se ca şi cum
în sistem ar fi prezent, fizic, un al doilea CPU. S-a dovedit faptul că două sarcini
diferite, cum ar fi două aplicaţii sau două thread-uri (ramuri) ale aceleiaşi aplicaţii
lucrează mai rapid în acest mod, cu un minim de suport atât hardware cât şi software,
motivul fiind faptul că multe zone ale procesorului nu sunt folosite la adevăratul
potenţial când execută o singură sarcină. De aceea, Intel a implementat tehnologia
HyperThreading în ultimele procesoare Northwood, precum şi în majoritatea modelelor
de Prescott. Însă sporul maxim de viteză se obţine doar atunci când aplicaţiile sunt
optimizate pentru acest mod de lucru, în caz contrar putând fi sesizate chiar şi scăderi de
performanţă. Deşi această tehnologie nu este specifică doar lui Prescott, am descris-o
pentru a putea fi înţeles paragraful următor. De remarcat însă că există versiuni de
Prescott fără aceste instrucţiuni.
În 1997, Intel a introdus instrucţiunile MMX (MultiMedia eXtensions), cu
scopul de a accelera aplicaţiile multimedia optimizate pentru acestea. MMX a fost
extins cu SSE (Streaming SIMD Extensions), apoi cu SSE2 odată cu Pentium 4 iar
Prescott a introdus SSE3, ce cuprinde un număr mic de instrucţiuni în comparaţie cu
precedentele versiuni, nefiind decât o completare a acestora. Nu este deloc o exagerare
să afirmăm că SSE3 conţine ceea ce Intel a uitat să implementeze în SSE şi SSE2. SSE3
oferă avantaje minore diverselor sarcini ale aplicaţiilor multimedia, cum ar fi compresia
video. Pe lângă cele 11 instrucţiuni diverse, destinate operaţiilor cu numere complexe,
conversiei integer-FPU şi altele, ultimele două optimizează modul de operare
HyperThreading dar necesită suport din partea sistemului de operare. Aşteptăm cu
interes dezvoltarea software-ului care să profite de SSE3, Intel punând la dispoziţie
versiunea a opta a compilatorului propriu de C++, care „ştie” de SSE3. Sporul de
performanţă adus ar putea atinge 10 procente, SSE3 nefiind altceva decât unul din
numeroasele avantaje minore ale lui Prescott, însă sub care dacă tragem linie obţinem
ceva remarcabil. Asta dacă ar fi vorba doar de avantaje...
3.1.4. Conductele
Poate cel mai important aspect legat de noul
Prescott este dat de pipeline (în traducere - conductă).
Acesta reprezintă suma unor etape pe care instrucţiunile
trebuie sa le parcurgă până la obţinerea rezultatului final.
Pipeline-ul este împărţit în stagii, fiecare având o sarcină
bine definită. Iată un exemplu de pipeline simplu, fiecare
stagiu ocupând exact timpul unui ciclu de tact.
stagiul 1: fetcher – pregăteşte următoarea instrucţiune
stagiul 2: decoder – decodifică următoarea instrucţiune
stagiul 3: ALU – execută instrucţiunea
stagiul 4: retire unit – aduce rezultatul înapoi în memorie
42
Cap 3: Evaluarea performanţelor procesoarelor
Desigur, toate aceste operaţii puteau fi executate neorganizat, însă pentru un
pipeline cu patru stagii avem patru operaţii care sunt realizate simultan în locul uneia
singure. Şi nu trebuie înţeles faptul că fiecare pipeline este legat de aceeaşi instrucţiune,
ci dimpotrivă. Spre exemplu, fetcher-ul pregăteşte instrucţiunea de desenare a unei
ferestre, decoder-ul este ocupat cu decodificarea unei instrucţiuni de desenare a unui
caracter în acea fereastră, ALU-ul calculează poziţia icon-ului în interiorul ferestrei iar
retire unit-ul returnează memoriei rezultatul copierii unor fişiere în background.
Desigur, fiecare instrucţiune trebuie să treacă prin toate etapele pipeline-ului dar nu e
necesar ca la un moment dat pipeline-ul să fie plin cu aceeaşi instrucţiune. În caz că nu
există simultan mai multe instrucţiuni de prelucrat (situaţie practic imposibilă pentru că
procesorul are permanent ceva de lucru), doar un singur stagiu al pipeline-ul va fi
ocupat, ceea ce ne oferă o viteză identică cu cea observată în execuţia secvenţială.
Pipeline-ul a fost gândit tocmai pentru a oferi posibilitatea execuţiei simultane a
mai multor instrucţiuni şi, în cazul ideal, performanţa este multiplicată de un număr de
ori dat de lungimea pipeline-ului. Astfel, dacă procesorul are de executat 100 de
operaţii, fiecare necesitând câte patru stagii, vor fi necesare doar 100 de cicluri de tact în
locul a 400, pe fiecare ciclu fiind executate câte patru operaţii. Din păcate, situaţia
ideală nu este întâlnită niciodată pentru că instrucţiunile depind unele de altele mai mult
decât pare la prima vedere. Să presupunem că plecaţi de acasă cu maşina personală şi la
jumătatea drumului vă daţi seama că nu mai aveţi benzină. Cum nu este nici o
benzinărie prin zonă şi cum nimeni nu se oferă să vă tracteze, trebuie să aşteptaţi pe
cineva să vă aducă benzina. Drept urmare, veţi aştepta câteva ore în trafic,
incomodându-i pe ceilalţi şoferi, eventual vă veţi retrage la marginea drumului pentru a
evita neplăcerile pricinuite. Şi cu cât drumul pe care îl aveţi de parcurs este mai lung, cu
atât cresc şansele să rămâneţi fără combustibil. Acelaşi lucru se întâmplă şi cu o
instrucţiune dacă ea nu poate fi executată decât după ce primeşte de la alta un rezultat:
ea va rămâne blocată în pipeline până când primeşte unda verde sau va fi eliminată din
pipeline, execuţia ei fiind amânată şi lăsând loc altor instrucţiuni care pot fi executate la
acel moment. Este evident că şansele ca acest eveniment să aibă loc cresc odată cu
creşterea numărului de stagii, tot mai multe instrucţiuni fiind „blocate în trafic”. Situaţia
descrisă duce la apariţia timpilor morţi, în care procesorul nu se încălzeşte şi de care se
poate profita, crescându-i-se frecvenţa.
Un procesor care îşi propune să atingă performanţa maximă la o frecvenţă dată
va realiza un compromis între avantaje şi dezavantaje, fiind dotat cu un număr relativ
redus de stagii. Dacă scopul este atingerea de frecvenţe mari, neţinându-se seama de
performanţă, atunci se va realiza un procesor cu un număr imens de stagii al pipeline-
ului, procesor care să „zacă” nefolosit o bună parte din timp, ceea ce va duce la scăderea
drastică a vitezei raportată la frecvenţă. Exact acest lucru a realizat Intel, care a crescut
numărul de stagii odată cu apariţia primului Pentium 4 (Willamette): 20 faţă de 10 la
Pentium III. Rezultatul a fost evident: cu toate îmbunătăţirile aduse de noua arhitectură
(PSB 400 faţă de 133, SSE2 şi altele), un Pentium 4 la 1.5 GHz era depăşit deseori de
un Pentium III la 1 GHz, semn că dezavantajul datorat pipeline-ului lung nu este
compensat de frecvenţa ridicată. O situaţie similară o întâlnim şi la Prescott, al cărui
număr de pipeline-uri a ajuns la 31 de stagii. Totodată, avem şi avantaje: un cache
dublu, instrucţiuni SSE3, etc, elemente concepute să afecteze pozitiv viteza, dar pe alte
căi. Totul pentru a se putea atinge frecvenţe mari, de ordinul a 4-5 GHz, frecvenţe
irezistibile pentru orice cumpărător neavizat.
43
Evaluarea performanţelor sistemelor de calcul
Un procesor clasic execută fiecare instrucţiune în ordinea firească, aşteptând
terminarea fiecăreia până să treacă la execuţia celei următoare. Un procesor „inteligent”
se bazează pe faptul că timpii morţi pot fi folosiţi pentru execuţia următoarei
instrucţiuni. Ce se întâmplă atunci când instrucţiunea curentă depinde de cea
precedentă, fiind necesară obţinerea rezultatului de pe urma execuţiei acesteia? Un caz
clasic este acela al unui bloc if-then-else din cadrul oricărui limbaj de programare.
Pentru execuţia unei anumite ramuri trebuie executată instrucţiunea if, după care se ia o
decizie: se merge pe ramura A sau B. Exemplu:
Este clar că numai după execuţia primei instrucţiuni va putea fi executată cea de-
a doua şi numai după execuţia primelor două va putea fi executată cea de-a treia. Ceea
ce înseamnă că o singură unitate ALU din cele trei va fi folosită, procesorul rulând la o
treime din potenţial. Aici intervine scheduler-ul, care programează execuţia altor
instrucţiuni, nelegate de cele de mai sus, dând astfel câte o sarcină fiecărei unităţi ALU.
Prescott a necesitat modificări şi în această privinţă, pentru a compensa creşterea
numărului de stagii al pipeline-ului. Cum arhitectura curentă nu permite o modificare
puternică a acestei unităţi, schimbările au fost minore.
44
Cap 3: Evaluarea performanţelor procesoarelor
3.1.5. Calculul matematic
Numărul de unităţi a rămas acelaşi ca la precedentele modele de P4. Segmentul
ALU (Arithmetic and Logic Unit), cel care se ocupă cu calcule legate de numere întregi,
a rămas divizat în trei segmente care pot prelucra datele şi instrucţiunile independent,
conform celor descrise în paragraful anterior. Două dintre ele lucrează la o viteză dublă
faţă de restul unităţilor (sunt double pumped), de aceea operaţiile se execută foarte
rapid. Odată cu Prescott, Intel a încercat să elibereze al treilea ALU (cel lent) de
sarcinile pe care oricum le îndeplinea cu greutate, oferind unităţilor ALU double
pumped mai multe sarcini. Astfel, operaţiile de tip shift şi rotate erau executate de
ALU-ul lent, acum ele au fost preluate de celelalte două mai rapide.
Un exemplu practic de îmbunătăţire este acela în care sunt aplicate unui
număr binar operaţii de multiplicare cu 2 (10 binar), caz tipic de shift în care este
suficientă deplasarea cu câte un pas a fiecărui bit. De asemenea, înmulţirile sunt acum
realizate de unitatea FPU (Floating Point Unit), care chiar dacă teoretic este mai lentă
decât ALU-ul, este specializată în astfel de operaţii şi poate furniza rezultatele mai
rapid.
3.1.6. Tensiunile
Se ştie că prin creşterea „fineţii” tehnologiei se pot obţine, pe de o parte
temperaturi de rulare mai scăzute şi, pe de altă parte, frecvenţe mai mari de funcţionare.
Să ne amintim de P4 Willamette (0.18 microni) care se oprea fără drept de apel la 2
GHz pe când Northwood (0.13 microni) a atins 3.4 GHz. Mai mult, necesarul de
tensiune de funcţionare scade, de la 1.75V pentru Willamette s-a ajuns la 1.5V pentru
Northwood, iar Prescott coboară până la 1.287V. Pe de altă parte, arhitectura internă
influenţează puternic factorii putere disipată şi temperatură de funcţionare, deci ar fi
greşit să afirmăm că, indiferent de alte considerente, un CPU construit pe baza unei
tehnologii mai „fine” şi rulând la un voltaj mai mic va fi mai rece. Ca să nu o mai
lungim, Prescott este un procesor mai fierbinte decât se dorea a fi, care consumă mult.
La 3.4 GHz, un Northwood disipă 89W faţă de 103W în cazul lui Prescott. Chiar dacă
acesta din urmă este special conceput pentru frecvenţe mari, este nevoie de măsuri
speciale de precauţie: în primul rând, datorită consumului excesiv, plăcile de bază
trebuie să suporte acest consum, în al doilea rând sistemul de răcire trebuie să fie foarte
bine pus la punct.
În fine, Prescott este compatibil cu standardul VRM 10.0 (VRM = Voltage
Regulator Module), ceea ce îi conferă câteva avantaje,
printre care posibilitatea selectării tensiunii în paşi mai
mici (0.0125V faţă de 0.025V la predecesori) şi Dynamic
VID, adică posibilitatea ca procesorul să-şi schimbe
tensiunea „on the fly”, nu doar din BIOS, cu utilitate
evidentă în cazul sistemelor mobile. Dezavantajul: toate
plăcile de bază trebuie să suporte acest standard, deci
plăcile vechi nu au nici o şansă să lucreze cu Prescott.
3.1.7. Ambalarea
Deşi nu are legătură cu arhitectura lui Prescott, menţionăm că Intel a introdus un
nou mod de a „împacheta” procesorul, denumit LGA775, socket-ul purtând denumirea
de Socket T. În trecut, modul µPGA a dominat modelele acestei companii, reprezentat
45
Evaluarea performanţelor sistemelor de calcul
de Socket 478. Principiul, folosit la toate procesoarele de la 80386 până în prezent, era
clar: spatele chip-ului cuprindea un număr mare de pini care erau inseraţi într-un socket,
realizându-se astfel contactul. Noul mod de împachetare LGA (Land Grid Array)
elimină aceşti pini (cel puţin partea vizibilă a acestora), contactul realizându-se prin
alăturarea directă a procesorului de socket. Astfel, îndoirea sau ruperea pinilor nu mai
poate avea loc, în schimb socket-ul poate fi deteriorat destul de uşor prin montarea
repetată a procesoarelor. Odată cu apariţia acestui mod de
împachetare, Intel a schimbat şi modul de a marca produsele
sale. Dacă concurentul său, AMD, foloseşte de multă vreme
altă unitate de măsură (rating-ul) pentru a caracteriza
procesoarele, Intel a utilizat până acum modul consacrat, şi
anume specificarea frecvenţei de funcţionare.
Recent, această politică a fost schimbată, locul
frecvenţei fiind luat de un număr; de exemplu, Pentium 4 550
desemnează un P4 ce rulează la 3.40 GHz. Modelele cu sufixul
J (de exemplu 550J) beneficiază de tehnologia antivirus XD
(eXecute Disable), cunoscută şi ca EDB (Execute Disable Bit) sau NX (No eXecute),
care asigură o minimă protecţie împotriva celor mai uzuali viruşi. Practic, sistemul de
operare (Windows XP SP2, de exemplu) se foloseşte de această funcţie a procesorului
pentru a marca diferite segmente de memorie ca fiind neexecutabile. Astfel, doar
codurile marcate în mod explicit ca executabile pot fi rulate, viruşii bazându-se, în
general, tocmai pe această slăbiciune a sistemului, de a putea rula orice cod din orice
zonă de memorie. Tehnologia a fost până acum implementată de Intel doar în modelele
pe 64 de biţi (Itanium), iar AMD a fost mai „sprinten”, fiind prima companie care a
introdus într-un procesor de larg consum această tehnică.
3.1.10. Concluzii
Pentru cei care nu au avut răbdare să ne urmărească până aici,
vom recapitula noutăţile aduse de Prescott:
• tehnologie de 0.09 microni (90 nm) Strained Silicon;
• pipeline crescut cu circa 50%, ceea ce determină o scădere masivă de
performanţe dar şi un potenţial crescut privind frecvenţa de funcţionare;
• cache pe de o parte îmbunătăţit, prin dublarea secţiunii de date a nivelului 1 şi în
totalitate a nivelului 2 şi prin creşterea eficienţei sale, pe de altă parte suferind de
handicapul creşterii latenţei;
• branch predictor-ul şi scheduler-ul îmbunătăţite, rezultând o predicţie şi o
execuţie a instrucţiunilor mai eficientă; totuşi este vorba de optimizări strict
necesare unui pipeline atât de lung;
• optimizarea execuţiei anumitor operaţii, precum înmulţirile;
• 13 instrucţiuni noi, cuprinse în setul SSE3, care pot aduce avantaje minore în
anumite aplicaţii, cu sprijinul acestora;
• tehnologiile antivirus XD şi EM64T, implementate doar în ultimele modele.
48
Cap 3: Evaluarea performanţelor procesoarelor
3.1.11. Anexă: Chipset-uri pentru Pentium 4
Nu putem spune că există anumite chipset-uri specifice lui Prescott pentru că
orice chipset uzual lucrează fără probleme cu noul P4 şi totodată toate chipset-urile nou-
apărute, lansate în preajma apariţiei lui Prescott lucrează fără probleme cu procesoarele
mai vechi. Singura condiţie este ca chipset-ul să deţină suport pentru un PSB cel puţin
egal cu cel al procesorului. Astfel, un P4 la 2.4 GHz cu FSB 800 nu poate fi montat pe o
placă de bază cu chipset Intel 845PE, care nu suportă (cel puţin oficial) această
frecvenţă de bus. Anumiţi producători au depăşit specificaţiile chipset-ului, garantând
funcţionarea plăcilor lor la un PSB superior celui suportat de chipset. Însă, vorbind din
punctul de vedere al chipset-ului, doar Intel 848P, 865 (în versiunile PE, G şi GV),
875P, 910GL, 915 (P, G, GV) şi 925 (X şi XE) suportă acest PSB (să ne reamintim
faptul că majoritatea modelelor de Prescott rulează la un PSB de 800). În plus, Intel
925XE suportă suplimentar şi PSB-ul de 1066 MHz de care dispune modelul de
Pentium 4 Extreme Edition la 3.46 GHz.
Putem observa mai sus două generaţii de chipset-uri: 8xx şi 9xx. Primele,
apărute în prima parte a anului 2003, erau adaptate la procesoarele acelei perioade,
oferind dotări precum AGP 8x şi USB 2.0, dual-channel DDR, uneori RAID şi Serial
ATA, dotări demne de a fi menţionate, la acea vreme, pe ambalajul oricărui produs.
Următoarea generaţie, în special familiile 915 şi 925 au oferit facilităţi noi, precum PCI
Express, DDR2, facilităţi utile anilor 2004 şi mai ales 2005.
49
Evaluarea performanţelor sistemelor de calcul
Şi s-a întâmplat! AMD a amanetat herghelia1 pe o tehnologie nouă, pe 64 de biţi.
Iniţial, deşi departamentul de marketing a lucrat serios la imaginea noii progenituri,
nimeni nu a zis nimic. Revistele şi site-urile de profil au publicat ştirile corespunzătoare
şi... atât. Aceasta pentru că Opteron, căci acesta este numele său, era creat pentru un
domeniu destul de ciudat al computerelor: server-ele de mare performanţă. Abia la
aproape un an distanţă au ieşit la lumină nişte procesoare utilizabile de către oamenii
obişnuiţi: Athlon 64, Athlon 64 FX şi, mai târziu, Sempron.
Nucleul s-a numit K8 (în contrast evident cu precedentele K6 şi K7 - Athlon).
Numele de cod au purtat denumirea generală Hammer, versiunile iniţiale fiind
Sledgehammer (Opteron) şi Clawhammer (Athlon 64). După nume (K8), ne putem da
seama că AMD a întors foaia şi vrea să ne răsfeţe cu ceva complet nou. Să vedem prin
ce se diferenţiază de arhitectura K7.
Este discutabil care dintre instrucţiunile pe 64 de biţi şi integrarea controller-
ului de memorie este mai importantă. Dacă primul aspect este legat în viitor, extinderea
setului IA32 la cel denumit acum AMD64 ducând la crearea unui potenţial suplimentar
de performanţă şi nimic mai mult, controller-ul de memorie (până acum prezent în
northbridge-ul plăcii de bază) scapă sistemul de o gâtuire extrem de deranjantă. În rest,
modificările sunt minore, implementarea instrucţiunilor SSE2 sau creşterea uşoară a
numărului de stagii ale pipeline-ului sunt schimbări fireşti pentru care nu s-a făcut prea
mare tam-tam.
1
http://www.xf.ro/content-62-page1.html
50
Cap 3: Evaluarea performanţelor procesoarelor
Nu trebuie însă să ne bucurăm prea mult pentru că schimbarea nu poate avea loc de la o
zi la alta şi va trece mult timp până ce vom vorbi de aceste sisteme de operare la fel cum
vorbim azi de cele pe 32 de biţi care sunt prezente în marea majoritatea sistemelor de
calcul moderne. Cei 64 de biţi au reprezentat în primul rând un instrument de marketing
pentru AMD, nicidecum o necesitate a momentului.
Trebuie să privim instrucţiunile AMD64 ca pe o extensie la setul IA32, nu ca pe
un înlocuitor. Procesorul este capabil să comute între legacy mode şi long mode în
funcţie de necesităţi, la fel cum 80386 putea comuta între modul real şi cel protejat.
Practic, este vorba de nişte regiştri suplimentari incluşi în nucleul procesorului,
care pot efectua operaţii cu numere pe 64 de biţi (până la 2 la puterea 64). Astfel,
pot fi prelucrate simultan de două ori mai multe date, traficul dintre procesor şi celelalte
componente desfăşurându-se mult mai fluent. (Observaţie: tehnic vorbind,
programatorul are la dispoziţie 5 moduri: legacy 16-bit mode, legacy 32-bit mode,
compatibility 16-bit mode, compatibility 32-bit mode şi 64-bit long mode, însă
descrierea lor în detaliu nu face subiectul cursului de faţă.).
De asemenea, dublarea numărului de regiştri şi practic triplarea spaţiului de
memorare a acestora (măsurabil în biţi – 3072 faţă de 1280) conduce la posibilitatea
menţinerii de date în procesor pentru mai mult timp, fiind mai rar necesară schimbul cu
memoria principală.
De remarcat următorul fapt: K8 nu va rula mai rapid (dar nici mai lent) decât K7
codul pe 32 de biţi sau, dacă performanţele vor diferi, ele se vor datora altor motive
decât prezenţa noului set de instrucţiuni. În legacy mode, K8 este transformat într-un
procesor normal, capabil să execute instrucţiunile precum orice procesor pe 32 de biţi.
Să luăm un exemplu: algoritmii de criptare. Unii necesită operaţii cu numere pe
64 de biţi. Folosind o maşină 32-bit, este imposibilă obţinerea directă a unui rezultat,
singura metodă de calcul fiind crearea unui algoritm care să realizeze acest lucru,
similar celui aplicat de om pentru orice adunare sau înmulţire. (vă mai aduceţi aminte de
„75-18; le punem unul sub altul; 5-8 nu se poate, împrumutăm o zece; 15-8=7; la cifra
zecilor ne mai rămâne 6; 6-1=5, deci rezultatul e 57” ?). Orice procesor pe 64 de biţi
poate realiza „dintr-un foc” operaţia, economisindu-se mult timp.
Memoria maximă adresabilă a crescut şi ea de la 64 GB la procesoarele IA32 cu
PAE (Physical Addressing Extensions) activat la 1 TB. E drept, e puţin probabil ca
acum un server să necesite atât de multă memorie, dar cei 64 GB precedenţi se aflau în
mod sigur la limită.
3.3.3. HyperTransport
Comunicarea dintre procesor şi chipset se realizează prin bus-ul HyperTransport
(pe care îl vom numi în continuare HT), numit iniţial LDT (Lightning Data Transport).
Bus-ul nu este conceput special pentru această platformă, el fiind unul universal, ce
serveşte, de exemplu, şi la comunicarea dintre southbridge-ul şi northbridge-ul chipset-
ului nForce2 (deci în cadrul platformei K7!). În cazul nostru, bus-ul este o componentă
a PSB-ului, dar cea care afectează cel mai puţin performanţa şi care depinde exclusiv de
chipset. De aceea, deşi există o „bătălie pe viaţă şi pe moarte” privind „cine scoate cel
mai rapid HyperTransport”, trebuie ştiut că acest lucru nu afectează aproape deloc
viteza de lucru. Deşi el este conceput pe doar 32 de biţi (16 biţi pentru transmisie, 16
pentru recepţie – cazul cel mai frecvent) la o frecvenţă de tipul 800 sau 1000 MHz, e
suficient să ne gândim că lăţimea de bandă obţinută este de 800 MHz x (32/8) bytes =
3.2 GB/s, adică puţin peste valoarea lui AGP 8x dar sub cea oferită de PCI Express
X16. Un HT de 1 GHz (prin cei 4 GB/s) se apropie de cei 4.3 GB/s ai lui PEG x16.
Ceea ce înseamnă că nu vom putea folosi la întreaga capacitate o placă grafică PCI
52
Cap 3: Evaluarea performanţelor procesoarelor
Express. Reprezintă acest lucru un dezavantaj? Cu siguranţă nu, jocurile de azi nefiind
limitate aproape deloc de o lăţime de bandă echivalentă cu AGP 4x (circa 1 GB/s).
Bus-ul HT realizează legătura şi cu celelalte componente, de exemplu controller-
ul IDE, cel USB 2.0 sau chiar cel SCSI. Nu putem nega dezavantajul ce rezultă de pe
urma folosirii acestui bus, dar el este extrem de mic, lucru reflectat de un test ce poate fi
realizat de către oricine: cele mai multe plăci de bază permit ajustarea frecvenţei HT şi
un scurt 3DMark rulat la mai multe frecvenţe ne poate lămuri că diferenţele sunt infime.
3.3.4. Cache-ul
La AMD64, această memorie
intermediară este stratificată pe două nivele
integrate în CPU, ca la orice procesor
modern. Relaţia dintre ele este exclusivă,
ca şi la generaţia anterioară, ceea ce Fig. 3.1: Schema de interconectare între 8
înseamnă că nivelul al doilea de cache nu procesoare.
include şi o imagine a celui dintâi (în contrast cu relaţia inclusivă întâlnită la Pentium
4). Astfel, eficienţa nivelului doi este mai redusă datorită unui transfer mai frecvent
dintre L1 şi L2.
Viteza comunicării dintre cele două nivele a fost dublată, de aici rezultând încă
un plus de performanţă faţă de arhitectura K7. Tot legat de cache, notăm o creştere a
numărului de intrări în TLB (Translation Lookaside Buffer) pentru ambele nivele de
cache. Desigur, trebuie să explicăm ce este acest TLB.
Gestionarea memoriei de către procesor este realizată în două moduri: adresare
reală şi adresare virtuală. Uneori este mai util ca adresarea să se facă relativ la altă
locaţie decât la mod absolut, adică precizând distanţa de la altă adresă şi nu pe cea de la
punctul zero. TLB este o mică zonă de memorie integrată în nucleul procesorului care
53
Evaluarea performanţelor sistemelor de calcul
face legătura dintre cele două tipuri de adresare (cu ajutorul ei se poate transforma o
adresă virtuală într-una reală şi invers).
Dimensiunea cache-ului a suferit şi ea modificări. Dacă primul nivel a rămas la
128 KB, nivelul al doilea a fost crescut la 512 KB sau 1 MB, în funcţie de modelul
procesorului. Se spune că creşterea de la 256 KB la 1 MB afectează cu 15%
performanţa, deşi această cifră poate părea unora destul de optimistă, aceasta datorită
eficienţei mai scăzute a nivelului doi comparativ cu Pentium 4.
Cât despre latenţa cache-ului, pentru nivelul unu ea a rămas aceeaşi, dar pentru
cel de-al doilea a fost micşorată. Situaţia e foarte interesantă, Prescott are pipeline şi
latenţe crescute faţă de predecesor pentru a-şi putea creşte frecvenţa, pe când K8 are
aproape acelaşi pipeline iar latenţa a scăzut, ceea ce poate constitui o barieră în goana
după gigahertzi. Desigur, AMD ştie mai bine ce face...
55
Evaluarea performanţelor sistemelor de calcul
Pentru utilizatorii care ţineau seama şi de bugetul alocat, Athlon 64 „simplu” a
oferit satisfacţii similare, diferenţa de performanţă faţă de FX fiind minimă. Athlon 64 a
fost văduvit de o parte din pini, numărul lor fiind redus la 754, iar controller-ul de
memorie integrat rula pe un singur canal, memoria L2 cache rămânând la 1 MB.
Pentru denumirea modelelor, AMD s-a folosit de rating-ul cunoscut de la Athlon
XP, referinţa fiind procesoarele Intel Pentium 4. Astfel, un Athlon 64 3200+ este
(teoretic) la fel de rapid ca un Pentium 4 la 3.2 GHz. Northwood sau Prescott? Nu
răspundem la întrebări filozofice...
Noul core, NewCastle, exista atât în versiuni single- cât şi dual-channel,
diferenţa faţă de Clawhammer privind dimensiunea cache-ului: doar 512 KB. Acest
lucru nu a constituit un dezavantaj, frecvenţa superioară compensând minusul cu
pricina. De exemplu, Athlon 64 3200+ în versiunea Clawhammer (1 MB cache) avea o
frecvenţă de 2 GHz, pe când cea NewCastle (512 KB) de 2.2 GHz.
Platforma Socket 754 a fost păstrată, fiind însă considerată din ce în ce „mai
low-end”. Socket 940 a fost înlocuit cu Socket 939, modelele ce se inserau în acest
socket beneficiind de un controller de memorie ce lucra cu memorii unbuffered în dual-
channel.
Toate nucleele amintite erau create în tehnologia de 0.13 microni (130 nm).
Trecerea la 0.09 microni (90 nm) a fost iminentă, fiind necesară pentru atingerea de
frecvenţe superioare. Aşa s-a născut nucleul Winchester, aproape identic ca
funcţionalitate cu NewCastle, dar mai rece, creat numai pentru platforma 939 (care de
altfel are şi un viitor asigurat). Totuşi, el s-a dovedit a fi un semi-eşec din punct de
vedere al overclocking-ului, procesul de fabricaţie nematurizat punându-şi amprenta
asupra frecvenţelor atinse. De remarcat şi controller-ul de memorie uşor îmbunătăţit al
noului core.
Recent, AMD a introdus nouă noi nuclee pe 0.09 microni: Venice şi San Diego,
cu 512 şi respectiv 1 MB de cache, implementând instrucţiunile SSE3, un controller de
memorie optimizat şi un potenţial crescut de atingere a frecvenţelor mari.
Pentru Socket 754, AMD a introdus câteva versiuni de Sempron, diferenţele faţă
de Athlon 64 privind cache-ul: 128 sau 256 faţă de 512 KB sau 1 MB (controller-ul de
memorie fiind, evident, single-channel), precum şi setul de instrucţiuni pe 64 de biţi
absent. Mai exact dezactivat şi imposibil de activat. Rating-ul său a fost stabilit în
funcţie de Celeron D, modelul 3100+ rulând la 1.8 GHz, ca şi Athlon 64 2800+, dar
acesta din urmă avea un cache level 2 dublu.
De reţinut faptul că modelele inferioare lui Sempron 3100+ sunt concepute
pentru platforma Socket A, ele neavând nimic în comun (afară de nume) cu cele S754.
În fine, menţionăm că tehnologia de fabricaţie a lui K8 a unor modele a suferit o
modificare importantă: introducerea SOI (Silicon-On-Insulator) care, pe scurt, oferă
şanse suplimentare creşterii frecvenţei procesorului, dar despre care nu vom vorbi în
detaliu aici.
3.3.8. Concluzii
AMD a schimbat multe odată cu K8. Puţine dacă ne referim strict la arhitectura
internă dar multe dacă luăm în calcul adaosurile: controller-ul de memorie integrat şi
instrucţiunile pe 64 de biţi. Dacă al doilea aspect nu aduce beneficii prea mari, primul
ajută substanţial la creşterea performanţei, excluzând astfel din ecuaţie o puternică
limitare de care sufereau vechile K7, limitare care uneori nu putea fi suprimată nici
măcar odată cu creşterea foarte mare a frecvenţei de tact. Limitare care nu era prezentă
56
Cap 3: Evaluarea performanţelor procesoarelor
la procesoarele Pentium 4, probabil din cauza PSB-ului foarte mare (de ordinul a 800
MHz faţă de maxim 400 la K7) care compensa latenţele suplimentare datorate prezenţei
externe a controller-ului în cauză. Cu alte cuvinte, puteam creşte oricât frecvenţa unui
Athlon XP, efortul necesar atingerii vitezei unui Pentium 4 sau Athlon 64, în unele - şi
destul de puţine - aplicaţii urmând o curbă exponenţială ascendentă. În testele în cauză,
un Athlon XP supus unui overclocking puternic şi rulând la 2.6 GHz era cu doar puţin
mai rapid decât unul la 2 GHz; în schimb, un Athlon 64 la 2.6 GHz nu are probleme în a
afişa rezultate oarecum proporţionale cu cel la 2 GHz, nefiind atât de limitat de factori
externi precum un controller de memorie.
Acestea fiind zise, să facem un rezumat al facilităţilor oferite de noile procesoare
AMD:
• tehnologie de 0.13 (130 nm) şi apoi de 0.09 microni (90 nm) SOI;
• controller de memorie integrat, ce deţine principalul merit al creşterii
performanţelor;
• instrucţiuni AMD64, slab folosite pentru moment;
• instrucţiuni SSE2 (introduse pentru prima dată în Pentium 4), implementarea
lăsând de dorit la capitolul viteză;
• pipeline uşor crescut odată cu un branch prediction şi o unitate scheduler
îmbunătăţite;
• cache crescut iniţial la 1 MB, revenindu-se ulterior la 512 KB, cel de 1 MB fiind
destinat modelelor high-end;
• protecţie antivirus NX, similară celei XD de la Intel.
57
Evaluarea performanţelor sistemelor de calcul
doar AMD este cel care poate decide; cu siguranţă, atunci când se va simţi nevoia, vom
avea parte şi de noul standard implementat în viitoarele Athlon 64.
Cât despre dual-core, ele au frecvenţe mai scăzute decât modelele cu un singur
nucleu, performanţele urmând să fie, însă, superioare.
58
Cap 3: Evaluarea performanţelor procesoarelor
3.4.1. Tehnologia Intel dual-core Intel
Un procesor dual-core Intel are două nuclee de execuţie separate pe acelaşi cip
care rulează la aceeaşi frecvenţă. Ambele nuclee împart acelaşi package fizic şi aceleaşi
interfeţe cu chipset-ul şi memoria. Totuşi, ele pot opera ca nuclee distincte de execuţie.
Procesarea dual-core este una dintre metodele de a furniza performanţa în timp ce se
balansează cerinţele de putere şi constă în adăugarea mai multor resurse procesorului şi
nu în creşterea frecvenţei acestuia (fig. 3.2).
59
Evaluarea performanţelor sistemelor de calcul
În viitor, Intel va lansa procesoare ce vor îmbina cele două tehnologii, Hyper-
Threading şi Dual-Core, pentru a asigura rularea în paralel a unui număr maxim de
patru procese diferite. Acest lucru va duce, pe lângă dublarea teoretic a vitezei, la o
explozie a numărului aplicaţiilor concepute să ruleze pe sistemele multi-core.
60
Cap 3: Evaluarea performanţelor procesoarelor
produsă de Intel, a arătat îmbunătăţiri comparativ cu acelaşi sistem, dar echipat cu un
procesor Pentium 4 seria D la 3,2 GHz (ambele cu Hyper-Threading activat).
Despicând firul în patru, mai aflam un lucru interesant: în testele de anduranţă şi
de stabilitate, procesorul 840 al lui Intel rămâne ferm pe poziţie, chiar şi după multe zile
de lucru intens, în timp ce Athlon-ul 4800+ începe să aibă probleme. La acest capitol
putem acorda o bilă albă lui Pentium 840 EE, care se potriveşte ca o mănuşă serverelor
şi staţiilor de lucru folosite cu aplicaţii puternice. Este adevărat că procesorul produs de
Intel consumă mai mult curent electric, dar de aici provine şi plusul de stabilitate atât de
necesar multor utilizatori.
Ce se poate face concret cu procesoarele dual-core?
Pentru a plasa procesoarele dual-core într-un context potrivit, trebuie să
reconsiderăm modul de lucru cu computerul. Sistemele cu două procesoare logice sunt
perfect potrivite pentru a face operaţiuni multiple, simultan, fără ca utilizatorul să
observe scăderi de performanţă. Imaginaţi-vă cum ar fi să jucaţi un joc 3D sofisticat în
timp ce arhivezi fişiere audio.
Chiar dacă decizi să mai introduci o operaţiune dificilă, cum ar fi compresia de
volume mari de fişiere, abilitatea de a juca shooter-ul 3D nu va fi redusă. Dacă se
introduce a patra comandă consumatoare de resurse de către sistem, atunci se va reduce
în mică măsură timpul total de execuţie a proceselor, dar nu se va observa un impact
major asupra răspunsurilor directe date de sistem.
Intel deja introduce procesoarele dual-core bazate pe sistemul Pentium D, iar
PC-urile propulsate de acestea vor fi considerabil mai ieftine decât cele cu Pentium 840
EE.
Deşi scumpe, procesoarele dual-core dovedesc performanţe simţitor
îmbunătăţite. AMD îşi continuă în salturi drumul către inimile gamer-ilor înnebuniţi de
gigaherti, în timp ce Intel preferă sa urce cu paşi mărunţi, siguri şi stabili.
61
Evaluarea performanţelor sistemelor de calcul
Arhitecturile testate sunt în număr de trei: Intel NetBurst, Intel Core şi AMD64.
Intel NetBurst reprezintă o arhitectură aspru criticată, dar care a dominat lumea
procesoarelor Intel în ultimii şase ani. Ea a fost introdusă odată cu Pentium 4 şi a
succedat-o pe cea P6 (Pentium II/III), având ca principale caracteristici creşterea de
patru ori a lăţimii de bandă a bus-ului PSB (el fiind numit acum Quad Pumped) şi
restructurarea cache-ului level 1. Mai târziu şi fără legătură directă cu arhitectura, Intel a
introdus o serie de inovaţii în procesoarele acestei serii, precum tehnologiile
HyperThreading şi EM64T (aceasta din urmă fiind „împrumutată” de la AMD64),
precum şi includerea a două nuclee într-un singur CPU. Critica principală adusă a fost
62
Cap 3: Evaluarea performanţelor procesoarelor
datorată consumului extrem de ridicat şi a performanţei mici per clock (performanţa la o
frecvenţă dată), fapt datorat pipeline-ului2 extrem de lung; spre exemplu, un Athlon 64
la 2 GHz depăşea cu mult un Pentium 4 la aceeaşi frecvenţă; interesant este faptul că şi
vechea arhitectură de la Intel, P6, întrecea unele modele de Pentium 4 chiar şi la o
frecvenţă mai ridicată (de exemplu, Pentium III la 1 GHz vs. Pentium 4 la 1.3 GHz).
Succesul lui NetBurst a fost datorat numelui Intel, marketing-ului agresiv, dar şi
faptului că procesoarele din această serie puteau, într-adevăr, să atingă frecvenţe
deosebit de ridicate - apropiindu-se de 4 GHz şi depăşind chiar cu mult această valoare
prin overclocking-ul extrem.
Platforma Intel Core a fost introdusă în acest an de către Intel, ea reprezentând
o revenire în prim-plan a arhitecturii P6, aflată la baza procesorului Pentium III.
Arhitectura a fost folosită chiar şi în vremurile de apogeu ale lui Pentium 4 în
„persoana” lui Pentium M (nume de cod Dothan), un procesor foarte popular pentru
platformele mobile. Ca fapt divers, Pentium M a pătruns şi în domeniul desktop datorită
adaptorului Socket 479-478, care a dat naştere celei mai performante şi mai reci
combinaţii posibile pentru un PC, el oferind o performanţă per clock superioară chiar şi
unui Athlon 64 FX.
În ceea ce priveşte arhitectura Core, practic Intel a preluat scheletul lui Dothan şi
i-a adus numeroase îmbunătăţiri pentru a o face competitivă acestei perioade.
Instrucţiunile SSE3, EMT64 şi VT sunt considerate de mulţi „bling-bling”-uri -
accesorii inutile, însă nu se ştie niciodată când este nevoie de ele. Au mai fost moştenite
unele inovaţii aduse de NetBurst (dar fără legătură cu arhitectura în sine), precum bus-ul
Quad Pumped. Performanţa per clock a devenit foarte ridicată, depăşind-o pe cea a
concurenţilor de la AMD, iar procesoarele rezultate au, spre deosebire de cele AMD64,
rezerve foarte mari de atingere a frecvenţelor ridicate. S-ar părea că diferenţa de
performanţă se datorează în mare parte şi cache-ului de 4 MB de tip inclusiv, împărţit
între cele două nuclee. Pe baza acestei arhitecturi a ieşit la lumină, de curând, şi primul
CPU cu patru nuclee: Core 2 Extreme QX6700 (nume de cod Kentsfield).
AMD64, deşi un simplu update al vechiului AMD K7 (Athlon, Athlon XP), a
introdus câteva îmbunătăţiri cheie, cea mai importantă fiind includerea controller-ului
de memorie în procesor. Deşi s-a insistat mult pe instrucţiunile, regiştrii şi întreaga
arhitectură pe 64 de biţi, utilitatea acestui „add-on” este momentan extrem de redusă,
dată fiind lipsa de popularitate a sistemelor de operare şi a aplicaţiilor care să utilizeze
cod 64-bit. Oricum, cine îşi cumpără procesoare AMD64, nu o face din cauza celor 64
de biţi, ci datorită performanţei sporite de mutarea controller-ului de memorie din placa
de bază în procesor, ceea ce reprezintă, în continuare, principalul avantaj al
procesoarelor AMD, fără de care ele nu ar fi făcut faţă concurenţei. Acest lucru a adus şi
câteva dezavantaje, unul dintre ele fiind resimţit chiar acum, la apariţia lui Socket AM2:
odată cu schimbarea tipului de memorie, trebuie înlocuit şi procesorul, şi placa de bază.
2
Pipeline - reprezintă suma unor etape pe care instrucţiunile trebuie să le parcurgă până la obţinerea
rezultatului final
63
Evaluarea performanţelor sistemelor de calcul
frecvenţele au fost testate minuţios, astfel încât placa a rulat perfect stabil şi fără
artefacte în aceste condiţii.)
S-a renunţat la împerecherea a două plăci grafice pentru acest test deoarece ar fi
putut apărea probleme serioase cu driverele în anumite cazuri, cel puţin pe platforma
Intel. Ca pas firesc de urmat, am scăzut detaliile şi rezoluţiile până am ajuns la un punct
unde coborârea sub o anumită limită deja ar fi fost irelevantă (nimeni nu mai foloseşte
rezoluţii precum 800 x 600 sau 640 x 480 cu un Core 2 Duo, spre exemplu). Sistemul de
operare a fost Windows XP Professional SP2, iar setările plăcii grafice din drivere au
fost cele implicite, pentru o evaluare cât mai apropiată de condiţiile utilizării de zi cu zi.
Ca plăci de bază, pentru platforma Intel sa ales un DFI Infinity 975X/G (chipset
Intel 975X) deoarece, în momentul în care s-au rulat testele, era practic cea mai
performantă placă disponibilă. Layout-ul este unul simplu, ce nu excelează prin nimic,
dar ca performanţă surclasează alternativele de la Asus şi Gigabyte. Voltajele
generoase, atât pentru procesor cât şi pentru memorii, au înlăturat îndoielile pe care le-
am avut în legătură cu ea.
Pentru procesoarele AM2 sa folosit o placă Abit AN9 32X (chipset nForce 590
SLI), ce oferă premisele unui overclocking ridicat. În fine, pentru Socket 939, sa dispus
de un „bătrân” Abit AN8 (chipset nForce 4), cu setări moderate de overclocking, dar cu
performanţe de top.
Memoriile folosite au făcut parte dintr-un kit Corsair CM2X512-8000UL,
module echipate cu chip-urile Micron D9 „fatbodies”; ele au rulat la frecvenţe
impresionante, cu latenţe extrem de mici: până la 800 MHz am rulat cu CL3 2-2-7, în
cazul platformei Intel. Pentru platforma Socket 939 (DDR) am dispus de un kit OCZ
PC4400 Gold Limited Edition (chip-uri TCCD), fără performanţe deosebite, dar
arhisuficiente pentru nevoile noastre.
Sursa a purtat numele Antec Phantom 500W, ea fiind dotată cu două rail-uri
independente de 12V de 16A şi respectiv 17A şi dovedind voltaje stabile, cu variaţii
minime, chiar şi la stresul enorm exercitat de o platformă de ultimă generaţie overclock-
ată aproape de limită.
Răcirea a fost asigurată de un cooler Scythe Ninja Plus, un monstru care ar
înspăimânta utilizatorul obişnuit. El a reuşit să răcească pasiv toate procesoarele pe care
le-am avut în teste. Evident, la frecvenţe implicite.
64
Cap 3: Evaluarea performanţelor procesoarelor
utilizatorului. Aşadar, nici un benchmark nu este perfect, ci depinde atât de aplicaţia
folosită de către utilizator, cât şi de operaţiile realizate în cadrul acelei aplicaţii.
Testele care folosesc aplicaţii reale se numesc teste analitice, iar cele care
raportează rezultatele unor programe create special pentru a evalua performanţa sunt
testele sintetice. Clasificarea este oarecum convenţională, întrucât numeroase teste
sintetice folosesc aplicaţii ce au la bază motorul unor software-uri clasice; de exemplu,
3DMark se bazează pe engine-uri reale de jocuri, diferenţele de comportament dintre
benchmark şi jocurile propriu-zise fiind nesemnificative.
Benchmark-ul sintetic 3DMark 2001 a fost folosit deoarece este până acum
singurul test care solicită semnificativ toate componentele vitale ale unui sistem (CPU,
memorie RAM, placă grafică, sursă). Grosso-modo, putem spune că testul Car Chase
depinde de procesor, Dragothic de procesor şi placa video, Lobby de memorie (latenţe
şi lăţime de bandă), iar Nature este intens grafic. Tocmai de aceea sa preferat
compararea framerate-ului în toate testele, în defavoarea scorului final.
Din 3DMark03 sa selectat pentru testarea procesorului numai GT1 (Wings of
Fury), testul fiind comparabil ca pondere a procesorului cu primele trei teste din
3DMark2001.
Din 3DMark05 s-au selectat testele de bază, care oferă un scor final, dar s-au
reţinut, de asemenea, rezultatele din fiecare test. În cazul lui 3DMark06, s-au utilizat
numai testele pentru CPU deoarece celelalte sunt foarte intens solicitante pentru placa
grafică, iar aceasta plafonează performanţa într-un mod ce face imposibilă deducerea
influenţei procesorului asupra rezultatului final, deci, practic, diferenţierea
procesoarelor.
Tot la capitolul performanţă 3D, s-au introdus o serie de jocuri reale, fie
complete sau demo-uri ale acestora create special pentru testare: F.E.A.R., Quake 4,
FarCry, GunMetal şi X3.
Pentru evaluarea vitezei de randare în aplicaţii de grafică profesională, sa avut la
dispoziţie SPECviewperf, alături de CineBench, PovRay şi Photoshop CS2 (aplicarea
filtrului Radial Blur asupra unei imagini).
Pentru testarea în aplicaţii multimedia, sa codat un scurt film în format original
DVD (MPEG-2 la 720 x 480) folosind codec-ul DivX 6.3, precum şi un fişier audio
(Dream Theater - Octavarium, de pe albumul cu acelaşi nume) cu mai multe encodere
lossy şi lossless, rezultând fişiere în formatele MP3, MPC, Vorbis, AAC, FLAC şi
APE.
În fine, ultimele trei teste au constat în folosirea benchmark-ului din WinRAR,
a aplicaţiei ScienceMark (pentru diverse simulări ştiinţifice), precum şi clasicul
SuperPI, care efectuează atât de inutilul calcul cu milioane de zecimale al numărului pi.
Explicaţii
În cazul jocurilor 3D, creşterea rezoluţiei (sau creşterea nivelului de anti-aliasing
- are un efect similar) conduce la un stres suplimentar din partea plăcii grafice şi,
eventual, a memoriei sistemului. În alcătuirea scenelor, procesorul calculează în
principal wireframe-ul3 obiectelor, altfel spus coordonatele punctelor ce le definesc,
urmând ca mai apoi placa grafică să le umple cu culoare şi să le aplice diverse efecte.
Este evident faptul că un obiect va fi calculat într-un mod similar, indiferent dacă
rezoluţia este 640 x 480 sau 1600 x 1200, fiind aplicate aceleaşi formule de calcul
pentru definirea poligoanelor şi funcţiilor matematice care le creează. Aşadar, pentru
3
http://en.wikipedia.org/wiki/Wire_frame_model
65
Evaluarea performanţelor sistemelor de calcul
evaluarea performanţei pure a unui procesor, este de dorit folosirea unei rezoluţii cât
mai mici, pentru ca placa grafică să termine întotdeauna calculele înaintea procesorului,
ea neconstituind astfel un factor limitativ.
Altfel stă treaba când vine vorba de nivelul de detalii ale unei scene, scăderea
sau creşterea lui reflectându-se într-o solicitare mai intensă a procesorului şi/sau plăcii
grafice, de la caz la caz, în funcţie de ce reprezintă pentru fiecare aplicaţie/joc
schimbarea acestui nivel. De exemplu, nivelul maxim poate însemna folosirea un
poligon regulat cu 100 de laturi pentru înfăţişarea unui cerc, pe când un nivel mai scăzut
poate reduce acest număr la 50, realismul scenei devenind altul - caz în care procesorul
are mai puţin de lucru. Dar, la fel de bine, reducerea nivelului de detalii poate desemna
o filtrare mai sumară a texturilor, ele devenind mai puţin clare - caz în care placa grafică
este degrevată de o parte dintre sarcini.
În aceste condiţii, de ce nu sa folosit rezoluţia minimă permisă (uneori chiar 320
x 240), împreună cu nivelul minim de detalii, pentru a fi siguri că placa grafică nu
limitează în nici un fel performanţa? Pentru că orice test trebuie să aibă o aplicabilitate
practică, să reflecte comportamentul real al unui utilizator; or, nimeni nu îşi chinuieşte
ochii într-o rezoluţie mai scăzută de 1024 x 768 dacă îşi cumpără o placă grafică de
ultimă generaţie - cum este cea folosită în testul nostru.
66
Cap 3: Evaluarea performanţelor procesoarelor
excepţionale. Nucleul Manila este un nucleu Orleans (A64 AM2) cu cache-ul redus la
256 KB.
Testarea a avut loc la setările:
• 1600 MHz, PSB 200 MHz, DDR2-667, CL3 3-3-7 1T (Sempron 2800+)
• 2880 MHz, PSB 360 MHz, DDR2-960, CL4 3-3-8 2T
Intel Core 2 Duo E6300 „Allendale” (1.86 GHz, 7 x 266, 2 x 1 MB cache L2);
Mezinul familiei Core 2 Duo, 6300 dovedeşte o putere de calcul ieşită din
comun şi se ia la trântă voiniceşte cu Pentium D 945. Şi are „numai” 2 MB de cache
level 2 şi frecvenţă net inferioară acestuia.
• 1866 MHz, PSB 266 MHz, DDR2-667, CL3 2-2-7 (Core 2 Duo E6300)
• 3010 MHz, PSB 430 MHz, DDR2-646, CL3 2-2-7
Intel Core 2 Duo E6700 „Conroe” (2.66 GHz, 10 x 266, 2 x 2 MB cache L2);
Englezul spune „save the best for last”. Noi nu spunem nimic, ci vă invităm doar
să studiaţi graficele testelor, deoarece ele vorbesc de la sine.
67
Evaluarea performanţelor sistemelor de calcul
• 2666 MHz, PSB 266 MHz, DDR2-667, CL3 2-2-7 (Core 2 Duo E6700)
• 3450 MHz, PSB 345 MHz, DDR2-690, CL3 2-2-7
Observaţii:
• sa folosit frecvenţa de 2 GHz pentru Venice cu scopul de a simula
comportamentul lui Athlon 64 3200+, un procesor de referinţă pentru platforma
Socket 939;
• sa folosit frecvenţa de 2 GHz pentru Windsor pentru a simula comportamentul
lui Athlon 64 X2 3800+, cel mai lent CPU dual-core de la AMD;
• în cazul lui Sempron AM2, setarea memoriei a fost DDR2-667 datorită
compatibilităţii oficiale restricţionate la această frecvenţă, deşi nu au fost
probleme în rularea la DDR2-800;
• aparent, limitarea overclocking-ului la Sempron 2800+ (la 80%!) a fost datorată
plăcii de bază, procesorul putând urca la o frecvenţă şi mai mare;
• pentru platforma Intel, nu (mai) există setarea Command Per Clock (1T/2T),
rulându-se implicit cu valoarea 2T, însă procesoarele Intel se pare că nu depind
în mod vital de latenţa 1T; în cazul lui AMD, creşterea la 2T determină o
scădere masivă de performanţă;
68
Cap 3: Evaluarea performanţelor procesoarelor
Alegerea unui procesor a fost întotdeauna o decizie grea. Aici nu există „cel mai
rapid”, ci „cel mai potrivit”, în cele din urmă fiind o decizie subiectivă.
69
4. Evaluarea memoriilor
4.1. Introducere
Un test de memorie nu este simplu de realizat. Puţini se încumetă, puţini reuşesc.
Spre deosebire de alte teste, acesta nu este unul care să reflecte cu acurateţe
comportamentul produselor, precum stă treaba la plăci de bază sau plăci grafice. De ce?
Pentru că numărul parametrilor care trebuie luaţi în calcul este cu cel puţin un ordin de
mărime mai mare. Unii ar spune că e simplu: setezi frecvenţa, micşorezi latenţele,
eventual creşti tensiunea la maxim şi vezi la cât rulează stabil. Fals. Un test riguros ia în
calcul şi parametrii cei mai puţini uzitaţi. Drive Strength, tRFC, tRWT, tREF... şi lista
lor ar putea umple o pagină.
Testarea şi metoda prezentate în curs reprezintă un compromis, testarea nu este
atât de riguroasă pe cât s-ar fi putut realiza, din cauza timpului enorm care ar fi fost
necesar acestui demers. Fără a exagera câtuşi de puţin, un test de memorii perfect
riguros ar trebui să dureze circa trei luni de muncă intensivă. Nu s-au efectuat testele
decât sumar pe o a doua placă de bază, nu s-au luat în considerare decât parţial latenţele
secundare, s-au testat doar 30 de produse (cu toate că s-ar fi putut procura mai multe) şi
nu s-au introdus în „concurs” decât kit-uri de 1 GB (câte două module de 512 MB).
Tocmai de aceea testul nu trebuie considerat ceva exhaustiv, ci în primul rând un ghid
care să deschidă gusturile celor pasionaţi, să lămurească unele aspecte delicate legate de
memorii şi abia apoi să ofere un ghid de cumpărare celor interesaţi.
Momentan, ne aflăm într-o perioadă de trecere de la standardul DDR la cel
DDR2. Totuşi, platforma AMD se foloseşte intensiv memorii DDR, iar sistemele bazate
pe procesoarele companiei texane sunt preferate de foarte mulţi, dacă nu de cei mai
mulţi entuziaşti de la noi, cu atât mai mult cu cât chipset-urile au căpătat o anumită
maturitate, iar multe plăci de bază oferă o configurabilitate foarte bună. E suficient să
comparăm BIOS-ul unei plăci high-end cu chipset Intel cu cel al unei plăci nForce4 (în
ediţia pentru AMD): trei sau patru setări de memorie versus minim 10, uneori 20 sau 30.
De asemenea, mentalitatea cumpărătorului a suferit schimbări semnificative în
ultima perioadă. Acum, el nu mai pune problema la modul „vreau să-mi iau o memorie
de 512 MB”, ci „vreau să-mi aleg o memorie care merge în latenţe strânse şi în
frecvenţă mare”. Chiar dacă sporul de performanţă nu este senzaţional, latenţele pot face
diferenţa dintre un sistem rapid şi unul care suferă de pe urma unei limitări ce putea fi
evitată. Mai problematic este aspectul frecvenţelor; de exemplu, cine posedă un Athlon
64 3200+ care, supus overclocking-ului, rulează în 2700 MHz, va avea nevoie de o
memorie pe măsură, care să satisfacă „foamea” de lăţime de bandă a procesorului, şi
anume una care să reziste cu succes la 270 MHz. Dacă nu, frecvenţa ei va trebui scăzută
iar penalizarea de performanţă va fi destul de mare.
Aşadar, nu există memorie ideală. Fiecare utilizator îşi va stabili propriile
standarde în funcţie de diverşi factori, dintre care amintim:
• frecvenţă,
• latenţe,
• performanţă brută,
• răspuns la tensiune şi, de ce nu, aspect.
70
Cap 4: Evaluarea memoriilor
Mai mult, ar putea conta şi aplicaţiile rulate: ce este mai convenabil, un Athlon
64 „chinuit” la 2600 MHz cu memoria rulând sincron (260 MHz) sau unul la 2750 MHz
„chinuit” şi mai mult, cu memoria asincron (230 MHz)? Cine se joacă va prefera prima
opţiune, cine codează filme va merge pe a doua.
Aspectele abordate în acest material sunt diverse. Veţi afla care sunt, ce
înseamnă şi cum trebuie setate latenţele memoriei, precum şi modul de comportare al
celor mai importante module de pe piaţă, alături de modul lor de procurare.
4.2.1. Latenţe
Numite şi timing-uri, acestea reflectă îndeaproape performanţa memoriei.
Practic, latenţele sunt nişte numere ce reprezintă cicluri de tact dintre diferite stadii de
prelucrare a informaţiilor de către memorie. Cu cât acestea sunt mai mici, cu atât
performanţele vor fi mai mari, dar cu atât cresc şi şansele ca memoria să nu le suporte.
Latenţele se pot regla din BIOS-ul plăcii de bază (dacă acesta dispune de o astfel
de facilitate) sau prin intermediul diverselor utilitare, precum SysTool sau A64Tweaker.
Logica de bază a latenţelor va fi explicată în capitolul următor (test plăci grafice) şi vă
invităm să o (re)citiţi; în continuare, vom completa acele explicaţii şi ne vom referi la
latenţele ce pot fi setate de către utilizator, detaliind semnificaţia acestora.
Fiecare bank al memoriei (un bank fiind o grupare de mai multe chip-uri - de
multe ori logică) constă, în realitate, într-o matrice uriaşă, pentru accesarea unei
informaţii fiind necesară localizarea unei celule. În acest scop, au loc câteva procese
fundamentale: CAS (Column Address Strobe) şi RAS (Row Address Strobe), fiecare
fiind dedicat selectării coloanei, respectiv liniei din matrice. RAS-ul constă în câteva
etape, prin care informaţia este citită sau scrisă: Active (activează rândul), Read (citeşte
informaţia), Write (scrie informaţia); Precharge (şterge informaţiile şi face pregătirile
72
Cap 4: Evaluarea memoriilor
pentru reluarea ciclului), deşi nu face parte din ciclul RAS, este strâns legat de acesta
din motive evidente. Între Active şi Read/Write are loc şi selectarea coloanei prin
intermediul lui CAS, astfel încât la începutul demarării citirii sau scrierii să existe
informaţia legată de coordonatele celulei accesate.
Limitarea timpilor necesari desfăşurării acestor operaţii este efectuat prin setarea
latenţelor. Dacă acestea sunt prea mici, memoria va pierde informaţii şi vor apărea erori
(de la blocaje, erori de program şi ecrane albastre în Windows până la imposibilitatea de
a intra în POST).
tCL (CAS Latency), deşi era latenţa de bază în cazul memoriilor SDRAM,
importanţa acesteia a scăzut mult la DDR SDRAM. Ea reprezintă timpul minim în care
se desfăşoară selectarea coloanei prin intermediul procesului CAS.
Valorile uzuale sunt de 2, 2.5 şi 3, cele mai rapide memorii suportând valoarea 2
la 200 MHz, 2.5 la 250 sau chiar 300 MHz. Valoarea 3 nu este acceptată de unele
module, indiferent de frecvenţă, însă la altele ea este strict necesară pentru atingerea de
frecvenţe mari. De asemenea, valoarea de 1.5, suportată de unele plăci de bază, nu
creează probleme de stabilitate dar nici nu oferă vreun avantaj; în schimb, cele de 1, 3.5,
4 şi 4.5 sunt practic inutile şi, de cele mai multe ori imposibil de setat.
tRCD (RAS to CAS Delay) limitează timpul dintre RAS şi CAS sau, altfel spus,
timpul dintre comenzile Active şi Read/Write. Ea este cea mai importantă latenţă pentru
memoriile DDR deoarece afectează cel mai mult performanţa.
Memoriile ieftine lucrează cu valori de 3 sau chiar 4, pe când cele mai rapide
oferă un tRCD de 2 la 200 MHz, 3 la 250 MHz şi 4 la 300 MHz.
tRP (RAS to Precharge Delay) se referă la timpul de desfăşurare al comenzii
Precharge, adică refacerea celulelor pentru reluarea ciclului. Importanţa ei este mai
redusă decât cea a lui tRCD şi comparabilă cu tCL.
Valorile uzuale sunt de 2, 3 şi 4; memoriile performante acceptă tRP = 2 la 230 -
250 MHz, apoi 3 la 300 MHz, pe când cele lente lucrează cu 3 şi 4 la 200 MHz.
tRAS (RAS Active Time sau Active to Precharge Delay) este o latenţă foarte
interesantă, care iese din tiparele obişnuite. Ea oglindeşte timpul dintre comanda Active
şi cea Precharge, limitând practic întregul proces RAS. Deoarece ea include atât tRCD-
ul cât şi tCL-ul, o valoare mai mică decât suma acestora două nu va avea nici un efect.
Pentru performanţe optime se recomandă o valoare cu 1 sau 2 mai mare decât suma
celor două - aceasta deoarece, în mod paradoxal, o valoare prea mică poate chiar reduce
(nesemnificativ) performanţa.
Valorile uzuale sunt cuprinse între 5 şi 11, fiecare producător preferând o
anumită combinaţie pe care o consideră ideală. Numere mai mici de 5 nu sunt suportate
oficial (tRCD + tCL + 1 nu poate fi mai mic de 5), dar unele plăci permit setarea
acestora pe riscul utilizatorului (risc de performanţe scăzute, rareori de instabilitate). Per
total, impactul asupra performanţei şi stabilităţii este neglijabil.
Trăgând linie, observăm că memoria lucrează într-un mod relativ simplu: se
selectează un bank, apoi un rând şi o coloană, se citeşte sau scrie informaţia şi se fac
pregătirile pentru reluarea ciclului. Selectarea unui rând nu trebuie să dureze mai puţin
decât specifică valoarea tRCD, selectarea unei coloane se supune indicaţiilor lui tCL,
timpul de accesare + citire/scriere + „pregătire pentru pregătire” nu trebuie să fie mai
redus decât indică tRAS-ul, iar pregătirile pentru ciclul următor nu trebuie să fie mai
scurte decât ne spune tRP-ul.
Deşi nu este legată strict de memorie, ci de controller, setarea Command Rate
(CMD) este, de departe, cea mai importantă. Numită în diverse moduri (CPC, 2T
73
Evaluarea performanţelor sistemelor de calcul
Timing, Command per Clock), ea semnifică timpul scurs de la selectarea bank-ului
memoriei până la începerea trimiterii comenzilor către acesta.
Valorile posibile sunt 1T şi 2T (notate exact astfel). Orice platformă ar trebui să
suporte 1T pentru un maxim de două module de 1 GB.
Pentru a nota timing-urile principale ale unei memorii, vom folosi notaţia CL
tRCD-tRP-tRAS CMD, de exemplu CL2 2-2-5 1T sau CL2.5 3-3-7 2T. Dacă setarea
CMD este omisă, se va presupune implicit că ea este 1T.
Pe lângă aceste latenţe principale, există câteva ce au o importanţă mai redusă şi
pe care le-am descris în continuare, pe scurt. Menţionăm că ele sunt valabile în primul
rând pe platforma nForce4, deşi cele multe dintre ele pot fi aplicate şi altor chipset-uri
sau chiar altor tipuri de memorii (SDRAM sau DDR2 SDRAM).
• tRC (Row Cycle Time) are o importanţă semnificativă şi reflectă întregul ciclu
de parcurgere al unui rând, aşadar RAS (reflectat de tRAS) + Precharge
(reflectat de tRP). În mod evident, valoarea minimă este egală cu suma dintre
tRAS şi tRP (de obicei nici nu pot fi setate valori mai mici de 5 + 2), însă unele
memorii au nevoie de mai mult.
• tRFC (Row Refresh Cycle Time) este timpul minim dintre două operaţii de
Refresh aplicate aceluiaşi bank, adică de reîmprospătare a informaţiilor, element
vital în cazul oricărei memorii DRAM. Valoarea minimă este în general de 9,
însă unele memorii au nevoie de mai mult, mai ales la frecvenţe mari. Impactul
asupra performanţei este neglijabil.
• tRRD (Row to Row Delay) limitează timpul dintre RAS şi RAS pentru acelaşi
bank. Opţiunea rareori are un rol de luat în seamă, valoarea clasică fiind 2. La
nevoie, ea poate fi crescută la 4 dar uneori poate fi scăzută chiar la 0; impactul
asupra performanţei se lasă însă aşteptat.
• tWR (Write Recovery Time) reflectă timpul dintre finalizarea unei operaţii de
scriere şi operaţia de Precharge. Importanţa setării este redusă, valorile posibile
fiind de 2 sau 3.
• tWTR (Write to Read Delay) se referă la timpul dintre o operaţie de scriere şi
una de citire în cadrul aceluiaşi bank. Valoarea de 1 oferă cea mai bună
performanţă la citire, însă cea de 2 este uneori utilă pentru creşterea stabilităţii la
frecvenţe mari.
• tRTW (Read to Write Delay) este similară lui tWTR, dar limitează timpul scurs
dintre o operaţie de citire şi una de scriere. Valoarea optimă este 1, însă cea de 4
este indicată pentru şanse mai mari de stabilitate. Dacă tCL este setat altfel decât
2, s-ar putea să fie necesar şi un tRTW de minim 2.
• tREF (Refresh Period) conţine o setare uşor de înţeles dar dificil de setat optim.
Este vorba de timpul la care memoria este reîmprospătată; valorile mari oferă o
mai bună performanţă în detrimentul stabilităţii, iar valorile foarte mici (sub
2000) o reduc în mod exponenţial. 3120 pare a fi valoarea optimă, ce oferă un
compromis bun între performanţă şi stabilitate.
• tWCL (Write CAS Latency) indică o setare de CAS specifică operaţiei de
scriere. Cum singura setare posibilă pare a fi cea de 1, nu este cunoscut impactul
său asupra performanţei.
1
http://www.realstorm.com/
75
Evaluarea performanţelor sistemelor de calcul
76
Cap 4: Evaluarea memoriilor
77
Evaluarea performanţelor sistemelor de calcul
4.2.2. Concluzii
Din rezultatele obţinute mai sus putem trage câteva concluzii, cu menţiunea că
acestea ar putea diferi în cazul folosirii altei platforme (altă placă de bază, eventual
chipset diferit).
• tCL = 2.5 afectează relativ puţin performanţa; în schimb, setarea la 3 o reduce
simţitor.
• tRCD = 3 este cauza unei scăderi semnificative de viteză, iar tRCD = 4
depăşeşte cu puţin ca importanţă tCL = 3.
• tRP = 3 sau 4 este o setare ce are un impact minor, dar neneglijabil.
• Command Rate = 2T „omoară dintr-un foc” viteza, aducând-o la nivelul lui
tRCD = 4.
• tRAS are o importanţă total nesemnificativă; totuşi, este recomandată o valoare
egală cu suma dintre tCL, tRCD şi 1.
• Creşterea lui tRC generează o scădere minoră de performanţă, dar care nu merită
neglijată. Cele mai multe memorii suportă valori mici, drept urmare încercarea
merită făcută.
• Importanţa lui tRFC este complet nesemnificativă, similară lui tRAS.
• Doar setarea lui tRRD la 4 a limitat viteza, cu toate că extrem de puţin.
• tWR, tWTR şi tRWT au avut o importanţă neglijabilă, dar pot face diferenţa
într-un test de performanţă.
• Micşorarea cu 200 MHz a frecvenţei procesorului a avut un impact mai
pronunţat decât orice însumare a setărilor.
• Scăderea frecvenţei memoriei la 166 MHz a depăşit ca importanţă setarea
Command Rate = 1T, tRCD = 4 sau tCL = 3 însă, cu siguranţă, nu şi suma
acestora.
2
http://www.memtest.org/
3
http://hcidesign.com/memtest/download.html
79
Evaluarea performanţelor sistemelor de calcul
O regulă empirică spune că dacă memoria „răspunde la voltaj” (adică se
comportă mai bine la o tensiune mărită) atunci îl putem creşte în continuare; condiţia
este să avem o răcire bună. Totuşi, nu recomandăm valori mai mari
de 3V decât în cazul celor care ştiu cu adevărat ce fac.
4
http://brain-power.net/menus.php?name=Company&c_lang=english
80
Cap 4: Evaluarea memoriilor
Preţul relativ redus este încă un atu al acestor chip-uri.
Micron 5B G oferă performanţe de invidiat, rulând fără probleme la CL2 2-2-x
în DDR400, între CL2.5 2-2-x şi CL3 3-2-x în DDR500 şi în CL3 3-3-x mai sus, până
în zona lui DDR600. Pe lângă frecvenţele ridicate atinse (totuşi, ceva mai reduse decât
la TCCD), avem şi avantajul unor latenţe decente; practic, ele nu au nevoie de setarea 4
pentru tRCD şi tRP, însă se simte afinitatea lor pentru CL3.
Ele răspund la tensiuni de circa 3V, dar au nevoie de răcire activă chiar şi la
2.85V, în caz contrar riscând supraîncălzirea, urmată de apariţia erorilor.
Aceste chip-uri sunt întâlnite, în general, pe modulele provenite de la Crucial, o
divizie a companiei Micron Technology. Preţul nu este tocmai redus, dar nici exagerat.
Micron 5B C nu se bucură de aceleaşi avantaje: ating în jur de 240 - 250 MHz
cu CL3 3-3-x, dar în DDR400 au un comportament bun: CL2.5 2-2-x. De asemenea, ele
răspund la voltaj, chiar şi puţin peste 3V.
Aceste chip-uri se găsesc pe memorii ieftine, la preţuri convenabile.
ProMos 5B se comportă foarte bine, atingând frecvenţe apropiate de Micron 5B
G: 270 - 290 MHz cu CL3 4-3-x şi CL2.5 3-3-x pentru frecvenţe
de 200 - 250 MHz.
Diverse tipuri de chip-uri Infineon pot fi întâlnite
îndeosebi pe memoriile DDR400 ieftine, ce suportă de obicei
CL2 3-3-x sau 3-2-x, dar rareori ating 250 MHz. Nu obişnuiesc
să răspundă la un voltaj de peste 2.8V decât ocazional.
Numeroase memorii testate au manifestat un
comportament similar, rulând cu CL2 3-3-x în DDR400, atingând aproximativ 240 -
245 MHz şi refuzând categoric CL3. Ele au avut chip-urile marcate în diverse moduri:
G.Skill, Kingmax, PQI, Princeton, Sycron etc. Bănuiala noastră se îndreaptă către
Infineon B5. De asemenea, două alte module au avut un comportament similar, dar au
avut o afinitate specială pentru CL3, iar în DDR400 au rulat la CL2 3-2-x; de asemenea,
ele au avut probleme de compatibilitate cu placa de bază de la DFI, pe Abit simţindu-se
în largul lor. Pe acestea le-am identificat ca Infineon CE-5.
Deşi nu suntem siguri că Samsung TCC4 au stat la baza unui kit din test,
comportamentul este asemănător cu informaţiile găsite pe Internet. Ele se pot lăuda cu
un comportament foarte slab, atingând 210 - 225 MHz la latenţe CL3 3-3-x, iar în
DDR400 nu depăşesc CL2.5 3-3-x.
Afară de acestea, există diverse chip-uri ale căror comportament nu l-am putut
testa. Printre ele se numără Hynix D43 şi D5, ambele cu un comportament satisfăcător:
260 - 290 MHz cu timing-uri CL3 4-4-x, respectiv CL2.5 4-4-x.
Samsung TCC5 şi TCCC oferă performanţe total diferite; dacă TCC5 sunt
versiuni puţin slabe de TCCD, TCCC-urile ating 250 - 260 MHz cu CL3 4-4-x, iar la
200 MHz nu suportă decât CL2.5 3-3-x.
Samsung UCCC pot fi întâlnite doar pe
module de 1 GB şi rulează la 260 - 280 MHz cu
latenţe destul de relaxate.
82
Cap 4: Evaluarea memoriilor
de utilizatori. Din păcate, această versiune se află spre sfârşitul vieţii, reviziile 5.x, ce
sunt mai uşor de găsit, fiind considerabil mai slabe.
+ performanţe foarte bune
+ preţ redus
+ radiatoare din aluminiu
- probleme la tensiune peste 2.7V
- nu rulează cu latenţe strânse la frecvenţe mari
- latenţe prea relaxate înscrise în SPD
83
Evaluarea performanţelor sistemelor de calcul
orice memorie cu Winbond UTT va rula în CL2 2-2-5 la frecvenţe mai mari, dar de la
nişte TCCD-uri nu se poate cere mai mult decât oferă 3200XLPT.
SPD-ul este înscris corect, iar preţul mare, dar corespunzător calităţii produsului.
Concluzii
Cine este în căutarea celor mai bune memorii cu chip-uri TCCD (practic, a celor
mai potente memorii în materie de frecvenţă), s-ar putea să fi găsit alegerea ideală.
+ performanţe maxime pentru TCCD
+ răspuns în voltaj până la 3V
+ radiatoare din aluminiu
- preţ ridicat, deşi perfect justificat
4.5. Concluzii
Am parcurs împreună treizeci de perechi de memorii ce poartă marca unora
dintre cele mai cunoscute companii ale domeniului. Dintre toate, s-au remarcat
modulele cu chip-uri Samsung TCCD şi îndeosebi Corsair TWINX1024-3200XLPT
rev 1.2 şi G.Skill Extreme Performance F1-4800DSU2-1GBFF, care au obţinut
performanţe maxime. Remarcabilă a fost şi prestaţia modulelor A-Data Vitesta
DDR500, ce oferă performanţe apropiate la un preţ extrem de mic, însă nu putem şti ce
se ascunde în spatele radiatoarelor: Samsung TCCD sau Hynix.
Trei produse au oferit funcţii suplimentare de afişare. Două dintre ele - Corsair
TWINX1024-3200C2PRO rev 4.1 şi Crucial Ballistix Tracer PC4000 posedă LED-
uri pentru indicarea activităţii, iar Corsair Xpert TWINXP1024-3200XL rev 1.2
deţine suplimentar un senzor pentru monitorizarea temperaturii şi alte câteva funcţii
interesante. În plus, toate trei s-au comportat bine, ceea ce este normal - funcţiile
suplimentare nu sunt implementate decât pe modelele high-end.
În gama ieftină am avut numeroase produse ce purtau diverse brand-uri. Dintre
ele s-au remarcat Corsair VS1GBKIT400 cu chip-uri ProMos, precum şi G.Skill
Normal Series F1-3200PHU2-1GBNT cu Infineon. Din păcate, compatibilitatea chip-
urilor ProMos cu platforma DFI a lăsat de dorit, motiv pentru care am premiat modelul
de la G.Skill, mai slab dar mai compatibil.
Odată cu apariţia Socket AM2, memoriile DDR vor fi date uitării, locul lor
urmând să fie luat de DDR2 - standardul care domină în prezent piaţa Intel. Totuşi, până
atunci mai e vreme lungă, impunerea totală a lui DDR2 urmând să survină după mai
mulţi ani. Aşadar, nu încercaţi să realizaţi un upgrade forţat doar de dragul de a folosi o
tehnologie de viitor! Vă asigurăm că platforma DDR merită încă toată atenţia.
85
5. Evaluarea plăcilor grafice
5.1. Introducere
1
Proprietate a unei substanţe de a prezenta caracteristici fizice variate în funcţie de direcţia de măsurare şi
de observare (definiţie DEX).
86
Cap 5: Evaluarea plăcilor grafice
GDDR tactat la aceeaşi frecvenţă - însă GDDR-ul nu are nici o şansă de a atinge 1
GHz).
Trăgând linie, observăm câteva avantaje de partea lui 6600 GT în comparaţie cu
seria 6800. Să luăm ca exemplu GeForce 6800 „simplu”, cel mai lent din serie
(excluzând „neserioasa” variantă LE). Plăcile ce îl încorporează beneficiază de memorie
tactată la 700 MHz, în timp ce chip-ul rulează la 325 MHz. Aşadar, cu 175 MHz mai
puţin la core şi cu 300 MHz mai puţin la memorie. Dacă ţinem cont de faptul că
lărgimea bus-ului memoriei este dublă la 6800, obţinem o lăţime de bandă echivalentă
cu cea a unei frecvenţe de 1400 MHz pe 128 de biţi
(256-bit @ 700 MHz <=> 128-bit @ 1400 MHz).
Aşadar, avem şi un avantaj, şi un dezavantaj. Dar dacă
adăugăm încă patru pipeline-uri de pixel, obţinem
justificarea pentru care GeForce 6800 costă cu circa 50% mai mult decât un 6600 GT:
performanţe cu 20÷50% mai mari, în funcţie de rezoluţie şi setări, dintre care un procent
de 20÷25% este datorat exclusiv pipeline-urilor suplimentare.
Privind facilităţile, familia GeForce 6 oferă aceleaşi funcţii de bază, printre care
se numără ceea ce NVIDIA numeşte CineFX 3.0 (Pixel şi Vertex Shader 3.0, faţă de 2.0
la generaţia a cincea a lui GeForce) şi IntelliSample 3.0 (Full-Scene Anti-Aliasing şi
Anisotropic Filtering cu performanţe superioare celor întâlnite la IntelliSample 2.0, ce
înzestra seria GeForce FX). Deşi relativ neinteresante, enumerăm şi alte funcţii
prezente: accelerare hardware MPEG-2 (DVD, HDTV) şi Windows Media 9, şi două
RAMDAC-uri integrate - ce rulează la 400 MHz şi oferă posibilitatea prezenţei a două
ieşiri video, dintre care una de tip digital (DVI); rezoluţia maximă este de 2048x1536 la
85 Hz.
Toate plăcile din test au dispus de două ieşiri, dintre care cel puţin una de tip
DVI (destinată anumitor modele de monitoare LCD). Unele plăci au oferit, prin
intermediul unui chip extern (produs de Philips), două ieşiri digitale. Desigur, în
cazurile în care ieşirea normală (D-Sub) era absentă, era livrat şi un adaptor pentru ca
placa să poată fi folosită în combinaţie cu monitoarele clasice. De asemenea, intrările
Video-In şi Composite-In au fost prezente la anumite produse, ele fiind declarate VIVO,
dar şi preţul a crescut în consecinţă.
Un ultim aspect discutat aici este legat de dimensiunea memoriei. Unii
producători nu realizează sau nu vor să realizeze faptul că 256 MB de memorie la un
6600 GT este „frecţie la picior de lemn”. Sporul de viteză este foarte redus, rare fiind
cazurile în care performanţa creşte cu mai mult de 5% şi foarte multe cele în care ea nu
creşte deloc. Cei 128 MB suplimentari nu ar fi o problemă dacă preţul nu ar fi urcat de
acest aspect; cu alte cuvinte, pentru 5% de performanţă în 1% din cazuri se pot plăti în
plus câteva zeci de dolari.
5.2.2. Latenţe
Memoria DRAM are nişte principii de funcţionare bine definite. Informaţia nu
este citită/scrisă pur şi simplu, ca şi cum un om ar citi o carte sau ar scrie un text pe o
foaie de hârtie. Există anumiţi timpi de aşteptare între diversele operaţii pe care
memoria va trebui să-i respecte, indiferent dacă etapa anterioară a fost sau nu
completată. Să presupunem că pe tot traseul Bucureşti - Ploieşti - Braşov - Cluj-Napoca
- Oradea se află câte o persoană care va porni către oraşul următor la ore prestabilite
pentru a-i înmâna celeilalte o scrisoare, întocmai ca o ştafetă. Există, însă, o diferenţă
importantă faţă de ştafeta clasică: indiferent când soseşte omul cu scrisoarea, cel care
preia ştafeta va trebui să plece la ora indicată. Dacă omul din Ploieşti ajunge în Braşov
la ora 8:01, iar indicaţiile spun că omul din Braşov trebuie să plece mai departe la 8 fix,
atunci scrisoarea va fi pierdută şi întreg lanţul se va distruge. Invers, dacă omul din
Ploieşti ajunge la Braşov la ora 7:59, minutul diferenţă este un „timp mort”, dar ştafeta
este predată.
La fel funcţionează şi memoria. Dacă etapa X nu este îndeplinită în timpul
predefinit (măsurabil în cicluri de tact), informaţia pe care etapa Y trebuie să o preia va
fi distrusă. În cazul memoriei sistemului, un singur bit omis va compromite, cel mai
probabil, stabilitatea sistemului, apărând ecrane albastre sau resetări. În cazul memoriei
plăcii grafice, problema se va manifesta prin apariţia artefactelor. Cum ciclurile de tact
2
http://www.guru3d.com/index.php?page=rivatuner
3
http://www.techpowerup.com/downloads/Tweaking/ATITool
4
artefacte = Imagine falsă apărută în preparatele histologice produsă artificial sau datorită unor defecte de
fixare ori de colorare. 2. (Cib.) Semnal parazit supus unei informaţii, în semnificaţia căreia joacă un rol
nul sau negativ.
88
Cap 5: Evaluarea plăcilor grafice
sunt mai lungi la frecvenţe mai mici (frecvenţa însăşi reprezintă numărul de cicluri de
tact ce au loc într-o secundă, deci 1 GHz înseamnă un miliard de cicluri pe secundă),
este evident faptul că latenţe mai mari înseamnă şanse mai mari de preluare corectă a
ştafetei, şi deci de o imagine clară, fără probleme.
Optimizarea latenţelor memoriei înseamnă reducerea la minim a acelor „timpi
morţi”. În cazul ideal, exact în momentul în care operaţia X este completată, operaţia Y
îşi începe activitatea. Practic, producătorii lasă o marjă de eroare, introducând aceşti
timpi suplimentari tocmai pentru că plăcile diferă de la exemplar la exemplar şi este
posibil ca o memorie să fie mai „sprintenă” decât alta din cauze de natură electrică; prin
setarea aceloraşi latenţe, toate memoriile vor avea aceeaşi performanţă, indiferent de
viteza lor internă. Însă prin intervenţia utilizatorului, latenţele pot fi reduse la minimul
acceptabil, la fel cum frecvenţele pot fi crescute (prin overclocking) la maximul posibil.
Reglarea latenţelor unei plăci grafice nu este o operaţie
atât de facilă ca în cazul setării memoriei sistemului. Aici nu
există un BIOS Setup, în care se intră cu tasta Del şi se setează
tot ce se poate seta. Aici avem doar mijloace rudimentare,
precum editorul de BIOS NiBiTor şi utilitarul de setare a
latenţelor nTimings. În lipsa unei documentaţii oficiale în acest
sens, programele de acest tip sunt realizate empiric de către amatori, având numeroase
necunoscute. Totuşi, este foarte probabil să ne putem face treaba cu ele. Astfel,
nTimings poate seta latenţele în timp real şi astfel putem evalua stabilitatea imediat,
folosind funcţia de detecţie a artefactelor din ATITool. După ce am stabilit aceste
latenţe, este bine să rulăm câteva jocuri sau teste 3D (precum 3DMark), pentru a
verifica suplimentar stabilitatea memoriei, mai exact lipsa artefactelor. Rezultatul final?
Performanţa va creşte cu câteva procente preţioase.
Dacă utilitarul RivaTuner este instalat în directorul C:Program
Files&$92;RivaTuner (şi nu altundeva!), prin acţionarea butonului Show GPU registers
vom vizualiza latenţele curente. Avem trei rubrici, fiecare conţinând opt numere. Pentru
toate plăcile testate (şi dotate cu memorii GDDR Samsung de 1.6 sau 2 ns), latenţele
implicite au fost 060F1B15 - 09010509 - 20250407. Pentru a nu intra în detalii,
încercaţi mai întâi să reduceţi latenţa 6 din primul grup la 5 sau chiar 4 (contează mult la
performanţă); 0F poate fi adus fără probleme la 00, iar ultimele două, 1B şi 15, ar putea
fi reduse la 13 cu 10, eventual chiar mai puţin (toate cele trei setări afectează extrem de
puţin performanţa). Din grupul al doilea, numărul 1 poate fi redus la 0, iar prima apariţie
a lui 9 poate fi scăzută (cu mari riscuri de artefacte) la 8. Din ultima categorie, 202
poate fi transformat sigur în 000 (deşi latenţele sunt complet nedocumentate şi nu par să
afecteze viteza în vreun fel), iar 5, 4 şi 7 ar putea fi aduse la 4, 3 şi respectiv 6 (cu
menţiunea că acel 7 transformat în 6 afectează mult performanţa, dar setarea sa este
dificilă). Încercaţi să editaţi cifrele direct pentru că programul este foarte primitiv şi
deţine un bug la acţionarea butoanelor.
Latenţele ideale le puteţi descoperi singuri. Pentru alte plăci decât cele cu
memorii de acest tip, este foarte probabil ca latenţele să fie altele şi placa să se comporte
diferit la scăderea lor.
Dacă aţi obţinut o configuraţie a latenţelor, este necesară rescrierea BIOS-ului
plăcii grafice pentru ca setările să devină permanente. Operaţia este lipsită de riscuri
(durează 10-15 secunde şi, afară de cazul în care curentul se întrerupe în acel moment,
nu aveţi de ce să vă temeţi). Va trebui să creaţi o dischetă de boot, împreună cu utilitarul
89
Evaluarea performanţelor sistemelor de calcul
nvflash5 (NVIDIA Firmware Update Utility), urmând a executa de pe dischetă comanda
nvflash --save bios.rom, creându-se astfel un fişier care va conţine BIOS-ul original al
plăcii. Copiaţi fişierul pe hard disk sau chiar pe un CD (o dischetă se poate defecta
foarte uşor) - el este vital pentru revenirea la situaţia iniţială în caz de nevoie. Boot-aţi
apoi în Windows şi deschideţi fişierul cu NiBiTor. În tab-ul Timings, veţi căuta latenţele
originale (060F...), în cazul nostru fiind găsite la categoria Timingset 7. Reglaţi-le după
cum doriţi, salvaţi fişierul (să zicem bios_nou.rom) înapoi pe dischetă şi boot-aţi de pe
ea, urmând să rescrieţi BIOS-ul dând comanda nvflash bios_nou.rom. Dacă programul
refuză scrierea, încercaţi comanda nvflash -4 -5 -6 bios_nou.rom.
Tot cu NiBiTor se poate regla frecvenţele de funcţionare. Ele pot fi setate şi din
drivere sau din RivaTuner (cu aplicare directă la pornirea sistemului de operare), însă
dacă le scrieţi în BIOS, ele devin permanente şi independente de software. Cum orice
placă din generaţia GeForce FX sau GeForce 6 deţine două frecvenţe de funcţionare,
una pentru modul 2D şi alta pentru cel 3D, valorile care interesează sunt ultimele, deci
alegeţi opţiunea corectă.
Nu uitaţi, la frecvenţe mai mari se pot seta latenţe mai puţin mici, aşadar mai
întâi stabiliţi frecvenţa maximă de overclocking şi abia apoi treceţi la capitolul latenţe.
Dacă veţi considera că după overclocking placa este prea fierbinte, umblaţi doar la
frecvenţe, pentru că reducerea latenţelor nu afectează în nici un fel temperatura plăcii.
Observaţie: anumite plăci deţin BIOS-uri incompatibile cu NiBiTor - cel puţin
cu versiunea 2.1. Cauza este aceeaşi lipsă de documentaţie, utilitarul fiind creat prin
metode empirice. Astfel, una dintre plăcile testate a avut înscrise frecvenţele de 65536 şi
255 MHz. Nu încercaţi să modificaţi aceste valori pentru că
riscaţi să „defectaţi” BIOS-ul.
Rescrierea unui BIOS scris greşit se face simplu dacă
aveţi o placă grafică PCI la îndemână: setaţi în BIOS-ul plăcii
de bază ca pornirea să se facă utilizând placa PCI (opţiunea va
fi Init Display First sau ceva asemănător). Apoi inseraţi în
sistem ambele plăci (cea PCI Express şi cea PCI) şi boot-aţi de
pe discheta cu utilitarul de scriere a BIOS-ului. Acum puteţi
urma metoda clasică; programul nvflash va detecta faptul că în
sistem se află şi o placă PCI Express (cu BIOS defect) şi îi va
rescrie corect BIOS-ul.
Dacă aţi lucrat corect şi „curat”, nu veţi avea probleme.
Înainte de a vinde sau a returna placa la magazin (în cazul defectării), este bine să-i
rescrieţi BIOS-ul cu cel original. Cu toate acestea, XF nu poate fi făcut răspunzător
pentru defectarea sau pierderea garanţiei unei componentei hardware cauzată de
urmarea sfaturilor incluse în acest curs. Dacă nu aveţi cunoştinţele necesare efectuării
acestor modificări sensibile, consideraţi această secţiune a cursului pur informativă.
Toate plăcile au fost testate atât în condiţii normale (frecvenţe şi latenţe
implicite), cât şi după ce s-a crescut frecvenţele la maxim şi respectiv s-a scăzut
latenţele la minim.
Sistemul de test a fost constituit dintr-un procesor Athlon 64 3200+ Winchester,
o placă de bază Abit AN8 (nForce4), memoriile Corsair TwinX1024-4400C25PT fiind
setate în CL2 2-2-5 1T; software folosit: Windows XP SP2, ForceWare 71.84.
5
http://www.xf.ro/downloads/nvflas.rar
90
6. Evaluarea hard discurilor
6.1. Introducere
Hard discul sau discul dur este un dispozitiv non-volatil pentru stocarea
datelor. Stocarea se face pe o suprafaţă magnetică dispusă sub forma unor platane. În
general sunt utilizate ca suport de stocare extern principal pentru calculatoare personale,
dar şi pentru anumite aparate electronice (DVD Playere, MP3 playere). Dacă la
începuturi capacitatea unui hard disc nu depăşea 20 MO, astăzi, un hard disc obişnuit
poate depăşi 500 GO.
Fig. 5.2: Secţiune transversală prin suprafaţa magnetică în lucru. În acest caz datele binare sunt
codate folosind modulaţia în frecvenţă.
Fiecare platan (disc) are doua feţe şi este divizat într-un număr de piste, fiecare
pistă fiind divizată în sectoare. Platanele sunt astfel aranjate încât pista 0 de la platanul 1
91
Evaluarea performanţelor sistemelor de calcul
să fie exact deasupra pistei 0 de la platanul 2. Pentru a accesa o pistă oarecare pe unul
din platane, braţul care susţine capetele va muta capetele spre acea pistă. Deoarece
această metodă necesită doar un singur mecanism de poziţionare, simplifică design-ul şi
coboară preţul. Totuşi, pentru aceasta trebuiesc mutate toate capetele pentru a accesa o
singură pistă. Deci, pentru a citi date de pe pista 1 de pe platanul 1, apoi pista 50 pe
platanul 3 si apoi iar pe pista 1 de pe primul platan, întregul braţ cu capete trebuie mutat
de doua ori. Pentru a muta un braţ ca acesta trebuie un timp semnificativ comparativ cu
timpul de transfer. Pentru a minimiza acest lucru, trebuie prevenit ca datele sa fie
împrăştiate pe mai multe piste. O metodă de a optimiza timpul de acces este ca un grup
de date care sunt accesate secvenţial să fie scrise pe o singură pistă. Dacă datele nu
încap pe aceeasi pistă, atunci este optim să fie scrise pe aceeaşi pistă, dar pe un platan
diferit. Prin această metodă, braţul nu mai trebuie să execute mişcări. Doar capul de
citire şi scriere cel mai apropiat trebuie să fie selectat pentru a efectua operaţia de citire.
Selectarea capetelor este mult mai rapidă decât mişcarea fizică a braţului care susţine
capetele pentru a schimba pistele. Se mai foloseşte termenul de cilindru pentru a descrie
multiplele platane suprapuse. Un cilindru se referă la toate pistele care au acelaşi număr
de pistă, dar care sunt localizate pe diferite platane.
USB/Firewire(IEEE 1394)
Există şi discuri portabile care folosesc interfaţa USB sau Firewire pentru a
transmite datele. De obicei discurile acestea sunt ansambluri formate dintr-un disc IDE
sau SCSI, un controler pentru acestea şi un controler USB/Firewire.
6.3. Caracteristici
• Capacitatea (măsurată în gigaocteţi) - în general fabricanţii folosesc ca unitate de
măsură multiplii din SI ai octetului (putere de 10), pe când multe sisteme de
operare (Windows, unele distribuţii de Linux, MacOS folosesc măsurătoarea în
multiplii binari). Dacă primul hard disc avea 5 MO, astăzi capacităţile hard
discurilor pot depăşi 500 GO.
• Dimensiunea fizică, măsurată în ţoli (inch). Astăzi hard discurile au fie 3.5"
(pentru PC-uri), fie 2.5" (pentru laptopuri - mai mici, utilizând mai puţin curent
electric dar mai scumpe şi mai încete). Există şi discuri de 1.8", pentru playere
MP3 (precum Apple iPod), care pe lângă mărimea redusă, sunt mai rezistente la
şocuri.
• Durabilitate (exprimată în timp mediu între erori - MTBF). Discurile SATA 1.0
au viteze de 10.000 rpm şi un MTBF de 1 milion de ore sub un ciclu de utilizare
de opt ore. Alte discuri permit până la 1.4 milioane de ore sub un ciclu de 24 de
ore.
• Număr de operaţii de intrare ieşire permise
• Consum de curent
• Nivel de zgomot
• Timpi de transfer şi timpi de acces.
93
Evaluarea performanţelor sistemelor de calcul
6.3.1. Optimizarea timpilor de căutare
Ordinea optimă de executare a comenzilor primite de hard disc pentru a reduce
latenţele de căutare este ordinea care minimizează mişcarea mecanică.
O analogie destul de sugestivă ar fi un ascensor. Dacă toate opririle ar fi
executate în ordinea în care s-au apăsat butoanele, liftul ar funcţiona într-o manieră
foarte ineficientă şi ar pierde foarte mult timp pentru a circula între diferitele locaţii.
Oricât pare de incredibil, majoritatea hard discurilor existente pe piaţa de
desktop-uri în ziua de astăzi funcţionează în acest mod ineficient. Ascensoarele au
evoluat până la stadiul de a "înţelege" că reordonarea locaţiilor va avea ca efect un mod
de funcţionare mai economic şi mai rapid.
Odată cu apariţia modului de transfer Serial ATA, nu numai că este posibilă
reordonarea comenzilor dintr-un anumit punct de start, dar schema este dinamică.
Acest lucru se traduce prin faptul că la orice moment de timp pot fi adăugate la
coada de aşteptare a comenzilor (queue) cerinţe de execuţie adiţionale. Acestea pot fi
încorporate într-un thread în desfăşurare sau pot fi amânate pentru următoarea serie de
execuţie a comenzilor.
Traducând aceste lucruri în tehnologie HDD, reducerea mişcării mecanice într-
un drive poate fi realizată prin existenţa unei cozi de comenzi şi prin reordonarea
acestora pentru a oferi datele cerute într-o manieră eficientă.
Cât timp drive-ul execută o comandă, o nouă comandă poate intra în această
coadă de aşteptare, iar dacă ea va putea fi procesată cel mai eficient din punct de vedere
mecanic, atunci va fi următoarea comandă care va fi executată.
Totuşi, simpla reordonare a comenzilor bazată pe locaţia de destinaţie a capului
de citire/scriere deasupra platanului nu este cea mai eficientă soluţie. La fel ca în cazul
liftului, care nu se va opri brusc atunci când o persoană apasă butonul unui etaj pe lângă
care tocmai a trecut, HDD-urile vor folosi algoritmi complecşi pentru a determina cea
mai bună comandă pe care să o execute în continuare.
94
Cap 6: Evaluarea hard discurilor
Folosind tehnologia "out-of-order data delivery", în cel mai rău caz, transferul
va fi complet în maxim o rotaţie a platanului. Fără implementarea acestei funcţii, cel
mai rău "scenariu" implică un timp de o rotaţie, la care se adaugă durată de timp
necesară pentru a citi blocurile logice de date cerute.
95
Evaluarea performanţelor sistemelor de calcul
• First Party DMA - Native Command Queuing are un mecanism care îi permite
drive-ului să îşi configureze modul de operare DMA (Direct Memory Access)
pentru a transfera datele fără o intervenţie software din partea sistemului gazdă.
Acesta este mijlocul prin care drive-ul poate în mod efectiv să reordoneze
comenzile, din moment ce poate selecta buffer-ul de transmisie la propria
iniţiativă.
96
Cap 6: Evaluarea hard discurilor
Centrino de 15 inci pentru a găzdui hard discul, deoarece acesta este livrat deja cu
opţiuni speciale de securitate precum un cititor de amprente.
97
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 1
1.2 Introducere
Metodologia de testare este destul de complicată, astfel încât se va încerca
descrierea pe scurt a procesului de evaluare.
După cum probabil ştiţi există câteva segmente de piaţă, un anumit produs
adresându-se numai unuia dintre aceste segmente. S-a împărţit piaţa în patru categorii.
De obicei majoritatea companiilor media şi de cercetare împart piaţa în doar trei
segmente, dar noi am ales un model pe patru nivele (ca cel TCP/IP) deoarece este mai
uşor de testat în aceste condiţii.
Cele patru segmente sunt:
• segmentul inferior de piaţă. Perifericele şi componentele hardware pentru
computere care costa mai puţin de 600$. De obicei cel mai important aspect pe
această piaţă este preţul, dar trebuie luaţi în considerare toţi ceilalţi factori.
• segmentul de piaţă mediu. Perifericele şi componentele hardware pentru
computere care costă între 600$ şi 1500$. Majoritatea utilizatorilor cumpără
computere în acest segment de piaţă.
• segmentul superior de piaţă. Hardware şi periferice pentru computere care
costa mai mult de 1500$. Majoritatea firmelor mici utilizează servere şi
echipament de reţea din acest segment de piaţă. Cel mai bun exemplu: plăcile de
baza dual procesor care au preţul destul de ridicat şi oferă o performanţă la fel;
• Professional computer hardware - preţul nu contează, ci numai performanţa.
Din cadrul acestei categorii fac parte un număr limitat de produse, standarde de
firmă, servere pentru reţele de mare performanţă, etc. Acest segment de piaţă nu
va fi descris în acest seminar. Cel mai bun exemplu: Majoritatea serverelor rack
mountable. Chiar dacă acestea nu sunt foarte scumpe se adresează utilizatorilor
profesionişti.
1. Identificarea produsului.
• Identificarea produsului - Producătorul, modelul, versiunea, firmware, data
lansării pe piaţă, lotul. Este posibil să nu fie toate disponibile pentru toate
produsele. Obligatoriu
• Situaţia pe piaţă, identificarea pieţei. - segmentul ţintă, momentul în care
produsul a fost / va fi prezentat pe piaţă, oferta concurenţilor. Obligatoriu
• Prezentarea produsului. - Acest pas include verificarea ambalajului şi comentarii
despre campania de publicitate realizată de către compania producătoare.
• Documentaţia. - Unul din paşii principali. Vom analiza documentaţia din punctul
de vedere al unui amator şi din perspectiva unui inginer. De exemplu manualele
multor plăci de bază descriu instalarea în detaliu, dar nu descriu bine setările din
BIOS. Obligatoriu
• Layout-ul produsului. - Privim produsul cu atenţie şi descriem design-ul /
layout-ul. Acest pas este foarte important deoarece în majoritatea cazurilor
layout-ul influenţează paşii următori. Obligatoriu
• Calitatea componentelor. - Multe produse hardware sunt bine prezentate, dar
calitatea componentelor este mediocră. O atenţie deosebită trebuie acordată
părţii electronice / mecanice.
3. Caracteristicile produsului
• Caracteristicile promovate de marketing / Caracteristicile reale. Verificăm
caracteristicile promise ale produsului. Bineînţeles că majoritatea
99
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 1
caracteristicilor sunt deja cunoscute utilizatorilor. Verificam funcţionalitatea
caracteristicilor promise şi a celor reale. Obligatoriu
• Caracteristicile unice ale produsului. Există producători care oferă clienţilor
caracteristici unice pe piaţă. De exemplu Abit SoftMenu nu mai este o
caracteristica unică, ci o caracteristică promovată de departamentul de
marketing, din momentul ce există şi alţi producători care oferă caracteristici
comparabile. Obligatoriu
• Utilitatea caracteristicilor oferite. În decursul timpului am văzut o mulţime de
funcţii inutile la unele produse hardware ale unor producători cunoscuţi. De
exemplu funcţia numita "Voice Diagnostic" care este disponibilă la multe plăci
de bază şi care în acest moment este o funcţie absolut stupidă. Testând o
mulţime de plăci de bază cu această funcţie veţi constată că nu veţi înţelege nici
măcar un singur cuvânt din ce spunea vocea suava care anunţă o problema.
• Discutam despre îmbunătăţiri. Comparam cu caracteristicile oferite de către
concurenţă, poate există caracteristici a căror prezenţă ar fi de dorit, dar care nu
există la versiunea testată. Discutam despre ce ne-ar place să vedem la versiunile
viitoare ale produsului. Obligatoriu
• Capacitatea produsului de a se adapta la schimbări / Durata de viaţă. În general
MTBF-ul majorităţii produselor este mai mult decât suficient. Determinăm
intervalul de timp în care poţi utiliza produsul fără să apară schimbări
arhitecturale. Amintiţi-vă numai că plăcile de bază Slot nu mai pot fi utilizate în
acest moment. Este greu să prezici aceste schimbări, dar putem afla care sunt
planurile producătorilor. Obligatoriu
5. Performanţa
• Performanţa testată cu benchmark-urile care folosesc aplicaţii. Testele cu
benchmark-uri ca Ziff Davis Content Creation Winstone 2001, Bapco SysMark
2001. Obligatoriu
• Performanţa testată cu ajutorul benchmark-urilor sintetice. Unul dintre cele mai
respectate teste din aceasta categorie este SiSoft Sandra.
100
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 1
• Performanţa în aplicaţii. Aceste teste se bazează pe aplicaţii des folosite. De
obicei se măsoară timpul de care are nevoie un produs pentru a finaliza o serie
de comenzi.
• Comparaţia cu alte produse. Se compară produsul cu alte produse de pe piaţă şi
se determină poziţia acestuia pe piaţă. Obligatoriu
6. Părerea evaluatorului
• Opţiunile existente pe piaţă. Discutam şi comparăm respectiva placă de bază cu
alte plăci de bază de pe piaţă.
• Sfaturi care privesc achiziţionarea. Ce părere au specialiştii de IT despre
achiziţionarea unei astfel de plăci.
• Nota finală. Nota finală se bazează pe paşii anteriori. Este extrem de importantă
şi trebuie să discutam despre acest subiect în detaliu.
101
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 2
Suntem deja mai mult decât familiarizaţi cu procesoarele dual core pe care marii
producători de astfel de componente le-au lansat şi pe piaţa autohtona. Performanţa de
care aceste procesoare dau dovadă este de necontestat, mai mult decât atât, posibilitatea
de a avea multi procesor pe acelaşi cip integrat este o soluţie la care mulţi dintre noi se
gândeau să apeleze. Marele avantaj al acestei tehnologii este acela că în situaţiile în care
sunt rulate pe sistemul de operare mai multe aplicaţii odată, sarcinile sunt împărţite între
cele două nuclee ale procesorului.
102
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 2
privinţa memoriilor compatibile, acestea pot fi doar DDR II la frecvenţe de până la 800
MHz (valabil pentru chipset-urile 955X).
Pe lângă acestea, posibilitatea de a alege noile suporturi Serial ATA II reprezintă
un avantaj fantastic atât pentru soluţiile server, cât şi pentru aşa- numiţii power users,
cei în căutare de un computer foarte performant. La acestea se adaugă suportul RAID de
la matrice în configuraţie 0 până la 5 cu un transfer mediu de aproximativ 3 Gb/s.
Apropierea de conceptul digital home este realizată de integrarea unor plăci de sunet cu
opt canale, alternativă ce va permite să conectaţi un sistem de boxe 7,1 sau 5,1.
Platforma de test:
CPU: Intel Pentium 4 D 3 GHz
Memorie: 2x1024MB DDR II SDRAM Kingmax 533 MHz
Placa Video: Gigabyte Radeon X800 XL PCIe 256MB GDDR3
Hard disc: Western Digital JB 200 GB, 8 MB cache ATA100
Sursa de putere: Zalman 400 W
PC Mark 2005:
Noul software dezvoltat de cei de la Futuremark destinat evaluării întregului
sistem a ajutat foarte mult în aprecierea performantelor per ansamblu a platformei de
test. Setările cu care am pornit benchmark-ul au fost cele default, numărul de subteste
fiind maxim.
WinRAR 3.50:
S-a considerat că arhivarea de fişiere reprezintă un lucru destul de important la
ora actuală, luând în considerare faptul că noi toţi suntem în căutare de un transfer cât
mai rapid al fişierelor: fie pe mail, fie pe reţea sau inscripţionare pe CD/DVD. Arhiva s-
a constituit dintr-un folder iniţial cu dimensiunea de 100 MB şi un număr de 3.600 de
fişiere.
3D Mark 2005:
Performanţele video ale platformei au fost testată cu popularul 3D Mark 2005,
test ce a rulat pentru setările default: rezoluţie 1024x768@ 32bit, 4x Anisotropic filter şi
fără Full Scene Anti-Alasing.
103
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 2
SISoft Sandra 2005:
Test de referinţă în materie de performanţă a componentelor, SiSoft Sandra a
rulat doar pentru testul CPU Multimedia Benchmark. Programul ne oferă scoruri pentru
Testul de numere Integer (întregi) şi Floating point (calcule în virgulă mobilă).
104
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 2
Foxconn 955X7AA
Dacă punctarea la acest test ar fi fost dată doar de rezultatele în benchmark-uri,
cu siguranţă modelul 955X7AA de la Foxconn ar fi urcat vertiginos pe prima poziţie.
Cu toate că bus-ul maxim pentru placă este de doar 667 MHz, performanţele de care a
dat dovadă platforma ne fac să credem că la urmă materia primă - în speţă chipset-ul -
nu reprezintă totul. Cel mai mare scor în PC Mark 2005 şi, de asemenea, cel mai scăzut
timp la arhivarea datelor vă pot face să vă orientaţi pentru o astfel de placă de bază dacă
sunteţi o persoană care nu se gândeşte în primul rând la jocuri.
Gigabyte GA-8N-Sli
Cea de-a doua placă ce suportă modul Scalable Link Interface (SLI) s-a
comportat ceva mai bine la capitolul benchmark-uri sintetice, scorurile obţinute fiind
ceva mai ridicate decât la modelul SLI venit de la ASUS. Chiar dacă posibilitatea de
extindere la cea de-a doua placă grafică pe care aceste platforme o oferă este una
profitabilă din punct de vedere al performanţei, credem totuşi că sunt puţini cumpărători
de pe piaţa noastră care ar opta pentru o astfel de soluţie. Remarcabile rămân
performanţele plăcii de bază în ciuda suprasolicitării sale cu mai mult de o placa video.
ABIT AL8
Cunoscuţi mai ales datorită capacităţilor fantastice de overclocking, cei de la
ABIT nu au reuşit să impresioneze cu modelul AL8, acesta înregistrând scoruri
105
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 2
îngrijorător de scăzute la mai toate testele pe care le-a rulat. Dotată cu un chipset 945P,
potenţialii cumpărători se pot bucura de suportul DDR II, FSB 1066 MHz, placă audio
cu opt canale şi interfeţe S-ATA.
ASRock 775Dual-880Pro
Nu ştiu câţi dintre voi cunoaşteţi atât de bine brand-ul ASRock, însă dincolo de
performanţele precare pe care această placă a reuşit să le ofere, posibilitatea de a monta
la alegere un procesor AMD sau unul Intel pe această platformă, este de admirat.
(Procesorul AMD se motează cu ajutorul unei placi special concepute ce se conectează
lângă slotul PCIe x16.) Am rămas plăcut impresionat să observ că în anumite teste
775Dual-880Pro a reuşit să bată competitori cu un nume mai puternic.
2.5 Concluzii
Chiar dacă "era" procesoarelor dual core abia a început, producătorii de plăci de
bază nu au întârziat să-şi facă simţită prezenţa în toate segmentele de cumpărători.
Produsele prezentate în acest seminar au dat dovadă de performanţe ridicate, diferenţele
dintre acestea nefiind extraordinar de mari.
106
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 3
107
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 3
Şi comportamentul la overclocking diferă faţă de GPU. Dacă în cazul acestuia
din urmă, o frecvenţă prea mare duce de obicei la blocaje, o memorie va trece de regulă
mai întâi prin stadiul de a prezenta artefacte vizuale, vizibile atât în 2D cât mai ales în
3D, care culminează, într-adevăr, cu blocaje. Însă putem considera că un singur bit scris
incorect în memoria plăcii, ce generează astfel un pixel de o culoare incorectă,
reprezintă o malfuncţionalitate. Utilitarul Artifact Tester1 este destinat detectării acestor
artefacte, însă are dezavantajul de a rula în mod 2D, deci nu utilizează nici funcţiile 3D
ale chip-ului grafic, nici întreaga memorie video. În schimb, ATITool2 oferă informaţii
mult mai precise legate de prezenţa artefactelor, testul inclus fiind unul foarte riguros şi
relevant.
Un set de radiatoare lipite pe memorii poate
duce la scăderea temperaturii şi, cel puţin teoretic, la un
potenţial de overclocking mai ridicat. Pe lângă acest
factor, dacă aveţi în minte overclocking-ul la
achiziţionarea unei plăci, ar fi bine să vă interesaţi asupra timpului de acces al memoriei
folosite, informaţie ce ar trebui să apară în ofertă sau în specificaţiile produsului. Chiar
şi fără această informaţie, în cazul în care memoriile nu sunt acoperite, de obicei aveţi
posibilitatea să descifraţi timpul de acces. În imaginea de alături este reprezentat un
astfel chip de memorie, iar din caracterele înscrise pe el se poate citi la urmă valoarea de
3.6 ns, ce corespunde unei frecvenţe de aproximativ 275 MHz (550 MHz DDR).
Formula de calcul este simplă: 1000/timp de acces=frecvenţă, eventual înmulţită 2
pentru că a afla valoarea efectivă, nu reală. Aşadar, un GeForce FX5500 sau un Radeon
9500 ar corespunde cel mai bine frecvenţei, însă dacă această memorie este prezentă pe
un Radeon 9550 (cu frecvenţa implicită de 400 MHz), rezultă un produs cu un potenţial
de overclocking ridicat. Există şi situaţia contrarie, când o placă este dotată cu memorii
mai slabe decât ar trebui, fiind întâlnite de exemplu plăci GeForce4 MX440 cu memorii
de 6 (333 MHz) sau chiar 7 ns (286 MHz) în locul celor de 5 ns (400 MHz), rezultând
frecvenţe inferioare specificaţiilor. Inutil de menţionat că plăcile respective nu respectă
specificaţiile NVIDIA şi performanţa lor este mult redusă.
Nu trebuie uitat un aspect important: latenţele memoriilor. Ca şi în cazul
modulelor obişnuite de memorie, nu doar frecvenţa contează ci şi timing-urile. Avem o
serie întreagă de posibilităţi, ce includ atât setările clasice (CAS Latency, TRP, TRCD,
TRAS) cât şi altele mai puţin obişnuite. Utilitarele ATITool (pentru ATI), RaBiT3
(pentru ATI) şi NiBiTor4 (pentru NVIDIA) permit ajustarea acestora în mod real-time,
ultimele două chiar şi permanent, prin rescrierea BIOS-ului plăcii. Pot exista cazuri în
care o frecvenţe redusă combinată cu nişte latenţe mai mari oferă mai multă
performanţă decât situaţia contrarie. Cine are timp şi răbdare, poate testa combinaţia
optimă pentru placa sa. Trebuie ţinut cont că rescrierea BIOS-ului plăcii poate anula
garanţia acesteia, pe lângă riscurile de rigoare (de multe ori, nici scrierea unui BIOS
editat „ca la carte” nu garantează funcţionarea ulterioară a plăcii cu acel BIOS).
O situaţie mai rar întâlnită dar mult mai spectaculoasă o reprezintă setarea de
către producătorul plăcii a unor frecvenţe peste cele recomandate de producătorul
chipului. De exemplu, în loc de 250 MHz core şi 400 MHz memoria, Abit a setat
frecvenţele lui Radeon R9550 XTurbo-Guru la 300/500 MHz, oferind astfel un
1
http://www.xf.ro/downloads/ArtifactTester2.zip
2
http://www.techpowerup.com/atitool/
3
http://downloads.guru3d.com/download.php?det=872
4
http://www.mvktech.net/component/option,com_remository/Itemid,26/func,selectfolder/cat,92/
108
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 3
overclocking din start. Dar şi un produs standard poate atinge aceste frecvenţe, astfel că
se poate pune întrebarea: “Ce rost are să dau mai mulţi bani pe o placă overclock-ată din
fabrică dacă pot face acelaşi lucru şi singur?”. Răspunsul constă atât în garantarea de
către producător a frecvenţelor respective, cât şi înzestrarea plăcii (uneori) cu o răcire
mai bună şi/sau cu memorii mai rapide. În exemplul nostru, placa atinge frecvenţe de
peste 450 MHz pentru chip şi de peste 700 MHz în cazul memoriei, cele mai multe plăci
din aceeaşi familie eşuând.
De asemenea, unii fabricanţi reproiectează arhitectura
plăcii folosind un design propriu sau unul împrumutat de la
alte modele. De exemplu, plăcile Albatron GeForce4 Ti4200
din seria „Turbo” sunt construite pe baza design-ului plăcilor
Ti4400 şi Ti4600, pe 8 straturi faţă de 6, oferind cel puţin în
teorie un potenţial de overclocking mai ridicat.
109
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 3
3.3 Procedura de realizare a overclocking-ului
Este necesar cel puţin un utilitar care ori să activeze opţiunile existente în
drivere cu privire la acest aspect (dar ascunse din motive lesne de imaginat), ori să
realizeze el însuşi overclocking-ul. Pentru plăcile NVIDIA, ultimele drivere ForceWare
ne vin în ajutor, ele deţinând (după deblocarea opţiunii în cauză, de exemplu prin
intermediul lui NVTweak5) o funcţie de overclocking automat. Alte utilitare bune sunt
PowerStrip6 (ce are avantajul recunoaşterii unui număr foarte mare de plăci),
RivaTuner7, iar pentru plăcile ATI s-au impus RadLinker şi ATITool. O funcţie
deosebită a acestuia din urmă este posibilitatea testării apariţiei artefactelor în mod 3D,
pe lângă prezenţa funcţiei de overclocking automat. De asemenea, ATITool permite
setarea timing-urilor memoriei.
După ce ne-am hotărât asupra soft-ului, urmează să creştem cele două frecvenţe
progresiv, cu câte 5, 10 MHz sau chiar mai mult, după bunul plac. De remarcat că
memoriile plăcilor din ziua de azi sunt de obicei DDR, deci avem două frecvenţe, cea
reală şi cea efectivă - de două ori mai mare. La plăcile cu chip-uri NVIDIA, referirea se
face de obicei prin cea efectivă, la plăcile Radeon invers. Unele soft-uri de overclocking
nu permit decât o plajă de frecvenţe bine determinată. Uneori, ele pot fi păcălite pentru
a afişa mai mult, alteori nu, fiind vorba până la urmă de o protecţie - după cum bine
spunea cineva - „anti-prost”. Însă tendinţa este de a se elimina aceste limitări; de
exemplu, RadLinker nu manifestă deloc problema, singura limitare fiind cea hardware,
dar ea este de obicei de ordinul miilor de MHz, de departe imposibil de atins în practică.
Impedimente posibile:
În primul rând, unele plăci ATI sunt protejate la overclocking. Mai exact, plăcile
cu chip-uri precum Radeon 9000, 9200, 9500, 9550, 9600 sau 9700 nu permit realizarea
overclocking-ului, driverele blocând această practică. Motivele sunt evidente: chip-urile
enumerate au un potenţial de overclocking foarte ridicat, fiind variantele cele mai lente
din serie şi producătorul canadian s-a temut că acest lucru ar putea afecta vânzările
suratelor mai rapide (de obicei marcate cu sufixul Pro).
Soluţii există din plin. Cea mai „hardcore” este rescrierea BIOS-ului cu unul
modificat special în acest sens. Cea mai normală dar mai sigură este folosirea unor
drivere modificate (precum sunt cele Omega sau cele soft-modded8, care nu diferă de
cele originale decât prin absenţa protecţiei sus-amintite). De asemenea, sunt disponibile
patch-uri anti-protecţie, precum cel livrat de RivaTuner sau cel inclus în ATITool.
RivaTuner permite două metode, una presupunând modificarea driverelor (ceea ce
presupune recunoaşterea de către utilitar a driverului - cele mai noi versiuni de Catalyst
5
http://downloads.guru3d.com/download.php?det=911
6
http://www.entechtaiwan.net/util/ps.shtm
7
http://www.guru3d.com/index.php?page=rivatuner
8
http://www.techpowerup.com/softmod/downloads.php
110
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 3
s-ar putea să nu fie recunoscute), iar cealaltă modificând o locaţie de memorie în care
este stocată informaţia despre protecţie. ATITool deţine şi el o funcţie în acest sens, aşa
cum se poate vedea în imagine.
111
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 3
3.4 Când şi cum apar artefactele?
În domeniul
overclocking-ului, totul trebuie
în primul rând gândit. E drept,
nu totul este logic (cel puţin
conform standardelor noastre ale
logicii), de aceea pe lângă a
gândi trebuie să existe şi a
experimenta. Pe cât posibil fără
acţiuni ireversibile, care să ne
golească buzunarele sau să ne
pună în valoare talentul de
convingere a vânzătorului că „nu
eu sunt de vină!!!”.
Artefactele sunt elemente
parazite de imagine, care o
deteriorează progresiv odată cu
creşterea frecvenţei sau (în mai mică măsură) a temperaturii. Practic, este vorba de
„rateuri” ale unor operaţii, similare celor petrecute în cazul procesorului sau a memoriei
sistemului. Dacă în cazul memoriei de sistem un bit greşit transformă (de cele mai multe
ori) o instrucţiune în alta, urmând o avalanşă de rezultate false care culminează rapid cu
blocări, memoria video nu reţine instrucţiuni ci informaţii grafice (de exemplu culorile
pixelilor).
Memoria grafică este scrisă atunci când este nevoie. În caz contrar, ea păstrează
informaţiile scrise anterior în aceasta. E drept că memoria, ca orice memorie de tip
DRAM, trebuie reîmprospătată periodic, dar practica a demonstrat că o operaţie de
scriere de informaţii noi într-o memorie care nu funcţionează corect produce mult mai
multe erori decât o operaţie de reîmprospătare a informaţiilor deja existente.
În imagine de mai jos avem o placă grafică a cărei memorie tocmai a fost supusă
unui overclocking dur, ea rulând în mod implicit la 200 MHz şi oferind un potenţial de
overclocking de 250 MHz. Ei bine, am setat 350 MHz, drept pentru care am fost
întâmpinaţi de efectele care să văd. Fereastra utilitarului ATITool am mişcat-o puternic,
memoria plăcii necesitând o rescriere repetată. Cu cât mişcam mai mult fereastra, cu
atât artefactele creşteau - e normal, o imagine coruptă e coruptă din nou şi din nou...
Cealaltă fereastră nu a fost clintită din loc, artefactele fiind astfel mult mai puţine.
Concluzia care trebuie trasă este că o primă verificare a rezultatului unui overclocking
este mişcarea puternică a unei ferestre.
O rezoluţie de 1024x768 de pixeli cu adâncimea de culoare de 32 de biţi ocupă 3
MB de memorie video, aceasta pentru că fiecare pixel al imaginii pe care o aveţi acum
în faţă trebuie stocat în memoria plăcii grafice. Cum avem 1024x768, adică 786432 de
pixeli, înmulţim această valoare cu numărul de bytes necesari pentru memorarea unui
pixel, adică 32/8=4 bytes, rezultând exact 3 MB. Acum, apelând la aceeaşi logică
intuitivă, putem să ne dăm seama că nu toată memoria unei plăci este la fel de rezistentă
la overclocking. Anumite chip-uri care o alcătuiesc pot fi mai sensibile sau numai
anumiţi tranzistori dintr-un chip pot ceda. De aceea, este clar că cei 3 MB pe care îi
privim în mod obişnuit nu pot garanta funcţionarea corectă a memoriei la o anumită
frecvenţă, oricât de mult am agita ferestrele. Aşadar, este cazul să creştem rezoluţia. Cea
mai mare valoare ce poată fi atinsă cu monitoarele obişnuite este de 2048x1536, acum
112
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 3
având ocupaţi 12 MB. Total insuficienţi, dar nu strică o încercare înainte de a trece la
pasul următor.
Atât Artifact Tester cât mai ales ATITool pot detecta erorile ce apar datorită
overclocking-ului. Însă nici un soft nu poate înlocui testele de ore sau zile petrecute în
compania jocurilor preferate, mai ales că respectivele utilitare folosesc o zonă mică de
memorie pe care o testează. Pentru a afla cât mai exact frecvenţa maximă de
funcţionare, trebuie să facem în aşa fel încât toată memoria, sau cea mai mare parte din
ea, să fie ocupată. Vom seta atât o rezoluţie mare cât şi o setare cât mai înaltă de FSAA.
Dacă placa este suficient de
lentă pentru a nu putea randa
jocuri sau teste noi, vom folosi
teste/jocuri mai vechi,
mergând până la a rula
3DMark 2000 sau Quake3 în
1600x1200 cu FSAA maxim
sau, dacă se poate, 2048x1536.
De asemenea, nivelul de
detalii al texturilor reglabil din
joc are un rol esenţial în
ocuparea unei cantităţi mai
mari de memorie video. Nu ne
rămâne decât să petrecem ceva
timp în jocuri sau, dacă avem
răbdare, cu ochii zgâiţi în
113
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 3
3DMark şi să căutăm artefacte. De cele mai multe ori, dacă după 10 minute de teste nu
am găsit nimic, este destul de probabil să nu găsim niciodată.
Încă un aspect important: deseori, la plăcile mai fierbinţi, dacă alegem o
frecvenţă mare la care avem probleme, după care o coborâm, e posibil să avem în acest
caz false probleme datorate inerţiei termice. Aşadar, va trebui să lăsăm placa la
frecvenţe mici pentru a se răci, eventual vom face o pauză de cafea şi ne vom uita la
telenovela preferată în timp ce calculatorul stă închis. Lucru valabil şi pentru
overclocking-ul GPU-ului. De asemenea, sunt cazuri în care un overclocking prea dur la
memorie duce la persistenţa artefactelor până la următorul restart, eventual până la
următoarea închidere/deschidere a sistemului. În cazuri extreme, apar şi blocaje.
Nu trebuie reacţionat nici în sens invers: o frecvenţă prea redusă (setată temporar
pentru răcire sau pentru că pur şi simplu nu avem nevoie de 3D şi ne dorim o placă rece)
poate genera artefacte, blocaje sau alte probleme. În general, o valoare minimă sigură
este cea de 150 MHz (300 MHz DDR), sub care pot apărea (în caz că stabilitatea se
menţine) scăderi de performanţă în lucrul 2D!
Să exemplificăm. Iată nişte artefacte uşoare (câţiva pixeli de pe cer coloraţi
eronat) obţinute cu aceeaşi memorie ca în testul anterior (200 MHz implicit, 250 MHz
maxim), setate la 310 MHz.
114
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 3
în care doar partea de sus a fost randată corect. Probabil nişte biţi „cheie” (în
funcţie de care se decidea randarea completă a scenei) au fost distruşi, rezultând aberaţia
în cauză. De subliniat că aceste imagini sunt nişte instantanee, următorul cadru fiind
afişat corect sau cu alte erori de imagine, memoria video refiind umplută cu informaţie
şi alţi biţi fiind înregistraţi greşit. Mergând până la capăt (prin setarea frecvenţei de 350
MHz), am obţinut un talmeş-balmeş total.
115
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 3
Nu trebuie omis faptul că anumite drivere cauzează în unele jocuri fenomene
asemănătoare cu artefactele, de cele mai multe ori fiind vorba de texturi ce par să
lipsească din locul în care ar trebui să se afle sau de iluminări incorecte. Uneori
problemele ţin de joc şi nu de driverul plăcii grafice, alteori chiar şi driverele plăcii de
bază joacă un rol. Iată cum arată textura podelei din Unreal Tournament pe unele plăci
ATI cu ultimele drivere Catalyst dacă jocul este setat să ruleze prin OpenGL.
Din alte unghiuri, ea este văzută corect, fără acele pete. Motivul este
incompatibilitatea dintre ultimele drivere şi un joc apărut cu mulţi ani în urmă, ce
foloseşte experimental modul OpenGL.
După cum am mai spus, atât GPU-ul cât şi memoria pot genera artefacte, aşadar
cum ne dăm seama cine e de vină? O primă regulă, la fel de empirică precum toate din
acest capitol, spune că în 99% din situaţii artefactele apar de la memorie, GPU-ul
generând în primul rând blocaje. Graţie lui VPU Recover, plăcile ATI beneficiază de
posibilitatea ca în momentul apariţiei unei erori să fie repuse frecvenţele implicite,
neexistând nici un blocaj complet. Aceasta în teorie. Şi în cazul plăcilor NVIDIA, de
multe ori apăsarea Ctrl+Alt+Del „dezgheaţă” core-ul plăcii, dând o şansă recuperării
sesiunii curente de Windows. Iată, totuşi, nişte artefacte generate de GPU.
116
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 3
117
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 4
4 Evaluarea display-urilor
4.1 Generalităţi
În plină eră a dezvoltării tehnologiei informaţiei, persoana care doreşte să "ţină
pasul" cu vremurile trebuie să se "echipeze" cu cel puţin un televizor, daca nu chiar un
computer şi o legătura la Internet.
Pe de altă parte, se spune că o imagine face cât o mie de cuvinte. Nimic mai
adevărat. Este dovedit faptul că informaţia se reţine cel mai bine atunci când o receptăm
vizual. Vom aborda în acest seminar noile tehnologii şi tendinţe ce se manifestă în
privinţa display-urilor, în domeniul tehnologiei informaţiei.
Nu ne vom referi la toate dispozitivele de afişare a informaţiilor existente peste
tot în jurul nostru, chiar dacă ştim sau nu să interpretăm ceea ce ne "spun" (afişajele
electro-mecanice de la autobuze care indică linia, display-urile încorporate în aparatura
medicală etc.).
Ne vom limita la categoria ecranelor de tip "flat panel", care vor revoluţiona în
viitorul deloc îndepărtat viaţa oamenilor.
Este destul de greu să oferim o definiţie riguroasă pentru display-urile de tip
"flat panel", dar nu cred că există vreo persoană care să nu fi văzut măcar o dată în viaţă
un astfel de ecran. Iniţial, acestea au fost proiectate pentru utilizarea în cadrul
laptopurilor, dar caracteristicile şi avantajele lor le-au propulsat în faţa ecranelor clasice
cu tub catodic (CRT - Cathode Ray Tube).
Ecranele de tip "flat panel" cuprind o varietate largă de tipuri constructive şi
tehnologice. Clasificându-le după tipul de refresh pe care îl necesită, avem:
Display-uri cu refresh continuu:
• LCD (Liquid Crystal Display)
• Plasma
• DLP (Digital Light Processing)
• LCOS (Liquid Crystal On Silicon)
• OLED (Organic Light-Emitting Diode)
• ED (Surface-conduction Electron-emitter Display)
• FED (Field Emission Display)
• NED (Nano-Emissive Display)
118
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 4
PLASMA
Un display cu plasmă este un ecran flat-panel în care lumina este creată de
particule fosforescente care sunt excitate de o descărcare de plasmă între două suprafeţe
plate de sticlă. Descărcarea gazoasă conţine un amestec total inofensiv de neon şi
xenon.
Totuşi, ce reprezintă aceasta "plasmă"? Elementul central dintr-o lumină
fluorescentă este plasma, un gaz alcătuit din ioni şi electroni care "plutesc" liber. În
condiţii normale, gazul este alcătuit în principal din particule neîncărcate cu vreo
sarcină. Dacă se aplică un curent electric prin această plasmă, particulele încărcate
negativ sunt atrase de partea încărcată pozitiv a plasmei şi invers. În această
învălmăşeală, particulele se ciocnesc în mod constant unele de altele, fapt ce determină
excitarea atomilor de gaz din plasmă. Astfel, se eliberează fotoni de energie în spaţiu,
luând naştere lumina fluorescentă.
Display-urile de acest tip au fost lansate pe piaţă pentru prima data în 1997 de
compania Pioneer şi au ajuns să fie preferate în momentul de faţă în cadrul televiziunii
de înaltă definiţie (HDTV).
Trebuie spus ca un display cu plasmă consumă la fel de mult curent electric ca şi
unul cu tub catodic, raportat la aceeaşi suprafaţă a ecranului. Deocamdată, însă, preţul
este destul de restrictiv, dar aşa cum se întâmplă în industria IT, progresul tehnologic
aduce cu sine şi reducerea preţurilor, astfel că este foarte posibil ca display-urile cu
plasmă să înlocuiască vechile ecrane cu tuburi catodice.
Oled
Un display OLED funcţionează pe baza principiului electroluminiscenţei.
Elementul de bază al unui afişaj OLED este luminoforul organic, care determină
aproape toţi parametrii pixelului de pe ecran. Nu vom intra în amănunte constructive.
Pe piaţa din România, ecranele OLED se întâlnesc în cazul unor MP3-playere (ex.:
Apple iPod, Philips) şi a unor modele de telefoane mobile (ex.: Samsung).
Dlp
Digital Light Processing este o tehnologie dezvoltată de compania Texas
Instruments, acesta fiind în continuare singurul producător al acestor ecrane. Un display
DLP se compune, în principal, dintr-o sursă de lumina albă, un cip DMD, o lentilă de
proiecţie şi ecranul propriu-zis.
Imaginea este creată de mici oglinzi microscopice dispuse într-o matrice pe un
cip din material semiconductor, cunoscut şi sub numele de Digital Micromirror Device
(DMD). Fiecare oglindă reprezintă un pixel din imaginea reconstituită. Oglinzile se pot
poziţiona în două feluri: atunci când sunt "oprite", ele sunt aliniate la orizontală şi
determină apariţia pixelilor negri pe ecran. Însă, când cineva porneşte sistemul, oglinzile
încep să se mişte înainte şi înapoi de câteva mii de ori pe secundă. Ele reflectă lumina
printr-o lentilă de proiecţie direct pe ecran. Cu cât o oglindă este mai mult pe poziţia de
"pornit", cu atât pixelul va fi mai luminos. Acesta este mecanismul de creare a nuanţelor
de gri.
Culoarea este adăugată prin intermediul unei "roti de culoare" (color wheel),
care este de fapt o roată transparentă cu segmente roşii, verzi şi albastre (RGB) care se
învârteşte. Lumina care trece prin fiecare secţiune îşi schimbă culoarea în mod
corespunzător. Procesorul sistemului sincronizează roata de culoare cu oglinzile.
Fiecare pixel de lumină de pe ecran este roşu, verde sau albastru la orice moment de
timp. Tehnologia se bazează pe capabilitatea ochiului uman de a amesteca culorile
pixelilor pentru a forma culoarea corespunzătoare imaginii. De exemplu, pentru un
119
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 4
galben, DMD va reflecta lumina de la segmentele roşii şi cele verzi ale roţii de culoare,
ignorând segmentul albastru. Astfel, un display DLP este capabil sa "creeze" 16
milioane de culori.
O bilă neagră pentru aceasta tehnologie este efectul de curcubeu, care apare
tocmai datorită mecanismului vizual de amestecare a culorilor. Desigur, intensitatea
acestuia variază de la om la om, pentru eliminarea lui folosindu-se roţi de culoare care
se rotesc cu viteze mai mari şi cu mai multe segmente colorate.
Trebuie spus că exista şi display-uri DLP care folosesc trei surse de lumină, colorate
fiecare în cate una dintre culorile de baza: R (rosu), G (verde) şi B (albastru). Se elimină
astfel roata de culori şi efectul de curcubeu şi se creste calitatea imaginii.
LCOS
Liquid Crystal on Silicon este o tehnologie "micro-display" aplicată în general în
cazul televizoarelor cu proiecţie. Este asemănătoare cu tehnologia reflectivă folosita în
cazul DLP şi foloseşte cristale lichide în locul oglinzilor individuale. Mişcarea
oglinzilor este înlocuită în acest caz cu starea de polarizare a cristalelor lichide. Acestea
îşi schimbă orientarea la aplicarea unui curent electric, permiţând reflectarea luminii sau
blocând-o.
Un microdispozitiv LCOS este alcătuit din mai multe straturi, dintre care unul
reflectiv şi, deasupra, un strat de cristale lichide.
Funcţionare: pe scurt, lumina albă emisă de sursă este trecută printr-o lentilă de
condensare care o focalizează şi o direcţionează spre un separator, care transformă raza
de lumină albă în trei raze corespunzătoare celor trei culori principale: roşu, verde şi
albastru. Apoi, aceste raze vin în contact cu cele trei microdispozitive LCOS. Lumina
reflectată de acestea este trecută printr-o prismă care combină cele trei culori, aceasta
direcţionând şi raza printr-o lentilă de proiecţie, care măreşte imaginea şi o afişează pe
ecran.
Câteva dintre dezavantajele acestor sisteme includ: - lipsa capabilităţii de
producere a culorii negre, ceea ce duce automat la un contrast scăzut, precum şi -
dimensiunile destul de mari în comparaţie cu ecranele LCD sau cele cu plasmă.
Totuşi, problema efectului de curcubeu din cazul DLP a fost rezolvată la display-urile
LCOS. Pe plan local, acest tip de display a început să pătrundă timid, producătorul
reprezentat în România cel mai bine fiind Canon.
SED
Surface-conduction Electron-emitter Display este o tehnologie de afişare "flat
panel" care foloseşte emiţători de electroni de conducţie superficială pentru fiecare
pixel. Aceştia emit electroni care excită un strat de fosfor de pe panoul de afişaj, acelaşi
principiu de bază prezent şi în cazul ecranelor cu tuburi catodice. Aceasta presupune că
display-urile SED vor combina aspectul şi dimensiunile ecranelor LCD cu ratele mari
de contrast, refresh-ul şi calitatea superioară a imaginii întâlnite la CRT-uri.
Toshiba şi Canon au anunţat un acord de colaborare având ca scop producţia în
scop comercial a display-urilor SED până la sfârşitul anului 2005, dar se pare că primele
ecrane SED vor fi disponibile totuşi din 2006.
FED
Field Emission Display este un tip de display "flat panel" care foloseşte straturi
de fosfor ca medii de emisie. Inventatorul acestei tehnologii este indianul Harjinder
Kamboja. Foarte similare cu CRT-urile, FED-urile au însă doar câţiva milimetri
grosime, iar în locul folosirii unui singur tun de electroni, ele utilizează o reţea de
120
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 4
vârfuri metalice fine, denumite şi nanotuburi de carbon, care sunt cele mai eficiente
emiţătoare de electroni cunoscute vreodată).
NED
Nano-Emissive Display are la bază tot principiul tubului catodic. Prototipul
testat public de Motorola în 2005 este un tub catodic subţire şi plat cu mii de tunuri de
electroni la fiecare pixel. Prototipul poate reda toate culorile spectrului, are o
luminozitate puternică şi se încadrează cu uniformitatea şi puritatea culorilor în
standardele unui produs comercial.
Punctul cheie este abilitatea celor de la Motorola de a "produce" nanotuburi de
carbon direct pe substratul de sticlă al ecranului. În trecut, aceste nanotuburi erau lipite
sau imprimate pe o suprafaţă, dar calitatea afişajului era dezamăgitoare.
Hârtia electronică
Fără îndoială, aceasta este cea mai spectaculoasă tehnologie care a apărut în
ultimii ani şi care este, în momentul de faţă, disponibilă pe piaţă. Cine s-ar fi gândit
acum mulţi ani că vom putea folosi hârtia ca un ecran?
Ei bine, prima încercare datează încă din anii '70 şi a fost realizată de specialiştii
de la centrul de cercetare Xerox din Palo Alto. În anii '90 şi alte companii au îmbrăţişat
aceasta tehnologie, dezvoltând-o pentru scopurile proprii. Sony a anunţat de curând
disponibilitatea pe piaţa a modelului Sony Reader, un succesor al lui LIBRIe, care
foloseşte tehnologie de hârtie electronică dezvoltată de Philips.
Cerneala electronică (cunoscută şi sub denumirea de e-ink, hârtie electronică sau
e-paper) este o tehnologie de afişare proiectată să "imite" cerneala obişnuita pe hârtie.
Spre deosebire de ecranele "flat panel" care folosesc o sursă de lumină pentru a ilumina
pixelii, hârtia electronică reflectă lumina ca o hârtie obişnuita şi este capabilă să
stocheze text şi imagini un timp indefinit fără să consume electricitate sau să folosească
putere de procesare. Acestea sunt necesare doar pentru a schimba sau a şterge imaginea.
Hârtia electronică este, de asemenea, mai uşoară, mai durabilă şi mult mai
flexibilă decât alte tehnologii de afişare. Şi datorită faptului că reflectă lumina, ea poate
fi citită din orice unghi.
Aplicaţiile în care se va dovedi cu siguranţă utilă includ cărţile electronice,
capabile să stocheze versiuni digitale ale multor opere, cu o singură carte afişată pe
pagini la un moment dat. Posterele electronice şi materialele publicitare în magazine şi
pe drumuri au fost deja demonstrate.
Avantajele ecranelor flat-panel fata de cele cu tub catodic:
• dimensiuni mai mici;
• luminozitate mai bună;
• forma plată a ecranului ce elimină distorsiunile (deşi există şi ecrane CRT plate);
• consum redus de energie.
121
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 4
• nu este necesară o iluminare din spate a ecranului, elementele OLED generând
ele însele lumina;
• fabricarea ecranelor OLED este mai uşoară, chiar şi în mărimi mari;
• unghiuri de vizualizare foarte bune, de aproximativ 170 de grade.
DEZAVANTAJE:
• durata de viata a elementelor albastre OLED este în acest moment de numai
1.000 de ore, ceea ce este mult prea puţin pentru cerinţele actuale;
• procesul de fabricaţie este încă destul de costisitor;
• apa constituie un pericol pentru ecranele OLED, pentru că le afectează
funcţionalitatea.
DEZAVANTAJE:
• efectul de curcubeu;
• grosime mai mare decât în cazul LCD sau a ecranelor cu plasmă;
• zgomotul ventilatorului de răcire.
122
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 4
Datorită costului imens al fabricilor TFT, numărul producătorilor de astfel de
ecrane nu este prea mare.
Toate tipurile de monitoare TFT moderne sunt "lăudate" cu parametri foarte
buni, însă metodele de măsurare permit producătorilor să-şi prezinte produsul în cea mai
bună lumină. Numeroasele convenţii şi simplificări introduse în procesul de evaluare au
un rol crucial de multe ori.
După cum vom observa, concluzia testelor este clară - nu există un monitor LCD
"all-purpose" (care poate fi folosit cu succes în orice împrejurare).
În timp ce monitoarele CRT de înaltă calitate pot fi utilizate pentru jocuri,
aplicaţii office şi procesare de imagini, display-urile LCD sunt de obicei specializate pe
câte una dintre aplicaţiile enumerate.
123
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 4
Caracteristicile tehnice punctate au fost:
• timpul de răspuns al monitorului, care este definit ca fiind timpul de aprindere şi
de stingere al unui pixel de la negru la alb şi înapoi la negru. Acest timp este
foarte important, el determinând în mare măsura comportarea monitorului în
diverse aplicaţii;
• rata de contrast a monitorului - exprimă în ce măsură un obiect poate fi distins
faţă de un alt obiect din fundal; cu cât contrastul este mai mare, cu atât imaginea
va fi mai clară
• luminozitatea fiecărui model de monitor - exprimă nivelul de lumină emis de
monitor şi influenţează, de asemenea, calitatea imaginii;
• unghiul de vizualizare - cu cât se apropie de valoarea de 180 de grade, cu atât
este mai asemănător, din acest punct de vedere, cu monitoarele clasice CRT;
• certificarea internaţională - exprimă ce standarde de protecţie împotriva
radiaţiilor respectă fiecare monitor; s-au luat în calcul doar standardele TCO;
• conectivitatea - în ziua de astăzi, un simplu conector VGA analog (D-Sub) nu
este de ajuns pentru a profita din plin de capabilităţile de procesare a plăcii video
şi de calitatea imaginii ce poate fi afişată de monitor.
ERGONOMIA
În fine, acesta este un capitol din ce în ce mai important pentru unii utilizatori.
Notarea aspectelor care ţin de ergonomie s-a făcut după:
• posibilitatea ajustării ecranului în înălţime;
• posibilitatea pivotării ecranului (rotire la 90 de grade sau chiar mai mult);
• posibilitatea rotirii suportului, pentru a creşte gradul de confort al utilizatorului;
• dimensiuni şi greutate.
124
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 4
Pasionaţii de jocuri PC ar trebui să se uite în primul rând la monitoarele care au,
orientativ, următoarele caracteristici:
• timp de răspuns mic - cel mult 8 ms;
• rata de contrast mare - cel puţin 600:1;
• luminozitate mare - cel puţin 330 cd/m2;
• certificare internaţională cât mai bună - TCO 03.
În fine, pentru cei care lucrează mai mult cu aplicaţii office şi navighează pe
Internet, recomandăm monitoarele TFT cu:
• certificare internaţională cât mai bună - TCO 03;
• porturi USB încorporate (eventual), pentru un acces mai comod şi mai rapid la
diversele echipamente ce se pot conecta prin intermediul acestor porturi (camere
foto, video, telefoane mobile, stick-uri de memorie etc.;
• ergonomie bună - pivotarea la 90 de grade este foarte utilă mai ales în cazul
editoarelor de texte.
125
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 5
În ultima vreme, overclock-ul este o practică tot mai des întâlnită, unii zic că
deja a devenit un sport naţional, şi personal chiar cred acest lucru. Datorită acestui fapt,
mulţi utilizatori doresc să-şi overclockeze procesorul dar nu au suficiente cunoştinţe în
acest domeniu şi din acest motiv apar foarte des topic-uri de genul "Overclock, little
help?".
127
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 5
Ca să înţelegeţi cum să umblaţi cu latentele trebuie întâi să înţelegeţi ce sunt ele
de fapt. Pentru aceasta, haideţi să facem o analogie cu un concurs de atletism. Gândiţi-
vă la cursa cu ştafetă, acolo fiecare atlet trebuie să alerge o distanţă şi apoi să predea
ştafeta. Fiecare atlet aleargă distanţa într-un timp anume. Dacă unul aleargă într-un timp
mai lung decât de obicei, nu-i nici o problemă, ceilalţi aşteaptă după el, iar ştafeta
ajunge la destinaţie. În schimb dacă unui atlet i se impune să alerge distanţa mai repede
decât poate atunci el nu ajunge la succesorul său, acesta pleacă fără ştafetă şi tot
procesul se duce de râpă. Astfel se întâmplă şi la memorii, ele au nişte laţente stock.
Dacă setam unele mai mari, scade performanţa dar stabilitatea rămâne. Dacă setam
unele mai mici atunci s-ar putea să le suporte dacă sunt memorii bune, iar dacă nu le
suportă atunci se compromite stabilitatea şi sistemul fie dă Blue Screen, fie nu bootează
deloc. Sunt patru latenţe mai cunoscute, deci mai importante. Memoria este structurată
ca o matrice. Latenţele sunt:
• CAS (cL): această latenţă se referă la timpul necesar din momentul cererii unei
operaţii de citire şi până în momentul în care sunt trimise datele ;
• RAS-to-CAS (tRCD): această latenţă se referă la timpul care trece din
momentul în care un rând este activat şi până când este executată prima operaţie
de citire sau scriere ;
• RAS precharge (tRP): este timpul din momentul trimiterii unei comenzi
precharge pentru a închide un rând şi până în momentul în care următoarea
comandă activă poate fi executată;
• Active-to-precharge delay (tRAS): Această latenţă se întinde peste câţiva paşi
în activitatea memoriei. Aceasta se referă la numărul minim de cicluri de ceas
care trebuie să treacă de la o comandă activă până la una precharge.
Mai este şi Command Rate-ul. Acesta este timpul din momentul în care un chip
este selectat şi până în momentul în care se poate executa prima comanda activă.
Cred că este clar, că cu cât sunt latentele mai mici cu atât performanţa memoriei
este mai mare. La memoriile DDR latenţele obişnuite întâlnite la cele mai multe module
de memorii sunt 2.5-3-3-6 sau 2.5-3-3-8 şi command rate de 2. Cifrele sunt în ordinea
aceasta: CAS, RAS-to-CAS, RAS precharge, Active-to-precharge. Ele nu reprezintă
unităţi de timp (nanosecunde sau ceva de genul) ci cicluri de ceas. Memoriile cele mai
de calitate de tip DDR pot funcţiona chiar şi la 2-2-2-5 şi command rate de 1. Memoriile
DDR2 au latenţe mai mari de genul 5-5-5-12; 4-4-4-10 etc.
128
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 5
este prin modificarea latenţelor. Ele trebuiesc mărite pentru a stabiliza memoriile la
frecvenţe mărite. Ideal este să avem frecvenţa cât de mare la memorii şi latente cât de
mici, aici intervin memoriile de calitate, făcute pentru overclock (ele de altfel
"overclockează" şi portofelul, deoarece îi determină o viteză de golire mult peste cea
stock laughing care suportă frecvenţe mari cu latenţe mici.
5.4 Voltajele
În primul rând, dacă aveţi de gând să supravoltaţi, nu lăsaţi voltajele pe auto
deoarece placa de bază creşte prea mult voltajul la procesor în funcţie de FSB-ul setat, şi
acest lucru va duce la o uzură prea mare a procesorului. Povestea cu voltajele este
similară ca şi la AMD. Singura diferenţă este că dacă overclock-aţi un Pentium Prescott,
el se vă încălzi foarte tare la ridicarea voltajelor şi îi va creşte mult consumul de curent.
Dacă aveţi un Northwood atunci fiţi foarte atent la SNDS. SNDS înseamnă de fapt
"Sudden Northwood Death Sindrome" şi apare atunci când voltajul este ridicat peste
1.75V. El constă în moartea foarte prematură a procesorului spre deosebire de alte
procesoare supravoltate. Practic procesorul va deveni din ce în ce mai instabil, până
când într-o zi brusc nu va mai funcţiona. Explicaţia acestui "sindrom" este în fenomenul
fizic de migraţie a electronilor care degradează în timp traseele electronice din nucleul
procesorului. Acest fenomen este amplificat şi de temperaturi ridicate (De-aia nu-i bine
să se încingă prea tare procesorul), şi este prezent la toate procesoarele dar la
Northwood se pare că este mai accentuat.
În primul rând când se supravoltează o componentă, este recomandat să nu se
depăşească cu 10% voltajul stock.
Să luăm de ex procesorul Intel Pentium D805 care are frecvenţa stock de
2,66Ghz, FSB de 533Mhz (133 real) şi multiplicator de 20x. Iniţial vom urca în paşi
mici cu FSB-ul până la 160Mhz (640 efectivi) obţinând o frecventa de 3200Mhz. Până
aici este stabil la voltaj stock (1.24V conform cpu-z).
Dacă îi dăm pana la 1.30V urcă până la 3800Mhz, iară dacă suntem duri şi ăi
băgăm în el 1.4V trece de 4Ghz dar cu un coolerul box nu prea stă mult la frecvenţa asta
şi imediat intră în Throttling şi pierde stabilitatea pentru că temperatura ajunge la 80 de
grade în full load. Pentru cei care nu ştiu Throttling-ul este tehnologia de protecţie a
procesoarelor Intel împotriva supraîncălzirii. La început ea începe să introducă cicluri
IDLE printre ciclurile de ceas ale procesorului, acest lucru urmărind să-i scadă
temperatura. Dacă ciclurile idle nu scad temperatura suficient, throtlingul ia măsuri mai
drastice şi îi scade multiplicatorul scăzând-ui astfel frecvenţa de lucru şi astfel scăzând
şi mai mult temperatura până când aceasta coboară sub limită. Cred că este evident că
odată intrat în Throttling procesorul va avea penalizări de performanţă. La procesorul
dat ca exemplu, observam că câştigăm destul de mulţi mhz, în plus prin supravoltare dar
acesta este doar un procesor, altele se comporta diferit la supravoltare, unele s-ar putea
să nu urce mai mult de vreo 200mhz oricât voltaj i s-ar da, de fapt două procesoare
identice nu se overclockează la fel.
Supravoltarea uzează mai puternic procesorul decât simpla supratactare astfel că
trebuie folosită cu grijă, şi să urmăriţi tot timpul să folosiţi voltajul minim necesar
pentru stabilitate. De ex dacă îi daţi 1.4V, dar el este stabil şi la 1.3V atunci lăsaţi-l la
1.3V.
Tot timpul când supravoltati FITI CU OCHII PE TEMPERATURI. La Pentium
4 şi la Pentium D să nu depăşească 50° în idle şi 60° în full, iar la core 2 duo să nu
129
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 5
treacă de 55° cel mult în full şi să stea în jur de 40÷42° în idle. Dacă ele depăşesc aceste
limite va trebui fie să vă cumpăraţi un cooler mai performant, fie să îmbunătăţiţi
ventilaţia în carcasa dacă aceasta lasă de dorit (ideal este un ventilator jos în faţă care
bagă aer şi unu sus în spate care scoate. Se mai pot pune ventilatoare şi pe capacul
lateral sau în partea de sus a carcasei-"blow-hole").
La memorii se aplică cam acelaşi principiu, dar şi acolo unele s-ar putea să urce
mult dacă le mărim voltajul şi altele s-ar putea să nu urce aproape de loc mai mult chiar
dacă le îndopăm cu voltaj.
Dacă aţi făcut overclock şi sistemul nu este stabil, dar din anumite motive ştiţi că
memoriile şi procesorul ar putea mai mult (de ex dacă le testaţi cu o altă placă de baza şi
cu aia merg mai mult) limitarea vine din placa de bază, mai exact din cipset. Multe plăci
de bază oferă opţiunea de a mari şi voltajul pe cipset, şi din nou se aplică cam acelaşi
principiu ca şi la procesor.
130
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 5
stabilitate. Când urcăm FSB-ul, va urca şi NBCC-ul dar latenţa va rămâne la fel,
devenind la un moment dat prea mică, iar NBCC-ul fiind mare, va rezulta instabilitate.
Sunt 2 moduri de a rezolva această problemă. Fie mărim FSB-ul până ajungem
să declanşăm următorul strap (strap-ul de 1066) şi astfel se va mări latenţa şi NB-ul se
va stabiliza, sau dacă procesorul nu duce FSB-ul mărit atunci vom supravolta NB-ul
pentru a-l stabiliza. Ziceam mai sus că mărind FSB-ul de la 800 în sus la un moment dat
ieşim din strap-ul de 800 şi intram în strap-ul de 1066Mhz. Intrarea în strap-ul de 1066
nu înseamnă că suntem cu FSB-ul la 1066Mhz, ci mai jos. De-aia ziceam mai sus ca
diferă NBCC-urile la care se schimbă strap-ul în funcţie de placa de bază.
Să luam un exemplu concret că e mai uşor aşa (valorile sunt luate la întâmplare,
deci nu ştiu la ce placă de bază sunt valabile(poate la nici una)).
Pornim de la 800Mhz FSB deci ne aflam în strap-ul de 800Mhz. Să zicem că în
momentul când trecem de 950 de Mhz NB-ul trece în strap-ul de 1066 (cum ziceam mai
sus, valoarea declanşatoare este mai mică). Asta înseamnă că valoarea de 949Mhz este
încă în strap-ul de 800Mhz deci este mai instabilă decât 950Mhz care este deja în strap-
ul de 1066Mhz. Asta se întâmplă deoarece 949 este o valoare mare pentru latenţa strap-
ului de 800Mhz, însă latenţa strap-ului de 1066 este bună pentru valoarea de 950 şi deci
NB-ul este mai stabil.
Mai trebuie ştiut că fiecare strap vine cu raporturile lui pentru frecvenţa
memoriei. Adică:
• pentru strapul 800 avem următoarele frecvenţe pentru memorie cu raporturile
corespondente fiecăreia:
• pentru strapul de 1066 avem aceleaşi valori de 400, 533, 667 şi 800 dar
rapoartele sunt altele:
La unele plăci putem găsi opţiunea pentru de ex 889 la memorie. Acest lucru se
face prin modificarea forţată a strap-ului în care ne aflăm.
131
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 6
1
http://www.roclockers.net/monitorizare/cpu-z-1.40.html
2
http://www.roclockers.net/monitorizare/everest-ultimate-edition-4.00.html
3
http://www.roclockers.net/monitorizare/speedfan-4.32.html
132
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 6
4) Se salvează setările, se reporneşte sistemul şi se rulează un test din cele de
mai sus, de preferat 3D Mark 2001 şi/sau un joc pretenţios. Ce s-ar putea întâmpla dacă
ceva nu e bine sau când s-a ajuns prea departe:
• sistemul nu POSTează, adică nici nu bootează. În cazul ăsta probabil a crescut
prea mult frecvenţa. Soluţia este resetarea BIOS-ulului cu jumper-ul de clear
CMOS de pe placa de bază. Toate setările din BIOS vor reveni la default.
Sau se poate ţine apăsată tasta "1" în timp ce se apasă butonul de reset al PC-
ului. În acest caz BIOS-ul va reveni la setările de fabrică. Nu ştiu dacă la toate
plăcile de bază este valabilă această procedură, cel puţin pe o placă ABIT A8N-
32X, la fel şi pe un DFI NF4 ;
• calculatorul porneşte, dar nu intră în sistemul de operare. Aici iarăşi înseamnă că
s-a mers prea departe, dar se poate intra în BIOS pentru a efectua modificări.
• dacă porneşte sistemul de operare, dar se resetează sau apare un BSOD (ecran
albastru) iarăşi nu e bine şi trebuie modificate valorile prin BIOS.
5) Testele:
• Prime95: se lasă cel puţin o oră să ruleze testul "Blend". Recomandat: peste 4
ore.
• Memtest de Windows: cel puţin 100% cu maximul de capacitate. Recomandat:
peste 1000%.
• SuperPI: măcar 16M. Recomandat: două rulări ale testului 32M.
• 3D Mark 2001: un singur loop e OK. Recomandat: câteva ore de loop-uri
continue.
Pentru fiecare dintre teste se vor monitoriza temperaturile, inclusiv pe cele ale
plăcii video în caz că se rulează un test 3D. Temperatura memoriilor se măsoară
"degetometric". Dacă sunt calde/călduţe e OK. Dacă ard/frig încercaţi să le asiguraţi o
răcire, eventual cu un ventilator de 8 cm poziţionat deasupra.
133
Seminar Evaluarea performanţelor sistemelor de calcul Seminar 6
6.3 FSB la Athlon64
Poate că mulţi dintre voi ştiţi că un overclock se face ridicând fsb-ul. La
Athlon64 este puţin diferit pentru că odată cu integrarea controlerului de memorie în
procesor nu mai avem FSB ci avem 2 magistrale. Este un memory bus care conectează
memoriile de procesor şi un HyperTransport Bus care conectează procesorul de cipset
prin intermediul căreia se trimit comenzi la diverse componente ale sistemului.
Pentru a putea face un overclock bun la Athlon64 trebuie să înţelegem cum este
generată frecvenţa la aceste procesoare. Ele folosesc o frecvenţă de bază care este de
multe ori greşit numita ca FSB. Aceasta este de fapt frecvenţa HyperTransport sau i se
mai spune HT sau HTT. Ea este întotdeauna 200Mhz. Înmulţind această frecvenţă cu
multiplicatorul procesorului se obţine frecvenţa de lucru.
De exemplu un Athlon64 X2 5000+ merge la 2600Mhz. Ele are frecventa HT de
200Mhz şi multiplicatorul de 13. Deci pentru a overclocka un Athlon64 trebuie ridicată
frecventa HT (se poate face overclock şi din multiplicator dar acesta este de cele mai
multe ori blocat). Dar, şi celelalte frecvenţe de pe placa de bază derivă tot din frecvenţa
HTT. Frecvenţa efectivă a HyperTransport-ului este frecvenţa de baza multiplicată cu
multiplicatorul HTT. Multiplicatorul HTT este de regula 5x adică 5*200=1000Mhz (sau
2000Mhz sau 4GB/s). Modelele mai vechi de Athlon64 au htt-ul la 800Mhz deci cu
multiplicator de 4x. În momentul în care urcaţi frecventa de bază trebuie să aveţi grijă
că aceasta multiplicată cu multiplicatorul HTT să nu depăşească maximul permis. De ex
dacă urcaţi la 250mhz de la 200Mhz şi multiplicatorul HTT rămâne 5x va rezulta o
frecvenţă efectivă a HyperTransportului de 1250 deci peste maxim. Astfel că trebuie
coborât multiplicatorul HTT-ului ca să coboare şi frecvenţa sub limită. În cazul de faţă
setând un multplicator de 4x va rezulta 1000Mhz deci perfect. Nu este nici o problema
dacă merge şi sub 1000Mhz că nu are un impact vizibil asupra performanţei.
O altă frecvenţă care derivă din HTT este şi frecvenţa PCI-express sau AGP
după caz, şi cea PCI. Frecvenţa PCI-express trebuie să fie 100Mhz cea AGP 66Mhz şi
cea PCI 33Mhz. De asemenea porturile SATA necesita frecvenţa tot de 100Mhz. De
obicei plăcile de bază pentru overclock folosesc un clock-generator separat pentru
aceste frecvenţe şi au opţiunea de a le bloca la valoarea lor standard.
Orice overclock depinde de placa de bază şi de opţiunile pe care aceasta le oferă.
Vom încerca să prezentăm cât mai generalizat:
• blocaţi toate componentele la frecvenţa standard în afară de procesor bineînţeles
dacă vă permite placa de bază
• puneţi frecvenţa de baza pe Manual de pe Auto dacă este cazul
• incrementaţi frecvenţa de bază în paşi mici (din 5 în 5 Mhz e ok) verificând
stabilitatea sistemului de fiecare dată (puteţi folosi programe specializate pentru
acest lucru cum ar fi: Prime95, Orthos, Stress Prime2004, SuperPI, S&M)
• setaţi multiplicatorul HTT la 4x odată ce aţi trecut de 220Mhz
• setaţi multiplicatorul HTT la 3x odată ce aţi trecut de 250Mhz
Frecvenţa efectivă HTT trebuie să stea sub 1000 sau sub 800, depinde de
procesor şi de placa de bază.
134
Bibliografie
1. http://www.memtest.org/
2. http://www.mersenne.org/freesoft.htm
3. http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=2322
4. http://www.xf.ro/content-62-page1.html
5. http://en.wikipedia.org/wiki/Wire_frame_model
6. http://www.realstorm.com/
7. http://www.memtest.org/
8. http://hcidesign.com/memtest/download.html
9. http://brain-power.net/menus.php?name=Company&c_lang=english
10. http://www.xf.ro/article135.html
11. http://www.guru3d.com/index.php?page=rivatuner
12. http://www.techpowerup.com/downloads/Tweaking/ATITool
13. http://www.techpowerup.com/atitool/
14. http://downloads.guru3d.com/download.php?det=872
15. http://www.mvktech.net/component/option,com_remository/Itemid,26/func,sele
ctfolder/cat,92/
16. http://www.entechtaiwan.net/util/ps.shtm
17. http://www.roclockers.net/monitorizare/cpu-z-1.40.html
18. http://www.roclockers.net/monitorizare/everest-ultimate-edition-4.00.html
19. http://www.roclockers.net/monitorizare/speedfan-4.32.html
135
Cuprins
CUVÂNT ÎNAINTE
136
Cuprins
3.3.3. HyperTransport.......................................................................................................................52
3.3.4. Cache-ul..................................................................................................................................53
3.3.5. Conductele şi predicţia ...........................................................................................................54
3.3.6. Moştentirea de la Intel ............................................................................................................54
3.3.7. Modele de K8, tehnologii de fabricaţie şi platforme...............................................................55
3.3.8. Concluzii .................................................................................................................................56
3.4. PROCESOARE DUAL-CORE .......................................................................................................58
3.4.1. Tehnologia Intel dual-core Intel .............................................................................................59
3.4.2. Tehnologia Dual-Core AMD ..................................................................................................60
3.5. TEST DE PROCESOARE ..............................................................................................................61
3.5.1. Testarea propriu-zisă..............................................................................................................64
3.5.2. Procesoare testate: .................................................................................................................66
3.5.2.1. Socket 939.................................................................................................................66
3.5.2.2. Socket AM2 ..............................................................................................................66
3.5.2.3. Socket T (LGA775) ..................................................................................................67
137
Evaluarea performanţelor sistemelor de calcul
4 EVALUAREA DISPLAY-URILOR.............................................................................................118
4.1 GENERALITĂŢI .......................................................................................................................118
4.2 TESTAREA DIPLAY-URILOR TFT LCD ...................................................................................122
4.2.1 Procedura de testare a monitoarelor LCD.......................................................................123
4.2.2 Cum să alegem un monitor ...............................................................................................124
7 BIBLIOGRAFIE............................................................................................................................135
8 CUPRINS........................................................................................................................................136
138