Documente Academic
Documente Profesional
Documente Cultură
Reprezentarea informatiei alfanumerice se face prin cuvinte de cod de 8 cifre binare. Lungimea de 8 cifre permite construirea a 256 cuvinte de cod diferite care acopera necesarul unei aplicatii. Lungimea de 8 cifre binare a devenit un standard impus de firma IBM, prin codul EBCDIC (Extended Binary Coded Decimal Interchange Code). Urmatorul cod care s-a impus a fost codul ASCII pe 8 biti. Codul ASCII (American Standard Code for Information Interchange) a devenit codul calculatoarelor compatibile IBM, PC si contine setul extins de caractere in numar de 256. Fiecare caracter (litera, cifra, blanc sau caracter special) este codificat printr-o frecventa de lungime fixa (8 cifre binare) folosind codul ASCII. Astfel, caracterul A va fi reprezentat prin secventa de 8 cifre binare 01000001, iar caracterul 9 prin secventa 00111001. Asupra datelor de tip alfanumeric se pot face operatii de CONCATERNARE si COMPARARE.
Reprezentarea Numerelor
Asupra datelor de tip numeric lucreaza operatorii aritmetici + , - , * , / , si de comparare < , > , =, #, >=, >=. Reprezentarea numerelor intregi. Fiecare numar intreg pozitiv sau negativ este codificat ca un numar binar de lungime fixa. Lungimea secventei, binare este multiplu de 8 biti : 8,16,32 . Pentru completarea secventei de biti se adauga zerouri nesemnificative. La reprezentarea intregilor cu semn, primul bit din stanga reprezentarii indica semnul numarului, astfel: 1 pentru numar negativ si 0 pentru numar pozitiv. Exemplu: daca se reprezinta un intreg fara semn, fie 9 acest numar, pe 16 biti atunci se obtine: 9(10)= 1001(2) 0000 0000 0000 1001. Rezulta ca domeniul de reprezentare a intregilor fara semn, utilizand 8 cifre binare este 0255, iar pentru 16 cifre binare, 0 + 65535. Domeniul de definitie al unei date de tip numeric intreg cu semn, reprezentat pe 8 cifre binare(pe un octet sau un byte) este 128 +127, iar pe cuvinte de 16 biti este de 65536+65535. Reprezentarea numerelor reale. Numerele reale sunt formate din semn, parte intreaga si parte fractionara. Acestea pot fi reprezentate in doua moduri in virgula fixa (binary fixed print) sau in virgula mobila (binary floating print). n reprezentarea in virgula fixa se presupune ca partea intreaga este despartita de partea fractionara printr-o virgula imaginara care se afla intr-o pozitie fixa. n acest caz sunt fixe atat numarul de pozitii ale partii intregi cat si numarul de pozitii ale partii fractionare. Acest mod de
reprezentare a realilor este dezavantajos deoarece nu permit decat reprezentarea unei game restranse de numere reale. n virgula mobila, numerele sunt reprezentate prin exponent si mantisa in asa numita notatie stiintifica. Se stie ca orice numar poate fi scris explicitand diferite puteri ale lui 10 (exponenti). n acest fel poate fi controlata pozitia virgulei zecimale, care isi schimba locatia in functie de valoarea exponentului. Exemplul 1: 43,7 = 437 * 10(-1) = 437E-1. 437 este mantisa iar 1 este exponentul. Conform acestei conventii, daca se foloseste un cuvant de 32 biti, pentru reprezentarea unui real in virgula mobila, atunci repartizarea bitilor se va face astfel :1 bit pentru semnul numarului, 1 bit pentru semnul exponentului, 7 biti pentru exponent si 23 de biti pentru mantisa. Exemplul 2: 12,5(10) =1100,1(2) =0,11001(2)*24=11001(2)*10(2)100(2), mantisa este 11001; exponentul este 4(10)=100(2) ; bitul de semn al numarului = 0 ;bitul de semn al exponentului = 0 ; iar reprezentarea numarului este 0 0 0000100 11001 00 0000 0000 000 0000 bit semn bit semn exponent valoare biti nesemnificativi numar exponent mantisa pentru completare mantisa Se poate demonstra ca domeniul de valori al unei date pe 32 biti din care 7 pentru exponent si 23 pentru mantisa este: -1038 1038, iar data va avea maxim 7 cifre semnificative. Reprezentarea in virgula mobila permite memorarea numerelor reale de diferite dimensiuni cu o precizie foarte mare. n functie de numarul de biti folositi pentru reprezentarea numarului exista :
Reprezentarea desenelor si sunetelor. Desenele si sunetele sunt si ele codificate in secvente de cifre binare. Pentru codificare se stabilesc niveluri de luminozitate pentru desene sau niveluri de semnal sonor pentru sunete. Aceste niveluri se codifica prin numere intregi care pot fi reprezentate in sistem binar. Acest procedeu se numeste digitizarea desenelor si sunetelor. Unitatea centrala Microprocesoarele difera intre ele prin :
numarul de instructiuni executate in unitate de timp; viteza de executie; cantitatea de memorie pe care o pot adresa .
unitatea de comanda si control (UCC); unitatea aritmetica-logica (UAL); registrele proprii; unitatea de interfata cu celelalte componente ale sistemului (UI).
UCC-ul, UAL si registrele formeaza impreuna unitatea de executie (UE), care realizeaza efectiv operatiile.
Unitatea de comanda si control coordoneaza si controleaza intreaga activitate de prelucrare la nivelul componentelor calculatorului. Acesta (UCC) executa instructiunile unui program (memorat in memoria interna la adrese succesive) astfel:
extrage din memoria interna a calculatorului o instructiune din program; decodifica instructiunea pentru a afla ce operatie trebuie sa execute si ce date vor fi folosite; extrage din memoria interna datele necesare prelucrarii; activeaza circuitele electronice corespunzatoare din UAL pentru a executa operatia cu datele solicitate; scrie la o anumita adresa de memorie rezultatul obtinut in urma executarii operatiei solicitate.
Registrele folosesc ca memorie tampon in timpul executarii unei instructiuni. Unitatea aritmetica-logica (UAL) reprezinta ansamblul de circuite electronice prin care se realizeaza prelucrarea datelor cerute prin instructiuni sau comenzi. Prelucrarea se face prin operatii aritmetice, logice si de comparare. Fiecare circuit este specializat sa realizeze un una din operatiile de baza. Registrele proprii functioneaza ca o memorie proprie a procesorului in care acesta pastreaza temporar informatiile .Exista mai multe tipuri de registre :
registrul de date in care sunt stocate datele si rezultatele prelucrarii; registrul de instructiuni in care se pastreaza codul instructiunii curente; registrul contor program in care este memorata adresa instructiunii care urmeaza sa fie executata; registrul contor date in care se pastreaza adresa datelor care urmeaza sa fie prelucrate.
Unitatea de interfata cu celelalte componente ale calculatorului (UI) asigura, prin intermediul magistralei, legatura dintre procesor si celelalte componente ale sistemului: memoria interna si dispozitivele de intrare-iesire . Acesta (UI) realizeaza functia de transfer al datelor de la si spre procesor. Comunicarea microprocesorului cu celelalte componente cum ar fi controlerul adaptorului de discuri, controlerul adaptorului video, etc., se face prin intermediul unor puncte de intrare in microprocesor numite porturi. Acesta identifica printr-un numar unic ce functioneaza ca un numar telefonic. Calculatorul si implicit microprocesorul desfasoara diferite activitati care au nevoie pe rand de microprocesor. Rezulta ca mp. trebuie sa intrerupa o activitate pentru a executa alta activitate. De exemplu, actionarea unei taste determina o intrerupere. Intreruperile pot fi determinate prin mecanisme hardware si software . Intreruperea hardware este declansata de un semnal numit cerere de intrerupere, prin care i se cere microprocesorului sa actioneze ca urmare a unui eveniment. Fiecare intrerupere are un numar de identificare. Prin acest numar, microprocesorul identifica evenimentul. Pentru a executa operatiile, mp. dispune si de stive (STACKS). Stiva este folosita ca o zona de memorie temporara a datelor pe care le prelucreaza mp. La o cerere de intrerupere, mp. trebuie sa-si salveze datele din aplicatia curenta pentru a le putea folosi ulterior si comuta pe o alta aplicatie. Locul in care sunt salvate temporar datele curente se numeste STIVA. Un mp. este caracterizat de urmatoarele atribute :
tip;
Tipul microprocesorului defineste apartenenta acestuia la o familie de microprocesoare care au caracteristici comune, ce determina performantele calculatorului. Piata sistemelor de calcul este dominata de doua familii mari de microprocesoare:
INTEL sau COMPATIBILE, folosite de calculatoarele IBM PC sau compatibile, fabricate de firma IBM sau alte firme ; MOTOROLA, folosite de calculatoarele Machintosh realizate de firma APPLE .Cele doua tipuri de mp. nu sunt compatibile, adica nu inteleg acelasi set de instructiuni.
Frecventa de lucru a mp.-lui este frecventa de tact a ceasului. Ceasul este cel care stabileste frecventa impulsurilor pentru circuitele calculatorului, impulsuri prin care li se comanda acestor circuite sa execute operatii. Frecventa se masoara in MHz, adica in milioane de operatii pe secunda. Cu cat aceasta frecventa este mai mare, cu atat mp. este mai performant. Valorile frecventelor de tact sunt standardizate. Cuvantul mp. reprezinta numarul de biti, multiplu de octet, care pot fi prelucrati la un moment dat de catre mp. Dimensiunea cuvantului depinde de capacitatea de memorare a registrelor mp. Cu cat cuvantul mp. este mai mare cu atat viteza de lucru este mai mare si mp. mai performant. Aceste caracteristici de mai sus determina viteza de lucru a mp., adica determina cat de repede realizeaza mp. un ciclu complet de executare a unei instructiuni. Viteza se masoara in milioane de instructiuni pe secunda (M.I.P.S.). Ultimele generatii de mp. INTEL folosesc cuvinte pe 32 si 64 de biti. Prin cuvant intern se intelege numarul de biti care pot fi prelucrati de mp. printr-o singura operatie. Prin cuvant extern se intelege numarul de biti care pot fi transmisi de mp. catre magistrala de date pentru a fi transportate in paralel.
Cu toate c ASCII era de ajuns pentru comunicaiile n engleza modern, n alte limbi europene care includ caractere accentuate, lucrurile nu erau aa uoare. Standardele ISO 8859 au fost create pentru a satisface aceste nevoi. Erau compatibile n sens invers cu ASCII, diferena este c se folosete al optulea bit pentru a permite alte 127 caractere n fiecare codare. Curnd, limitrile ISO 8859 au nceput s ias la iveal, momentan sunt 15 variante al standardului ISO 8859 (ncepnd cu 8859-1 i terminnd cu 8859-15). n afar de raza octetului de compatibilitate ASCII al acelor seturi de caractere, erau conflicte dese n literele reprezentate de fiecare octet. Pentru a complica i mai mult interoperabilitatea dintre codrile caracterelor, Windows-1252 este folosit n anumite versiuni de Microsoft Windows n loc de limbile Vest Europene. Acesta este un superset al ISO-8859-1, dar este diferit n multe locuri. Totui, aceste seturi pstreaz compatibilitatea cu ASCII. Dezvoltarea necesar unor codri diferite singur-octet pentru alfabetele nelatine, cum ar fi EUC (Extended Unix Coding) care sunt folosite pentru cel Japonez i Corean (i a celui Chinez de mrime mai mic) a creat i mai mult confuzie, n timp ce sistemele de operare foloseau diferite seturi de caractere pentru acelai limbaj, de exemplu, Shift-JIS i ISO-2022-JP. Utilizatorii care doreau s vad simbolurile chirilice aveau de ales ntre KOI8-R pentru cele ruseti i bulgreti sau KOI8-U pentru cele ucrainiene, sau ntre celelalte codri chirilice cum ar fi insuccesul ISO 8859-5, i setul comun Windows-1251. Toate aceste seturi de caractere rupeau compatibilitatea cu ASCII (cu toate c codarea KOI8 plasa caracterele chirilice n ordinea latin, deci n caz c nu se folosete al optulea bit, textul se poate citi pe un terminal ASCII.) Asta a adus la confuzie, i la inabilitatea unei comunicri n mai multe limbi, n special ntre mai multe alfabete. Intrai n Unicode.
Ce Este Unicode?
Unicode elimin tradiionala limit a unui singur octet pentru setul de caractere. Folosete 17 "planuri" de 65,536 puncte de cod pentru a descrie un maxim de 1,114,112 caractere. Primul plan, cunoscut i ca "Basic Multilingual Plane" (Planul de Baz Multi-lingv) sau BMP, conine aproape tot ce vom folosi vreodat, muli au fcut presupunerea greit c Unicode folosete un set de caractere pe 16 bii. Unicode a fost reprezentat n diferite moduri, dar dou dintre cele mai comune sunt UTF (Unicode Transformation Format - Formatul de Transformare Unicode) i UCS (Universal Character Set - Setul de Caractere Universale). Un numr dup UTF indic numrul de bii ntr-o unitate, n timp ce numrul de dup UCS indic numrul de octei. UTF-8 a devenit cel mai rspndit pentru schimbarea de text Unicode datorit naturii sale simple pe opt bii, i este subiectul acestui document.
UTF-8
UTF-8 este o codare de caractere de lungime variabil, ceea ce nseam c folosete pentru fiecare simbol de la 1 la 4 octei. Deci, primul octet UTF-8 este folosit pentru codarea ASCII. UTF-8 nseamn c caracterele ASCII i latine pot fi combinate cu o mic cretere a dimensiunii datelor, deoarece e folosit numai primul bit. Utilizatorii alfabetelor estice cum ar fi cel Japonez, cui i-a fost repartiionat o poriune mai mare de octei sunt nefericii, deoarece are ca rezultat 50% de date redundante.
www.geografie.uvt.ro/educatie/admitere/mastergis2009/Tema%202.pdf