Sunteți pe pagina 1din 1

Codul UTF

Unicode, oficial Unicode Standard, este un standard de tehnologie a informației


pentru codificarea, reprezentarea și manipularea coerentă a textului exprimat în
majoritatea sistemelor de scriere ale lumii. Standardul, care este menținut de
Consorțiul Unicode, definește începând cu versiunea actuală (15.0) 149.186 de
caractere, precum și simboluri, emoji-uri (inclusiv în culori) și alte coduri de
formatare.

Succesul Unicode-ului la unificarea seturilor de caractere a dus la utilizarea sa pe o


scară largă și predominantă în internaționalizarea și localizarea software-ului de
calculator. Standardul a fost implementat în multe tehnologii recente, inclusiv
sisteme de operare moderne, XML și majoritatea limbajelor de programare moderne.

Unicode acoperă astăzi majoritatea sistemelor de scriere utilizate în prezent.

Începând cu 2022, un total de 161 de scripturi sunt incluse în cea mai recentă
versiune de Unicode, deși există încă scripturi care nu sunt încă codificate, în special
cele utilizate în principal în domeniul istoric și liturgic și diferite contexte academice.

Au fost specificate mai multe mecanisme pentru stocarea unei serii de puncte de cod
ca o serie de octeți, ca de exemplu UTF, abreviere pentru Unicode Transformation
Format. Codificările UTF-ului includ: UTF-8 (ce folosește de la 1 până la 4 octeți
pentru fiecare punct de cod, maximizând compatibilitatea cu ASCII. UTF-8 este
capabil să codifice toate cele 1.112.064 puncte de cod de caractere valide în Unicode
și este predominant pentru adresele WWW, împreună cu alte tehnologii de internet,
reprezentând 95-98% din toate paginile web și până la 100% pentru unele limbi,
odată cu anul 2022), UTF-EBCDIC, codificare similară cu cea a UTF-8-ului, dar care
maximizează compatibilitate cu EBCDIC, UTF-16 și UTF-32, care funcționează pe 16,
respectiv 32, de biți.

Pe lângă cele menționate, mai există si codificarea de tip UCS (Universal Coded
Character Set), care stă la baza multor codificări de caractere, îmbunătățindu-se pe
măsură ce sunt adăugate caractere din sistemele de tastare nereprezentate anterior,
sau UTF-1, codificare asemănătoare cu cea a lui UTF-8, însă designul său nu oferă
auto-sincronizare, ceea ce face dificilă căutarea subșirurilor și recuperarea erorilor.
Pe lângă asta, UTF-1 este, de asemenea, lent la codificare sau decodificare din cauza
utilizării diviziunii și înmulțirii cu un număr care nu este o putere de 2. Din cauza
acestor probleme, nu a fost acceptat și a fost rapid înlocuit de UTF-8.

Bibliografie:
https://en.wikipedia.org/wiki/Universal_Coded_Character_Set
https://en.wikipedia.org/wiki/UTF-8
https://en.wikipedia.org/wiki/Unicode
https://en.wikipedia.org/wiki/UTF-1
Suportul de Curs

S-ar putea să vă placă și