Documente Academic
Documente Profesional
Documente Cultură
Jost Gippert
Introduccin
En la documcntacion lingstica, la notaciijn de textos eti forma escnta
siempre ha desempeado un papel importante, incluso despiies del
desarrollo de los dispositivos de almacenamiento audiovisual. La era digital
ha provocado, si acaso, un cambio menor a esta si tuacin en tanto que ahora
podemos esperar que nuestros datos escritos sean tiles para mucha gente y
durante rnuclios siglos sin que necesarianiente se impriman o se distribuyan
como libros. Sin embargo, para lograr este propiisito se debe tener en
considcracion ciertas cuestiones preliminares que se tratarn en este
capitulo.
La irprcsentacin de textos en fornia digital difiere del uso de lapiz
y papel pues presupone la adaptacin dc ctjdigos claramente definidos en un
sentido doble: la codificaciiin de carcteres, es decir, dc las letras en las
palabras que habrn de escribirse, y la codificacin de los elenientos de la
estructura textua!, es decir, cricabezados, ejemplos, listas de vocabiilario,
etc. Los dos tipos de codificacin son cruciales para el intercambio de datos
con otras pzrsonas: titi futuro usuario que no tenga informacin sobre los
esqucmas de codificacin qiie se hayan aplicado, probablemente tendr
grandes dificultades al tratar de volver a decodificar (y leer) lo que se
escribi: cn el peor de los casos. esos datos scrin totalmente irrecuperables.
En las pginas siguieiites explicar brevemente por que esto es de esperarse
y que se puede hacerdpara evitarlo. Empezaremos con la codificacibn de las
unidades de texto ms pcqiieas, es decir, los caracteres, y procederemos a
elementos nias grandes cotiio palabras, tiascs y sintagmas. Otros tipos de
codificacin que piid ieran cabcr en la presente discusiiin (especialrncnte la
codificacin de archivos; vase el capitulo 4 ) se trataran de paso.
0 6 0 < = > ? @ A B C D E F G H I J K L M N O
0 8 0 P Q R S T U V W X Y Z [ \
1 0 0 d e f g h i j
' a b c
l m n o p q r s t u v w
Queda claro que con base en este esquema de codificacin, los textos en
ingls podrian ser digitalizadcis fjicilmente, pero no los tcxtos en alemn,
R70012303f
R700123032
6 8 L 9 S P E Z 1 0 6 8 L 9 S P E Z L O
a
a / A ! ! . . +
n
-
' u n n o
'
"
- - a B o v y
~ ! ? oj au u~ , ~ ,
OPZ
I 022
i '
"
002
~ 0r 8 ~i
n n n n o o o o p u ! . ! ! ! a
e e ~ e ~ n o y 3 3 v -v
~
. v r ~ @ * Y
yu I
091
u ~ lq
OPL
ozc
p 001
6 8 L 9 S P E Z C 0 6 8 L B S P G Z 1 0
u
1' r
1 $ f
\
- j
j
'
U
;
1 , )
_ I I mU
~ IC ~ n ~
:1 C k I t b t
~
J L - J
A1
J l = 1
r C l i k I I
' T I
ot'z
~OZZ.
ooz
r
08L
E 0gC
~ 1 * 3 ~ n o ? n o o o ~ = 3 y vovc!
! . e e a 3 e e e e ? n S u - ( l l z x
ozc
~
n
.
s
[
, 2 ' h $ # , i
i
'
y
~
j
~
!OQC q
S OSO~
~ w 7 n rI H ~ A ~ I ~ ~ ~ v @090
: 6 8 L 9 C P E Z L O / ' - ' + . o OW
ii
i t m 9 L
. ' d C ) U ' O t + + + A a
6 8 L 9 C P I Z 1 0 6 8 L 9 S P E G L O
L
O
OZO
O00
>
Tuhlu 5. Codificacin estandarizada de 8 bits (ANSI, ISO-8859-1,MSW iildows, Pgina de cdigos 1353)
1
O 1 2 3 4 5 6 7 8
O 1 2 3 4 5 6 7 8
040
060
(
+
,
/
O
< = > ? @ A B C D
080
100
P Q R S T U V W X
d e f g h i j k l
1 2 3
E F G
Y Z [
m n o
o00
020
120
140
160
180
!
# $ ' S , &
'
5 6 7 8 9 :
;
I J K L M N O
] A - a b c
q r s t u v w
... t $ ' % S r
u
, f .
x y z { I ) -
CE
4
H
\
p
,
,
ri
) O B
200
220
i $ f : , ~ ~ ("
C
)
a
"
f
2
' p q ' O ' / a % %
A A A A A A E
E E E ~ i i ~ C ) B d o x a u
U ~ b B a a aa a e q e i e i i
240
B o 6 o o + o
u i y b y
O 1 2 3 4 5 6 7 8
O f 2 3 4 5 6 7 8
1
Y
2
q
u
Y
9
Tublu 6 u/h. Mapeo estandarizado de 8 bits: ISO-8859-1 (6a) vs. ISO-88595 (6b)
+ .
. !
47
32
48 O 1 2 3 4 5 6 7 8 9 : ; < = > ?
63
4 8 0 1 2 3 4 5 6 7 8 9 . : e = > ? 63
64 @ A B C O E F G H t J K L M N O
79
64 @ A B C D E F G H I A K L M N O
32
i m + .
96 ' a b c d e f g h i j k I m n o 111
112
p q r s t u v w x y z ( I
1 -
127
'
47
79
96 ' a b c d e f g h i j k l m n o 1 1 1
112 p q r s t u v w x y z {
1 ) -
127
6
(
'
"
'
Z4rTi)
1
* L q f i n j j *
? , ? ; A B C D E F G H I J L L M N O
P Q R
d e f
X y
i i A
Ir( 6
S T U V W S Y Z [ n ] ; I d
g h i j k 1 r n 1 i p q r : t
z , j ~ q i j i i a a
l d V & B b i \ B ~ O U &
1 ? ~ $ 4 1 4 $ @ @ @ w Ti $* & n n
'
u v w
a ~ i
E i 8 i j
r A <
n f i e w ~ ~ ~ ~ z w n w r o & s a ~ r
i 6 Q Q f i f i s a t
~ q l % p I . u i ' : c j r r @ a r c c p ~ q + w
e i G Q I $ n w u I r t
0
6
O 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
O 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
.,
000
020
040
"
5 *
"
E P b u m b
'
4
080
< = > ? d A B C D E F G H I J K L M N O
P Q R S T U V W X Y Z [ i 1
a b c
060
100
d e f g h i j k l n i n o p q r s
-120
140
160
180
~
6
200
220
24 0
n r ; ! f r s + 3 s $ t t B p
1 {) - = ; U
A
a
e
i
4 i , i A c e e e 1
~ a B o o u u ~
- i t ~ ~ e i 6 i
- -
O
j
U
i
~
i
i
e
i
~
i
i
x
U
i
q
~
~
~
e
a q ? q ~ i y < u y y ~ b c d d
g g g - ; h B h h i k 1 1 i l n i m m q n n j
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
O
1
Scgun CIproyecto ECLinCi (por sus siglas cn inglb: Eiidaiigered Caucasian Languagcs in
Georgia), que forma parte d i l programa DciBcS (Dokiimcntation Bcdruhfcr Sj?i-rrrhen,
"Documentacin dt Lenguas Arrienazadas"). Vase la pagiiia web del proyccicb en
http:!!titus.fkidg1 .uiii-frankfurt.de/eclii~p~ccling.htm.
1
o
tarito no
a.
b.
1 ~~ojj;ilsiibir~fuiVti;~rs.?b!
N,:d:?il~!
lp:
3 s g o l ~ j~;~j.l~~itlil.l,~
Coliare.
r n i ~iixaldax :: ?..*rtare,
I I I ~ I I31.~?Idii
v s i IIIO&~;IIY,
5 esral~irix r i i t ~ ;iiii,t*iTre.
i
FEran
6 k i ~litji~dgw
~ ~ Y ~ ~ ~ I - , I I I I A ~ ~ I I .
k a 1 a i d d a x e-xanc-amx an::,
7 nirqrar s'aq;tsii~t.ejlnjix.
rneqran:
S hr
-u
13j!a.rir
M r r i ~ ~rir6;is.
r;~
i r i x m i r a-!:<-,are.
&faz u
eiiaiil:,
l a i f i g z i z 1q:Rvza
n~13a.z.
2 a i r L . e :Y::,
~ lekva ~.srei;lfis,
r'av):rar
1Krar.o x; c r a n a i i x :
11 ~ ~ t ~ ~ i ~ ~ c s g t ~ ~ i x ~ ~ ~ t ~ i g ~ ~ rl=%?fi:-~
j i : ~ . cq:ii;l
rnuRgl~rifla.
008
M8
$ c i " '
-::
"
. . - n i ib
wgrrrrSr;jk',x') ! K u K
009
OOA
; $ - ' t l . f 9 - O
o o ~ = i : j ' ~ .r . l ~ , . c , r : ; . , i .
A
~
'
B
'
S
H
~
H
S
'
~
P p
~
U
K
&
~
~
r o 4 c r a a b b . x a y H~ '1 r M V
~ o D ~ ? ~ o ~ B o x ~ u u O~ U~ YA ~a . AB a r ~ e aE 3e aa
~
C
~
O O C A A A A & ~ E : E
1 ~i
O O E i a i r i a i 2 c i : e e e i i
0 4 E 3 j n e i i 1 i 0 0 0 e 9 e 3 3 J j
u M ~ F ~_ ~v ! : Y ~ ~ I ~ bl Q
Quizs valga la pena destacar que Unicode no fue el primer intento por
prevenir el caos de los mapeos de caracteres de 8 bits en codificaciones de
16 bits. En 1988 apareci cl proccsador de palabras WordPerfect 5.0 (WP
5), que contena un conjunto de 1632 caracteres codificados de manera
unvoca, incluidos conjuntos dc griego, cirlico y japons (hiruguna y
katakana) adems de un bloque de 255 entidades que el propio usuario
poda definir (la llamada user deJnable ureu). De esta manera, los textos
codificados en WP 5 pueden cumplir con los requisitos de codificacin
unvoca de caracteres incluso hoy da y es posible mantener intacta la
informacin que contienen cuando estos textos se transfirieran al estndar
Unicode. Desafortunadamente, el sistema de codificacin de WP no tuvo un
uso tan generalizado y se pasaron por alto las oportunidades que ofreca;
as, no podemos esperar que las rutinas de conversin automtica para
textos de WP 5 que ofrece, por ejemplo, M S Word 2000 interpreten
correctamente y recodifiquen cualquiera de los caracteres no estandarizados
1 i-u-
2 ,khrSibrcrJi-trbosc.~Y
-ri,
niiii
i,rnidd.usi nio-~ni.e,
.-
2 .&III+ibrrzSiMribns esgBri.
3 sgabiu /oclA~i.ido.ui~olsnrc,
4
inni Ai.~nalr~nx
~i ~iioirrnre,
Entonces, puede ser que volver a aplicar las fuentes de 8 bits originales no
sea un remedio si stas tio satisfacen la codificacin que se acept corno
Unicode. como en el ejeniplo dado, en el que se dio por hecho que se
trataba de tina pigina de cdigos en japones.
1.6. No estindares persistentes:el "rea de Uso Privado"
Pero. jc611i0 producir textos codificados en 16 bits? Como hemos visto, los
procesadores de palabras ms comunes de lioy en da estn disecados para
manejar codificacioncs tanto de 8 como cle 16 bits. Al utilizar MS Word
2002 dentro de MS Windows XP y al utilizar un teclado "nacional" como el
que proporciona el sistema operativo, se puede tener la seguridad de que lo
que se teclee se almacenara en una codificacin de 16 bits. Sin embargo, si
se desea afiadir caracteres de, por ejemplo. una fuente del Alfabeto Fontico
Internacional mediarite el men de iriscrcion de simbolos, se deber
verificar si el valor Unicodc dado para e1 caracter en cuestion coincide o no
con el punto de codigo de Unicode. Si no coincide, lo tiis probable es que
la fiiente que se est tratando dc utilizar est codificada en 8 bits. De hecho,
MS Word 2002 pennite mezclar codificaciones de 8 y 16 bits dentro de un
mismo documento de texto. Estas mezclas, en lo que se refiere al
intercambio y almacenamiento de datos, podra11 representar la peor
situacibn posible. Tambikn podra11 ocurrir problenias cuando se utilizati
Por cierto, no seria buena idea evitar este efecto al insertar manualmente los
espacios entre caracteres eri vez de usar la fi~ncibnespecifica para elIo del
procesador de palabras, pues como utilizamos espacios para distinguir unas
palabras de otras, cualquier anlisis inforrntico leera el nombre espaciado
1 O A N E corno cinco palabras (cada una forrnada por un caracter) y no lo
encontraria si se buscara como "IOANE".
w j jBM*mFfiMiC
y
Word 6,0
m
rOSOft
DocygyyWord,Doc"mentt6~o
92gYY
fi *Mi~'AywaAWji
NORMAL.DOTW
yyyAyrj.ji BmDBn
~
-MSWord-
A~~y'Am~A~C:\WORKDIR,TEMPLATE\
whBMCE8..
......"" ..
W~~~~W~URAMMAOI~ISA~S
<META NAME="KeyWordsUCONTENT="GiorgianGrammafz
cBODY>
<DIV>
CP A L I G N = ~ C E N T E R ~ ~ ~ B > U M M M A ~ I ~ I C A T W S ~ I B ~ C I P ~
<IDIV>
<DIV>
cPr<SPAN>IOANEM:cISPAN><SPAN>OTXNl 1Gl GVARNI
MOX~~VREBITN
1, ROMELNICA ,EUdGEBIAN: dAEMdEVREBlAN
URAMMAO~~ASA.CISPAN><IP>
cP><SPAN>NlfOLAOzMAN: <ISPAN><SPAN>RAJ ARS SAXELEBI
MATI?<ISPAN>cIP>
<P>~SPAN>IOANEM.
~/SPAN><SPAN>GANSAZUVREBA,
GAN~VALEBA.
AUMORENA d~ AULEVA.CISPAN><IP>
<PrcSPAN>NlfOLAOzMAN: <ISPAN>iVALAd RAJ SAQMAR ARS
CNOBAd?<lSPAN>clP>
T ~ ~ h 16h.
l a Apariericia de la muestra de
un navegador
texto
C ~ ~ ~ i t 14-La
z t f o documentacirjn lingstica y la roci~ficacinde textos 4 1 1
OS:6L:60 EE 7
.tuaql a 6 ~ 0q
j smylow l!ayi w a y w d e aq i6nw squi~lo u al\
qom!~eip
!pusuqiaq w ' u n i d ! spun sl- ulis!qapep !s@m!qauo~.mq
t64\
* l a p w ! ~ r i lqaueuqia
p
qm ' w d !epun
ue6s!qapap ! s ~ !qawiq
q
641
'sdE'I3VPuW -lWPu!-I;HPu! $4 - J g v - J d -paPu!'4wd+'ld'aol 'PaPu! 'Id'mN Jh
-A - ~ a i d ' l d n 'u03
o ~ -I\-A - A W '1f)Z'N 'uad#aH 'AOP'N d\
ja6q-m JaWo-qDeo tay waq-w'aq-q h e m - a q q luqs!p lalffau umo quiq I&
eqW!nirp ! l a u v a wai woy'irld'sudo5 e - o l F si* epap ~ s !ue@iq
~ q L@
eq+!~EZp !JEI"SuiV3 "Jai s " 0 q ' s ~ ~ I 'F ~O Ju~ ~. Eu g spip !=!*m!umoLsq 6\
r i B p ! W . p aBqoUA Bui a ~ ~ ! x ' a b
~ el UUu
p a!@ xr& LWl\
mepoD!mp a i q R A aui r i ~ ~a!yxa p b y U8U
x f v uih
4-la-p!-p
nRq?Eh a u rten!x y.
. b q aa~o6!-ueua!n? n-xw ~ur\
h - x U\
~
+ - p p ! W P p apq?Bh W aPnK
, yo-p bw nBni&!-ueu
$ l o p s ! m p aaqaah aw ain!x y a p bw naio!u~un~ n x v ~ q \
+ p p a ! ~ riiqai*
~p
i u i riin!iWp
ma~o~!uiu
a!n? nx& sl\
MIO~!WW
>V~SVA
aui
,f&~plwsi~
ie~o6!qu
z!nS n.&
qd\
&
>w!x
~m
si'JW
G8PO PJ\
2.5. Perspectivas