Documentación 22

Captulo 14
La documentacin lingstica y la codificacibn de

textos
Jost Gippert
Introduccin
En la documcntacion lingstica, la notaciijn de textos eti forma escnta
siempre ha desempeado un papel importante, incluso despiies del
desarrollo de los dispositivos de almacenamiento audiovisual. La era digital
ha provocado, si acaso, un cambio menor a esta si tuacin en tanto que ahora
podemos esperar que nuestros datos escritos sean tiles para mucha gente y
durante rnuclios siglos sin que necesarianiente se impriman o se distribuyan
como libros. Sin embargo, para lograr este propiisito se debe tener en
considcracion ciertas cuestiones preliminares que se tratarn en este
capitulo.
La irprcsentacin de textos en fornia digital difiere del uso de lapiz
y papel pues presupone la adaptacin dc ctjdigos claramente definidos en un
sentido doble: la codificaciiin de carcteres, es decir, dc las letras en las
palabras que habrn de escribirse, y la codificacin de los elenientos de la
estructura textua!, es decir, cricabezados, ejemplos, listas de vocabiilario,
etc. Los dos tipos de codificacin son cruciales para el intercambio de datos
con otras pzrsonas: titi futuro usuario que no tenga informacin sobre los
esqucmas de codificacin qiie se hayan aplicado, probablemente tendr
grandes dificultades al tratar de volver a decodificar (y leer) lo que se
escribi: cn el peor de los casos. esos datos scrin totalmente irrecuperables.
En las pginas siguieiites explicar brevemente por que esto es de esperarse
y que se puede hacerdpara evitarlo. Empezaremos con la codificacibn de las
unidades de texto ms pcqiieas, es decir, los caracteres, y procederemos a
elementos nias grandes cotiio palabras, tiascs y sintagmas. Otros tipos de
codificacin que piid ieran cabcr en la presente discusiiin (especialrncnte la
codificacin de archivos; vase el capitulo 4 ) se trataran de paso.
l . La codificacin de caracteres: de 7 bits a 32 bits

1 . 1 . Computadoras de Unidad Central ( M a i ~ f r a m e la
) : cra ASCIl
En todos los equipos digitales modernos, Iri codificacin de caracteres se

basa en un conjunto dctcrminado dc ccirrcspondencias entre caracteres y
valores numericos, en el que cada caractsr est representado por un valor
nico. Para codificar las 26 letras del alfabeto latino dos veces (maysculas
y minsculas), ms los digitos del O al 9, los signos de puntuacion,
parentesis y otros signos sji-ililares, es ncccsario un conjunto de menos de
100 valores iinicos. Por esta razon, las computaduras de unidad central de la
"edad de piedra" (las dcadas de 1960 y 1970) tenian como base lo que se
conoce como codificacin de 7 bits (dgitos binarios): con 7 bits se puedeti
codificar 2' = 128 caracteres de manera unvoca. El estandar mas conocido
desarrollado sobre esta base es el llamado cdigo ASCIl (Arnt~ri~~crri
Standard Cudc. Jor. lnfiirmation Inte~hange, "Cdigo estadounidense
estrndar para el intercriinbio de informacin"), vease la Tabla l .
T17bh7 1. CUdificici611estandarizada de 7 bits (ASC 11)
0 6 0 < = > ? @ A B C D E F G H I J K L M N O
0 8 0 P Q R S T U V W X Y Z [ \
1 0 0 d e f g h i j
' a b c
l m n o p q r s t u v w
Queda claro que con base en este esquema de codificacin, los textos en
ingls podrian ser digitalizadcis fjicilmente, pero no los tcxtos en alemn,
frances o espahol, y ni qu decir de los textos griegos, rusos o chinos en sus

grafias originales. Sin embargo, esto no significa que en ese entonces fuera
iinposible procesar textos en lenguas "exticas". Siilo haba que inventar
esqueilias de codificacin que utilizaran ms de una unidad digital para
representar ciertos caracteres. Vase en la Tabla 2 la adaptacin a 7 bits de
un texto en sanscrito, un pasaje dcl Rigveda, que se produjo en la dcada de
1970 en una computadora de unidad central, a la que se aade la
trascripcin "tradicional" para su comparacin. Resulta claro quc esta
codificacin tenia al menos dos desventajas: dificilmente era posible
visualizar el texto en si1 forn~aoriginal en una paritalla de computadora, lo
que daba corno resultado una gmn cantidad de errores al introducir los
datos, y la codificacin no era transparente (no se "explicaba por si
misma"), en el sentido de que las unidades individuales (letras. diacriticos.
signos de acentuacin) facilrnente pudieron haber sido determinados por
aiguien que no estuviera involucrado en los procesos de codificacin. Es
cierto que esta codificacin satisfacia Isi condjciiin de ser consistente, ya que
una detenninada secuencia dc cdigos siempre representaba el inismo
caracter, y esta es la raziin de que estos textos se pueda11utiIizar y analizar
incIuso hoy en da. Sin embargo, resultaba demasiado torpe para ser
sostenible durante un periodo ins largo.
Tublu 2. Codificacin no estandarizada de 7 bits (Rigveda 7, 1 )
R70012304 1 AGNI!M+ NA!RO DI:!D)ITIS)IR ARA!N\YOR HA!STACYUTI:
JANAYANTA PRAS=ASTA
R700.123012 !M I OU:REDg!S=AM+ GSHA!PATIM AT)ARYU!M
R700123021 TA!M AGN I!M A!STE VA!SAVO NY 9&N\VAN SUPRATICA!KSMM
A!VASE KU!TAS= CI
R700123022 T / DAKS\A:!YYO YO! DA!MA A:!SA NI!TYAH-
R70012303f
PRE!DD)O AGNE DI:DIHI PURO! NO! 'JASRAYA: SU:RMYA:&

YAVIS\T\)A I W A : !
R700123032
M+ S=A!S=VANTA U!PA YANTf VA:!JA:H-
1.2. PCs, Macs, DOS y M S Wjnduws: cstaridares y no estndares basados

en S bjts
Este problema qued silperado al meiicls de rnaricra parcial al extender a 8

bits la base de codificacin ASCLI. Con una base di: 8 bits (= 1-bytc) se
pueden coditlcni- de manera univoca 7" 256 caractcrcs. Desde principios
de la dcada de 1980 se desarrollaron y aplicaron tiiuchos esquemas dc
codificacin de 8 bits que aadan al inventario caracteres especiales como
aquellos que representan las vocales con difresis del alemn a. u, u (con las
que se representa la mctafona intenocrilica), las vocales acentuadas , a, 6,
etc. del francs o la palatal nasal del espaol. Desafurtunadarnente, esto
no se hizo de una manera homogtriea, "estandarizada", dcsde el principio;
sino que algunas de las nias importailtes conlpaiiias de compuladoras
desarrollaron cada una su propio esquema. Esto provoc serios problemas
cuando los datos haban de intercambiarst. cntrc sisteinas. Comprense las
Tablas 3-5, que muestran los sistemas de ctidificacion utilizados en las
computadvras IBMiDOS, las coiiiputadoras Macintosh y e! ambiente MS
Windows. Slo esta ultj~ilaes mas o menos idntica al estndar de 8 bits
qiic hasta el da de hoy se utiliza en allibientes web, cl estanilar ANSl
I American Nurinnnl Stund~irdsIt~stiture."Instituto nacionril de estndares d e
Estados Unidos), tainbin conocido corrio el estandar no. 8859-1 de la JSO
(Inrcv-nationrrlStcrndards Orgutiizutirin, Organizrici61i Iriternacional para la
Estandari~acin).Los caracteres especiales de MS-W indows se destacan
con iiti fondo gris dentro de la Tabla 5.
6 8 L 9 S P E Z 1 0 6 8 L 9 S P E Z L O
a
a / A ! ! . . +
n
-
' u n n o
'
"
- - a B o v y
~ ! ? oj au u~ , ~ ,
OPZ
I 022
i '
"
002
~ 0r 8 ~i
n n n n o o o o p u ! . ! ! ! a
e e ~ e ~ n o y 3 3 v -v
~
. v r ~ @ * Y
yu I
091
u ~ lq
OPL
ozc
p 001
6 8 L 9 S P E Z C 0 6 8 L B S P G Z 1 0
u
1' r
1 $ f
\
- j
j
'
U
;
1 , )
_ I I mU
~ IC ~ n ~
:1 C k I t b t
~
J L - J
A1
J l = 1
r C l i k I I
' T I
ot'z
~OZZ.
ooz
r
08L
E 0gC
~ 1 * 3 ~ n o ? n o o o ~ = 3 y vovc!
! . e e a 3 e e e e ? n S u - ( l l z x
ozc
~
n
.
s
[
, 2 ' h $ # , i
i
'
y
~
j
~
!OQC q
S OSO~
~ w 7 n rI H ~ A ~ I ~ ~ ~ v @090
: 6 8 L 9 C P E Z L O / ' - ' + . o OW
ii
i t m 9 L
. ' d C ) U ' O t + + + A a
6 8 L 9 C P I Z 1 0 6 8 L 9 S P E G L O
L
O
OZO
O00
>
Tuhlu 5. Codificacin estandarizada de 8 bits (ANSI, ISO-8859-1,MSW iildows, Pgina de cdigos 1353)
1
O 1 2 3 4 5 6 7 8
O 1 2 3 4 5 6 7 8
040
060
(
+
,
/
O
< = > ? @ A B C D
080
100
P Q R S T U V W X
d e f g h i j k l
1 2 3
E F G
Y Z [
m n o
o00
020
120
140
160
180
!
# $ ' S , &
'
5 6 7 8 9 :
;
I J K L M N O
] A - a b c
q r s t u v w
... t $ ' % S r
u
, f .
x y z { I ) -
CE
4
H
\
p
,
,
ri
) O B
200
220
i $ f : , ~ ~ ("
C
)
a
"
f
2
' p q ' O ' / a % %
A A A A A A E
E E E ~ i i ~ C ) B d o x a u
U ~ b B a a aa a e q e i e i i
240
B o 6 o o + o
u i y b y
O 1 2 3 4 5 6 7 8
O f 2 3 4 5 6 7 8
1
Y
2
q
u
Y
9
AUn as, estos sistemas no eran suficientes para la codificacin inmediata de

otras grafias, como las del griego, el cirilico o el chino. Por csto sc
desarrollaron desde tiiediados de la dcada de 1980 las llamadas "pginas
de cdigos" (codt1 pcigc>s)para computadoras con base de 8 bits. As como
en los ejemplos anteriores, en estas pginas de cdigos se utiliz el rea
'*superior" (la de los valores superiores a 1281, que excede e1 estndar
ASCII bsico, para codificar otros conjuntos de caracteres. Algunas de estas
paginas de cdigos se han estandarizado con la norma 180-8859 (vkase, por
ejemplo, la Tabla 6 , en la que se contrasta la pagina de codigos ISO-8859-5
para el cirlico con el estndar ANSI, que es la norma ISO-8859-1.
Tublu 6 u/h. Mapeo estandarizado de 8 bits: ISO-8859-1 (6a) vs. ISO-88595 (6b)
! ' # S % & '
! ' # S % & '
+ .
. !
47
32
48 O 1 2 3 4 5 6 7 8 9 : ; < = > ?
63
4 8 0 1 2 3 4 5 6 7 8 9 . : e = > ? 63
64 @ A B C O E F G H t J K L M N O
79
64 @ A B C D E F G H I A K L M N O
32
i m + .
96 ' a b c d e f g h i j k I m n o 111
112
p q r s t u v w x y z ( I
1 -
127
'
47
79
96 ' a b c d e f g h i j k l m n o 1 1 1
112 p q r s t u v w x y z {
1 ) -
127
Adems de estas extensiones "oficiales", desde principios dc la dcada de

1980 se desarro118 una cantidad desconocida de sistcmas de codificacin de
X bits locales e incluso personales para satisfacer las tiecesidades dc las
lenguas y de los lingistas. Dc heclio, cada vez que alguien desarrollaba o

tipo de fuente tipogrfica, cuya codificacin no
correspondiera con alguna de las p5ginas dc cdigos estandarizadas: se
crcaba un nuevo sistema de codificacion desde cero. Despus, al aplicar el
mitodo de "inapeo de caracteres" ( J I H ~ mapping), podamos satisfacer, por
ejemplo, los requisitos para atiotar e1 griego antiguo (politiinico) con sus
caracteres ciriginales o para represetitar las lenguas iranias con una
trascrjpcibn latiiia (kanse las Tablas 7-81,
El problema de todo esto es que cuando se aplica cl mapro de
caracteres no sc pueden garantizar los requisitos hisicos de dricumentacion,
es decir, la persistencia y la posibilidad de recuperariiiil de los datos, porque
no hay utia correspondencia univoca entre el caracter que ha de codificarse
y un valor digitali~adoasignado. Si, por ejemplo, aplicamos la fuente de 8
bits del griego ilustrada en la Tabla 7, el valor 23 1 representara una letra
griega pi (n)minscula, mientras que el rnisnlo valor representara una cha
(r) cirilica si utilizramos iinn fiientz que equivaliera a la pigina de cdigos
estandarizada ISO-8859-5 y iinri r [atina con cedilla ($1 si utilizramos la
norma ANSl bsica. Esto significa que cada vcz que se aplique una
aplicaba cierto
394 Jost Cippert
codificacin de 8 bits en la coditlcacin de textos, se debe almacenar

informacin adicional para indicar qu pgina de cdigos ci qu codificacin
dc caracteres es vrilida para un caracter determinado. Sin embargo, esta
informacin no se puede codificar como tal de manera estandarizada y se
pierde fcilmente cuando los datos se transtieren de iiti sistema a otro. Un
ejei-i~plosera suficiente para ilustrar este fen6men0, que puede ser peligroso
para el alinaceliainiento de textos a largo plazo.
Tabia i Codificacin no estandarizada de 8 bits: gricgu antiguo

(politiinico)
6
(
'
"
'
Z4rTi)
1
* L q f i n j j *
? , ? ; A B C D E F G H I J L L M N O
P Q R
d e f
X y
i i A
Ir( 6
S T U V W S Y Z [ n ] ; I d
g h i j k 1 r n 1 i p q r : t
z , j ~ q i j i i a a
l d V & B b i \ B ~ O U &
1 ? ~ $ 4 1 4 $ @ @ @ w Ti $* & n n
'
u v w
a ~ i
E i 8 i j
r A <
n f i e w ~ ~ ~ ~ z w n w r o & s a ~ r
i 6 Q Q f i f i s a t
~ q l % p I . u i ' : c j r r @ a r c c p ~ q + w
e i G Q I $ n w u I r t
0
6
O 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
Cuptulo 14-La do~~ut~let~~uciB12

lingiii~ticuy lu cod~ficacinde textos 395
Tabla 8. Codificacinno estandar de 8 bits: fuente latina con diacriticos

O
O 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
.,
000
020
040
"
5 *
"
E P b u m b
! " # t " "
'
4
080
< = > ? d A B C D E F G H I J K L M N O
P Q R S T U V W X Y Z [ i 1
a b c
060
100
d e f g h i j k l n i n o p q r s
-120
140
160
180
~
6
200
220
24 0
n r ; ! f r s + 3 s $ t t B p
1 {) - = ; U
A
a
e
i
4 i , i A c e e e 1
~ a B o o u u ~
- i t ~ ~ e i 6 i
- -
O
j
U
i
~
i
i
e
i
~
i
i
x
U
i
q
~
~
~
e
a q ? q ~ i y < u y y ~ b c d d
g g g - ; h B h h i k 1 1 i l n i m m q n n j
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
O
1
1.3. ConversiJn y pcrdida de datos: un ejemplo
En la Tabla 9a se muestran las diez primeras lneas de una cancin popular

en lengua suano (svan), digitalizada a principios dc fa dcada de 1980 en un
ambiente DOS con una fuente especial que cubra los requisitos de Ia
trascripcin latina de las lenguas del sur del Cacaso. Codificado coino
texto sirnple, sin ningn tipo de inforrnacion adicional sobre la fuente, el
texto habria aparecido como se niuestrri en la Tabla 9b en una pantalla dc
sisteriia DOS,Descifrar q u e simbolo corresponde n la representacicin de qu
caracter ciertamente seria iitia tarea dificil. Imagineinos a un lingista que
encontrara el texto dentro de 200 aos y que no tuviera ninguna otra
informacin sobre la Lengua en cuesr i811(que para eritonces quizs ya habria
desaparecido, pues el suano perteilecc a las Lenguas caucsicas
amenazadas de Georgia" del programa DoBeS).' Este lingui sta no tendra
L4
Scgun CIproyecto ECLinCi (por sus siglas cn inglb: Eiidaiigered Caucasian Languagcs in
Georgia), que forma parte d i l programa DciBcS (Dokiimcntation Bcdruhfcr Sj?i-rrrhen,
"Documentacin dt Lenguas Arrienazadas"). Vase la pagiiia web del proyccicb en
http:!!titus.fkidg1 .uiii-frankfurt.de/eclii~p~ccling.htm.
1
o
posibilidades de adivinar los valores de los caracteres crucialcs y por lo

podra recuperar el texto en si mismo.
tarito no
Tabla 9a/h. Mapeo de caractcrcs en una codificacin de 8 bits: muestra de

un texto en suuno (svan)
a.
b.
1 ~~ojj;ilsiibir~fuiVti;~rs.?b!
vui 1141 .:d$ir~l:
N,:d:?il~!
2 i\f trsvr,?ii pbns esgari.
M.,iTrv r-a!Ji 1.1 :ibas e s
lp:
3 s g o l ~ j~;~j.l~~itlil.l,~
Coliare.
s g ' > k i:: l&mxvida:.: -1:~l9aro,
r n i ~iixaldax :: ?..*rtare,
I I I ~ I I31.~?Idii
v s i IIIO&~;IIY,
5 esral~irix r i i t ~ ;iiii,t*iTre.
i
FEran
6 k i ~litji~dgw
~ ~ Y ~ ~ ~ I - , I I I I A ~ ~ I I .
k a 1 a i d d a x e-xanc-amx an::,
7 nirqrar s'aq;tsii~t.ejlnjix.
rneqran:
S hr
-u
13j!a.rir
M r r i ~ ~rir6;is.
r;~
9 DnirLierxo lr.ki;i esq;~rl;is.

10 Dn vhriir.joriirs .ocrjari;rlis:
i r i x m i r a-!:<-,are.
&faz u
eiiaiil:,
l a i f i g z i z 1q:Rvza
n~13a.z.
2 a i r L . e :Y::,
~ lekva ~.srei;lfis,
r'av):rar
1Krar.o x; c r a n a i i x :
11 ~ ~ t ~ ~ i ~ ~ c s g t ~ ~ i x ~ ~ ~ t ~ i g ~ ~ rl=%?fi:-~
j i : ~ . cq:ii;l
rnuRgl~rifla.
1.4. Unicode: hacia un tistindar mundial
~ C u les, pues, la solucin a este problema? La rzspuesta es clara: para

codificar de manera univoca todos los caracteres que se han utilizado para
escribir las lenguas de la hiirrianidad (incluyendo desde grafias y alfabetos
"nacionales" hasta "metagrafias" lingisticas, como el Alfabeto Fontico
Internacional, IPA por sus siglas en itigls: Infel-national Phonetic
Alphabet),.la base de codificacion dehc cxtznderse mucho ms alla del
estndar de 1 byte (8 bits). Esto es exactamente lo qiie se intento desde
principios de la dcada de 1990 cuando se cre el estndar Unicode: con su
base de 16 bits ( o 2 bytes). esta norma coinpreiide 216 = 65,536
combinaciones utilizadas para la codi ticacin "unvoca" de caracteres. Si se
considera que tan slo para la grafia del chino se han utilizado ms de
65,000 caracteres diferentes a travs de la historia, resulta claro que incluso
este estindar no es todavia suficiente para cubrir todos los caracteres qiie la
humanidad ha utilizado en todos los tiempos. Sin embargo, se est
desarrollando una extensin adicional mediante la n o m a 1SO 10646 de 32
Capitulo 14-La documentacibn lingtica y /a ccd{ficucicinde textos 397
bits, que genera un total de 2'2 = 4,294,967,296 puntos de cdigo. De

hecho, el estindar Unicode no es sino un subconjunto de este inventario
"infinito", as como el estandar ANSI (ISO 8859- 1 ) es un subconjunto de
Unicode y el estndar ASCII es un subconjunto del ANSI (vase la Figura
1).
Fgiru l . De la coditicacin dc 8 bits a la dc 32 bits
El estndar Unicode ha cobrado una importancia creciente desde finales de

la dcada dc 1990, a la par de la cxpansion dc la rcd mundial WorW Wide
Weh, y ahora es la base de la codificacin en los sistemas operativos y
procesadores de texto ms actualizados. Sin duda, esto representa una
enorme ventaja para los propsitos de la documentacion lingstica. Veanse,
por ejemplo, las Tablas loa y 10b, en las que se muestran algunos de los
"bloqucs" de caracteres Unicode: ahora queda garantizada la distincin
entre una che (r) cirlica y una c latina con cedilla ($1 porque sus cdigos
estn diferenciados (niimero hexadecimal 0447 = decimal 1095 V.T.
hexadecimal 00E7 = decimal 231). Adems, ahora muchos caracteres de
basc latina utilizados en sistemas de trascripcion se pueden codificar coino
caracteres griegos, georgianos o chinos.
Tabla 10 a h . Codifcacion en 16 bits: bloques Unicode para los alfabetos

latino (a) y cirlico (b)
008
M8
$ c i " '
-::
"
. . - n i ib
wgrrrrSr;jk',x') ! K u K
009
OOA
; $ - ' t l . f 9 - O
o o ~ = i : j ' ~ .r . l ~ , . c , r : ; . , i .
A
~
'
B
'
S
H
~
H
S
'
~
P p
~
U
K
&
~
~
r o 4 c r a a b b . x a y H~ '1 r M V
~ o D ~ ? ~ o ~ B o x ~ u u O~ U~ YA ~a . AB a r ~ e aE 3e aa
~
C
~
O O C A A A A & ~ E : E
1 ~i
O O E i a i r i a i 2 c i : e e e i i
0 4 E 3 j n e i i 1 i 0 0 0 e 9 e 3 3 J j
u M ~ F ~_ ~v ! : Y ~ ~ I ~ bl Q
Quizs valga la pena destacar que Unicode no fue el primer intento por
prevenir el caos de los mapeos de caracteres de 8 bits en codificaciones de
16 bits. En 1988 apareci cl proccsador de palabras WordPerfect 5.0 (WP
5), que contena un conjunto de 1632 caracteres codificados de manera
unvoca, incluidos conjuntos dc griego, cirlico y japons (hiruguna y
katakana) adems de un bloque de 255 entidades que el propio usuario
poda definir (la llamada user deJnable ureu). De esta manera, los textos
codificados en WP 5 pueden cumplir con los requisitos de codificacin
unvoca de caracteres incluso hoy da y es posible mantener intacta la
informacin que contienen cuando estos textos se transfirieran al estndar
Unicode. Desafortunadamente, el sistema de codificacin de WP no tuvo un
uso tan generalizado y se pasaron por alto las oportunidades que ofreca;
as, no podemos esperar que las rutinas de conversin automtica para
textos de WP 5 que ofrece, por ejemplo, M S Word 2000 interpreten
correctamente y recodifiquen cualquiera de los caracteres no estandarizados
que pudieran estar incluidos en esos textos. En la Tabla 1 1 se ilustra lo que
pasa cuando la canci6n popular en suano mencionada antes (vase Tabla 9 )

se codifica de manera consisiente en WP 5 y despus se convierte
automiticamentc eli texto de MS Word. En particular, la versihn convertida
qiieda inutilizable e irreparable porque los caracteres "no identificados" son
remplazados por un giii8n bajo no diferenciado C ). Lo mismo ocurre con la
conversin automtica proporcionada por versiones posteriores del mismo
WordPerfect (por ejemplo WP 9); en sta, por ejemplo, la a se reemplaz
por una B, quc es obviamente confuso. Todo esto significa que una
cunversibn correcta de textos codiiicados en WordPerfect 5 ( o por lo menos
de los caracieres en cllos contenidos) a codificacin Unicode es posible,
pero requiere de una programacin especial.
Totilcr 1 f cr/b. "Conversin" automatica de texto: ejemplu del suano (svan)
1 i-u-
f.01 scihirulo Ni~nlsnln!
2 ,khrSibrcrJi-trbosc.~Y
-ri,
spbili Icr-,ri-irin.u -oljnr~,
niiii
i,rnidd.usi nio-~ni.e,
.-
i.oA gnl snbirelo Nlinrsolci!
2 .&III+ibrrzSiMribns esgBri.
3 sgabiu /oclA~i.ido.ui~olsnrc,
4
inni Ai.~nalr~nx
~i ~iioirrnre,
1.5. Estndarcs coexistcntes: el peor de los casos

Ahora la pregunta es: gealmcrite estamos en un terreno seguro dcspus de
que Unicode se conviriij en la norma mundial para la codificacin de
caracteresL? Hay qiie reconocer que todav ia hay muchos proble tnas
coinplicados sin resolver, y no solo con respecto a la conversin de
400 Jost Gippczrt
materiales antiguos. El principal problema est en el hecho de que, por el

momento, el procesainiento digital de palabras se caractcriza por la
coexistencia real dc sistcmas dc codificacin de 16 bits y 8 bits. Asi como el
estndar ANSl de 8 bits se incorporo al estndar Unicode de 16 bits como
uno de sus "bloques", todos los proccsadores de palabras basados en
Unicode, conio MS Word 2000, se han diseado para poder manejar textos
codificados tanto en 8 bits como en 16 bits. De la misma manera, los
sistcmas operativos basados en Utiicode, coino MS Windows 2000, se han
diseado para incorporar fuentes tipogrrificas codificadas en 8 bits junto a
las codificadas en 16 bits. Unos cuantos ejen-iplos bastaran para demostrar
la confusin que esto puede causar.
La Tabla 12 muestra una lista de verbos gevrgianos capturada en
MS Word 6 , utilizando una fuente georgjana simple de 8 bits mapcada
segn el esquema de codificacin ANSl de 8 bits. Cuando recibi este
archivo de texto de un colega en Georgia, va correo electriinico, hace dos
aos, trat de abrirlo cn MS Word 2002 (XP Office). El resultado fue
extrao. por decir lo menos: en Iiigar de s u texto, apareci en pantalla un
texto en la escrjtiira japonesa kalakana (vase la Ta blri 1 2b). Cuando abr el
texto en Oyen Uffici: 1. obtuve otro resultado: los caracteres georgianos
habian sido rcmplazados por caracteres latinos con diacrticos (vase la
Tabla 12c), un resultado previsible si se toma en cuenta que la codificacin
original estaba basada en 8 bits. Tras aplicar la fucntc georgiana cori-ectri a
este texto dentro de Open Office, reapareci el aspecto buscado (comci en la
Tabla 1 ?a) y cl texto pudo ser re-mapeado a una fuente de trascripcin quc
utilizaba los ii~isniospuntos de cdigo de 8 bits (vase la Tabla 1 2d). Tratar
de aplicar la fuerite gecirgiana a los caractcrcs japoneses que aparecieron en
pantalla con MS Word 2002 no cambi nada, pues los caracteres X-cir~rkcina
siguieron siendo caracteres k~~tcrkuna
(como se muestra cn la Tabla 12b).
Tabla 12 a-d. "Conversion" autui-i-iatira de texto: ejemplo del georgiano

(lista de palabras)
a. Texto original (MS Word ti)
Captulo 14-La documentacin Il~guisricay la cod~~cacin

de textos 401
b. El mismo texto despuis de una transferencia entre versiones de un mismo

programa (MS Word h r M S Word 2002)
c. El mismo texto despus de transferencia entre programas (MS Word 6 >

Open Office 1)
d. Lo mismo ocurre al aplicar una fiiente diferente (dentro de Open Office

1I
Cmo puede explicarse esta conducta extraa de MS Word? Obviamente,

el progrnrna ejecuta una estrategia de cinco pasos cuando se encuentra con
textos codificados en otras versiones (ms antiguas):
1) Verifica si el documento est codificado en Unicode.

2) En caso negativo, verifica si la distribucin de caracteres coincide
con la distribucin "tpica" de alguna de las yisinas de cijdigus
conocidas.
3) En caso afirmativo, da por hecho que esa pazjna de cbdigos es la
que debe representarse.
4) Convierte los caracteres de 8 bits de la pagina de ~ridigosaceptada
como correcta a los caracteres equivalentes de Unicode.
5 ) Almacena los caracteres Unicode en la memoria.
Entonces, puede ser que volver a aplicar las fuentes de 8 bits originales no
sea un remedio si stas tio satisfacen la codificacin que se acept corno
Unicode. como en el ejeniplo dado, en el que se dio por hecho que se
trataba de tina pigina de cdigos en japones.
1.6. No estindares persistentes:el "rea de Uso Privado"
Otro problema que podra ser crucial incluso en tiempos de Unicode es la

persistencia de por lo menos un rea que est diseada para el mapeo
personalizado de fuentes. Es la llamada "rea de USOPrivado" (PUA por
sus siglas en ingls: Private Use -4rea) que abarca 6144 caracteres no
predefinidos en los bloques E000-EFFF y F000-F7FF. Similar al rea
definible por el usuario de WordPeifect 5 : la PUA puede ser asignada ad
lihiturn por compaas, grupos de iisunrjos o itidividuos. Esto da como
resultado que se necesite informacin adicional para distinguir los
caracteres que se "codificaron" en ella. En la Tabla 13 sc mucstra lo que
podria pasar cuando se aplica una fuente equivocada para visualizar
caracteres codificados en la PUA: en el peor de los casos, la informacin
prevista se perder otra vez.
Tabla 13 a/b. Mapeo de fuentes de 16 bits: el "rea de Uso Privado"
Capitulo 14-Lu rlt~cumenfu~-ibn

lingis I iccr y la codij?cucinde m r o s 403
1.7. Sugerencias y recomendaciiities
En lo referente a la codificacion de caracteres, todo lo anterior nos lleva a

unas cuantas recomendaciones generales que podran ser de utilidad con
respecto tanto al intercambio de datos como al alinacenamiento a largo
plazo de materiales textuales:
Cuando sea posible, asegurarse de utilizar codificaciii de 16 bits y

no codificncion de 8 bits.
Si se utiliza codificacin de 16 bits, evitar el rea de Uso Privado.
Si se requiere una codificacin de 8 bits, tratar de no mezclar varias
fuentes con codificncion diferente deiltro del mismo documento.
Llevar siempre un registro de que fiiente y qu coditicacion se est
usando.
Informar siempre a los receptores del documento sobre todo lo
anterior y proporcionar las fuentes (si es legalmente posiblel.
Los archivistas y encargados de acervos documentales debern ser an ms

estrictos:
Debern convertir todos los documentos de 8 bits a documentos
Unicode de 16 bits.
No debern usar el rea de Uso Privado para la codificacin de
caracteres.
Pero. jc611i0 producir textos codificados en 16 bits? Como hemos visto, los
procesadores de palabras ms comunes de lioy en da estn disecados para
manejar codificacioncs tanto de 8 como cle 16 bits. Al utilizar MS Word
2002 dentro de MS Windows XP y al utilizar un teclado "nacional" como el
que proporciona el sistema operativo, se puede tener la seguridad de que lo
que se teclee se almacenara en una codificacin de 16 bits. Sin embargo, si
se desea afiadir caracteres de, por ejemplo. una fuente del Alfabeto Fontico
Internacional mediarite el men de iriscrcion de simbolos, se deber
verificar si el valor Unicodc dado para e1 caracter en cuestion coincide o no
con el punto de codigo de Unicode. Si no coincide, lo tiis probable es que
la fiiente que se est tratando dc utilizar est codificada en 8 bits. De hecho,
MS Word 2002 pennite mezclar codificaciones de 8 y 16 bits dentro de un
mismo documento de texto. Estas mezclas, en lo que se refiere al
intercambio y almacenamiento de datos, podra11 representar la peor
situacibn posible. Tambikn podra11 ocurrir problenias cuando se utilizati
404 Jost Gippert
controladores de teclado especiales que hayan sido proporcionados por

terceros, tales como Tavultcsoft Keymail, ya que pueden haber sido
diseados nicamente para codificaciones de 8 bits y csto anularia las
posibilidades de insertar con ellos textos codificados en 16 bits. Si lo que se
pretende es diseiiar un controlador de teclado propio con Keyiniin o cori MS
Keybord Layoiit Creat or, habr que asegurarse de utilizar la codificncihn
Unicode como base. Por cicrto. cl progratna SIL Shoebox cstaba basado
exclusivamente en 8 bits e interactiinba bien con los controladorcs Kcyman,
pero nicamentc con base de 8 bits. La riiisva versin, Toolbox, tiene base
Unjcode y debera trabajar bien con los diseos de teclado Keyinan con
basc de 16 bits.
2.
La codificacin de elementos textuales:

Apariencia superficial KT.marcado de con tenido
1.1.La estructura textual visualizada
Tratemos ahora el segundo tema de este rapjtulo, es decir, la codificacin

de los elementos cstructurales de los textos. Para aclarar lo que esto
significa, serri til volver a ver el texto en suano con cl que hemos trsbajado
antes (vease la Tabla 9). Incluso sin ningn conocimiento de la Leiigua, de
inmediato tenemos la impresin dc qiic cste texto est formado por versos.
Esto est claramente ii-idicado por dos seales a las que estamos
acostumbrados en la lcctura de textos poeticos, a saber: las lneas son
relativc?nientecortas, y estn enumeradas (de la I a la 1 1). Sin embargo, hay
~nuchosnis elementos de estmctura textual involucrados. Primero, es fcil
suponer yiie el texto consta de cinco oraciones. que se extienden de manera
parcial entre los versos y quc consisten, en parte. de clusulas subordinadas:
esto est indicado por los signos de puiltuacihi-i. Dcspufs, podemos afirmar
que el texto consta de 38 palabras, a su vez indicadas ya sea por espacios eii
blanco o por signos de puntuacin colindanics a los primeros o ultimos
caracteres.
2.1.1. Los elerngntos bsicos
Para la documentacin de materiales textuales, aunque pueda parccer trivial,

es determinante considerar y marcar los elementos iritcrnos cuando se les
prepara para el uso futuro y esto deber hacerse de tnaiiera tan consistente
Capirulu 14-Lcr dcicurnenduciBn lingstica y la cod&cacun de textos 405
como la codificricion de los caracteres que aparecen en las palabras. De

que elementos estamos hablando? Entre los elementos bsicos de todo tipo
de texto, ya hemos mencionado las palabras (que en su fomia escrita estan
compuestas de caracteres), frases, clusulas y oraciones: a un nivel superior,
encontramos secciones, prrafos, capitulas, partes de texto y cosas por el
estilo. Para muchos de estos elementos, intui t ivamente adaptarnos seales a
las que estamos acostumbrados desde que ibamos a la escuela, conlo los
espacios que sealan la divisin de palabras, los puntos finales que indican
el final de una oracin o el tiuevo rengln que indica el inicio de una
seccin o de un prrafo. Sin embargo, esto podria no ser suficiente para la
codificacin consistente de un texto digital. Otro ejemplo bastar para
deinostrar por qu no.
2.1.2. Un ejemplo ilustrativo
En la Tabla 14 vemos un extracto de un tratado prarnritical en georgiano del
siglo xviri digitalizado con MS Word 6. Sin teiier el inii~in-ioconocimiento
de la escritura georgiana, un lector podria suponer que la primera linea del
texto es un encabezado o un titulo, puesto que, obviamente, consiste tan
slo de uria palabra, est al centro de la linea y parece estar representada en
negritas. En lu que se refiere a las otras linsas de texto, el lector fcilmente
sospechar que se trata de una interacciiiti de preguntas y respuestas, esto
est claramente indicado pcir los signos de interrogaciiin. Otra sugerencia
podria imponerse: como la primera palabra de cada pregunta y respuesta
est separada por dos puntos y destacada por un espaciado adicional entre
caracteres, y como estas palabras se rcpitcn a travks de las preguntas y
respuestas, podran ser los nombres de las personas que hablan (coino en
una obra de teatrci). Todas estas suposiciones son correctas: tcneiiios una
intcracciri de przgiiritas y respuestas enunciadas aqu por dos personas
diferentes (una es loane. la otra, Nikolaoz) y la primera linea es el titulo
(que significa simplemente "Sobre la gramtica"). La razn por la que fue
tan fcil descubrir todo esto es que en este caso, una vez ms, se utilizaron
mtodos de marcado a los que estamos acostumbrados al leer: centradci de
lneas, uso de negritas, espaciado eritre caracteres, etc. Sin cnibargo, para
propsitos computacionalcs, estas marras. a las que llamaremos "orientadas
hacia la superficie" (szirJnce-orienrtw'),su11 arbitrarias e insuficientes en dos
sentidos.
Tablu IQ. Muestra de texto georgiano
2.1.3. Ctiracterist icas rIt7 progrumu vs. ~>slu/~dores
Primero, el ceritrado de las lneas puede ser una caracterstica comn de

todos los procesadorcs de palabras que existen hoy en da, pero de ninguna
manera esta estandarizadci: la codificacin de esta caracterstica
siinplemente depende de la estructura dcl piugrama. Pard ilustrar lo que esto
sigriifica, la Tabla 15 muestra una parte dcl codigo interno del texto
gcorgiano en MS Word. Ay ui podcmos localizar la palabra incluida cn el
encabezado ( ~ h $ a ~ & o ~ i l i m 3 0 I r"Sobre
,
Gramtica" cti georgiano.
almacenada en t'urma dc S bits) al final de lo que parece scr una sexta I nea,
seguido de las preguntas y resptiestas en forma de "texto legible". No hay
ninguna indicacibn colindante a la palabra que corresponde al titulo de que
sta deba estar centrada o en negritas, ni tampoco que represente iiii
encabezado. Todo esto [o debe inferir el programa que lo interpreta,
partiendo del crdigo ilegible que lo precede (o de un bloque de elementos
de codificacin similar que sc aade al final de cada docurncnto de M S
Word). Imagirieriios que alguien tuviera que dccodificsr este documento
dentro de 200 aos, sir] tener ningn acceso a la estructura de codigos
interna del programa MS Word 6; ciertamente, esta persoria no sera capaz
de extraer nada salvo el "texto sitnple", y toda la informacin adicional
referente al centrado de lneas y el texto en negritas se perdera (de hecho,
muchos de nosotros hemos experimentado esto cuando tratamos de abrir
documentos de MS Word de la dcada de 1980 en vcrsiones posteriores).
Lo rnisrno ocurriria con los caracteres "espaciados" que indican a los
hablantes en el texto. Este espaciadci tambin esta cubierto por una funcibn
interna del programa y se perdera junto con cl conocimiento del cdigo.
Capitulo I #-La documentaciiin li~igui,stica

y la cudificacibn de textos 407
Por cierto, no seria buena idea evitar este efecto al insertar manualmente los
espacios entre caracteres eri vez de usar la fi~ncibnespecifica para elIo del
procesador de palabras, pues como utilizamos espacios para distinguir unas
palabras de otras, cualquier anlisis inforrntico leera el nombre espaciado
1 O A N E corno cinco palabras (cada una forrnada por un caracter) y no lo
encontraria si se buscara como "IOANE".
Tubla 15. Muestra del texto en georgiano en codificacin especfica de

programa
oi'aiIY@wyvwjrurvwuYYYYm~ W W u u m A .
w j jBM*mFfiMiC
y
Word 6,0
m
rOSOft
DocygyyWord,Doc"mentt6~o
92gYY
fi *Mi~'AywaAWji
NORMAL.DOTW
yyyAyrj.ji BmDBn
~
-MSWord-
A~~y'Am~A~C:\WORKDIR,TEMPLATE\
whBMCE8..
......"" ..
W~~~~W~URAMMAOI~ISA~S
IOANEM: OTXNl 1Gl GVARNI MOXUVREBITNI,ROMELNICA ,EUdGEBIAN,

dAEMdEVREBlAN ~ R A M M ASA.
A~I~
NIkOL40rMAN: RAJ ARS SAXELEBI MATI?
IOANEIUI:GANSAZUVREBA,GANAVALEBA, A~MORENAd~ AULEVA.
NlfOLAOzMAN: f VALAd RAJ SAQMAR ARS CNOBAd?
2.1.4. Lo que st?i ~ NO

e cs 10 y ur se obtiene
Entonces, ;,y u se puede hacer para evitar la perdida de infonnacioii

referente a la estructura de los textos y a sus elementos? Primero, debemos
deshacemos de un ideal dentro del procesamiento de textos, que se ha
generalizado en nuestros das, a saber: "Lo que se ve es 10 que se obtiene"
(en ingles se usan las siglas WY SIWYG: Whar you see is whaf yoic ge).
Puede ser cierto que el texto que se teclce en la computadora hoy se vea
igual en la pantalla de la computadora o zri una inipresin. pero todo esto
queda restringido a un uso efimero: Ia proxirria generacin de usuarios del
texto quizs no tcnga acceso a las sofisticadas codificaciones del procesador
de palabras utilizado para capturarlo y por lo tanto obtendr cualquier cosa
salvo "lo que se vio". Segundo, debemos renunciar a la idea de que los
mecanismos tipogrficos (como negritas, el espaciado de caracteres y otros
por cl estilo) pudieran ser suficientes para indicar la funcin de los
elementos del texto. En vez de eso, debemos adaptarnos a lo que se podra
408 Jost Gipperi
llamar "marcado de contenido" (~.onirtirrnurkup) en caso de que los textos

se almacenen para propbsitos de duciitnetitacin.
2.2. Una solucin intermedia: HTML

En aos recientes, el marcado de los elementos textuales se ha gcneraiizado
cada vez ms, en especial con la expansin de la red mundial World Wide
Web y con la necesidad de usar determinado iipo de estructura de
codificacin de texto unificada para documentos que han de subirse a la red.
Esta estructura se llama HTML (HyperText Markup Lungirt~ge~
Le~igiiajede
Marcado de Hipertexto). Las Tablas 16a y 16b presentan iiiia muestra di:
texto en georgiano convertido a HTML (como cdigo fuente y visiializado
con un navegador web estandar); aqu se encontraran facilmente los
dispositivos de marcado correspondientes al centrado y a las negritas del
encabezado, es decir, los marcadores y ...
. Lo que no se encontrar es el marcado especial de los nombres de los
habiantes. porque el espaciado entre caracteres nci puede marcarse como tal
en HTML. Aunque pueden usarse para este niarcado Ins I laniadas "hojas de
estilo en cascada" (c~~scurliirg
sriulr shc.ets, CSS), no seria buena idea recurrir
slo a estas Iirjas, porqiii: comu el espaciado de caracteres no tizne un
signjlicado estandarizado. los futuros usuarios difcilmente tendran idea de
qu representa. De la inisma manera, sigue siendo poco claro qu indican el
centrado y las negritas de la primera lnea: que sc trata de un encabezado es
una mera suposicin. De hecho, el marcado que HTML proporciona
contiene muy pocos elementos "de contenido". Uno es el grupo de
marcadores de c H 1 > a <H63., que debera utilizarse para indicar varios
niveles de encabezado. En nuestro caso, seria mucho mejor marcar nuestro
encabezado con iirio de estos elementos (remplazando ...
<Ip> por < h l align=center> ... </hl>). As, la apariencia exterior seria
secundaria y adaptable a usos futuros.
Capitulo 14-Lu dfinrrnentucibn lii7giiistica y la cadiJicucin de ratos 409
Tc!hl~l160. Codificacin en HTML simple dc la muestra de texto georgiano

<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT-"textlhtml;

charset=iso-8859-l ">
cTITLE>GrammatikacTlTLE~
<META NAME="KeyWordsUCONTENT="GiorgianGrammafz
cBODY>
<DIV>
CP A L I G N = ~ C E N T E R ~ ~ ~ B > U M M M A ~ I ~ I C A T W S ~ I B ~ C I P ~
<IDIV>
<DIV>
cPrIOANEM:cISPAN>OTXNl 1Gl GVARNI
MOX~~VREBITN
1, ROMELNICA ,EUdGEBIAN: dAEMdEVREBlAN
URAMMAO~~ASA.CISPAN><IP>
cP>NlfOLAOzMAN: <ISPAN>RAJ ARS SAXELEBI
MATI?<ISPAN>cIP>
~SPAN>IOANEM.
~/SPAN>GANSAZUVREBA,
GAN~VALEBA.
AUMORENA d~ AULEVA.CISPAN><IP>
<PrcSPAN>NlfOLAOzMAN: <ISPAN>iVALAd RAJ SAQMAR ARS
CNOBAd?<lSPAN>clP>
T ~ ~ h 16h.
l a Apariericia de la muestra de
un navegador
texto
georgialio en HTML vista en
2.3. Marcado de coriteiiido rcal: XML

Entre ms jiifori~iacinde cstc tipo tiaya que codificar, menos eficiente ser
el marcado en HTML. Para i i n marcado consistente de Icis contenidos de un
texto, habra que ir un paso n - i h a116 y adaptiirlo a XML ~cX~ensible
Murkup
Languag~. Lenguaje de Marcado Extensible), un derivado del SGML
(Standard Getiertzli=etl ,iMarkup Lunguage, Lerigua-je Estindar de Marcac ion
Generalizada). Slo esto permitira proporcionar 3 los futiiros usuarios todo
el conociiiiiento que se pudiera tener sobre los textos en los que se est
trabajando. Coii el marcado X M L se puede declarar no sdlo e1 encabezado
del texto como tal, sino a los hablantes como hablantes, sus enunciados
como preguntas y respuestas relacionadas entre si y cualquier otro elemento
textual que pudiera ser til definir. En la Tabla 17 se muestra el ejemplo de
gramtica georgiana con un minimo de marcado XML: ntese la diferencia
con el marcado HTML, en el que las etiquetas carecen de "sentido" e
indican exclusivamente el formato de la presentacin del texto.
Tabla 17. Codificacin en XML de la muestra de texto georgiano
C ~ ~ ~ i t 14-La
z t f o documentacirjn lingstica y la roci~ficacinde textos 4 1 1
3.4. XML en la documentacin lingistica: ms all de la codificacin dc

texto simple
Por supuesto. en un marcado XMI, se puede incluir cualquier tipo de

anlisis de unidades lingisticas, como palabras o frases, y sta es la
verdadera ventaja que ofrece para la documentacin lingstica.
Seguramente los futuros usuarios no se interesarin en la belleza superficial
de un texto lirigistico, sino en la cantidad de informacin que esto pueda
proporcionar acerca de la lengua misma. Durante muchos aos los
lingistas han utilizado el programa Stioebox para registrar y anotar los
textos que recopilan durante su trabajo de campo, y para muchos de
nosotros son indispensables las posibilidades que ofrece este programa, en
especial el proceso semiautomtico de interlineado (vease la Figura 2, que
presenta una oracin en la lengua tsova-tush o batsbi del Cucaso).' La idea

bisica de las glosas interlineales que permite el programa Shoebox runsiste
e n 21 at-reglo vertical dc nivclcs o capas de anotaciones interdependienttis
que pueden incluir, como en el ejemplo, diferentes trascripciones y
trasliteraciones (en este caso, escritura georgiana, latina y en IPA), anilisis
tnorf~1l8gicos,referencia a formas leinticas, traducciones de las foriiias
ltittiiticas, etc. Sin embargo, el formato de Shoebox no es suficiente para un
niarcado ~ninucioso,pues presenta dos desventajas. Prirncro, la codificacin
iitilizadri siguc estando basada en 8 bits, de manera que un despliegue
cotrecto dependera de las funciones interpretativas del programa (vease la
Tabla 18, que muestra el mismo texto de Shoebox cuando se abre en un
editor de testo normal). Aunque esta desventaja fue superada recienterricnte
con la introduccin del programa Toolbox, sucesor de Shoebox 5.0 y
compatible con Unicode, persiste una segunda desventaja: las
interdependencjas de los elementos alineados verticalmente no se inarcati
como tales en un texto de ShoeboxToolbox, sino que deperidzn dc la
interpretacin de los espacios entre palabras. Aqui ayudara el ttiarcado eri
XML: slo despus de convertir el arcliivo dc Shocbox a un esquema XML
con base Unicode, como se muestra en la Figiira 3 , podemos tener la
confianza dc que toda la informaciijn alinacenada eil el docurnrtito szri
accesible para los futuros usuarios duran te mucho tiempo I vase el capitii lo
4 para otros ejemplos de la aplicaciiin de XML).
'EI ejemplo provime de[ matenal registrado en e l prciyrcto "ECLinG mencionado en la

nota l.
OS:6L:60 EE 7
.tuaql a 6 ~ 0q
j smylow l!ayi w a y w d e aq i6nw squi~lo u al\
qom!~eip
!pusuqiaq w ' u n i d ! spun sl- ulis!qapep !s@m!qauo~.mq
t64\
* l a p w ! ~ r i lqaueuqia
p
qm ' w d !epun
ue6s!qapap ! s ~ !qawiq
q
641
'sdE'I3VPuW -lWPu!-I;HPu! $4 - J g v - J d -paPu!'4wd+'ld'aol 'PaPu! 'Id'mN Jh
-A - ~ a i d ' l d n 'u03
o ~ -I\-A - A W '1f)Z'N 'uad#aH 'AOP'N d\
ja6q-m JaWo-qDeo tay waq-w'aq-q h e m - a q q luqs!p lalffau umo quiq I&
eqW!nirp ! l a u v a wai woy'irld'sudo5 e - o l F si* epap ~ s !ue@iq
~ q L@
eq+!~EZp !JEI"SuiV3 "Jai s " 0 q ' s ~ ~ I 'F ~O Ju~ ~. Eu g spip !=!*m!umoLsq 6\
r i B p ! W . p aBqoUA Bui a ~ ~ ! x ' a b
~ el UUu
p a!@ xr& LWl\
mepoD!mp a i q R A aui r i ~ ~a!yxa p b y U8U
x f v uih
4-la-p!-p
nRq?Eh a u rten!x y.
. b q aa~o6!-ueua!n? n-xw ~ur\
h - x U\
~
+ - p p ! W P p apq?Bh W aPnK
, yo-p bw nBni&!-ueu
$ l o p s ! m p aaqaah aw ain!x y a p bw naio!u~un~ n x v ~ q \
+ p p a ! ~ riiqai*
~p
i u i riin!iWp
ma~o~!uiu
a!n? nx& sl\
MIO~!WW
>V~SVA
aui
,f&~plwsi~
ie~o6!qu
z!nS n.&
qd\
&
>w!x
~m
J l o p ! p w p neqeen aui n e p x yap b y nai06iueu n!n? Anxw

-$topa!~ep
rieq?=n aui 'uin!x
, vap bw aai06!u~ua!n? nxw sq\
si'JW
G8PO PJ\
sepeau![laiu! sauo!3t)loue uon xoqaoys ap olxa3 ap O A ! ~ ~ . I V-Z n ~ r i S i j
414 Jost Gippert
Figura 3. El mismo ejemplo de la Figura 2 convertido a formato XML
2.5. Perspectivas
Aunque es cierto que los lingistas todava no usan el XML de manera

generalizada (en el trabajo de campo), tambin es cierto que cada da se
populariza ms y que es cada vez ms facil conseguir programas de
software que producen documentos consistentes con XML (vase la lista de
recursos al final de este libro). Tengamos o no la intencin de aplicar los
mtodos de XML en el futuro cercano, vale la pena tomarse un tiempo para
visitar la pgina web de la Text Encoding Initiative (TEI, "Iniciativa de
codificacin textual"), tan slo para aprender un poco mas sobrc lo que
significa la estmcturacin de elementos textuales. Esto sin duda mejorari el
trabajo lingstico.

Documentación 22

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Documentación 22

Încărcat de

Drepturi de autor:

Formate disponibile

Captulo 14

La documentacin lingstica y la codificacibn de

l . La codificacin de caracteres: de 7 bits a 32 bits

En todos los equipos digitales modernos, Iri codificacin de caracteres se

frances o espahol, y ni qu decir de los textos griegos, rusos o chinos en sus

PRE!DD)O AGNE DI:DIHI PURO! NO! 'JASRAYA: SU:RMYA:&

M+ S=A!S=VANTA U!PA YANTf VA:!JA:H-

1.2. PCs, Macs, DOS y M S Wjnduws: cstaridares y no estndares basados

Este problema qued silperado al meiicls de rnaricra parcial al extender a 8

AUn as, estos sistemas no eran suficientes para la codificacin inmediata de

! ' # S % & '

! ' # S % & '

Adems de estas extensiones "oficiales", desde principios dc la dcada de

lenguas y de los lingistas. Dc heclio, cada vez que alguien desarrollaba o

394 Jost Cippert

codificacin de 8 bits en la coditlcacin de textos, se debe almacenar

Tabia i Codificacin no estandarizada de 8 bits: gricgu antiguo

Cuptulo 14-La do~~ut~let~~uciB12

Tabla 8. Codificacinno estandar de 8 bits: fuente latina con diacriticos

! " # t " "

1.3. ConversiJn y pcrdida de datos: un ejemplo

En la Tabla 9a se muestran las diez primeras lneas de una cancin popular

posibilidades de adivinar los valores de los caracteres crucialcs y por lo

Tabla 9a/h. Mapeo de caractcrcs en una codificacin de 8 bits: muestra de

vui 1141 .:d$ir~l:

2 i\f trsvr,?ii pbns esgari.

M.,iTrv r-a!Ji 1.1 :ibas e s

s g ' > k i:: l&mxvida:.: -1:~l9aro,

9 DnirLierxo lr.ki;i esq;~rl;is.

1.4. Unicode: hacia un tistindar mundial

~ C u les, pues, la solucin a este problema? La rzspuesta es clara: para

Capitulo 14-La documentacibn lingtica y /a ccd{ficucicinde textos 397

bits, que genera un total de 2'2 = 4,294,967,296 puntos de cdigo. De

Fgiru l . De la coditicacin dc 8 bits a la dc 32 bits

El estndar Unicode ha cobrado una importancia creciente desde finales de

Tabla 10 a h . Codifcacion en 16 bits: bloques Unicode para los alfabetos

que pudieran estar incluidos en esos textos. En la Tabla 1 1 se ilustra lo que

pasa cuando la canci6n popular en suano mencionada antes (vase Tabla 9 )

f.01 scihirulo Ni~nlsnln!

spbili Icr-,ri-irin.u -oljnr~,

i.oA gnl snbirelo Nlinrsolci!

1.5. Estndarcs coexistcntes: el peor de los casos

400 Jost Gippczrt

materiales antiguos. El principal problema est en el hecho de que, por el

Tabla 12 a-d. "Conversion" autui-i-iatira de texto: ejemplo del georgiano

a. Texto original (MS Word ti)

Captulo 14-La documentacin Il~guisricay la cod~~cacin

b. El mismo texto despuis de una transferencia entre versiones de un mismo

c. El mismo texto despus de transferencia entre programas (MS Word 6 >

d. Lo mismo ocurre al aplicar una fiiente diferente (dentro de Open Office

Cmo puede explicarse esta conducta extraa de MS Word? Obviamente,

1) Verifica si el documento est codificado en Unicode.

5 ) Almacena los caracteres Unicode en la memoria.

Otro problema que podra ser crucial incluso en tiempos de Unicode es la

Capitulo 14-Lu rlt~cumenfu~-ibn

1.7. Sugerencias y recomendaciiities

En lo referente a la codificacion de caracteres, todo lo anterior nos lleva a

Cuando sea posible, asegurarse de utilizar codificaciii de 16 bits y

Los archivistas y encargados de acervos documentales debern ser an ms

404 Jost Gippert

controladores de teclado especiales que hayan sido proporcionados por

La codificacin de elementos textuales:

1.1.La estructura textual visualizada