Documente Academic
Documente Profesional
Documente Cultură
1.Los anotadores olvidan aadir cosas siendo cuantificadas por la etiqueta QUANT. Las etiquetas
correctas son: segunda fila[QUANT] la cuarta economa ms grande[QUANT] 202 camiones
de abono[QUANT]. Solamente sepralos si la cosa siendo cuantificada es una entidad: "Compr
10[QUANT iPhones[COMM]"
2. Grupos de personas de una cierta localizacin o etnias son etiquetas plurales PERSONA, no
MISC ni ORG: "Rusos[PER] llegaron en grupo en 1990[DATE]", Los Turcos
Otomanos[PER] hacen buen caf"
3. Las etiquetas EVENTO no deben ser separadas en cosas como Fechas y Localizaciones:
"Recuerdo la masacre de armenios en 1992 [EVENTO]"
4. Las etiquetas de cantidad QUANT deben incluir designaciones como "ms que", "sobre", "mas
de", "por encima de" en cantidades como "mas de 10 computadoras[QUANT] fueron
comerciadas" y "mas de 50 personas[QUANT] llegaron"
b. MARCA sigue siendo MARCA cuando es usada como sustituto para un producto: "Amo mi
PC[MARCA]", Tu Ford[MARCA] est daado"
c. Debe ser organizacin ORG cuando se refiere a una entidad fsica ("Yo trabajo en
Ford[ORG]" o acciones tomadas ("Cocacola[ORG] lanz un nuevo producto)
6. Localizaciones usadas como sustituto para burocracias, entidades polticas, y equipos deben ser
marcados como ORG ("Boston[ORG] gan el juego", "Rusia[ORG] rellen una demanda",
"Washington DC[ORG] nuna logra nada"
7. Para Hashtags y Nombres de Usario, solo deben ser marcados como una entidad si la referencia
despues del #/@/etc... es a una entidad, Persona, Organizacin, Marca etc.
Por ejemplo: En el texto: "Yo disfrut viendo La caza para la gente salvaje protagonizada por
Sam Neill en el Teatro Roxy el sbado pasado", deberas identificar cuatro entidades:
Tipos de entidades:
2. Localizacin (LOC): Ubicaciones fsicas como: paises, ciudades, lagos, edificios, planetas,
coordenadas geograficas, calles, nacionalidades, etc...
5. Artculo comercial (COMM): iPhone, Corolla LX, Barbie, etc... (cualquier producto no
genrico que se pueda comprar)
6. Ttulo (TTULO): Nombre de cualquier creacion o trabajo artstico creativo que no entra en
las sub-categoras: Pelcula, Cancin, Libro, Software, or Juego.
13. Fecha (FECHA): Cualquier referencia a una fecha o tiempo, sea especfica, general,
absoluta, o relativa.
14. Cantidad (QUANT): Todas las medidas junto a sus unidades (moneda, porcentaje, numeros,
bytes etc...)
15. Otro/Miscelneo(MISC): Cosas que son entidades nombradas pero no entran en ninguna de
las categoras anteriores. (Ejemplo: Lenguajes, identidades tnicas no vinculadas a un pas de
origen)
Definicin de entidades:
NOTA: Para los diferentes ejemplos de tipos de entidades abajo, las entidades resaltadas en
Verde son el tipo de entidad de la que se esta hablando. Todas las entidades resaltadas en
Amarillo tambien son entidades nombradas pero de un diferente tipo que ocurren al mismo
tiempo en la oracin.
Incluye personajes ficticios (Ejemplo: Gollum, Zeus), aunque los usos idiomticos no se
incluyen ("Dios mo eso es un pastel grandsimo" "Ay Cristo lo hizo otra vez" puesto que no
contienen referencia a una persona.
Incluye referencias a individuos a travs de otros identificadores como perfil en redes sociales
(Ejemplo: @tenniscool123, @realDonaldTrump)
Referencias a Dios en forma nominal ("Yo creo en Dios"), pero no en foma general ("Si existe
un dios, entonces estar bien")
Incluye ttulos oficiales asociados con el nombre (Ejemplo: "Me reun con el Presidente
Clinton", "El Vice Rector Phillips se jubil", "Cundo se jubilar el Lider de la Mayoria de
Senados McConell?", "Por favor invita a la Abogado del Condado del Estado Anita Alvarez a
la reunin")
Incluye plurales para grupos de personas de lugares especficos ("Los Europeos vienen") o de
ciertas nacionalidades ("Los Rusos hacen la mejor sopa") incluso si se combina una ubicacin y
etnia (Los Turcos Otomanos hacen buen caf)
Incluye etiquetas separadas para multiples personas mencionadas juntas ("Mis amigos Kelsey y
Kate Graham llegaron")
NO incluye el lugar del cual una persona es, si ya la persona ha sido mencionada
explicitamente. (Ejemplo" Me reun con el Presidente Obama de los Estados Unidos[LOC]")
NO incluye referencias de trabajo ("ve para el carnicero") a menos que que est en mayscula y
usada como un apodo. ("El Carnicero gan otra ronda en la pela de MMA") o que este
refirindose contextualmente a un individuo mencionado ("El Canciller y La Secretaria
llegaron a la ceremonia de inscripcin")
NO incluye ttulos de trabajos no obtenidos: "Ella se est postulando para presidente" ya que no
contiene una entidad nombrada.
NO incluye referencias pronominales (Ejemplo: yo, l, ella) o relaciones familiares ("mi padre")
NO incluye ttulos honorficos (Ejemplo: "Sr. Edward Jones", "Dr. Daniel Swingley") a menos
que el ttulo honorfico sea parte de su nombre oficial (Ejemplo: Mr T, Dr. Dre)
NO inlcuye sufijos obtenidos durante su vida (PhD) pero incluye sufijos que forman parte del
nombre propio (Ejemplo: Sammy Davis Jr., Michael Jones III)
Como regla de oro: si el url de la pagna de Wikipedia incluye el ttulo, sufijo, etc,
probablemente es parte de su nombre.
Incluye estructuras hechas por el hombre: (La 5ta Avenida, El Puente Tobin), edificios
(Edificio Empire State), monumentos, (Monumento a Martin Luther King Jr.)
Incluye usos especficos de Marcas u Organizaciones cuando son usadas par referirse a un lugar
especfico ("Regres al Hilton a las 9pm", "Llegamos a Amazon despus de cenar") pero NO si
son usadas de manera genrica ("Me quede en el Hilton[MARCA]", "La Posada
Hampton[MARCA] es mucho mas limpia")
Modificadores de direcciones como "sur, ms alto" siempre deben ser incluidos como parte de
la ubicacin (Ejemplo: Europa Oriental/Europa del Este, Corea del Norte") a menos que
sean referencias adjetivales que no modifican la ubicacin (Ejemplo: cocina
surea,hospitalidad del norte)
NO incluye pases, ciudades, estados, imperios, etc... cuando hacen referencia a la estructura
burocrtica y no a la localizacin geogrfica, la cual debe ser clasificada como organizacin
(Ejemplo: "Los Estados Unidos[ORG] invadieron", "El Gran Imperio Romano se extedi por
todo el mundo")
Debe siempre incluir el elemento ms largo de ubicacin posible (Ejemplo: Por favor envalo a
"Calle Growning 123. Nueva York, Estados Unidos")
Incluye nombre de hospitales, museos, bibliotecas, etc... a menos que sea claro que es una
referencia de ubicacin, en cuyo caso debe ser marcada como localizacin.
Incluye organizadores de eventos cuando son usados para referirse a la organizacin en vez de a
un evento actual (Ejemplo: Los Grammys anunciaron 10 nominaciones El scar le pidio a la
academia votar rpido
NOTA: Algunas veces es difcil diferenciar ente una organizacin y un grupo de personas. A
menos que se haga referencia a un subconjuto especifico, colocaremos Organizacin en vez de
Persona para entidades como: "La Tropa de Estados Unidos", "La polica de Chicago", etc...
Frecuentemente se dar junto con un Artcuo Comercial (Ejemplo: "Hoy compr un iPhone
6[COMM] de Apple[MARCA]", Viste mi nuevo Ford[MARCA] Mustang[COMM] en el
garaje?
Incluye nombre de Marcas cuando son usadas para sustituir una familia o productos
comerciales. (Ejemplo: "Compr una Apple[MARCA] para remplazar mi PC[MARCA] y
realmenteme la amo")
Incluye fabricantes de software ("Mi servidor Windows"), (bebe "la nueva CocaCola
Zero[COMM]"), naves espaciales ("La nueva nave espacial de NASA Voyager[COMM] dej la
galaxia")
Cualquier artculo no genrico que sea comprable o adquiribe dirigido por un nombre
especfico. (Ejemplo: Barras NutriGran, iPhone 5)
Incluye cualquier cosa que tendra una pgina de producto en Amazon, Target, etc...
Incluye solamente las lineas de producto de alto nivel, usualmente registradas como "marca
registrada" ( Ejemplo: iPhone, Corolla)
Incluye los modelos de lineas de producto (Ejemplo: iPhone 6s, Corolla LE)
Incluye la versin del producto si sta es parte de el nombre (Ejemplo: MacBook Air II)
Incluye productos grandes que solo tuvieron un artculo fabricado (Ejemplo: Apollo II, SS
Titanic)
Incluye referencias a artculos comerciales individuales por un identificador unico como ASIN -
Nmero de Identificacion Estandar de Amazn, por sus siglas e ingls-(Ejemplo: Please order
item B00ODDE33U on Amazon.com) or SKU
Incluye etiquetas separadas para mltiples artculos comerciales juntos, incluso si la referencia
son nmeros de partes (Ejemplo: Por favor, ordena la parte W10311524, 2319308, &
W10335147")
NO incluye el tipo de producto cuando es usado junto al nombre oficial del artculo comercial
(Ejemplo camioneta no es parte de la entidad nombrada en "Compre una nueva camioneta
Volvo[MARCA] V70[COMM]")
No incluye marcas cuando son usadas como sustituto de el artculo comercial (Ejemplo: Amo
mi Ford[MARCA], el Roku[MARCA] estuvo increble, Viene con la PC[MARCA]?
NO incluye productos que pueden ser fabricados por diferentes compaas incluso si contienen
un trmino en mayscula (Ejemplo: I need a USB 2.0[MISC] stick)
[QUANT])
Nota: Muy frecuentemente los Artculos Comerciales sern mencionados juntos con una marca,
en cuyo caso la marca debe ser sealada de forma separada al artculo comercial (Ejemplo:
Compr un iPhone 6s[COMM] de Apple[BRAND] ayer", Ese es Ford[BRAND]
Mustang[COMM] muy rpido!)
Ttulo (TTULO): Nombre de cualquier creacin u obra de arte creativa no capturada por las
subcategorias: Pelcula, Cancin, Libro, Software o Juego
Incluye el nombre de cualquier trabajo creativo que no encaje en uno de las cinco subcategoras
de TTULO (Pelcula, Cancin, Libro, Software, Juego)
Incluye Pinturas (Ejemplo: "Has visto la Mona Lisa?"
Incluye Esculturas (Ejemplo: "l est sentado all como El Pensador")
Incluye Poemas (Ejemplo: "El Cuervo es una obra maestra")
Incluye ttulos de Leyes/Legales (Ejemplo: Declaracin de Derechos, Pacto de Varsovia,
cdigo IRS 4, Seguridad Social)
Incluye nombres de danzas (Ejemplo: Tabata, Waltz)
Incluye nombres de ejercicio (Ejemplo: Zumba, Ciclismo)
Tambin incluye bailes, fotos, ensayos, premios, programas de radio
Incluye encabezados de peridicos si se usan de manera referencial (es decir, el ttulo no es
marcado como ttulo si ests marcando el artculo de peridico en s, pero s se incluye si otro
texto se refiere a este artculo por su encabezado)
Incluye ttulos de episodios de una serie, subttulos de captulos de libros, nombres de blogs
Incluye ttulos de documentos electrnicos (Word, Excel, etc ...)
NO incluye referencias genricas a obras de arte como "la pintura" o "su primera pelcula"
No incluye seccin, captulo, subttulo, o cualquier otro designador ms all del
titulo principal
NO incluye la fecha asociada a una publicacin, ya sea ttulo completo o single
(Ejemplo: "Acabo de comprar la edicin ligera de Food and Wine [TITULO] Agosto
2017[FECHA]
NOTA: Si el ttulo de algo est siendo discutido en un contexto comercial, como un libro siendo
vendido en Amazon o una cancin que se compra en iTunes, se debe marcar como TITULO en
vez de un artculo comercial, ya que es principalmente un ttulo, y siempre puede ser identificado
como el artculo que se vende en ese contexto.
Libro (TITULO: LIBRO): Nombre de un libro (ficcin, no ficcin, historietas, grfico), ya sea
profesionalmente publicado o autopublicado.
Incluye libros comunes publicados (Ejemplo: "Lo que el Viento se Llevo es un clsico!")
Incluye novelas grficas (Ejemplo: "Pens que Watchmen: Los Vigilantes original era mejor
que la pelcula")
Incluye historietas (Ejemplo: "las nuevas historias de X-Men y Avengers son increbles!")
NO incluye diarios (Nature[TTULO]), revistas (Variedades, Estampas, Men's
Health[TTULO]), o peridicos (The New York Times [TTULO]), los cuales deben ser todos
clasificados como un "TITULO" regular.
NO incluye nombres de artculos dentro de revistas, diarios o peridicos (TTULO)
NO incluye ttulos de piezas acadmicas, incluso si se trata de disertaciones de
Publicado explcitamente en formato libro (clasificado como TTULO solamente)
Otro/Miscelneo (MISC): Cualquier entidad con nombre que no encaje en ninguna de las
definiciones anteriores
Esta etiqueta debe usarse cuando el texto se est refiriendo a una entidad especfica pero no
encaja claramente en ninguna de las categoras anteriores. Esto NO debe ser utilizado para casos
donde la categora no est clara o puede ser ms de una. Slo si la entidad realmente no pertenece
a NINGUN de las otras categoras, pero es definitivamente una entidad con nombre.
Especficamente, los siguientes tipos deben ser clasificados como Miscelneos
(NOTA: esto no es una lista exhaustiva)
4.Idiomas, ya sean reales (Ejemplo: Ruso), ficticios (Ejemplo: Klingon), o jerga
(Ejemplo: Spanglish, Piglatin)
5.Etnias (Ejemplo: rabe, Latina, Chino-Americano, Americano)
6.Nacionalidades (Ejemplo: Ruso, Chino, Australiano)
7.Los trminos de marcas comerciales utilizados para referirse a los componentes del
producto (Ejemplo: "Usuarios Activos a Diario", "Carrito de Compras") caratersticas
(Ejemplo: Delgado, Ultra Silencioso), o trminos tcnicos (e.g.
DynamoDBTable). NOTA: Slo si estn en maysculas.
8. Signos astrolgicos (Aries, Geminis, etc...) a menos que sean usados para referire a la
ubicacin en el espacio donde esas constelaciones residen.
9.Nombres Propios de entidades cientficas(Aurora Polar, Canis lupus, CRISPR)
10.Medidas que no son cantidades, como tamao (Ejemplo: Pequeo, Mediano,
Grande), incluso si es una talla especfica con el producto (Ejemplo:jeans 32-E),
tamaos de colchones (Ejemplo: Twin, Queen, King), pureza (Ejemplo: anillo de oro
24k)
11.URLs (Ejemplo: www.google.com, https://sftp.mysite.org)
12.Direccines IP (Ejemplo: 192.268.1.1)
13.Nmeros de telfono (Ejemplo: 1-800-343-2323, 215-car-talk)
14.Direccines de correos (Ejemplo: me@mysite.com) Nota: Aunque los correos
electrnicos son miscelneos, los nombres de usuario que son referencias directas a las
personas siendo etiquetados como Persona(Ejemplo: menciones de redes sociales como
"Vi a mi amigo @jayallenconrad [PER] en el cine" o "Hey @coolchica123 [PER], te
amo!!!!)
15.Secciones, captulos, designadores legales de sub-encabezados (Ejemplo:Section
392, USC 3.0 (s1.2)")
16.Nombres de imprevisto que se le dan a creaciones temorales (Ejemplo: Postalo en la
Bveda de Ideas)
17.Nombres de imprevisto que se le dan a un grupo de personas (Ejemplo: Solo la lite
Americana crey en ella)
18.Nombres estndares como (Ejemplo: DNS, TTL) o formato (Ejemplo: PDF, GIF)
19.Ttulos oficiales obtenidos por profesionales (Ejemplo: PhD, MSc, MA)
* El texto en un idioma extranjero nunca debe ser etiquetado como una entidad con nombre
* Transcripciones fonticas de las palabras nunca son entidades nombradas
Ejemplo: (Anidado)
En la oracin "Le El Retrato de Dorian Gray", uno estara tentado a marcar "El Retrato de Dorian
Gray" como "TTULO:LIBRO" Y marcar la estrctura inadada en esta oracin "Doran Gray"
como Persona. Sin embargo, siguiendo el principio del Alcance mas Largo, esperamos solo una
etiqueta para toda la oracin "El Retrato de Doran Gray" como "TTULO: LIBRO"
Mientras que en un futuro puede ser ventajoso coleccionar posibles etiquetas mltiples para el
mismo elemento, actualmente estamos limitando nuestras anotaciones a 1 etiqueta por 1
elemento . Sin embargo, en el caso donde dos etiquetas pueden ser lgicamente aplicadas,
solo una de ellas debe ser seleccionada como la ms representativa en el contexto dado. Por
ejemplo, "Luego de graduarse de la secundaria, John volvi a visitar la secundaria Marietta
frecuentemente para caminar alrededor del campus", el elemento "Secundaria Marietta"
podra lgicamente ser una organizacin o un lugar. Es decisin de la persona decidir si el
contexto apunta mas hacia un lugar o una organizacin. Ya que la oracin habla de caminar
alrededor del campus, la etiqueta Localizacin es ms apropiada. Pero si la oracin terminara
as "visita la secundaria Marietta para reunirse con el director y evaluar su modelo de
educacin" entonces en ese caso, la etiqueta Organizacin es ms apropiada.
1. Organizacin vs Localizacin
Algunas entidades pueden ser tanto Localizacin como Organizacin dependiendo del
contexto. Es importante considerar qu aspectos de una entidad estn siendo resaltados en el
contexto antes de decidir una etiqueta. Si se concentra en la estructura organizacional,
funcin, o comportamiento de la entidad, entonces es una Organizacin. Si, se concentra en el
espacio fsico o la ubicacin relativa (ya sea, estar ah, llegar ah, relatando dnde est)
entonces debe ser marcada como Localizacin.
20.P or ejemplo, "Estados Unidos" y "Boston" son Localizaciones por defecto,
pero ambas pueden ser ORG o LOC
21."Los Estados Unidos iniciaron una guerra": ORG
22."Me mud a Estados Unidos": LOC
23."Boston gano el juego de basquet": ORG
24."Amo caminar en Boston": LOC
b. Igualmente, algo que es ORG por defecto como "Secundaria Marietta" o "Google"
pueden ser LOC dependiendo del concepto.
25."El director de la Secundaria Marietta expidi un nuevo cdigo de
vestimenta" ORG
26."Amo visitar la Secundaria Marietta para ver como han cambiado los campos
de ftbol" LOC
27."Googl lanz un nuevo telfono" ORG
28."Amo caminar alrededor de Google, y ver como las personas estn enfocadas
en su trabajo" LOC
3. Organizacin vs Ttulo
Algunas veces el nombre de una compaia de fabricacin puede referirse tanto a la compaa
haciendo la fabricacin o a la fabricacin en s, particularmente con programas de televisin. El
contexto siempre debe ser usado para determinar si la referencia es a una organizacin o a el
contenido producido. Por ejemplo: "The Daily Show" puede ser tanto ORG como Ttulo en estos
casos:
a. The Daily Show ha realizado una donacin para los nios de Africa: ORG
b. El mejor programa de televisin es: The Daily Show: TITULO
5. Evento vs FECHA/LOC/ORG
A menudo se hace referencia a los eventos utilizando la ubicacin en la que se produjeron, la
fecha en la que ocurrieron, o la organizacin involucrada en ellos. Para estas referencias, si est
claro en el contexto en que la intencin es referirse al Evento ms que al identificador que enlaza
a el evento, entonces debe utilizarse la etiqueta Evento. En los siguientes ejemplos el Evento es
contrastado por cada una de las tres posibles referencias:
a. "Despus de Gettysburg, la guerra empeor mucho": EVENTO
b. "Las tropas llegaron a Gettysburg para la batalla mortal": LOC
c. "El gobierno us el 9/11 como excusa para una guerra mortal": EVENTO
d. "Todo el mundo recuerda dnde estaban el 9/11": FECHA
e. "Desafortunadamente, las leyes de armas no cambiaron despus de lo de la Escuela
Secundaria Columbine: EVENTO
f. "Su hija asisti a la Escuela Secundaria Columbine hasta el tiroteo": ORG
6. Fecha vs Cantidad
Las expresiones que implican unidades de tiempo, ya sean segundos, horas, das, aos o
siglos, pueden ser Fechas o Cantidades dependiendo del contexto y el uso. Si la expresin
proporciona informacin sobre cundo ocurri un evento o se refiere a un momento
especfico en la historia, debe utilizarse Fecha. Sin embargo, si la expresin describe la
duracin, la frecuencia o cualquier otro uso que no apunta a un lugar en una lnea de
tiempo, entonces se debe marcar como Cantidad. Por ejemplo, "5 minutos" puede ser
Fecha o Cantidad en los siguientes casos:
a. "Lleg all [hace 5 minutos] para la cena": FECHA
b. "Esper en fila durante [5 minutos] antes de salir": QUANT
2. Puntuacin:
Cualquier puntuacin que aparezca como parte del nombre de la entidad debe incluirse en
la anotacin, mientras que las puntuacines que estn ubicadas incidentalmente justo
despues de la entidad mencionada debe ser omitida. Por ejemplo:
a. Puntuacion Incluida: I.B.M., Pepsi Co., AT&T, Yahoo!, Sammy Davis Jr.
b. NO INCLUIDAS: "Lleg a Londres.", "Esa compaa (BBC) es increble"
4. Posesivos:
Los Posesivos en ingls identificados con ('s) no deben ser incluidos como parte de la entidad.
Por ejemplo:
a. Aeropuerto de Londrs - "London[LOC]s Airport"
b. La fiesta del ao pasado - "Last year[FECHA]'s party"
7. Errores Ortogrficos
Si hay un claro error ortogrfico, entonces las entidades mal escritas deben ser etiquetadas igual
que si estuviesen bien escritas. Si no se puede determinar si algo es un error ortogrfico o una
entidad desconocidad y la referencia externa mas el contexto no pueden aclararlo entonces debe
dejarse sin etiquetar.
9. Palabras designadoras.
De manera similar a los ttulos y tratamientos honorficos, los designadores (como
"organizacin", "montaa", "ciudad", "compaa", etc...) deben ser incluidos en la etiqueta
anotada si son comnmente usados cuando se hace referencia a la entidad o es parte del ttulo
oficial. Por ejemplo: "Ro", "ciudad" y "masacre", pueden o no ser incluidos dependiendo del
contexto.
a. Incluye: "Nad el Ro Misisipi[LOC]", "Yo vivo en New York City[LOC]", La Masacre de
Boston[EVENTO]"
b. NO incluye: "El ro ms grande de Europa[LOC]", "Poughkeepsie[LOC] es una ciudad de
Nueva York[LOC]", "La masacre en Alepo[LOC] de los ultimos aos"
10.Apodos
Si a una entidad se le est haciendo referencia por un apodo, y el apodo es un sustituto aceptado
comnmente o es aclarado por el contexto que se refiere a una entidad, entonces debe ser
marcado como si fuese la referencia original.
a. "Amo comprar en La Gran Manzana[LOC]" ("La Gran Manzana es Nueva York")
b. "Big Blue[ORG] lanz una nueva computadora este ao" ("Big blue es IBM)
c. "Mi abuelo peleo en el Dia D[EVENTO]" (Dia de se refiere a la Batalla de Normanda)