Sunteți pe pagina 1din 18

Practici optime pentru

interconectarea
datelor multilingvistice

Student: Piscuc Dinu


Facultatea de Matematic i Informatic
Progam de studii Ingineri Software

Web of documents

Unitatea de informaie:
pagina web(HTML)
Inteligibil de ctre om
Provocare: pagini
multilingvistice

Web of data

Unitatea de informaie:
date(RDF)
Inteligibil de ctre
main
Intringsec multilingvistic

Date multilingvistice

Date ce apar ntr-un context multilingvistic

Conin etichete/comentarii

Informaii uman inteligibile

Folosesc diferite limbaje/convenii

Practici optime
1)Numirea
2)Deferenierea
3)Etichetarea
4)Descrieri consistente
5)Corelarea
6)Reutilizarea

1.) a) URI-uri descriptive

Nu depind de implementare

Sunt invariabile n timp

Folosesc caractere ASCII

Reprezint termeni n limbaje naturale

Menin un echilibru ntre lizibilitate i folosin

1) b) URI-uri opace

Nu depind de implementare

Sunt invariabile n timp

Accentueaz independena unei resurse de


reprezentarea sa n limbaj natural
Menite uzului interne

1) c) IRI-uri ntregi

Folosesc caractere UNICODE

Favorizeaz lizibilitatea

Susceptibile atacurilor spoof, glife cu aspect


asemntor reprezint caractere diferite
Suport software sczut

1) d) Nume locale internaionalizate

Domeniul restricionat la caractere ASCII

Numele local folosete caractere UNICODE

Sursa autoritativ nu e susceptibil atacurilor


omografe
Lizibilitate crescut

1) e) Includerea limbajului n URI

Folosirea identificatorilor de limbaj

Seturi de date diferite, locaii diferite

Multe dialecte, subspecializate

Locaia tag-ului

2) Deferenierea

Obinerea coninutului refereniat de


identificatorii de resurse
Negociere de coninut intrinsec protocolului
HTTP

2) a) Negocierea limbajului

Parte a arhitecturii Web(Accept-language)

Date diferite pentru limbaje diferite

Reduce limea de band folosit i procesarea


pe partea clientului
Complic dezvoltarea
Reprezentri ale coninutului echivalente
semantic

2) b) Fr negociere de limbaj

Acelasi rezultat indiferent de informaiile din


header-ul HTTP

Datele multilingvistice sunt uor de manipulat

Implementare consistent

Evit problemele de echivalen semantic

Surplus computaional de partea clientului

3) Etichetarea

Informaii textuale scurte

Expun date i alte resurse utilizatorilor

Proprieti: rdfs:label, skos:prefLabel, dc:Title

3) 1) Etichetarea tuturor resurselor

Indivizi, concepte, entiti, proprieti


Afiarea datelor utiliztorilor prin ascunderea
URI-urilor

Indexare rapid

Folosirea facil a instrumentelor de adnotare

Dificil pentru resursele generate automat

3) 2) Etichete multilingvistice

Etichetele conin informaii n limbaj natural

Parte a standardului RDF

Bine suportat de instrumente semantice web

Favorizeaz interogrile SPARQL

4) Descrieri consistente

Atunci cnd etichetele nu satisfac cerinele

Etichetele produc ambiguiti

Proprieti proprii sau comun:


dcterms:description, rdfs:common

4) 1) Descompunerea descrierilor
lungi

Resurse noi reprezentate cu etichete mai scurte


sau entiti lexicale
Informaii textuale granulare uor de localizat i
adaptat

4) 2) Informaii lexicale

4) 3) Literali structurali

5) Corelarea

5) 1) Corelri interlingvistice de identitate

5) 2) Corelri interlingvistice de echivalen

5) 3) Adugarea metadatelor multilingvistice

6) Reutilizarea

6) 1) Vocabulare monoligvistice

6) 2) Vocabulare multilingvisitice

6) 3) Localizarea vocabularelor existente

S-ar putea să vă placă și